diff --git "a/training_log.jsonl" "b/training_log.jsonl"
new file mode 100644--- /dev/null
+++ "b/training_log.jsonl"
@@ -0,0 +1,13450 @@
+{"loss": 1.92461526, "token_acc": 0.67730496, "grad_norm": 4.52849102, "learning_rate": 0.0001, "memory(GiB)": 27.45, "train_speed(iter/s)": 0.144363, "epoch": 7.623e-05, "global_step/max_steps": "1/65595", "percentage": "0.00%", "elapsed_time": "4s", "remaining_time": "3d 13h 27m 0s"}
+{"loss": 1.20216012, "token_acc": 0.68607359, "grad_norm": 1.75195789, "learning_rate": 0.0001, "memory(GiB)": 55.68, "train_speed(iter/s)": 0.253992, "epoch": 0.00038113, "global_step/max_steps": "5/65595", "percentage": "0.01%", "elapsed_time": "17s", "remaining_time": "2d 15h 34m 43s"}
+{"loss": 0.60561604, "token_acc": 0.80095721, "grad_norm": 0.4612968, "learning_rate": 0.0001, "memory(GiB)": 75.01, "train_speed(iter/s)": 0.261969, "epoch": 0.00076225, "global_step/max_steps": "10/65595", "percentage": "0.02%", "elapsed_time": "35s", "remaining_time": "2d 17h 28m 1s"}
+{"loss": 0.62644973, "token_acc": 0.77169197, "grad_norm": 0.39309132, "learning_rate": 0.0001, "memory(GiB)": 75.01, "train_speed(iter/s)": 0.281731, "epoch": 0.00114338, "global_step/max_steps": "15/65595", "percentage": "0.02%", "elapsed_time": "51s", "remaining_time": "2d 13h 56m 33s"}
+{"loss": 0.51035237, "token_acc": 0.79579185, "grad_norm": 0.53905672, "learning_rate": 0.0001, "memory(GiB)": 75.01, "train_speed(iter/s)": 0.286165, "epoch": 0.00152451, "global_step/max_steps": "20/65595", "percentage": "0.03%", "elapsed_time": "1m 7s", "remaining_time": "2d 13h 36m 55s"}
+{"loss": 0.4732717, "token_acc": 0.83113879, "grad_norm": 0.37685305, "learning_rate": 0.0001, "memory(GiB)": 75.01, "train_speed(iter/s)": 0.286581, "epoch": 0.00190563, "global_step/max_steps": "25/65595", "percentage": "0.04%", "elapsed_time": "1m 24s", "remaining_time": "2d 13h 55m 32s"}
+{"loss": 0.51664557, "token_acc": 0.81693029, "grad_norm": 0.99302286, "learning_rate": 0.0001, "memory(GiB)": 75.01, "train_speed(iter/s)": 0.292458, "epoch": 0.00228676, "global_step/max_steps": "30/65595", "percentage": "0.05%", "elapsed_time": "1m 40s", "remaining_time": "2d 12h 54m 56s"}
+{"loss": 0.40765429, "token_acc": 0.85226456, "grad_norm": 0.22301158, "learning_rate": 0.0001, "memory(GiB)": 101.64, "train_speed(iter/s)": 0.282366, "epoch": 0.00266789, "global_step/max_steps": "35/65595", "percentage": "0.05%", "elapsed_time": "2m 1s", "remaining_time": "2d 15h 19m 49s"}
+{"loss": 0.45731206, "token_acc": 0.82876976, "grad_norm": 0.5454061, "learning_rate": 0.0001, "memory(GiB)": 101.64, "train_speed(iter/s)": 0.284384, "epoch": 0.00304901, "global_step/max_steps": "40/65595", "percentage": "0.06%", "elapsed_time": "2m 18s", "remaining_time": "2d 15h 0m 49s"}
+{"loss": 0.4283186, "token_acc": 0.85258964, "grad_norm": 0.68898487, "learning_rate": 0.0001, "memory(GiB)": 101.64, "train_speed(iter/s)": 0.290818, "epoch": 0.00343014, "global_step/max_steps": "45/65595", "percentage": "0.07%", "elapsed_time": "2m 32s", "remaining_time": "2d 13h 42m 19s"}
+{"loss": 0.49501114, "token_acc": 0.82032494, "grad_norm": 0.58779103, "learning_rate": 0.0001, "memory(GiB)": 101.64, "train_speed(iter/s)": 0.288583, "epoch": 0.00381127, "global_step/max_steps": "50/65595", "percentage": "0.08%", "elapsed_time": "2m 51s", "remaining_time": "2d 14h 16m 33s"}
+{"loss": 0.55112882, "token_acc": 0.77995925, "grad_norm": 0.40256166, "learning_rate": 0.0001, "memory(GiB)": 101.64, "train_speed(iter/s)": 0.28885, "epoch": 0.00419239, "global_step/max_steps": "55/65595", "percentage": "0.08%", "elapsed_time": "3m 8s", "remaining_time": "2d 14h 17m 13s"}
+{"loss": 0.44287696, "token_acc": 0.84110407, "grad_norm": 0.49021301, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.287094, "epoch": 0.00457352, "global_step/max_steps": "60/65595", "percentage": "0.09%", "elapsed_time": "3m 26s", "remaining_time": "2d 14h 43m 46s"}
+{"loss": 0.48649511, "token_acc": 0.81735395, "grad_norm": 0.71904624, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.285589, "epoch": 0.00495465, "global_step/max_steps": "65/65595", "percentage": "0.10%", "elapsed_time": "3m 45s", "remaining_time": "2d 15h 6m 39s"}
+{"loss": 0.39217854, "token_acc": 0.84818558, "grad_norm": 0.63366634, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.286862, "epoch": 0.00533577, "global_step/max_steps": "70/65595", "percentage": "0.11%", "elapsed_time": "4m 1s", "remaining_time": "2d 14h 52m 5s"}
+{"loss": 0.43285732, "token_acc": 0.84835911, "grad_norm": 0.25349388, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.286473, "epoch": 0.0057169, "global_step/max_steps": "75/65595", "percentage": "0.11%", "elapsed_time": "4m 19s", "remaining_time": "2d 14h 59m 17s"}
+{"loss": 0.48013191, "token_acc": 0.81770205, "grad_norm": 0.84161592, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.286314, "epoch": 0.00609803, "global_step/max_steps": "80/65595", "percentage": "0.12%", "elapsed_time": "4m 37s", "remaining_time": "2d 15h 3m 9s"}
+{"loss": 0.5126121, "token_acc": 0.7738553, "grad_norm": 1.57062149, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.288732, "epoch": 0.00647915, "global_step/max_steps": "85/65595", "percentage": "0.13%", "elapsed_time": "4m 52s", "remaining_time": "2d 14h 32m 44s"}
+{"loss": 0.46119661, "token_acc": 0.80804502, "grad_norm": 0.38129294, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.289571, "epoch": 0.00686028, "global_step/max_steps": "90/65595", "percentage": "0.14%", "elapsed_time": "5m 8s", "remaining_time": "2d 14h 23m 5s"}
+{"loss": 0.49420366, "token_acc": 0.81931522, "grad_norm": 0.55383676, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.290225, "epoch": 0.00724141, "global_step/max_steps": "95/65595", "percentage": "0.14%", "elapsed_time": "5m 25s", "remaining_time": "2d 14h 15m 43s"}
+{"loss": 0.56291513, "token_acc": 0.75962773, "grad_norm": 0.69442171, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.291891, "epoch": 0.00762253, "global_step/max_steps": "100/65595", "percentage": "0.15%", "elapsed_time": "5m 40s", "remaining_time": "2d 13h 55m 16s"}
+{"loss": 0.48011856, "token_acc": 0.82350925, "grad_norm": 0.43158141, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.293535, "epoch": 0.00800366, "global_step/max_steps": "105/65595", "percentage": "0.16%", "elapsed_time": "5m 55s", "remaining_time": "2d 13h 35m 12s"}
+{"loss": 0.38431411, "token_acc": 0.84507863, "grad_norm": 0.57362229, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.296656, "epoch": 0.00838479, "global_step/max_steps": "110/65595", "percentage": "0.17%", "elapsed_time": "6m 8s", "remaining_time": "2d 12h 56m 52s"}
+{"loss": 0.38381362, "token_acc": 0.85207322, "grad_norm": 0.66567683, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298319, "epoch": 0.00876591, "global_step/max_steps": "115/65595", "percentage": "0.18%", "elapsed_time": "6m 23s", "remaining_time": "2d 12h 37m 2s"}
+{"loss": 0.45654473, "token_acc": 0.82861967, "grad_norm": 1.11919892, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.299776, "epoch": 0.00914704, "global_step/max_steps": "120/65595", "percentage": "0.18%", "elapsed_time": "6m 38s", "remaining_time": "2d 12h 19m 52s"}
+{"loss": 0.47764311, "token_acc": 0.81235983, "grad_norm": 1.0045594, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.3002, "epoch": 0.00952817, "global_step/max_steps": "125/65595", "percentage": "0.19%", "elapsed_time": "6m 54s", "remaining_time": "2d 12h 15m 16s"}
+{"loss": 0.45987854, "token_acc": 0.82882693, "grad_norm": 0.76019019, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298578, "epoch": 0.00990929, "global_step/max_steps": "130/65595", "percentage": "0.20%", "elapsed_time": "7m 13s", "remaining_time": "2d 12h 35m 29s"}
+{"loss": 0.38177116, "token_acc": 0.84709108, "grad_norm": 0.42522627, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298282, "epoch": 0.01029042, "global_step/max_steps": "135/65595", "percentage": "0.21%", "elapsed_time": "7m 30s", "remaining_time": "2d 12h 39m 32s"}
+{"loss": 0.40925574, "token_acc": 0.82933479, "grad_norm": 0.44290638, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.29882, "epoch": 0.01067155, "global_step/max_steps": "140/65595", "percentage": "0.21%", "elapsed_time": "7m 46s", "remaining_time": "2d 12h 33m 18s"}
+{"loss": 0.47241254, "token_acc": 0.80907372, "grad_norm": 0.4845686, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298429, "epoch": 0.01105267, "global_step/max_steps": "145/65595", "percentage": "0.22%", "elapsed_time": "8m 3s", "remaining_time": "2d 12h 38m 25s"}
+{"loss": 0.40156565, "token_acc": 0.83249697, "grad_norm": 0.56388694, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298221, "epoch": 0.0114338, "global_step/max_steps": "150/65595", "percentage": "0.23%", "elapsed_time": "8m 20s", "remaining_time": "2d 12h 41m 15s"}
+{"loss": 0.35834, "token_acc": 0.86333401, "grad_norm": 0.63501573, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298018, "epoch": 0.01181492, "global_step/max_steps": "155/65595", "percentage": "0.24%", "elapsed_time": "8m 37s", "remaining_time": "2d 12h 43m 59s"}
+{"loss": 0.41852713, "token_acc": 0.78043478, "grad_norm": 0.72991627, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298977, "epoch": 0.01219605, "global_step/max_steps": "160/65595", "percentage": "0.24%", "elapsed_time": "8m 52s", "remaining_time": "2d 12h 32m 27s"}
+{"loss": 0.44895658, "token_acc": 0.8196944, "grad_norm": 0.81218749, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.29989, "epoch": 0.01257718, "global_step/max_steps": "165/65595", "percentage": "0.25%", "elapsed_time": "9m 7s", "remaining_time": "2d 12h 21m 32s"}
+{"loss": 0.37916682, "token_acc": 0.8517262, "grad_norm": 0.40584743, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.299447, "epoch": 0.0129583, "global_step/max_steps": "170/65595", "percentage": "0.26%", "elapsed_time": "9m 25s", "remaining_time": "2d 12h 27m 5s"}
+{"loss": 0.42338405, "token_acc": 0.83909947, "grad_norm": 0.80799234, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.296935, "epoch": 0.01333943, "global_step/max_steps": "175/65595", "percentage": "0.27%", "elapsed_time": "9m 47s", "remaining_time": "2d 12h 58m 1s"}
+{"loss": 0.50395675, "token_acc": 0.81345143, "grad_norm": 1.06645036, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.297514, "epoch": 0.01372056, "global_step/max_steps": "180/65595", "percentage": "0.27%", "elapsed_time": "10m 2s", "remaining_time": "2d 12h 50m 58s"}
+{"loss": 0.45125504, "token_acc": 0.82119434, "grad_norm": 0.91022485, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298491, "epoch": 0.01410168, "global_step/max_steps": "185/65595", "percentage": "0.28%", "elapsed_time": "10m 17s", "remaining_time": "2d 12h 39m 4s"}
+{"loss": 0.39188478, "token_acc": 0.83673984, "grad_norm": 0.52325642, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298917, "epoch": 0.01448281, "global_step/max_steps": "190/65595", "percentage": "0.29%", "elapsed_time": "10m 33s", "remaining_time": "2d 12h 33m 56s"}
+{"loss": 0.47884336, "token_acc": 0.81496183, "grad_norm": 0.72892052, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298475, "epoch": 0.01486394, "global_step/max_steps": "195/65595", "percentage": "0.30%", "elapsed_time": "10m 51s", "remaining_time": "2d 12h 39m 23s"}
+{"loss": 0.3874506, "token_acc": 0.84173402, "grad_norm": 0.3448374, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298135, "epoch": 0.01524506, "global_step/max_steps": "200/65595", "percentage": "0.30%", "elapsed_time": "11m 8s", "remaining_time": "2d 12h 43m 35s"}
+{"eval_loss": 0.35053906, "eval_token_acc": 0.83619963, "eval_runtime": 194.0246, "eval_samples_per_second": 2.732, "eval_steps_per_second": 2.732, "epoch": 0.01524506, "global_step/max_steps": "200/65595", "percentage": "0.30%", "elapsed_time": "14m 22s", "remaining_time": "3d 6h 20m 58s"}
+{"loss": 0.48143721, "token_acc": 0.83561188, "grad_norm": 0.86973107, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232612, "epoch": 0.01562619, "global_step/max_steps": "205/65595", "percentage": "0.31%", "elapsed_time": "14m 39s", "remaining_time": "3d 5h 53m 18s"}
+{"loss": 0.48947477, "token_acc": 0.79375563, "grad_norm": 1.46159661, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234395, "epoch": 0.01600732, "global_step/max_steps": "210/65595", "percentage": "0.32%", "elapsed_time": "14m 53s", "remaining_time": "3d 5h 17m 35s"}
+{"loss": 0.41200728, "token_acc": 0.84414962, "grad_norm": 1.56006062, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235235, "epoch": 0.01638844, "global_step/max_steps": "215/65595", "percentage": "0.33%", "elapsed_time": "15m 11s", "remaining_time": "3d 5h 0m 54s"}
+{"loss": 0.446877, "token_acc": 0.83218641, "grad_norm": 0.94817936, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235175, "epoch": 0.01676957, "global_step/max_steps": "220/65595", "percentage": "0.34%", "elapsed_time": "15m 33s", "remaining_time": "3d 5h 1m 59s"}
+{"loss": 0.44192066, "token_acc": 0.84307079, "grad_norm": 0.89989781, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236345, "epoch": 0.0171507, "global_step/max_steps": "225/65595", "percentage": "0.34%", "elapsed_time": "15m 49s", "remaining_time": "3d 4h 38m 57s"}
+{"loss": 0.42284694, "token_acc": 0.83198878, "grad_norm": 0.62560552, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237912, "epoch": 0.01753182, "global_step/max_steps": "230/65595", "percentage": "0.35%", "elapsed_time": "16m 4s", "remaining_time": "3d 4h 8m 28s"}
+{"loss": 0.33814793, "token_acc": 0.85734463, "grad_norm": 1.33270514, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238446, "epoch": 0.01791295, "global_step/max_steps": "235/65595", "percentage": "0.36%", "elapsed_time": "16m 23s", "remaining_time": "3d 3h 58m 5s"}
+{"loss": 0.46089449, "token_acc": 0.80805993, "grad_norm": 1.05813313, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239826, "epoch": 0.01829408, "global_step/max_steps": "240/65595", "percentage": "0.37%", "elapsed_time": "16m 38s", "remaining_time": "3d 3h 31m 41s"}
+{"loss": 0.43967972, "token_acc": 0.82760664, "grad_norm": 1.00302601, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241188, "epoch": 0.0186752, "global_step/max_steps": "245/65595", "percentage": "0.37%", "elapsed_time": "16m 53s", "remaining_time": "3d 3h 5m 53s"}
+{"loss": 0.48890553, "token_acc": 0.78324657, "grad_norm": 2.65301251, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24279, "epoch": 0.01905633, "global_step/max_steps": "250/65595", "percentage": "0.38%", "elapsed_time": "17m 7s", "remaining_time": "3d 2h 35m 57s"}
+{"loss": 0.36986828, "token_acc": 0.83257273, "grad_norm": 0.60141104, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244074, "epoch": 0.01943746, "global_step/max_steps": "255/65595", "percentage": "0.39%", "elapsed_time": "17m 22s", "remaining_time": "3d 2h 12m 12s"}
+{"loss": 0.4072227, "token_acc": 0.84202229, "grad_norm": 0.6963219, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244368, "epoch": 0.01981858, "global_step/max_steps": "260/65595", "percentage": "0.40%", "elapsed_time": "17m 41s", "remaining_time": "3d 2h 6m 41s"}
+{"loss": 0.37305038, "token_acc": 0.86296006, "grad_norm": 0.49515939, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245124, "epoch": 0.02019971, "global_step/max_steps": "265/65595", "percentage": "0.40%", "elapsed_time": "17m 58s", "remaining_time": "3d 1h 52m 46s"}
+{"loss": 0.43202467, "token_acc": 0.80309028, "grad_norm": 0.43080324, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246039, "epoch": 0.02058084, "global_step/max_steps": "270/65595", "percentage": "0.41%", "elapsed_time": "18m 15s", "remaining_time": "3d 1h 36m 5s"}
+{"loss": 0.47257996, "token_acc": 0.78485945, "grad_norm": 0.95317739, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247121, "epoch": 0.02096196, "global_step/max_steps": "275/65595", "percentage": "0.42%", "elapsed_time": "18m 30s", "remaining_time": "3d 1h 16m 32s"}
+{"loss": 0.39283667, "token_acc": 0.82717058, "grad_norm": 1.5243268, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.248078, "epoch": 0.02134309, "global_step/max_steps": "280/65595", "percentage": "0.43%", "elapsed_time": "18m 46s", "remaining_time": "3d 0h 59m 22s"}
+{"loss": 0.37721012, "token_acc": 0.85571142, "grad_norm": 0.95951247, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.248213, "epoch": 0.02172422, "global_step/max_steps": "285/65595", "percentage": "0.43%", "elapsed_time": "19m 5s", "remaining_time": "3d 0h 56m 48s"}
+{"loss": 0.33346145, "token_acc": 0.8577141, "grad_norm": 0.73581398, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.249156, "epoch": 0.02210534, "global_step/max_steps": "290/65595", "percentage": "0.44%", "elapsed_time": "19m 21s", "remaining_time": "3d 0h 40m 1s"}
+{"loss": 0.37527118, "token_acc": 0.85140148, "grad_norm": 0.47510317, "learning_rate": 0.0001, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.249662, "epoch": 0.02248647, "global_step/max_steps": "295/65595", "percentage": "0.45%", "elapsed_time": "19m 39s", "remaining_time": "3d 0h 30m 58s"}
+{"loss": 0.35883484, "token_acc": 0.86017592, "grad_norm": 0.64747214, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.250854, "epoch": 0.0228676, "global_step/max_steps": "300/65595", "percentage": "0.46%", "elapsed_time": "19m 53s", "remaining_time": "3d 0h 10m 3s"}
+{"loss": 0.43385692, "token_acc": 0.83260751, "grad_norm": 0.73261368, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.251247, "epoch": 0.02324872, "global_step/max_steps": "305/65595", "percentage": "0.46%", "elapsed_time": "20m 11s", "remaining_time": "3d 0h 3m 5s"}
+{"loss": 0.41932645, "token_acc": 0.84139785, "grad_norm": 0.46831688, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.251192, "epoch": 0.02362985, "global_step/max_steps": "310/65595", "percentage": "0.47%", "elapsed_time": "20m 31s", "remaining_time": "3d 0h 3m 49s"}
+{"loss": 0.4343081, "token_acc": 0.81512846, "grad_norm": 0.46098605, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.251629, "epoch": 0.02401098, "global_step/max_steps": "315/65595", "percentage": "0.48%", "elapsed_time": "20m 49s", "remaining_time": "2d 23h 56m 5s"}
+{"loss": 0.42991333, "token_acc": 0.82749485, "grad_norm": 0.57217693, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.252658, "epoch": 0.0243921, "global_step/max_steps": "320/65595", "percentage": "0.49%", "elapsed_time": "21m 4s", "remaining_time": "2d 23h 38m 16s"}
+{"loss": 0.47609596, "token_acc": 0.83528418, "grad_norm": 0.30305207, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.252577, "epoch": 0.02477323, "global_step/max_steps": "325/65595", "percentage": "0.50%", "elapsed_time": "21m 24s", "remaining_time": "2d 23h 39m 26s"}
+{"loss": 0.35333943, "token_acc": 0.84527747, "grad_norm": 0.380292, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.253365, "epoch": 0.02515436, "global_step/max_steps": "330/65595", "percentage": "0.50%", "elapsed_time": "21m 40s", "remaining_time": "2d 23h 25m 49s"}
+{"loss": 0.41803036, "token_acc": 0.83797764, "grad_norm": 0.97431064, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.253802, "epoch": 0.02553548, "global_step/max_steps": "335/65595", "percentage": "0.51%", "elapsed_time": "21m 57s", "remaining_time": "2d 23h 18m 13s"}
+{"loss": 0.461059, "token_acc": 0.81294026, "grad_norm": 1.14145684, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.254605, "epoch": 0.02591661, "global_step/max_steps": "340/65595", "percentage": "0.52%", "elapsed_time": "22m 13s", "remaining_time": "2d 23h 4m 29s"}
+{"loss": 0.46761999, "token_acc": 0.77539737, "grad_norm": 0.72280657, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.255637, "epoch": 0.02629774, "global_step/max_steps": "345/65595", "percentage": "0.53%", "elapsed_time": "22m 27s", "remaining_time": "2d 22h 47m 1s"}
+{"loss": 0.37089982, "token_acc": 0.85543505, "grad_norm": 0.38195086, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.25576, "epoch": 0.02667886, "global_step/max_steps": "350/65595", "percentage": "0.53%", "elapsed_time": "22m 46s", "remaining_time": "2d 22h 44m 44s"}
+{"loss": 0.42815542, "token_acc": 0.835082, "grad_norm": 0.48378277, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.255386, "epoch": 0.02705999, "global_step/max_steps": "355/65595", "percentage": "0.54%", "elapsed_time": "23m 7s", "remaining_time": "2d 22h 50m 45s"}
+{"loss": 0.41931887, "token_acc": 0.83383782, "grad_norm": 0.53919059, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.255675, "epoch": 0.02744112, "global_step/max_steps": "360/65595", "percentage": "0.55%", "elapsed_time": "23m 25s", "remaining_time": "2d 22h 45m 43s"}
+{"loss": 0.4532865, "token_acc": 0.82964314, "grad_norm": 0.59563881, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.256309, "epoch": 0.02782224, "global_step/max_steps": "365/65595", "percentage": "0.56%", "elapsed_time": "23m 41s", "remaining_time": "2d 22h 34m 57s"}
+{"loss": 0.38429875, "token_acc": 0.83124415, "grad_norm": 0.60024852, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.256908, "epoch": 0.02820337, "global_step/max_steps": "370/65595", "percentage": "0.56%", "elapsed_time": "23m 57s", "remaining_time": "2d 22h 24m 50s"}
+{"loss": 0.38420839, "token_acc": 0.82638414, "grad_norm": 0.79802376, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.257219, "epoch": 0.0285845, "global_step/max_steps": "375/65595", "percentage": "0.57%", "elapsed_time": "24m 15s", "remaining_time": "2d 22h 19m 28s"}
+{"loss": 0.39796832, "token_acc": 0.83127237, "grad_norm": 1.97500658, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.257562, "epoch": 0.02896562, "global_step/max_steps": "380/65595", "percentage": "0.58%", "elapsed_time": "24m 33s", "remaining_time": "2d 22h 13m 37s"}
+{"loss": 0.35439544, "token_acc": 0.85251216, "grad_norm": 0.66549832, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.258147, "epoch": 0.02934675, "global_step/max_steps": "385/65595", "percentage": "0.59%", "elapsed_time": "24m 49s", "remaining_time": "2d 22h 3m 48s"}
+{"loss": 0.42099104, "token_acc": 0.84410446, "grad_norm": 0.63144857, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.258796, "epoch": 0.02972788, "global_step/max_steps": "390/65595", "percentage": "0.59%", "elapsed_time": "25m 4s", "remaining_time": "2d 21h 53m 1s"}
+{"loss": 0.34807799, "token_acc": 0.85633947, "grad_norm": 0.72173023, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.259362, "epoch": 0.030109, "global_step/max_steps": "395/65595", "percentage": "0.60%", "elapsed_time": "25m 20s", "remaining_time": "2d 21h 43m 36s"}
+{"loss": 0.44669809, "token_acc": 0.79980658, "grad_norm": 0.87817425, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.260001, "epoch": 0.03049013, "global_step/max_steps": "400/65595", "percentage": "0.61%", "elapsed_time": "25m 36s", "remaining_time": "2d 21h 33m 4s"}
+{"eval_loss": 0.31395218, "eval_token_acc": 0.84725318, "eval_runtime": 184.9028, "eval_samples_per_second": 2.866, "eval_steps_per_second": 2.866, "epoch": 0.03049013, "global_step/max_steps": "400/65595", "percentage": "0.61%", "elapsed_time": "28m 41s", "remaining_time": "3d 5h 55m 22s"}
+{"loss": 0.48725071, "token_acc": 0.84595859, "grad_norm": 1.1393584, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232722, "epoch": 0.03087126, "global_step/max_steps": "405/65595", "percentage": "0.62%", "elapsed_time": "28m 58s", "remaining_time": "3d 5h 42m 40s"}
+{"loss": 0.3395452, "token_acc": 0.85064646, "grad_norm": 0.74830115, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233269, "epoch": 0.03125238, "global_step/max_steps": "410/65595", "percentage": "0.63%", "elapsed_time": "29m 15s", "remaining_time": "3d 5h 31m 26s"}
+{"loss": 0.31947992, "token_acc": 0.87083424, "grad_norm": 0.67656726, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234019, "epoch": 0.03163351, "global_step/max_steps": "415/65595", "percentage": "0.63%", "elapsed_time": "29m 31s", "remaining_time": "3d 5h 16m 12s"}
+{"loss": 0.46716166, "token_acc": 0.82078628, "grad_norm": 0.75123578, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234798, "epoch": 0.03201464, "global_step/max_steps": "420/65595", "percentage": "0.64%", "elapsed_time": "29m 46s", "remaining_time": "3d 5h 0m 32s"}
+{"loss": 0.32560742, "token_acc": 0.86752281, "grad_norm": 0.88709283, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235599, "epoch": 0.03239576, "global_step/max_steps": "425/65595", "percentage": "0.65%", "elapsed_time": "30m 1s", "remaining_time": "3d 4h 44m 30s"}
+{"loss": 0.38683448, "token_acc": 0.83066513, "grad_norm": 0.708731, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236148, "epoch": 0.03277689, "global_step/max_steps": "430/65595", "percentage": "0.66%", "elapsed_time": "30m 18s", "remaining_time": "3d 4h 33m 31s"}
+{"loss": 0.41447787, "token_acc": 0.84083163, "grad_norm": 0.48389447, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236785, "epoch": 0.03315802, "global_step/max_steps": "435/65595", "percentage": "0.66%", "elapsed_time": "30m 34s", "remaining_time": "3d 4h 20m 51s"}
+{"loss": 0.34633925, "token_acc": 0.85460856, "grad_norm": 1.32016265, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237625, "epoch": 0.03353914, "global_step/max_steps": "440/65595", "percentage": "0.67%", "elapsed_time": "30m 49s", "remaining_time": "3d 4h 4m 21s"}
+{"loss": 0.31364417, "token_acc": 0.8744168, "grad_norm": 1.3567754, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238504, "epoch": 0.03392027, "global_step/max_steps": "445/65595", "percentage": "0.68%", "elapsed_time": "31m 3s", "remaining_time": "3d 3h 47m 12s"}
+{"loss": 0.38259051, "token_acc": 0.8521446, "grad_norm": 0.63499469, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238717, "epoch": 0.03430139, "global_step/max_steps": "450/65595", "percentage": "0.69%", "elapsed_time": "31m 22s", "remaining_time": "3d 3h 42m 52s"}
+{"loss": 0.48904333, "token_acc": 0.80641688, "grad_norm": 0.7947877, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239305, "epoch": 0.03468252, "global_step/max_steps": "455/65595", "percentage": "0.69%", "elapsed_time": "31m 39s", "remaining_time": "3d 3h 31m 24s"}
+{"loss": 0.36441138, "token_acc": 0.85245902, "grad_norm": 1.04317605, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239876, "epoch": 0.03506365, "global_step/max_steps": "460/65595", "percentage": "0.70%", "elapsed_time": "31m 55s", "remaining_time": "3d 3h 20m 19s"}
+{"loss": 0.41066957, "token_acc": 0.85446429, "grad_norm": 1.19324136, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240276, "epoch": 0.03544477, "global_step/max_steps": "465/65595", "percentage": "0.71%", "elapsed_time": "32m 13s", "remaining_time": "3d 3h 12m 30s"}
+{"loss": 0.31864059, "token_acc": 0.83758083, "grad_norm": 1.57719171, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241127, "epoch": 0.0358259, "global_step/max_steps": "470/65595", "percentage": "0.72%", "elapsed_time": "32m 26s", "remaining_time": "3d 2h 56m 16s"}
+{"loss": 0.42525034, "token_acc": 0.82991285, "grad_norm": 0.72290844, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241785, "epoch": 0.03620703, "global_step/max_steps": "475/65595", "percentage": "0.72%", "elapsed_time": "32m 42s", "remaining_time": "3d 2h 43m 43s"}
+{"loss": 0.36940327, "token_acc": 0.85828427, "grad_norm": 0.41239479, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242385, "epoch": 0.03658815, "global_step/max_steps": "480/65595", "percentage": "0.73%", "elapsed_time": "32m 58s", "remaining_time": "3d 2h 32m 19s"}
+{"loss": 0.39645627, "token_acc": 0.84371585, "grad_norm": 1.16062832, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24281, "epoch": 0.03696928, "global_step/max_steps": "485/65595", "percentage": "0.74%", "elapsed_time": "33m 15s", "remaining_time": "3d 2h 24m 11s"}
+{"loss": 0.31522388, "token_acc": 0.86161388, "grad_norm": 0.55551112, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243348, "epoch": 0.03735041, "global_step/max_steps": "490/65595", "percentage": "0.75%", "elapsed_time": "33m 31s", "remaining_time": "3d 2h 14m 1s"}
+{"loss": 0.40636935, "token_acc": 0.85180528, "grad_norm": 0.32308224, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243587, "epoch": 0.03773153, "global_step/max_steps": "495/65595", "percentage": "0.75%", "elapsed_time": "33m 49s", "remaining_time": "3d 2h 9m 21s"}
+{"loss": 0.4154058, "token_acc": 0.8308977, "grad_norm": 0.85553437, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243855, "epoch": 0.03811266, "global_step/max_steps": "500/65595", "percentage": "0.76%", "elapsed_time": "34m 8s", "remaining_time": "3d 2h 4m 10s"}
+{"loss": 0.40863686, "token_acc": 0.81122584, "grad_norm": 0.89921188, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24454, "epoch": 0.03849379, "global_step/max_steps": "505/65595", "percentage": "0.77%", "elapsed_time": "34m 22s", "remaining_time": "3d 1h 51m 24s"}
+{"loss": 0.37297432, "token_acc": 0.84079709, "grad_norm": 0.4896268, "learning_rate": 9.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24501, "epoch": 0.03887491, "global_step/max_steps": "510/65595", "percentage": "0.78%", "elapsed_time": "34m 39s", "remaining_time": "3d 1h 42m 36s"}
+{"loss": 0.31490698, "token_acc": 0.85827216, "grad_norm": 0.78142989, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245637, "epoch": 0.03925604, "global_step/max_steps": "515/65595", "percentage": "0.79%", "elapsed_time": "34m 54s", "remaining_time": "3d 1h 31m 0s"}
+{"loss": 0.33796484, "token_acc": 0.87335702, "grad_norm": 0.4278664, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245892, "epoch": 0.03963717, "global_step/max_steps": "520/65595", "percentage": "0.79%", "elapsed_time": "35m 12s", "remaining_time": "3d 1h 26m 8s"}
+{"loss": 0.42396784, "token_acc": 0.83355007, "grad_norm": 0.62751192, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246305, "epoch": 0.04001829, "global_step/max_steps": "525/65595", "percentage": "0.80%", "elapsed_time": "35m 29s", "remaining_time": "3d 1h 18m 27s"}
+{"loss": 0.30825725, "token_acc": 0.87014315, "grad_norm": 1.59334016, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24708, "epoch": 0.04039942, "global_step/max_steps": "530/65595", "percentage": "0.81%", "elapsed_time": "35m 42s", "remaining_time": "3d 1h 4m 21s"}
+{"loss": 0.40679626, "token_acc": 0.8366409, "grad_norm": 0.58926731, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247567, "epoch": 0.04078055, "global_step/max_steps": "535/65595", "percentage": "0.82%", "elapsed_time": "35m 58s", "remaining_time": "3d 0h 55m 25s"}
+{"loss": 0.42982121, "token_acc": 0.82771498, "grad_norm": 0.49583557, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247619, "epoch": 0.04116167, "global_step/max_steps": "540/65595", "percentage": "0.82%", "elapsed_time": "36m 18s", "remaining_time": "3d 0h 54m 12s"}
+{"loss": 0.33466573, "token_acc": 0.87306955, "grad_norm": 0.35235232, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247475, "epoch": 0.0415428, "global_step/max_steps": "545/65595", "percentage": "0.83%", "elapsed_time": "36m 40s", "remaining_time": "3d 0h 56m 27s"}
+{"loss": 0.35076895, "token_acc": 0.82831695, "grad_norm": 0.72824728, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.248143, "epoch": 0.04192393, "global_step/max_steps": "550/65595", "percentage": "0.84%", "elapsed_time": "36m 54s", "remaining_time": "3d 0h 44m 22s"}
+{"loss": 0.42022486, "token_acc": 0.83831418, "grad_norm": 0.82474822, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24834, "epoch": 0.04230505, "global_step/max_steps": "555/65595", "percentage": "0.85%", "elapsed_time": "37m 12s", "remaining_time": "3d 0h 40m 36s"}
+{"loss": 0.32877262, "token_acc": 0.87214612, "grad_norm": 0.551907, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.248729, "epoch": 0.04268618, "global_step/max_steps": "560/65595", "percentage": "0.85%", "elapsed_time": "37m 29s", "remaining_time": "3d 0h 33m 29s"}
+{"loss": 0.3594696, "token_acc": 0.86602052, "grad_norm": 0.39140046, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.249071, "epoch": 0.04306731, "global_step/max_steps": "565/65595", "percentage": "0.86%", "elapsed_time": "37m 46s", "remaining_time": "3d 0h 27m 12s"}
+{"loss": 0.40318799, "token_acc": 0.84233689, "grad_norm": 0.460125, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.249162, "epoch": 0.04344843, "global_step/max_steps": "570/65595", "percentage": "0.87%", "elapsed_time": "38m 5s", "remaining_time": "3d 0h 25m 19s"}
+{"loss": 0.30100989, "token_acc": 0.86647412, "grad_norm": 0.82786942, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.249552, "epoch": 0.04382956, "global_step/max_steps": "575/65595", "percentage": "0.88%", "elapsed_time": "38m 21s", "remaining_time": "3d 0h 18m 13s"}
+{"loss": 0.38067412, "token_acc": 0.84510105, "grad_norm": 0.4566468, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.249605, "epoch": 0.04421069, "global_step/max_steps": "580/65595", "percentage": "0.88%", "elapsed_time": "38m 41s", "remaining_time": "3d 0h 17m 0s"}
+{"loss": 0.36945419, "token_acc": 0.84835672, "grad_norm": 0.96151358, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.249867, "epoch": 0.04459181, "global_step/max_steps": "585/65595", "percentage": "0.89%", "elapsed_time": "38m 59s", "remaining_time": "3d 0h 12m 9s"}
+{"loss": 0.26711183, "token_acc": 0.88656294, "grad_norm": 0.90809059, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.250311, "epoch": 0.04497294, "global_step/max_steps": "590/65595", "percentage": "0.90%", "elapsed_time": "39m 14s", "remaining_time": "3d 0h 4m 9s"}
+{"loss": 0.32480943, "token_acc": 0.87731703, "grad_norm": 0.44711837, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.25054, "epoch": 0.04535407, "global_step/max_steps": "595/65595", "percentage": "0.91%", "elapsed_time": "39m 32s", "remaining_time": "2d 23h 59m 54s"}
+{"loss": 0.35963225, "token_acc": 0.84882965, "grad_norm": 0.42623019, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.250607, "epoch": 0.04573519, "global_step/max_steps": "600/65595", "percentage": "0.91%", "elapsed_time": "39m 51s", "remaining_time": "2d 23h 58m 27s"}
+{"eval_loss": 0.28870463, "eval_token_acc": 0.85383411, "eval_runtime": 184.503, "eval_samples_per_second": 2.873, "eval_steps_per_second": 2.873, "epoch": 0.04573519, "global_step/max_steps": "600/65595", "percentage": "0.91%", "elapsed_time": "42m 56s", "remaining_time": "3d 5h 31m 34s"}
+{"loss": 0.39562352, "token_acc": 0.85346928, "grad_norm": 0.65231705, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232978, "epoch": 0.04611632, "global_step/max_steps": "605/65595", "percentage": "0.92%", "elapsed_time": "43m 14s", "remaining_time": "3d 5h 25m 13s"}
+{"loss": 0.36460192, "token_acc": 0.86784741, "grad_norm": 4.18465567, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233265, "epoch": 0.04649745, "global_step/max_steps": "610/65595", "percentage": "0.93%", "elapsed_time": "43m 32s", "remaining_time": "3d 5h 19m 10s"}
+{"loss": 0.38559694, "token_acc": 0.85453131, "grad_norm": 0.89089394, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233727, "epoch": 0.04687857, "global_step/max_steps": "615/65595", "percentage": "0.94%", "elapsed_time": "43m 49s", "remaining_time": "3d 5h 9m 39s"}
+{"loss": 0.28753085, "token_acc": 0.86190089, "grad_norm": 1.19557309, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234258, "epoch": 0.0472597, "global_step/max_steps": "620/65595", "percentage": "0.95%", "elapsed_time": "44m 4s", "remaining_time": "3d 4h 58m 50s"}
+{"loss": 0.29034255, "token_acc": 0.87627596, "grad_norm": 1.78032267, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234406, "epoch": 0.04764083, "global_step/max_steps": "625/65595", "percentage": "0.95%", "elapsed_time": "44m 24s", "remaining_time": "3d 4h 55m 36s"}
+{"loss": 0.41735506, "token_acc": 0.85092127, "grad_norm": 1.01092112, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234911, "epoch": 0.04802195, "global_step/max_steps": "630/65595", "percentage": "0.96%", "elapsed_time": "44m 39s", "remaining_time": "3d 4h 45m 21s"}
+{"loss": 0.42559781, "token_acc": 0.85132576, "grad_norm": 1.0904144, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235067, "epoch": 0.04840308, "global_step/max_steps": "635/65595", "percentage": "0.97%", "elapsed_time": "44m 59s", "remaining_time": "3d 4h 41m 58s"}
+{"loss": 0.33788905, "token_acc": 0.86013126, "grad_norm": 0.69531494, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235478, "epoch": 0.04878421, "global_step/max_steps": "640/65595", "percentage": "0.98%", "elapsed_time": "45m 15s", "remaining_time": "3d 4h 33m 36s"}
+{"loss": 0.41182442, "token_acc": 0.83578266, "grad_norm": 0.8727684, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2357, "epoch": 0.04916533, "global_step/max_steps": "645/65595", "percentage": "0.98%", "elapsed_time": "45m 34s", "remaining_time": "3d 4h 28m 56s"}
+{"loss": 0.33447845, "token_acc": 0.8690078, "grad_norm": 1.95382321, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236235, "epoch": 0.04954646, "global_step/max_steps": "650/65595", "percentage": "0.99%", "elapsed_time": "45m 49s", "remaining_time": "3d 4h 18m 13s"}
+{"loss": 0.25777881, "token_acc": 0.91040462, "grad_norm": 1.88709009, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236905, "epoch": 0.04992759, "global_step/max_steps": "655/65595", "percentage": "1.00%", "elapsed_time": "46m 2s", "remaining_time": "3d 4h 4m 55s"}
+{"loss": 0.3343282, "token_acc": 0.86430352, "grad_norm": 1.27112889, "learning_rate": 9.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237409, "epoch": 0.05030871, "global_step/max_steps": "660/65595", "percentage": "1.01%", "elapsed_time": "46m 17s", "remaining_time": "3d 3h 54m 55s"}
+{"loss": 0.33634739, "token_acc": 0.87506247, "grad_norm": 1.50996614, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237861, "epoch": 0.05068984, "global_step/max_steps": "665/65595", "percentage": "1.01%", "elapsed_time": "46m 33s", "remaining_time": "3d 3h 45m 56s"}
+{"loss": 0.29556079, "token_acc": 0.86098266, "grad_norm": 0.93540466, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238294, "epoch": 0.05107097, "global_step/max_steps": "670/65595", "percentage": "1.02%", "elapsed_time": "46m 49s", "remaining_time": "3d 3h 37m 20s"}
+{"loss": 0.41705332, "token_acc": 0.84090909, "grad_norm": 1.2429924, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238694, "epoch": 0.05145209, "global_step/max_steps": "675/65595", "percentage": "1.03%", "elapsed_time": "47m 5s", "remaining_time": "3d 3h 29m 24s"}
+{"loss": 0.36883168, "token_acc": 0.8493396, "grad_norm": 0.68013561, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239034, "epoch": 0.05183322, "global_step/max_steps": "680/65595", "percentage": "1.04%", "elapsed_time": "47m 22s", "remaining_time": "3d 3h 22m 38s"}
+{"loss": 0.39740996, "token_acc": 0.83628319, "grad_norm": 0.49400458, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239304, "epoch": 0.05221435, "global_step/max_steps": "685/65595", "percentage": "1.04%", "elapsed_time": "47m 40s", "remaining_time": "3d 3h 17m 12s"}
+{"loss": 0.33188796, "token_acc": 0.83977536, "grad_norm": 1.80523002, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239741, "epoch": 0.05259547, "global_step/max_steps": "690/65595", "percentage": "1.05%", "elapsed_time": "47m 55s", "remaining_time": "3d 3h 8m 38s"}
+{"loss": 0.33836963, "token_acc": 0.86227992, "grad_norm": 0.5305537, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239988, "epoch": 0.0529766, "global_step/max_steps": "695/65595", "percentage": "1.06%", "elapsed_time": "48m 13s", "remaining_time": "3d 3h 3m 40s"}
+{"loss": 0.47834249, "token_acc": 0.78889471, "grad_norm": 0.90123117, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240509, "epoch": 0.05335773, "global_step/max_steps": "700/65595", "percentage": "1.07%", "elapsed_time": "48m 28s", "remaining_time": "3d 2h 53m 36s"}
+{"loss": 0.4451992, "token_acc": 0.82416463, "grad_norm": 0.73617846, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240913, "epoch": 0.05373885, "global_step/max_steps": "705/65595", "percentage": "1.07%", "elapsed_time": "48m 44s", "remaining_time": "3d 2h 45m 44s"}
+{"loss": 0.41263223, "token_acc": 0.84611443, "grad_norm": 3.83959627, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241237, "epoch": 0.05411998, "global_step/max_steps": "710/65595", "percentage": "1.08%", "elapsed_time": "49m 0s", "remaining_time": "3d 2h 39m 23s"}
+{"loss": 0.31380873, "token_acc": 0.85585586, "grad_norm": 0.61085486, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241453, "epoch": 0.05450111, "global_step/max_steps": "715/65595", "percentage": "1.09%", "elapsed_time": "49m 18s", "remaining_time": "3d 2h 35m 3s"}
+{"loss": 0.40671577, "token_acc": 0.84956629, "grad_norm": 0.42579287, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241816, "epoch": 0.05488223, "global_step/max_steps": "720/65595", "percentage": "1.10%", "elapsed_time": "49m 35s", "remaining_time": "3d 2h 28m 1s"}
+{"loss": 0.34661815, "token_acc": 0.83837689, "grad_norm": 1.46006346, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242306, "epoch": 0.05526336, "global_step/max_steps": "725/65595", "percentage": "1.11%", "elapsed_time": "49m 49s", "remaining_time": "3d 2h 18m 39s"}
+{"loss": 0.35736883, "token_acc": 0.84172408, "grad_norm": 0.93441981, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242616, "epoch": 0.05564449, "global_step/max_steps": "730/65595", "percentage": "1.11%", "elapsed_time": "50m 6s", "remaining_time": "3d 2h 12m 38s"}
+{"loss": 0.38165083, "token_acc": 0.84037736, "grad_norm": 0.9474985, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242905, "epoch": 0.05602561, "global_step/max_steps": "735/65595", "percentage": "1.12%", "elapsed_time": "50m 23s", "remaining_time": "3d 2h 7m 0s"}
+{"loss": 0.39323974, "token_acc": 0.85469529, "grad_norm": 0.58805728, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243271, "epoch": 0.05640674, "global_step/max_steps": "740/65595", "percentage": "1.13%", "elapsed_time": "50m 39s", "remaining_time": "3d 1h 59m 59s"}
+{"loss": 0.32990253, "token_acc": 0.86507937, "grad_norm": 0.70980251, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243641, "epoch": 0.05678786, "global_step/max_steps": "745/65595", "percentage": "1.14%", "elapsed_time": "50m 55s", "remaining_time": "3d 1h 52m 55s"}
+{"loss": 0.33597443, "token_acc": 0.87119321, "grad_norm": 0.52059489, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243566, "epoch": 0.05716899, "global_step/max_steps": "750/65595", "percentage": "1.14%", "elapsed_time": "51m 17s", "remaining_time": "3d 1h 53m 58s"}
+{"loss": 0.34018242, "token_acc": 0.84994069, "grad_norm": 1.09357464, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243834, "epoch": 0.05755012, "global_step/max_steps": "755/65595", "percentage": "1.15%", "elapsed_time": "51m 34s", "remaining_time": "3d 1h 48m 46s"}
+{"loss": 0.43454089, "token_acc": 0.80019557, "grad_norm": 0.78972757, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244267, "epoch": 0.05793124, "global_step/max_steps": "760/65595", "percentage": "1.16%", "elapsed_time": "51m 49s", "remaining_time": "3d 1h 40m 35s"}
+{"loss": 0.31564341, "token_acc": 0.87634522, "grad_norm": 0.83275712, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244545, "epoch": 0.05831237, "global_step/max_steps": "765/65595", "percentage": "1.17%", "elapsed_time": "52m 6s", "remaining_time": "3d 1h 35m 14s"}
+{"loss": 0.29868894, "token_acc": 0.85528971, "grad_norm": 1.47924984, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244874, "epoch": 0.0586935, "global_step/max_steps": "770/65595", "percentage": "1.17%", "elapsed_time": "52m 22s", "remaining_time": "3d 1h 28m 59s"}
+{"loss": 0.32983637, "token_acc": 0.84919847, "grad_norm": 0.53740579, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244992, "epoch": 0.05907462, "global_step/max_steps": "775/65595", "percentage": "1.18%", "elapsed_time": "52m 41s", "remaining_time": "3d 1h 26m 33s"}
+{"loss": 0.32333326, "token_acc": 0.87387601, "grad_norm": 0.8622669, "learning_rate": 9.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24533, "epoch": 0.05945575, "global_step/max_steps": "780/65595", "percentage": "1.19%", "elapsed_time": "52m 57s", "remaining_time": "3d 1h 20m 9s"}
+{"loss": 0.34236159, "token_acc": 0.85324084, "grad_norm": 0.99522245, "learning_rate": 9.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245643, "epoch": 0.05983688, "global_step/max_steps": "785/65595", "percentage": "1.20%", "elapsed_time": "53m 13s", "remaining_time": "3d 1h 14m 13s"}
+{"loss": 0.34651976, "token_acc": 0.86216952, "grad_norm": 0.73188335, "learning_rate": 9.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246023, "epoch": 0.060218, "global_step/max_steps": "790/65595", "percentage": "1.20%", "elapsed_time": "53m 28s", "remaining_time": "3d 1h 7m 6s"}
+{"loss": 0.27611613, "token_acc": 0.87873623, "grad_norm": 0.62474096, "learning_rate": 9.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246005, "epoch": 0.06059913, "global_step/max_steps": "795/65595", "percentage": "1.21%", "elapsed_time": "53m 49s", "remaining_time": "3d 1h 7m 7s"}
+{"loss": 0.28562832, "token_acc": 0.8682824, "grad_norm": 0.38995156, "learning_rate": 9.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246117, "epoch": 0.06098026, "global_step/max_steps": "800/65595", "percentage": "1.22%", "elapsed_time": "54m 8s", "remaining_time": "3d 1h 4m 48s"}
+{"eval_loss": 0.25968444, "eval_token_acc": 0.86075387, "eval_runtime": 179.5753, "eval_samples_per_second": 2.951, "eval_steps_per_second": 2.951, "epoch": 0.06098026, "global_step/max_steps": "800/65595", "percentage": "1.22%", "elapsed_time": "57m 7s", "remaining_time": "3d 5h 7m 13s"}
+{"loss": 0.36541257, "token_acc": 0.86098025, "grad_norm": 0.99648839, "learning_rate": 9.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233627, "epoch": 0.06136138, "global_step/max_steps": "805/65595", "percentage": "1.23%", "elapsed_time": "57m 23s", "remaining_time": "3d 4h 59m 2s"}
+{"loss": 0.34076025, "token_acc": 0.87232273, "grad_norm": 2.05216336, "learning_rate": 9.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233991, "epoch": 0.06174251, "global_step/max_steps": "810/65595", "percentage": "1.23%", "elapsed_time": "57m 39s", "remaining_time": "3d 4h 51m 30s"}
+{"loss": 0.33114984, "token_acc": 0.85236929, "grad_norm": 0.40977341, "learning_rate": 9.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234164, "epoch": 0.06212364, "global_step/max_steps": "815/65595", "percentage": "1.24%", "elapsed_time": "57m 58s", "remaining_time": "3d 4h 47m 46s"}
+{"loss": 0.36210306, "token_acc": 0.86199438, "grad_norm": 0.41043916, "learning_rate": 9.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234559, "epoch": 0.06250476, "global_step/max_steps": "820/65595", "percentage": "1.25%", "elapsed_time": "58m 13s", "remaining_time": "3d 4h 39m 40s"}
+{"loss": 0.37567582, "token_acc": 0.85724174, "grad_norm": 0.46353576, "learning_rate": 9.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234786, "epoch": 0.06288589, "global_step/max_steps": "825/65595", "percentage": "1.26%", "elapsed_time": "58m 31s", "remaining_time": "3d 4h 34m 52s"}
+{"loss": 0.34291816, "token_acc": 0.87146893, "grad_norm": 0.6371398, "learning_rate": 9.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235211, "epoch": 0.06326702, "global_step/max_steps": "830/65595", "percentage": "1.27%", "elapsed_time": "58m 46s", "remaining_time": "3d 4h 26m 13s"}
+{"loss": 0.39930191, "token_acc": 0.84560934, "grad_norm": 1.52047062, "learning_rate": 9.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23549, "epoch": 0.06364814, "global_step/max_steps": "835/65595", "percentage": "1.27%", "elapsed_time": "59m 3s", "remaining_time": "3d 4h 20m 27s"}
+{"loss": 0.41980548, "token_acc": 0.84178273, "grad_norm": 0.4767929, "learning_rate": 9.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235662, "epoch": 0.06402927, "global_step/max_steps": "840/65595", "percentage": "1.28%", "elapsed_time": "59m 22s", "remaining_time": "3d 4h 16m 46s"}
+{"loss": 0.2728826, "token_acc": 0.87501871, "grad_norm": 0.48393455, "learning_rate": 9.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235896, "epoch": 0.0644104, "global_step/max_steps": "845/65595", "percentage": "1.29%", "elapsed_time": "59m 39s", "remaining_time": "3d 4h 11m 53s"}
+{"loss": 0.25287483, "token_acc": 0.87756926, "grad_norm": 1.38969064, "learning_rate": 9.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236291, "epoch": 0.06479152, "global_step/max_steps": "850/65595", "percentage": "1.30%", "elapsed_time": "59m 55s", "remaining_time": "3d 4h 3m 55s"}
+{"loss": 0.29591446, "token_acc": 0.87683592, "grad_norm": 3.38854361, "learning_rate": 9.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236637, "epoch": 0.06517265, "global_step/max_steps": "855/65595", "percentage": "1.30%", "elapsed_time": "1h 0m 10s", "remaining_time": "3d 3h 56m 54s"}
+{"loss": 0.29192944, "token_acc": 0.86902119, "grad_norm": 1.38073397, "learning_rate": 9.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236979, "epoch": 0.06555378, "global_step/max_steps": "860/65595", "percentage": "1.31%", "elapsed_time": "1h 0m 26s", "remaining_time": "3d 3h 49m 59s"}
+{"loss": 0.32124958, "token_acc": 0.86011617, "grad_norm": 0.71337479, "learning_rate": 9.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237208, "epoch": 0.0659349, "global_step/max_steps": "865/65595", "percentage": "1.32%", "elapsed_time": "1h 0m 44s", "remaining_time": "3d 3h 45m 15s"}
+{"loss": 0.28461051, "token_acc": 0.86618761, "grad_norm": 1.32518053, "learning_rate": 9.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237601, "epoch": 0.06631603, "global_step/max_steps": "870/65595", "percentage": "1.33%", "elapsed_time": "1h 0m 59s", "remaining_time": "3d 3h 37m 23s"}
+{"loss": 0.33283792, "token_acc": 0.8447205, "grad_norm": 0.5018326, "learning_rate": 9.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237976, "epoch": 0.06669716, "global_step/max_steps": "875/65595", "percentage": "1.33%", "elapsed_time": "1h 1m 14s", "remaining_time": "3d 3h 29m 55s"}
+{"loss": 0.26777561, "token_acc": 0.88356698, "grad_norm": 1.73663425, "learning_rate": 9.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238405, "epoch": 0.06707828, "global_step/max_steps": "880/65595", "percentage": "1.34%", "elapsed_time": "1h 1m 28s", "remaining_time": "3d 3h 21m 25s"}
+{"loss": 0.34241309, "token_acc": 0.85525576, "grad_norm": 0.63080233, "learning_rate": 9.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238749, "epoch": 0.06745941, "global_step/max_steps": "885/65595", "percentage": "1.35%", "elapsed_time": "1h 1m 44s", "remaining_time": "3d 3h 14m 34s"}
+{"loss": 0.3544909, "token_acc": 0.87914659, "grad_norm": 0.61324006, "learning_rate": 9.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238945, "epoch": 0.06784054, "global_step/max_steps": "890/65595", "percentage": "1.36%", "elapsed_time": "1h 2m 2s", "remaining_time": "3d 3h 10m 31s"}
+{"loss": 0.38079026, "token_acc": 0.86647665, "grad_norm": 1.34641027, "learning_rate": 9.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239296, "epoch": 0.06822166, "global_step/max_steps": "895/65595", "percentage": "1.36%", "elapsed_time": "1h 2m 17s", "remaining_time": "3d 3h 3m 34s"}
+{"loss": 0.29296494, "token_acc": 0.88110719, "grad_norm": 0.97765648, "learning_rate": 9.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23948, "epoch": 0.06860279, "global_step/max_steps": "900/65595", "percentage": "1.37%", "elapsed_time": "1h 2m 35s", "remaining_time": "3d 2h 59m 46s"}
+{"loss": 0.2820343, "token_acc": 0.86401062, "grad_norm": 0.55798149, "learning_rate": 9.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239846, "epoch": 0.06898392, "global_step/max_steps": "905/65595", "percentage": "1.38%", "elapsed_time": "1h 2m 51s", "remaining_time": "3d 2h 52m 34s"}
+{"loss": 0.25487084, "token_acc": 0.88312034, "grad_norm": 1.16569948, "learning_rate": 9.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240131, "epoch": 0.06936504, "global_step/max_steps": "910/65595", "percentage": "1.39%", "elapsed_time": "1h 3m 7s", "remaining_time": "3d 2h 46m 54s"}
+{"loss": 0.35875182, "token_acc": 0.85528516, "grad_norm": 0.44933394, "learning_rate": 9.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240361, "epoch": 0.06974617, "global_step/max_steps": "915/65595", "percentage": "1.39%", "elapsed_time": "1h 3m 24s", "remaining_time": "3d 2h 42m 16s"}
+{"loss": 0.38188231, "token_acc": 0.84555921, "grad_norm": 1.2056452, "learning_rate": 9.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240513, "epoch": 0.0701273, "global_step/max_steps": "920/65595", "percentage": "1.40%", "elapsed_time": "1h 3m 42s", "remaining_time": "3d 2h 39m 6s"}
+{"loss": 0.26246414, "token_acc": 0.88028169, "grad_norm": 1.08602917, "learning_rate": 9.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240717, "epoch": 0.07050842, "global_step/max_steps": "925/65595", "percentage": "1.41%", "elapsed_time": "1h 4m 0s", "remaining_time": "3d 2h 34m 58s"}
+{"loss": 0.24951797, "token_acc": 0.8836773, "grad_norm": 0.7993502, "learning_rate": 9.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240964, "epoch": 0.07088955, "global_step/max_steps": "930/65595", "percentage": "1.42%", "elapsed_time": "1h 4m 17s", "remaining_time": "3d 2h 30m 3s"}
+{"loss": 0.25152779, "token_acc": 0.85180624, "grad_norm": 0.63760108, "learning_rate": 9.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241248, "epoch": 0.07127068, "global_step/max_steps": "935/65595", "percentage": "1.43%", "elapsed_time": "1h 4m 33s", "remaining_time": "3d 2h 24m 28s"}
+{"loss": 0.24470239, "token_acc": 0.89239176, "grad_norm": 1.5888027, "learning_rate": 9.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241676, "epoch": 0.0716518, "global_step/max_steps": "940/65595", "percentage": "1.43%", "elapsed_time": "1h 4m 47s", "remaining_time": "3d 2h 16m 13s"}
+{"loss": 0.3769712, "token_acc": 0.80495092, "grad_norm": 0.62589741, "learning_rate": 9.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242087, "epoch": 0.07203293, "global_step/max_steps": "945/65595", "percentage": "1.44%", "elapsed_time": "1h 5m 1s", "remaining_time": "3d 2h 8m 19s"}
+{"loss": 0.30419011, "token_acc": 0.86684159, "grad_norm": 1.10666966, "learning_rate": 9.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242473, "epoch": 0.07241406, "global_step/max_steps": "950/65595", "percentage": "1.45%", "elapsed_time": "1h 5m 15s", "remaining_time": "3d 2h 0m 54s"}
+{"loss": 0.27971978, "token_acc": 0.86879926, "grad_norm": 1.17490005, "learning_rate": 9.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242874, "epoch": 0.07279518, "global_step/max_steps": "955/65595", "percentage": "1.46%", "elapsed_time": "1h 5m 29s", "remaining_time": "3d 1h 53m 14s"}
+{"loss": 0.39867499, "token_acc": 0.84730983, "grad_norm": 0.40407902, "learning_rate": 9.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243142, "epoch": 0.07317631, "global_step/max_steps": "960/65595", "percentage": "1.46%", "elapsed_time": "1h 5m 46s", "remaining_time": "3d 1h 48m 2s"}
+{"loss": 0.30558109, "token_acc": 0.84965701, "grad_norm": 0.56594563, "learning_rate": 9.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243374, "epoch": 0.07355744, "global_step/max_steps": "965/65595", "percentage": "1.47%", "elapsed_time": "1h 6m 2s", "remaining_time": "3d 1h 43m 28s"}
+{"loss": 0.32755125, "token_acc": 0.8582996, "grad_norm": 0.59964454, "learning_rate": 9.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243737, "epoch": 0.07393856, "global_step/max_steps": "970/65595", "percentage": "1.48%", "elapsed_time": "1h 6m 17s", "remaining_time": "3d 1h 36m 32s"}
+{"loss": 0.38637099, "token_acc": 0.85346029, "grad_norm": 1.07783449, "learning_rate": 9.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244063, "epoch": 0.07431969, "global_step/max_steps": "975/65595", "percentage": "1.49%", "elapsed_time": "1h 6m 32s", "remaining_time": "3d 1h 30m 19s"}
+{"loss": 0.34506493, "token_acc": 0.86464348, "grad_norm": 0.6036247, "learning_rate": 9.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244064, "epoch": 0.07470082, "global_step/max_steps": "980/65595", "percentage": "1.49%", "elapsed_time": "1h 6m 53s", "remaining_time": "3d 1h 29m 58s"}
+{"loss": 0.44653897, "token_acc": 0.83785942, "grad_norm": 1.00916147, "learning_rate": 9.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244172, "epoch": 0.07508194, "global_step/max_steps": "985/65595", "percentage": "1.50%", "elapsed_time": "1h 7m 11s", "remaining_time": "3d 1h 27m 42s"}
+{"loss": 0.27458205, "token_acc": 0.87608868, "grad_norm": 0.66487032, "learning_rate": 9.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244417, "epoch": 0.07546307, "global_step/max_steps": "990/65595", "percentage": "1.51%", "elapsed_time": "1h 7m 28s", "remaining_time": "3d 1h 22m 56s"}
+{"loss": 0.32719469, "token_acc": 0.84536817, "grad_norm": 0.56106627, "learning_rate": 9.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244679, "epoch": 0.0758442, "global_step/max_steps": "995/65595", "percentage": "1.52%", "elapsed_time": "1h 7m 44s", "remaining_time": "3d 1h 17m 54s"}
+{"loss": 0.34681342, "token_acc": 0.85842065, "grad_norm": 0.61797559, "learning_rate": 9.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245014, "epoch": 0.07622532, "global_step/max_steps": "1000/65595", "percentage": "1.52%", "elapsed_time": "1h 7m 59s", "remaining_time": "3d 1h 11m 33s"}
+{"eval_loss": 0.24275702, "eval_token_acc": 0.86435305, "eval_runtime": 182.8854, "eval_samples_per_second": 2.898, "eval_steps_per_second": 2.898, "epoch": 0.07622532, "global_step/max_steps": "1000/65595", "percentage": "1.52%", "elapsed_time": "1h 11m 2s", "remaining_time": "3d 4h 28m 27s"}
+{"loss": 0.36008761, "token_acc": 0.86443405, "grad_norm": 0.50938517, "learning_rate": 9.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234598, "epoch": 0.07660645, "global_step/max_steps": "1005/65595", "percentage": "1.53%", "elapsed_time": "1h 11m 21s", "remaining_time": "3d 4h 26m 17s"}
+{"loss": 0.39787114, "token_acc": 0.8376173, "grad_norm": 0.70206189, "learning_rate": 9.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234846, "epoch": 0.07698758, "global_step/max_steps": "1010/65595", "percentage": "1.54%", "elapsed_time": "1h 11m 38s", "remaining_time": "3d 4h 21m 6s"}
+{"loss": 0.3583848, "token_acc": 0.84682213, "grad_norm": 1.06915772, "learning_rate": 9.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235139, "epoch": 0.0773687, "global_step/max_steps": "1015/65595", "percentage": "1.55%", "elapsed_time": "1h 11m 54s", "remaining_time": "3d 4h 15m 3s"}
+{"loss": 0.32695067, "token_acc": 0.86980969, "grad_norm": 0.63429165, "learning_rate": 9.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235449, "epoch": 0.07774983, "global_step/max_steps": "1020/65595", "percentage": "1.55%", "elapsed_time": "1h 12m 9s", "remaining_time": "3d 4h 8m 42s"}
+{"loss": 0.24635501, "token_acc": 0.86884422, "grad_norm": 1.04917705, "learning_rate": 9.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235883, "epoch": 0.07813096, "global_step/max_steps": "1025/65595", "percentage": "1.56%", "elapsed_time": "1h 12m 23s", "remaining_time": "3d 3h 59m 56s"}
+{"loss": 0.33856547, "token_acc": 0.84757433, "grad_norm": 0.60312051, "learning_rate": 9.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236207, "epoch": 0.07851208, "global_step/max_steps": "1030/65595", "percentage": "1.57%", "elapsed_time": "1h 12m 38s", "remaining_time": "3d 3h 53m 21s"}
+{"loss": 0.37185402, "token_acc": 0.85581821, "grad_norm": 2.20666194, "learning_rate": 9.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236272, "epoch": 0.07889321, "global_step/max_steps": "1035/65595", "percentage": "1.58%", "elapsed_time": "1h 12m 58s", "remaining_time": "3d 3h 51m 44s"}
+{"loss": 0.27563334, "token_acc": 0.85143998, "grad_norm": 0.63826048, "learning_rate": 9.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236617, "epoch": 0.07927433, "global_step/max_steps": "1040/65595", "percentage": "1.59%", "elapsed_time": "1h 13m 13s", "remaining_time": "3d 3h 44m 46s"}
+{"loss": 0.25544419, "token_acc": 0.87370405, "grad_norm": 0.62331665, "learning_rate": 9.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236925, "epoch": 0.07965546, "global_step/max_steps": "1045/65595", "percentage": "1.59%", "elapsed_time": "1h 13m 28s", "remaining_time": "3d 3h 38m 30s"}
+{"loss": 0.26942351, "token_acc": 0.85963675, "grad_norm": 0.42494676, "learning_rate": 9.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237201, "epoch": 0.08003659, "global_step/max_steps": "1050/65595", "percentage": "1.60%", "elapsed_time": "1h 13m 44s", "remaining_time": "3d 3h 32m 53s"}
+{"loss": 0.34450011, "token_acc": 0.85489391, "grad_norm": 0.85449964, "learning_rate": 9.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237337, "epoch": 0.08041771, "global_step/max_steps": "1055/65595", "percentage": "1.61%", "elapsed_time": "1h 14m 2s", "remaining_time": "3d 3h 29m 56s"}
+{"loss": 0.35902574, "token_acc": 0.86147553, "grad_norm": 0.8256821, "learning_rate": 9.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237479, "epoch": 0.08079884, "global_step/max_steps": "1060/65595", "percentage": "1.62%", "elapsed_time": "1h 14m 21s", "remaining_time": "3d 3h 26m 53s"}
+{"loss": 0.2837635, "token_acc": 0.88416321, "grad_norm": 0.9025566, "learning_rate": 9.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237813, "epoch": 0.08117997, "global_step/max_steps": "1065/65595", "percentage": "1.62%", "elapsed_time": "1h 14m 36s", "remaining_time": "3d 3h 20m 12s"}
+{"loss": 0.31605229, "token_acc": 0.8536358, "grad_norm": 1.36905384, "learning_rate": 9.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238128, "epoch": 0.08156109, "global_step/max_steps": "1070/65595", "percentage": "1.63%", "elapsed_time": "1h 14m 51s", "remaining_time": "3d 3h 13m 52s"}
+{"loss": 0.2379914, "token_acc": 0.86562732, "grad_norm": 1.20128167, "learning_rate": 9.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238359, "epoch": 0.08194222, "global_step/max_steps": "1075/65595", "percentage": "1.64%", "elapsed_time": "1h 15m 7s", "remaining_time": "3d 3h 9m 9s"}
+{"loss": 0.3389333, "token_acc": 0.86107554, "grad_norm": 0.57121223, "learning_rate": 9.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238663, "epoch": 0.08232335, "global_step/max_steps": "1080/65595", "percentage": "1.65%", "elapsed_time": "1h 15m 22s", "remaining_time": "3d 3h 3m 5s"}
+{"loss": 0.36302314, "token_acc": 0.85389516, "grad_norm": 0.99471194, "learning_rate": 9.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238824, "epoch": 0.08270447, "global_step/max_steps": "1085/65595", "percentage": "1.65%", "elapsed_time": "1h 15m 40s", "remaining_time": "3d 2h 59m 42s"}
+{"loss": 0.30803137, "token_acc": 0.87927695, "grad_norm": 0.64555389, "learning_rate": 9.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23896, "epoch": 0.0830856, "global_step/max_steps": "1090/65595", "percentage": "1.66%", "elapsed_time": "1h 15m 59s", "remaining_time": "3d 2h 56m 48s"}
+{"loss": 0.39152062, "token_acc": 0.84498536, "grad_norm": 0.94635117, "learning_rate": 9.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239167, "epoch": 0.08346673, "global_step/max_steps": "1095/65595", "percentage": "1.67%", "elapsed_time": "1h 16m 16s", "remaining_time": "3d 2h 52m 34s"}
+{"loss": 0.31511199, "token_acc": 0.87288136, "grad_norm": 0.6497941, "learning_rate": 9.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239223, "epoch": 0.08384785, "global_step/max_steps": "1100/65595", "percentage": "1.68%", "elapsed_time": "1h 16m 35s", "remaining_time": "3d 2h 51m 11s"}
+{"loss": 0.30966177, "token_acc": 0.87685665, "grad_norm": 0.4962762, "learning_rate": 9.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239381, "epoch": 0.08422898, "global_step/max_steps": "1105/65595", "percentage": "1.68%", "elapsed_time": "1h 16m 53s", "remaining_time": "3d 2h 47m 52s"}
+{"loss": 0.28445716, "token_acc": 0.8689743, "grad_norm": 0.47307625, "learning_rate": 9.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239649, "epoch": 0.08461011, "global_step/max_steps": "1110/65595", "percentage": "1.69%", "elapsed_time": "1h 17m 9s", "remaining_time": "3d 2h 42m 31s"}
+{"loss": 0.36366708, "token_acc": 0.85466491, "grad_norm": 0.89841598, "learning_rate": 9.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239866, "epoch": 0.08499123, "global_step/max_steps": "1115/65595", "percentage": "1.70%", "elapsed_time": "1h 17m 26s", "remaining_time": "3d 2h 38m 7s"}
+{"loss": 0.26797817, "token_acc": 0.89142857, "grad_norm": 0.94178551, "learning_rate": 9.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24006, "epoch": 0.08537236, "global_step/max_steps": "1120/65595", "percentage": "1.71%", "elapsed_time": "1h 17m 43s", "remaining_time": "3d 2h 34m 9s"}
+{"loss": 0.29336236, "token_acc": 0.8756308, "grad_norm": 0.83735538, "learning_rate": 9.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240274, "epoch": 0.08575349, "global_step/max_steps": "1125/65595", "percentage": "1.72%", "elapsed_time": "1h 17m 59s", "remaining_time": "3d 2h 29m 50s"}
+{"loss": 0.2590241, "token_acc": 0.89173014, "grad_norm": 0.6333366, "learning_rate": 9.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240508, "epoch": 0.08613461, "global_step/max_steps": "1130/65595", "percentage": "1.72%", "elapsed_time": "1h 18m 16s", "remaining_time": "3d 2h 25m 8s"}
+{"loss": 0.31776447, "token_acc": 0.87098765, "grad_norm": 1.28634453, "learning_rate": 9.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240876, "epoch": 0.08651574, "global_step/max_steps": "1135/65595", "percentage": "1.73%", "elapsed_time": "1h 18m 29s", "remaining_time": "3d 2h 17m 59s"}
+{"loss": 0.41723561, "token_acc": 0.85358296, "grad_norm": 0.68256456, "learning_rate": 9.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240918, "epoch": 0.08689687, "global_step/max_steps": "1140/65595", "percentage": "1.74%", "elapsed_time": "1h 18m 49s", "remaining_time": "3d 2h 16m 53s"}
+{"loss": 0.2891048, "token_acc": 0.85956658, "grad_norm": 0.44224679, "learning_rate": 9.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241054, "epoch": 0.08727799, "global_step/max_steps": "1145/65595", "percentage": "1.75%", "elapsed_time": "1h 19m 7s", "remaining_time": "3d 2h 14m 1s"}
+{"loss": 0.3258754, "token_acc": 0.85053024, "grad_norm": 0.67170227, "learning_rate": 9.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241231, "epoch": 0.08765912, "global_step/max_steps": "1150/65595", "percentage": "1.75%", "elapsed_time": "1h 19m 24s", "remaining_time": "3d 2h 10m 25s"}
+{"loss": 0.38921537, "token_acc": 0.85730306, "grad_norm": 0.62259573, "learning_rate": 9.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241496, "epoch": 0.08804025, "global_step/max_steps": "1155/65595", "percentage": "1.76%", "elapsed_time": "1h 19m 40s", "remaining_time": "3d 2h 5m 12s"}
+{"loss": 0.4638752, "token_acc": 0.79272811, "grad_norm": 0.88817984, "learning_rate": 9.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241755, "epoch": 0.08842137, "global_step/max_steps": "1160/65595", "percentage": "1.77%", "elapsed_time": "1h 19m 56s", "remaining_time": "3d 2h 0m 5s"}
+{"loss": 0.3640101, "token_acc": 0.86968412, "grad_norm": 0.95167845, "learning_rate": 9.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241867, "epoch": 0.0888025, "global_step/max_steps": "1165/65595", "percentage": "1.78%", "elapsed_time": "1h 20m 14s", "remaining_time": "3d 1h 57m 41s"}
+{"loss": 0.28531258, "token_acc": 0.85704918, "grad_norm": 0.71775854, "learning_rate": 9.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242103, "epoch": 0.08918363, "global_step/max_steps": "1170/65595", "percentage": "1.78%", "elapsed_time": "1h 20m 30s", "remaining_time": "3d 1h 53m 2s"}
+{"loss": 0.37427163, "token_acc": 0.86622351, "grad_norm": 0.57354146, "learning_rate": 9.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242321, "epoch": 0.08956475, "global_step/max_steps": "1175/65595", "percentage": "1.79%", "elapsed_time": "1h 20m 46s", "remaining_time": "3d 1h 48m 43s"}
+{"loss": 0.33184433, "token_acc": 0.86975495, "grad_norm": 2.10428739, "learning_rate": 9.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242456, "epoch": 0.08994588, "global_step/max_steps": "1180/65595", "percentage": "1.80%", "elapsed_time": "1h 21m 4s", "remaining_time": "3d 1h 45m 55s"}
+{"loss": 0.34972808, "token_acc": 0.85203153, "grad_norm": 0.50250816, "learning_rate": 9.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24268, "epoch": 0.09032701, "global_step/max_steps": "1185/65595", "percentage": "1.81%", "elapsed_time": "1h 21m 20s", "remaining_time": "3d 1h 41m 29s"}
+{"loss": 0.2399776, "token_acc": 0.89699793, "grad_norm": 1.58298361, "learning_rate": 9.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242924, "epoch": 0.09070813, "global_step/max_steps": "1190/65595", "percentage": "1.81%", "elapsed_time": "1h 21m 36s", "remaining_time": "3d 1h 36m 43s"}
+{"loss": 0.38601336, "token_acc": 0.85617778, "grad_norm": 0.47387367, "learning_rate": 9.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243106, "epoch": 0.09108926, "global_step/max_steps": "1195/65595", "percentage": "1.82%", "elapsed_time": "1h 21m 53s", "remaining_time": "3d 1h 33m 4s"}
+{"loss": 0.18847504, "token_acc": 0.9123062, "grad_norm": 0.44568577, "learning_rate": 9.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243434, "epoch": 0.09147039, "global_step/max_steps": "1200/65595", "percentage": "1.83%", "elapsed_time": "1h 22m 7s", "remaining_time": "3d 1h 26m 46s"}
+{"eval_loss": 0.22865826, "eval_token_acc": 0.86758328, "eval_runtime": 186.3302, "eval_samples_per_second": 2.844, "eval_steps_per_second": 2.844, "epoch": 0.09147039, "global_step/max_steps": "1200/65595", "percentage": "1.83%", "elapsed_time": "1h 25m 13s", "remaining_time": "3d 4h 13m 26s"}
+{"loss": 0.35848989, "token_acc": 0.86697537, "grad_norm": 2.22929883, "learning_rate": 9.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234783, "epoch": 0.09185151, "global_step/max_steps": "1205/65595", "percentage": "1.84%", "elapsed_time": "1h 25m 30s", "remaining_time": "3d 4h 8m 54s"}
+{"loss": 0.43616819, "token_acc": 0.81402003, "grad_norm": 0.76256597, "learning_rate": 9.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235004, "epoch": 0.09223264, "global_step/max_steps": "1210/65595", "percentage": "1.84%", "elapsed_time": "1h 25m 46s", "remaining_time": "3d 4h 4m 15s"}
+{"loss": 0.31241863, "token_acc": 0.85703971, "grad_norm": 3.53112602, "learning_rate": 9.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235333, "epoch": 0.09261377, "global_step/max_steps": "1215/65595", "percentage": "1.85%", "elapsed_time": "1h 26m 0s", "remaining_time": "3d 3h 57m 31s"}
+{"loss": 0.3472039, "token_acc": 0.86004728, "grad_norm": 1.05460167, "learning_rate": 9.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235462, "epoch": 0.09299489, "global_step/max_steps": "1220/65595", "percentage": "1.86%", "elapsed_time": "1h 26m 19s", "remaining_time": "3d 3h 54m 40s"}
+{"loss": 0.39561834, "token_acc": 0.85194616, "grad_norm": 1.1548723, "learning_rate": 9.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235432, "epoch": 0.09337602, "global_step/max_steps": "1225/65595", "percentage": "1.87%", "elapsed_time": "1h 26m 40s", "remaining_time": "3d 3h 54m 54s"}
+{"loss": 0.34878747, "token_acc": 0.8684613, "grad_norm": 0.80831397, "learning_rate": 9.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235559, "epoch": 0.09375715, "global_step/max_steps": "1230/65595", "percentage": "1.88%", "elapsed_time": "1h 26m 59s", "remaining_time": "3d 3h 52m 6s"}
+{"loss": 0.22699144, "token_acc": 0.89843273, "grad_norm": 1.15945089, "learning_rate": 9.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235754, "epoch": 0.09413827, "global_step/max_steps": "1235/65595", "percentage": "1.88%", "elapsed_time": "1h 27m 16s", "remaining_time": "3d 3h 47m 59s"}
+{"loss": 0.29880178, "token_acc": 0.87379625, "grad_norm": 0.65204585, "learning_rate": 9.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236066, "epoch": 0.0945194, "global_step/max_steps": "1240/65595", "percentage": "1.89%", "elapsed_time": "1h 27m 30s", "remaining_time": "3d 3h 41m 38s"}
+{"loss": 0.33031561, "token_acc": 0.8714442, "grad_norm": 1.33909881, "learning_rate": 9.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236323, "epoch": 0.09490053, "global_step/max_steps": "1245/65595", "percentage": "1.90%", "elapsed_time": "1h 27m 45s", "remaining_time": "3d 3h 36m 21s"}
+{"loss": 0.22939339, "token_acc": 0.87655763, "grad_norm": 0.89160997, "learning_rate": 9.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2365, "epoch": 0.09528165, "global_step/max_steps": "1250/65595", "percentage": "1.91%", "elapsed_time": "1h 28m 3s", "remaining_time": "3d 3h 32m 37s"}
+{"loss": 0.30124123, "token_acc": 0.8611197, "grad_norm": 1.44300282, "learning_rate": 9.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23678, "epoch": 0.09566278, "global_step/max_steps": "1255/65595", "percentage": "1.91%", "elapsed_time": "1h 28m 18s", "remaining_time": "3d 3h 26m 54s"}
+{"loss": 0.26608264, "token_acc": 0.87429696, "grad_norm": 0.96619338, "learning_rate": 9.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237038, "epoch": 0.09604391, "global_step/max_steps": "1260/65595", "percentage": "1.92%", "elapsed_time": "1h 28m 33s", "remaining_time": "3d 3h 21m 37s"}
+{"loss": 0.26313815, "token_acc": 0.87670177, "grad_norm": 1.7531122, "learning_rate": 9.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237276, "epoch": 0.09642503, "global_step/max_steps": "1265/65595", "percentage": "1.93%", "elapsed_time": "1h 28m 49s", "remaining_time": "3d 3h 16m 44s"}
+{"loss": 0.30027809, "token_acc": 0.86982667, "grad_norm": 1.09192729, "learning_rate": 9.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237582, "epoch": 0.09680616, "global_step/max_steps": "1270/65595", "percentage": "1.94%", "elapsed_time": "1h 29m 3s", "remaining_time": "3d 3h 10m 34s"}
+{"loss": 0.31622114, "token_acc": 0.86532951, "grad_norm": 0.40038285, "learning_rate": 9.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237778, "epoch": 0.09718729, "global_step/max_steps": "1275/65595", "percentage": "1.94%", "elapsed_time": "1h 29m 19s", "remaining_time": "3d 3h 6m 31s"}
+{"loss": 0.24207575, "token_acc": 0.89637079, "grad_norm": 0.86918759, "learning_rate": 9.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23793, "epoch": 0.09756841, "global_step/max_steps": "1280/65595", "percentage": "1.95%", "elapsed_time": "1h 29m 37s", "remaining_time": "3d 3h 3m 18s"}
+{"loss": 0.31779175, "token_acc": 0.86910657, "grad_norm": 0.99835449, "learning_rate": 9.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238116, "epoch": 0.09794954, "global_step/max_steps": "1285/65595", "percentage": "1.96%", "elapsed_time": "1h 29m 54s", "remaining_time": "3d 2h 59m 26s"}
+{"loss": 0.38195138, "token_acc": 0.85288734, "grad_norm": 0.92069727, "learning_rate": 9.99e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238219, "epoch": 0.09833067, "global_step/max_steps": "1290/65595", "percentage": "1.97%", "elapsed_time": "1h 30m 12s", "remaining_time": "3d 2h 57m 8s"}
+{"loss": 0.27911901, "token_acc": 0.86472108, "grad_norm": 0.71867347, "learning_rate": 9.99e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238401, "epoch": 0.09871179, "global_step/max_steps": "1295/65595", "percentage": "1.97%", "elapsed_time": "1h 30m 29s", "remaining_time": "3d 2h 53m 22s"}
+{"loss": 0.24096069, "token_acc": 0.89525692, "grad_norm": 1.29128301, "learning_rate": 9.99e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238724, "epoch": 0.09909292, "global_step/max_steps": "1300/65595", "percentage": "1.98%", "elapsed_time": "1h 30m 43s", "remaining_time": "3d 2h 46m 57s"}
+{"loss": 0.29543271, "token_acc": 0.88569207, "grad_norm": 0.81657428, "learning_rate": 9.99e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238797, "epoch": 0.09947405, "global_step/max_steps": "1305/65595", "percentage": "1.99%", "elapsed_time": "1h 31m 2s", "remaining_time": "3d 2h 45m 14s"}
+{"loss": 0.35995898, "token_acc": 0.8355453, "grad_norm": 1.62824512, "learning_rate": 9.99e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239023, "epoch": 0.09985517, "global_step/max_steps": "1310/65595", "percentage": "2.00%", "elapsed_time": "1h 31m 18s", "remaining_time": "3d 2h 40m 38s"}
+{"loss": 0.35921323, "token_acc": 0.87279545, "grad_norm": 1.30436599, "learning_rate": 9.99e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2391, "epoch": 0.1002363, "global_step/max_steps": "1315/65595", "percentage": "2.00%", "elapsed_time": "1h 31m 37s", "remaining_time": "3d 2h 38m 51s"}
+{"loss": 0.26683021, "token_acc": 0.87411922, "grad_norm": 0.82852942, "learning_rate": 9.99e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239246, "epoch": 0.10061743, "global_step/max_steps": "1320/65595", "percentage": "2.01%", "elapsed_time": "1h 31m 55s", "remaining_time": "3d 2h 35m 47s"}
+{"loss": 0.27052803, "token_acc": 0.88374276, "grad_norm": 0.37373418, "learning_rate": 9.99e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239329, "epoch": 0.10099855, "global_step/max_steps": "1325/65595", "percentage": "2.02%", "elapsed_time": "1h 32m 14s", "remaining_time": "3d 2h 33m 53s"}
+{"loss": 0.29268186, "token_acc": 0.83625731, "grad_norm": 1.51701212, "learning_rate": 9.99e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239624, "epoch": 0.10137968, "global_step/max_steps": "1330/65595", "percentage": "2.03%", "elapsed_time": "1h 32m 28s", "remaining_time": "3d 2h 28m 2s"}
+{"loss": 0.27550106, "token_acc": 0.89290162, "grad_norm": 0.75794786, "learning_rate": 9.99e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239897, "epoch": 0.1017608, "global_step/max_steps": "1335/65595", "percentage": "2.04%", "elapsed_time": "1h 32m 42s", "remaining_time": "3d 2h 22m 37s"}
+{"loss": 0.32093318, "token_acc": 0.87600549, "grad_norm": 0.7756716, "learning_rate": 9.99e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240064, "epoch": 0.10214193, "global_step/max_steps": "1340/65595", "percentage": "2.04%", "elapsed_time": "1h 32m 59s", "remaining_time": "3d 2h 19m 10s"}
+{"loss": 0.31445012, "token_acc": 0.88183516, "grad_norm": 0.50407559, "learning_rate": 9.99e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240099, "epoch": 0.10252306, "global_step/max_steps": "1345/65595", "percentage": "2.05%", "elapsed_time": "1h 33m 19s", "remaining_time": "3d 2h 18m 11s"}
+{"loss": 0.27840426, "token_acc": 0.88011152, "grad_norm": 1.66652095, "learning_rate": 9.99e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240348, "epoch": 0.10290418, "global_step/max_steps": "1350/65595", "percentage": "2.06%", "elapsed_time": "1h 33m 34s", "remaining_time": "3d 2h 13m 12s"}
+{"loss": 0.22038679, "token_acc": 0.8879043, "grad_norm": 0.98373204, "learning_rate": 9.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240546, "epoch": 0.10328531, "global_step/max_steps": "1355/65595", "percentage": "2.07%", "elapsed_time": "1h 33m 50s", "remaining_time": "3d 2h 9m 13s"}
+{"loss": 0.32283545, "token_acc": 0.85326757, "grad_norm": 0.95694244, "learning_rate": 9.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240871, "epoch": 0.10366644, "global_step/max_steps": "1360/65595", "percentage": "2.07%", "elapsed_time": "1h 34m 3s", "remaining_time": "3d 2h 2m 52s"}
+{"loss": 0.38776557, "token_acc": 0.84074898, "grad_norm": 1.1798166, "learning_rate": 9.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241065, "epoch": 0.10404756, "global_step/max_steps": "1365/65595", "percentage": "2.08%", "elapsed_time": "1h 34m 20s", "remaining_time": "3d 1h 58m 57s"}
+{"loss": 0.38001342, "token_acc": 0.84986316, "grad_norm": 0.763592, "learning_rate": 9.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241176, "epoch": 0.10442869, "global_step/max_steps": "1370/65595", "percentage": "2.09%", "elapsed_time": "1h 34m 38s", "remaining_time": "3d 1h 56m 34s"}
+{"loss": 0.33876939, "token_acc": 0.88550042, "grad_norm": 1.02785873, "learning_rate": 9.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241295, "epoch": 0.10480982, "global_step/max_steps": "1375/65595", "percentage": "2.10%", "elapsed_time": "1h 34m 56s", "remaining_time": "3d 1h 54m 3s"}
+{"loss": 0.34804389, "token_acc": 0.87471203, "grad_norm": 0.72964263, "learning_rate": 9.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241363, "epoch": 0.10519094, "global_step/max_steps": "1380/65595", "percentage": "2.10%", "elapsed_time": "1h 35m 15s", "remaining_time": "3d 1h 52m 27s"}
+{"loss": 0.26218817, "token_acc": 0.88196601, "grad_norm": 0.44970071, "learning_rate": 9.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241579, "epoch": 0.10557207, "global_step/max_steps": "1385/65595", "percentage": "2.11%", "elapsed_time": "1h 35m 30s", "remaining_time": "3d 1h 48m 9s"}
+{"loss": 0.33171399, "token_acc": 0.86813187, "grad_norm": 1.4578774, "learning_rate": 9.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24182, "epoch": 0.1059532, "global_step/max_steps": "1390/65595", "percentage": "2.12%", "elapsed_time": "1h 35m 45s", "remaining_time": "3d 1h 43m 24s"}
+{"loss": 0.36407335, "token_acc": 0.85918044, "grad_norm": 1.06993461, "learning_rate": 9.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242027, "epoch": 0.10633432, "global_step/max_steps": "1395/65595", "percentage": "2.13%", "elapsed_time": "1h 36m 1s", "remaining_time": "3d 1h 39m 16s"}
+{"loss": 0.23869426, "token_acc": 0.88886834, "grad_norm": 1.22762787, "learning_rate": 9.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2422, "epoch": 0.10671545, "global_step/max_steps": "1400/65595", "percentage": "2.13%", "elapsed_time": "1h 36m 18s", "remaining_time": "3d 1h 35m 46s"}
+{"eval_loss": 0.22189577, "eval_token_acc": 0.87420938, "eval_runtime": 190.7476, "eval_samples_per_second": 2.779, "eval_steps_per_second": 2.779, "epoch": 0.10671545, "global_step/max_steps": "1400/65595", "percentage": "2.13%", "elapsed_time": "1h 39m 28s", "remaining_time": "3d 4h 1m 33s"}
+{"loss": 0.30362709, "token_acc": 0.87401639, "grad_norm": 0.73611188, "learning_rate": 9.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234743, "epoch": 0.10709658, "global_step/max_steps": "1405/65595", "percentage": "2.14%", "elapsed_time": "1h 39m 43s", "remaining_time": "3d 3h 55m 45s"}
+{"loss": 0.26777003, "token_acc": 0.88776371, "grad_norm": 0.81451958, "learning_rate": 9.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234873, "epoch": 0.1074777, "global_step/max_steps": "1410/65595", "percentage": "2.15%", "elapsed_time": "1h 40m 1s", "remaining_time": "3d 3h 52m 53s"}
+{"loss": 0.28738918, "token_acc": 0.88965933, "grad_norm": 0.43503913, "learning_rate": 9.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234953, "epoch": 0.10785883, "global_step/max_steps": "1415/65595", "percentage": "2.16%", "elapsed_time": "1h 40m 20s", "remaining_time": "3d 3h 50m 59s"}
+{"loss": 0.27691009, "token_acc": 0.8816752, "grad_norm": 0.57741106, "learning_rate": 9.988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235138, "epoch": 0.10823996, "global_step/max_steps": "1420/65595", "percentage": "2.16%", "elapsed_time": "1h 40m 36s", "remaining_time": "3d 3h 47m 3s"}
+{"loss": 0.36213593, "token_acc": 0.86433172, "grad_norm": 0.59706414, "learning_rate": 9.988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235256, "epoch": 0.10862108, "global_step/max_steps": "1425/65595", "percentage": "2.17%", "elapsed_time": "1h 40m 55s", "remaining_time": "3d 3h 44m 26s"}
+{"loss": 0.45189281, "token_acc": 0.81986073, "grad_norm": 1.42322958, "learning_rate": 9.988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235493, "epoch": 0.10900221, "global_step/max_steps": "1430/65595", "percentage": "2.18%", "elapsed_time": "1h 41m 10s", "remaining_time": "3d 3h 39m 30s"}
+{"loss": 0.23796632, "token_acc": 0.90160296, "grad_norm": 1.00857043, "learning_rate": 9.988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235703, "epoch": 0.10938334, "global_step/max_steps": "1435/65595", "percentage": "2.19%", "elapsed_time": "1h 41m 25s", "remaining_time": "3d 3h 35m 7s"}
+{"loss": 0.32533956, "token_acc": 0.87076796, "grad_norm": 1.01844525, "learning_rate": 9.988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235975, "epoch": 0.10976446, "global_step/max_steps": "1440/65595", "percentage": "2.20%", "elapsed_time": "1h 41m 40s", "remaining_time": "3d 3h 29m 31s"}
+{"loss": 0.37515578, "token_acc": 0.84751037, "grad_norm": 0.7100988, "learning_rate": 9.988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236224, "epoch": 0.11014559, "global_step/max_steps": "1445/65595", "percentage": "2.20%", "elapsed_time": "1h 41m 54s", "remaining_time": "3d 3h 24m 25s"}
+{"loss": 0.30037327, "token_acc": 0.87849779, "grad_norm": 0.96866471, "learning_rate": 9.988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236474, "epoch": 0.11052672, "global_step/max_steps": "1450/65595", "percentage": "2.21%", "elapsed_time": "1h 42m 9s", "remaining_time": "3d 3h 19m 17s"}
+{"loss": 0.34993298, "token_acc": 0.86289632, "grad_norm": 0.7090171, "learning_rate": 9.988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236702, "epoch": 0.11090784, "global_step/max_steps": "1455/65595", "percentage": "2.22%", "elapsed_time": "1h 42m 24s", "remaining_time": "3d 3h 14m 35s"}
+{"loss": 0.31352639, "token_acc": 0.86484687, "grad_norm": 2.4405663, "learning_rate": 9.988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236859, "epoch": 0.11128897, "global_step/max_steps": "1460/65595", "percentage": "2.23%", "elapsed_time": "1h 42m 41s", "remaining_time": "3d 3h 11m 14s"}
+{"loss": 0.29331667, "token_acc": 0.88699839, "grad_norm": 0.74481797, "learning_rate": 9.988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237022, "epoch": 0.1116701, "global_step/max_steps": "1465/65595", "percentage": "2.23%", "elapsed_time": "1h 42m 58s", "remaining_time": "3d 3h 7m 47s"}
+{"loss": 0.39398696, "token_acc": 0.85228992, "grad_norm": 0.80790359, "learning_rate": 9.988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237173, "epoch": 0.11205122, "global_step/max_steps": "1470/65595", "percentage": "2.24%", "elapsed_time": "1h 43m 15s", "remaining_time": "3d 3h 4m 34s"}
+{"loss": 0.3357167, "token_acc": 0.86577608, "grad_norm": 0.81609797, "learning_rate": 9.988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23726, "epoch": 0.11243235, "global_step/max_steps": "1475/65595", "percentage": "2.25%", "elapsed_time": "1h 43m 34s", "remaining_time": "3d 3h 2m 35s"}
+{"loss": 0.19432509, "token_acc": 0.90911445, "grad_norm": 0.76816648, "learning_rate": 9.987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237457, "epoch": 0.11281348, "global_step/max_steps": "1480/65595", "percentage": "2.26%", "elapsed_time": "1h 43m 50s", "remaining_time": "3d 2h 58m 29s"}
+{"loss": 0.25733271, "token_acc": 0.87697224, "grad_norm": 0.66772455, "learning_rate": 9.987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237593, "epoch": 0.1131946, "global_step/max_steps": "1485/65595", "percentage": "2.26%", "elapsed_time": "1h 44m 7s", "remaining_time": "3d 2h 55m 34s"}
+{"loss": 0.32406371, "token_acc": 0.88023657, "grad_norm": 1.2082541, "learning_rate": 9.987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237667, "epoch": 0.11357573, "global_step/max_steps": "1490/65595", "percentage": "2.27%", "elapsed_time": "1h 44m 27s", "remaining_time": "3d 2h 53m 50s"}
+{"loss": 0.23168557, "token_acc": 0.88554881, "grad_norm": 1.62113678, "learning_rate": 9.987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237868, "epoch": 0.11395686, "global_step/max_steps": "1495/65595", "percentage": "2.28%", "elapsed_time": "1h 44m 42s", "remaining_time": "3d 2h 49m 40s"}
+{"loss": 0.30960784, "token_acc": 0.87485779, "grad_norm": 1.0309813, "learning_rate": 9.987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237943, "epoch": 0.11433798, "global_step/max_steps": "1500/65595", "percentage": "2.29%", "elapsed_time": "1h 45m 1s", "remaining_time": "3d 2h 47m 55s"}
+{"loss": 0.28080313, "token_acc": 0.8971604, "grad_norm": 1.66924918, "learning_rate": 9.987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238177, "epoch": 0.11471911, "global_step/max_steps": "1505/65595", "percentage": "2.29%", "elapsed_time": "1h 45m 16s", "remaining_time": "3d 2h 43m 10s"}
+{"loss": 0.34729385, "token_acc": 0.86245878, "grad_norm": 0.67943072, "learning_rate": 9.987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238256, "epoch": 0.11510024, "global_step/max_steps": "1510/65595", "percentage": "2.30%", "elapsed_time": "1h 45m 35s", "remaining_time": "3d 2h 41m 19s"}
+{"loss": 0.2981657, "token_acc": 0.89146038, "grad_norm": 0.47566187, "learning_rate": 9.987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238321, "epoch": 0.11548136, "global_step/max_steps": "1515/65595", "percentage": "2.31%", "elapsed_time": "1h 45m 54s", "remaining_time": "3d 2h 39m 46s"}
+{"loss": 0.25217686, "token_acc": 0.89546485, "grad_norm": 0.59659678, "learning_rate": 9.987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23854, "epoch": 0.11586249, "global_step/max_steps": "1520/65595", "percentage": "2.32%", "elapsed_time": "1h 46m 9s", "remaining_time": "3d 2h 35m 18s"}
+{"loss": 0.35324814, "token_acc": 0.8665246, "grad_norm": 0.89722979, "learning_rate": 9.987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238696, "epoch": 0.11624362, "global_step/max_steps": "1525/65595", "percentage": "2.32%", "elapsed_time": "1h 46m 26s", "remaining_time": "3d 2h 32m 2s"}
+{"loss": 0.31049979, "token_acc": 0.86383249, "grad_norm": 0.39634237, "learning_rate": 9.987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238821, "epoch": 0.11662474, "global_step/max_steps": "1530/65595", "percentage": "2.33%", "elapsed_time": "1h 46m 44s", "remaining_time": "3d 2h 29m 21s"}
+{"loss": 0.36015675, "token_acc": 0.83561124, "grad_norm": 1.68445194, "learning_rate": 9.986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239089, "epoch": 0.11700587, "global_step/max_steps": "1535/65595", "percentage": "2.34%", "elapsed_time": "1h 46m 57s", "remaining_time": "3d 2h 24m 0s"}
+{"loss": 0.26783323, "token_acc": 0.89148737, "grad_norm": 0.76612389, "learning_rate": 9.986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239333, "epoch": 0.117387, "global_step/max_steps": "1540/65595", "percentage": "2.35%", "elapsed_time": "1h 47m 12s", "remaining_time": "3d 2h 19m 6s"}
+{"loss": 0.49721155, "token_acc": 0.80113507, "grad_norm": 0.93970412, "learning_rate": 9.986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239524, "epoch": 0.11776812, "global_step/max_steps": "1545/65595", "percentage": "2.36%", "elapsed_time": "1h 47m 28s", "remaining_time": "3d 2h 15m 12s"}
+{"loss": 0.29245229, "token_acc": 0.86732139, "grad_norm": 0.53981954, "learning_rate": 9.986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239715, "epoch": 0.11814925, "global_step/max_steps": "1550/65595", "percentage": "2.36%", "elapsed_time": "1h 47m 43s", "remaining_time": "3d 2h 11m 18s"}
+{"loss": 0.20286932, "token_acc": 0.90625, "grad_norm": 1.02325714, "learning_rate": 9.986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239916, "epoch": 0.11853038, "global_step/max_steps": "1555/65595", "percentage": "2.37%", "elapsed_time": "1h 47m 59s", "remaining_time": "3d 2h 7m 15s"}
+{"loss": 0.29258366, "token_acc": 0.8631927, "grad_norm": 1.2158668, "learning_rate": 9.986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240055, "epoch": 0.1189115, "global_step/max_steps": "1560/65595", "percentage": "2.38%", "elapsed_time": "1h 48m 16s", "remaining_time": "3d 2h 4m 19s"}
+{"loss": 0.27223086, "token_acc": 0.89110491, "grad_norm": 0.82566875, "learning_rate": 9.986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240305, "epoch": 0.11929263, "global_step/max_steps": "1565/65595", "percentage": "2.39%", "elapsed_time": "1h 48m 30s", "remaining_time": "3d 1h 59m 21s"}
+{"loss": 0.15824862, "token_acc": 0.92673267, "grad_norm": 1.23051703, "learning_rate": 9.986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240612, "epoch": 0.11967376, "global_step/max_steps": "1570/65595", "percentage": "2.39%", "elapsed_time": "1h 48m 42s", "remaining_time": "3d 1h 53m 21s"}
+{"loss": 0.22757025, "token_acc": 0.89941691, "grad_norm": 0.52844918, "learning_rate": 9.986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240816, "epoch": 0.12005488, "global_step/max_steps": "1575/65595", "percentage": "2.40%", "elapsed_time": "1h 48m 58s", "remaining_time": "3d 1h 49m 15s"}
+{"loss": 0.27314494, "token_acc": 0.88753687, "grad_norm": 1.06379664, "learning_rate": 9.986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240998, "epoch": 0.12043601, "global_step/max_steps": "1580/65595", "percentage": "2.41%", "elapsed_time": "1h 49m 13s", "remaining_time": "3d 1h 45m 33s"}
+{"loss": 0.24440603, "token_acc": 0.90097357, "grad_norm": 0.73154676, "learning_rate": 9.986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241177, "epoch": 0.12081714, "global_step/max_steps": "1585/65595", "percentage": "2.42%", "elapsed_time": "1h 49m 29s", "remaining_time": "3d 1h 41m 56s"}
+{"loss": 0.38775172, "token_acc": 0.84993046, "grad_norm": 1.12984574, "learning_rate": 9.986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241257, "epoch": 0.12119826, "global_step/max_steps": "1590/65595", "percentage": "2.42%", "elapsed_time": "1h 49m 48s", "remaining_time": "3d 1h 40m 7s"}
+{"loss": 0.34455681, "token_acc": 0.86218877, "grad_norm": 1.12977362, "learning_rate": 9.985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241487, "epoch": 0.12157939, "global_step/max_steps": "1595/65595", "percentage": "2.43%", "elapsed_time": "1h 50m 2s", "remaining_time": "3d 1h 35m 35s"}
+{"loss": 0.22805743, "token_acc": 0.87450324, "grad_norm": 1.11533809, "learning_rate": 9.985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241677, "epoch": 0.12196052, "global_step/max_steps": "1600/65595", "percentage": "2.44%", "elapsed_time": "1h 50m 18s", "remaining_time": "3d 1h 31m 46s"}
+{"eval_loss": 0.21934307, "eval_token_acc": 0.87818505, "eval_runtime": 187.9074, "eval_samples_per_second": 2.821, "eval_steps_per_second": 2.821, "epoch": 0.12196052, "global_step/max_steps": "1600/65595", "percentage": "2.44%", "elapsed_time": "1h 53m 26s", "remaining_time": "3d 3h 37m 2s"}
+{"loss": 0.31891198, "token_acc": 0.87806096, "grad_norm": 0.81269723, "learning_rate": 9.985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235103, "epoch": 0.12234164, "global_step/max_steps": "1605/65595", "percentage": "2.45%", "elapsed_time": "1h 53m 44s", "remaining_time": "3d 3h 34m 49s"}
+{"loss": 0.24471602, "token_acc": 0.88476897, "grad_norm": 0.58692968, "learning_rate": 9.985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235352, "epoch": 0.12272277, "global_step/max_steps": "1610/65595", "percentage": "2.45%", "elapsed_time": "1h 53m 58s", "remaining_time": "3d 3h 29m 40s"}
+{"loss": 0.37017698, "token_acc": 0.85797926, "grad_norm": 0.97269857, "learning_rate": 9.985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23548, "epoch": 0.1231039, "global_step/max_steps": "1615/65595", "percentage": "2.46%", "elapsed_time": "1h 54m 16s", "remaining_time": "3d 3h 26m 51s"}
+{"loss": 0.17985013, "token_acc": 0.90975422, "grad_norm": 0.53287899, "learning_rate": 9.985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235689, "epoch": 0.12348502, "global_step/max_steps": "1620/65595", "percentage": "2.47%", "elapsed_time": "1h 54m 31s", "remaining_time": "3d 3h 22m 29s"}
+{"loss": 0.24752767, "token_acc": 0.8722467, "grad_norm": 0.69061959, "learning_rate": 9.985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235802, "epoch": 0.12386615, "global_step/max_steps": "1625/65595", "percentage": "2.48%", "elapsed_time": "1h 54m 49s", "remaining_time": "3d 3h 19m 58s"}
+{"loss": 0.3235523, "token_acc": 0.87426901, "grad_norm": 0.77733475, "learning_rate": 9.985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236023, "epoch": 0.12424727, "global_step/max_steps": "1630/65595", "percentage": "2.48%", "elapsed_time": "1h 55m 3s", "remaining_time": "3d 3h 15m 23s"}
+{"loss": 0.36856828, "token_acc": 0.85073473, "grad_norm": 0.75706828, "learning_rate": 9.985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236264, "epoch": 0.1246284, "global_step/max_steps": "1635/65595", "percentage": "2.49%", "elapsed_time": "1h 55m 17s", "remaining_time": "3d 3h 10m 26s"}
+{"loss": 0.32179537, "token_acc": 0.867232, "grad_norm": 0.5138042, "learning_rate": 9.985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236375, "epoch": 0.12500953, "global_step/max_steps": "1640/65595", "percentage": "2.50%", "elapsed_time": "1h 55m 35s", "remaining_time": "3d 3h 7m 59s"}
+{"loss": 0.2245692, "token_acc": 0.91335505, "grad_norm": 0.7398234, "learning_rate": 9.984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236479, "epoch": 0.12539065, "global_step/max_steps": "1645/65595", "percentage": "2.51%", "elapsed_time": "1h 55m 53s", "remaining_time": "3d 3h 5m 38s"}
+{"loss": 0.26722255, "token_acc": 0.87604145, "grad_norm": 0.73830557, "learning_rate": 9.984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236648, "epoch": 0.12577178, "global_step/max_steps": "1650/65595", "percentage": "2.52%", "elapsed_time": "1h 56m 10s", "remaining_time": "3d 3h 2m 4s"}
+{"loss": 0.35601697, "token_acc": 0.84080342, "grad_norm": 0.79763108, "learning_rate": 9.984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23679, "epoch": 0.12615291, "global_step/max_steps": "1655/65595", "percentage": "2.52%", "elapsed_time": "1h 56m 27s", "remaining_time": "3d 2h 59m 1s"}
+{"loss": 0.24000742, "token_acc": 0.88010056, "grad_norm": 0.71680838, "learning_rate": 9.984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236988, "epoch": 0.12653403, "global_step/max_steps": "1660/65595", "percentage": "2.53%", "elapsed_time": "1h 56m 42s", "remaining_time": "3d 2h 54m 55s"}
+{"loss": 0.25311289, "token_acc": 0.89032258, "grad_norm": 0.62336808, "learning_rate": 9.984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237157, "epoch": 0.12691516, "global_step/max_steps": "1665/65595", "percentage": "2.54%", "elapsed_time": "1h 56m 58s", "remaining_time": "3d 2h 51m 22s"}
+{"loss": 0.22955165, "token_acc": 0.89980773, "grad_norm": 0.67595446, "learning_rate": 9.984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237333, "epoch": 0.12729629, "global_step/max_steps": "1670/65595", "percentage": "2.55%", "elapsed_time": "1h 57m 14s", "remaining_time": "3d 2h 47m 41s"}
+{"loss": 0.25714402, "token_acc": 0.87240915, "grad_norm": 1.49526989, "learning_rate": 9.984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237546, "epoch": 0.12767741, "global_step/max_steps": "1675/65595", "percentage": "2.55%", "elapsed_time": "1h 57m 29s", "remaining_time": "3d 2h 43m 19s"}
+{"loss": 0.25081816, "token_acc": 0.87532777, "grad_norm": 0.28183958, "learning_rate": 9.984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237744, "epoch": 0.12805854, "global_step/max_steps": "1680/65595", "percentage": "2.56%", "elapsed_time": "1h 57m 44s", "remaining_time": "3d 2h 39m 14s"}
+{"loss": 0.26579247, "token_acc": 0.84883721, "grad_norm": 1.31413531, "learning_rate": 9.984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237992, "epoch": 0.12843967, "global_step/max_steps": "1685/65595", "percentage": "2.57%", "elapsed_time": "1h 57m 57s", "remaining_time": "3d 2h 34m 13s"}
+{"loss": 0.23897212, "token_acc": 0.90184049, "grad_norm": 1.52083755, "learning_rate": 9.984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238136, "epoch": 0.12882079, "global_step/max_steps": "1690/65595", "percentage": "2.58%", "elapsed_time": "1h 58m 14s", "remaining_time": "3d 2h 31m 10s"}
+{"loss": 0.4329958, "token_acc": 0.84646878, "grad_norm": 1.66266394, "learning_rate": 9.984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23828, "epoch": 0.12920192, "global_step/max_steps": "1695/65595", "percentage": "2.58%", "elapsed_time": "1h 58m 31s", "remaining_time": "3d 2h 28m 7s"}
+{"loss": 0.33500621, "token_acc": 0.87542579, "grad_norm": 0.98744899, "learning_rate": 9.983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23843, "epoch": 0.12958305, "global_step/max_steps": "1700/65595", "percentage": "2.59%", "elapsed_time": "1h 58m 47s", "remaining_time": "3d 2h 24m 57s"}
+{"loss": 0.27879233, "token_acc": 0.87048398, "grad_norm": 0.52680153, "learning_rate": 9.983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238568, "epoch": 0.12996417, "global_step/max_steps": "1705/65595", "percentage": "2.60%", "elapsed_time": "1h 59m 4s", "remaining_time": "3d 2h 22m 2s"}
+{"loss": 0.32826807, "token_acc": 0.86014551, "grad_norm": 1.44619215, "learning_rate": 9.983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238768, "epoch": 0.1303453, "global_step/max_steps": "1710/65595", "percentage": "2.61%", "elapsed_time": "1h 59m 19s", "remaining_time": "3d 2h 17m 57s"}
+{"loss": 0.32039745, "token_acc": 0.87503181, "grad_norm": 0.93596977, "learning_rate": 9.983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238944, "epoch": 0.13072643, "global_step/max_steps": "1715/65595", "percentage": "2.61%", "elapsed_time": "1h 59m 35s", "remaining_time": "3d 2h 14m 19s"}
+{"loss": 0.28200974, "token_acc": 0.89711556, "grad_norm": 0.6711607, "learning_rate": 9.983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239066, "epoch": 0.13110755, "global_step/max_steps": "1720/65595", "percentage": "2.62%", "elapsed_time": "1h 59m 52s", "remaining_time": "3d 2h 11m 42s"}
+{"loss": 0.32815795, "token_acc": 0.88099229, "grad_norm": 0.60441571, "learning_rate": 9.983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239226, "epoch": 0.13148868, "global_step/max_steps": "1725/65595", "percentage": "2.63%", "elapsed_time": "2h 0m 8s", "remaining_time": "3d 2h 8m 23s"}
+{"loss": 0.24423378, "token_acc": 0.90733399, "grad_norm": 1.89613628, "learning_rate": 9.983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239474, "epoch": 0.13186981, "global_step/max_steps": "1730/65595", "percentage": "2.64%", "elapsed_time": "2h 0m 21s", "remaining_time": "3d 2h 3m 26s"}
+{"loss": 0.2893033, "token_acc": 0.89145637, "grad_norm": 1.16345632, "learning_rate": 9.983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239596, "epoch": 0.13225093, "global_step/max_steps": "1735/65595", "percentage": "2.65%", "elapsed_time": "2h 0m 39s", "remaining_time": "3d 2h 0m 49s"}
+{"loss": 0.3639102, "token_acc": 0.84602917, "grad_norm": 0.7382217, "learning_rate": 9.983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239742, "epoch": 0.13263206, "global_step/max_steps": "1740/65595", "percentage": "2.65%", "elapsed_time": "2h 0m 55s", "remaining_time": "3d 1h 57m 46s"}
+{"loss": 0.26795464, "token_acc": 0.89685476, "grad_norm": 0.76659423, "learning_rate": 9.983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239782, "epoch": 0.13301319, "global_step/max_steps": "1745/65595", "percentage": "2.66%", "elapsed_time": "2h 1m 15s", "remaining_time": "3d 1h 56m 42s"}
+{"loss": 0.26629102, "token_acc": 0.8751046, "grad_norm": 1.02244222, "learning_rate": 9.982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239966, "epoch": 0.13339431, "global_step/max_steps": "1750/65595", "percentage": "2.67%", "elapsed_time": "2h 1m 30s", "remaining_time": "3d 1h 52m 56s"}
+{"loss": 0.17339051, "token_acc": 0.90328228, "grad_norm": 0.2313187, "learning_rate": 9.982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240097, "epoch": 0.13377544, "global_step/max_steps": "1755/65595", "percentage": "2.68%", "elapsed_time": "2h 1m 47s", "remaining_time": "3d 1h 50m 11s"}
+{"loss": 0.32798641, "token_acc": 0.88071429, "grad_norm": 0.87380344, "learning_rate": 9.982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240245, "epoch": 0.13415657, "global_step/max_steps": "1760/65595", "percentage": "2.68%", "elapsed_time": "2h 2m 3s", "remaining_time": "3d 1h 47m 6s"}
+{"loss": 0.31229761, "token_acc": 0.88106012, "grad_norm": 1.38291407, "learning_rate": 9.982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240384, "epoch": 0.13453769, "global_step/max_steps": "1765/65595", "percentage": "2.69%", "elapsed_time": "2h 2m 20s", "remaining_time": "3d 1h 44m 12s"}
+{"loss": 0.34187591, "token_acc": 0.85770386, "grad_norm": 1.57483959, "learning_rate": 9.982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240542, "epoch": 0.13491882, "global_step/max_steps": "1770/65595", "percentage": "2.70%", "elapsed_time": "2h 2m 36s", "remaining_time": "3d 1h 40m 57s"}
+{"loss": 0.3357157, "token_acc": 0.85696569, "grad_norm": 0.76094717, "learning_rate": 9.982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240721, "epoch": 0.13529995, "global_step/max_steps": "1775/65595", "percentage": "2.71%", "elapsed_time": "2h 2m 51s", "remaining_time": "3d 1h 37m 20s"}
+{"loss": 0.28749325, "token_acc": 0.87920228, "grad_norm": 0.47839481, "learning_rate": 9.982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240889, "epoch": 0.13568107, "global_step/max_steps": "1780/65595", "percentage": "2.71%", "elapsed_time": "2h 3m 7s", "remaining_time": "3d 1h 33m 53s"}
+{"loss": 0.2604419, "token_acc": 0.8742549, "grad_norm": 0.72091651, "learning_rate": 9.982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240976, "epoch": 0.1360622, "global_step/max_steps": "1785/65595", "percentage": "2.72%", "elapsed_time": "2h 3m 25s", "remaining_time": "3d 1h 31m 58s"}
+{"loss": 0.32602222, "token_acc": 0.87734594, "grad_norm": 1.44450259, "learning_rate": 9.982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241047, "epoch": 0.13644333, "global_step/max_steps": "1790/65595", "percentage": "2.73%", "elapsed_time": "2h 3m 43s", "remaining_time": "3d 1h 30m 19s"}
+{"loss": 0.28077812, "token_acc": 0.88166802, "grad_norm": 0.86016095, "learning_rate": 9.982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241138, "epoch": 0.13682445, "global_step/max_steps": "1795/65595", "percentage": "2.74%", "elapsed_time": "2h 4m 1s", "remaining_time": "3d 1h 28m 19s"}
+{"loss": 0.26647086, "token_acc": 0.87886598, "grad_norm": 1.36115301, "learning_rate": 9.981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241304, "epoch": 0.13720558, "global_step/max_steps": "1800/65595", "percentage": "2.74%", "elapsed_time": "2h 4m 17s", "remaining_time": "3d 1h 24m 56s"}
+{"eval_loss": 0.20519914, "eval_token_acc": 0.88802632, "eval_runtime": 187.5612, "eval_samples_per_second": 2.826, "eval_steps_per_second": 2.826, "epoch": 0.13720558, "global_step/max_steps": "1800/65595", "percentage": "2.74%", "elapsed_time": "2h 7m 24s", "remaining_time": "3d 3h 15m 44s"}
+{"loss": 0.30518343, "token_acc": 0.88702261, "grad_norm": 0.98715746, "learning_rate": 9.981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235602, "epoch": 0.13758671, "global_step/max_steps": "1805/65595", "percentage": "2.75%", "elapsed_time": "2h 7m 38s", "remaining_time": "3d 3h 11m 13s"}
+{"loss": 0.20040321, "token_acc": 0.92611251, "grad_norm": 0.86707932, "learning_rate": 9.981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235783, "epoch": 0.13796783, "global_step/max_steps": "1810/65595", "percentage": "2.76%", "elapsed_time": "2h 7m 54s", "remaining_time": "3d 3h 7m 25s"}
+{"loss": 0.20092232, "token_acc": 0.91640077, "grad_norm": 0.86908799, "learning_rate": 9.981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236036, "epoch": 0.13834896, "global_step/max_steps": "1815/65595", "percentage": "2.77%", "elapsed_time": "2h 8m 7s", "remaining_time": "3d 3h 2m 13s"}
+{"loss": 0.31303024, "token_acc": 0.86847866, "grad_norm": 0.71457505, "learning_rate": 9.981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236171, "epoch": 0.13873009, "global_step/max_steps": "1820/65595", "percentage": "2.77%", "elapsed_time": "2h 8m 24s", "remaining_time": "3d 2h 59m 19s"}
+{"loss": 0.3237498, "token_acc": 0.86957335, "grad_norm": 1.16695809, "learning_rate": 9.981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2363, "epoch": 0.13911121, "global_step/max_steps": "1825/65595", "percentage": "2.78%", "elapsed_time": "2h 8m 41s", "remaining_time": "3d 2h 56m 31s"}
+{"loss": 0.2362951, "token_acc": 0.89294537, "grad_norm": 0.99761367, "learning_rate": 9.981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236458, "epoch": 0.13949234, "global_step/max_steps": "1830/65595", "percentage": "2.79%", "elapsed_time": "2h 8m 56s", "remaining_time": "3d 2h 53m 9s"}
+{"loss": 0.26173685, "token_acc": 0.89488718, "grad_norm": 1.44951367, "learning_rate": 9.981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236667, "epoch": 0.13987347, "global_step/max_steps": "1835/65595", "percentage": "2.80%", "elapsed_time": "2h 9m 11s", "remaining_time": "3d 2h 48m 49s"}
+{"loss": 0.24829915, "token_acc": 0.89980022, "grad_norm": 0.80705732, "learning_rate": 9.981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236736, "epoch": 0.14025459, "global_step/max_steps": "1840/65595", "percentage": "2.81%", "elapsed_time": "2h 9m 30s", "remaining_time": "3d 2h 47m 10s"}
+{"loss": 0.24158001, "token_acc": 0.89753659, "grad_norm": 1.31575787, "learning_rate": 9.98e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236934, "epoch": 0.14063572, "global_step/max_steps": "1845/65595", "percentage": "2.81%", "elapsed_time": "2h 9m 44s", "remaining_time": "3d 2h 43m 4s"}
+{"loss": 0.39017138, "token_acc": 0.84803835, "grad_norm": 0.78417319, "learning_rate": 9.98e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237082, "epoch": 0.14101685, "global_step/max_steps": "1850/65595", "percentage": "2.82%", "elapsed_time": "2h 10m 0s", "remaining_time": "3d 2h 39m 55s"}
+{"loss": 0.22648652, "token_acc": 0.89819684, "grad_norm": 1.14064455, "learning_rate": 9.98e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237304, "epoch": 0.14139797, "global_step/max_steps": "1855/65595", "percentage": "2.83%", "elapsed_time": "2h 10m 14s", "remaining_time": "3d 2h 35m 24s"}
+{"loss": 0.29716749, "token_acc": 0.88748686, "grad_norm": 1.14833999, "learning_rate": 9.98e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237507, "epoch": 0.1417791, "global_step/max_steps": "1860/65595", "percentage": "2.84%", "elapsed_time": "2h 10m 29s", "remaining_time": "3d 2h 31m 13s"}
+{"loss": 0.35221019, "token_acc": 0.85949784, "grad_norm": 1.31958973, "learning_rate": 9.98e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237663, "epoch": 0.14216023, "global_step/max_steps": "1865/65595", "percentage": "2.84%", "elapsed_time": "2h 10m 45s", "remaining_time": "3d 2h 27m 56s"}
+{"loss": 0.31940947, "token_acc": 0.86132298, "grad_norm": 0.59081882, "learning_rate": 9.98e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237768, "epoch": 0.14254135, "global_step/max_steps": "1870/65595", "percentage": "2.85%", "elapsed_time": "2h 11m 2s", "remaining_time": "3d 2h 25m 37s"}
+{"loss": 0.30899298, "token_acc": 0.88732394, "grad_norm": 1.51318073, "learning_rate": 9.98e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237915, "epoch": 0.14292248, "global_step/max_steps": "1875/65595", "percentage": "2.86%", "elapsed_time": "2h 11m 18s", "remaining_time": "3d 2h 22m 31s"}
+{"loss": 0.24683442, "token_acc": 0.91067498, "grad_norm": 0.91986161, "learning_rate": 9.98e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238061, "epoch": 0.14330361, "global_step/max_steps": "1880/65595", "percentage": "2.87%", "elapsed_time": "2h 11m 34s", "remaining_time": "3d 2h 19m 25s"}
+{"loss": 0.31035085, "token_acc": 0.88686622, "grad_norm": 1.05234635, "learning_rate": 9.98e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238106, "epoch": 0.14368473, "global_step/max_steps": "1885/65595", "percentage": "2.87%", "elapsed_time": "2h 11m 54s", "remaining_time": "3d 2h 18m 13s"}
+{"loss": 0.35483208, "token_acc": 0.86299694, "grad_norm": 1.82071638, "learning_rate": 9.98e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238248, "epoch": 0.14406586, "global_step/max_steps": "1890/65595", "percentage": "2.88%", "elapsed_time": "2h 12m 10s", "remaining_time": "3d 2h 15m 14s"}
+{"loss": 0.25311761, "token_acc": 0.89620253, "grad_norm": 0.84377468, "learning_rate": 9.979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238477, "epoch": 0.14444699, "global_step/max_steps": "1895/65595", "percentage": "2.89%", "elapsed_time": "2h 12m 24s", "remaining_time": "3d 2h 10m 36s"}
+{"loss": 0.20560358, "token_acc": 0.89377523, "grad_norm": 1.19166899, "learning_rate": 9.979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238622, "epoch": 0.14482811, "global_step/max_steps": "1900/65595", "percentage": "2.90%", "elapsed_time": "2h 12m 40s", "remaining_time": "3d 2h 7m 32s"}
+{"loss": 0.28380342, "token_acc": 0.89028706, "grad_norm": 0.67831618, "learning_rate": 9.979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238749, "epoch": 0.14520924, "global_step/max_steps": "1905/65595", "percentage": "2.90%", "elapsed_time": "2h 12m 56s", "remaining_time": "3d 2h 4m 50s"}
+{"loss": 0.21685729, "token_acc": 0.91606591, "grad_norm": 0.5095588, "learning_rate": 9.979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238916, "epoch": 0.14559037, "global_step/max_steps": "1910/65595", "percentage": "2.91%", "elapsed_time": "2h 13m 12s", "remaining_time": "3d 2h 1m 23s"}
+{"loss": 0.27637246, "token_acc": 0.87769018, "grad_norm": 0.61577046, "learning_rate": 9.979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239071, "epoch": 0.14597149, "global_step/max_steps": "1915/65595", "percentage": "2.92%", "elapsed_time": "2h 13m 27s", "remaining_time": "3d 1h 58m 10s"}
+{"loss": 0.22433174, "token_acc": 0.90585896, "grad_norm": 0.56415182, "learning_rate": 9.979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239135, "epoch": 0.14635262, "global_step/max_steps": "1920/65595", "percentage": "2.93%", "elapsed_time": "2h 13m 46s", "remaining_time": "3d 1h 56m 37s"}
+{"loss": 0.34540963, "token_acc": 0.87139049, "grad_norm": 1.3883605, "learning_rate": 9.979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239249, "epoch": 0.14673374, "global_step/max_steps": "1925/65595", "percentage": "2.93%", "elapsed_time": "2h 14m 3s", "remaining_time": "3d 1h 54m 10s"}
+{"loss": 0.35044532, "token_acc": 0.87091717, "grad_norm": 1.20386517, "learning_rate": 9.979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239432, "epoch": 0.14711487, "global_step/max_steps": "1930/65595", "percentage": "2.94%", "elapsed_time": "2h 14m 18s", "remaining_time": "3d 1h 50m 25s"}
+{"loss": 0.2633714, "token_acc": 0.87841555, "grad_norm": 1.97891295, "learning_rate": 9.979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239562, "epoch": 0.147496, "global_step/max_steps": "1935/65595", "percentage": "2.95%", "elapsed_time": "2h 14m 35s", "remaining_time": "3d 1h 47m 41s"}
+{"loss": 0.24987993, "token_acc": 0.89593957, "grad_norm": 0.60431147, "learning_rate": 9.978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239657, "epoch": 0.14787712, "global_step/max_steps": "1940/65595", "percentage": "2.96%", "elapsed_time": "2h 14m 52s", "remaining_time": "3d 1h 45m 35s"}
+{"loss": 0.29761801, "token_acc": 0.88811487, "grad_norm": 0.87815791, "learning_rate": 9.978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2397, "epoch": 0.14825825, "global_step/max_steps": "1945/65595", "percentage": "2.97%", "elapsed_time": "2h 15m 12s", "remaining_time": "3d 1h 44m 26s"}
+{"loss": 0.32982202, "token_acc": 0.87177378, "grad_norm": 0.79411507, "learning_rate": 9.978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239703, "epoch": 0.14863938, "global_step/max_steps": "1950/65595", "percentage": "2.97%", "elapsed_time": "2h 15m 32s", "remaining_time": "3d 1h 44m 2s"}
+{"loss": 0.30373745, "token_acc": 0.86670743, "grad_norm": 0.87332857, "learning_rate": 9.978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239856, "epoch": 0.1490205, "global_step/max_steps": "1955/65595", "percentage": "2.98%", "elapsed_time": "2h 15m 48s", "remaining_time": "3d 1h 40m 53s"}
+{"loss": 0.23170438, "token_acc": 0.88654872, "grad_norm": 1.30037332, "learning_rate": 9.978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240042, "epoch": 0.14940163, "global_step/max_steps": "1960/65595", "percentage": "2.99%", "elapsed_time": "2h 16m 3s", "remaining_time": "3d 1h 37m 6s"}
+{"loss": 0.32538247, "token_acc": 0.88266342, "grad_norm": 0.90205497, "learning_rate": 9.978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240101, "epoch": 0.14978276, "global_step/max_steps": "1965/65595", "percentage": "3.00%", "elapsed_time": "2h 16m 21s", "remaining_time": "3d 1h 35m 41s"}
+{"loss": 0.21997197, "token_acc": 0.90493071, "grad_norm": 1.30148137, "learning_rate": 9.978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240288, "epoch": 0.15016388, "global_step/max_steps": "1970/65595", "percentage": "3.00%", "elapsed_time": "2h 16m 36s", "remaining_time": "3d 1h 31m 54s"}
+{"loss": 0.37538571, "token_acc": 0.85837052, "grad_norm": 1.33851206, "learning_rate": 9.978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240382, "epoch": 0.15054501, "global_step/max_steps": "1975/65595", "percentage": "3.01%", "elapsed_time": "2h 16m 53s", "remaining_time": "3d 1h 29m 49s"}
+{"loss": 0.22391667, "token_acc": 0.9056902, "grad_norm": 1.42839158, "learning_rate": 9.978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240522, "epoch": 0.15092614, "global_step/max_steps": "1980/65595", "percentage": "3.02%", "elapsed_time": "2h 17m 9s", "remaining_time": "3d 1h 26m 55s"}
+{"loss": 0.34629183, "token_acc": 0.87649653, "grad_norm": 1.15122199, "learning_rate": 9.977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240591, "epoch": 0.15130726, "global_step/max_steps": "1985/65595", "percentage": "3.03%", "elapsed_time": "2h 17m 28s", "remaining_time": "3d 1h 25m 19s"}
+{"loss": 0.30235107, "token_acc": 0.885491, "grad_norm": 1.26008546, "learning_rate": 9.977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240772, "epoch": 0.15168839, "global_step/max_steps": "1990/65595", "percentage": "3.03%", "elapsed_time": "2h 17m 42s", "remaining_time": "3d 1h 21m 39s"}
+{"loss": 0.21035428, "token_acc": 0.89598971, "grad_norm": 0.44722927, "learning_rate": 9.977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240918, "epoch": 0.15206952, "global_step/max_steps": "1995/65595", "percentage": "3.04%", "elapsed_time": "2h 17m 58s", "remaining_time": "3d 1h 18m 39s"}
+{"loss": 0.24118648, "token_acc": 0.90776081, "grad_norm": 0.88721168, "learning_rate": 9.977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241137, "epoch": 0.15245064, "global_step/max_steps": "2000/65595", "percentage": "3.05%", "elapsed_time": "2h 18m 11s", "remaining_time": "3d 1h 14m 18s"}
+{"eval_loss": 0.20668386, "eval_token_acc": 0.88571472, "eval_runtime": 184.1995, "eval_samples_per_second": 2.877, "eval_steps_per_second": 2.877, "epoch": 0.15245064, "global_step/max_steps": "2000/65595", "percentage": "3.05%", "elapsed_time": "2h 21m 15s", "remaining_time": "3d 2h 51m 55s"}
+{"loss": 0.26559396, "token_acc": 0.88520578, "grad_norm": 1.13723493, "learning_rate": 9.977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236015, "epoch": 0.15283177, "global_step/max_steps": "2005/65595", "percentage": "3.06%", "elapsed_time": "2h 21m 32s", "remaining_time": "3d 2h 49m 21s"}
+{"loss": 0.20663881, "token_acc": 0.89810322, "grad_norm": 2.1231966, "learning_rate": 9.977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236148, "epoch": 0.1532129, "global_step/max_steps": "2010/65595", "percentage": "3.06%", "elapsed_time": "2h 21m 49s", "remaining_time": "3d 2h 46m 28s"}
+{"loss": 0.27978086, "token_acc": 0.87390858, "grad_norm": 1.80540085, "learning_rate": 9.977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236294, "epoch": 0.15359402, "global_step/max_steps": "2015/65595", "percentage": "3.07%", "elapsed_time": "2h 22m 5s", "remaining_time": "3d 2h 43m 20s"}
+{"loss": 0.21602774, "token_acc": 0.8905552, "grad_norm": 0.84376901, "learning_rate": 9.977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236479, "epoch": 0.15397515, "global_step/max_steps": "2020/65595", "percentage": "3.08%", "elapsed_time": "2h 22m 19s", "remaining_time": "3d 2h 39m 29s"}
+{"loss": 0.22199717, "token_acc": 0.91760197, "grad_norm": 1.1259104, "learning_rate": 9.977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236648, "epoch": 0.15435628, "global_step/max_steps": "2025/65595", "percentage": "3.09%", "elapsed_time": "2h 22m 34s", "remaining_time": "3d 2h 35m 56s"}
+{"loss": 0.1987286, "token_acc": 0.89673433, "grad_norm": 0.92354417, "learning_rate": 9.976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236763, "epoch": 0.1547374, "global_step/max_steps": "2030/65595", "percentage": "3.09%", "elapsed_time": "2h 22m 51s", "remaining_time": "3d 2h 33m 24s"}
+{"loss": 0.17748762, "token_acc": 0.91724337, "grad_norm": 1.08543086, "learning_rate": 9.976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236926, "epoch": 0.15511853, "global_step/max_steps": "2035/65595", "percentage": "3.10%", "elapsed_time": "2h 23m 6s", "remaining_time": "3d 2h 29m 59s"}
+{"loss": 0.26487837, "token_acc": 0.89188508, "grad_norm": 1.55277216, "learning_rate": 9.976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237077, "epoch": 0.15549966, "global_step/max_steps": "2040/65595", "percentage": "3.11%", "elapsed_time": "2h 23m 22s", "remaining_time": "3d 2h 26m 48s"}
+{"loss": 0.21418545, "token_acc": 0.87791045, "grad_norm": 1.45019865, "learning_rate": 9.976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237183, "epoch": 0.15588078, "global_step/max_steps": "2045/65595", "percentage": "3.12%", "elapsed_time": "2h 23m 39s", "remaining_time": "3d 2h 24m 26s"}
+{"loss": 0.26813452, "token_acc": 0.89471511, "grad_norm": 0.7141785, "learning_rate": 9.976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237214, "epoch": 0.15626191, "global_step/max_steps": "2050/65595", "percentage": "3.13%", "elapsed_time": "2h 23m 59s", "remaining_time": "3d 2h 23m 31s"}
+{"loss": 0.29975977, "token_acc": 0.87741569, "grad_norm": 1.61404228, "learning_rate": 9.976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237345, "epoch": 0.15664304, "global_step/max_steps": "2055/65595", "percentage": "3.13%", "elapsed_time": "2h 24m 16s", "remaining_time": "3d 2h 20m 42s"}
+{"loss": 0.17126486, "token_acc": 0.92707581, "grad_norm": 1.02792883, "learning_rate": 9.976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237401, "epoch": 0.15702416, "global_step/max_steps": "2060/65595", "percentage": "3.14%", "elapsed_time": "2h 24m 35s", "remaining_time": "3d 2h 19m 18s"}
+{"loss": 0.25136485, "token_acc": 0.8996114, "grad_norm": 1.66703856, "learning_rate": 9.976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237488, "epoch": 0.15740529, "global_step/max_steps": "2065/65595", "percentage": "3.15%", "elapsed_time": "2h 24m 52s", "remaining_time": "3d 2h 17m 19s"}
+{"loss": 0.22825837, "token_acc": 0.88747885, "grad_norm": 0.7845636, "learning_rate": 9.975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237677, "epoch": 0.15778642, "global_step/max_steps": "2070/65595", "percentage": "3.16%", "elapsed_time": "2h 25m 7s", "remaining_time": "3d 2h 13m 25s"}
+{"loss": 0.17792811, "token_acc": 0.92241379, "grad_norm": 0.34057671, "learning_rate": 9.975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237859, "epoch": 0.15816754, "global_step/max_steps": "2075/65595", "percentage": "3.16%", "elapsed_time": "2h 25m 21s", "remaining_time": "3d 2h 9m 40s"}
+{"loss": 0.30759635, "token_acc": 0.87932435, "grad_norm": 1.12909436, "learning_rate": 9.975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237907, "epoch": 0.15854867, "global_step/max_steps": "2080/65595", "percentage": "3.17%", "elapsed_time": "2h 25m 40s", "remaining_time": "3d 2h 8m 25s"}
+{"loss": 0.30350862, "token_acc": 0.89516807, "grad_norm": 2.17384768, "learning_rate": 9.975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238019, "epoch": 0.1589298, "global_step/max_steps": "2085/65595", "percentage": "3.18%", "elapsed_time": "2h 25m 57s", "remaining_time": "3d 2h 5m 59s"}
+{"loss": 0.3861213, "token_acc": 0.8492569, "grad_norm": 1.13200939, "learning_rate": 9.975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238173, "epoch": 0.15931092, "global_step/max_steps": "2090/65595", "percentage": "3.19%", "elapsed_time": "2h 26m 12s", "remaining_time": "3d 2h 2m 46s"}
+{"loss": 0.31353693, "token_acc": 0.85036189, "grad_norm": 0.99664634, "learning_rate": 9.975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238323, "epoch": 0.15969205, "global_step/max_steps": "2095/65595", "percentage": "3.19%", "elapsed_time": "2h 26m 28s", "remaining_time": "3d 1h 59m 37s"}
+{"loss": 0.23520112, "token_acc": 0.90320904, "grad_norm": 0.2110485, "learning_rate": 9.975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23838, "epoch": 0.16007318, "global_step/max_steps": "2100/65595", "percentage": "3.20%", "elapsed_time": "2h 26m 47s", "remaining_time": "3d 1h 58m 13s"}
+{"loss": 0.24723215, "token_acc": 0.90002998, "grad_norm": 0.7030471, "learning_rate": 9.975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238483, "epoch": 0.1604543, "global_step/max_steps": "2105/65595", "percentage": "3.21%", "elapsed_time": "2h 27m 4s", "remaining_time": "3d 1h 55m 56s"}
+{"loss": 0.2639195, "token_acc": 0.9041769, "grad_norm": 0.67044497, "learning_rate": 9.974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238566, "epoch": 0.16083543, "global_step/max_steps": "2110/65595", "percentage": "3.22%", "elapsed_time": "2h 27m 22s", "remaining_time": "3d 1h 54m 3s"}
+{"loss": 0.30077124, "token_acc": 0.88368303, "grad_norm": 0.91331059, "learning_rate": 9.974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238699, "epoch": 0.16121656, "global_step/max_steps": "2115/65595", "percentage": "3.22%", "elapsed_time": "2h 27m 38s", "remaining_time": "3d 1h 51m 15s"}
+{"loss": 0.27397823, "token_acc": 0.89562948, "grad_norm": 0.62442923, "learning_rate": 9.974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238718, "epoch": 0.16159768, "global_step/max_steps": "2120/65595", "percentage": "3.23%", "elapsed_time": "2h 27m 58s", "remaining_time": "3d 1h 50m 33s"}
+{"loss": 0.34137645, "token_acc": 0.89300182, "grad_norm": 1.45842373, "learning_rate": 9.974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238755, "epoch": 0.16197881, "global_step/max_steps": "2125/65595", "percentage": "3.24%", "elapsed_time": "2h 28m 18s", "remaining_time": "3d 1h 49m 30s"}
+{"loss": 0.24233701, "token_acc": 0.9027849, "grad_norm": 0.59260094, "learning_rate": 9.974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238858, "epoch": 0.16235994, "global_step/max_steps": "2130/65595", "percentage": "3.25%", "elapsed_time": "2h 28m 35s", "remaining_time": "3d 1h 47m 15s"}
+{"loss": 0.30276108, "token_acc": 0.8899117, "grad_norm": 1.52503276, "learning_rate": 9.974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238961, "epoch": 0.16274106, "global_step/max_steps": "2135/65595", "percentage": "3.25%", "elapsed_time": "2h 28m 52s", "remaining_time": "3d 1h 44m 59s"}
+{"loss": 0.21650913, "token_acc": 0.91232449, "grad_norm": 1.76402903, "learning_rate": 9.974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239135, "epoch": 0.16312219, "global_step/max_steps": "2140/65595", "percentage": "3.26%", "elapsed_time": "2h 29m 6s", "remaining_time": "3d 1h 41m 25s"}
+{"loss": 0.27174358, "token_acc": 0.90243112, "grad_norm": 2.39485002, "learning_rate": 9.974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239295, "epoch": 0.16350332, "global_step/max_steps": "2145/65595", "percentage": "3.27%", "elapsed_time": "2h 29m 21s", "remaining_time": "3d 1h 38m 7s"}
+{"loss": 0.27200022, "token_acc": 0.89966254, "grad_norm": 1.79575682, "learning_rate": 9.974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239406, "epoch": 0.16388444, "global_step/max_steps": "2150/65595", "percentage": "3.28%", "elapsed_time": "2h 29m 38s", "remaining_time": "3d 1h 35m 44s"}
+{"loss": 0.28477943, "token_acc": 0.89395206, "grad_norm": 1.28749752, "learning_rate": 9.973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239507, "epoch": 0.16426557, "global_step/max_steps": "2155/65595", "percentage": "3.29%", "elapsed_time": "2h 29m 55s", "remaining_time": "3d 1h 33m 31s"}
+{"loss": 0.25118144, "token_acc": 0.8970289, "grad_norm": 0.66840154, "learning_rate": 9.973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239632, "epoch": 0.1646467, "global_step/max_steps": "2160/65595", "percentage": "3.29%", "elapsed_time": "2h 30m 11s", "remaining_time": "3d 1h 30m 52s"}
+{"loss": 0.33196831, "token_acc": 0.86605784, "grad_norm": 1.51545513, "learning_rate": 9.973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239782, "epoch": 0.16502782, "global_step/max_steps": "2165/65595", "percentage": "3.30%", "elapsed_time": "2h 30m 26s", "remaining_time": "3d 1h 27m 45s"}
+{"loss": 0.21905799, "token_acc": 0.8989776, "grad_norm": 0.95958036, "learning_rate": 9.973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239905, "epoch": 0.16540895, "global_step/max_steps": "2170/65595", "percentage": "3.31%", "elapsed_time": "2h 30m 42s", "remaining_time": "3d 1h 25m 9s"}
+{"loss": 0.38775725, "token_acc": 0.81875916, "grad_norm": 0.96981895, "learning_rate": 9.973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240065, "epoch": 0.16579008, "global_step/max_steps": "2175/65595", "percentage": "3.32%", "elapsed_time": "2h 30m 57s", "remaining_time": "3d 1h 21m 52s"}
+{"loss": 0.35300314, "token_acc": 0.88190844, "grad_norm": 0.55707419, "learning_rate": 9.973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240032, "epoch": 0.1661712, "global_step/max_steps": "2180/65595", "percentage": "3.32%", "elapsed_time": "2h 31m 19s", "remaining_time": "3d 1h 22m 8s"}
+{"loss": 0.19612634, "token_acc": 0.89138943, "grad_norm": 0.70858574, "learning_rate": 9.973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240194, "epoch": 0.16655233, "global_step/max_steps": "2185/65595", "percentage": "3.33%", "elapsed_time": "2h 31m 34s", "remaining_time": "3d 1h 18m 50s"}
+{"loss": 0.27053828, "token_acc": 0.89890205, "grad_norm": 0.50556368, "learning_rate": 9.973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240138, "epoch": 0.16693346, "global_step/max_steps": "2190/65595", "percentage": "3.34%", "elapsed_time": "2h 31m 57s", "remaining_time": "3d 1h 19m 30s"}
+{"loss": 0.2956687, "token_acc": 0.8897561, "grad_norm": 1.39662898, "learning_rate": 9.972e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240296, "epoch": 0.16731458, "global_step/max_steps": "2195/65595", "percentage": "3.35%", "elapsed_time": "2h 32m 12s", "remaining_time": "3d 1h 16m 17s"}
+{"loss": 0.32056785, "token_acc": 0.88117377, "grad_norm": 0.9214077, "learning_rate": 9.972e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240373, "epoch": 0.16769571, "global_step/max_steps": "2200/65595", "percentage": "3.35%", "elapsed_time": "2h 32m 30s", "remaining_time": "3d 1h 14m 31s"}
+{"eval_loss": 0.19462092, "eval_token_acc": 0.89648214, "eval_runtime": 192.7243, "eval_samples_per_second": 2.75, "eval_steps_per_second": 2.75, "epoch": 0.16769571, "global_step/max_steps": "2200/65595", "percentage": "3.35%", "elapsed_time": "2h 35m 42s", "remaining_time": "3d 2h 47m 5s"}
+{"loss": 0.35012627, "token_acc": 0.89554046, "grad_norm": 1.05386889, "learning_rate": 9.972e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235489, "epoch": 0.16807684, "global_step/max_steps": "2205/65595", "percentage": "3.36%", "elapsed_time": "2h 36m 1s", "remaining_time": "3d 2h 45m 20s"}
+{"loss": 0.30055547, "token_acc": 0.87973856, "grad_norm": 1.37869024, "learning_rate": 9.972e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235616, "epoch": 0.16845796, "global_step/max_steps": "2210/65595", "percentage": "3.37%", "elapsed_time": "2h 36m 17s", "remaining_time": "3d 2h 42m 34s"}
+{"loss": 0.29862304, "token_acc": 0.89505637, "grad_norm": 1.03409624, "learning_rate": 9.972e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23574, "epoch": 0.16883909, "global_step/max_steps": "2215/65595", "percentage": "3.38%", "elapsed_time": "2h 36m 33s", "remaining_time": "3d 2h 39m 51s"}
+{"loss": 0.27826211, "token_acc": 0.89135833, "grad_norm": 1.85496891, "learning_rate": 9.972e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235774, "epoch": 0.16922021, "global_step/max_steps": "2220/65595", "percentage": "3.38%", "elapsed_time": "2h 36m 53s", "remaining_time": "3d 2h 38m 51s"}
+{"loss": 0.18190007, "token_acc": 0.92291579, "grad_norm": 0.86364311, "learning_rate": 9.972e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235953, "epoch": 0.16960134, "global_step/max_steps": "2225/65595", "percentage": "3.39%", "elapsed_time": "2h 37m 7s", "remaining_time": "3d 2h 35m 7s"}
+{"loss": 0.24790711, "token_acc": 0.89531884, "grad_norm": 0.94457304, "learning_rate": 9.972e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236072, "epoch": 0.16998247, "global_step/max_steps": "2230/65595", "percentage": "3.40%", "elapsed_time": "2h 37m 24s", "remaining_time": "3d 2h 32m 30s"}
+{"loss": 0.26198454, "token_acc": 0.88896612, "grad_norm": 0.76605231, "learning_rate": 9.971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236161, "epoch": 0.17036359, "global_step/max_steps": "2235/65595", "percentage": "3.41%", "elapsed_time": "2h 37m 41s", "remaining_time": "3d 2h 30m 27s"}
+{"loss": 0.27241039, "token_acc": 0.88156159, "grad_norm": 0.98883969, "learning_rate": 9.971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236324, "epoch": 0.17074472, "global_step/max_steps": "2240/65595", "percentage": "3.41%", "elapsed_time": "2h 37m 56s", "remaining_time": "3d 2h 27m 2s"}
+{"loss": 0.26589332, "token_acc": 0.88602, "grad_norm": 1.38140535, "learning_rate": 9.971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236459, "epoch": 0.17112585, "global_step/max_steps": "2245/65595", "percentage": "3.42%", "elapsed_time": "2h 38m 12s", "remaining_time": "3d 2h 24m 8s"}
+{"loss": 0.27924643, "token_acc": 0.88342811, "grad_norm": 0.81187546, "learning_rate": 9.971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236567, "epoch": 0.17150697, "global_step/max_steps": "2250/65595", "percentage": "3.43%", "elapsed_time": "2h 38m 28s", "remaining_time": "3d 2h 21m 44s"}
+{"loss": 0.28833249, "token_acc": 0.90710701, "grad_norm": 0.71821207, "learning_rate": 9.971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236592, "epoch": 0.1718881, "global_step/max_steps": "2255/65595", "percentage": "3.44%", "elapsed_time": "2h 38m 48s", "remaining_time": "3d 2h 20m 55s"}
+{"loss": 0.16489844, "token_acc": 0.925912, "grad_norm": 0.78934133, "learning_rate": 9.971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236673, "epoch": 0.17226923, "global_step/max_steps": "2260/65595", "percentage": "3.45%", "elapsed_time": "2h 39m 6s", "remaining_time": "3d 2h 19m 2s"}
+{"loss": 0.25911145, "token_acc": 0.87948147, "grad_norm": 0.75858462, "learning_rate": 9.971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236763, "epoch": 0.17265035, "global_step/max_steps": "2265/65595", "percentage": "3.45%", "elapsed_time": "2h 39m 24s", "remaining_time": "3d 2h 16m 59s"}
+{"loss": 0.23796597, "token_acc": 0.90152214, "grad_norm": 1.59391248, "learning_rate": 9.97e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236847, "epoch": 0.17303148, "global_step/max_steps": "2270/65595", "percentage": "3.46%", "elapsed_time": "2h 39m 42s", "remaining_time": "3d 2h 15m 4s"}
+{"loss": 0.29181526, "token_acc": 0.89300318, "grad_norm": 1.91146922, "learning_rate": 9.97e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236987, "epoch": 0.17341261, "global_step/max_steps": "2275/65595", "percentage": "3.47%", "elapsed_time": "2h 39m 57s", "remaining_time": "3d 2h 12m 5s"}
+{"loss": 0.18986796, "token_acc": 0.89452229, "grad_norm": 0.40412506, "learning_rate": 9.97e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237061, "epoch": 0.17379373, "global_step/max_steps": "2280/65595", "percentage": "3.48%", "elapsed_time": "2h 40m 15s", "remaining_time": "3d 2h 10m 21s"}
+{"loss": 0.31163616, "token_acc": 0.88474576, "grad_norm": 0.97014469, "learning_rate": 9.97e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237126, "epoch": 0.17417486, "global_step/max_steps": "2285/65595", "percentage": "3.48%", "elapsed_time": "2h 40m 33s", "remaining_time": "3d 2h 8m 47s"}
+{"loss": 0.3037993, "token_acc": 0.901215, "grad_norm": 0.62677789, "learning_rate": 9.97e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237136, "epoch": 0.17455599, "global_step/max_steps": "2290/65595", "percentage": "3.49%", "elapsed_time": "2h 40m 54s", "remaining_time": "3d 2h 8m 14s"}
+{"loss": 0.28214636, "token_acc": 0.88508025, "grad_norm": 0.85043937, "learning_rate": 9.97e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237282, "epoch": 0.17493711, "global_step/max_steps": "2295/65595", "percentage": "3.50%", "elapsed_time": "2h 41m 9s", "remaining_time": "3d 2h 5m 9s"}
+{"loss": 0.31970329, "token_acc": 0.89033641, "grad_norm": 0.91323727, "learning_rate": 9.97e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237369, "epoch": 0.17531824, "global_step/max_steps": "2300/65595", "percentage": "3.51%", "elapsed_time": "2h 41m 27s", "remaining_time": "3d 2h 3m 10s"}
+{"loss": 0.28929636, "token_acc": 0.89180213, "grad_norm": 0.91267568, "learning_rate": 9.97e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237464, "epoch": 0.17569937, "global_step/max_steps": "2305/65595", "percentage": "3.51%", "elapsed_time": "2h 41m 44s", "remaining_time": "3d 2h 1m 3s"}
+{"loss": 0.31831179, "token_acc": 0.86880165, "grad_norm": 1.03749228, "learning_rate": 9.969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23756, "epoch": 0.17608049, "global_step/max_steps": "2310/65595", "percentage": "3.52%", "elapsed_time": "2h 42m 1s", "remaining_time": "3d 1h 58m 54s"}
+{"loss": 0.41812592, "token_acc": 0.86254243, "grad_norm": 1.21984518, "learning_rate": 9.969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237607, "epoch": 0.17646162, "global_step/max_steps": "2315/65595", "percentage": "3.53%", "elapsed_time": "2h 42m 20s", "remaining_time": "3d 1h 57m 41s"}
+{"loss": 0.27228186, "token_acc": 0.90270649, "grad_norm": 2.38605332, "learning_rate": 9.969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237722, "epoch": 0.17684275, "global_step/max_steps": "2320/65595", "percentage": "3.54%", "elapsed_time": "2h 42m 37s", "remaining_time": "3d 1h 55m 10s"}
+{"loss": 0.20225563, "token_acc": 0.9, "grad_norm": 0.72580242, "learning_rate": 9.969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23782, "epoch": 0.17722387, "global_step/max_steps": "2325/65595", "percentage": "3.54%", "elapsed_time": "2h 42m 54s", "remaining_time": "3d 1h 53m 0s"}
+{"loss": 0.24534998, "token_acc": 0.90177553, "grad_norm": 0.7142092, "learning_rate": 9.969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237896, "epoch": 0.177605, "global_step/max_steps": "2330/65595", "percentage": "3.55%", "elapsed_time": "2h 43m 11s", "remaining_time": "3d 1h 51m 15s"}
+{"loss": 0.29389715, "token_acc": 0.89551141, "grad_norm": 0.67961568, "learning_rate": 9.969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23799, "epoch": 0.17798613, "global_step/max_steps": "2335/65595", "percentage": "3.56%", "elapsed_time": "2h 43m 29s", "remaining_time": "3d 1h 49m 9s"}
+{"loss": 0.23135617, "token_acc": 0.91434233, "grad_norm": 1.24016452, "learning_rate": 9.969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238033, "epoch": 0.17836725, "global_step/max_steps": "2340/65595", "percentage": "3.57%", "elapsed_time": "2h 43m 48s", "remaining_time": "3d 1h 48m 0s"}
+{"loss": 0.2896394, "token_acc": 0.87305911, "grad_norm": 1.42661858, "learning_rate": 9.968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238151, "epoch": 0.17874838, "global_step/max_steps": "2345/65595", "percentage": "3.57%", "elapsed_time": "2h 44m 4s", "remaining_time": "3d 1h 45m 27s"}
+{"loss": 0.28890018, "token_acc": 0.86755106, "grad_norm": 1.12002563, "learning_rate": 9.968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238247, "epoch": 0.17912951, "global_step/max_steps": "2350/65595", "percentage": "3.58%", "elapsed_time": "2h 44m 21s", "remaining_time": "3d 1h 43m 19s"}
+{"loss": 0.29714334, "token_acc": 0.89895397, "grad_norm": 1.62445283, "learning_rate": 9.968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238331, "epoch": 0.17951063, "global_step/max_steps": "2355/65595", "percentage": "3.59%", "elapsed_time": "2h 44m 38s", "remaining_time": "3d 1h 41m 24s"}
+{"loss": 0.22624199, "token_acc": 0.91410077, "grad_norm": 1.58022332, "learning_rate": 9.968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238413, "epoch": 0.17989176, "global_step/max_steps": "2360/65595", "percentage": "3.60%", "elapsed_time": "2h 44m 56s", "remaining_time": "3d 1h 39m 33s"}
+{"loss": 0.28411753, "token_acc": 0.8900576, "grad_norm": 2.04411888, "learning_rate": 9.968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238537, "epoch": 0.18027289, "global_step/max_steps": "2365/65595", "percentage": "3.61%", "elapsed_time": "2h 45m 12s", "remaining_time": "3d 1h 36m 54s"}
+{"loss": 0.23213346, "token_acc": 0.90681662, "grad_norm": 1.14944959, "learning_rate": 9.968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23862, "epoch": 0.18065401, "global_step/max_steps": "2370/65595", "percentage": "3.61%", "elapsed_time": "2h 45m 29s", "remaining_time": "3d 1h 35m 0s"}
+{"loss": 0.28689911, "token_acc": 0.88538508, "grad_norm": 0.95474583, "learning_rate": 9.968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238732, "epoch": 0.18103514, "global_step/max_steps": "2375/65595", "percentage": "3.62%", "elapsed_time": "2h 45m 46s", "remaining_time": "3d 1h 32m 36s"}
+{"loss": 0.16776807, "token_acc": 0.91880342, "grad_norm": 0.98326826, "learning_rate": 9.968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238894, "epoch": 0.18141627, "global_step/max_steps": "2380/65595", "percentage": "3.63%", "elapsed_time": "2h 46m 0s", "remaining_time": "3d 1h 29m 15s"}
+{"loss": 0.2729763, "token_acc": 0.87109274, "grad_norm": 1.19469774, "learning_rate": 9.967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239047, "epoch": 0.18179739, "global_step/max_steps": "2385/65595", "percentage": "3.64%", "elapsed_time": "2h 46m 14s", "remaining_time": "3d 1h 26m 6s"}
+{"loss": 0.25900207, "token_acc": 0.88625592, "grad_norm": 1.58622146, "learning_rate": 9.967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239167, "epoch": 0.18217852, "global_step/max_steps": "2390/65595", "percentage": "3.64%", "elapsed_time": "2h 46m 30s", "remaining_time": "3d 1h 23m 32s"}
+{"loss": 0.28696826, "token_acc": 0.89406545, "grad_norm": 12.43342972, "learning_rate": 9.967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239272, "epoch": 0.18255965, "global_step/max_steps": "2395/65595", "percentage": "3.65%", "elapsed_time": "2h 46m 47s", "remaining_time": "3d 1h 21m 15s"}
+{"loss": 0.26661198, "token_acc": 0.877457, "grad_norm": 0.935794, "learning_rate": 9.967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239404, "epoch": 0.18294077, "global_step/max_steps": "2400/65595", "percentage": "3.66%", "elapsed_time": "2h 47m 2s", "remaining_time": "3d 1h 18m 29s"}
+{"eval_loss": 0.18799619, "eval_token_acc": 0.89828926, "eval_runtime": 189.4045, "eval_samples_per_second": 2.798, "eval_steps_per_second": 2.798, "epoch": 0.18294077, "global_step/max_steps": "2400/65595", "percentage": "3.66%", "elapsed_time": "2h 50m 12s", "remaining_time": "3d 2h 41m 36s"}
+{"loss": 0.24225743, "token_acc": 0.89832172, "grad_norm": 0.63647127, "learning_rate": 9.967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23506, "epoch": 0.1833219, "global_step/max_steps": "2405/65595", "percentage": "3.67%", "elapsed_time": "2h 50m 29s", "remaining_time": "3d 2h 39m 26s"}
+{"loss": 0.28159847, "token_acc": 0.90087422, "grad_norm": 1.0952332, "learning_rate": 9.967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235151, "epoch": 0.18370303, "global_step/max_steps": "2410/65595", "percentage": "3.67%", "elapsed_time": "2h 50m 46s", "remaining_time": "3d 2h 37m 21s"}
+{"loss": 0.32275193, "token_acc": 0.87905544, "grad_norm": 1.02999222, "learning_rate": 9.967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235247, "epoch": 0.18408415, "global_step/max_steps": "2415/65595", "percentage": "3.68%", "elapsed_time": "2h 51m 3s", "remaining_time": "3d 2h 35m 10s"}
+{"loss": 0.28387761, "token_acc": 0.89086612, "grad_norm": 0.91675442, "learning_rate": 9.966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235288, "epoch": 0.18446528, "global_step/max_steps": "2420/65595", "percentage": "3.69%", "elapsed_time": "2h 51m 23s", "remaining_time": "3d 2h 34m 2s"}
+{"loss": 0.162493, "token_acc": 0.91739824, "grad_norm": 0.8388865, "learning_rate": 9.966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235459, "epoch": 0.18484641, "global_step/max_steps": "2425/65595", "percentage": "3.70%", "elapsed_time": "2h 51m 36s", "remaining_time": "3d 2h 30m 26s"}
+{"loss": 0.1731365, "token_acc": 0.92022404, "grad_norm": 0.77376282, "learning_rate": 9.966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235553, "epoch": 0.18522753, "global_step/max_steps": "2430/65595", "percentage": "3.70%", "elapsed_time": "2h 51m 53s", "remaining_time": "3d 2h 28m 17s"}
+{"loss": 0.29317527, "token_acc": 0.8829467, "grad_norm": 1.40516055, "learning_rate": 9.966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235642, "epoch": 0.18560866, "global_step/max_steps": "2435/65595", "percentage": "3.71%", "elapsed_time": "2h 52m 11s", "remaining_time": "3d 2h 26m 15s"}
+{"loss": 0.30966058, "token_acc": 0.87817797, "grad_norm": 1.30526483, "learning_rate": 9.966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23578, "epoch": 0.18598979, "global_step/max_steps": "2440/65595", "percentage": "3.72%", "elapsed_time": "2h 52m 26s", "remaining_time": "3d 2h 23m 17s"}
+{"loss": 0.29300547, "token_acc": 0.89654631, "grad_norm": 0.88764381, "learning_rate": 9.966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23586, "epoch": 0.18637091, "global_step/max_steps": "2445/65595", "percentage": "3.73%", "elapsed_time": "2h 52m 44s", "remaining_time": "3d 2h 21m 26s"}
+{"loss": 0.2940166, "token_acc": 0.89659259, "grad_norm": 1.05465865, "learning_rate": 9.966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235944, "epoch": 0.18675204, "global_step/max_steps": "2450/65595", "percentage": "3.74%", "elapsed_time": "2h 53m 1s", "remaining_time": "3d 2h 19m 29s"}
+{"loss": 0.26439085, "token_acc": 0.88157627, "grad_norm": 1.32271767, "learning_rate": 9.965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236052, "epoch": 0.18713317, "global_step/max_steps": "2455/65595", "percentage": "3.74%", "elapsed_time": "2h 53m 18s", "remaining_time": "3d 2h 17m 5s"}
+{"loss": 0.30490239, "token_acc": 0.88233222, "grad_norm": 0.72681856, "learning_rate": 9.965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236138, "epoch": 0.18751429, "global_step/max_steps": "2460/65595", "percentage": "3.75%", "elapsed_time": "2h 53m 35s", "remaining_time": "3d 2h 15m 7s"}
+{"loss": 0.25411453, "token_acc": 0.88696871, "grad_norm": 0.83392674, "learning_rate": 9.965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236257, "epoch": 0.18789542, "global_step/max_steps": "2465/65595", "percentage": "3.76%", "elapsed_time": "2h 53m 51s", "remaining_time": "3d 2h 12m 32s"}
+{"loss": 0.23019378, "token_acc": 0.90746055, "grad_norm": 1.26585782, "learning_rate": 9.965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236405, "epoch": 0.18827655, "global_step/max_steps": "2470/65595", "percentage": "3.77%", "elapsed_time": "2h 54m 5s", "remaining_time": "3d 2h 9m 23s"}
+{"loss": 0.27036481, "token_acc": 0.89065137, "grad_norm": 1.05407655, "learning_rate": 9.965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236477, "epoch": 0.18865767, "global_step/max_steps": "2475/65595", "percentage": "3.77%", "elapsed_time": "2h 54m 23s", "remaining_time": "3d 2h 7m 41s"}
+{"loss": 0.24350364, "token_acc": 0.91021282, "grad_norm": 0.7257567, "learning_rate": 9.965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236536, "epoch": 0.1890388, "global_step/max_steps": "2480/65595", "percentage": "3.78%", "elapsed_time": "2h 54m 42s", "remaining_time": "3d 2h 6m 12s"}
+{"loss": 0.27180159, "token_acc": 0.90411907, "grad_norm": 1.06479466, "learning_rate": 9.965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23664, "epoch": 0.18941993, "global_step/max_steps": "2485/65595", "percentage": "3.79%", "elapsed_time": "2h 54m 58s", "remaining_time": "3d 2h 3m 54s"}
+{"loss": 0.22177386, "token_acc": 0.90855533, "grad_norm": 1.86495817, "learning_rate": 9.964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23679, "epoch": 0.18980105, "global_step/max_steps": "2490/65595", "percentage": "3.80%", "elapsed_time": "2h 55m 13s", "remaining_time": "3d 2h 0m 45s"}
+{"loss": 0.24179881, "token_acc": 0.89900565, "grad_norm": 1.08090305, "learning_rate": 9.964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236898, "epoch": 0.19018218, "global_step/max_steps": "2495/65595", "percentage": "3.80%", "elapsed_time": "2h 55m 29s", "remaining_time": "3d 1h 58m 22s"}
+{"loss": 0.22393262, "token_acc": 0.92520174, "grad_norm": 1.0591228, "learning_rate": 9.964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236947, "epoch": 0.19056331, "global_step/max_steps": "2500/65595", "percentage": "3.81%", "elapsed_time": "2h 55m 48s", "remaining_time": "3d 1h 57m 6s"}
+{"loss": 0.30844512, "token_acc": 0.87593552, "grad_norm": 0.93857408, "learning_rate": 9.964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237072, "epoch": 0.19094443, "global_step/max_steps": "2505/65595", "percentage": "3.82%", "elapsed_time": "2h 56m 4s", "remaining_time": "3d 1h 54m 25s"}
+{"loss": 0.28600874, "token_acc": 0.89767442, "grad_norm": 2.06100082, "learning_rate": 9.964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237206, "epoch": 0.19132556, "global_step/max_steps": "2510/65595", "percentage": "3.83%", "elapsed_time": "2h 56m 19s", "remaining_time": "3d 1h 51m 33s"}
+{"loss": 0.25005188, "token_acc": 0.87255668, "grad_norm": 0.81458038, "learning_rate": 9.964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237302, "epoch": 0.19170668, "global_step/max_steps": "2515/65595", "percentage": "3.83%", "elapsed_time": "2h 56m 36s", "remaining_time": "3d 1h 49m 25s"}
+{"loss": 0.24223783, "token_acc": 0.90899308, "grad_norm": 0.9426415, "learning_rate": 9.964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237414, "epoch": 0.19208781, "global_step/max_steps": "2520/65595", "percentage": "3.84%", "elapsed_time": "2h 56m 52s", "remaining_time": "3d 1h 46m 58s"}
+{"loss": 0.27820516, "token_acc": 0.89892473, "grad_norm": 0.7931233, "learning_rate": 9.963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237491, "epoch": 0.19246894, "global_step/max_steps": "2525/65595", "percentage": "3.85%", "elapsed_time": "2h 57m 9s", "remaining_time": "3d 1h 45m 11s"}
+{"loss": 0.21210806, "token_acc": 0.91248913, "grad_norm": 0.89672321, "learning_rate": 9.963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237642, "epoch": 0.19285006, "global_step/max_steps": "2530/65595", "percentage": "3.86%", "elapsed_time": "2h 57m 24s", "remaining_time": "3d 1h 42m 2s"}
+{"loss": 0.2079731, "token_acc": 0.90226794, "grad_norm": 15.0079546, "learning_rate": 9.963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237759, "epoch": 0.19323119, "global_step/max_steps": "2535/65595", "percentage": "3.86%", "elapsed_time": "2h 57m 39s", "remaining_time": "3d 1h 39m 31s"}
+{"loss": 0.18652568, "token_acc": 0.91587049, "grad_norm": 0.91641891, "learning_rate": 9.963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237831, "epoch": 0.19361232, "global_step/max_steps": "2540/65595", "percentage": "3.87%", "elapsed_time": "2h 57m 57s", "remaining_time": "3d 1h 37m 50s"}
+{"loss": 0.31068108, "token_acc": 0.87273735, "grad_norm": 0.7434625, "learning_rate": 9.963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237936, "epoch": 0.19399344, "global_step/max_steps": "2545/65595", "percentage": "3.88%", "elapsed_time": "2h 58m 13s", "remaining_time": "3d 1h 35m 31s"}
+{"loss": 0.27951446, "token_acc": 0.87496472, "grad_norm": 1.12015593, "learning_rate": 9.963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238072, "epoch": 0.19437457, "global_step/max_steps": "2550/65595", "percentage": "3.89%", "elapsed_time": "2h 58m 28s", "remaining_time": "3d 1h 32m 39s"}
+{"loss": 0.27224393, "token_acc": 0.88714211, "grad_norm": 0.89127612, "learning_rate": 9.963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23806, "epoch": 0.1947557, "global_step/max_steps": "2555/65595", "percentage": "3.90%", "elapsed_time": "2h 58m 50s", "remaining_time": "3d 1h 32m 32s"}
+{"loss": 0.3544343, "token_acc": 0.87693914, "grad_norm": 1.17862558, "learning_rate": 9.962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238125, "epoch": 0.19513682, "global_step/max_steps": "2560/65595", "percentage": "3.90%", "elapsed_time": "2h 59m 8s", "remaining_time": "3d 1h 30m 58s"}
+{"loss": 0.23119681, "token_acc": 0.91751055, "grad_norm": 0.77334589, "learning_rate": 9.962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238186, "epoch": 0.19551795, "global_step/max_steps": "2565/65595", "percentage": "3.91%", "elapsed_time": "2h 59m 26s", "remaining_time": "3d 1h 29m 30s"}
+{"loss": 0.26710448, "token_acc": 0.91009464, "grad_norm": 2.04407454, "learning_rate": 9.962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238293, "epoch": 0.19589908, "global_step/max_steps": "2570/65595", "percentage": "3.92%", "elapsed_time": "2h 59m 42s", "remaining_time": "3d 1h 27m 10s"}
+{"loss": 0.23819494, "token_acc": 0.90020394, "grad_norm": 0.93242645, "learning_rate": 9.962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238326, "epoch": 0.1962802, "global_step/max_steps": "2575/65595", "percentage": "3.93%", "elapsed_time": "3h 0m 2s", "remaining_time": "3d 1h 26m 12s"}
+{"loss": 0.22369728, "token_acc": 0.91327913, "grad_norm": 2.34430909, "learning_rate": 9.962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238457, "epoch": 0.19666133, "global_step/max_steps": "2580/65595", "percentage": "3.93%", "elapsed_time": "3h 0m 17s", "remaining_time": "3d 1h 23m 26s"}
+{"loss": 0.25209482, "token_acc": 0.89423503, "grad_norm": 0.75239092, "learning_rate": 9.962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238563, "epoch": 0.19704246, "global_step/max_steps": "2585/65595", "percentage": "3.94%", "elapsed_time": "3h 0m 33s", "remaining_time": "3d 1h 21m 8s"}
+{"loss": 0.20276864, "token_acc": 0.9085736, "grad_norm": 0.72477442, "learning_rate": 9.962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238716, "epoch": 0.19742358, "global_step/max_steps": "2590/65595", "percentage": "3.95%", "elapsed_time": "3h 0m 47s", "remaining_time": "3d 1h 17m 58s"}
+{"loss": 0.20229959, "token_acc": 0.90697091, "grad_norm": 0.84658062, "learning_rate": 9.961e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238828, "epoch": 0.19780471, "global_step/max_steps": "2595/65595", "percentage": "3.96%", "elapsed_time": "3h 1m 3s", "remaining_time": "3d 1h 15m 34s"}
+{"loss": 0.2387778, "token_acc": 0.90807088, "grad_norm": 0.62516463, "learning_rate": 9.961e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238802, "epoch": 0.19818584, "global_step/max_steps": "2600/65595", "percentage": "3.96%", "elapsed_time": "3h 1m 25s", "remaining_time": "3d 1h 15m 41s"}
+{"eval_loss": 0.18644427, "eval_token_acc": 0.90334167, "eval_runtime": 183.519, "eval_samples_per_second": 2.888, "eval_steps_per_second": 2.888, "epoch": 0.19818584, "global_step/max_steps": "2600/65595", "percentage": "3.96%", "elapsed_time": "3h 4m 28s", "remaining_time": "3d 2h 29m 48s"}
+{"loss": 0.24641871, "token_acc": 0.90314424, "grad_norm": 0.92146242, "learning_rate": 9.961e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234914, "epoch": 0.19856696, "global_step/max_steps": "2605/65595", "percentage": "3.97%", "elapsed_time": "3h 4m 46s", "remaining_time": "3d 2h 28m 6s"}
+{"loss": 0.25508747, "token_acc": 0.87908821, "grad_norm": 0.55505234, "learning_rate": 9.961e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235043, "epoch": 0.19894809, "global_step/max_steps": "2610/65595", "percentage": "3.98%", "elapsed_time": "3h 5m 2s", "remaining_time": "3d 2h 25m 17s"}
+{"loss": 0.21692023, "token_acc": 0.91077694, "grad_norm": 2.14834809, "learning_rate": 9.961e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235179, "epoch": 0.19932922, "global_step/max_steps": "2615/65595", "percentage": "3.99%", "elapsed_time": "3h 5m 16s", "remaining_time": "3d 2h 22m 21s"}
+{"loss": 0.22900691, "token_acc": 0.91889169, "grad_norm": 0.6543712, "learning_rate": 9.961e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23529, "epoch": 0.19971034, "global_step/max_steps": "2620/65595", "percentage": "3.99%", "elapsed_time": "3h 5m 32s", "remaining_time": "3d 2h 19m 54s"}
+{"loss": 0.26583717, "token_acc": 0.90079045, "grad_norm": 0.81143826, "learning_rate": 9.961e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235214, "epoch": 0.20009147, "global_step/max_steps": "2625/65595", "percentage": "4.00%", "elapsed_time": "3h 5m 57s", "remaining_time": "3d 2h 20m 59s"}
+{"loss": 0.27449994, "token_acc": 0.89553249, "grad_norm": 1.01070619, "learning_rate": 9.96e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235307, "epoch": 0.2004726, "global_step/max_steps": "2630/65595", "percentage": "4.01%", "elapsed_time": "3h 6m 14s", "remaining_time": "3d 2h 18m 53s"}
+{"loss": 0.25633919, "token_acc": 0.91298801, "grad_norm": 0.87190413, "learning_rate": 9.96e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235357, "epoch": 0.20085372, "global_step/max_steps": "2635/65595", "percentage": "4.02%", "elapsed_time": "3h 6m 33s", "remaining_time": "3d 2h 17m 35s"}
+{"loss": 0.26113129, "token_acc": 0.87267905, "grad_norm": 1.20944178, "learning_rate": 9.96e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235461, "epoch": 0.20123485, "global_step/max_steps": "2640/65595", "percentage": "4.02%", "elapsed_time": "3h 6m 49s", "remaining_time": "3d 2h 15m 16s"}
+{"loss": 0.26352725, "token_acc": 0.89668895, "grad_norm": 2.2879045, "learning_rate": 9.96e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235543, "epoch": 0.20161598, "global_step/max_steps": "2645/65595", "percentage": "4.03%", "elapsed_time": "3h 7m 7s", "remaining_time": "3d 2h 13m 21s"}
+{"loss": 0.25647845, "token_acc": 0.90620929, "grad_norm": 1.32697177, "learning_rate": 9.96e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235604, "epoch": 0.2019971, "global_step/max_steps": "2650/65595", "percentage": "4.04%", "elapsed_time": "3h 7m 25s", "remaining_time": "3d 2h 11m 51s"}
+{"loss": 0.27313347, "token_acc": 0.90541549, "grad_norm": 0.70376337, "learning_rate": 9.96e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235643, "epoch": 0.20237823, "global_step/max_steps": "2655/65595", "percentage": "4.05%", "elapsed_time": "3h 7m 44s", "remaining_time": "3d 2h 10m 45s"}
+{"loss": 0.27368174, "token_acc": 0.90608839, "grad_norm": 0.73778725, "learning_rate": 9.959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235695, "epoch": 0.20275936, "global_step/max_steps": "2660/65595", "percentage": "4.06%", "elapsed_time": "3h 8m 3s", "remaining_time": "3d 2h 9m 25s"}
+{"loss": 0.25736783, "token_acc": 0.90654206, "grad_norm": 1.90635276, "learning_rate": 9.959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235828, "epoch": 0.20314048, "global_step/max_steps": "2665/65595", "percentage": "4.06%", "elapsed_time": "3h 8m 18s", "remaining_time": "3d 2h 6m 34s"}
+{"loss": 0.21194272, "token_acc": 0.91181731, "grad_norm": 0.63752943, "learning_rate": 9.959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235854, "epoch": 0.20352161, "global_step/max_steps": "2670/65595", "percentage": "4.07%", "elapsed_time": "3h 8m 38s", "remaining_time": "3d 2h 5m 43s"}
+{"loss": 0.20322449, "token_acc": 0.90707692, "grad_norm": 1.01002848, "learning_rate": 9.959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235943, "epoch": 0.20390274, "global_step/max_steps": "2675/65595", "percentage": "4.08%", "elapsed_time": "3h 8m 55s", "remaining_time": "3d 2h 3m 42s"}
+{"loss": 0.09047021, "token_acc": 0.9531971, "grad_norm": 0.91404486, "learning_rate": 9.959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236109, "epoch": 0.20428386, "global_step/max_steps": "2680/65595", "percentage": "4.09%", "elapsed_time": "3h 9m 8s", "remaining_time": "3d 2h 0m 12s"}
+{"loss": 0.23606658, "token_acc": 0.87053088, "grad_norm": 1.1633544, "learning_rate": 9.959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236248, "epoch": 0.20466499, "global_step/max_steps": "2685/65595", "percentage": "4.09%", "elapsed_time": "3h 9m 22s", "remaining_time": "3d 1h 57m 15s"}
+{"loss": 0.2652061, "token_acc": 0.90436688, "grad_norm": 0.82442546, "learning_rate": 9.959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236297, "epoch": 0.20504612, "global_step/max_steps": "2690/65595", "percentage": "4.10%", "elapsed_time": "3h 9m 41s", "remaining_time": "3d 1h 55m 59s"}
+{"loss": 0.23501141, "token_acc": 0.91326785, "grad_norm": 1.15141368, "learning_rate": 9.958e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236375, "epoch": 0.20542724, "global_step/max_steps": "2695/65595", "percentage": "4.11%", "elapsed_time": "3h 9m 59s", "remaining_time": "3d 1h 54m 10s"}
+{"loss": 0.23689454, "token_acc": 0.92159008, "grad_norm": 0.70216477, "learning_rate": 9.958e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236418, "epoch": 0.20580837, "global_step/max_steps": "2700/65595", "percentage": "4.12%", "elapsed_time": "3h 10m 18s", "remaining_time": "3d 1h 53m 1s"}
+{"loss": 0.24244177, "token_acc": 0.88240433, "grad_norm": 0.91093481, "learning_rate": 9.958e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236492, "epoch": 0.2061895, "global_step/max_steps": "2705/65595", "percentage": "4.12%", "elapsed_time": "3h 10m 35s", "remaining_time": "3d 1h 51m 17s"}
+{"loss": 0.3420506, "token_acc": 0.8714831, "grad_norm": 1.35905826, "learning_rate": 9.958e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236568, "epoch": 0.20657062, "global_step/max_steps": "2710/65595", "percentage": "4.13%", "elapsed_time": "3h 10m 53s", "remaining_time": "3d 1h 49m 30s"}
+{"loss": 0.24093874, "token_acc": 0.91987513, "grad_norm": 0.86595494, "learning_rate": 9.958e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236639, "epoch": 0.20695175, "global_step/max_steps": "2715/65595", "percentage": "4.14%", "elapsed_time": "3h 11m 10s", "remaining_time": "3d 1h 47m 49s"}
+{"loss": 0.21360211, "token_acc": 0.90732889, "grad_norm": 1.36991751, "learning_rate": 9.958e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236793, "epoch": 0.20733288, "global_step/max_steps": "2720/65595", "percentage": "4.15%", "elapsed_time": "3h 11m 24s", "remaining_time": "3d 1h 44m 35s"}
+{"loss": 0.21014256, "token_acc": 0.90897544, "grad_norm": 1.06886232, "learning_rate": 9.957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2369, "epoch": 0.207714, "global_step/max_steps": "2725/65595", "percentage": "4.15%", "elapsed_time": "3h 11m 40s", "remaining_time": "3d 1h 42m 14s"}
+{"loss": 0.33160615, "token_acc": 0.87950475, "grad_norm": 1.61767662, "learning_rate": 9.957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237014, "epoch": 0.20809513, "global_step/max_steps": "2730/65595", "percentage": "4.16%", "elapsed_time": "3h 11m 56s", "remaining_time": "3d 1h 39m 45s"}
+{"loss": 0.27490578, "token_acc": 0.89756592, "grad_norm": 0.79805064, "learning_rate": 9.957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237087, "epoch": 0.20847626, "global_step/max_steps": "2735/65595", "percentage": "4.17%", "elapsed_time": "3h 12m 13s", "remaining_time": "3d 1h 38m 3s"}
+{"loss": 0.20973918, "token_acc": 0.91563342, "grad_norm": 0.53268939, "learning_rate": 9.957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237124, "epoch": 0.20885738, "global_step/max_steps": "2740/65595", "percentage": "4.18%", "elapsed_time": "3h 12m 32s", "remaining_time": "3d 1h 37m 1s"}
+{"loss": 0.26098523, "token_acc": 0.91465084, "grad_norm": 2.55330467, "learning_rate": 9.957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237208, "epoch": 0.20923851, "global_step/max_steps": "2745/65595", "percentage": "4.18%", "elapsed_time": "3h 12m 49s", "remaining_time": "3d 1h 35m 5s"}
+{"loss": 0.19117575, "token_acc": 0.91154189, "grad_norm": 1.76595056, "learning_rate": 9.957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237335, "epoch": 0.20961964, "global_step/max_steps": "2750/65595", "percentage": "4.19%", "elapsed_time": "3h 13m 4s", "remaining_time": "3d 1h 32m 23s"}
+{"loss": 0.21332383, "token_acc": 0.91289844, "grad_norm": 1.21354079, "learning_rate": 9.957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237479, "epoch": 0.21000076, "global_step/max_steps": "2755/65595", "percentage": "4.20%", "elapsed_time": "3h 13m 18s", "remaining_time": "3d 1h 29m 21s"}
+{"loss": 0.28225853, "token_acc": 0.9047619, "grad_norm": 1.0824219, "learning_rate": 9.956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237556, "epoch": 0.21038189, "global_step/max_steps": "2760/65595", "percentage": "4.21%", "elapsed_time": "3h 13m 36s", "remaining_time": "3d 1h 27m 34s"}
+{"loss": 0.28248785, "token_acc": 0.87200899, "grad_norm": 1.05044568, "learning_rate": 9.956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237648, "epoch": 0.21076302, "global_step/max_steps": "2765/65595", "percentage": "4.22%", "elapsed_time": "3h 13m 52s", "remaining_time": "3d 1h 25m 31s"}
+{"loss": 0.26123693, "token_acc": 0.89142857, "grad_norm": 1.2931428, "learning_rate": 9.956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237761, "epoch": 0.21114414, "global_step/max_steps": "2770/65595", "percentage": "4.22%", "elapsed_time": "3h 14m 8s", "remaining_time": "3d 1h 23m 4s"}
+{"loss": 0.20278473, "token_acc": 0.8832467, "grad_norm": 0.69612366, "learning_rate": 9.956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237907, "epoch": 0.21152527, "global_step/max_steps": "2775/65595", "percentage": "4.23%", "elapsed_time": "3h 14m 21s", "remaining_time": "3d 1h 20m 1s"}
+{"loss": 0.2655751, "token_acc": 0.89060092, "grad_norm": 1.66967428, "learning_rate": 9.956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238059, "epoch": 0.2119064, "global_step/max_steps": "2780/65595", "percentage": "4.24%", "elapsed_time": "3h 14m 35s", "remaining_time": "3d 1h 16m 52s"}
+{"loss": 0.21491804, "token_acc": 0.90868753, "grad_norm": 0.85873616, "learning_rate": 9.956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238183, "epoch": 0.21228752, "global_step/max_steps": "2785/65595", "percentage": "4.25%", "elapsed_time": "3h 14m 50s", "remaining_time": "3d 1h 14m 13s"}
+{"loss": 0.25577614, "token_acc": 0.90226297, "grad_norm": 1.67783105, "learning_rate": 9.955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238268, "epoch": 0.21266865, "global_step/max_steps": "2790/65595", "percentage": "4.25%", "elapsed_time": "3h 15m 7s", "remaining_time": "3d 1h 12m 19s"}
+{"loss": 0.25472746, "token_acc": 0.90688922, "grad_norm": 0.93917269, "learning_rate": 9.955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23833, "epoch": 0.21304978, "global_step/max_steps": "2795/65595", "percentage": "4.26%", "elapsed_time": "3h 15m 25s", "remaining_time": "3d 1h 10m 49s"}
+{"loss": 0.22569554, "token_acc": 0.91158355, "grad_norm": 0.70066285, "learning_rate": 9.955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23841, "epoch": 0.2134309, "global_step/max_steps": "2800/65595", "percentage": "4.27%", "elapsed_time": "3h 15m 42s", "remaining_time": "3d 1h 9m 0s"}
+{"eval_loss": 0.18260351, "eval_token_acc": 0.90651919, "eval_runtime": 177.8285, "eval_samples_per_second": 2.98, "eval_steps_per_second": 2.98, "epoch": 0.2134309, "global_step/max_steps": "2800/65595", "percentage": "4.27%", "elapsed_time": "3h 18m 40s", "remaining_time": "3d 2h 15m 28s"}
+{"loss": 0.21996951, "token_acc": 0.906624, "grad_norm": 1.63723171, "learning_rate": 9.955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234986, "epoch": 0.21381203, "global_step/max_steps": "2805/65595", "percentage": "4.28%", "elapsed_time": "3h 18m 54s", "remaining_time": "3d 2h 12m 37s"}
+{"loss": 0.19925637, "token_acc": 0.9264099, "grad_norm": 0.72775853, "learning_rate": 9.955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235057, "epoch": 0.21419315, "global_step/max_steps": "2810/65595", "percentage": "4.28%", "elapsed_time": "3h 19m 12s", "remaining_time": "3d 2h 10m 55s"}
+{"loss": 0.28996098, "token_acc": 0.89514679, "grad_norm": 1.57354999, "learning_rate": 9.955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235185, "epoch": 0.21457428, "global_step/max_steps": "2815/65595", "percentage": "4.29%", "elapsed_time": "3h 19m 27s", "remaining_time": "3d 2h 8m 8s"}
+{"loss": 0.31084304, "token_acc": 0.88730482, "grad_norm": 0.69126219, "learning_rate": 9.954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235253, "epoch": 0.21495541, "global_step/max_steps": "2820/65595", "percentage": "4.30%", "elapsed_time": "3h 19m 44s", "remaining_time": "3d 2h 6m 30s"}
+{"loss": 0.27604485, "token_acc": 0.89872696, "grad_norm": 1.46612692, "learning_rate": 9.954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235357, "epoch": 0.21533653, "global_step/max_steps": "2825/65595", "percentage": "4.31%", "elapsed_time": "3h 20m 0s", "remaining_time": "3d 2h 4m 11s"}
+{"loss": 0.21004007, "token_acc": 0.88765432, "grad_norm": 0.87925434, "learning_rate": 9.954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235492, "epoch": 0.21571766, "global_step/max_steps": "2830/65595", "percentage": "4.31%", "elapsed_time": "3h 20m 15s", "remaining_time": "3d 2h 1m 16s"}
+{"loss": 0.2831743, "token_acc": 0.89318707, "grad_norm": 1.51331103, "learning_rate": 9.954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235575, "epoch": 0.21609879, "global_step/max_steps": "2835/65595", "percentage": "4.32%", "elapsed_time": "3h 20m 32s", "remaining_time": "3d 1h 59m 22s"}
+{"loss": 0.26878812, "token_acc": 0.91505173, "grad_norm": 2.76039267, "learning_rate": 9.954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235666, "epoch": 0.21647991, "global_step/max_steps": "2840/65595", "percentage": "4.33%", "elapsed_time": "3h 20m 48s", "remaining_time": "3d 1h 57m 18s"}
+{"loss": 0.1937253, "token_acc": 0.91906689, "grad_norm": 1.5222168, "learning_rate": 9.954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235762, "epoch": 0.21686104, "global_step/max_steps": "2845/65595", "percentage": "4.34%", "elapsed_time": "3h 21m 5s", "remaining_time": "3d 1h 55m 9s"}
+{"loss": 0.26934907, "token_acc": 0.89913868, "grad_norm": 0.92685741, "learning_rate": 9.953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235786, "epoch": 0.21724217, "global_step/max_steps": "2850/65595", "percentage": "4.34%", "elapsed_time": "3h 21m 24s", "remaining_time": "3d 1h 54m 20s"}
+{"loss": 0.13875046, "token_acc": 0.93823916, "grad_norm": 0.92808348, "learning_rate": 9.953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235938, "epoch": 0.21762329, "global_step/max_steps": "2855/65595", "percentage": "4.35%", "elapsed_time": "3h 21m 38s", "remaining_time": "3d 1h 51m 7s"}
+{"loss": 0.24726286, "token_acc": 0.88927203, "grad_norm": 0.80010158, "learning_rate": 9.953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236063, "epoch": 0.21800442, "global_step/max_steps": "2860/65595", "percentage": "4.36%", "elapsed_time": "3h 21m 53s", "remaining_time": "3d 1h 48m 26s"}
+{"loss": 0.27178049, "token_acc": 0.91586961, "grad_norm": 1.1835866, "learning_rate": 9.953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236116, "epoch": 0.21838555, "global_step/max_steps": "2865/65595", "percentage": "4.37%", "elapsed_time": "3h 22m 11s", "remaining_time": "3d 1h 47m 5s"}
+{"loss": 0.22229323, "token_acc": 0.89894419, "grad_norm": 0.8943457, "learning_rate": 9.953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236244, "epoch": 0.21876667, "global_step/max_steps": "2870/65595", "percentage": "4.38%", "elapsed_time": "3h 22m 26s", "remaining_time": "3d 1h 44m 20s"}
+{"loss": 0.20779016, "token_acc": 0.9083466, "grad_norm": 1.05906284, "learning_rate": 9.953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236364, "epoch": 0.2191478, "global_step/max_steps": "2875/65595", "percentage": "4.38%", "elapsed_time": "3h 22m 41s", "remaining_time": "3d 1h 41m 45s"}
+{"loss": 0.19726396, "token_acc": 0.90080972, "grad_norm": 0.79363525, "learning_rate": 9.953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23648, "epoch": 0.21952893, "global_step/max_steps": "2880/65595", "percentage": "4.39%", "elapsed_time": "3h 22m 56s", "remaining_time": "3d 1h 39m 13s"}
+{"loss": 0.3077179, "token_acc": 0.88178571, "grad_norm": 1.21434486, "learning_rate": 9.952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236566, "epoch": 0.21991005, "global_step/max_steps": "2885/65595", "percentage": "4.40%", "elapsed_time": "3h 23m 13s", "remaining_time": "3d 1h 37m 16s"}
+{"loss": 0.3139607, "token_acc": 0.90428492, "grad_norm": 1.7283355, "learning_rate": 9.952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236629, "epoch": 0.22029118, "global_step/max_steps": "2890/65595", "percentage": "4.41%", "elapsed_time": "3h 23m 30s", "remaining_time": "3d 1h 35m 44s"}
+{"loss": 0.24241323, "token_acc": 0.89557076, "grad_norm": 1.0907855, "learning_rate": 9.952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236718, "epoch": 0.22067231, "global_step/max_steps": "2895/65595", "percentage": "4.41%", "elapsed_time": "3h 23m 47s", "remaining_time": "3d 1h 33m 44s"}
+{"loss": 0.25373986, "token_acc": 0.90004989, "grad_norm": 1.07606912, "learning_rate": 9.952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236767, "epoch": 0.22105343, "global_step/max_steps": "2900/65595", "percentage": "4.42%", "elapsed_time": "3h 24m 6s", "remaining_time": "3d 1h 32m 28s"}
+{"loss": 0.22792912, "token_acc": 0.90714873, "grad_norm": 1.88098907, "learning_rate": 9.952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236888, "epoch": 0.22143456, "global_step/max_steps": "2905/65595", "percentage": "4.43%", "elapsed_time": "3h 24m 20s", "remaining_time": "3d 1h 29m 51s"}
+{"loss": 0.15280175, "token_acc": 0.92085236, "grad_norm": 1.10516584, "learning_rate": 9.952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237053, "epoch": 0.22181569, "global_step/max_steps": "2910/65595", "percentage": "4.44%", "elapsed_time": "3h 24m 33s", "remaining_time": "3d 1h 26m 26s"}
+{"loss": 0.25646887, "token_acc": 0.8857971, "grad_norm": 1.2754848, "learning_rate": 9.951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237171, "epoch": 0.22219681, "global_step/max_steps": "2915/65595", "percentage": "4.44%", "elapsed_time": "3h 24m 48s", "remaining_time": "3d 1h 23m 53s"}
+{"loss": 0.25129006, "token_acc": 0.9047619, "grad_norm": 1.28251386, "learning_rate": 9.951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237251, "epoch": 0.22257794, "global_step/max_steps": "2920/65595", "percentage": "4.45%", "elapsed_time": "3h 25m 5s", "remaining_time": "3d 1h 22m 3s"}
+{"loss": 0.16372699, "token_acc": 0.94422311, "grad_norm": 0.86933488, "learning_rate": 9.951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237403, "epoch": 0.22295907, "global_step/max_steps": "2925/65595", "percentage": "4.46%", "elapsed_time": "3h 25m 18s", "remaining_time": "3d 1h 18m 53s"}
+{"loss": 0.2333652, "token_acc": 0.90924433, "grad_norm": 1.1826998, "learning_rate": 9.951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237488, "epoch": 0.22334019, "global_step/max_steps": "2930/65595", "percentage": "4.47%", "elapsed_time": "3h 25m 35s", "remaining_time": "3d 1h 16m 57s"}
+{"loss": 0.21436162, "token_acc": 0.92093915, "grad_norm": 1.12505782, "learning_rate": 9.951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237597, "epoch": 0.22372132, "global_step/max_steps": "2935/65595", "percentage": "4.47%", "elapsed_time": "3h 25m 50s", "remaining_time": "3d 1h 14m 35s"}
+{"loss": 0.27552159, "token_acc": 0.8976268, "grad_norm": 0.8603763, "learning_rate": 9.951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237701, "epoch": 0.22410245, "global_step/max_steps": "2940/65595", "percentage": "4.48%", "elapsed_time": "3h 26m 6s", "remaining_time": "3d 1h 12m 19s"}
+{"loss": 0.24103894, "token_acc": 0.90545455, "grad_norm": 1.29176331, "learning_rate": 9.95e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237774, "epoch": 0.22448357, "global_step/max_steps": "2945/65595", "percentage": "4.49%", "elapsed_time": "3h 26m 23s", "remaining_time": "3d 1h 10m 37s"}
+{"loss": 0.16997656, "token_acc": 0.91255673, "grad_norm": 0.28568134, "learning_rate": 9.95e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237899, "epoch": 0.2248647, "global_step/max_steps": "2950/65595", "percentage": "4.50%", "elapsed_time": "3h 26m 38s", "remaining_time": "3d 1h 7m 58s"}
+{"loss": 0.30919013, "token_acc": 0.88276398, "grad_norm": 1.70714581, "learning_rate": 9.95e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238016, "epoch": 0.22524583, "global_step/max_steps": "2955/65595", "percentage": "4.50%", "elapsed_time": "3h 26m 52s", "remaining_time": "3d 1h 5m 28s"}
+{"loss": 0.30779834, "token_acc": 0.91016769, "grad_norm": 0.65579051, "learning_rate": 9.95e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238017, "epoch": 0.22562695, "global_step/max_steps": "2960/65595", "percentage": "4.51%", "elapsed_time": "3h 27m 13s", "remaining_time": "3d 1h 5m 6s"}
+{"loss": 0.20038693, "token_acc": 0.92232579, "grad_norm": 0.73648328, "learning_rate": 9.95e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238117, "epoch": 0.22600808, "global_step/max_steps": "2965/65595", "percentage": "4.52%", "elapsed_time": "3h 27m 29s", "remaining_time": "3d 1h 2m 54s"}
+{"loss": 0.24209948, "token_acc": 0.91535094, "grad_norm": 0.94702959, "learning_rate": 9.95e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238166, "epoch": 0.22638921, "global_step/max_steps": "2970/65595", "percentage": "4.53%", "elapsed_time": "3h 27m 48s", "remaining_time": "3d 1h 1m 39s"}
+{"loss": 0.20953779, "token_acc": 0.91759813, "grad_norm": 1.20024693, "learning_rate": 9.949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238284, "epoch": 0.22677033, "global_step/max_steps": "2975/65595", "percentage": "4.54%", "elapsed_time": "3h 28m 2s", "remaining_time": "3d 0h 59m 8s"}
+{"loss": 0.22920628, "token_acc": 0.90866703, "grad_norm": 0.89388233, "learning_rate": 9.949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238405, "epoch": 0.22715146, "global_step/max_steps": "2980/65595", "percentage": "4.54%", "elapsed_time": "3h 28m 17s", "remaining_time": "3d 0h 56m 33s"}
+{"loss": 0.28523188, "token_acc": 0.88331929, "grad_norm": 1.55943251, "learning_rate": 9.949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238508, "epoch": 0.22753259, "global_step/max_steps": "2985/65595", "percentage": "4.55%", "elapsed_time": "3h 28m 33s", "remaining_time": "3d 0h 54m 20s"}
+{"loss": 0.20185692, "token_acc": 0.92342118, "grad_norm": 2.55204892, "learning_rate": 9.949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238596, "epoch": 0.22791371, "global_step/max_steps": "2990/65595", "percentage": "4.56%", "elapsed_time": "3h 28m 49s", "remaining_time": "3d 0h 52m 22s"}
+{"loss": 0.23562324, "token_acc": 0.90756673, "grad_norm": 0.72967476, "learning_rate": 9.949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23871, "epoch": 0.22829484, "global_step/max_steps": "2995/65595", "percentage": "4.57%", "elapsed_time": "3h 29m 4s", "remaining_time": "3d 0h 49m 56s"}
+{"loss": 0.2863224, "token_acc": 0.88219521, "grad_norm": 1.55763817, "learning_rate": 9.948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238797, "epoch": 0.22867597, "global_step/max_steps": "3000/65595", "percentage": "4.57%", "elapsed_time": "3h 29m 20s", "remaining_time": "3d 0h 47m 59s"}
+{"eval_loss": 0.1756046, "eval_token_acc": 0.90754322, "eval_runtime": 173.4133, "eval_samples_per_second": 3.056, "eval_steps_per_second": 3.056, "epoch": 0.22867597, "global_step/max_steps": "3000/65595", "percentage": "4.57%", "elapsed_time": "3h 32m 14s", "remaining_time": "3d 1h 48m 17s"}
+{"loss": 0.21831119, "token_acc": 0.90693617, "grad_norm": 1.27248633, "learning_rate": 9.948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23563, "epoch": 0.22905709, "global_step/max_steps": "3005/65595", "percentage": "4.58%", "elapsed_time": "3h 32m 30s", "remaining_time": "3d 1h 46m 22s"}
+{"loss": 0.26994135, "token_acc": 0.90532312, "grad_norm": 2.30262899, "learning_rate": 9.948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235736, "epoch": 0.22943822, "global_step/max_steps": "3010/65595", "percentage": "4.59%", "elapsed_time": "3h 32m 46s", "remaining_time": "3d 1h 44m 1s"}
+{"loss": 0.1842191, "token_acc": 0.91810717, "grad_norm": 0.54064071, "learning_rate": 9.948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23583, "epoch": 0.22981935, "global_step/max_steps": "3015/65595", "percentage": "4.60%", "elapsed_time": "3h 33m 2s", "remaining_time": "3d 1h 41m 53s"}
+{"loss": 0.28391438, "token_acc": 0.88780939, "grad_norm": 1.60507989, "learning_rate": 9.948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235921, "epoch": 0.23020047, "global_step/max_steps": "3020/65595", "percentage": "4.60%", "elapsed_time": "3h 33m 18s", "remaining_time": "3d 1h 39m 50s"}
+{"loss": 0.33120408, "token_acc": 0.88147596, "grad_norm": 1.33472407, "learning_rate": 9.948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236004, "epoch": 0.2305816, "global_step/max_steps": "3025/65595", "percentage": "4.61%", "elapsed_time": "3h 33m 35s", "remaining_time": "3d 1h 37m 56s"}
+{"loss": 0.31291652, "token_acc": 0.88151457, "grad_norm": 2.32092047, "learning_rate": 9.947e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236111, "epoch": 0.23096273, "global_step/max_steps": "3030/65595", "percentage": "4.62%", "elapsed_time": "3h 33m 50s", "remaining_time": "3d 1h 35m 34s"}
+{"loss": 0.26765001, "token_acc": 0.90643275, "grad_norm": 1.07078373, "learning_rate": 9.947e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23622, "epoch": 0.23134385, "global_step/max_steps": "3035/65595", "percentage": "4.63%", "elapsed_time": "3h 34m 5s", "remaining_time": "3d 1h 33m 11s"}
+{"loss": 0.21562507, "token_acc": 0.91585848, "grad_norm": 0.69680947, "learning_rate": 9.947e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236183, "epoch": 0.23172498, "global_step/max_steps": "3040/65595", "percentage": "4.63%", "elapsed_time": "3h 34m 29s", "remaining_time": "3d 1h 33m 31s"}
+{"loss": 0.25662599, "token_acc": 0.90278628, "grad_norm": 1.30750656, "learning_rate": 9.947e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23626, "epoch": 0.23210611, "global_step/max_steps": "3045/65595", "percentage": "4.64%", "elapsed_time": "3h 34m 46s", "remaining_time": "3d 1h 31m 44s"}
+{"loss": 0.32373528, "token_acc": 0.89366438, "grad_norm": 1.1585449, "learning_rate": 9.947e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236346, "epoch": 0.23248723, "global_step/max_steps": "3050/65595", "percentage": "4.65%", "elapsed_time": "3h 35m 2s", "remaining_time": "3d 1h 29m 46s"}
+{"loss": 0.21113491, "token_acc": 0.92404814, "grad_norm": 0.86924934, "learning_rate": 9.947e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236442, "epoch": 0.23286836, "global_step/max_steps": "3055/65595", "percentage": "4.66%", "elapsed_time": "3h 35m 18s", "remaining_time": "3d 1h 27m 38s"}
+{"loss": 0.25351522, "token_acc": 0.91018212, "grad_norm": 0.72099787, "learning_rate": 9.946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236534, "epoch": 0.23324949, "global_step/max_steps": "3060/65595", "percentage": "4.66%", "elapsed_time": "3h 35m 34s", "remaining_time": "3d 1h 25m 35s"}
+{"loss": 0.19966152, "token_acc": 0.93448276, "grad_norm": 1.61004138, "learning_rate": 9.946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236649, "epoch": 0.23363061, "global_step/max_steps": "3065/65595", "percentage": "4.67%", "elapsed_time": "3h 35m 49s", "remaining_time": "3d 1h 23m 5s"}
+{"loss": 0.19076142, "token_acc": 0.92633086, "grad_norm": 0.58537471, "learning_rate": 9.946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23671, "epoch": 0.23401174, "global_step/max_steps": "3070/65595", "percentage": "4.68%", "elapsed_time": "3h 36m 7s", "remaining_time": "3d 1h 21m 36s"}
+{"loss": 0.1573174, "token_acc": 0.93012821, "grad_norm": 1.04670846, "learning_rate": 9.946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23678, "epoch": 0.23439287, "global_step/max_steps": "3075/65595", "percentage": "4.69%", "elapsed_time": "3h 36m 24s", "remaining_time": "3d 1h 19m 57s"}
+{"loss": 0.22424047, "token_acc": 0.9121919, "grad_norm": 0.87387776, "learning_rate": 9.946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236876, "epoch": 0.23477399, "global_step/max_steps": "3080/65595", "percentage": "4.70%", "elapsed_time": "3h 36m 40s", "remaining_time": "3d 1h 17m 48s"}
+{"loss": 0.26452408, "token_acc": 0.88484335, "grad_norm": 0.95956647, "learning_rate": 9.946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236986, "epoch": 0.23515512, "global_step/max_steps": "3085/65595", "percentage": "4.70%", "elapsed_time": "3h 36m 55s", "remaining_time": "3d 1h 15m 25s"}
+{"loss": 0.23919687, "token_acc": 0.87913841, "grad_norm": 1.10046005, "learning_rate": 9.945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237075, "epoch": 0.23553625, "global_step/max_steps": "3090/65595", "percentage": "4.71%", "elapsed_time": "3h 37m 11s", "remaining_time": "3d 1h 13m 25s"}
+{"loss": 0.27618086, "token_acc": 0.90031358, "grad_norm": 1.02944124, "learning_rate": 9.945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237119, "epoch": 0.23591737, "global_step/max_steps": "3095/65595", "percentage": "4.72%", "elapsed_time": "3h 37m 30s", "remaining_time": "3d 1h 12m 15s"}
+{"loss": 0.26333342, "token_acc": 0.90254344, "grad_norm": 1.27315557, "learning_rate": 9.945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237231, "epoch": 0.2362985, "global_step/max_steps": "3100/65595", "percentage": "4.73%", "elapsed_time": "3h 37m 45s", "remaining_time": "3d 1h 9m 50s"}
+{"loss": 0.24857264, "token_acc": 0.90577234, "grad_norm": 0.79022563, "learning_rate": 9.945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237307, "epoch": 0.23667962, "global_step/max_steps": "3105/65595", "percentage": "4.73%", "elapsed_time": "3h 38m 2s", "remaining_time": "3d 1h 8m 4s"}
+{"loss": 0.25456355, "token_acc": 0.91118729, "grad_norm": 0.79949003, "learning_rate": 9.945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237402, "epoch": 0.23706075, "global_step/max_steps": "3110/65595", "percentage": "4.74%", "elapsed_time": "3h 38m 17s", "remaining_time": "3d 1h 5m 58s"}
+{"loss": 0.22408416, "token_acc": 0.91478599, "grad_norm": 0.77140278, "learning_rate": 9.944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237497, "epoch": 0.23744188, "global_step/max_steps": "3115/65595", "percentage": "4.75%", "elapsed_time": "3h 38m 33s", "remaining_time": "3d 1h 3m 52s"}
+{"loss": 0.19041059, "token_acc": 0.91846922, "grad_norm": 0.48278838, "learning_rate": 9.944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237577, "epoch": 0.237823, "global_step/max_steps": "3120/65595", "percentage": "4.76%", "elapsed_time": "3h 38m 50s", "remaining_time": "3d 1h 2m 2s"}
+{"loss": 0.17973328, "token_acc": 0.92198447, "grad_norm": 1.38568306, "learning_rate": 9.944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237655, "epoch": 0.23820413, "global_step/max_steps": "3125/65595", "percentage": "4.76%", "elapsed_time": "3h 39m 7s", "remaining_time": "3d 1h 0m 15s"}
+{"loss": 0.22646828, "token_acc": 0.9073993, "grad_norm": 0.85247093, "learning_rate": 9.944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237745, "epoch": 0.23858526, "global_step/max_steps": "3130/65595", "percentage": "4.77%", "elapsed_time": "3h 39m 23s", "remaining_time": "3d 0h 58m 15s"}
+{"loss": 0.19173913, "token_acc": 0.92357038, "grad_norm": 1.33331537, "learning_rate": 9.944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237837, "epoch": 0.23896638, "global_step/max_steps": "3135/65595", "percentage": "4.78%", "elapsed_time": "3h 39m 39s", "remaining_time": "3d 0h 56m 12s"}
+{"loss": 0.24128602, "token_acc": 0.90712032, "grad_norm": 0.53286278, "learning_rate": 9.944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237897, "epoch": 0.23934751, "global_step/max_steps": "3140/65595", "percentage": "4.79%", "elapsed_time": "3h 39m 56s", "remaining_time": "3d 0h 54m 44s"}
+{"loss": 0.28713202, "token_acc": 0.88597003, "grad_norm": 0.80980295, "learning_rate": 9.943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237997, "epoch": 0.23972864, "global_step/max_steps": "3145/65595", "percentage": "4.79%", "elapsed_time": "3h 40m 12s", "remaining_time": "3d 0h 52m 33s"}
+{"loss": 0.2859292, "token_acc": 0.89525857, "grad_norm": 0.99712616, "learning_rate": 9.943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238002, "epoch": 0.24010976, "global_step/max_steps": "3150/65595", "percentage": "4.80%", "elapsed_time": "3h 40m 32s", "remaining_time": "3d 0h 52m 7s"}
+{"loss": 0.24353209, "token_acc": 0.90288905, "grad_norm": 0.67641938, "learning_rate": 9.943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238097, "epoch": 0.24049089, "global_step/max_steps": "3155/65595", "percentage": "4.81%", "elapsed_time": "3h 40m 48s", "remaining_time": "3d 0h 50m 1s"}
+{"loss": 0.18823634, "token_acc": 0.90815475, "grad_norm": 2.86583853, "learning_rate": 9.943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238204, "epoch": 0.24087202, "global_step/max_steps": "3160/65595", "percentage": "4.82%", "elapsed_time": "3h 41m 3s", "remaining_time": "3d 0h 47m 43s"}
+{"loss": 0.25087466, "token_acc": 0.87640449, "grad_norm": 0.37094066, "learning_rate": 9.943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238344, "epoch": 0.24125314, "global_step/max_steps": "3165/65595", "percentage": "4.83%", "elapsed_time": "3h 41m 16s", "remaining_time": "3d 0h 44m 47s"}
+{"loss": 0.23544712, "token_acc": 0.89170114, "grad_norm": 0.79601568, "learning_rate": 9.942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238455, "epoch": 0.24163427, "global_step/max_steps": "3170/65595", "percentage": "4.83%", "elapsed_time": "3h 41m 31s", "remaining_time": "3d 0h 42m 25s"}
+{"loss": 0.28400383, "token_acc": 0.9008578, "grad_norm": 0.91479868, "learning_rate": 9.942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238509, "epoch": 0.2420154, "global_step/max_steps": "3175/65595", "percentage": "4.84%", "elapsed_time": "3h 41m 49s", "remaining_time": "3d 0h 41m 5s"}
+{"loss": 0.26421821, "token_acc": 0.8852361, "grad_norm": 1.80063593, "learning_rate": 9.942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23865, "epoch": 0.24239652, "global_step/max_steps": "3180/65595", "percentage": "4.85%", "elapsed_time": "3h 42m 2s", "remaining_time": "3d 0h 38m 9s"}
+{"loss": 0.25463467, "token_acc": 0.90909091, "grad_norm": 0.94447088, "learning_rate": 9.942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238735, "epoch": 0.24277765, "global_step/max_steps": "3185/65595", "percentage": "4.86%", "elapsed_time": "3h 42m 18s", "remaining_time": "3d 0h 36m 15s"}
+{"loss": 0.15003867, "token_acc": 0.91710677, "grad_norm": 0.4786897, "learning_rate": 9.942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238832, "epoch": 0.24315878, "global_step/max_steps": "3190/65595", "percentage": "4.86%", "elapsed_time": "3h 42m 34s", "remaining_time": "3d 0h 34m 8s"}
+{"loss": 0.23251181, "token_acc": 0.9111184, "grad_norm": 0.97968674, "learning_rate": 9.942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238948, "epoch": 0.2435399, "global_step/max_steps": "3195/65595", "percentage": "4.87%", "elapsed_time": "3h 42m 48s", "remaining_time": "3d 0h 31m 41s"}
+{"loss": 0.22563722, "token_acc": 0.90696492, "grad_norm": 0.64183927, "learning_rate": 9.941e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23902, "epoch": 0.24392103, "global_step/max_steps": "3200/65595", "percentage": "4.88%", "elapsed_time": "3h 43m 5s", "remaining_time": "3d 0h 30m 1s"}
+{"eval_loss": 0.17317873, "eval_token_acc": 0.91172219, "eval_runtime": 184.3518, "eval_samples_per_second": 2.875, "eval_steps_per_second": 2.875, "epoch": 0.24392103, "global_step/max_steps": "3200/65595", "percentage": "4.88%", "elapsed_time": "3h 46m 10s", "remaining_time": "3d 1h 29m 56s"}
+{"loss": 0.34490407, "token_acc": 0.91059581, "grad_norm": 1.05756247, "learning_rate": 9.941e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235864, "epoch": 0.24430216, "global_step/max_steps": "3205/65595", "percentage": "4.89%", "elapsed_time": "3h 46m 26s", "remaining_time": "3d 1h 27m 52s"}
+{"loss": 0.22462077, "token_acc": 0.90967397, "grad_norm": 0.90672064, "learning_rate": 9.941e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235948, "epoch": 0.24468328, "global_step/max_steps": "3210/65595", "percentage": "4.89%", "elapsed_time": "3h 46m 42s", "remaining_time": "3d 1h 25m 58s"}
+{"loss": 0.27300096, "token_acc": 0.89463731, "grad_norm": 0.91843396, "learning_rate": 9.941e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236002, "epoch": 0.24506441, "global_step/max_steps": "3215/65595", "percentage": "4.90%", "elapsed_time": "3h 47m 0s", "remaining_time": "3d 1h 24m 36s"}
+{"loss": 0.29277081, "token_acc": 0.89867566, "grad_norm": 2.17267132, "learning_rate": 9.941e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236034, "epoch": 0.24544554, "global_step/max_steps": "3220/65595", "percentage": "4.91%", "elapsed_time": "3h 47m 19s", "remaining_time": "3d 1h 23m 38s"}
+{"loss": 0.25940144, "token_acc": 0.90043924, "grad_norm": 1.2135936, "learning_rate": 9.94e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236127, "epoch": 0.24582666, "global_step/max_steps": "3225/65595", "percentage": "4.92%", "elapsed_time": "3h 47m 35s", "remaining_time": "3d 1h 21m 33s"}
+{"loss": 0.21597435, "token_acc": 0.90921389, "grad_norm": 0.96817684, "learning_rate": 9.94e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2362, "epoch": 0.24620779, "global_step/max_steps": "3230/65595", "percentage": "4.92%", "elapsed_time": "3h 47m 52s", "remaining_time": "3d 1h 19m 51s"}
+{"loss": 0.19244909, "token_acc": 0.91237756, "grad_norm": 1.94387519, "learning_rate": 9.94e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236292, "epoch": 0.24658892, "global_step/max_steps": "3235/65595", "percentage": "4.93%", "elapsed_time": "3h 48m 8s", "remaining_time": "3d 1h 17m 47s"}
+{"loss": 0.24726567, "token_acc": 0.91153671, "grad_norm": 2.37680793, "learning_rate": 9.94e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236426, "epoch": 0.24697004, "global_step/max_steps": "3240/65595", "percentage": "4.94%", "elapsed_time": "3h 48m 21s", "remaining_time": "3d 1h 14m 56s"}
+{"loss": 0.23982904, "token_acc": 0.90875752, "grad_norm": 1.09810078, "learning_rate": 9.94e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236494, "epoch": 0.24735117, "global_step/max_steps": "3245/65595", "percentage": "4.95%", "elapsed_time": "3h 48m 39s", "remaining_time": "3d 1h 13m 20s"}
+{"loss": 0.20327492, "token_acc": 0.92251535, "grad_norm": 1.29427826, "learning_rate": 9.94e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23657, "epoch": 0.2477323, "global_step/max_steps": "3250/65595", "percentage": "4.95%", "elapsed_time": "3h 48m 55s", "remaining_time": "3d 1h 11m 34s"}
+{"loss": 0.27524197, "token_acc": 0.90803084, "grad_norm": 0.98066425, "learning_rate": 9.939e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236646, "epoch": 0.24811342, "global_step/max_steps": "3255/65595", "percentage": "4.96%", "elapsed_time": "3h 49m 12s", "remaining_time": "3d 1h 9m 49s"}
+{"loss": 0.3339885, "token_acc": 0.88545559, "grad_norm": 0.77883303, "learning_rate": 9.939e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236713, "epoch": 0.24849455, "global_step/max_steps": "3260/65595", "percentage": "4.97%", "elapsed_time": "3h 49m 29s", "remaining_time": "3d 1h 8m 12s"}
+{"loss": 0.24198425, "token_acc": 0.90955394, "grad_norm": 0.58166635, "learning_rate": 9.939e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236797, "epoch": 0.24887568, "global_step/max_steps": "3265/65595", "percentage": "4.98%", "elapsed_time": "3h 49m 45s", "remaining_time": "3d 1h 6m 19s"}
+{"loss": 0.30663404, "token_acc": 0.88326485, "grad_norm": 1.19892752, "learning_rate": 9.939e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23686, "epoch": 0.2492568, "global_step/max_steps": "3270/65595", "percentage": "4.99%", "elapsed_time": "3h 50m 3s", "remaining_time": "3d 1h 4m 47s"}
+{"loss": 0.26776597, "token_acc": 0.88833747, "grad_norm": 1.08742237, "learning_rate": 9.939e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236928, "epoch": 0.24963793, "global_step/max_steps": "3275/65595", "percentage": "4.99%", "elapsed_time": "3h 50m 20s", "remaining_time": "3d 1h 3m 10s"}
+{"loss": 0.18263953, "token_acc": 0.91380145, "grad_norm": 0.85746193, "learning_rate": 9.938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237014, "epoch": 0.25001906, "global_step/max_steps": "3280/65595", "percentage": "5.00%", "elapsed_time": "3h 50m 36s", "remaining_time": "3d 1h 1m 14s"}
+{"loss": 0.26823354, "token_acc": 0.901251, "grad_norm": 0.73949116, "learning_rate": 9.938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237124, "epoch": 0.25040018, "global_step/max_steps": "3285/65595", "percentage": "5.01%", "elapsed_time": "3h 50m 51s", "remaining_time": "3d 0h 58m 51s"}
+{"loss": 0.17267501, "token_acc": 0.93391608, "grad_norm": 0.93977529, "learning_rate": 9.938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23724, "epoch": 0.25078131, "global_step/max_steps": "3290/65595", "percentage": "5.02%", "elapsed_time": "3h 51m 5s", "remaining_time": "3d 0h 56m 21s"}
+{"loss": 0.19674288, "token_acc": 0.91570881, "grad_norm": 0.94361395, "learning_rate": 9.938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237346, "epoch": 0.25116244, "global_step/max_steps": "3295/65595", "percentage": "5.02%", "elapsed_time": "3h 51m 20s", "remaining_time": "3d 0h 54m 3s"}
+{"loss": 0.26889086, "token_acc": 0.88246182, "grad_norm": 0.88565665, "learning_rate": 9.938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237478, "epoch": 0.25154356, "global_step/max_steps": "3300/65595", "percentage": "5.03%", "elapsed_time": "3h 51m 33s", "remaining_time": "3d 0h 51m 16s"}
+{"loss": 0.23878167, "token_acc": 0.90830352, "grad_norm": 0.87455583, "learning_rate": 9.937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237573, "epoch": 0.25192469, "global_step/max_steps": "3305/65595", "percentage": "5.04%", "elapsed_time": "3h 51m 49s", "remaining_time": "3d 0h 49m 11s"}
+{"loss": 0.18626415, "token_acc": 0.91659253, "grad_norm": 1.10116613, "learning_rate": 9.937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237671, "epoch": 0.25230582, "global_step/max_steps": "3310/65595", "percentage": "5.05%", "elapsed_time": "3h 52m 4s", "remaining_time": "3d 0h 47m 1s"}
+{"loss": 0.2733391, "token_acc": 0.90279799, "grad_norm": 0.61407208, "learning_rate": 9.937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237743, "epoch": 0.25268694, "global_step/max_steps": "3315/65595", "percentage": "5.05%", "elapsed_time": "3h 52m 21s", "remaining_time": "3d 0h 45m 21s"}
+{"loss": 0.24545023, "token_acc": 0.9098778, "grad_norm": 0.90192664, "learning_rate": 9.937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237777, "epoch": 0.25306807, "global_step/max_steps": "3320/65595", "percentage": "5.06%", "elapsed_time": "3h 52m 40s", "remaining_time": "3d 0h 44m 23s"}
+{"loss": 0.19869578, "token_acc": 0.93154903, "grad_norm": 0.66211915, "learning_rate": 9.937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237863, "epoch": 0.2534492, "global_step/max_steps": "3325/65595", "percentage": "5.07%", "elapsed_time": "3h 52m 56s", "remaining_time": "3d 0h 42m 26s"}
+{"loss": 0.19741606, "token_acc": 0.92239422, "grad_norm": 0.89211696, "learning_rate": 9.937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237938, "epoch": 0.25383032, "global_step/max_steps": "3330/65595", "percentage": "5.08%", "elapsed_time": "3h 53m 13s", "remaining_time": "3d 0h 40m 44s"}
+{"loss": 0.26518831, "token_acc": 0.8884177, "grad_norm": 1.28931761, "learning_rate": 9.936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238038, "epoch": 0.25421145, "global_step/max_steps": "3335/65595", "percentage": "5.08%", "elapsed_time": "3h 53m 28s", "remaining_time": "3d 0h 38m 33s"}
+{"loss": 0.34899344, "token_acc": 0.88545748, "grad_norm": 0.96575093, "learning_rate": 9.936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238124, "epoch": 0.25459258, "global_step/max_steps": "3340/65595", "percentage": "5.09%", "elapsed_time": "3h 53m 44s", "remaining_time": "3d 0h 36m 37s"}
+{"loss": 0.23034153, "token_acc": 0.91779749, "grad_norm": 1.26726425, "learning_rate": 9.936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238219, "epoch": 0.2549737, "global_step/max_steps": "3345/65595", "percentage": "5.10%", "elapsed_time": "3h 53m 59s", "remaining_time": "3d 0h 34m 32s"}
+{"loss": 0.18209827, "token_acc": 0.92547464, "grad_norm": 0.97190088, "learning_rate": 9.936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238317, "epoch": 0.25535483, "global_step/max_steps": "3350/65595", "percentage": "5.11%", "elapsed_time": "3h 54m 14s", "remaining_time": "3d 0h 32m 23s"}
+{"loss": 0.16364319, "token_acc": 0.92576902, "grad_norm": 1.43097305, "learning_rate": 9.936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238402, "epoch": 0.25573596, "global_step/max_steps": "3355/65595", "percentage": "5.11%", "elapsed_time": "3h 54m 30s", "remaining_time": "3d 0h 30m 29s"}
+{"loss": 0.25730863, "token_acc": 0.90254338, "grad_norm": 1.17905414, "learning_rate": 9.935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238499, "epoch": 0.25611708, "global_step/max_steps": "3360/65595", "percentage": "5.12%", "elapsed_time": "3h 54m 45s", "remaining_time": "3d 0h 28m 23s"}
+{"loss": 0.27280362, "token_acc": 0.88030303, "grad_norm": 3.05356836, "learning_rate": 9.935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238621, "epoch": 0.25649821, "global_step/max_steps": "3365/65595", "percentage": "5.13%", "elapsed_time": "3h 54m 59s", "remaining_time": "3d 0h 25m 48s"}
+{"loss": 0.21414058, "token_acc": 0.92857143, "grad_norm": 1.03499448, "learning_rate": 9.935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238728, "epoch": 0.25687934, "global_step/max_steps": "3370/65595", "percentage": "5.14%", "elapsed_time": "3h 55m 14s", "remaining_time": "3d 0h 23m 31s"}
+{"loss": 0.23120806, "token_acc": 0.90287263, "grad_norm": 0.73420018, "learning_rate": 9.935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238766, "epoch": 0.25726046, "global_step/max_steps": "3375/65595", "percentage": "5.15%", "elapsed_time": "3h 55m 32s", "remaining_time": "3d 0h 22m 28s"}
+{"loss": 0.25004113, "token_acc": 0.91580243, "grad_norm": 1.51755106, "learning_rate": 9.935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238852, "epoch": 0.25764159, "global_step/max_steps": "3380/65595", "percentage": "5.15%", "elapsed_time": "3h 55m 48s", "remaining_time": "3d 0h 20m 34s"}
+{"loss": 0.28732791, "token_acc": 0.88521505, "grad_norm": 1.15586412, "learning_rate": 9.934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238946, "epoch": 0.25802272, "global_step/max_steps": "3385/65595", "percentage": "5.16%", "elapsed_time": "3h 56m 4s", "remaining_time": "3d 0h 18m 30s"}
+{"loss": 0.2011775, "token_acc": 0.90938511, "grad_norm": 1.05789924, "learning_rate": 9.934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238994, "epoch": 0.25840384, "global_step/max_steps": "3390/65595", "percentage": "5.17%", "elapsed_time": "3h 56m 22s", "remaining_time": "3d 0h 17m 17s"}
+{"loss": 0.24157338, "token_acc": 0.90717489, "grad_norm": 1.47259104, "learning_rate": 9.934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239063, "epoch": 0.25878497, "global_step/max_steps": "3395/65595", "percentage": "5.18%", "elapsed_time": "3h 56m 39s", "remaining_time": "3d 0h 15m 41s"}
+{"loss": 0.26102405, "token_acc": 0.90648902, "grad_norm": 2.45494342, "learning_rate": 9.934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239152, "epoch": 0.25916609, "global_step/max_steps": "3400/65595", "percentage": "5.18%", "elapsed_time": "3h 56m 54s", "remaining_time": "3d 0h 13m 43s"}
+{"eval_loss": 0.16867279, "eval_token_acc": 0.91346154, "eval_runtime": 174.9074, "eval_samples_per_second": 3.03, "eval_steps_per_second": 3.03, "epoch": 0.25916609, "global_step/max_steps": "3400/65595", "percentage": "5.18%", "elapsed_time": "3h 59m 49s", "remaining_time": "3d 1h 7m 3s"}
+{"loss": 0.23485117, "token_acc": 0.9128931, "grad_norm": 1.1177119, "learning_rate": 9.934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236354, "epoch": 0.25954722, "global_step/max_steps": "3405/65595", "percentage": "5.19%", "elapsed_time": "4h 0m 4s", "remaining_time": "3d 1h 4m 41s"}
+{"loss": 0.2079987, "token_acc": 0.9240227, "grad_norm": 1.00327182, "learning_rate": 9.933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236414, "epoch": 0.25992835, "global_step/max_steps": "3410/65595", "percentage": "5.20%", "elapsed_time": "4h 0m 21s", "remaining_time": "3d 1h 3m 13s"}
+{"loss": 0.26002402, "token_acc": 0.90689317, "grad_norm": 1.20104623, "learning_rate": 9.933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23648, "epoch": 0.26030947, "global_step/max_steps": "3415/65595", "percentage": "5.21%", "elapsed_time": "4h 0m 38s", "remaining_time": "3d 1h 1m 39s"}
+{"loss": 0.17615311, "token_acc": 0.93652307, "grad_norm": 0.59500635, "learning_rate": 9.933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236548, "epoch": 0.2606906, "global_step/max_steps": "3420/65595", "percentage": "5.21%", "elapsed_time": "4h 0m 55s", "remaining_time": "3d 1h 0m 2s"}
+{"loss": 0.21790056, "token_acc": 0.91309695, "grad_norm": 0.97714293, "learning_rate": 9.933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236617, "epoch": 0.26107173, "global_step/max_steps": "3425/65595", "percentage": "5.22%", "elapsed_time": "4h 1m 12s", "remaining_time": "3d 0h 58m 24s"}
+{"loss": 0.27008803, "token_acc": 0.89145123, "grad_norm": 1.19720304, "learning_rate": 9.933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236685, "epoch": 0.26145285, "global_step/max_steps": "3430/65595", "percentage": "5.23%", "elapsed_time": "4h 1m 29s", "remaining_time": "3d 0h 56m 47s"}
+{"loss": 0.19975473, "token_acc": 0.89828431, "grad_norm": 1.2683388, "learning_rate": 9.932e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236784, "epoch": 0.26183398, "global_step/max_steps": "3435/65595", "percentage": "5.24%", "elapsed_time": "4h 1m 44s", "remaining_time": "3d 0h 54m 37s"}
+{"loss": 0.19390435, "token_acc": 0.91985062, "grad_norm": 1.40031683, "learning_rate": 9.932e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236883, "epoch": 0.26221511, "global_step/max_steps": "3440/65595", "percentage": "5.24%", "elapsed_time": "4h 1m 59s", "remaining_time": "3d 0h 52m 26s"}
+{"loss": 0.27013414, "token_acc": 0.88656013, "grad_norm": 1.34128869, "learning_rate": 9.932e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236984, "epoch": 0.26259623, "global_step/max_steps": "3445/65595", "percentage": "5.25%", "elapsed_time": "4h 2m 14s", "remaining_time": "3d 0h 50m 13s"}
+{"loss": 0.21112781, "token_acc": 0.91332436, "grad_norm": 0.89146602, "learning_rate": 9.932e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237023, "epoch": 0.26297736, "global_step/max_steps": "3450/65595", "percentage": "5.26%", "elapsed_time": "4h 2m 33s", "remaining_time": "3d 0h 49m 9s"}
+{"loss": 0.24273713, "token_acc": 0.90344473, "grad_norm": 1.00397074, "learning_rate": 9.932e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237041, "epoch": 0.26335849, "global_step/max_steps": "3455/65595", "percentage": "5.27%", "elapsed_time": "4h 2m 53s", "remaining_time": "3d 0h 48m 28s"}
+{"loss": 0.19220982, "token_acc": 0.94008511, "grad_norm": 0.61957681, "learning_rate": 9.932e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23713, "epoch": 0.26373961, "global_step/max_steps": "3460/65595", "percentage": "5.27%", "elapsed_time": "4h 3m 8s", "remaining_time": "3d 0h 46m 29s"}
+{"loss": 0.25589573, "token_acc": 0.90874716, "grad_norm": 1.32439172, "learning_rate": 9.931e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237229, "epoch": 0.26412074, "global_step/max_steps": "3465/65595", "percentage": "5.28%", "elapsed_time": "4h 3m 23s", "remaining_time": "3d 0h 44m 18s"}
+{"loss": 0.20632718, "token_acc": 0.9187958, "grad_norm": 2.16593146, "learning_rate": 9.931e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237309, "epoch": 0.26450187, "global_step/max_steps": "3470/65595", "percentage": "5.29%", "elapsed_time": "4h 3m 40s", "remaining_time": "3d 0h 42m 29s"}
+{"loss": 0.16089392, "token_acc": 0.93047485, "grad_norm": 0.77152163, "learning_rate": 9.931e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237385, "epoch": 0.26488299, "global_step/max_steps": "3475/65595", "percentage": "5.30%", "elapsed_time": "4h 3m 56s", "remaining_time": "3d 0h 40m 45s"}
+{"loss": 0.24356556, "token_acc": 0.89892372, "grad_norm": 0.7170223, "learning_rate": 9.931e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237508, "epoch": 0.26526412, "global_step/max_steps": "3480/65595", "percentage": "5.31%", "elapsed_time": "4h 4m 9s", "remaining_time": "3d 0h 38m 7s"}
+{"loss": 0.20824168, "token_acc": 0.88993103, "grad_norm": 0.53876781, "learning_rate": 9.931e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237612, "epoch": 0.26564525, "global_step/max_steps": "3485/65595", "percentage": "5.31%", "elapsed_time": "4h 4m 24s", "remaining_time": "3d 0h 35m 52s"}
+{"loss": 0.18840089, "token_acc": 0.90526886, "grad_norm": 1.10833955, "learning_rate": 9.93e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237673, "epoch": 0.26602637, "global_step/max_steps": "3490/65595", "percentage": "5.32%", "elapsed_time": "4h 4m 41s", "remaining_time": "3d 0h 34m 24s"}
+{"loss": 0.19139513, "token_acc": 0.92410522, "grad_norm": 0.77431405, "learning_rate": 9.93e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237783, "epoch": 0.2664075, "global_step/max_steps": "3495/65595", "percentage": "5.33%", "elapsed_time": "4h 4m 56s", "remaining_time": "3d 0h 32m 3s"}
+{"loss": 0.23452506, "token_acc": 0.90473903, "grad_norm": 0.99804223, "learning_rate": 9.93e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237842, "epoch": 0.26678863, "global_step/max_steps": "3500/65595", "percentage": "5.34%", "elapsed_time": "4h 5m 13s", "remaining_time": "3d 0h 30m 37s"}
+{"loss": 0.24804754, "token_acc": 0.90113617, "grad_norm": 0.89734966, "learning_rate": 9.93e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2379, "epoch": 0.26716975, "global_step/max_steps": "3505/65595", "percentage": "5.34%", "elapsed_time": "4h 5m 30s", "remaining_time": "3d 0h 29m 12s"}
+{"loss": 0.23145952, "token_acc": 0.91642433, "grad_norm": 0.68424487, "learning_rate": 9.93e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237966, "epoch": 0.26755088, "global_step/max_steps": "3510/65595", "percentage": "5.35%", "elapsed_time": "4h 5m 47s", "remaining_time": "3d 0h 27m 39s"}
+{"loss": 0.19792087, "token_acc": 0.92113632, "grad_norm": 0.72922885, "learning_rate": 9.929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237966, "epoch": 0.26793201, "global_step/max_steps": "3515/65595", "percentage": "5.36%", "elapsed_time": "4h 6m 8s", "remaining_time": "3d 0h 27m 18s"}
+{"loss": 0.17626637, "token_acc": 0.92991374, "grad_norm": 0.75802308, "learning_rate": 9.929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238022, "epoch": 0.26831313, "global_step/max_steps": "3520/65595", "percentage": "5.37%", "elapsed_time": "4h 6m 26s", "remaining_time": "3d 0h 25m 55s"}
+{"loss": 0.24382281, "token_acc": 0.9020308, "grad_norm": 1.12619889, "learning_rate": 9.929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238088, "epoch": 0.26869426, "global_step/max_steps": "3525/65595", "percentage": "5.37%", "elapsed_time": "4h 6m 43s", "remaining_time": "3d 0h 24m 21s"}
+{"loss": 0.28717155, "token_acc": 0.90993511, "grad_norm": 1.46537685, "learning_rate": 9.929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238108, "epoch": 0.26907539, "global_step/max_steps": "3530/65595", "percentage": "5.38%", "elapsed_time": "4h 7m 2s", "remaining_time": "3d 0h 23m 39s"}
+{"loss": 0.18003414, "token_acc": 0.90568099, "grad_norm": 0.76496023, "learning_rate": 9.929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238216, "epoch": 0.26945651, "global_step/max_steps": "3535/65595", "percentage": "5.39%", "elapsed_time": "4h 7m 17s", "remaining_time": "3d 0h 21m 20s"}
+{"loss": 0.21303415, "token_acc": 0.92579588, "grad_norm": 1.27711737, "learning_rate": 9.928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238272, "epoch": 0.26983764, "global_step/max_steps": "3540/65595", "percentage": "5.40%", "elapsed_time": "4h 7m 34s", "remaining_time": "3d 0h 19m 58s"}
+{"loss": 0.23207998, "token_acc": 0.91624365, "grad_norm": 0.95397437, "learning_rate": 9.928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238356, "epoch": 0.27021877, "global_step/max_steps": "3545/65595", "percentage": "5.40%", "elapsed_time": "4h 7m 50s", "remaining_time": "3d 0h 18m 6s"}
+{"loss": 0.15991783, "token_acc": 0.94045175, "grad_norm": 2.1878562, "learning_rate": 9.928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238444, "epoch": 0.27059989, "global_step/max_steps": "3550/65595", "percentage": "5.41%", "elapsed_time": "4h 8m 5s", "remaining_time": "3d 0h 16m 8s"}
+{"loss": 0.21476443, "token_acc": 0.92765043, "grad_norm": 0.71572864, "learning_rate": 9.928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238521, "epoch": 0.27098102, "global_step/max_steps": "3555/65595", "percentage": "5.42%", "elapsed_time": "4h 8m 22s", "remaining_time": "3d 0h 14m 23s"}
+{"loss": 0.23420584, "token_acc": 0.90832966, "grad_norm": 0.65340817, "learning_rate": 9.927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238588, "epoch": 0.27136215, "global_step/max_steps": "3560/65595", "percentage": "5.43%", "elapsed_time": "4h 8m 38s", "remaining_time": "3d 0h 12m 49s"}
+{"loss": 0.25551882, "token_acc": 0.89341957, "grad_norm": 1.2813586, "learning_rate": 9.927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238674, "epoch": 0.27174327, "global_step/max_steps": "3565/65595", "percentage": "5.43%", "elapsed_time": "4h 8m 54s", "remaining_time": "3d 0h 10m 55s"}
+{"loss": 0.2133456, "token_acc": 0.93341761, "grad_norm": 2.63856769, "learning_rate": 9.927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238739, "epoch": 0.2721244, "global_step/max_steps": "3570/65595", "percentage": "5.44%", "elapsed_time": "4h 9m 11s", "remaining_time": "3d 0h 9m 24s"}
+{"loss": 0.20884962, "token_acc": 0.92858118, "grad_norm": 1.20191288, "learning_rate": 9.927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23876, "epoch": 0.27250553, "global_step/max_steps": "3575/65595", "percentage": "5.45%", "elapsed_time": "4h 9m 30s", "remaining_time": "3d 0h 8m 39s"}
+{"loss": 0.2734092, "token_acc": 0.89332446, "grad_norm": 0.4164474, "learning_rate": 9.927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23885, "epoch": 0.27288665, "global_step/max_steps": "3580/65595", "percentage": "5.46%", "elapsed_time": "4h 9m 46s", "remaining_time": "3d 0h 6m 41s"}
+{"loss": 0.19977269, "token_acc": 0.93309776, "grad_norm": 1.34395409, "learning_rate": 9.926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238946, "epoch": 0.27326778, "global_step/max_steps": "3585/65595", "percentage": "5.47%", "elapsed_time": "4h 10m 1s", "remaining_time": "3d 0h 4m 36s"}
+{"loss": 0.25340714, "token_acc": 0.90953545, "grad_norm": 1.36099803, "learning_rate": 9.926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239034, "epoch": 0.27364891, "global_step/max_steps": "3590/65595", "percentage": "5.47%", "elapsed_time": "4h 10m 16s", "remaining_time": "3d 0h 2m 39s"}
+{"loss": 0.23006744, "token_acc": 0.90430812, "grad_norm": 0.63315111, "learning_rate": 9.926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239118, "epoch": 0.27403003, "global_step/max_steps": "3595/65595", "percentage": "5.48%", "elapsed_time": "4h 10m 32s", "remaining_time": "3d 0h 0m 47s"}
+{"loss": 0.2123275, "token_acc": 0.92128896, "grad_norm": 1.68168855, "learning_rate": 9.926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239199, "epoch": 0.27441116, "global_step/max_steps": "3600/65595", "percentage": "5.49%", "elapsed_time": "4h 10m 48s", "remaining_time": "2d 23h 58m 59s"}
+{"eval_loss": 0.16504756, "eval_token_acc": 0.91636046, "eval_runtime": 180.7892, "eval_samples_per_second": 2.932, "eval_steps_per_second": 2.932, "epoch": 0.27441116, "global_step/max_steps": "3600/65595", "percentage": "5.49%", "elapsed_time": "4h 13m 48s", "remaining_time": "3d 0h 50m 52s"}
+{"loss": 0.31939511, "token_acc": 0.91513013, "grad_norm": 1.38186574, "learning_rate": 9.926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236451, "epoch": 0.27479229, "global_step/max_steps": "3605/65595", "percentage": "5.50%", "elapsed_time": "4h 14m 4s", "remaining_time": "3d 0h 48m 49s"}
+{"loss": 0.18266684, "token_acc": 0.90646074, "grad_norm": 4.46008539, "learning_rate": 9.925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236538, "epoch": 0.27517341, "global_step/max_steps": "3610/65595", "percentage": "5.50%", "elapsed_time": "4h 14m 19s", "remaining_time": "3d 0h 46m 52s"}
+{"loss": 0.18030634, "token_acc": 0.92576687, "grad_norm": 1.62518167, "learning_rate": 9.925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236649, "epoch": 0.27555454, "global_step/max_steps": "3615/65595", "percentage": "5.51%", "elapsed_time": "4h 14m 33s", "remaining_time": "3d 0h 44m 29s"}
+{"loss": 0.25122232, "token_acc": 0.90986472, "grad_norm": 0.58415866, "learning_rate": 9.925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236724, "epoch": 0.27593567, "global_step/max_steps": "3620/65595", "percentage": "5.52%", "elapsed_time": "4h 14m 49s", "remaining_time": "3d 0h 42m 44s"}
+{"loss": 0.27530787, "token_acc": 0.89074874, "grad_norm": 1.2649734, "learning_rate": 9.925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236797, "epoch": 0.27631679, "global_step/max_steps": "3625/65595", "percentage": "5.53%", "elapsed_time": "4h 15m 6s", "remaining_time": "3d 0h 41m 2s"}
+{"loss": 0.23215384, "token_acc": 0.92139738, "grad_norm": 1.14320183, "learning_rate": 9.925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236859, "epoch": 0.27669792, "global_step/max_steps": "3630/65595", "percentage": "5.53%", "elapsed_time": "4h 15m 23s", "remaining_time": "3d 0h 39m 33s"}
+{"loss": 0.16317995, "token_acc": 0.92644062, "grad_norm": 0.79910511, "learning_rate": 9.924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236926, "epoch": 0.27707905, "global_step/max_steps": "3635/65595", "percentage": "5.54%", "elapsed_time": "4h 15m 40s", "remaining_time": "3d 0h 37m 57s"}
+{"loss": 0.19733491, "token_acc": 0.88828707, "grad_norm": 1.20299613, "learning_rate": 9.924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237036, "epoch": 0.27746017, "global_step/max_steps": "3640/65595", "percentage": "5.55%", "elapsed_time": "4h 15m 54s", "remaining_time": "3d 0h 35m 35s"}
+{"loss": 0.14963338, "token_acc": 0.92911541, "grad_norm": 1.15806592, "learning_rate": 9.924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237168, "epoch": 0.2778413, "global_step/max_steps": "3645/65595", "percentage": "5.56%", "elapsed_time": "4h 16m 6s", "remaining_time": "3d 0h 32m 49s"}
+{"loss": 0.16476464, "token_acc": 0.93951203, "grad_norm": 1.06716764, "learning_rate": 9.924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237236, "epoch": 0.27822243, "global_step/max_steps": "3650/65595", "percentage": "5.56%", "elapsed_time": "4h 16m 23s", "remaining_time": "3d 0h 31m 12s"}
+{"loss": 0.26507528, "token_acc": 0.88269795, "grad_norm": 0.65109962, "learning_rate": 9.924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23735, "epoch": 0.27860355, "global_step/max_steps": "3655/65595", "percentage": "5.57%", "elapsed_time": "4h 16m 36s", "remaining_time": "3d 0h 28m 46s"}
+{"loss": 0.28021379, "token_acc": 0.90489914, "grad_norm": 1.25157785, "learning_rate": 9.923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237417, "epoch": 0.27898468, "global_step/max_steps": "3660/65595", "percentage": "5.58%", "elapsed_time": "4h 16m 53s", "remaining_time": "3d 0h 27m 12s"}
+{"loss": 0.25572386, "token_acc": 0.89410349, "grad_norm": 1.60829973, "learning_rate": 9.923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237527, "epoch": 0.27936581, "global_step/max_steps": "3665/65595", "percentage": "5.59%", "elapsed_time": "4h 17m 7s", "remaining_time": "3d 0h 24m 50s"}
+{"loss": 0.24433546, "token_acc": 0.91484447, "grad_norm": 0.64524347, "learning_rate": 9.923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23758, "epoch": 0.27974693, "global_step/max_steps": "3670/65595", "percentage": "5.59%", "elapsed_time": "4h 17m 25s", "remaining_time": "3d 0h 23m 31s"}
+{"loss": 0.25266535, "token_acc": 0.89775324, "grad_norm": 0.6923613, "learning_rate": 9.923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23766, "epoch": 0.28012806, "global_step/max_steps": "3675/65595", "percentage": "5.60%", "elapsed_time": "4h 17m 41s", "remaining_time": "3d 0h 21m 42s"}
+{"loss": 0.17130156, "token_acc": 0.91828049, "grad_norm": 1.43949783, "learning_rate": 9.923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237755, "epoch": 0.28050919, "global_step/max_steps": "3680/65595", "percentage": "5.61%", "elapsed_time": "4h 17m 55s", "remaining_time": "3d 0h 19m 37s"}
+{"loss": 0.21357427, "token_acc": 0.90276035, "grad_norm": 1.53545463, "learning_rate": 9.922e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237835, "epoch": 0.28089031, "global_step/max_steps": "3685/65595", "percentage": "5.62%", "elapsed_time": "4h 18m 11s", "remaining_time": "3d 0h 17m 49s"}
+{"loss": 0.25745654, "token_acc": 0.90449915, "grad_norm": 1.80615091, "learning_rate": 9.922e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237891, "epoch": 0.28127144, "global_step/max_steps": "3690/65595", "percentage": "5.63%", "elapsed_time": "4h 18m 29s", "remaining_time": "3d 0h 16m 26s"}
+{"loss": 0.22261837, "token_acc": 0.91896134, "grad_norm": 0.9210394, "learning_rate": 9.922e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237927, "epoch": 0.28165256, "global_step/max_steps": "3695/65595", "percentage": "5.63%", "elapsed_time": "4h 18m 47s", "remaining_time": "3d 0h 15m 26s"}
+{"loss": 0.19088283, "token_acc": 0.92818332, "grad_norm": 0.6888054, "learning_rate": 9.922e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238, "epoch": 0.28203369, "global_step/max_steps": "3700/65595", "percentage": "5.64%", "elapsed_time": "4h 19m 3s", "remaining_time": "3d 0h 13m 45s"}
+{"loss": 0.19038491, "token_acc": 0.93016929, "grad_norm": 1.35648859, "learning_rate": 9.921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238094, "epoch": 0.28241482, "global_step/max_steps": "3705/65595", "percentage": "5.65%", "elapsed_time": "4h 19m 18s", "remaining_time": "3d 0h 11m 42s"}
+{"loss": 0.20702562, "token_acc": 0.91852031, "grad_norm": 1.68408751, "learning_rate": 9.921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238199, "epoch": 0.28279594, "global_step/max_steps": "3710/65595", "percentage": "5.66%", "elapsed_time": "4h 19m 33s", "remaining_time": "3d 0h 9m 26s"}
+{"loss": 0.25635674, "token_acc": 0.90721196, "grad_norm": 0.99938202, "learning_rate": 9.921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238284, "epoch": 0.28317707, "global_step/max_steps": "3715/65595", "percentage": "5.66%", "elapsed_time": "4h 19m 48s", "remaining_time": "3d 0h 7m 32s"}
+{"loss": 0.29625831, "token_acc": 0.88120757, "grad_norm": 0.83657056, "learning_rate": 9.921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238354, "epoch": 0.2835582, "global_step/max_steps": "3720/65595", "percentage": "5.67%", "elapsed_time": "4h 20m 4s", "remaining_time": "3d 0h 5m 55s"}
+{"loss": 0.19074175, "token_acc": 0.92188411, "grad_norm": 0.88352174, "learning_rate": 9.921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238338, "epoch": 0.28393932, "global_step/max_steps": "3725/65595", "percentage": "5.68%", "elapsed_time": "4h 20m 26s", "remaining_time": "3d 0h 5m 51s"}
+{"loss": 0.1476813, "token_acc": 0.93059747, "grad_norm": 0.57381284, "learning_rate": 9.92e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238448, "epoch": 0.28432045, "global_step/max_steps": "3730/65595", "percentage": "5.69%", "elapsed_time": "4h 20m 40s", "remaining_time": "3d 0h 3m 31s"}
+{"loss": 0.26588714, "token_acc": 0.89051808, "grad_norm": 0.81340349, "learning_rate": 9.92e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238537, "epoch": 0.28470158, "global_step/max_steps": "3735/65595", "percentage": "5.69%", "elapsed_time": "4h 20m 55s", "remaining_time": "3d 0h 1m 34s"}
+{"loss": 0.23413091, "token_acc": 0.90274235, "grad_norm": 0.93592232, "learning_rate": 9.92e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238636, "epoch": 0.2850827, "global_step/max_steps": "3740/65595", "percentage": "5.70%", "elapsed_time": "4h 21m 10s", "remaining_time": "2d 23h 59m 25s"}
+{"loss": 0.23413732, "token_acc": 0.90653314, "grad_norm": 0.61745644, "learning_rate": 9.92e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238707, "epoch": 0.28546383, "global_step/max_steps": "3745/65595", "percentage": "5.71%", "elapsed_time": "4h 21m 26s", "remaining_time": "2d 23h 57m 46s"}
+{"loss": 0.2368675, "token_acc": 0.91331366, "grad_norm": 0.90775377, "learning_rate": 9.92e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238737, "epoch": 0.28584496, "global_step/max_steps": "3750/65595", "percentage": "5.72%", "elapsed_time": "4h 21m 45s", "remaining_time": "2d 23h 56m 53s"}
+{"loss": 0.16650717, "token_acc": 0.92360009, "grad_norm": 0.76106358, "learning_rate": 9.919e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23881, "epoch": 0.28622608, "global_step/max_steps": "3755/65595", "percentage": "5.72%", "elapsed_time": "4h 22m 1s", "remaining_time": "2d 23h 55m 14s"}
+{"loss": 0.21838543, "token_acc": 0.89363128, "grad_norm": 0.59863603, "learning_rate": 9.919e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238913, "epoch": 0.28660721, "global_step/max_steps": "3760/65595", "percentage": "5.73%", "elapsed_time": "4h 22m 15s", "remaining_time": "2d 23h 53m 0s"}
+{"loss": 0.2984267, "token_acc": 0.88789238, "grad_norm": 1.60002792, "learning_rate": 9.919e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238999, "epoch": 0.28698834, "global_step/max_steps": "3765/65595", "percentage": "5.74%", "elapsed_time": "4h 22m 30s", "remaining_time": "2d 23h 51m 7s"}
+{"loss": 0.2659996, "token_acc": 0.91161867, "grad_norm": 0.59703314, "learning_rate": 9.919e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239061, "epoch": 0.28736946, "global_step/max_steps": "3770/65595", "percentage": "5.75%", "elapsed_time": "4h 22m 47s", "remaining_time": "2d 23h 49m 39s"}
+{"loss": 0.22742515, "token_acc": 0.9037957, "grad_norm": 0.84254038, "learning_rate": 9.919e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239136, "epoch": 0.28775059, "global_step/max_steps": "3775/65595", "percentage": "5.76%", "elapsed_time": "4h 23m 3s", "remaining_time": "2d 23h 47m 57s"}
+{"loss": 0.23566601, "token_acc": 0.90463141, "grad_norm": 1.42269814, "learning_rate": 9.918e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239223, "epoch": 0.28813172, "global_step/max_steps": "3780/65595", "percentage": "5.76%", "elapsed_time": "4h 23m 18s", "remaining_time": "2d 23h 46m 2s"}
+{"loss": 0.20050652, "token_acc": 0.90323887, "grad_norm": 1.16073442, "learning_rate": 9.918e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239334, "epoch": 0.28851284, "global_step/max_steps": "3785/65595", "percentage": "5.77%", "elapsed_time": "4h 23m 32s", "remaining_time": "2d 23h 43m 42s"}
+{"loss": 0.27345009, "token_acc": 0.8924634, "grad_norm": 0.90280789, "learning_rate": 9.918e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23941, "epoch": 0.28889397, "global_step/max_steps": "3790/65595", "percentage": "5.78%", "elapsed_time": "4h 23m 48s", "remaining_time": "2d 23h 41m 58s"}
+{"loss": 0.2623086, "token_acc": 0.89185668, "grad_norm": 1.79955792, "learning_rate": 9.918e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239481, "epoch": 0.2892751, "global_step/max_steps": "3795/65595", "percentage": "5.79%", "elapsed_time": "4h 24m 4s", "remaining_time": "2d 23h 40m 21s"}
+{"loss": 0.26290705, "token_acc": 0.90405539, "grad_norm": 0.91890424, "learning_rate": 9.917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239589, "epoch": 0.28965622, "global_step/max_steps": "3800/65595", "percentage": "5.79%", "elapsed_time": "4h 24m 18s", "remaining_time": "2d 23h 38m 4s"}
+{"eval_loss": 0.16318113, "eval_token_acc": 0.91713602, "eval_runtime": 175.635, "eval_samples_per_second": 3.018, "eval_steps_per_second": 3.018, "epoch": 0.28965622, "global_step/max_steps": "3800/65595", "percentage": "5.79%", "elapsed_time": "4h 27m 13s", "remaining_time": "3d 0h 25m 41s"}
+{"loss": 0.18599164, "token_acc": 0.91773906, "grad_norm": 0.91098684, "learning_rate": 9.917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237048, "epoch": 0.29003735, "global_step/max_steps": "3805/65595", "percentage": "5.80%", "elapsed_time": "4h 27m 29s", "remaining_time": "3d 0h 23m 48s"}
+{"loss": 0.1764241, "token_acc": 0.92922618, "grad_norm": 1.22983265, "learning_rate": 9.917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237141, "epoch": 0.29041848, "global_step/max_steps": "3810/65595", "percentage": "5.81%", "elapsed_time": "4h 27m 44s", "remaining_time": "3d 0h 21m 44s"}
+{"loss": 0.13773136, "token_acc": 0.92714806, "grad_norm": 0.82421422, "learning_rate": 9.917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237237, "epoch": 0.2907996, "global_step/max_steps": "3815/65595", "percentage": "5.82%", "elapsed_time": "4h 27m 58s", "remaining_time": "3d 0h 19m 38s"}
+{"loss": 0.23176062, "token_acc": 0.91933785, "grad_norm": 1.16723943, "learning_rate": 9.917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23727, "epoch": 0.29118073, "global_step/max_steps": "3820/65595", "percentage": "5.82%", "elapsed_time": "4h 28m 17s", "remaining_time": "3d 0h 18m 40s"}
+{"loss": 0.23980484, "token_acc": 0.92379958, "grad_norm": 0.7400052, "learning_rate": 9.916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23735, "epoch": 0.29156186, "global_step/max_steps": "3825/65595", "percentage": "5.83%", "elapsed_time": "4h 28m 33s", "remaining_time": "3d 0h 16m 52s"}
+{"loss": 0.21625247, "token_acc": 0.9218098, "grad_norm": 0.93165314, "learning_rate": 9.916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237436, "epoch": 0.29194298, "global_step/max_steps": "3830/65595", "percentage": "5.84%", "elapsed_time": "4h 28m 48s", "remaining_time": "3d 0h 14m 57s"}
+{"loss": 0.22804115, "token_acc": 0.92872117, "grad_norm": 1.16588771, "learning_rate": 9.916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23751, "epoch": 0.29232411, "global_step/max_steps": "3835/65595", "percentage": "5.85%", "elapsed_time": "4h 29m 4s", "remaining_time": "3d 0h 13m 15s"}
+{"loss": 0.18476725, "token_acc": 0.92425726, "grad_norm": 1.62444842, "learning_rate": 9.916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237599, "epoch": 0.29270524, "global_step/max_steps": "3840/65595", "percentage": "5.85%", "elapsed_time": "4h 29m 19s", "remaining_time": "3d 0h 11m 16s"}
+{"loss": 0.18626983, "token_acc": 0.93169793, "grad_norm": 1.37470472, "learning_rate": 9.915e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237659, "epoch": 0.29308636, "global_step/max_steps": "3845/65595", "percentage": "5.86%", "elapsed_time": "4h 29m 36s", "remaining_time": "3d 0h 9m 49s"}
+{"loss": 0.20370088, "token_acc": 0.92316674, "grad_norm": 0.87882549, "learning_rate": 9.915e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237747, "epoch": 0.29346749, "global_step/max_steps": "3850/65595", "percentage": "5.87%", "elapsed_time": "4h 29m 51s", "remaining_time": "3d 0h 7m 52s"}
+{"loss": 0.22718003, "token_acc": 0.90561151, "grad_norm": 1.53763485, "learning_rate": 9.915e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237847, "epoch": 0.29384862, "global_step/max_steps": "3855/65595", "percentage": "5.88%", "elapsed_time": "4h 30m 5s", "remaining_time": "3d 0h 5m 42s"}
+{"loss": 0.18324648, "token_acc": 0.92959219, "grad_norm": 1.23901188, "learning_rate": 9.915e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237947, "epoch": 0.29422974, "global_step/max_steps": "3860/65595", "percentage": "5.88%", "elapsed_time": "4h 30m 19s", "remaining_time": "3d 0h 3m 32s"}
+{"loss": 0.24632764, "token_acc": 0.9128652, "grad_norm": 1.52560401, "learning_rate": 9.915e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238002, "epoch": 0.29461087, "global_step/max_steps": "3865/65595", "percentage": "5.89%", "elapsed_time": "4h 30m 37s", "remaining_time": "3d 0h 2m 11s"}
+{"loss": 0.24633005, "token_acc": 0.91005708, "grad_norm": 0.71864206, "learning_rate": 9.914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238064, "epoch": 0.294992, "global_step/max_steps": "3870/65595", "percentage": "5.90%", "elapsed_time": "4h 30m 53s", "remaining_time": "3d 0h 0m 43s"}
+{"loss": 0.26443357, "token_acc": 0.90506329, "grad_norm": 1.47643149, "learning_rate": 9.914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238137, "epoch": 0.29537312, "global_step/max_steps": "3875/65595", "percentage": "5.91%", "elapsed_time": "4h 31m 9s", "remaining_time": "2d 23h 59m 2s"}
+{"loss": 0.21223621, "token_acc": 0.9120272, "grad_norm": 0.95605421, "learning_rate": 9.914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238195, "epoch": 0.29575425, "global_step/max_steps": "3880/65595", "percentage": "5.92%", "elapsed_time": "4h 31m 26s", "remaining_time": "2d 23h 57m 38s"}
+{"loss": 0.24758048, "token_acc": 0.91949825, "grad_norm": 1.58932209, "learning_rate": 9.914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23823, "epoch": 0.29613538, "global_step/max_steps": "3885/65595", "percentage": "5.92%", "elapsed_time": "4h 31m 45s", "remaining_time": "2d 23h 56m 40s"}
+{"loss": 0.2554395, "token_acc": 0.89951807, "grad_norm": 0.78441131, "learning_rate": 9.913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238256, "epoch": 0.2965165, "global_step/max_steps": "3890/65595", "percentage": "5.93%", "elapsed_time": "4h 32m 4s", "remaining_time": "2d 23h 55m 50s"}
+{"loss": 0.17771814, "token_acc": 0.93205758, "grad_norm": 0.80950111, "learning_rate": 9.913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238309, "epoch": 0.29689763, "global_step/max_steps": "3895/65595", "percentage": "5.94%", "elapsed_time": "4h 32m 22s", "remaining_time": "2d 23h 54m 31s"}
+{"loss": 0.19193447, "token_acc": 0.91571599, "grad_norm": 1.12184513, "learning_rate": 9.913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238375, "epoch": 0.29727876, "global_step/max_steps": "3900/65595", "percentage": "5.95%", "elapsed_time": "4h 32m 38s", "remaining_time": "2d 23h 52m 59s"}
+{"loss": 0.16441253, "token_acc": 0.92198953, "grad_norm": 0.9153862, "learning_rate": 9.913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238489, "epoch": 0.29765988, "global_step/max_steps": "3905/65595", "percentage": "5.95%", "elapsed_time": "4h 32m 51s", "remaining_time": "2d 23h 50m 34s"}
+{"loss": 0.18797452, "token_acc": 0.9125, "grad_norm": 0.7768386, "learning_rate": 9.913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23857, "epoch": 0.29804101, "global_step/max_steps": "3910/65595", "percentage": "5.96%", "elapsed_time": "4h 33m 7s", "remaining_time": "2d 23h 48m 46s"}
+{"loss": 0.14880896, "token_acc": 0.94009812, "grad_norm": 1.6011405, "learning_rate": 9.912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238646, "epoch": 0.29842214, "global_step/max_steps": "3915/65595", "percentage": "5.97%", "elapsed_time": "4h 33m 22s", "remaining_time": "2d 23h 47m 2s"}
+{"loss": 0.14598737, "token_acc": 0.93011104, "grad_norm": 0.5681048, "learning_rate": 9.912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23875, "epoch": 0.29880326, "global_step/max_steps": "3920/65595", "percentage": "5.98%", "elapsed_time": "4h 33m 36s", "remaining_time": "2d 23h 44m 49s"}
+{"loss": 0.15983959, "token_acc": 0.93327342, "grad_norm": 0.91666776, "learning_rate": 9.912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238843, "epoch": 0.29918439, "global_step/max_steps": "3925/65595", "percentage": "5.98%", "elapsed_time": "4h 33m 51s", "remaining_time": "2d 23h 42m 47s"}
+{"loss": 0.35452492, "token_acc": 0.85962474, "grad_norm": 1.55161119, "learning_rate": 9.912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238911, "epoch": 0.29956552, "global_step/max_steps": "3930/65595", "percentage": "5.99%", "elapsed_time": "4h 34m 7s", "remaining_time": "2d 23h 41m 13s"}
+{"loss": 0.23833971, "token_acc": 0.9054326, "grad_norm": 0.96209961, "learning_rate": 9.911e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238962, "epoch": 0.29994664, "global_step/max_steps": "3935/65595", "percentage": "6.00%", "elapsed_time": "4h 34m 24s", "remaining_time": "2d 23h 39m 57s"}
+{"loss": 0.28527694, "token_acc": 0.8894382, "grad_norm": 1.06720185, "learning_rate": 9.911e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239044, "epoch": 0.30032777, "global_step/max_steps": "3940/65595", "percentage": "6.01%", "elapsed_time": "4h 34m 40s", "remaining_time": "2d 23h 38m 8s"}
+{"loss": 0.2372268, "token_acc": 0.91124929, "grad_norm": 1.28799796, "learning_rate": 9.911e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239112, "epoch": 0.3007089, "global_step/max_steps": "3945/65595", "percentage": "6.01%", "elapsed_time": "4h 34m 56s", "remaining_time": "2d 23h 36m 34s"}
+{"loss": 0.18510567, "token_acc": 0.92367544, "grad_norm": 0.73113555, "learning_rate": 9.911e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239212, "epoch": 0.30109002, "global_step/max_steps": "3950/65595", "percentage": "6.02%", "elapsed_time": "4h 35m 10s", "remaining_time": "2d 23h 34m 25s"}
+{"loss": 0.22263649, "token_acc": 0.90635209, "grad_norm": 0.65228146, "learning_rate": 9.911e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239259, "epoch": 0.30147115, "global_step/max_steps": "3955/65595", "percentage": "6.03%", "elapsed_time": "4h 35m 27s", "remaining_time": "2d 23h 33m 14s"}
+{"loss": 0.17572932, "token_acc": 0.92546741, "grad_norm": 0.80512798, "learning_rate": 9.91e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239332, "epoch": 0.30185228, "global_step/max_steps": "3960/65595", "percentage": "6.04%", "elapsed_time": "4h 35m 43s", "remaining_time": "2d 23h 31m 34s"}
+{"loss": 0.21699295, "token_acc": 0.90385631, "grad_norm": 1.39107263, "learning_rate": 9.91e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239397, "epoch": 0.3022334, "global_step/max_steps": "3965/65595", "percentage": "6.04%", "elapsed_time": "4h 36m 0s", "remaining_time": "2d 23h 30m 3s"}
+{"loss": 0.21999304, "token_acc": 0.92064315, "grad_norm": 1.49179626, "learning_rate": 9.91e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239477, "epoch": 0.30261453, "global_step/max_steps": "3970/65595", "percentage": "6.05%", "elapsed_time": "4h 36m 15s", "remaining_time": "2d 23h 28m 16s"}
+{"loss": 0.20893681, "token_acc": 0.93457474, "grad_norm": 1.00268042, "learning_rate": 9.91e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23954, "epoch": 0.30299566, "global_step/max_steps": "3975/65595", "percentage": "6.06%", "elapsed_time": "4h 36m 32s", "remaining_time": "2d 23h 26m 48s"}
+{"loss": 0.22319746, "token_acc": 0.93612335, "grad_norm": 1.96201134, "learning_rate": 9.909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239639, "epoch": 0.30337678, "global_step/max_steps": "3980/65595", "percentage": "6.07%", "elapsed_time": "4h 36m 46s", "remaining_time": "2d 23h 24m 41s"}
+{"loss": 0.21058028, "token_acc": 0.89312222, "grad_norm": 0.58518952, "learning_rate": 9.909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239749, "epoch": 0.30375791, "global_step/max_steps": "3985/65595", "percentage": "6.08%", "elapsed_time": "4h 36m 59s", "remaining_time": "2d 23h 22m 22s"}
+{"loss": 0.12447685, "token_acc": 0.93242586, "grad_norm": 1.38643801, "learning_rate": 9.909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23985, "epoch": 0.30413903, "global_step/max_steps": "3990/65595", "percentage": "6.08%", "elapsed_time": "4h 37m 13s", "remaining_time": "2d 23h 20m 13s"}
+{"loss": 0.21521981, "token_acc": 0.91321696, "grad_norm": 1.06939089, "learning_rate": 9.909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239957, "epoch": 0.30452016, "global_step/max_steps": "3995/65595", "percentage": "6.09%", "elapsed_time": "4h 37m 26s", "remaining_time": "2d 23h 17m 58s"}
+{"loss": 0.19948572, "token_acc": 0.92778178, "grad_norm": 0.88751912, "learning_rate": 9.909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239981, "epoch": 0.30490129, "global_step/max_steps": "4000/65595", "percentage": "6.10%", "elapsed_time": "4h 37m 45s", "remaining_time": "2d 23h 17m 12s"}
+{"eval_loss": 0.16043721, "eval_token_acc": 0.91893561, "eval_runtime": 182.6084, "eval_samples_per_second": 2.902, "eval_steps_per_second": 2.902, "epoch": 0.30490129, "global_step/max_steps": "4000/65595", "percentage": "6.10%", "elapsed_time": "4h 40m 48s", "remaining_time": "3d 0h 4m 4s"}
+{"loss": 0.23665984, "token_acc": 0.91900549, "grad_norm": 1.63030517, "learning_rate": 9.908e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237416, "epoch": 0.30528241, "global_step/max_steps": "4005/65595", "percentage": "6.11%", "elapsed_time": "4h 41m 6s", "remaining_time": "3d 0h 3m 3s"}
+{"loss": 0.10649606, "token_acc": 0.95952162, "grad_norm": 1.49513757, "learning_rate": 9.908e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237524, "epoch": 0.30566354, "global_step/max_steps": "4010/65595", "percentage": "6.11%", "elapsed_time": "4h 41m 20s", "remaining_time": "3d 0h 0m 44s"}
+{"loss": 0.22793295, "token_acc": 0.91228448, "grad_norm": 0.69848472, "learning_rate": 9.908e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237557, "epoch": 0.30604467, "global_step/max_steps": "4015/65595", "percentage": "6.12%", "elapsed_time": "4h 41m 38s", "remaining_time": "2d 23h 59m 47s"}
+{"loss": 0.175043, "token_acc": 0.92857143, "grad_norm": 1.08366942, "learning_rate": 9.908e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237637, "epoch": 0.30642579, "global_step/max_steps": "4020/65595", "percentage": "6.13%", "elapsed_time": "4h 41m 54s", "remaining_time": "2d 23h 57m 59s"}
+{"loss": 0.20650816, "token_acc": 0.90773434, "grad_norm": 1.52195895, "learning_rate": 9.907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237711, "epoch": 0.30680692, "global_step/max_steps": "4025/65595", "percentage": "6.14%", "elapsed_time": "4h 42m 10s", "remaining_time": "2d 23h 56m 17s"}
+{"loss": 0.17307277, "token_acc": 0.92085714, "grad_norm": 1.30627644, "learning_rate": 9.907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237744, "epoch": 0.30718805, "global_step/max_steps": "4030/65595", "percentage": "6.14%", "elapsed_time": "4h 42m 28s", "remaining_time": "2d 23h 55m 20s"}
+{"loss": 0.21304498, "token_acc": 0.91111966, "grad_norm": 0.83941537, "learning_rate": 9.907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237803, "epoch": 0.30756917, "global_step/max_steps": "4035/65595", "percentage": "6.15%", "elapsed_time": "4h 42m 45s", "remaining_time": "2d 23h 53m 55s"}
+{"loss": 0.21893437, "token_acc": 0.91539674, "grad_norm": 0.92961633, "learning_rate": 9.907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237869, "epoch": 0.3079503, "global_step/max_steps": "4040/65595", "percentage": "6.16%", "elapsed_time": "4h 43m 1s", "remaining_time": "2d 23h 52m 22s"}
+{"loss": 0.16982815, "token_acc": 0.9210424, "grad_norm": 1.20294607, "learning_rate": 9.906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237973, "epoch": 0.30833143, "global_step/max_steps": "4045/65595", "percentage": "6.17%", "elapsed_time": "4h 43m 15s", "remaining_time": "2d 23h 50m 8s"}
+{"loss": 0.22065659, "token_acc": 0.92222222, "grad_norm": 0.96187407, "learning_rate": 9.906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238056, "epoch": 0.30871255, "global_step/max_steps": "4050/65595", "percentage": "6.17%", "elapsed_time": "4h 43m 30s", "remaining_time": "2d 23h 48m 17s"}
+{"loss": 0.19825894, "token_acc": 0.91742655, "grad_norm": 0.88106948, "learning_rate": 9.906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238135, "epoch": 0.30909368, "global_step/max_steps": "4055/65595", "percentage": "6.18%", "elapsed_time": "4h 43m 45s", "remaining_time": "2d 23h 46m 31s"}
+{"loss": 0.26341844, "token_acc": 0.90196816, "grad_norm": 0.96727145, "learning_rate": 9.906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238152, "epoch": 0.30947481, "global_step/max_steps": "4060/65595", "percentage": "6.19%", "elapsed_time": "4h 44m 5s", "remaining_time": "2d 23h 45m 51s"}
+{"loss": 0.23597031, "token_acc": 0.91290764, "grad_norm": 1.21786392, "learning_rate": 9.906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238204, "epoch": 0.30985593, "global_step/max_steps": "4065/65595", "percentage": "6.20%", "elapsed_time": "4h 44m 22s", "remaining_time": "2d 23h 44m 33s"}
+{"loss": 0.24470625, "token_acc": 0.89673458, "grad_norm": 1.45006907, "learning_rate": 9.905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23829, "epoch": 0.31023706, "global_step/max_steps": "4070/65595", "percentage": "6.20%", "elapsed_time": "4h 44m 37s", "remaining_time": "2d 23h 42m 39s"}
+{"loss": 0.20638449, "token_acc": 0.92358222, "grad_norm": 2.10387254, "learning_rate": 9.905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23836, "epoch": 0.31061819, "global_step/max_steps": "4075/65595", "percentage": "6.21%", "elapsed_time": "4h 44m 53s", "remaining_time": "2d 23h 41m 3s"}
+{"loss": 0.21965919, "token_acc": 0.91263058, "grad_norm": 1.67328727, "learning_rate": 9.905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238451, "epoch": 0.31099931, "global_step/max_steps": "4080/65595", "percentage": "6.22%", "elapsed_time": "4h 45m 8s", "remaining_time": "2d 23h 39m 3s"}
+{"loss": 0.19457906, "token_acc": 0.92705303, "grad_norm": 1.00917947, "learning_rate": 9.905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23852, "epoch": 0.31138044, "global_step/max_steps": "4085/65595", "percentage": "6.23%", "elapsed_time": "4h 45m 24s", "remaining_time": "2d 23h 37m 28s"}
+{"loss": 0.2350385, "token_acc": 0.9040796, "grad_norm": 1.02522004, "learning_rate": 9.904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23859, "epoch": 0.31176157, "global_step/max_steps": "4090/65595", "percentage": "6.24%", "elapsed_time": "4h 45m 40s", "remaining_time": "2d 23h 35m 51s"}
+{"loss": 0.14758527, "token_acc": 0.92981169, "grad_norm": 1.83176374, "learning_rate": 9.904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238666, "epoch": 0.31214269, "global_step/max_steps": "4095/65595", "percentage": "6.24%", "elapsed_time": "4h 45m 55s", "remaining_time": "2d 23h 34m 8s"}
+{"loss": 0.22610419, "token_acc": 0.92398962, "grad_norm": 2.02173758, "learning_rate": 9.904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238707, "epoch": 0.31252382, "global_step/max_steps": "4100/65595", "percentage": "6.25%", "elapsed_time": "4h 46m 13s", "remaining_time": "2d 23h 33m 3s"}
+{"loss": 0.29905624, "token_acc": 0.88254104, "grad_norm": 1.49907541, "learning_rate": 9.904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238781, "epoch": 0.31290495, "global_step/max_steps": "4105/65595", "percentage": "6.26%", "elapsed_time": "4h 46m 29s", "remaining_time": "2d 23h 31m 22s"}
+{"loss": 0.24256363, "token_acc": 0.89897553, "grad_norm": 0.87879044, "learning_rate": 9.903e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238876, "epoch": 0.31328607, "global_step/max_steps": "4110/65595", "percentage": "6.27%", "elapsed_time": "4h 46m 43s", "remaining_time": "2d 23h 29m 19s"}
+{"loss": 0.14333496, "token_acc": 0.94230769, "grad_norm": 0.69613689, "learning_rate": 9.903e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238974, "epoch": 0.3136672, "global_step/max_steps": "4115/65595", "percentage": "6.27%", "elapsed_time": "4h 46m 57s", "remaining_time": "2d 23h 27m 13s"}
+{"loss": 0.18326588, "token_acc": 0.92001711, "grad_norm": 0.82544744, "learning_rate": 9.903e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239051, "epoch": 0.31404833, "global_step/max_steps": "4120/65595", "percentage": "6.28%", "elapsed_time": "4h 47m 12s", "remaining_time": "2d 23h 25m 29s"}
+{"loss": 0.19578639, "token_acc": 0.90912477, "grad_norm": 0.66959369, "learning_rate": 9.903e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239152, "epoch": 0.31442945, "global_step/max_steps": "4125/65595", "percentage": "6.29%", "elapsed_time": "4h 47m 26s", "remaining_time": "2d 23h 23m 19s"}
+{"loss": 0.20988307, "token_acc": 0.91300699, "grad_norm": 1.36321259, "learning_rate": 9.903e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239227, "epoch": 0.31481058, "global_step/max_steps": "4130/65595", "percentage": "6.30%", "elapsed_time": "4h 47m 41s", "remaining_time": "2d 23h 21m 38s"}
+{"loss": 0.12283908, "token_acc": 0.94806217, "grad_norm": 0.61024612, "learning_rate": 9.902e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239277, "epoch": 0.31519171, "global_step/max_steps": "4135/65595", "percentage": "6.30%", "elapsed_time": "4h 47m 58s", "remaining_time": "2d 23h 20m 23s"}
+{"loss": 0.22585664, "token_acc": 0.89584965, "grad_norm": 0.77414453, "learning_rate": 9.902e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239382, "epoch": 0.31557283, "global_step/max_steps": "4140/65595", "percentage": "6.31%", "elapsed_time": "4h 48m 12s", "remaining_time": "2d 23h 18m 9s"}
+{"loss": 0.15612079, "token_acc": 0.91861524, "grad_norm": 1.42269409, "learning_rate": 9.902e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239486, "epoch": 0.31595396, "global_step/max_steps": "4145/65595", "percentage": "6.32%", "elapsed_time": "4h 48m 25s", "remaining_time": "2d 23h 15m 58s"}
+{"loss": 0.21535609, "token_acc": 0.9009139, "grad_norm": 1.13139641, "learning_rate": 9.902e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239568, "epoch": 0.31633509, "global_step/max_steps": "4150/65595", "percentage": "6.33%", "elapsed_time": "4h 48m 40s", "remaining_time": "2d 23h 14m 9s"}
+{"loss": 0.21224079, "token_acc": 0.90181627, "grad_norm": 1.27196777, "learning_rate": 9.901e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239632, "epoch": 0.31671621, "global_step/max_steps": "4155/65595", "percentage": "6.33%", "elapsed_time": "4h 48m 56s", "remaining_time": "2d 23h 12m 40s"}
+{"loss": 0.26701136, "token_acc": 0.89893895, "grad_norm": 1.39297128, "learning_rate": 9.901e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239675, "epoch": 0.31709734, "global_step/max_steps": "4160/65595", "percentage": "6.34%", "elapsed_time": "4h 49m 14s", "remaining_time": "2d 23h 11m 33s"}
+{"loss": 0.18694797, "token_acc": 0.91822927, "grad_norm": 1.23453641, "learning_rate": 9.901e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239759, "epoch": 0.31747847, "global_step/max_steps": "4165/65595", "percentage": "6.35%", "elapsed_time": "4h 49m 29s", "remaining_time": "2d 23h 9m 42s"}
+{"loss": 0.23480263, "token_acc": 0.91756723, "grad_norm": 0.60517657, "learning_rate": 9.901e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239777, "epoch": 0.31785959, "global_step/max_steps": "4170/65595", "percentage": "6.36%", "elapsed_time": "4h 49m 48s", "remaining_time": "2d 23h 9m 2s"}
+{"loss": 0.18888259, "token_acc": 0.92479497, "grad_norm": 1.41081238, "learning_rate": 9.9e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239841, "epoch": 0.31824072, "global_step/max_steps": "4175/65595", "percentage": "6.36%", "elapsed_time": "4h 50m 5s", "remaining_time": "2d 23h 7m 33s"}
+{"loss": 0.11539916, "token_acc": 0.93870631, "grad_norm": 0.69288504, "learning_rate": 9.9e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239919, "epoch": 0.31862185, "global_step/max_steps": "4180/65595", "percentage": "6.37%", "elapsed_time": "4h 50m 20s", "remaining_time": "2d 23h 5m 49s"}
+{"loss": 0.28501987, "token_acc": 0.89420423, "grad_norm": 0.87208337, "learning_rate": 9.9e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240003, "epoch": 0.31900297, "global_step/max_steps": "4185/65595", "percentage": "6.38%", "elapsed_time": "4h 50m 35s", "remaining_time": "2d 23h 3m 58s"}
+{"loss": 0.19195724, "token_acc": 0.92630318, "grad_norm": 1.16787517, "learning_rate": 9.9e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240084, "epoch": 0.3193841, "global_step/max_steps": "4190/65595", "percentage": "6.39%", "elapsed_time": "4h 50m 50s", "remaining_time": "2d 23h 2m 12s"}
+{"loss": 0.24949706, "token_acc": 0.90825159, "grad_norm": 1.31132185, "learning_rate": 9.899e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240125, "epoch": 0.31976523, "global_step/max_steps": "4195/65595", "percentage": "6.40%", "elapsed_time": "4h 51m 7s", "remaining_time": "2d 23h 1m 7s"}
+{"loss": 0.17391359, "token_acc": 0.93656174, "grad_norm": 0.71048552, "learning_rate": 9.899e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240128, "epoch": 0.32014635, "global_step/max_steps": "4200/65595", "percentage": "6.40%", "elapsed_time": "4h 51m 28s", "remaining_time": "2d 23h 0m 43s"}
+{"eval_loss": 0.15915754, "eval_token_acc": 0.92131498, "eval_runtime": 171.6959, "eval_samples_per_second": 3.087, "eval_steps_per_second": 3.087, "epoch": 0.32014635, "global_step/max_steps": "4200/65595", "percentage": "6.40%", "elapsed_time": "4h 54m 20s", "remaining_time": "2d 23h 42m 32s"}
+{"loss": 0.23020113, "token_acc": 0.92093853, "grad_norm": 0.85916585, "learning_rate": 9.899e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237883, "epoch": 0.32052748, "global_step/max_steps": "4205/65595", "percentage": "6.41%", "elapsed_time": "4h 54m 34s", "remaining_time": "2d 23h 40m 35s"}
+{"loss": 0.20005968, "token_acc": 0.92041686, "grad_norm": 0.98042738, "learning_rate": 9.899e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237981, "epoch": 0.32090861, "global_step/max_steps": "4210/65595", "percentage": "6.42%", "elapsed_time": "4h 54m 48s", "remaining_time": "2d 23h 38m 27s"}
+{"loss": 0.31824725, "token_acc": 0.88226683, "grad_norm": 1.54338944, "learning_rate": 9.898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238061, "epoch": 0.32128973, "global_step/max_steps": "4215/65595", "percentage": "6.43%", "elapsed_time": "4h 55m 3s", "remaining_time": "2d 23h 36m 39s"}
+{"loss": 0.25179791, "token_acc": 0.89929589, "grad_norm": 4.61295557, "learning_rate": 9.898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238113, "epoch": 0.32167086, "global_step/max_steps": "4220/65595", "percentage": "6.43%", "elapsed_time": "4h 55m 20s", "remaining_time": "2d 23h 35m 23s"}
+{"loss": 0.22427866, "token_acc": 0.91300398, "grad_norm": 1.33391368, "learning_rate": 9.898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238155, "epoch": 0.32205199, "global_step/max_steps": "4225/65595", "percentage": "6.44%", "elapsed_time": "4h 55m 38s", "remaining_time": "2d 23h 34m 17s"}
+{"loss": 0.22492905, "token_acc": 0.91600213, "grad_norm": 0.98207861, "learning_rate": 9.898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238238, "epoch": 0.32243311, "global_step/max_steps": "4230/65595", "percentage": "6.45%", "elapsed_time": "4h 55m 53s", "remaining_time": "2d 23h 32m 25s"}
+{"loss": 0.15170779, "token_acc": 0.94481874, "grad_norm": 0.86845535, "learning_rate": 9.898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238319, "epoch": 0.32281424, "global_step/max_steps": "4235/65595", "percentage": "6.46%", "elapsed_time": "4h 56m 8s", "remaining_time": "2d 23h 30m 37s"}
+{"loss": 0.23897197, "token_acc": 0.90757349, "grad_norm": 1.1157254, "learning_rate": 9.897e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238398, "epoch": 0.32319537, "global_step/max_steps": "4240/65595", "percentage": "6.46%", "elapsed_time": "4h 56m 23s", "remaining_time": "2d 23h 28m 51s"}
+{"loss": 0.21777375, "token_acc": 0.90670151, "grad_norm": 0.68297082, "learning_rate": 9.897e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238445, "epoch": 0.32357649, "global_step/max_steps": "4245/65595", "percentage": "6.47%", "elapsed_time": "4h 56m 40s", "remaining_time": "2d 23h 27m 39s"}
+{"loss": 0.22612643, "token_acc": 0.91921698, "grad_norm": 0.8750934, "learning_rate": 9.897e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238529, "epoch": 0.32395762, "global_step/max_steps": "4250/65595", "percentage": "6.48%", "elapsed_time": "4h 56m 55s", "remaining_time": "2d 23h 25m 48s"}
+{"loss": 0.21973307, "token_acc": 0.92014145, "grad_norm": 0.7694298, "learning_rate": 9.897e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238564, "epoch": 0.32433875, "global_step/max_steps": "4255/65595", "percentage": "6.49%", "elapsed_time": "4h 57m 13s", "remaining_time": "2d 23h 24m 49s"}
+{"loss": 0.19122435, "token_acc": 0.92795389, "grad_norm": 1.1033088, "learning_rate": 9.896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23866, "epoch": 0.32471987, "global_step/max_steps": "4260/65595", "percentage": "6.49%", "elapsed_time": "4h 57m 27s", "remaining_time": "2d 23h 22m 45s"}
+{"loss": 0.19516138, "token_acc": 0.92502078, "grad_norm": 0.73635679, "learning_rate": 9.896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238707, "epoch": 0.325101, "global_step/max_steps": "4265/65595", "percentage": "6.50%", "elapsed_time": "4h 57m 44s", "remaining_time": "2d 23h 21m 33s"}
+{"loss": 0.20950119, "token_acc": 0.93024508, "grad_norm": 1.61506963, "learning_rate": 9.896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238739, "epoch": 0.32548213, "global_step/max_steps": "4270/65595", "percentage": "6.51%", "elapsed_time": "4h 58m 3s", "remaining_time": "2d 23h 20m 38s"}
+{"loss": 0.17677362, "token_acc": 0.92550934, "grad_norm": 1.34576547, "learning_rate": 9.896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238802, "epoch": 0.32586325, "global_step/max_steps": "4275/65595", "percentage": "6.52%", "elapsed_time": "4h 58m 19s", "remaining_time": "2d 23h 19m 10s"}
+{"loss": 0.1930584, "token_acc": 0.9002966, "grad_norm": 1.12687933, "learning_rate": 9.895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23888, "epoch": 0.32624438, "global_step/max_steps": "4280/65595", "percentage": "6.52%", "elapsed_time": "4h 58m 34s", "remaining_time": "2d 23h 17m 25s"}
+{"loss": 0.20195036, "token_acc": 0.90596154, "grad_norm": 1.71442699, "learning_rate": 9.895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238955, "epoch": 0.3266255, "global_step/max_steps": "4285/65595", "percentage": "6.53%", "elapsed_time": "4h 58m 49s", "remaining_time": "2d 23h 15m 43s"}
+{"loss": 0.25740006, "token_acc": 0.90760773, "grad_norm": 0.82506198, "learning_rate": 9.895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239011, "epoch": 0.32700663, "global_step/max_steps": "4290/65595", "percentage": "6.54%", "elapsed_time": "4h 59m 6s", "remaining_time": "2d 23h 14m 22s"}
+{"loss": 0.21496527, "token_acc": 0.90800155, "grad_norm": 1.18894684, "learning_rate": 9.895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239101, "epoch": 0.32738776, "global_step/max_steps": "4295/65595", "percentage": "6.55%", "elapsed_time": "4h 59m 20s", "remaining_time": "2d 23h 12m 25s"}
+{"loss": 0.22259388, "token_acc": 0.92246352, "grad_norm": 1.03021431, "learning_rate": 9.894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239151, "epoch": 0.32776888, "global_step/max_steps": "4300/65595", "percentage": "6.56%", "elapsed_time": "4h 59m 38s", "remaining_time": "2d 23h 11m 10s"}
+{"loss": 0.19236417, "token_acc": 0.90120968, "grad_norm": 1.42090583, "learning_rate": 9.894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239238, "epoch": 0.32815001, "global_step/max_steps": "4305/65595", "percentage": "6.56%", "elapsed_time": "4h 59m 52s", "remaining_time": "2d 23h 9m 16s"}
+{"loss": 0.23339305, "token_acc": 0.90487925, "grad_norm": 0.87292725, "learning_rate": 9.894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239328, "epoch": 0.32853114, "global_step/max_steps": "4310/65595", "percentage": "6.57%", "elapsed_time": "5h 0m 6s", "remaining_time": "2d 23h 7m 19s"}
+{"loss": 0.16386052, "token_acc": 0.9310784, "grad_norm": 0.75273877, "learning_rate": 9.894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239356, "epoch": 0.32891226, "global_step/max_steps": "4315/65595", "percentage": "6.58%", "elapsed_time": "5h 0m 25s", "remaining_time": "2d 23h 6m 28s"}
+{"loss": 0.17153864, "token_acc": 0.92635897, "grad_norm": 0.82942128, "learning_rate": 9.893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239419, "epoch": 0.32929339, "global_step/max_steps": "4320/65595", "percentage": "6.59%", "elapsed_time": "5h 0m 41s", "remaining_time": "2d 23h 5m 0s"}
+{"loss": 0.20924828, "token_acc": 0.90981341, "grad_norm": 0.87400252, "learning_rate": 9.893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239509, "epoch": 0.32967452, "global_step/max_steps": "4325/65595", "percentage": "6.59%", "elapsed_time": "5h 0m 55s", "remaining_time": "2d 23h 3m 3s"}
+{"loss": 0.19981667, "token_acc": 0.91619183, "grad_norm": 0.07779546, "learning_rate": 9.893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239585, "epoch": 0.33005564, "global_step/max_steps": "4330/65595", "percentage": "6.60%", "elapsed_time": "5h 1m 10s", "remaining_time": "2d 23h 1m 21s"}
+{"loss": 0.18836038, "token_acc": 0.90777656, "grad_norm": 0.79613084, "learning_rate": 9.893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239657, "epoch": 0.33043677, "global_step/max_steps": "4335/65595", "percentage": "6.61%", "elapsed_time": "5h 1m 26s", "remaining_time": "2d 22h 59m 43s"}
+{"loss": 0.16226965, "token_acc": 0.93331723, "grad_norm": 1.06994534, "learning_rate": 9.892e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239729, "epoch": 0.3308179, "global_step/max_steps": "4340/65595", "percentage": "6.62%", "elapsed_time": "5h 1m 41s", "remaining_time": "2d 22h 58m 6s"}
+{"loss": 0.13513893, "token_acc": 0.93528399, "grad_norm": 1.36833143, "learning_rate": 9.892e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239821, "epoch": 0.33119902, "global_step/max_steps": "4345/65595", "percentage": "6.62%", "elapsed_time": "5h 1m 55s", "remaining_time": "2d 22h 56m 7s"}
+{"loss": 0.21221826, "token_acc": 0.90370899, "grad_norm": 0.76631385, "learning_rate": 9.892e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239896, "epoch": 0.33158015, "global_step/max_steps": "4350/65595", "percentage": "6.63%", "elapsed_time": "5h 2m 10s", "remaining_time": "2d 22h 54m 26s"}
+{"loss": 0.24187083, "token_acc": 0.92022746, "grad_norm": 1.23763394, "learning_rate": 9.892e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239967, "epoch": 0.33196128, "global_step/max_steps": "4355/65595", "percentage": "6.64%", "elapsed_time": "5h 2m 26s", "remaining_time": "2d 22h 52m 50s"}
+{"loss": 0.1840502, "token_acc": 0.93833366, "grad_norm": 0.69143498, "learning_rate": 9.891e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240036, "epoch": 0.3323424, "global_step/max_steps": "4360/65595", "percentage": "6.65%", "elapsed_time": "5h 2m 41s", "remaining_time": "2d 22h 51m 16s"}
+{"loss": 0.23341947, "token_acc": 0.9023277, "grad_norm": 1.01326144, "learning_rate": 9.891e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240131, "epoch": 0.33272353, "global_step/max_steps": "4365/65595", "percentage": "6.65%", "elapsed_time": "5h 2m 55s", "remaining_time": "2d 22h 49m 14s"}
+{"loss": 0.27761636, "token_acc": 0.87455561, "grad_norm": 0.87441838, "learning_rate": 9.891e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240221, "epoch": 0.33310466, "global_step/max_steps": "4370/65595", "percentage": "6.66%", "elapsed_time": "5h 3m 9s", "remaining_time": "2d 22h 47m 17s"}
+{"loss": 0.20449295, "token_acc": 0.92003339, "grad_norm": 0.8210817, "learning_rate": 9.891e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24026, "epoch": 0.33348578, "global_step/max_steps": "4375/65595", "percentage": "6.67%", "elapsed_time": "5h 3m 27s", "remaining_time": "2d 22h 46m 15s"}
+{"loss": 0.19327891, "token_acc": 0.91496233, "grad_norm": 0.97981775, "learning_rate": 9.89e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240345, "epoch": 0.33386691, "global_step/max_steps": "4380/65595", "percentage": "6.68%", "elapsed_time": "5h 3m 41s", "remaining_time": "2d 22h 44m 25s"}
+{"loss": 0.24963245, "token_acc": 0.88725361, "grad_norm": 11.67451191, "learning_rate": 9.89e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240429, "epoch": 0.33424804, "global_step/max_steps": "4385/65595", "percentage": "6.68%", "elapsed_time": "5h 3m 56s", "remaining_time": "2d 22h 42m 35s"}
+{"loss": 0.169332, "token_acc": 0.91125541, "grad_norm": 1.0615803, "learning_rate": 9.89e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240514, "epoch": 0.33462916, "global_step/max_steps": "4390/65595", "percentage": "6.69%", "elapsed_time": "5h 4m 10s", "remaining_time": "2d 22h 40m 44s"}
+{"loss": 0.23872504, "token_acc": 0.91068249, "grad_norm": 1.07469058, "learning_rate": 9.89e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240552, "epoch": 0.33501029, "global_step/max_steps": "4395/65595", "percentage": "6.70%", "elapsed_time": "5h 4m 28s", "remaining_time": "2d 22h 39m 43s"}
+{"loss": 0.20713513, "token_acc": 0.90924202, "grad_norm": 0.88074422, "learning_rate": 9.889e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240626, "epoch": 0.33539142, "global_step/max_steps": "4400/65595", "percentage": "6.71%", "elapsed_time": "5h 4m 43s", "remaining_time": "2d 22h 38m 4s"}
+{"eval_loss": 0.15811728, "eval_token_acc": 0.92166135, "eval_runtime": 173.9477, "eval_samples_per_second": 3.047, "eval_steps_per_second": 3.047, "epoch": 0.33539142, "global_step/max_steps": "4400/65595", "percentage": "6.71%", "elapsed_time": "5h 7m 37s", "remaining_time": "2d 23h 18m 24s"}
+{"loss": 0.24947677, "token_acc": 0.92123146, "grad_norm": 0.96643126, "learning_rate": 9.889e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238438, "epoch": 0.33577254, "global_step/max_steps": "4405/65595", "percentage": "6.72%", "elapsed_time": "5h 7m 52s", "remaining_time": "2d 23h 16m 37s"}
+{"loss": 0.26062055, "token_acc": 0.90596211, "grad_norm": 1.95228291, "learning_rate": 9.889e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238502, "epoch": 0.33615367, "global_step/max_steps": "4410/65595", "percentage": "6.72%", "elapsed_time": "5h 8m 8s", "remaining_time": "2d 23h 15m 7s"}
+{"loss": 0.17942853, "token_acc": 0.92694611, "grad_norm": 0.90596712, "learning_rate": 9.889e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238543, "epoch": 0.3365348, "global_step/max_steps": "4415/65595", "percentage": "6.73%", "elapsed_time": "5h 8m 25s", "remaining_time": "2d 23h 14m 2s"}
+{"loss": 0.18638668, "token_acc": 0.92826846, "grad_norm": 1.04384935, "learning_rate": 9.888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238552, "epoch": 0.33691592, "global_step/max_steps": "4420/65595", "percentage": "6.74%", "elapsed_time": "5h 8m 46s", "remaining_time": "2d 23h 13m 32s"}
+{"loss": 0.23789847, "token_acc": 0.91510474, "grad_norm": 1.12509143, "learning_rate": 9.888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238607, "epoch": 0.33729705, "global_step/max_steps": "4425/65595", "percentage": "6.75%", "elapsed_time": "5h 9m 2s", "remaining_time": "2d 23h 12m 12s"}
+{"loss": 0.26052215, "token_acc": 0.89933195, "grad_norm": 0.73703283, "learning_rate": 9.888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238674, "epoch": 0.33767818, "global_step/max_steps": "4430/65595", "percentage": "6.75%", "elapsed_time": "5h 9m 18s", "remaining_time": "2d 23h 10m 38s"}
+{"loss": 0.26715243, "token_acc": 0.88484379, "grad_norm": 0.79412204, "learning_rate": 9.888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238754, "epoch": 0.3380593, "global_step/max_steps": "4435/65595", "percentage": "6.76%", "elapsed_time": "5h 9m 33s", "remaining_time": "2d 23h 8m 52s"}
+{"loss": 0.2291785, "token_acc": 0.92972691, "grad_norm": 1.54351723, "learning_rate": 9.887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238794, "epoch": 0.33844043, "global_step/max_steps": "4440/65595", "percentage": "6.77%", "elapsed_time": "5h 9m 51s", "remaining_time": "2d 23h 7m 48s"}
+{"loss": 0.24095614, "token_acc": 0.90941476, "grad_norm": 1.06983542, "learning_rate": 9.887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238858, "epoch": 0.33882156, "global_step/max_steps": "4445/65595", "percentage": "6.78%", "elapsed_time": "5h 10m 7s", "remaining_time": "2d 23h 6m 18s"}
+{"loss": 0.1984637, "token_acc": 0.93333333, "grad_norm": 3.24749637, "learning_rate": 9.887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238954, "epoch": 0.33920268, "global_step/max_steps": "4450/65595", "percentage": "6.78%", "elapsed_time": "5h 10m 20s", "remaining_time": "2d 23h 4m 15s"}
+{"loss": 0.20500236, "token_acc": 0.92003554, "grad_norm": 0.88941199, "learning_rate": 9.887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238975, "epoch": 0.33958381, "global_step/max_steps": "4455/65595", "percentage": "6.79%", "elapsed_time": "5h 10m 39s", "remaining_time": "2d 23h 3m 32s"}
+{"loss": 0.14530785, "token_acc": 0.93962811, "grad_norm": 0.88937688, "learning_rate": 9.886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239048, "epoch": 0.33996494, "global_step/max_steps": "4460/65595", "percentage": "6.80%", "elapsed_time": "5h 10m 55s", "remaining_time": "2d 23h 1m 52s"}
+{"loss": 0.20404437, "token_acc": 0.91321439, "grad_norm": 1.17201066, "learning_rate": 9.886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239128, "epoch": 0.34034606, "global_step/max_steps": "4465/65595", "percentage": "6.81%", "elapsed_time": "5h 11m 9s", "remaining_time": "2d 23h 0m 6s"}
+{"loss": 0.26153615, "token_acc": 0.90049355, "grad_norm": 1.17699265, "learning_rate": 9.886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239174, "epoch": 0.34072719, "global_step/max_steps": "4470/65595", "percentage": "6.81%", "elapsed_time": "5h 11m 27s", "remaining_time": "2d 22h 58m 56s"}
+{"loss": 0.27234447, "token_acc": 0.90179901, "grad_norm": 0.79767537, "learning_rate": 9.886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23919, "epoch": 0.34110832, "global_step/max_steps": "4475/65595", "percentage": "6.82%", "elapsed_time": "5h 11m 46s", "remaining_time": "2d 22h 58m 18s"}
+{"loss": 0.18525922, "token_acc": 0.92968972, "grad_norm": 1.23830855, "learning_rate": 9.885e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23927, "epoch": 0.34148944, "global_step/max_steps": "4480/65595", "percentage": "6.83%", "elapsed_time": "5h 12m 1s", "remaining_time": "2d 22h 56m 32s"}
+{"loss": 0.16029869, "token_acc": 0.93312543, "grad_norm": 1.2479459, "learning_rate": 9.885e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239362, "epoch": 0.34187057, "global_step/max_steps": "4485/65595", "percentage": "6.84%", "elapsed_time": "5h 12m 15s", "remaining_time": "2d 22h 54m 32s"}
+{"loss": 0.17210258, "token_acc": 0.92748639, "grad_norm": 0.91529816, "learning_rate": 9.885e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239439, "epoch": 0.3422517, "global_step/max_steps": "4490/65595", "percentage": "6.85%", "elapsed_time": "5h 12m 29s", "remaining_time": "2d 22h 52m 49s"}
+{"loss": 0.21854076, "token_acc": 0.90966903, "grad_norm": 1.19277418, "learning_rate": 9.885e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239472, "epoch": 0.34263282, "global_step/max_steps": "4495/65595", "percentage": "6.85%", "elapsed_time": "5h 12m 48s", "remaining_time": "2d 22h 51m 53s"}
+{"loss": 0.18531677, "token_acc": 0.92467984, "grad_norm": 1.38506579, "learning_rate": 9.884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239523, "epoch": 0.34301395, "global_step/max_steps": "4500/65595", "percentage": "6.86%", "elapsed_time": "5h 13m 5s", "remaining_time": "2d 22h 50m 38s"}
+{"loss": 0.24971094, "token_acc": 0.91759729, "grad_norm": 0.84463584, "learning_rate": 9.884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239555, "epoch": 0.34339508, "global_step/max_steps": "4505/65595", "percentage": "6.87%", "elapsed_time": "5h 13m 23s", "remaining_time": "2d 22h 49m 44s"}
+{"loss": 0.25979874, "token_acc": 0.90479569, "grad_norm": 1.34909165, "learning_rate": 9.884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239599, "epoch": 0.3437762, "global_step/max_steps": "4510/65595", "percentage": "6.88%", "elapsed_time": "5h 13m 40s", "remaining_time": "2d 22h 48m 36s"}
+{"loss": 0.19508851, "token_acc": 0.90250106, "grad_norm": 1.368873, "learning_rate": 9.884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239671, "epoch": 0.34415733, "global_step/max_steps": "4515/65595", "percentage": "6.88%", "elapsed_time": "5h 13m 56s", "remaining_time": "2d 22h 46m 58s"}
+{"loss": 0.24026742, "token_acc": 0.90495171, "grad_norm": 0.72086149, "learning_rate": 9.883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239726, "epoch": 0.34453846, "global_step/max_steps": "4520/65595", "percentage": "6.89%", "elapsed_time": "5h 14m 12s", "remaining_time": "2d 22h 45m 39s"}
+{"loss": 0.19558493, "token_acc": 0.91659007, "grad_norm": 0.986404, "learning_rate": 9.883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239806, "epoch": 0.34491958, "global_step/max_steps": "4525/65595", "percentage": "6.90%", "elapsed_time": "5h 14m 27s", "remaining_time": "2d 22h 43m 54s"}
+{"loss": 0.2046664, "token_acc": 0.91867514, "grad_norm": 1.06444681, "learning_rate": 9.883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23986, "epoch": 0.34530071, "global_step/max_steps": "4530/65595", "percentage": "6.91%", "elapsed_time": "5h 14m 43s", "remaining_time": "2d 22h 42m 36s"}
+{"loss": 0.25109866, "token_acc": 0.90780888, "grad_norm": 2.18245411, "learning_rate": 9.883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239924, "epoch": 0.34568184, "global_step/max_steps": "4535/65595", "percentage": "6.91%", "elapsed_time": "5h 14m 59s", "remaining_time": "2d 22h 41m 7s"}
+{"loss": 0.21804879, "token_acc": 0.91767554, "grad_norm": 0.76219934, "learning_rate": 9.882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239992, "epoch": 0.34606296, "global_step/max_steps": "4540/65595", "percentage": "6.92%", "elapsed_time": "5h 15m 15s", "remaining_time": "2d 22h 39m 33s"}
+{"loss": 0.10350074, "token_acc": 0.94767442, "grad_norm": 0.21728817, "learning_rate": 9.882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240099, "epoch": 0.34644409, "global_step/max_steps": "4545/65595", "percentage": "6.93%", "elapsed_time": "5h 15m 27s", "remaining_time": "2d 22h 37m 19s"}
+{"loss": 0.12814597, "token_acc": 0.93779404, "grad_norm": 1.07241392, "learning_rate": 9.882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240169, "epoch": 0.34682522, "global_step/max_steps": "4550/65595", "percentage": "6.94%", "elapsed_time": "5h 15m 42s", "remaining_time": "2d 22h 35m 44s"}
+{"loss": 0.18043693, "token_acc": 0.91814047, "grad_norm": 0.70693594, "learning_rate": 9.881e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240261, "epoch": 0.34720634, "global_step/max_steps": "4555/65595", "percentage": "6.94%", "elapsed_time": "5h 15m 56s", "remaining_time": "2d 22h 33m 46s"}
+{"loss": 0.18763838, "token_acc": 0.90787572, "grad_norm": 0.9489271, "learning_rate": 9.881e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240355, "epoch": 0.34758747, "global_step/max_steps": "4560/65595", "percentage": "6.95%", "elapsed_time": "5h 16m 9s", "remaining_time": "2d 22h 31m 47s"}
+{"loss": 0.20749819, "token_acc": 0.92136954, "grad_norm": 0.69589627, "learning_rate": 9.881e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240433, "epoch": 0.3479686, "global_step/max_steps": "4565/65595", "percentage": "6.96%", "elapsed_time": "5h 16m 24s", "remaining_time": "2d 22h 30m 4s"}
+{"loss": 0.16258285, "token_acc": 0.93498019, "grad_norm": 0.63742876, "learning_rate": 9.881e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240499, "epoch": 0.34834972, "global_step/max_steps": "4570/65595", "percentage": "6.97%", "elapsed_time": "5h 16m 39s", "remaining_time": "2d 22h 28m 32s"}
+{"loss": 0.16879878, "token_acc": 0.92823596, "grad_norm": 0.78405267, "learning_rate": 9.88e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240576, "epoch": 0.34873085, "global_step/max_steps": "4575/65595", "percentage": "6.97%", "elapsed_time": "5h 16m 54s", "remaining_time": "2d 22h 26m 51s"}
+{"loss": 0.1550325, "token_acc": 0.93129412, "grad_norm": 2.33807063, "learning_rate": 9.88e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240674, "epoch": 0.34911197, "global_step/max_steps": "4580/65595", "percentage": "6.98%", "elapsed_time": "5h 17m 7s", "remaining_time": "2d 22h 24m 47s"}
+{"loss": 0.16306592, "token_acc": 0.92454268, "grad_norm": 0.83106285, "learning_rate": 9.88e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240767, "epoch": 0.3494931, "global_step/max_steps": "4585/65595", "percentage": "6.99%", "elapsed_time": "5h 17m 21s", "remaining_time": "2d 22h 22m 48s"}
+{"loss": 0.18737432, "token_acc": 0.90671937, "grad_norm": 0.86633778, "learning_rate": 9.88e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240855, "epoch": 0.34987423, "global_step/max_steps": "4590/65595", "percentage": "7.00%", "elapsed_time": "5h 17m 34s", "remaining_time": "2d 22h 20m 55s"}
+{"loss": 0.23075032, "token_acc": 0.919627, "grad_norm": 0.86134195, "learning_rate": 9.879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24089, "epoch": 0.35025535, "global_step/max_steps": "4595/65595", "percentage": "7.01%", "elapsed_time": "5h 17m 52s", "remaining_time": "2d 22h 19m 58s"}
+{"loss": 0.16877565, "token_acc": 0.89871087, "grad_norm": 1.0420233, "learning_rate": 9.879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240985, "epoch": 0.35063648, "global_step/max_steps": "4600/65595", "percentage": "7.01%", "elapsed_time": "5h 18m 6s", "remaining_time": "2d 22h 17m 57s"}
+{"eval_loss": 0.15667737, "eval_token_acc": 0.92200771, "eval_runtime": 176.1338, "eval_samples_per_second": 3.009, "eval_steps_per_second": 3.009, "epoch": 0.35063648, "global_step/max_steps": "4600/65595", "percentage": "7.01%", "elapsed_time": "5h 21m 2s", "remaining_time": "2d 22h 56m 52s"}
+{"loss": 0.22312353, "token_acc": 0.92162273, "grad_norm": 1.11975932, "learning_rate": 9.879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238835, "epoch": 0.35101761, "global_step/max_steps": "4605/65595", "percentage": "7.02%", "elapsed_time": "5h 21m 18s", "remaining_time": "2d 22h 55m 34s"}
+{"loss": 0.17956755, "token_acc": 0.93690766, "grad_norm": 1.00676572, "learning_rate": 9.879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238887, "epoch": 0.35139873, "global_step/max_steps": "4610/65595", "percentage": "7.03%", "elapsed_time": "5h 21m 35s", "remaining_time": "2d 22h 54m 18s"}
+{"loss": 0.20748005, "token_acc": 0.9068599, "grad_norm": 1.06984913, "learning_rate": 9.878e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238955, "epoch": 0.35177986, "global_step/max_steps": "4615/65595", "percentage": "7.04%", "elapsed_time": "5h 21m 50s", "remaining_time": "2d 22h 52m 44s"}
+{"loss": 0.17751567, "token_acc": 0.92020697, "grad_norm": 0.94950402, "learning_rate": 9.878e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239029, "epoch": 0.35216099, "global_step/max_steps": "4620/65595", "percentage": "7.04%", "elapsed_time": "5h 22m 5s", "remaining_time": "2d 22h 51m 4s"}
+{"loss": 0.19807982, "token_acc": 0.92904046, "grad_norm": 1.01402915, "learning_rate": 9.878e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23908, "epoch": 0.35254211, "global_step/max_steps": "4625/65595", "percentage": "7.05%", "elapsed_time": "5h 22m 22s", "remaining_time": "2d 22h 49m 50s"}
+{"loss": 0.24102631, "token_acc": 0.92860929, "grad_norm": 1.66430223, "learning_rate": 9.878e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239117, "epoch": 0.35292324, "global_step/max_steps": "4630/65595", "percentage": "7.06%", "elapsed_time": "5h 22m 40s", "remaining_time": "2d 22h 48m 49s"}
+{"loss": 0.23084421, "token_acc": 0.91618131, "grad_norm": 0.93637818, "learning_rate": 9.877e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239192, "epoch": 0.35330437, "global_step/max_steps": "4635/65595", "percentage": "7.07%", "elapsed_time": "5h 22m 55s", "remaining_time": "2d 22h 47m 8s"}
+{"loss": 0.26243858, "token_acc": 0.90727101, "grad_norm": 1.37429512, "learning_rate": 9.877e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239248, "epoch": 0.35368549, "global_step/max_steps": "4640/65595", "percentage": "7.07%", "elapsed_time": "5h 23m 11s", "remaining_time": "2d 22h 45m 48s"}
+{"loss": 0.21875174, "token_acc": 0.92864611, "grad_norm": 0.96132016, "learning_rate": 9.877e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239328, "epoch": 0.35406662, "global_step/max_steps": "4645/65595", "percentage": "7.08%", "elapsed_time": "5h 23m 26s", "remaining_time": "2d 22h 44m 2s"}
+{"loss": 0.2157069, "token_acc": 0.92574884, "grad_norm": 1.52144265, "learning_rate": 9.877e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239353, "epoch": 0.35444775, "global_step/max_steps": "4650/65595", "percentage": "7.09%", "elapsed_time": "5h 23m 45s", "remaining_time": "2d 22h 43m 14s"}
+{"loss": 0.22569337, "token_acc": 0.9131996, "grad_norm": 0.66701359, "learning_rate": 9.876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239393, "epoch": 0.35482887, "global_step/max_steps": "4655/65595", "percentage": "7.10%", "elapsed_time": "5h 24m 2s", "remaining_time": "2d 22h 42m 11s"}
+{"loss": 0.19718537, "token_acc": 0.92021889, "grad_norm": 0.79953879, "learning_rate": 9.876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239418, "epoch": 0.35521, "global_step/max_steps": "4660/65595", "percentage": "7.10%", "elapsed_time": "5h 24m 21s", "remaining_time": "2d 22h 41m 23s"}
+{"loss": 0.12842495, "token_acc": 0.94384902, "grad_norm": 0.98348743, "learning_rate": 9.876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239486, "epoch": 0.35559113, "global_step/max_steps": "4665/65595", "percentage": "7.11%", "elapsed_time": "5h 24m 36s", "remaining_time": "2d 22h 39m 50s"}
+{"loss": 0.16127819, "token_acc": 0.93083236, "grad_norm": 0.74103916, "learning_rate": 9.875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239548, "epoch": 0.35597225, "global_step/max_steps": "4670/65595", "percentage": "7.12%", "elapsed_time": "5h 24m 52s", "remaining_time": "2d 22h 38m 23s"}
+{"loss": 0.13834574, "token_acc": 0.94309079, "grad_norm": 0.78771001, "learning_rate": 9.875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2396, "epoch": 0.35635338, "global_step/max_steps": "4675/65595", "percentage": "7.13%", "elapsed_time": "5h 25m 9s", "remaining_time": "2d 22h 37m 7s"}
+{"loss": 0.18404987, "token_acc": 0.92619392, "grad_norm": 0.9883182, "learning_rate": 9.875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239636, "epoch": 0.35673451, "global_step/max_steps": "4680/65595", "percentage": "7.13%", "elapsed_time": "5h 25m 27s", "remaining_time": "2d 22h 36m 8s"}
+{"loss": 0.18100386, "token_acc": 0.92614331, "grad_norm": 0.90804899, "learning_rate": 9.875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239698, "epoch": 0.35711563, "global_step/max_steps": "4685/65595", "percentage": "7.14%", "elapsed_time": "5h 25m 43s", "remaining_time": "2d 22h 34m 41s"}
+{"loss": 0.26099353, "token_acc": 0.89764919, "grad_norm": 1.1405313, "learning_rate": 9.874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239744, "epoch": 0.35749676, "global_step/max_steps": "4690/65595", "percentage": "7.15%", "elapsed_time": "5h 26m 0s", "remaining_time": "2d 22h 33m 33s"}
+{"loss": 0.21333323, "token_acc": 0.92649235, "grad_norm": 0.79496759, "learning_rate": 9.874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239798, "epoch": 0.35787789, "global_step/max_steps": "4695/65595", "percentage": "7.16%", "elapsed_time": "5h 26m 16s", "remaining_time": "2d 22h 32m 14s"}
+{"loss": 0.29752688, "token_acc": 0.90062112, "grad_norm": 1.28553164, "learning_rate": 9.874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239865, "epoch": 0.35825901, "global_step/max_steps": "4700/65595", "percentage": "7.17%", "elapsed_time": "5h 26m 32s", "remaining_time": "2d 22h 30m 42s"}
+{"loss": 0.1567288, "token_acc": 0.93326772, "grad_norm": 0.68220907, "learning_rate": 9.874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239918, "epoch": 0.35864014, "global_step/max_steps": "4705/65595", "percentage": "7.17%", "elapsed_time": "5h 26m 48s", "remaining_time": "2d 22h 29m 25s"}
+{"loss": 0.21168351, "token_acc": 0.92619836, "grad_norm": 1.30755508, "learning_rate": 9.873e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239942, "epoch": 0.35902127, "global_step/max_steps": "4710/65595", "percentage": "7.18%", "elapsed_time": "5h 27m 7s", "remaining_time": "2d 22h 28m 39s"}
+{"loss": 0.18080457, "token_acc": 0.92676906, "grad_norm": 1.60109282, "learning_rate": 9.873e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240004, "epoch": 0.35940239, "global_step/max_steps": "4715/65595", "percentage": "7.19%", "elapsed_time": "5h 27m 23s", "remaining_time": "2d 22h 27m 13s"}
+{"loss": 0.13485661, "token_acc": 0.94181433, "grad_norm": 0.91244513, "learning_rate": 9.873e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240082, "epoch": 0.35978352, "global_step/max_steps": "4720/65595", "percentage": "7.20%", "elapsed_time": "5h 27m 37s", "remaining_time": "2d 22h 25m 30s"}
+{"loss": 0.26804626, "token_acc": 0.89681195, "grad_norm": 1.06669784, "learning_rate": 9.873e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240129, "epoch": 0.36016465, "global_step/max_steps": "4725/65595", "percentage": "7.20%", "elapsed_time": "5h 27m 54s", "remaining_time": "2d 22h 24m 19s"}
+{"loss": 0.08361323, "token_acc": 0.95937161, "grad_norm": 0.53462338, "learning_rate": 9.872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24023, "epoch": 0.36054577, "global_step/max_steps": "4730/65595", "percentage": "7.21%", "elapsed_time": "5h 28m 7s", "remaining_time": "2d 22h 22m 12s"}
+{"loss": 0.16108639, "token_acc": 0.9252248, "grad_norm": 1.23044944, "learning_rate": 9.872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240264, "epoch": 0.3609269, "global_step/max_steps": "4735/65595", "percentage": "7.22%", "elapsed_time": "5h 28m 25s", "remaining_time": "2d 22h 21m 15s"}
+{"loss": 0.15151899, "token_acc": 0.93147556, "grad_norm": 1.15119338, "learning_rate": 9.872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240323, "epoch": 0.36130803, "global_step/max_steps": "4740/65595", "percentage": "7.23%", "elapsed_time": "5h 28m 41s", "remaining_time": "2d 22h 19m 53s"}
+{"loss": 0.21075306, "token_acc": 0.92835382, "grad_norm": 0.69954497, "learning_rate": 9.871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240336, "epoch": 0.36168915, "global_step/max_steps": "4745/65595", "percentage": "7.23%", "elapsed_time": "5h 29m 0s", "remaining_time": "2d 22h 19m 18s"}
+{"loss": 0.19613621, "token_acc": 0.92034744, "grad_norm": 0.60596567, "learning_rate": 9.871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240392, "epoch": 0.36207028, "global_step/max_steps": "4750/65595", "percentage": "7.24%", "elapsed_time": "5h 29m 17s", "remaining_time": "2d 22h 17m 58s"}
+{"loss": 0.16549742, "token_acc": 0.93916953, "grad_norm": 1.79536629, "learning_rate": 9.871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240452, "epoch": 0.36245141, "global_step/max_steps": "4755/65595", "percentage": "7.25%", "elapsed_time": "5h 29m 32s", "remaining_time": "2d 22h 16m 34s"}
+{"loss": 0.23433011, "token_acc": 0.92607235, "grad_norm": 0.99089742, "learning_rate": 9.871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240514, "epoch": 0.36283253, "global_step/max_steps": "4760/65595", "percentage": "7.26%", "elapsed_time": "5h 29m 48s", "remaining_time": "2d 22h 15m 9s"}
+{"loss": 0.19182584, "token_acc": 0.9332324, "grad_norm": 0.96778053, "learning_rate": 9.87e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240547, "epoch": 0.36321366, "global_step/max_steps": "4765/65595", "percentage": "7.26%", "elapsed_time": "5h 30m 6s", "remaining_time": "2d 22h 14m 13s"}
+{"loss": 0.20310028, "token_acc": 0.90849459, "grad_norm": 1.49793661, "learning_rate": 9.87e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240633, "epoch": 0.36359479, "global_step/max_steps": "4770/65595", "percentage": "7.27%", "elapsed_time": "5h 30m 20s", "remaining_time": "2d 22h 12m 22s"}
+{"loss": 0.18223538, "token_acc": 0.93109, "grad_norm": 1.00555336, "learning_rate": 9.87e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240672, "epoch": 0.36397591, "global_step/max_steps": "4775/65595", "percentage": "7.28%", "elapsed_time": "5h 30m 38s", "remaining_time": "2d 22h 11m 20s"}
+{"loss": 0.1447863, "token_acc": 0.93444476, "grad_norm": 0.8194828, "learning_rate": 9.87e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240742, "epoch": 0.36435704, "global_step/max_steps": "4780/65595", "percentage": "7.29%", "elapsed_time": "5h 30m 53s", "remaining_time": "2d 22h 9m 46s"}
+{"loss": 0.20292249, "token_acc": 0.93293239, "grad_norm": 0.86476117, "learning_rate": 9.869e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240794, "epoch": 0.36473817, "global_step/max_steps": "4785/65595", "percentage": "7.29%", "elapsed_time": "5h 31m 9s", "remaining_time": "2d 22h 8m 31s"}
+{"loss": 0.20553589, "token_acc": 0.93115468, "grad_norm": 0.67664307, "learning_rate": 9.869e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240836, "epoch": 0.36511929, "global_step/max_steps": "4790/65595", "percentage": "7.30%", "elapsed_time": "5h 31m 26s", "remaining_time": "2d 22h 7m 26s"}
+{"loss": 0.20031869, "token_acc": 0.92259786, "grad_norm": 0.88010776, "learning_rate": 9.869e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240872, "epoch": 0.36550042, "global_step/max_steps": "4795/65595", "percentage": "7.31%", "elapsed_time": "5h 31m 44s", "remaining_time": "2d 22h 6m 27s"}
+{"loss": 0.19591677, "token_acc": 0.9278169, "grad_norm": 0.82642657, "learning_rate": 9.868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240914, "epoch": 0.36588155, "global_step/max_steps": "4800/65595", "percentage": "7.32%", "elapsed_time": "5h 32m 1s", "remaining_time": "2d 22h 5m 23s"}
+{"eval_loss": 0.15245549, "eval_token_acc": 0.92439461, "eval_runtime": 175.0853, "eval_samples_per_second": 3.027, "eval_steps_per_second": 3.027, "epoch": 0.36588155, "global_step/max_steps": "4800/65595", "percentage": "7.32%", "elapsed_time": "5h 34m 56s", "remaining_time": "2d 22h 42m 20s"}
+{"loss": 0.15423467, "token_acc": 0.92472884, "grad_norm": 0.80049205, "learning_rate": 9.868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238873, "epoch": 0.36626267, "global_step/max_steps": "4805/65595", "percentage": "7.33%", "elapsed_time": "5h 35m 13s", "remaining_time": "2d 22h 40m 58s"}
+{"loss": 0.14435558, "token_acc": 0.9341142, "grad_norm": 1.15502191, "learning_rate": 9.868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238921, "epoch": 0.3666438, "global_step/max_steps": "4810/65595", "percentage": "7.33%", "elapsed_time": "5h 35m 29s", "remaining_time": "2d 22h 39m 45s"}
+{"loss": 0.11318208, "token_acc": 0.94791667, "grad_norm": 0.44425806, "learning_rate": 9.868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23899, "epoch": 0.36702493, "global_step/max_steps": "4815/65595", "percentage": "7.34%", "elapsed_time": "5h 35m 45s", "remaining_time": "2d 22h 38m 12s"}
+{"loss": 0.22952535, "token_acc": 0.91377746, "grad_norm": 1.21504045, "learning_rate": 9.867e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239038, "epoch": 0.36740605, "global_step/max_steps": "4820/65595", "percentage": "7.35%", "elapsed_time": "5h 36m 1s", "remaining_time": "2d 22h 37m 0s"}
+{"loss": 0.19099727, "token_acc": 0.93619701, "grad_norm": 0.89512104, "learning_rate": 9.867e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239058, "epoch": 0.36778718, "global_step/max_steps": "4825/65595", "percentage": "7.36%", "elapsed_time": "5h 36m 21s", "remaining_time": "2d 22h 36m 18s"}
+{"loss": 0.14610296, "token_acc": 0.93887734, "grad_norm": 0.78501236, "learning_rate": 9.867e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239149, "epoch": 0.36816831, "global_step/max_steps": "4830/65595", "percentage": "7.36%", "elapsed_time": "5h 36m 34s", "remaining_time": "2d 22h 34m 19s"}
+{"loss": 0.20278141, "token_acc": 0.91885053, "grad_norm": 0.86593407, "learning_rate": 9.867e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239204, "epoch": 0.36854943, "global_step/max_steps": "4835/65595", "percentage": "7.37%", "elapsed_time": "5h 36m 50s", "remaining_time": "2d 22h 33m 1s"}
+{"loss": 0.19950945, "token_acc": 0.92308965, "grad_norm": 0.84248841, "learning_rate": 9.866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239243, "epoch": 0.36893056, "global_step/max_steps": "4840/65595", "percentage": "7.38%", "elapsed_time": "5h 37m 8s", "remaining_time": "2d 22h 31m 58s"}
+{"loss": 0.16730018, "token_acc": 0.92098493, "grad_norm": 1.67588413, "learning_rate": 9.866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239326, "epoch": 0.36931169, "global_step/max_steps": "4845/65595", "percentage": "7.39%", "elapsed_time": "5h 37m 22s", "remaining_time": "2d 22h 30m 9s"}
+{"loss": 0.20846846, "token_acc": 0.93460059, "grad_norm": 0.82808495, "learning_rate": 9.866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239386, "epoch": 0.36969281, "global_step/max_steps": "4850/65595", "percentage": "7.39%", "elapsed_time": "5h 37m 37s", "remaining_time": "2d 22h 28m 45s"}
+{"loss": 0.17613157, "token_acc": 0.918101, "grad_norm": 0.86104101, "learning_rate": 9.865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239446, "epoch": 0.37007394, "global_step/max_steps": "4855/65595", "percentage": "7.40%", "elapsed_time": "5h 37m 53s", "remaining_time": "2d 22h 27m 20s"}
+{"loss": 0.16918354, "token_acc": 0.92843466, "grad_norm": 0.65863192, "learning_rate": 9.865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23951, "epoch": 0.37045507, "global_step/max_steps": "4860/65595", "percentage": "7.41%", "elapsed_time": "5h 38m 9s", "remaining_time": "2d 22h 25m 52s"}
+{"loss": 0.19900877, "token_acc": 0.92018651, "grad_norm": 0.99832529, "learning_rate": 9.865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239574, "epoch": 0.37083619, "global_step/max_steps": "4865/65595", "percentage": "7.42%", "elapsed_time": "5h 38m 24s", "remaining_time": "2d 22h 24m 23s"}
+{"loss": 0.24607391, "token_acc": 0.90660737, "grad_norm": 0.73903543, "learning_rate": 9.865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239629, "epoch": 0.37121732, "global_step/max_steps": "4870/65595", "percentage": "7.42%", "elapsed_time": "5h 38m 40s", "remaining_time": "2d 22h 23m 4s"}
+{"loss": 0.2261652, "token_acc": 0.91584477, "grad_norm": 0.57349318, "learning_rate": 9.864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239653, "epoch": 0.37159845, "global_step/max_steps": "4875/65595", "percentage": "7.43%", "elapsed_time": "5h 38m 59s", "remaining_time": "2d 22h 22m 18s"}
+{"loss": 0.21596689, "token_acc": 0.90715667, "grad_norm": 0.78290993, "learning_rate": 9.864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239729, "epoch": 0.37197957, "global_step/max_steps": "4880/65595", "percentage": "7.44%", "elapsed_time": "5h 39m 14s", "remaining_time": "2d 22h 20m 37s"}
+{"loss": 0.21100917, "token_acc": 0.92054795, "grad_norm": 1.56586432, "learning_rate": 9.864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239788, "epoch": 0.3723607, "global_step/max_steps": "4885/65595", "percentage": "7.45%", "elapsed_time": "5h 39m 29s", "remaining_time": "2d 22h 19m 14s"}
+{"loss": 0.20950568, "token_acc": 0.91698374, "grad_norm": 0.81493986, "learning_rate": 9.864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239875, "epoch": 0.37274182, "global_step/max_steps": "4890/65595", "percentage": "7.45%", "elapsed_time": "5h 39m 43s", "remaining_time": "2d 22h 17m 21s"}
+{"loss": 0.1963132, "token_acc": 0.90557722, "grad_norm": 1.08024156, "learning_rate": 9.863e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23992, "epoch": 0.37312295, "global_step/max_steps": "4895/65595", "percentage": "7.46%", "elapsed_time": "5h 40m 0s", "remaining_time": "2d 22h 16m 13s"}
+{"loss": 0.19555289, "token_acc": 0.9283824, "grad_norm": 0.97807986, "learning_rate": 9.863e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239951, "epoch": 0.37350408, "global_step/max_steps": "4900/65595", "percentage": "7.47%", "elapsed_time": "5h 40m 18s", "remaining_time": "2d 22h 15m 19s"}
+{"loss": 0.31761305, "token_acc": 0.88390784, "grad_norm": 1.33207142, "learning_rate": 9.863e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240009, "epoch": 0.3738852, "global_step/max_steps": "4905/65595", "percentage": "7.48%", "elapsed_time": "5h 40m 34s", "remaining_time": "2d 22h 13m 57s"}
+{"loss": 0.23569086, "token_acc": 0.91635066, "grad_norm": 0.80944139, "learning_rate": 9.862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240061, "epoch": 0.37426633, "global_step/max_steps": "4910/65595", "percentage": "7.49%", "elapsed_time": "5h 40m 50s", "remaining_time": "2d 22h 12m 42s"}
+{"loss": 0.16934081, "token_acc": 0.93418124, "grad_norm": 0.74831617, "learning_rate": 9.862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240111, "epoch": 0.37464746, "global_step/max_steps": "4915/65595", "percentage": "7.49%", "elapsed_time": "5h 41m 7s", "remaining_time": "2d 22h 11m 28s"}
+{"loss": 0.16175122, "token_acc": 0.93978983, "grad_norm": 1.14489996, "learning_rate": 9.862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240184, "epoch": 0.37502858, "global_step/max_steps": "4920/65595", "percentage": "7.50%", "elapsed_time": "5h 41m 22s", "remaining_time": "2d 22h 9m 51s"}
+{"loss": 0.21855636, "token_acc": 0.91705896, "grad_norm": 1.63783395, "learning_rate": 9.862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240249, "epoch": 0.37540971, "global_step/max_steps": "4925/65595", "percentage": "7.51%", "elapsed_time": "5h 41m 37s", "remaining_time": "2d 22h 8m 21s"}
+{"loss": 0.23356881, "token_acc": 0.91666667, "grad_norm": 1.78240025, "learning_rate": 9.861e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240294, "epoch": 0.37579084, "global_step/max_steps": "4930/65595", "percentage": "7.52%", "elapsed_time": "5h 41m 54s", "remaining_time": "2d 22h 7m 14s"}
+{"loss": 0.17367389, "token_acc": 0.92403876, "grad_norm": 0.23918124, "learning_rate": 9.861e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240337, "epoch": 0.37617196, "global_step/max_steps": "4935/65595", "percentage": "7.52%", "elapsed_time": "5h 42m 11s", "remaining_time": "2d 22h 6m 7s"}
+{"loss": 0.21452882, "token_acc": 0.91865195, "grad_norm": 0.58962864, "learning_rate": 9.861e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24043, "epoch": 0.37655309, "global_step/max_steps": "4940/65595", "percentage": "7.53%", "elapsed_time": "5h 42m 24s", "remaining_time": "2d 22h 4m 9s"}
+{"loss": 0.20244422, "token_acc": 0.93248266, "grad_norm": 1.42398262, "learning_rate": 9.86e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240463, "epoch": 0.37693422, "global_step/max_steps": "4945/65595", "percentage": "7.54%", "elapsed_time": "5h 42m 42s", "remaining_time": "2d 22h 3m 14s"}
+{"loss": 0.16305207, "token_acc": 0.92016199, "grad_norm": 1.38067722, "learning_rate": 9.86e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240533, "epoch": 0.37731534, "global_step/max_steps": "4950/65595", "percentage": "7.55%", "elapsed_time": "5h 42m 57s", "remaining_time": "2d 22h 1m 40s"}
+{"loss": 0.16299795, "token_acc": 0.92572033, "grad_norm": 0.47797328, "learning_rate": 9.86e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240597, "epoch": 0.37769647, "global_step/max_steps": "4955/65595", "percentage": "7.55%", "elapsed_time": "5h 43m 12s", "remaining_time": "2d 22h 0m 12s"}
+{"loss": 0.22518444, "token_acc": 0.90784983, "grad_norm": 1.87449241, "learning_rate": 9.86e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240679, "epoch": 0.3780776, "global_step/max_steps": "4960/65595", "percentage": "7.56%", "elapsed_time": "5h 43m 26s", "remaining_time": "2d 21h 58m 25s"}
+{"loss": 0.19942011, "token_acc": 0.92680593, "grad_norm": 1.91070449, "learning_rate": 9.859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240717, "epoch": 0.37845872, "global_step/max_steps": "4965/65595", "percentage": "7.57%", "elapsed_time": "5h 43m 43s", "remaining_time": "2d 21h 57m 25s"}
+{"loss": 0.16888455, "token_acc": 0.91533711, "grad_norm": 1.07741177, "learning_rate": 9.859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240795, "epoch": 0.37883985, "global_step/max_steps": "4970/65595", "percentage": "7.58%", "elapsed_time": "5h 43m 57s", "remaining_time": "2d 21h 55m 43s"}
+{"loss": 0.28023396, "token_acc": 0.9090708, "grad_norm": 1.58568382, "learning_rate": 9.859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240807, "epoch": 0.37922098, "global_step/max_steps": "4975/65595", "percentage": "7.58%", "elapsed_time": "5h 44m 17s", "remaining_time": "2d 21h 55m 9s"}
+{"loss": 0.16453283, "token_acc": 0.91955098, "grad_norm": 0.41779143, "learning_rate": 9.858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240857, "epoch": 0.3796021, "global_step/max_steps": "4980/65595", "percentage": "7.59%", "elapsed_time": "5h 44m 33s", "remaining_time": "2d 21h 53m 56s"}
+{"loss": 0.18516761, "token_acc": 0.91305057, "grad_norm": 0.84623224, "learning_rate": 9.858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240913, "epoch": 0.37998323, "global_step/max_steps": "4985/65595", "percentage": "7.60%", "elapsed_time": "5h 44m 49s", "remaining_time": "2d 21h 52m 37s"}
+{"loss": 0.20454428, "token_acc": 0.92645557, "grad_norm": 1.09690893, "learning_rate": 9.858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24096, "epoch": 0.38036436, "global_step/max_steps": "4990/65595", "percentage": "7.61%", "elapsed_time": "5h 45m 6s", "remaining_time": "2d 21h 51m 27s"}
+{"loss": 0.1960723, "token_acc": 0.92268566, "grad_norm": 1.17754948, "learning_rate": 9.858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241053, "epoch": 0.38074548, "global_step/max_steps": "4995/65595", "percentage": "7.61%", "elapsed_time": "5h 45m 19s", "remaining_time": "2d 21h 49m 30s"}
+{"loss": 0.16845212, "token_acc": 0.91927641, "grad_norm": 0.64120203, "learning_rate": 9.857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241116, "epoch": 0.38112661, "global_step/max_steps": "5000/65595", "percentage": "7.62%", "elapsed_time": "5h 45m 34s", "remaining_time": "2d 21h 48m 3s"}
+{"eval_loss": 0.15154628, "eval_token_acc": 0.92439461, "eval_runtime": 172.6344, "eval_samples_per_second": 3.07, "eval_steps_per_second": 3.07, "epoch": 0.38112661, "global_step/max_steps": "5000/65595", "percentage": "7.62%", "elapsed_time": "5h 48m 27s", "remaining_time": "2d 22h 22m 55s"}
+{"loss": 0.1869076, "token_acc": 0.92427199, "grad_norm": 1.03481603, "learning_rate": 9.857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239201, "epoch": 0.38150774, "global_step/max_steps": "5005/65595", "percentage": "7.63%", "elapsed_time": "5h 48m 41s", "remaining_time": "2d 22h 21m 14s"}
+{"loss": 0.17478065, "token_acc": 0.92848061, "grad_norm": 0.56429118, "learning_rate": 9.857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239272, "epoch": 0.38188886, "global_step/max_steps": "5010/65595", "percentage": "7.64%", "elapsed_time": "5h 48m 56s", "remaining_time": "2d 22h 19m 38s"}
+{"loss": 0.22216566, "token_acc": 0.90609333, "grad_norm": 0.71163589, "learning_rate": 9.856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239309, "epoch": 0.38226999, "global_step/max_steps": "5015/65595", "percentage": "7.65%", "elapsed_time": "5h 49m 13s", "remaining_time": "2d 22h 18m 38s"}
+{"loss": 0.25578237, "token_acc": 0.89980354, "grad_norm": 0.98114866, "learning_rate": 9.856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23937, "epoch": 0.38265112, "global_step/max_steps": "5020/65595", "percentage": "7.65%", "elapsed_time": "5h 49m 29s", "remaining_time": "2d 22h 17m 13s"}
+{"loss": 0.14969751, "token_acc": 0.94675186, "grad_norm": 1.15363026, "learning_rate": 9.856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239411, "epoch": 0.38303224, "global_step/max_steps": "5025/65595", "percentage": "7.66%", "elapsed_time": "5h 49m 46s", "remaining_time": "2d 22h 16m 8s"}
+{"loss": 0.22639055, "token_acc": 0.90810594, "grad_norm": 1.40558231, "learning_rate": 9.856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239468, "epoch": 0.38341337, "global_step/max_steps": "5030/65595", "percentage": "7.67%", "elapsed_time": "5h 50m 2s", "remaining_time": "2d 22h 14m 47s"}
+{"loss": 0.17762513, "token_acc": 0.93574608, "grad_norm": 1.12652636, "learning_rate": 9.855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239521, "epoch": 0.3837945, "global_step/max_steps": "5035/65595", "percentage": "7.68%", "elapsed_time": "5h 50m 18s", "remaining_time": "2d 22h 13m 30s"}
+{"loss": 0.23240838, "token_acc": 0.93013436, "grad_norm": 1.05465662, "learning_rate": 9.855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239558, "epoch": 0.38417562, "global_step/max_steps": "5040/65595", "percentage": "7.68%", "elapsed_time": "5h 50m 36s", "remaining_time": "2d 22h 12m 31s"}
+{"loss": 0.20711358, "token_acc": 0.92815789, "grad_norm": 0.61046982, "learning_rate": 9.855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239561, "epoch": 0.38455675, "global_step/max_steps": "5045/65595", "percentage": "7.69%", "elapsed_time": "5h 50m 57s", "remaining_time": "2d 22h 12m 7s"}
+{"loss": 0.21583545, "token_acc": 0.91611531, "grad_norm": 0.80073494, "learning_rate": 9.854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239617, "epoch": 0.38493788, "global_step/max_steps": "5050/65595", "percentage": "7.70%", "elapsed_time": "5h 51m 13s", "remaining_time": "2d 22h 10m 46s"}
+{"loss": 0.1970659, "token_acc": 0.91417992, "grad_norm": 0.90829426, "learning_rate": 9.854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239681, "epoch": 0.385319, "global_step/max_steps": "5055/65595", "percentage": "7.71%", "elapsed_time": "5h 51m 28s", "remaining_time": "2d 22h 9m 18s"}
+{"loss": 0.20413473, "token_acc": 0.90661982, "grad_norm": 0.15929668, "learning_rate": 9.854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23973, "epoch": 0.38570013, "global_step/max_steps": "5060/65595", "percentage": "7.71%", "elapsed_time": "5h 51m 44s", "remaining_time": "2d 22h 8m 6s"}
+{"loss": 0.18526717, "token_acc": 0.92761771, "grad_norm": 1.26671839, "learning_rate": 9.854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239764, "epoch": 0.38608126, "global_step/max_steps": "5065/65595", "percentage": "7.72%", "elapsed_time": "5h 52m 2s", "remaining_time": "2d 22h 7m 10s"}
+{"loss": 0.29414184, "token_acc": 0.89154261, "grad_norm": 1.12565565, "learning_rate": 9.853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239813, "epoch": 0.38646238, "global_step/max_steps": "5070/65595", "percentage": "7.73%", "elapsed_time": "5h 52m 19s", "remaining_time": "2d 22h 5m 57s"}
+{"loss": 0.18488873, "token_acc": 0.92546273, "grad_norm": 1.15788579, "learning_rate": 9.853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239897, "epoch": 0.38684351, "global_step/max_steps": "5075/65595", "percentage": "7.74%", "elapsed_time": "5h 52m 32s", "remaining_time": "2d 22h 4m 8s"}
+{"loss": 0.24428201, "token_acc": 0.90944717, "grad_norm": 1.27225053, "learning_rate": 9.853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239933, "epoch": 0.38722464, "global_step/max_steps": "5080/65595", "percentage": "7.74%", "elapsed_time": "5h 52m 50s", "remaining_time": "2d 22h 3m 9s"}
+{"loss": 0.19916835, "token_acc": 0.92251082, "grad_norm": 0.68262494, "learning_rate": 9.852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239971, "epoch": 0.38760576, "global_step/max_steps": "5085/65595", "percentage": "7.75%", "elapsed_time": "5h 53m 7s", "remaining_time": "2d 22h 2m 8s"}
+{"loss": 0.20142031, "token_acc": 0.92203608, "grad_norm": 1.33017635, "learning_rate": 9.852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240064, "epoch": 0.38798689, "global_step/max_steps": "5090/65595", "percentage": "7.76%", "elapsed_time": "5h 53m 20s", "remaining_time": "2d 22h 0m 10s"}
+{"loss": 0.24690509, "token_acc": 0.90088339, "grad_norm": 1.4179213, "learning_rate": 9.852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240117, "epoch": 0.38836802, "global_step/max_steps": "5095/65595", "percentage": "7.77%", "elapsed_time": "5h 53m 36s", "remaining_time": "2d 21h 58m 53s"}
+{"loss": 0.20048537, "token_acc": 0.92387257, "grad_norm": 1.39545858, "learning_rate": 9.852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240131, "epoch": 0.38874914, "global_step/max_steps": "5100/65595", "percentage": "7.77%", "elapsed_time": "5h 53m 56s", "remaining_time": "2d 21h 58m 18s"}
+{"loss": 0.12991486, "token_acc": 0.94350282, "grad_norm": 0.77775067, "learning_rate": 9.851e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240198, "epoch": 0.38913027, "global_step/max_steps": "5105/65595", "percentage": "7.78%", "elapsed_time": "5h 54m 11s", "remaining_time": "2d 21h 56m 47s"}
+{"loss": 0.18277162, "token_acc": 0.91938828, "grad_norm": 0.85353017, "learning_rate": 9.851e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24027, "epoch": 0.3895114, "global_step/max_steps": "5110/65595", "percentage": "7.79%", "elapsed_time": "5h 54m 25s", "remaining_time": "2d 21h 55m 10s"}
+{"loss": 0.14999104, "token_acc": 0.9343832, "grad_norm": 1.01791096, "learning_rate": 9.851e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240356, "epoch": 0.38989252, "global_step/max_steps": "5115/65595", "percentage": "7.80%", "elapsed_time": "5h 54m 38s", "remaining_time": "2d 21h 53m 19s"}
+{"loss": 0.18187845, "token_acc": 0.93166557, "grad_norm": 0.91587102, "learning_rate": 9.85e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240384, "epoch": 0.39027365, "global_step/max_steps": "5120/65595", "percentage": "7.81%", "elapsed_time": "5h 54m 57s", "remaining_time": "2d 21h 52m 30s"}
+{"loss": 0.16328256, "token_acc": 0.9364667, "grad_norm": 0.76743227, "learning_rate": 9.85e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240439, "epoch": 0.39065478, "global_step/max_steps": "5125/65595", "percentage": "7.81%", "elapsed_time": "5h 55m 12s", "remaining_time": "2d 21h 51m 12s"}
+{"loss": 0.1823866, "token_acc": 0.93229277, "grad_norm": 0.95793217, "learning_rate": 9.85e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240482, "epoch": 0.3910359, "global_step/max_steps": "5130/65595", "percentage": "7.82%", "elapsed_time": "5h 55m 29s", "remaining_time": "2d 21h 50m 6s"}
+{"loss": 0.14913604, "token_acc": 0.9365645, "grad_norm": 0.88447887, "learning_rate": 9.85e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240549, "epoch": 0.39141703, "global_step/max_steps": "5135/65595", "percentage": "7.83%", "elapsed_time": "5h 55m 44s", "remaining_time": "2d 21h 48m 35s"}
+{"loss": 0.22845752, "token_acc": 0.91653944, "grad_norm": 0.80376661, "learning_rate": 9.849e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240598, "epoch": 0.39179816, "global_step/max_steps": "5140/65595", "percentage": "7.84%", "elapsed_time": "5h 56m 1s", "remaining_time": "2d 21h 47m 23s"}
+{"loss": 0.28097584, "token_acc": 0.90699061, "grad_norm": 0.84141195, "learning_rate": 9.849e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240623, "epoch": 0.39217928, "global_step/max_steps": "5145/65595", "percentage": "7.84%", "elapsed_time": "5h 56m 19s", "remaining_time": "2d 21h 46m 36s"}
+{"loss": 0.15029507, "token_acc": 0.93459023, "grad_norm": 1.13280702, "learning_rate": 9.849e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240641, "epoch": 0.39256041, "global_step/max_steps": "5150/65595", "percentage": "7.85%", "elapsed_time": "5h 56m 38s", "remaining_time": "2d 21h 45m 57s"}
+{"loss": 0.27135782, "token_acc": 0.86823856, "grad_norm": 0.81905413, "learning_rate": 9.848e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240719, "epoch": 0.39294154, "global_step/max_steps": "5155/65595", "percentage": "7.86%", "elapsed_time": "5h 56m 52s", "remaining_time": "2d 21h 44m 15s"}
+{"loss": 0.16130884, "token_acc": 0.9259491, "grad_norm": 0.81734103, "learning_rate": 9.848e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240772, "epoch": 0.39332266, "global_step/max_steps": "5160/65595", "percentage": "7.87%", "elapsed_time": "5h 57m 8s", "remaining_time": "2d 21h 42m 58s"}
+{"loss": 0.16066401, "token_acc": 0.94533612, "grad_norm": 1.22664571, "learning_rate": 9.848e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240825, "epoch": 0.39370379, "global_step/max_steps": "5165/65595", "percentage": "7.87%", "elapsed_time": "5h 57m 24s", "remaining_time": "2d 21h 41m 42s"}
+{"loss": 0.23612924, "token_acc": 0.91014253, "grad_norm": 0.79251164, "learning_rate": 9.848e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240874, "epoch": 0.39408492, "global_step/max_steps": "5170/65595", "percentage": "7.88%", "elapsed_time": "5h 57m 41s", "remaining_time": "2d 21h 40m 30s"}
+{"loss": 0.20423665, "token_acc": 0.92585603, "grad_norm": 0.94082397, "learning_rate": 9.847e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240942, "epoch": 0.39446604, "global_step/max_steps": "5175/65595", "percentage": "7.89%", "elapsed_time": "5h 57m 55s", "remaining_time": "2d 21h 38m 59s"}
+{"loss": 0.18160673, "token_acc": 0.92635885, "grad_norm": 1.30701208, "learning_rate": 9.847e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240999, "epoch": 0.39484717, "global_step/max_steps": "5180/65595", "percentage": "7.90%", "elapsed_time": "5h 58m 11s", "remaining_time": "2d 21h 37m 39s"}
+{"loss": 0.15843185, "token_acc": 0.93792392, "grad_norm": 0.7797097, "learning_rate": 9.847e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241042, "epoch": 0.39522829, "global_step/max_steps": "5185/65595", "percentage": "7.90%", "elapsed_time": "5h 58m 28s", "remaining_time": "2d 21h 36m 34s"}
+{"loss": 0.2073365, "token_acc": 0.91809551, "grad_norm": 0.80899811, "learning_rate": 9.846e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241083, "epoch": 0.39560942, "global_step/max_steps": "5190/65595", "percentage": "7.91%", "elapsed_time": "5h 58m 45s", "remaining_time": "2d 21h 35m 31s"}
+{"loss": 0.19331856, "token_acc": 0.90670103, "grad_norm": 1.26985431, "learning_rate": 9.846e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241151, "epoch": 0.39599055, "global_step/max_steps": "5195/65595", "percentage": "7.92%", "elapsed_time": "5h 59m 0s", "remaining_time": "2d 21h 33m 59s"}
+{"loss": 0.2619926, "token_acc": 0.89227166, "grad_norm": 0.79536015, "learning_rate": 9.846e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241226, "epoch": 0.39637167, "global_step/max_steps": "5200/65595", "percentage": "7.93%", "elapsed_time": "5h 59m 14s", "remaining_time": "2d 21h 32m 21s"}
+{"eval_loss": 0.14741991, "eval_token_acc": 0.92636739, "eval_runtime": 178.1932, "eval_samples_per_second": 2.974, "eval_steps_per_second": 2.974, "epoch": 0.39637167, "global_step/max_steps": "5200/65595", "percentage": "7.93%", "elapsed_time": "6h 2m 12s", "remaining_time": "2d 22h 6m 50s"}
+{"loss": 0.2165839, "token_acc": 0.92588578, "grad_norm": 1.35124099, "learning_rate": 9.845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239303, "epoch": 0.3967528, "global_step/max_steps": "5205/65595", "percentage": "7.94%", "elapsed_time": "6h 2m 28s", "remaining_time": "2d 22h 5m 32s"}
+{"loss": 0.2163168, "token_acc": 0.90940255, "grad_norm": 2.05962157, "learning_rate": 9.845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239388, "epoch": 0.39713393, "global_step/max_steps": "5210/65595", "percentage": "7.94%", "elapsed_time": "6h 2m 41s", "remaining_time": "2d 22h 3m 41s"}
+{"loss": 0.14883772, "token_acc": 0.93893537, "grad_norm": 0.62796223, "learning_rate": 9.845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239422, "epoch": 0.39751505, "global_step/max_steps": "5215/65595", "percentage": "7.95%", "elapsed_time": "6h 2m 59s", "remaining_time": "2d 22h 2m 44s"}
+{"loss": 0.20449295, "token_acc": 0.91770295, "grad_norm": 0.87252176, "learning_rate": 9.845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239444, "epoch": 0.39789618, "global_step/max_steps": "5220/65595", "percentage": "7.96%", "elapsed_time": "6h 3m 18s", "remaining_time": "2d 22h 2m 1s"}
+{"loss": 0.18624258, "token_acc": 0.92611712, "grad_norm": 0.99442464, "learning_rate": 9.844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239481, "epoch": 0.39827731, "global_step/max_steps": "5225/65595", "percentage": "7.97%", "elapsed_time": "6h 3m 35s", "remaining_time": "2d 22h 1m 0s"}
+{"loss": 0.19931304, "token_acc": 0.91648654, "grad_norm": 0.8348493, "learning_rate": 9.844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239532, "epoch": 0.39865843, "global_step/max_steps": "5230/65595", "percentage": "7.97%", "elapsed_time": "6h 3m 52s", "remaining_time": "2d 21h 59m 46s"}
+{"loss": 0.22849133, "token_acc": 0.91475071, "grad_norm": 0.95878196, "learning_rate": 9.844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239556, "epoch": 0.39903956, "global_step/max_steps": "5235/65595", "percentage": "7.98%", "elapsed_time": "6h 4m 10s", "remaining_time": "2d 21h 59m 0s"}
+{"loss": 0.17408168, "token_acc": 0.92014437, "grad_norm": 0.72946268, "learning_rate": 9.843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239611, "epoch": 0.39942069, "global_step/max_steps": "5240/65595", "percentage": "7.99%", "elapsed_time": "6h 4m 26s", "remaining_time": "2d 21h 57m 41s"}
+{"loss": 0.19996595, "token_acc": 0.92465311, "grad_norm": 1.32375109, "learning_rate": 9.843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239651, "epoch": 0.39980181, "global_step/max_steps": "5245/65595", "percentage": "8.00%", "elapsed_time": "6h 4m 43s", "remaining_time": "2d 21h 56m 39s"}
+{"loss": 0.14377148, "token_acc": 0.91655858, "grad_norm": 0.61536622, "learning_rate": 9.843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239701, "epoch": 0.40018294, "global_step/max_steps": "5250/65595", "percentage": "8.00%", "elapsed_time": "6h 5m 0s", "remaining_time": "2d 21h 55m 25s"}
+{"loss": 0.17032756, "token_acc": 0.93563333, "grad_norm": 0.87376535, "learning_rate": 9.842e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239704, "epoch": 0.40056407, "global_step/max_steps": "5255/65595", "percentage": "8.01%", "elapsed_time": "6h 5m 20s", "remaining_time": "2d 21h 55m 1s"}
+{"loss": 0.17543501, "token_acc": 0.93012255, "grad_norm": 1.75774634, "learning_rate": 9.842e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239755, "epoch": 0.40094519, "global_step/max_steps": "5260/65595", "percentage": "8.02%", "elapsed_time": "6h 5m 36s", "remaining_time": "2d 21h 53m 47s"}
+{"loss": 0.21139541, "token_acc": 0.91424726, "grad_norm": 0.94727695, "learning_rate": 9.842e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23981, "epoch": 0.40132632, "global_step/max_steps": "5265/65595", "percentage": "8.03%", "elapsed_time": "6h 5m 52s", "remaining_time": "2d 21h 52m 28s"}
+{"loss": 0.21232915, "token_acc": 0.91400832, "grad_norm": 0.98574555, "learning_rate": 9.842e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239853, "epoch": 0.40170745, "global_step/max_steps": "5270/65595", "percentage": "8.03%", "elapsed_time": "6h 6m 9s", "remaining_time": "2d 21h 51m 22s"}
+{"loss": 0.17319568, "token_acc": 0.93704165, "grad_norm": 0.53598821, "learning_rate": 9.841e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23989, "epoch": 0.40208857, "global_step/max_steps": "5275/65595", "percentage": "8.04%", "elapsed_time": "6h 6m 26s", "remaining_time": "2d 21h 50m 22s"}
+{"loss": 0.15964758, "token_acc": 0.93080242, "grad_norm": 0.64553356, "learning_rate": 9.841e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239937, "epoch": 0.4024697, "global_step/max_steps": "5280/65595", "percentage": "8.05%", "elapsed_time": "6h 6m 43s", "remaining_time": "2d 21h 49m 12s"}
+{"loss": 0.20681925, "token_acc": 0.91064099, "grad_norm": 0.82094198, "learning_rate": 9.841e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240003, "epoch": 0.40285083, "global_step/max_steps": "5285/65595", "percentage": "8.06%", "elapsed_time": "6h 6m 58s", "remaining_time": "2d 21h 47m 42s"}
+{"loss": 0.19898905, "token_acc": 0.91446029, "grad_norm": 0.96822304, "learning_rate": 9.84e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240038, "epoch": 0.40323195, "global_step/max_steps": "5290/65595", "percentage": "8.06%", "elapsed_time": "6h 7m 15s", "remaining_time": "2d 21h 46m 45s"}
+{"loss": 0.19981546, "token_acc": 0.9291178, "grad_norm": 1.12369382, "learning_rate": 9.84e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240035, "epoch": 0.40361308, "global_step/max_steps": "5295/65595", "percentage": "8.07%", "elapsed_time": "6h 7m 37s", "remaining_time": "2d 21h 46m 27s"}
+{"loss": 0.15987737, "token_acc": 0.92089947, "grad_norm": 0.93006867, "learning_rate": 9.84e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240094, "epoch": 0.40399421, "global_step/max_steps": "5300/65595", "percentage": "8.08%", "elapsed_time": "6h 7m 52s", "remaining_time": "2d 21h 45m 5s"}
+{"loss": 0.09797218, "token_acc": 0.94428744, "grad_norm": 0.92223132, "learning_rate": 9.839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240181, "epoch": 0.40437533, "global_step/max_steps": "5305/65595", "percentage": "8.09%", "elapsed_time": "6h 8m 5s", "remaining_time": "2d 21h 43m 13s"}
+{"loss": 0.24593062, "token_acc": 0.89968026, "grad_norm": 2.09272027, "learning_rate": 9.839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24023, "epoch": 0.40475646, "global_step/max_steps": "5310/65595", "percentage": "8.10%", "elapsed_time": "6h 8m 21s", "remaining_time": "2d 21h 42m 1s"}
+{"loss": 0.20978541, "token_acc": 0.90802896, "grad_norm": 2.07171345, "learning_rate": 9.839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240282, "epoch": 0.40513759, "global_step/max_steps": "5315/65595", "percentage": "8.10%", "elapsed_time": "6h 8m 37s", "remaining_time": "2d 21h 40m 46s"}
+{"loss": 0.21639948, "token_acc": 0.92390937, "grad_norm": 1.04471505, "learning_rate": 9.839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240346, "epoch": 0.40551871, "global_step/max_steps": "5320/65595", "percentage": "8.11%", "elapsed_time": "6h 8m 52s", "remaining_time": "2d 21h 39m 18s"}
+{"loss": 0.18376616, "token_acc": 0.92155134, "grad_norm": 1.03756142, "learning_rate": 9.838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240404, "epoch": 0.40589984, "global_step/max_steps": "5325/65595", "percentage": "8.12%", "elapsed_time": "6h 9m 7s", "remaining_time": "2d 21h 37m 57s"}
+{"loss": 0.13580844, "token_acc": 0.94800638, "grad_norm": 2.15578103, "learning_rate": 9.838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240477, "epoch": 0.40628097, "global_step/max_steps": "5330/65595", "percentage": "8.13%", "elapsed_time": "6h 9m 22s", "remaining_time": "2d 21h 36m 20s"}
+{"loss": 0.16056122, "token_acc": 0.94312437, "grad_norm": 0.82531941, "learning_rate": 9.838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240536, "epoch": 0.40666209, "global_step/max_steps": "5335/65595", "percentage": "8.13%", "elapsed_time": "6h 9m 37s", "remaining_time": "2d 21h 34m 58s"}
+{"loss": 0.14908972, "token_acc": 0.93445202, "grad_norm": 0.62796211, "learning_rate": 9.837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240551, "epoch": 0.40704322, "global_step/max_steps": "5340/65595", "percentage": "8.14%", "elapsed_time": "6h 9m 56s", "remaining_time": "2d 21h 34m 22s"}
+{"loss": 0.19739075, "token_acc": 0.90248089, "grad_norm": 0.70857793, "learning_rate": 9.837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240603, "epoch": 0.40742435, "global_step/max_steps": "5345/65595", "percentage": "8.15%", "elapsed_time": "6h 10m 12s", "remaining_time": "2d 21h 33m 7s"}
+{"loss": 0.19592317, "token_acc": 0.92659258, "grad_norm": 1.22730696, "learning_rate": 9.837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240636, "epoch": 0.40780547, "global_step/max_steps": "5350/65595", "percentage": "8.16%", "elapsed_time": "6h 10m 30s", "remaining_time": "2d 21h 32m 11s"}
+{"loss": 0.20247371, "token_acc": 0.92694343, "grad_norm": 1.94067264, "learning_rate": 9.836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240675, "epoch": 0.4081866, "global_step/max_steps": "5355/65595", "percentage": "8.16%", "elapsed_time": "6h 10m 47s", "remaining_time": "2d 21h 31m 10s"}
+{"loss": 0.15763316, "token_acc": 0.93974666, "grad_norm": 0.72910339, "learning_rate": 9.836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240745, "epoch": 0.40856773, "global_step/max_steps": "5360/65595", "percentage": "8.17%", "elapsed_time": "6h 11m 1s", "remaining_time": "2d 21h 29m 37s"}
+{"loss": 0.26102905, "token_acc": 0.90362595, "grad_norm": 0.83670646, "learning_rate": 9.836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240776, "epoch": 0.40894885, "global_step/max_steps": "5365/65595", "percentage": "8.18%", "elapsed_time": "6h 11m 19s", "remaining_time": "2d 21h 28m 44s"}
+{"loss": 0.17764976, "token_acc": 0.9421513, "grad_norm": 1.07012033, "learning_rate": 9.836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240789, "epoch": 0.40932998, "global_step/max_steps": "5370/65595", "percentage": "8.19%", "elapsed_time": "6h 11m 39s", "remaining_time": "2d 21h 28m 10s"}
+{"loss": 0.19765472, "token_acc": 0.9074401, "grad_norm": 1.34588718, "learning_rate": 9.835e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240851, "epoch": 0.40971111, "global_step/max_steps": "5375/65595", "percentage": "8.19%", "elapsed_time": "6h 11m 54s", "remaining_time": "2d 21h 26m 44s"}
+{"loss": 0.17113955, "token_acc": 0.9467793, "grad_norm": 1.68019867, "learning_rate": 9.835e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240901, "epoch": 0.41009223, "global_step/max_steps": "5380/65595", "percentage": "8.20%", "elapsed_time": "6h 12m 10s", "remaining_time": "2d 21h 25m 32s"}
+{"loss": 0.19024606, "token_acc": 0.92250311, "grad_norm": 1.50638807, "learning_rate": 9.835e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240972, "epoch": 0.41047336, "global_step/max_steps": "5385/65595", "percentage": "8.21%", "elapsed_time": "6h 12m 24s", "remaining_time": "2d 21h 23m 57s"}
+{"loss": 0.20709994, "token_acc": 0.90257183, "grad_norm": 1.13112617, "learning_rate": 9.834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241002, "epoch": 0.41085449, "global_step/max_steps": "5390/65595", "percentage": "8.22%", "elapsed_time": "6h 12m 42s", "remaining_time": "2d 21h 23m 5s"}
+{"loss": 0.25129972, "token_acc": 0.89719076, "grad_norm": 0.66976589, "learning_rate": 9.834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241035, "epoch": 0.41123561, "global_step/max_steps": "5395/65595", "percentage": "8.22%", "elapsed_time": "6h 13m 0s", "remaining_time": "2d 21h 22m 11s"}
+{"loss": 0.23033147, "token_acc": 0.91640686, "grad_norm": 0.97945911, "learning_rate": 9.834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241071, "epoch": 0.41161674, "global_step/max_steps": "5400/65595", "percentage": "8.23%", "elapsed_time": "6h 13m 17s", "remaining_time": "2d 21h 21m 13s"}
+{"eval_loss": 0.14790449, "eval_token_acc": 0.92801638, "eval_runtime": 176.1839, "eval_samples_per_second": 3.008, "eval_steps_per_second": 3.008, "epoch": 0.41161674, "global_step/max_steps": "5400/65595", "percentage": "8.23%", "elapsed_time": "6h 16m 14s", "remaining_time": "2d 21h 53m 57s"}
+{"loss": 0.17798929, "token_acc": 0.92795529, "grad_norm": 0.65749538, "learning_rate": 9.833e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239241, "epoch": 0.41199787, "global_step/max_steps": "5405/65595", "percentage": "8.24%", "elapsed_time": "6h 16m 30s", "remaining_time": "2d 21h 52m 42s"}
+{"loss": 0.28448796, "token_acc": 0.89039262, "grad_norm": 1.53330338, "learning_rate": 9.833e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239272, "epoch": 0.41237899, "global_step/max_steps": "5410/65595", "percentage": "8.25%", "elapsed_time": "6h 16m 47s", "remaining_time": "2d 21h 51m 48s"}
+{"loss": 0.2016897, "token_acc": 0.92923077, "grad_norm": 0.80728614, "learning_rate": 9.833e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239325, "epoch": 0.41276012, "global_step/max_steps": "5415/65595", "percentage": "8.26%", "elapsed_time": "6h 17m 3s", "remaining_time": "2d 21h 50m 32s"}
+{"loss": 0.21428859, "token_acc": 0.92413582, "grad_norm": 1.21606326, "learning_rate": 9.832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239392, "epoch": 0.41314125, "global_step/max_steps": "5420/65595", "percentage": "8.26%", "elapsed_time": "6h 17m 18s", "remaining_time": "2d 21h 49m 1s"}
+{"loss": 0.18633885, "token_acc": 0.93870647, "grad_norm": 1.20037174, "learning_rate": 9.832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239445, "epoch": 0.41352237, "global_step/max_steps": "5425/65595", "percentage": "8.27%", "elapsed_time": "6h 17m 34s", "remaining_time": "2d 21h 47m 44s"}
+{"loss": 0.15067329, "token_acc": 0.9436459, "grad_norm": 0.94334769, "learning_rate": 9.832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239495, "epoch": 0.4139035, "global_step/max_steps": "5430/65595", "percentage": "8.28%", "elapsed_time": "6h 17m 50s", "remaining_time": "2d 21h 46m 30s"}
+{"loss": 0.19785492, "token_acc": 0.92353315, "grad_norm": 1.00786173, "learning_rate": 9.832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239549, "epoch": 0.41428463, "global_step/max_steps": "5435/65595", "percentage": "8.29%", "elapsed_time": "6h 18m 6s", "remaining_time": "2d 21h 45m 13s"}
+{"loss": 0.20800107, "token_acc": 0.91523605, "grad_norm": 1.5747329, "learning_rate": 9.831e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239611, "epoch": 0.41466575, "global_step/max_steps": "5440/65595", "percentage": "8.29%", "elapsed_time": "6h 18m 21s", "remaining_time": "2d 21h 43m 48s"}
+{"loss": 0.15435603, "token_acc": 0.93435827, "grad_norm": 0.61389911, "learning_rate": 9.831e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239643, "epoch": 0.41504688, "global_step/max_steps": "5445/65595", "percentage": "8.30%", "elapsed_time": "6h 18m 39s", "remaining_time": "2d 21h 42m 53s"}
+{"loss": 0.16219027, "token_acc": 0.94023216, "grad_norm": 1.54230821, "learning_rate": 9.831e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239695, "epoch": 0.41542801, "global_step/max_steps": "5450/65595", "percentage": "8.31%", "elapsed_time": "6h 18m 55s", "remaining_time": "2d 21h 41m 38s"}
+{"loss": 0.19200686, "token_acc": 0.92778411, "grad_norm": 1.2224766, "learning_rate": 9.83e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239767, "epoch": 0.41580913, "global_step/max_steps": "5455/65595", "percentage": "8.32%", "elapsed_time": "6h 19m 9s", "remaining_time": "2d 21h 40m 2s"}
+{"loss": 0.22992797, "token_acc": 0.9054683, "grad_norm": 0.93145251, "learning_rate": 9.83e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239832, "epoch": 0.41619026, "global_step/max_steps": "5460/65595", "percentage": "8.32%", "elapsed_time": "6h 19m 23s", "remaining_time": "2d 21h 38m 33s"}
+{"loss": 0.28290157, "token_acc": 0.89161956, "grad_norm": 1.14779997, "learning_rate": 9.83e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239882, "epoch": 0.41657139, "global_step/max_steps": "5465/65595", "percentage": "8.33%", "elapsed_time": "6h 19m 39s", "remaining_time": "2d 21h 37m 20s"}
+{"loss": 0.22822001, "token_acc": 0.90296002, "grad_norm": 1.44849312, "learning_rate": 9.829e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239948, "epoch": 0.41695251, "global_step/max_steps": "5470/65595", "percentage": "8.34%", "elapsed_time": "6h 19m 54s", "remaining_time": "2d 21h 35m 50s"}
+{"loss": 0.18594124, "token_acc": 0.92374637, "grad_norm": 1.05450726, "learning_rate": 9.829e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240027, "epoch": 0.41733364, "global_step/max_steps": "5475/65595", "percentage": "8.35%", "elapsed_time": "6h 20m 7s", "remaining_time": "2d 21h 34m 6s"}
+{"loss": 0.19536245, "token_acc": 0.93140697, "grad_norm": 1.43979561, "learning_rate": 9.829e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240041, "epoch": 0.41771476, "global_step/max_steps": "5480/65595", "percentage": "8.35%", "elapsed_time": "6h 20m 27s", "remaining_time": "2d 21h 33m 31s"}
+{"loss": 0.1251182, "token_acc": 0.95057661, "grad_norm": 1.33459723, "learning_rate": 9.828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240097, "epoch": 0.41809589, "global_step/max_steps": "5485/65595", "percentage": "8.36%", "elapsed_time": "6h 20m 42s", "remaining_time": "2d 21h 32m 12s"}
+{"loss": 0.21020298, "token_acc": 0.9150293, "grad_norm": 1.13145375, "learning_rate": 9.828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240136, "epoch": 0.41847702, "global_step/max_steps": "5490/65595", "percentage": "8.37%", "elapsed_time": "6h 20m 59s", "remaining_time": "2d 21h 31m 11s"}
+{"loss": 0.19914333, "token_acc": 0.91126119, "grad_norm": 0.7623291, "learning_rate": 9.828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240173, "epoch": 0.41885814, "global_step/max_steps": "5495/65595", "percentage": "8.38%", "elapsed_time": "6h 21m 17s", "remaining_time": "2d 21h 30m 11s"}
+{"loss": 0.23471701, "token_acc": 0.91614518, "grad_norm": 1.08952832, "learning_rate": 9.828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24023, "epoch": 0.41923927, "global_step/max_steps": "5500/65595", "percentage": "8.38%", "elapsed_time": "6h 21m 32s", "remaining_time": "2d 21h 28m 52s"}
+{"loss": 0.25099242, "token_acc": 0.9105042, "grad_norm": 1.31675506, "learning_rate": 9.827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240273, "epoch": 0.4196204, "global_step/max_steps": "5505/65595", "percentage": "8.39%", "elapsed_time": "6h 21m 49s", "remaining_time": "2d 21h 27m 45s"}
+{"loss": 0.18462663, "token_acc": 0.91133681, "grad_norm": 0.91272098, "learning_rate": 9.827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240343, "epoch": 0.42000152, "global_step/max_steps": "5510/65595", "percentage": "8.40%", "elapsed_time": "6h 22m 3s", "remaining_time": "2d 21h 26m 12s"}
+{"loss": 0.252649, "token_acc": 0.8872702, "grad_norm": 1.50540853, "learning_rate": 9.827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24041, "epoch": 0.42038265, "global_step/max_steps": "5515/65595", "percentage": "8.41%", "elapsed_time": "6h 22m 17s", "remaining_time": "2d 21h 24m 41s"}
+{"loss": 0.1522267, "token_acc": 0.93549952, "grad_norm": 0.45108914, "learning_rate": 9.826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240452, "epoch": 0.42076378, "global_step/max_steps": "5520/65595", "percentage": "8.42%", "elapsed_time": "6h 22m 34s", "remaining_time": "2d 21h 23m 37s"}
+{"loss": 0.23550994, "token_acc": 0.90972222, "grad_norm": 0.95314741, "learning_rate": 9.826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240517, "epoch": 0.4211449, "global_step/max_steps": "5525/65595", "percentage": "8.42%", "elapsed_time": "6h 22m 49s", "remaining_time": "2d 21h 22m 9s"}
+{"loss": 0.24609601, "token_acc": 0.91947694, "grad_norm": 0.9390043, "learning_rate": 9.826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240566, "epoch": 0.42152603, "global_step/max_steps": "5530/65595", "percentage": "8.43%", "elapsed_time": "6h 23m 5s", "remaining_time": "2d 21h 20m 58s"}
+{"loss": 0.14722086, "token_acc": 0.92936623, "grad_norm": 2.0566721, "learning_rate": 9.825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240639, "epoch": 0.42190716, "global_step/max_steps": "5535/65595", "percentage": "8.44%", "elapsed_time": "6h 23m 18s", "remaining_time": "2d 21h 19m 20s"}
+{"loss": 0.20836027, "token_acc": 0.9198329, "grad_norm": 0.68093759, "learning_rate": 9.825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240644, "epoch": 0.42228828, "global_step/max_steps": "5540/65595", "percentage": "8.45%", "elapsed_time": "6h 23m 39s", "remaining_time": "2d 21h 18m 55s"}
+{"loss": 0.24791198, "token_acc": 0.91431829, "grad_norm": 0.89539582, "learning_rate": 9.825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240682, "epoch": 0.42266941, "global_step/max_steps": "5545/65595", "percentage": "8.45%", "elapsed_time": "6h 23m 56s", "remaining_time": "2d 21h 17m 55s"}
+{"loss": 0.14024618, "token_acc": 0.9470339, "grad_norm": 0.60759622, "learning_rate": 9.824e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240705, "epoch": 0.42305054, "global_step/max_steps": "5550/65595", "percentage": "8.46%", "elapsed_time": "6h 24m 14s", "remaining_time": "2d 21h 17m 10s"}
+{"loss": 0.18848674, "token_acc": 0.9279661, "grad_norm": 1.32890975, "learning_rate": 9.824e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240743, "epoch": 0.42343166, "global_step/max_steps": "5555/65595", "percentage": "8.47%", "elapsed_time": "6h 24m 32s", "remaining_time": "2d 21h 16m 10s"}
+{"loss": 0.20795786, "token_acc": 0.92233941, "grad_norm": 1.26015592, "learning_rate": 9.824e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240816, "epoch": 0.42381279, "global_step/max_steps": "5560/65595", "percentage": "8.48%", "elapsed_time": "6h 24m 45s", "remaining_time": "2d 21h 14m 34s"}
+{"loss": 0.17151945, "token_acc": 0.92768473, "grad_norm": 0.9429552, "learning_rate": 9.823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240858, "epoch": 0.42419392, "global_step/max_steps": "5565/65595", "percentage": "8.48%", "elapsed_time": "6h 25m 2s", "remaining_time": "2d 21h 13m 29s"}
+{"loss": 0.19711843, "token_acc": 0.92144667, "grad_norm": 2.36728859, "learning_rate": 9.823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240914, "epoch": 0.42457504, "global_step/max_steps": "5570/65595", "percentage": "8.49%", "elapsed_time": "6h 25m 18s", "remaining_time": "2d 21h 12m 11s"}
+{"loss": 0.24548025, "token_acc": 0.90889603, "grad_norm": 1.4022063, "learning_rate": 9.823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240977, "epoch": 0.42495617, "global_step/max_steps": "5575/65595", "percentage": "8.50%", "elapsed_time": "6h 25m 32s", "remaining_time": "2d 21h 10m 45s"}
+{"loss": 0.21088643, "token_acc": 0.92045821, "grad_norm": 1.0822885, "learning_rate": 9.823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241013, "epoch": 0.4253373, "global_step/max_steps": "5580/65595", "percentage": "8.51%", "elapsed_time": "6h 25m 50s", "remaining_time": "2d 21h 9m 47s"}
+{"loss": 0.19417534, "token_acc": 0.92254458, "grad_norm": 1.05873287, "learning_rate": 9.822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241086, "epoch": 0.42571842, "global_step/max_steps": "5585/65595", "percentage": "8.51%", "elapsed_time": "6h 26m 3s", "remaining_time": "2d 21h 8m 11s"}
+{"loss": 0.24543834, "token_acc": 0.90322581, "grad_norm": 0.88727301, "learning_rate": 9.822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24115, "epoch": 0.42609955, "global_step/max_steps": "5590/65595", "percentage": "8.52%", "elapsed_time": "6h 26m 18s", "remaining_time": "2d 21h 6m 44s"}
+{"loss": 0.14410038, "token_acc": 0.91594604, "grad_norm": 1.29040492, "learning_rate": 9.822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241227, "epoch": 0.42648068, "global_step/max_steps": "5595/65595", "percentage": "8.53%", "elapsed_time": "6h 26m 31s", "remaining_time": "2d 21h 5m 3s"}
+{"loss": 0.20215664, "token_acc": 0.89849346, "grad_norm": 1.49079502, "learning_rate": 9.821e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241281, "epoch": 0.4268618, "global_step/max_steps": "5600/65595", "percentage": "8.54%", "elapsed_time": "6h 26m 47s", "remaining_time": "2d 21h 3m 48s"}
+{"eval_loss": 0.14358288, "eval_token_acc": 0.92794109, "eval_runtime": 173.6481, "eval_samples_per_second": 3.052, "eval_steps_per_second": 3.052, "epoch": 0.4268618, "global_step/max_steps": "5600/65595", "percentage": "8.54%", "elapsed_time": "6h 29m 40s", "remaining_time": "2d 21h 34m 48s"}
+{"loss": 0.20213518, "token_acc": 0.92752845, "grad_norm": 1.21659982, "learning_rate": 9.821e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239537, "epoch": 0.42724293, "global_step/max_steps": "5605/65595", "percentage": "8.54%", "elapsed_time": "6h 29m 57s", "remaining_time": "2d 21h 33m 37s"}
+{"loss": 0.14320713, "token_acc": 0.92213865, "grad_norm": 1.30238223, "learning_rate": 9.821e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239585, "epoch": 0.42762406, "global_step/max_steps": "5610/65595", "percentage": "8.55%", "elapsed_time": "6h 30m 13s", "remaining_time": "2d 21h 32m 26s"}
+{"loss": 0.19002441, "token_acc": 0.92556103, "grad_norm": 1.82727647, "learning_rate": 9.82e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239659, "epoch": 0.42800518, "global_step/max_steps": "5615/65595", "percentage": "8.56%", "elapsed_time": "6h 30m 26s", "remaining_time": "2d 21h 30m 48s"}
+{"loss": 0.25520434, "token_acc": 0.899623, "grad_norm": 1.4285754, "learning_rate": 9.82e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239703, "epoch": 0.42838631, "global_step/max_steps": "5620/65595", "percentage": "8.57%", "elapsed_time": "6h 30m 43s", "remaining_time": "2d 21h 29m 41s"}
+{"loss": 0.18307425, "token_acc": 0.92725742, "grad_norm": 0.71611905, "learning_rate": 9.82e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239715, "epoch": 0.42876744, "global_step/max_steps": "5625/65595", "percentage": "8.58%", "elapsed_time": "6h 31m 3s", "remaining_time": "2d 21h 29m 8s"}
+{"loss": 0.20751085, "token_acc": 0.92487597, "grad_norm": 1.74302542, "learning_rate": 9.819e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239771, "epoch": 0.42914856, "global_step/max_steps": "5630/65595", "percentage": "8.58%", "elapsed_time": "6h 31m 18s", "remaining_time": "2d 21h 27m 49s"}
+{"loss": 0.21146352, "token_acc": 0.91725215, "grad_norm": 0.79204631, "learning_rate": 9.819e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23982, "epoch": 0.42952969, "global_step/max_steps": "5635/65595", "percentage": "8.59%", "elapsed_time": "6h 31m 34s", "remaining_time": "2d 21h 26m 37s"}
+{"loss": 0.22358735, "token_acc": 0.90219156, "grad_norm": 1.49896562, "learning_rate": 9.819e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239895, "epoch": 0.42991082, "global_step/max_steps": "5640/65595", "percentage": "8.60%", "elapsed_time": "6h 31m 48s", "remaining_time": "2d 21h 24m 57s"}
+{"loss": 0.18430403, "token_acc": 0.92893626, "grad_norm": 1.06326628, "learning_rate": 9.818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239947, "epoch": 0.43029194, "global_step/max_steps": "5645/65595", "percentage": "8.61%", "elapsed_time": "6h 32m 3s", "remaining_time": "2d 21h 23m 42s"}
+{"loss": 0.20757115, "token_acc": 0.92096506, "grad_norm": 0.84159935, "learning_rate": 9.818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240017, "epoch": 0.43067307, "global_step/max_steps": "5650/65595", "percentage": "8.61%", "elapsed_time": "6h 32m 17s", "remaining_time": "2d 21h 22m 9s"}
+{"loss": 0.13644308, "token_acc": 0.93983269, "grad_norm": 0.82826954, "learning_rate": 9.818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240081, "epoch": 0.4310542, "global_step/max_steps": "5655/65595", "percentage": "8.62%", "elapsed_time": "6h 32m 32s", "remaining_time": "2d 21h 20m 42s"}
+{"loss": 0.18360655, "token_acc": 0.89991427, "grad_norm": 0.80567265, "learning_rate": 9.817e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240135, "epoch": 0.43143532, "global_step/max_steps": "5660/65595", "percentage": "8.63%", "elapsed_time": "6h 32m 47s", "remaining_time": "2d 21h 19m 24s"}
+{"loss": 0.18366411, "token_acc": 0.9255406, "grad_norm": 1.00701559, "learning_rate": 9.817e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240188, "epoch": 0.43181645, "global_step/max_steps": "5665/65595", "percentage": "8.64%", "elapsed_time": "6h 33m 3s", "remaining_time": "2d 21h 18m 9s"}
+{"loss": 0.20480497, "token_acc": 0.92716618, "grad_norm": 0.94853377, "learning_rate": 9.817e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240242, "epoch": 0.43219758, "global_step/max_steps": "5670/65595", "percentage": "8.64%", "elapsed_time": "6h 33m 18s", "remaining_time": "2d 21h 16m 51s"}
+{"loss": 0.21744692, "token_acc": 0.91460133, "grad_norm": 1.15089369, "learning_rate": 9.816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240287, "epoch": 0.4325787, "global_step/max_steps": "5675/65595", "percentage": "8.65%", "elapsed_time": "6h 33m 35s", "remaining_time": "2d 21h 15m 44s"}
+{"loss": 0.1605275, "token_acc": 0.93974881, "grad_norm": 2.33021402, "learning_rate": 9.816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240313, "epoch": 0.43295983, "global_step/max_steps": "5680/65595", "percentage": "8.66%", "elapsed_time": "6h 33m 53s", "remaining_time": "2d 21h 14m 56s"}
+{"loss": 0.16370599, "token_acc": 0.93759467, "grad_norm": 0.84093052, "learning_rate": 9.816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240342, "epoch": 0.43334096, "global_step/max_steps": "5685/65595", "percentage": "8.67%", "elapsed_time": "6h 34m 11s", "remaining_time": "2d 21h 14m 5s"}
+{"loss": 0.15654292, "token_acc": 0.9330032, "grad_norm": 1.19671774, "learning_rate": 9.815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240403, "epoch": 0.43372208, "global_step/max_steps": "5690/65595", "percentage": "8.67%", "elapsed_time": "6h 34m 26s", "remaining_time": "2d 21h 12m 42s"}
+{"loss": 0.19107804, "token_acc": 0.93262541, "grad_norm": 1.56686568, "learning_rate": 9.815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240469, "epoch": 0.43410321, "global_step/max_steps": "5695/65595", "percentage": "8.68%", "elapsed_time": "6h 34m 40s", "remaining_time": "2d 21h 11m 12s"}
+{"loss": 0.13768834, "token_acc": 0.93924466, "grad_norm": 1.03676593, "learning_rate": 9.815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240519, "epoch": 0.43448434, "global_step/max_steps": "5700/65595", "percentage": "8.69%", "elapsed_time": "6h 34m 56s", "remaining_time": "2d 21h 9m 59s"}
+{"loss": 0.15689183, "token_acc": 0.94159432, "grad_norm": 1.17781615, "learning_rate": 9.815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24055, "epoch": 0.43486546, "global_step/max_steps": "5705/65595", "percentage": "8.70%", "elapsed_time": "6h 35m 14s", "remaining_time": "2d 21h 9m 7s"}
+{"loss": 0.17880679, "token_acc": 0.92659493, "grad_norm": 1.00716078, "learning_rate": 9.814e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240592, "epoch": 0.43524659, "global_step/max_steps": "5710/65595", "percentage": "8.70%", "elapsed_time": "6h 35m 30s", "remaining_time": "2d 21h 8m 3s"}
+{"loss": 0.23645744, "token_acc": 0.91652012, "grad_norm": 2.25451827, "learning_rate": 9.814e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240605, "epoch": 0.43562772, "global_step/max_steps": "5715/65595", "percentage": "8.71%", "elapsed_time": "6h 35m 50s", "remaining_time": "2d 21h 7m 29s"}
+{"loss": 0.16898825, "token_acc": 0.94265349, "grad_norm": 1.58972538, "learning_rate": 9.814e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240637, "epoch": 0.43600884, "global_step/max_steps": "5720/65595", "percentage": "8.72%", "elapsed_time": "6h 36m 7s", "remaining_time": "2d 21h 6m 34s"}
+{"loss": 0.17856762, "token_acc": 0.9348637, "grad_norm": 1.14847362, "learning_rate": 9.813e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240701, "epoch": 0.43638997, "global_step/max_steps": "5725/65595", "percentage": "8.73%", "elapsed_time": "6h 36m 22s", "remaining_time": "2d 21h 5m 8s"}
+{"loss": 0.13222431, "token_acc": 0.93121417, "grad_norm": 1.65931249, "learning_rate": 9.813e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240763, "epoch": 0.4367711, "global_step/max_steps": "5730/65595", "percentage": "8.74%", "elapsed_time": "6h 36m 37s", "remaining_time": "2d 21h 3m 43s"}
+{"loss": 0.19443144, "token_acc": 0.92399252, "grad_norm": 0.79424191, "learning_rate": 9.813e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240817, "epoch": 0.43715222, "global_step/max_steps": "5735/65595", "percentage": "8.74%", "elapsed_time": "6h 36m 52s", "remaining_time": "2d 21h 2m 27s"}
+{"loss": 0.20177703, "token_acc": 0.92479899, "grad_norm": 0.84388101, "learning_rate": 9.812e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240857, "epoch": 0.43753335, "global_step/max_steps": "5740/65595", "percentage": "8.75%", "elapsed_time": "6h 37m 9s", "remaining_time": "2d 21h 1m 25s"}
+{"loss": 0.20316269, "token_acc": 0.90996617, "grad_norm": 0.78852803, "learning_rate": 9.812e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240913, "epoch": 0.43791448, "global_step/max_steps": "5745/65595", "percentage": "8.76%", "elapsed_time": "6h 37m 24s", "remaining_time": "2d 21h 0m 6s"}
+{"loss": 0.21400583, "token_acc": 0.9121644, "grad_norm": 1.47476923, "learning_rate": 9.812e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24098, "epoch": 0.4382956, "global_step/max_steps": "5750/65595", "percentage": "8.77%", "elapsed_time": "6h 37m 38s", "remaining_time": "2d 20h 58m 37s"}
+{"loss": 0.25489902, "token_acc": 0.8939987, "grad_norm": 1.2477864, "learning_rate": 9.811e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241048, "epoch": 0.43867673, "global_step/max_steps": "5755/65595", "percentage": "8.77%", "elapsed_time": "6h 37m 52s", "remaining_time": "2d 20h 57m 5s"}
+{"loss": 0.1873224, "token_acc": 0.92830626, "grad_norm": 1.48229575, "learning_rate": 9.811e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24111, "epoch": 0.43905786, "global_step/max_steps": "5760/65595", "percentage": "8.78%", "elapsed_time": "6h 38m 7s", "remaining_time": "2d 20h 55m 41s"}
+{"loss": 0.16111268, "token_acc": 0.92608696, "grad_norm": 0.2816906, "learning_rate": 9.811e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241155, "epoch": 0.43943898, "global_step/max_steps": "5765/65595", "percentage": "8.79%", "elapsed_time": "6h 38m 23s", "remaining_time": "2d 20h 54m 34s"}
+{"loss": 0.16373, "token_acc": 0.93221154, "grad_norm": 1.30718601, "learning_rate": 9.81e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241194, "epoch": 0.43982011, "global_step/max_steps": "5770/65595", "percentage": "8.80%", "elapsed_time": "6h 38m 40s", "remaining_time": "2d 20h 53m 33s"}
+{"loss": 0.24101949, "token_acc": 0.91560742, "grad_norm": 1.31196153, "learning_rate": 9.81e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241237, "epoch": 0.44020123, "global_step/max_steps": "5775/65595", "percentage": "8.80%", "elapsed_time": "6h 38m 56s", "remaining_time": "2d 20h 52m 28s"}
+{"loss": 0.23722944, "token_acc": 0.89121339, "grad_norm": 0.73992664, "learning_rate": 9.81e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241298, "epoch": 0.44058236, "global_step/max_steps": "5780/65595", "percentage": "8.81%", "elapsed_time": "6h 39m 11s", "remaining_time": "2d 20h 51m 5s"}
+{"loss": 0.18381641, "token_acc": 0.91901408, "grad_norm": 0.76287639, "learning_rate": 9.809e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241351, "epoch": 0.44096349, "global_step/max_steps": "5785/65595", "percentage": "8.82%", "elapsed_time": "6h 39m 26s", "remaining_time": "2d 20h 49m 50s"}
+{"loss": 0.15814761, "token_acc": 0.93329005, "grad_norm": 0.78594303, "learning_rate": 9.809e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241379, "epoch": 0.44134461, "global_step/max_steps": "5790/65595", "percentage": "8.83%", "elapsed_time": "6h 39m 44s", "remaining_time": "2d 20h 49m 1s"}
+{"loss": 0.21951177, "token_acc": 0.91465677, "grad_norm": 1.32572436, "learning_rate": 9.809e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241383, "epoch": 0.44172574, "global_step/max_steps": "5795/65595", "percentage": "8.83%", "elapsed_time": "6h 40m 5s", "remaining_time": "2d 20h 48m 35s"}
+{"loss": 0.1879459, "token_acc": 0.92629303, "grad_norm": 1.12059104, "learning_rate": 9.808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241442, "epoch": 0.44210687, "global_step/max_steps": "5800/65595", "percentage": "8.84%", "elapsed_time": "6h 40m 20s", "remaining_time": "2d 20h 47m 14s"}
+{"eval_loss": 0.14410849, "eval_token_acc": 0.92961267, "eval_runtime": 175.7521, "eval_samples_per_second": 3.016, "eval_steps_per_second": 3.016, "epoch": 0.44210687, "global_step/max_steps": "5800/65595", "percentage": "8.84%", "elapsed_time": "6h 43m 15s", "remaining_time": "2d 21h 17m 26s"}
+{"loss": 0.15974505, "token_acc": 0.92976478, "grad_norm": 0.78609329, "learning_rate": 9.808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239724, "epoch": 0.44248799, "global_step/max_steps": "5805/65595", "percentage": "8.85%", "elapsed_time": "6h 43m 33s", "remaining_time": "2d 21h 16m 29s"}
+{"loss": 0.17028129, "token_acc": 0.94225722, "grad_norm": 1.06709158, "learning_rate": 9.808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239764, "epoch": 0.44286912, "global_step/max_steps": "5810/65595", "percentage": "8.86%", "elapsed_time": "6h 43m 49s", "remaining_time": "2d 21h 15m 26s"}
+{"loss": 0.20537529, "token_acc": 0.91921623, "grad_norm": 1.1350348, "learning_rate": 9.807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239833, "epoch": 0.44325025, "global_step/max_steps": "5815/65595", "percentage": "8.87%", "elapsed_time": "6h 44m 3s", "remaining_time": "2d 21h 13m 53s"}
+{"loss": 0.15165201, "token_acc": 0.9405, "grad_norm": 0.7824772, "learning_rate": 9.807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239908, "epoch": 0.44363137, "global_step/max_steps": "5820/65595", "percentage": "8.87%", "elapsed_time": "6h 44m 17s", "remaining_time": "2d 21h 12m 15s"}
+{"loss": 0.17151898, "token_acc": 0.93678665, "grad_norm": 0.76525027, "learning_rate": 9.807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239949, "epoch": 0.4440125, "global_step/max_steps": "5825/65595", "percentage": "8.88%", "elapsed_time": "6h 44m 33s", "remaining_time": "2d 21h 11m 11s"}
+{"loss": 0.16164606, "token_acc": 0.94045175, "grad_norm": 1.01234877, "learning_rate": 9.806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240006, "epoch": 0.44439363, "global_step/max_steps": "5830/65595", "percentage": "8.89%", "elapsed_time": "6h 44m 48s", "remaining_time": "2d 21h 9m 51s"}
+{"loss": 0.2097523, "token_acc": 0.92846842, "grad_norm": 0.84368408, "learning_rate": 9.806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240068, "epoch": 0.44477475, "global_step/max_steps": "5835/65595", "percentage": "8.90%", "elapsed_time": "6h 45m 3s", "remaining_time": "2d 21h 8m 26s"}
+{"loss": 0.18573481, "token_acc": 0.92137063, "grad_norm": 0.81569958, "learning_rate": 9.806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24011, "epoch": 0.44515588, "global_step/max_steps": "5840/65595", "percentage": "8.90%", "elapsed_time": "6h 45m 19s", "remaining_time": "2d 21h 7m 21s"}
+{"loss": 0.32129025, "token_acc": 0.88714355, "grad_norm": 1.03497589, "learning_rate": 9.805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240169, "epoch": 0.44553701, "global_step/max_steps": "5845/65595", "percentage": "8.91%", "elapsed_time": "6h 45m 34s", "remaining_time": "2d 21h 6m 0s"}
+{"loss": 0.21832433, "token_acc": 0.91960811, "grad_norm": 1.03127575, "learning_rate": 9.805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24018, "epoch": 0.44591813, "global_step/max_steps": "5850/65595", "percentage": "8.92%", "elapsed_time": "6h 45m 54s", "remaining_time": "2d 21h 5m 28s"}
+{"loss": 0.17147911, "token_acc": 0.91869021, "grad_norm": 0.81222022, "learning_rate": 9.805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240242, "epoch": 0.44629926, "global_step/max_steps": "5855/65595", "percentage": "8.93%", "elapsed_time": "6h 46m 9s", "remaining_time": "2d 21h 4m 3s"}
+{"loss": 0.24768183, "token_acc": 0.90314359, "grad_norm": 0.9089216, "learning_rate": 9.804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240301, "epoch": 0.44668039, "global_step/max_steps": "5860/65595", "percentage": "8.93%", "elapsed_time": "6h 46m 23s", "remaining_time": "2d 21h 2m 41s"}
+{"loss": 0.1294495, "token_acc": 0.93807816, "grad_norm": 1.63304877, "learning_rate": 9.804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240334, "epoch": 0.44706151, "global_step/max_steps": "5865/65595", "percentage": "8.94%", "elapsed_time": "6h 46m 41s", "remaining_time": "2d 21h 1m 46s"}
+{"loss": 0.19672765, "token_acc": 0.9038014, "grad_norm": 0.89885759, "learning_rate": 9.804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240406, "epoch": 0.44744264, "global_step/max_steps": "5870/65595", "percentage": "8.95%", "elapsed_time": "6h 46m 54s", "remaining_time": "2d 21h 0m 11s"}
+{"loss": 0.19658492, "token_acc": 0.92464627, "grad_norm": 0.84423095, "learning_rate": 9.803e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24044, "epoch": 0.44782377, "global_step/max_steps": "5875/65595", "percentage": "8.96%", "elapsed_time": "6h 47m 12s", "remaining_time": "2d 20h 59m 15s"}
+{"loss": 0.17091988, "token_acc": 0.92994924, "grad_norm": 0.99605864, "learning_rate": 9.803e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240506, "epoch": 0.44820489, "global_step/max_steps": "5880/65595", "percentage": "8.96%", "elapsed_time": "6h 47m 26s", "remaining_time": "2d 20h 57m 46s"}
+{"loss": 0.22590001, "token_acc": 0.92846498, "grad_norm": 1.60093725, "learning_rate": 9.803e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240546, "epoch": 0.44858602, "global_step/max_steps": "5885/65595", "percentage": "8.97%", "elapsed_time": "6h 47m 42s", "remaining_time": "2d 20h 56m 44s"}
+{"loss": 0.13849484, "token_acc": 0.93732542, "grad_norm": 0.62102294, "learning_rate": 9.802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240596, "epoch": 0.44896715, "global_step/max_steps": "5890/65595", "percentage": "8.98%", "elapsed_time": "6h 47m 58s", "remaining_time": "2d 20h 55m 31s"}
+{"loss": 0.22121675, "token_acc": 0.91537026, "grad_norm": 0.95597678, "learning_rate": 9.802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240631, "epoch": 0.44934827, "global_step/max_steps": "5895/65595", "percentage": "8.99%", "elapsed_time": "6h 48m 15s", "remaining_time": "2d 20h 54m 35s"}
+{"loss": 0.19691674, "token_acc": 0.92738693, "grad_norm": 1.01590633, "learning_rate": 9.802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240681, "epoch": 0.4497294, "global_step/max_steps": "5900/65595", "percentage": "8.99%", "elapsed_time": "6h 48m 31s", "remaining_time": "2d 20h 53m 22s"}
+{"loss": 0.20128841, "token_acc": 0.91025152, "grad_norm": 1.39276075, "learning_rate": 9.801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240716, "epoch": 0.45011053, "global_step/max_steps": "5905/65595", "percentage": "9.00%", "elapsed_time": "6h 48m 48s", "remaining_time": "2d 20h 52m 25s"}
+{"loss": 0.19798551, "token_acc": 0.92397094, "grad_norm": 0.87276655, "learning_rate": 9.801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240774, "epoch": 0.45049165, "global_step/max_steps": "5910/65595", "percentage": "9.01%", "elapsed_time": "6h 49m 3s", "remaining_time": "2d 20h 51m 5s"}
+{"loss": 0.19158585, "token_acc": 0.93454474, "grad_norm": 0.89699554, "learning_rate": 9.801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240826, "epoch": 0.45087278, "global_step/max_steps": "5915/65595", "percentage": "9.02%", "elapsed_time": "6h 49m 19s", "remaining_time": "2d 20h 49m 51s"}
+{"loss": 0.19772069, "token_acc": 0.9141791, "grad_norm": 1.09121299, "learning_rate": 9.8e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240883, "epoch": 0.45125391, "global_step/max_steps": "5920/65595", "percentage": "9.03%", "elapsed_time": "6h 49m 33s", "remaining_time": "2d 20h 48m 31s"}
+{"loss": 0.13649771, "token_acc": 0.92544681, "grad_norm": 1.68903863, "learning_rate": 9.8e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240927, "epoch": 0.45163503, "global_step/max_steps": "5925/65595", "percentage": "9.03%", "elapsed_time": "6h 49m 50s", "remaining_time": "2d 20h 47m 25s"}
+{"loss": 0.15688212, "token_acc": 0.94604953, "grad_norm": 2.21292377, "learning_rate": 9.8e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240976, "epoch": 0.45201616, "global_step/max_steps": "5930/65595", "percentage": "9.04%", "elapsed_time": "6h 50m 6s", "remaining_time": "2d 20h 46m 14s"}
+{"loss": 0.17155764, "token_acc": 0.92363722, "grad_norm": 0.4153004, "learning_rate": 9.799e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241025, "epoch": 0.45239729, "global_step/max_steps": "5935/65595", "percentage": "9.05%", "elapsed_time": "6h 50m 21s", "remaining_time": "2d 20h 45m 3s"}
+{"loss": 0.21812258, "token_acc": 0.90911673, "grad_norm": 0.79154438, "learning_rate": 9.799e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241084, "epoch": 0.45277841, "global_step/max_steps": "5940/65595", "percentage": "9.06%", "elapsed_time": "6h 50m 36s", "remaining_time": "2d 20h 43m 42s"}
+{"loss": 0.14445682, "token_acc": 0.93453355, "grad_norm": 1.05265784, "learning_rate": 9.799e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241105, "epoch": 0.45315954, "global_step/max_steps": "5945/65595", "percentage": "9.06%", "elapsed_time": "6h 50m 55s", "remaining_time": "2d 20h 42m 59s"}
+{"loss": 0.2149745, "token_acc": 0.90491479, "grad_norm": 0.90206748, "learning_rate": 9.798e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24117, "epoch": 0.45354067, "global_step/max_steps": "5950/65595", "percentage": "9.07%", "elapsed_time": "6h 51m 9s", "remaining_time": "2d 20h 41m 33s"}
+{"loss": 0.1978754, "token_acc": 0.93267086, "grad_norm": 1.30542052, "learning_rate": 9.798e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24121, "epoch": 0.45392179, "global_step/max_steps": "5955/65595", "percentage": "9.08%", "elapsed_time": "6h 51m 25s", "remaining_time": "2d 20h 40m 30s"}
+{"loss": 0.23945987, "token_acc": 0.91380983, "grad_norm": 1.29704142, "learning_rate": 9.798e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241242, "epoch": 0.45430292, "global_step/max_steps": "5960/65595", "percentage": "9.09%", "elapsed_time": "6h 51m 43s", "remaining_time": "2d 20h 39m 37s"}
+{"loss": 0.25489969, "token_acc": 0.90670901, "grad_norm": 1.00655985, "learning_rate": 9.797e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241292, "epoch": 0.45468405, "global_step/max_steps": "5965/65595", "percentage": "9.09%", "elapsed_time": "6h 51m 58s", "remaining_time": "2d 20h 38m 25s"}
+{"loss": 0.23904088, "token_acc": 0.90772457, "grad_norm": 1.25213075, "learning_rate": 9.797e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241304, "epoch": 0.45506517, "global_step/max_steps": "5970/65595", "percentage": "9.10%", "elapsed_time": "6h 52m 18s", "remaining_time": "2d 20h 37m 52s"}
+{"loss": 0.18243277, "token_acc": 0.93200498, "grad_norm": 1.38535786, "learning_rate": 9.797e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241345, "epoch": 0.4554463, "global_step/max_steps": "5975/65595", "percentage": "9.11%", "elapsed_time": "6h 52m 34s", "remaining_time": "2d 20h 36m 50s"}
+{"loss": 0.18564955, "token_acc": 0.91917038, "grad_norm": 0.66206867, "learning_rate": 9.796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241397, "epoch": 0.45582743, "global_step/max_steps": "5980/65595", "percentage": "9.12%", "elapsed_time": "6h 52m 50s", "remaining_time": "2d 20h 35m 36s"}
+{"loss": 0.19147991, "token_acc": 0.92881252, "grad_norm": 1.25937772, "learning_rate": 9.796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241422, "epoch": 0.45620855, "global_step/max_steps": "5985/65595", "percentage": "9.12%", "elapsed_time": "6h 53m 8s", "remaining_time": "2d 20h 34m 49s"}
+{"loss": 0.20853407, "token_acc": 0.91320293, "grad_norm": 1.2812115, "learning_rate": 9.796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241494, "epoch": 0.45658968, "global_step/max_steps": "5990/65595", "percentage": "9.13%", "elapsed_time": "6h 53m 21s", "remaining_time": "2d 20h 33m 15s"}
+{"loss": 0.10849376, "token_acc": 0.9557425, "grad_norm": 1.37508821, "learning_rate": 9.795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241534, "epoch": 0.45697081, "global_step/max_steps": "5995/65595", "percentage": "9.14%", "elapsed_time": "6h 53m 38s", "remaining_time": "2d 20h 32m 14s"}
+{"loss": 0.18103621, "token_acc": 0.93236586, "grad_norm": 0.59865963, "learning_rate": 9.795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241551, "epoch": 0.45735193, "global_step/max_steps": "6000/65595", "percentage": "9.15%", "elapsed_time": "6h 53m 57s", "remaining_time": "2d 20h 31m 35s"}
+{"eval_loss": 0.13991156, "eval_token_acc": 0.93026023, "eval_runtime": 175.2782, "eval_samples_per_second": 3.024, "eval_steps_per_second": 3.024, "epoch": 0.45735193, "global_step/max_steps": "6000/65595", "percentage": "9.15%", "elapsed_time": "6h 56m 52s", "remaining_time": "2d 21h 0m 36s"}
+{"loss": 0.19344748, "token_acc": 0.93000732, "grad_norm": 1.88803291, "learning_rate": 9.795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239922, "epoch": 0.45773306, "global_step/max_steps": "6005/65595", "percentage": "9.15%", "elapsed_time": "6h 57m 6s", "remaining_time": "2d 20h 59m 10s"}
+{"loss": 0.20707922, "token_acc": 0.90638729, "grad_norm": 1.02715707, "learning_rate": 9.794e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239982, "epoch": 0.45811419, "global_step/max_steps": "6010/65595", "percentage": "9.16%", "elapsed_time": "6h 57m 21s", "remaining_time": "2d 20h 57m 47s"}
+{"loss": 0.1907244, "token_acc": 0.92387115, "grad_norm": 1.41799212, "learning_rate": 9.794e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240018, "epoch": 0.45849531, "global_step/max_steps": "6015/65595", "percentage": "9.17%", "elapsed_time": "6h 57m 38s", "remaining_time": "2d 20h 56m 48s"}
+{"loss": 0.23551996, "token_acc": 0.92223693, "grad_norm": 0.96399653, "learning_rate": 9.794e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240037, "epoch": 0.45887644, "global_step/max_steps": "6020/65595", "percentage": "9.18%", "elapsed_time": "6h 57m 57s", "remaining_time": "2d 20h 56m 9s"}
+{"loss": 0.17370551, "token_acc": 0.93966233, "grad_norm": 1.24613166, "learning_rate": 9.793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240091, "epoch": 0.45925757, "global_step/max_steps": "6025/65595", "percentage": "9.19%", "elapsed_time": "6h 58m 12s", "remaining_time": "2d 20h 54m 52s"}
+{"loss": 0.22397144, "token_acc": 0.9127339, "grad_norm": 0.97936898, "learning_rate": 9.793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240127, "epoch": 0.45963869, "global_step/max_steps": "6030/65595", "percentage": "9.19%", "elapsed_time": "6h 58m 29s", "remaining_time": "2d 20h 53m 54s"}
+{"loss": 0.18809986, "token_acc": 0.93666052, "grad_norm": 0.8239404, "learning_rate": 9.793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240142, "epoch": 0.46001982, "global_step/max_steps": "6035/65595", "percentage": "9.20%", "elapsed_time": "6h 58m 48s", "remaining_time": "2d 20h 53m 17s"}
+{"loss": 0.15295558, "token_acc": 0.93295161, "grad_norm": 1.06343317, "learning_rate": 9.792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240171, "epoch": 0.46040095, "global_step/max_steps": "6040/65595", "percentage": "9.21%", "elapsed_time": "6h 59m 6s", "remaining_time": "2d 20h 52m 27s"}
+{"loss": 0.13063252, "token_acc": 0.93818002, "grad_norm": 1.48555696, "learning_rate": 9.792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240217, "epoch": 0.46078207, "global_step/max_steps": "6045/65595", "percentage": "9.22%", "elapsed_time": "6h 59m 22s", "remaining_time": "2d 20h 51m 18s"}
+{"loss": 0.28245254, "token_acc": 0.89547813, "grad_norm": 2.46078801, "learning_rate": 9.792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240273, "epoch": 0.4611632, "global_step/max_steps": "6050/65595", "percentage": "9.22%", "elapsed_time": "6h 59m 37s", "remaining_time": "2d 20h 50m 0s"}
+{"loss": 0.18415912, "token_acc": 0.92960922, "grad_norm": 1.29649675, "learning_rate": 9.791e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240329, "epoch": 0.46154433, "global_step/max_steps": "6055/65595", "percentage": "9.23%", "elapsed_time": "6h 59m 52s", "remaining_time": "2d 20h 48m 41s"}
+{"loss": 0.17172136, "token_acc": 0.91677763, "grad_norm": 0.77173036, "learning_rate": 9.791e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240388, "epoch": 0.46192545, "global_step/max_steps": "6060/65595", "percentage": "9.24%", "elapsed_time": "7h 0m 6s", "remaining_time": "2d 20h 47m 19s"}
+{"loss": 0.14651262, "token_acc": 0.9446472, "grad_norm": 1.38840425, "learning_rate": 9.791e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240446, "epoch": 0.46230658, "global_step/max_steps": "6065/65595", "percentage": "9.25%", "elapsed_time": "7h 0m 21s", "remaining_time": "2d 20h 45m 59s"}
+{"loss": 0.15576456, "token_acc": 0.93609023, "grad_norm": 1.10502052, "learning_rate": 9.79e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240518, "epoch": 0.4626877, "global_step/max_steps": "6070/65595", "percentage": "9.25%", "elapsed_time": "7h 0m 35s", "remaining_time": "2d 20h 44m 25s"}
+{"loss": 0.13167005, "token_acc": 0.9384745, "grad_norm": 0.15740064, "learning_rate": 9.79e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240573, "epoch": 0.46306883, "global_step/max_steps": "6075/65595", "percentage": "9.26%", "elapsed_time": "7h 0m 50s", "remaining_time": "2d 20h 43m 7s"}
+{"loss": 0.16045811, "token_acc": 0.9302813, "grad_norm": 0.24867585, "learning_rate": 9.79e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240588, "epoch": 0.46344996, "global_step/max_steps": "6080/65595", "percentage": "9.27%", "elapsed_time": "7h 1m 9s", "remaining_time": "2d 20h 42m 30s"}
+{"loss": 0.13247041, "token_acc": 0.94139745, "grad_norm": 1.31209159, "learning_rate": 9.789e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240664, "epoch": 0.46383108, "global_step/max_steps": "6085/65595", "percentage": "9.28%", "elapsed_time": "7h 1m 21s", "remaining_time": "2d 20h 40m 52s"}
+{"loss": 0.20113955, "token_acc": 0.92647228, "grad_norm": 1.09141827, "learning_rate": 9.789e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240659, "epoch": 0.46421221, "global_step/max_steps": "6090/65595", "percentage": "9.28%", "elapsed_time": "7h 1m 43s", "remaining_time": "2d 20h 40m 37s"}
+{"loss": 0.19813256, "token_acc": 0.92123812, "grad_norm": 0.94288349, "learning_rate": 9.788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240686, "epoch": 0.46459334, "global_step/max_steps": "6095/65595", "percentage": "9.29%", "elapsed_time": "7h 2m 1s", "remaining_time": "2d 20h 39m 47s"}
+{"loss": 0.18409272, "token_acc": 0.92774566, "grad_norm": 1.25743556, "learning_rate": 9.788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240714, "epoch": 0.46497446, "global_step/max_steps": "6100/65595", "percentage": "9.30%", "elapsed_time": "7h 2m 19s", "remaining_time": "2d 20h 38m 58s"}
+{"loss": 0.22618136, "token_acc": 0.89605481, "grad_norm": 1.00525653, "learning_rate": 9.788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240772, "epoch": 0.46535559, "global_step/max_steps": "6105/65595", "percentage": "9.31%", "elapsed_time": "7h 2m 33s", "remaining_time": "2d 20h 37m 38s"}
+{"loss": 0.20226946, "token_acc": 0.93377384, "grad_norm": 0.70518881, "learning_rate": 9.787e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240799, "epoch": 0.46573672, "global_step/max_steps": "6110/65595", "percentage": "9.31%", "elapsed_time": "7h 2m 51s", "remaining_time": "2d 20h 36m 49s"}
+{"loss": 0.15390096, "token_acc": 0.93136148, "grad_norm": 0.55941916, "learning_rate": 9.787e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240861, "epoch": 0.46611784, "global_step/max_steps": "6115/65595", "percentage": "9.32%", "elapsed_time": "7h 3m 5s", "remaining_time": "2d 20h 35m 25s"}
+{"loss": 0.2082515, "token_acc": 0.91876348, "grad_norm": 1.06327689, "learning_rate": 9.787e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240888, "epoch": 0.46649897, "global_step/max_steps": "6120/65595", "percentage": "9.33%", "elapsed_time": "7h 3m 23s", "remaining_time": "2d 20h 34m 36s"}
+{"loss": 0.21178141, "token_acc": 0.92797606, "grad_norm": 0.57003731, "learning_rate": 9.786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240936, "epoch": 0.4668801, "global_step/max_steps": "6125/65595", "percentage": "9.34%", "elapsed_time": "7h 3m 39s", "remaining_time": "2d 20h 33m 27s"}
+{"loss": 0.17590251, "token_acc": 0.92608311, "grad_norm": 0.57499731, "learning_rate": 9.786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240981, "epoch": 0.46726122, "global_step/max_steps": "6130/65595", "percentage": "9.35%", "elapsed_time": "7h 3m 55s", "remaining_time": "2d 20h 32m 20s"}
+{"loss": 0.1709621, "token_acc": 0.93776412, "grad_norm": 1.78145432, "learning_rate": 9.786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241046, "epoch": 0.46764235, "global_step/max_steps": "6135/65595", "percentage": "9.35%", "elapsed_time": "7h 4m 9s", "remaining_time": "2d 20h 30m 53s"}
+{"loss": 0.18834008, "token_acc": 0.94134964, "grad_norm": 1.10553253, "learning_rate": 9.785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241098, "epoch": 0.46802348, "global_step/max_steps": "6140/65595", "percentage": "9.36%", "elapsed_time": "7h 4m 24s", "remaining_time": "2d 20h 29m 39s"}
+{"loss": 0.2059963, "token_acc": 0.90431669, "grad_norm": 0.19333412, "learning_rate": 9.785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241143, "epoch": 0.4684046, "global_step/max_steps": "6145/65595", "percentage": "9.37%", "elapsed_time": "7h 4m 40s", "remaining_time": "2d 20h 28m 32s"}
+{"loss": 0.10099044, "token_acc": 0.93671923, "grad_norm": 0.50263804, "learning_rate": 9.785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241174, "epoch": 0.46878573, "global_step/max_steps": "6150/65595", "percentage": "9.38%", "elapsed_time": "7h 4m 58s", "remaining_time": "2d 20h 27m 40s"}
+{"loss": 0.19954069, "token_acc": 0.91766234, "grad_norm": 1.2981838, "learning_rate": 9.784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241226, "epoch": 0.46916686, "global_step/max_steps": "6155/65595", "percentage": "9.38%", "elapsed_time": "7h 5m 13s", "remaining_time": "2d 20h 26m 26s"}
+{"loss": 0.18137485, "token_acc": 0.9456163, "grad_norm": 1.27677286, "learning_rate": 9.784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241246, "epoch": 0.46954798, "global_step/max_steps": "6160/65595", "percentage": "9.39%", "elapsed_time": "7h 5m 31s", "remaining_time": "2d 20h 25m 45s"}
+{"loss": 0.15305195, "token_acc": 0.9456154, "grad_norm": 0.73847377, "learning_rate": 9.784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2413, "epoch": 0.46992911, "global_step/max_steps": "6165/65595", "percentage": "9.40%", "elapsed_time": "7h 5m 46s", "remaining_time": "2d 20h 24m 29s"}
+{"loss": 0.20192952, "token_acc": 0.92900093, "grad_norm": 1.12441754, "learning_rate": 9.783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241346, "epoch": 0.47031024, "global_step/max_steps": "6170/65595", "percentage": "9.41%", "elapsed_time": "7h 6m 2s", "remaining_time": "2d 20h 23m 21s"}
+{"loss": 0.16360985, "token_acc": 0.93809058, "grad_norm": 0.76201129, "learning_rate": 9.783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241377, "epoch": 0.47069136, "global_step/max_steps": "6175/65595", "percentage": "9.41%", "elapsed_time": "7h 6m 20s", "remaining_time": "2d 20h 22m 29s"}
+{"loss": 0.17476405, "token_acc": 0.92487363, "grad_norm": 1.88181758, "learning_rate": 9.783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241401, "epoch": 0.47107249, "global_step/max_steps": "6180/65595", "percentage": "9.42%", "elapsed_time": "7h 6m 38s", "remaining_time": "2d 20h 21m 44s"}
+{"loss": 0.1421543, "token_acc": 0.93679308, "grad_norm": 0.52141029, "learning_rate": 9.782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241457, "epoch": 0.47145362, "global_step/max_steps": "6185/65595", "percentage": "9.43%", "elapsed_time": "7h 6m 53s", "remaining_time": "2d 20h 20m 26s"}
+{"loss": 0.16018153, "token_acc": 0.93600167, "grad_norm": 1.21781552, "learning_rate": 9.782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241499, "epoch": 0.47183474, "global_step/max_steps": "6190/65595", "percentage": "9.44%", "elapsed_time": "7h 7m 9s", "remaining_time": "2d 20h 19m 23s"}
+{"loss": 0.18035543, "token_acc": 0.93044244, "grad_norm": 1.47563922, "learning_rate": 9.782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241546, "epoch": 0.47221587, "global_step/max_steps": "6195/65595", "percentage": "9.44%", "elapsed_time": "7h 7m 25s", "remaining_time": "2d 20h 18m 14s"}
+{"loss": 0.2081522, "token_acc": 0.91647272, "grad_norm": 0.89196014, "learning_rate": 9.781e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241592, "epoch": 0.472597, "global_step/max_steps": "6200/65595", "percentage": "9.45%", "elapsed_time": "7h 7m 40s", "remaining_time": "2d 20h 17m 7s"}
+{"eval_loss": 0.14363897, "eval_token_acc": 0.92986868, "eval_runtime": 177.2465, "eval_samples_per_second": 2.99, "eval_steps_per_second": 2.99, "epoch": 0.472597, "global_step/max_steps": "6200/65595", "percentage": "9.45%", "elapsed_time": "7h 10m 38s", "remaining_time": "2d 20h 45m 25s"}
+{"loss": 0.19467654, "token_acc": 0.92977434, "grad_norm": 0.92858177, "learning_rate": 9.781e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239965, "epoch": 0.47297812, "global_step/max_steps": "6205/65595", "percentage": "9.46%", "elapsed_time": "7h 10m 55s", "remaining_time": "2d 20h 44m 32s"}
+{"loss": 0.21105113, "token_acc": 0.93356096, "grad_norm": 0.57685065, "learning_rate": 9.78e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239989, "epoch": 0.47335925, "global_step/max_steps": "6210/65595", "percentage": "9.47%", "elapsed_time": "7h 11m 13s", "remaining_time": "2d 20h 43m 47s"}
+{"loss": 0.18445327, "token_acc": 0.93108504, "grad_norm": 1.33300507, "learning_rate": 9.78e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240016, "epoch": 0.47374038, "global_step/max_steps": "6215/65595", "percentage": "9.47%", "elapsed_time": "7h 11m 31s", "remaining_time": "2d 20h 42m 59s"}
+{"loss": 0.21979308, "token_acc": 0.92307692, "grad_norm": 0.84766799, "learning_rate": 9.78e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240051, "epoch": 0.4741215, "global_step/max_steps": "6220/65595", "percentage": "9.48%", "elapsed_time": "7h 11m 48s", "remaining_time": "2d 20h 42m 2s"}
+{"loss": 0.16875657, "token_acc": 0.93889288, "grad_norm": 0.82837844, "learning_rate": 9.779e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240108, "epoch": 0.47450263, "global_step/max_steps": "6225/65595", "percentage": "9.49%", "elapsed_time": "7h 12m 3s", "remaining_time": "2d 20h 40m 42s"}
+{"loss": 0.17264634, "token_acc": 0.92287234, "grad_norm": 1.249982, "learning_rate": 9.779e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240169, "epoch": 0.47488376, "global_step/max_steps": "6230/65595", "percentage": "9.50%", "elapsed_time": "7h 12m 17s", "remaining_time": "2d 20h 39m 19s"}
+{"loss": 0.16222415, "token_acc": 0.94029389, "grad_norm": 0.8028971, "learning_rate": 9.779e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2402, "epoch": 0.47526488, "global_step/max_steps": "6235/65595", "percentage": "9.51%", "elapsed_time": "7h 12m 35s", "remaining_time": "2d 20h 38m 25s"}
+{"loss": 0.18411367, "token_acc": 0.91380789, "grad_norm": 0.86111271, "learning_rate": 9.778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240265, "epoch": 0.47564601, "global_step/max_steps": "6240/65595", "percentage": "9.51%", "elapsed_time": "7h 12m 49s", "remaining_time": "2d 20h 36m 58s"}
+{"loss": 0.18305173, "token_acc": 0.91326105, "grad_norm": 1.07047498, "learning_rate": 9.778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240314, "epoch": 0.47602714, "global_step/max_steps": "6245/65595", "percentage": "9.52%", "elapsed_time": "7h 13m 4s", "remaining_time": "2d 20h 35m 46s"}
+{"loss": 0.12964816, "token_acc": 0.94802495, "grad_norm": 1.04827261, "learning_rate": 9.778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240318, "epoch": 0.47640826, "global_step/max_steps": "6250/65595", "percentage": "9.53%", "elapsed_time": "7h 13m 24s", "remaining_time": "2d 20h 35m 22s"}
+{"loss": 0.20174243, "token_acc": 0.93076034, "grad_norm": 0.94405431, "learning_rate": 9.777e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240351, "epoch": 0.47678939, "global_step/max_steps": "6255/65595", "percentage": "9.54%", "elapsed_time": "7h 13m 42s", "remaining_time": "2d 20h 34m 28s"}
+{"loss": 0.19633069, "token_acc": 0.92440605, "grad_norm": 0.86392689, "learning_rate": 9.777e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240371, "epoch": 0.47717052, "global_step/max_steps": "6260/65595", "percentage": "9.54%", "elapsed_time": "7h 14m 0s", "remaining_time": "2d 20h 33m 46s"}
+{"loss": 0.23889294, "token_acc": 0.90049587, "grad_norm": 0.98657042, "learning_rate": 9.777e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240432, "epoch": 0.47755164, "global_step/max_steps": "6265/65595", "percentage": "9.55%", "elapsed_time": "7h 14m 15s", "remaining_time": "2d 20h 32m 23s"}
+{"loss": 0.14758171, "token_acc": 0.95215445, "grad_norm": 0.77431339, "learning_rate": 9.776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240493, "epoch": 0.47793277, "global_step/max_steps": "6270/65595", "percentage": "9.56%", "elapsed_time": "7h 14m 29s", "remaining_time": "2d 20h 30m 59s"}
+{"loss": 0.12543012, "token_acc": 0.95014245, "grad_norm": 0.95382589, "learning_rate": 9.776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240541, "epoch": 0.4783139, "global_step/max_steps": "6275/65595", "percentage": "9.57%", "elapsed_time": "7h 14m 44s", "remaining_time": "2d 20h 29m 49s"}
+{"loss": 0.13363256, "token_acc": 0.92998551, "grad_norm": 0.65048444, "learning_rate": 9.776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240597, "epoch": 0.47869502, "global_step/max_steps": "6280/65595", "percentage": "9.57%", "elapsed_time": "7h 14m 59s", "remaining_time": "2d 20h 28m 31s"}
+{"loss": 0.18660924, "token_acc": 0.92921622, "grad_norm": 0.86945224, "learning_rate": 9.775e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240639, "epoch": 0.47907615, "global_step/max_steps": "6285/65595", "percentage": "9.58%", "elapsed_time": "7h 15m 15s", "remaining_time": "2d 20h 27m 28s"}
+{"loss": 0.16778393, "token_acc": 0.93157895, "grad_norm": 0.43452001, "learning_rate": 9.775e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240689, "epoch": 0.47945728, "global_step/max_steps": "6290/65595", "percentage": "9.59%", "elapsed_time": "7h 15m 31s", "remaining_time": "2d 20h 26m 16s"}
+{"loss": 0.17738787, "token_acc": 0.93270108, "grad_norm": 0.98313338, "learning_rate": 9.774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240724, "epoch": 0.4798384, "global_step/max_steps": "6295/65595", "percentage": "9.60%", "elapsed_time": "7h 15m 48s", "remaining_time": "2d 20h 25m 19s"}
+{"loss": 0.17861173, "token_acc": 0.9323705, "grad_norm": 1.36767137, "learning_rate": 9.774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240743, "epoch": 0.48021953, "global_step/max_steps": "6300/65595", "percentage": "9.60%", "elapsed_time": "7h 16m 6s", "remaining_time": "2d 20h 24m 39s"}
+{"loss": 0.24651015, "token_acc": 0.90552381, "grad_norm": 0.86456108, "learning_rate": 9.774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240785, "epoch": 0.48060066, "global_step/max_steps": "6305/65595", "percentage": "9.61%", "elapsed_time": "7h 16m 22s", "remaining_time": "2d 20h 23m 34s"}
+{"loss": 0.15430069, "token_acc": 0.94432521, "grad_norm": 0.52593356, "learning_rate": 9.773e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240803, "epoch": 0.48098178, "global_step/max_steps": "6310/65595", "percentage": "9.62%", "elapsed_time": "7h 16m 41s", "remaining_time": "2d 20h 22m 56s"}
+{"loss": 0.22492051, "token_acc": 0.90245063, "grad_norm": 1.25533652, "learning_rate": 9.773e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240853, "epoch": 0.48136291, "global_step/max_steps": "6315/65595", "percentage": "9.63%", "elapsed_time": "7h 16m 57s", "remaining_time": "2d 20h 21m 44s"}
+{"loss": 0.22755539, "token_acc": 0.90745501, "grad_norm": 1.55498409, "learning_rate": 9.773e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240884, "epoch": 0.48174404, "global_step/max_steps": "6320/65595", "percentage": "9.63%", "elapsed_time": "7h 17m 14s", "remaining_time": "2d 20h 20m 52s"}
+{"loss": 0.18742154, "token_acc": 0.93306417, "grad_norm": 0.79061764, "learning_rate": 9.772e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240935, "epoch": 0.48212516, "global_step/max_steps": "6325/65595", "percentage": "9.64%", "elapsed_time": "7h 17m 29s", "remaining_time": "2d 20h 19m 39s"}
+{"loss": 0.18241484, "token_acc": 0.93102988, "grad_norm": 0.80996597, "learning_rate": 9.772e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240962, "epoch": 0.48250629, "global_step/max_steps": "6330/65595", "percentage": "9.65%", "elapsed_time": "7h 17m 47s", "remaining_time": "2d 20h 18m 50s"}
+{"loss": 0.13738546, "token_acc": 0.94606288, "grad_norm": 1.01716542, "learning_rate": 9.772e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241019, "epoch": 0.48288742, "global_step/max_steps": "6335/65595", "percentage": "9.66%", "elapsed_time": "7h 18m 2s", "remaining_time": "2d 20h 17m 31s"}
+{"loss": 0.19574858, "token_acc": 0.91785415, "grad_norm": 0.87495124, "learning_rate": 9.771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241055, "epoch": 0.48326854, "global_step/max_steps": "6340/65595", "percentage": "9.67%", "elapsed_time": "7h 18m 18s", "remaining_time": "2d 20h 16m 34s"}
+{"loss": 0.16193156, "token_acc": 0.93091733, "grad_norm": 0.97021675, "learning_rate": 9.771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241106, "epoch": 0.48364967, "global_step/max_steps": "6345/65595", "percentage": "9.67%", "elapsed_time": "7h 18m 33s", "remaining_time": "2d 20h 15m 21s"}
+{"loss": 0.18963895, "token_acc": 0.92792035, "grad_norm": 0.94290584, "learning_rate": 9.771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241133, "epoch": 0.4840308, "global_step/max_steps": "6350/65595", "percentage": "9.68%", "elapsed_time": "7h 18m 51s", "remaining_time": "2d 20h 14m 33s"}
+{"loss": 0.19635594, "token_acc": 0.92103721, "grad_norm": 0.67039913, "learning_rate": 9.77e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241174, "epoch": 0.48441192, "global_step/max_steps": "6355/65595", "percentage": "9.69%", "elapsed_time": "7h 19m 8s", "remaining_time": "2d 20h 13m 31s"}
+{"loss": 0.18587945, "token_acc": 0.91986644, "grad_norm": 0.94935316, "learning_rate": 9.77e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241234, "epoch": 0.48479305, "global_step/max_steps": "6360/65595", "percentage": "9.70%", "elapsed_time": "7h 19m 22s", "remaining_time": "2d 20h 12m 9s"}
+{"loss": 0.17140391, "token_acc": 0.92242919, "grad_norm": 0.89986718, "learning_rate": 9.769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24128, "epoch": 0.48517417, "global_step/max_steps": "6365/65595", "percentage": "9.70%", "elapsed_time": "7h 19m 37s", "remaining_time": "2d 20h 11m 2s"}
+{"loss": 0.16919421, "token_acc": 0.94280675, "grad_norm": 0.64168012, "learning_rate": 9.769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241335, "epoch": 0.4855553, "global_step/max_steps": "6370/65595", "percentage": "9.71%", "elapsed_time": "7h 19m 52s", "remaining_time": "2d 20h 9m 45s"}
+{"loss": 0.19004165, "token_acc": 0.92486445, "grad_norm": 2.26044321, "learning_rate": 9.769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241391, "epoch": 0.48593643, "global_step/max_steps": "6375/65595", "percentage": "9.72%", "elapsed_time": "7h 20m 7s", "remaining_time": "2d 20h 8m 27s"}
+{"loss": 0.11925366, "token_acc": 0.95220588, "grad_norm": 0.91891581, "learning_rate": 9.768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241458, "epoch": 0.48631755, "global_step/max_steps": "6380/65595", "percentage": "9.73%", "elapsed_time": "7h 20m 20s", "remaining_time": "2d 20h 6m 58s"}
+{"loss": 0.21883459, "token_acc": 0.89393542, "grad_norm": 1.02117836, "learning_rate": 9.768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241508, "epoch": 0.48669868, "global_step/max_steps": "6385/65595", "percentage": "9.73%", "elapsed_time": "7h 20m 35s", "remaining_time": "2d 20h 5m 47s"}
+{"loss": 0.13959337, "token_acc": 0.9345101, "grad_norm": 0.69618523, "learning_rate": 9.768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241515, "epoch": 0.48707981, "global_step/max_steps": "6390/65595", "percentage": "9.74%", "elapsed_time": "7h 20m 55s", "remaining_time": "2d 20h 5m 19s"}
+{"loss": 0.15481576, "token_acc": 0.95042493, "grad_norm": 1.13938749, "learning_rate": 9.767e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241542, "epoch": 0.48746093, "global_step/max_steps": "6395/65595", "percentage": "9.75%", "elapsed_time": "7h 21m 13s", "remaining_time": "2d 20h 4m 31s"}
+{"loss": 0.18616145, "token_acc": 0.93490481, "grad_norm": 0.78747594, "learning_rate": 9.767e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241567, "epoch": 0.48784206, "global_step/max_steps": "6400/65595", "percentage": "9.76%", "elapsed_time": "7h 21m 31s", "remaining_time": "2d 20h 3m 45s"}
+{"eval_loss": 0.13945542, "eval_token_acc": 0.93074212, "eval_runtime": 195.3227, "eval_samples_per_second": 2.713, "eval_steps_per_second": 2.713, "epoch": 0.48784206, "global_step/max_steps": "6400/65595", "percentage": "9.76%", "elapsed_time": "7h 24m 46s", "remaining_time": "2d 20h 33m 52s"}
+{"loss": 0.20621459, "token_acc": 0.93010109, "grad_norm": 1.2039206, "learning_rate": 9.767e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239814, "epoch": 0.48822319, "global_step/max_steps": "6405/65595", "percentage": "9.76%", "elapsed_time": "7h 25m 5s", "remaining_time": "2d 20h 33m 15s"}
+{"loss": 0.17991364, "token_acc": 0.92760059, "grad_norm": 0.98453808, "learning_rate": 9.766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239833, "epoch": 0.48860431, "global_step/max_steps": "6410/65595", "percentage": "9.77%", "elapsed_time": "7h 25m 24s", "remaining_time": "2d 20h 32m 35s"}
+{"loss": 0.14771296, "token_acc": 0.94360253, "grad_norm": 1.24817026, "learning_rate": 9.766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239864, "epoch": 0.48898544, "global_step/max_steps": "6415/65595", "percentage": "9.78%", "elapsed_time": "7h 25m 42s", "remaining_time": "2d 20h 31m 42s"}
+{"loss": 0.23156981, "token_acc": 0.90704084, "grad_norm": 1.39708173, "learning_rate": 9.765e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239917, "epoch": 0.48936657, "global_step/max_steps": "6420/65595", "percentage": "9.79%", "elapsed_time": "7h 25m 57s", "remaining_time": "2d 20h 30m 27s"}
+{"loss": 0.20540843, "token_acc": 0.91637686, "grad_norm": 0.73241818, "learning_rate": 9.765e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239952, "epoch": 0.48974769, "global_step/max_steps": "6425/65595", "percentage": "9.79%", "elapsed_time": "7h 26m 13s", "remaining_time": "2d 20h 29m 29s"}
+{"loss": 0.21540656, "token_acc": 0.90535763, "grad_norm": 0.77808499, "learning_rate": 9.765e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240011, "epoch": 0.49012882, "global_step/max_steps": "6430/65595", "percentage": "9.80%", "elapsed_time": "7h 26m 28s", "remaining_time": "2d 20h 28m 8s"}
+{"loss": 0.17728505, "token_acc": 0.92045999, "grad_norm": 0.87401134, "learning_rate": 9.764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240062, "epoch": 0.49050995, "global_step/max_steps": "6435/65595", "percentage": "9.81%", "elapsed_time": "7h 26m 43s", "remaining_time": "2d 20h 26m 55s"}
+{"loss": 0.21341395, "token_acc": 0.92032086, "grad_norm": 0.4400931, "learning_rate": 9.764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240089, "epoch": 0.49089107, "global_step/max_steps": "6440/65595", "percentage": "9.82%", "elapsed_time": "7h 27m 1s", "remaining_time": "2d 20h 26m 7s"}
+{"loss": 0.15246519, "token_acc": 0.93329177, "grad_norm": 1.27251697, "learning_rate": 9.764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240149, "epoch": 0.4912722, "global_step/max_steps": "6445/65595", "percentage": "9.83%", "elapsed_time": "7h 27m 15s", "remaining_time": "2d 20h 24m 44s"}
+{"loss": 0.21495857, "token_acc": 0.91954552, "grad_norm": 0.80791414, "learning_rate": 9.763e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240178, "epoch": 0.49165333, "global_step/max_steps": "6450/65595", "percentage": "9.83%", "elapsed_time": "7h 27m 32s", "remaining_time": "2d 20h 23m 53s"}
+{"loss": 0.12821616, "token_acc": 0.9499354, "grad_norm": 1.58167624, "learning_rate": 9.763e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240233, "epoch": 0.49203445, "global_step/max_steps": "6455/65595", "percentage": "9.84%", "elapsed_time": "7h 27m 47s", "remaining_time": "2d 20h 22m 36s"}
+{"loss": 0.18068366, "token_acc": 0.93223744, "grad_norm": 1.63508606, "learning_rate": 9.763e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240277, "epoch": 0.49241558, "global_step/max_steps": "6460/65595", "percentage": "9.85%", "elapsed_time": "7h 28m 3s", "remaining_time": "2d 20h 21m 31s"}
+{"loss": 0.24361398, "token_acc": 0.91107198, "grad_norm": 0.6775111, "learning_rate": 9.762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240286, "epoch": 0.49279671, "global_step/max_steps": "6465/65595", "percentage": "9.86%", "elapsed_time": "7h 28m 23s", "remaining_time": "2d 20h 21m 0s"}
+{"loss": 0.15374699, "token_acc": 0.93572874, "grad_norm": 0.85107136, "learning_rate": 9.762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240325, "epoch": 0.49317783, "global_step/max_steps": "6470/65595", "percentage": "9.86%", "elapsed_time": "7h 28m 39s", "remaining_time": "2d 20h 20m 0s"}
+{"loss": 0.18458217, "token_acc": 0.93248842, "grad_norm": 0.66018432, "learning_rate": 9.761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240376, "epoch": 0.49355896, "global_step/max_steps": "6475/65595", "percentage": "9.87%", "elapsed_time": "7h 28m 54s", "remaining_time": "2d 20h 18m 47s"}
+{"loss": 0.2158917, "token_acc": 0.91564001, "grad_norm": 0.88344216, "learning_rate": 9.761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24043, "epoch": 0.49394009, "global_step/max_steps": "6480/65595", "percentage": "9.88%", "elapsed_time": "7h 29m 9s", "remaining_time": "2d 20h 17m 31s"}
+{"loss": 0.15068576, "token_acc": 0.9489429, "grad_norm": 1.07380819, "learning_rate": 9.761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240462, "epoch": 0.49432121, "global_step/max_steps": "6485/65595", "percentage": "9.89%", "elapsed_time": "7h 29m 26s", "remaining_time": "2d 20h 16m 38s"}
+{"loss": 0.17301469, "token_acc": 0.92831763, "grad_norm": 0.59354281, "learning_rate": 9.76e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2405, "epoch": 0.49470234, "global_step/max_steps": "6490/65595", "percentage": "9.89%", "elapsed_time": "7h 29m 43s", "remaining_time": "2d 20h 15m 38s"}
+{"loss": 0.11099461, "token_acc": 0.94216134, "grad_norm": 1.08518577, "learning_rate": 9.76e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240561, "epoch": 0.49508347, "global_step/max_steps": "6495/65595", "percentage": "9.90%", "elapsed_time": "7h 29m 57s", "remaining_time": "2d 20h 14m 15s"}
+{"loss": 0.21786072, "token_acc": 0.90784691, "grad_norm": 1.2804749, "learning_rate": 9.76e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240601, "epoch": 0.49546459, "global_step/max_steps": "6500/65595", "percentage": "9.91%", "elapsed_time": "7h 30m 13s", "remaining_time": "2d 20h 13m 13s"}
+{"loss": 0.20640697, "token_acc": 0.938498, "grad_norm": 0.64609313, "learning_rate": 9.759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240594, "epoch": 0.49584572, "global_step/max_steps": "6505/65595", "percentage": "9.92%", "elapsed_time": "7h 30m 35s", "remaining_time": "2d 20h 13m 0s"}
+{"loss": 0.19882112, "token_acc": 0.91851852, "grad_norm": 1.81079996, "learning_rate": 9.759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240649, "epoch": 0.49622685, "global_step/max_steps": "6510/65595", "percentage": "9.92%", "elapsed_time": "7h 30m 49s", "remaining_time": "2d 20h 11m 43s"}
+{"loss": 0.20852485, "token_acc": 0.92299987, "grad_norm": 0.58526433, "learning_rate": 9.759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240678, "epoch": 0.49660797, "global_step/max_steps": "6515/65595", "percentage": "9.93%", "elapsed_time": "7h 31m 7s", "remaining_time": "2d 20h 10m 52s"}
+{"loss": 0.14101856, "token_acc": 0.93973941, "grad_norm": 1.00154817, "learning_rate": 9.758e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240718, "epoch": 0.4969891, "global_step/max_steps": "6520/65595", "percentage": "9.94%", "elapsed_time": "7h 31m 23s", "remaining_time": "2d 20h 9m 51s"}
+{"loss": 0.13665893, "token_acc": 0.94551062, "grad_norm": 0.68670684, "learning_rate": 9.758e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240782, "epoch": 0.49737023, "global_step/max_steps": "6525/65595", "percentage": "9.95%", "elapsed_time": "7h 31m 36s", "remaining_time": "2d 20h 8m 25s"}
+{"loss": 0.15103321, "token_acc": 0.9488117, "grad_norm": 0.86119556, "learning_rate": 9.757e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240844, "epoch": 0.49775135, "global_step/max_steps": "6530/65595", "percentage": "9.96%", "elapsed_time": "7h 31m 50s", "remaining_time": "2d 20h 7m 1s"}
+{"loss": 0.15365603, "token_acc": 0.93837863, "grad_norm": 1.36109281, "learning_rate": 9.757e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240887, "epoch": 0.49813248, "global_step/max_steps": "6535/65595", "percentage": "9.96%", "elapsed_time": "7h 32m 6s", "remaining_time": "2d 20h 5m 56s"}
+{"loss": 0.16389427, "token_acc": 0.93678647, "grad_norm": 1.13932896, "learning_rate": 9.757e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240927, "epoch": 0.49851361, "global_step/max_steps": "6540/65595", "percentage": "9.97%", "elapsed_time": "7h 32m 22s", "remaining_time": "2d 20h 4m 55s"}
+{"loss": 0.1960912, "token_acc": 0.91290494, "grad_norm": 1.06389701, "learning_rate": 9.756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240961, "epoch": 0.49889473, "global_step/max_steps": "6545/65595", "percentage": "9.98%", "elapsed_time": "7h 32m 39s", "remaining_time": "2d 20h 4m 0s"}
+{"loss": 0.19907, "token_acc": 0.92231958, "grad_norm": 0.74600381, "learning_rate": 9.756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240978, "epoch": 0.49927586, "global_step/max_steps": "6550/65595", "percentage": "9.99%", "elapsed_time": "7h 32m 58s", "remaining_time": "2d 20h 3m 21s"}
+{"loss": 0.24105854, "token_acc": 0.89637827, "grad_norm": 1.9872098, "learning_rate": 9.756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241038, "epoch": 0.49965699, "global_step/max_steps": "6555/65595", "percentage": "9.99%", "elapsed_time": "7h 33m 12s", "remaining_time": "2d 20h 2m 0s"}
+{"loss": 0.17727997, "token_acc": 0.91865858, "grad_norm": 1.10225797, "learning_rate": 9.755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241094, "epoch": 0.50003811, "global_step/max_steps": "6560/65595", "percentage": "10.00%", "elapsed_time": "7h 33m 27s", "remaining_time": "2d 20h 0m 43s"}
+{"loss": 0.14328942, "token_acc": 0.93328717, "grad_norm": 0.71792424, "learning_rate": 9.755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241136, "epoch": 0.50041924, "global_step/max_steps": "6565/65595", "percentage": "10.01%", "elapsed_time": "7h 33m 43s", "remaining_time": "2d 19h 59m 39s"}
+{"loss": 0.16202277, "token_acc": 0.91890823, "grad_norm": 0.75686389, "learning_rate": 9.755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241171, "epoch": 0.50080037, "global_step/max_steps": "6570/65595", "percentage": "10.02%", "elapsed_time": "7h 33m 59s", "remaining_time": "2d 19h 58m 43s"}
+{"loss": 0.22362132, "token_acc": 0.90056589, "grad_norm": 1.93640625, "learning_rate": 9.754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241235, "epoch": 0.50118149, "global_step/max_steps": "6575/65595", "percentage": "10.02%", "elapsed_time": "7h 34m 13s", "remaining_time": "2d 19h 57m 17s"}
+{"loss": 0.14316642, "token_acc": 0.94973409, "grad_norm": 0.87211657, "learning_rate": 9.754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241272, "epoch": 0.50156262, "global_step/max_steps": "6580/65595", "percentage": "10.03%", "elapsed_time": "7h 34m 29s", "remaining_time": "2d 19h 56m 19s"}
+{"loss": 0.19342904, "token_acc": 0.92507346, "grad_norm": 0.7225768, "learning_rate": 9.753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241291, "epoch": 0.50194375, "global_step/max_steps": "6585/65595", "percentage": "10.04%", "elapsed_time": "7h 34m 48s", "remaining_time": "2d 19h 55m 39s"}
+{"loss": 0.22300024, "token_acc": 0.92056583, "grad_norm": 0.88781697, "learning_rate": 9.753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241335, "epoch": 0.50232487, "global_step/max_steps": "6590/65595", "percentage": "10.05%", "elapsed_time": "7h 35m 4s", "remaining_time": "2d 19h 54m 34s"}
+{"loss": 0.11096168, "token_acc": 0.95319604, "grad_norm": 0.12067374, "learning_rate": 9.753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241388, "epoch": 0.502706, "global_step/max_steps": "6595/65595", "percentage": "10.05%", "elapsed_time": "7h 35m 18s", "remaining_time": "2d 19h 53m 19s"}
+{"loss": 0.21343884, "token_acc": 0.92998761, "grad_norm": 1.01871586, "learning_rate": 9.752e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241455, "epoch": 0.50308713, "global_step/max_steps": "6600/65595", "percentage": "10.06%", "elapsed_time": "7h 35m 32s", "remaining_time": "2d 19h 51m 51s"}
+{"eval_loss": 0.14037812, "eval_token_acc": 0.93007951, "eval_runtime": 176.6244, "eval_samples_per_second": 3.001, "eval_steps_per_second": 3.001, "epoch": 0.50308713, "global_step/max_steps": "6600/65595", "percentage": "10.06%", "elapsed_time": "7h 38m 28s", "remaining_time": "2d 20h 18m 9s"}
+{"loss": 0.19893765, "token_acc": 0.92983012, "grad_norm": 1.27301407, "learning_rate": 9.752e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239958, "epoch": 0.50346825, "global_step/max_steps": "6605/65595", "percentage": "10.07%", "elapsed_time": "7h 38m 43s", "remaining_time": "2d 20h 16m 54s"}
+{"loss": 0.16506953, "token_acc": 0.91101521, "grad_norm": 0.82149786, "learning_rate": 9.752e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240002, "epoch": 0.50384938, "global_step/max_steps": "6610/65595", "percentage": "10.08%", "elapsed_time": "7h 38m 59s", "remaining_time": "2d 20h 15m 49s"}
+{"loss": 0.0896154, "token_acc": 0.960193, "grad_norm": 0.63128608, "learning_rate": 9.751e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240073, "epoch": 0.50423051, "global_step/max_steps": "6615/65595", "percentage": "10.08%", "elapsed_time": "7h 39m 11s", "remaining_time": "2d 20h 14m 15s"}
+{"loss": 0.21457579, "token_acc": 0.90622583, "grad_norm": 0.39522645, "learning_rate": 9.751e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240113, "epoch": 0.50461163, "global_step/max_steps": "6620/65595", "percentage": "10.09%", "elapsed_time": "7h 39m 28s", "remaining_time": "2d 20h 13m 13s"}
+{"loss": 0.14984386, "token_acc": 0.94852057, "grad_norm": 1.21085024, "learning_rate": 9.75e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240155, "epoch": 0.50499276, "global_step/max_steps": "6625/65595", "percentage": "10.10%", "elapsed_time": "7h 39m 44s", "remaining_time": "2d 20h 12m 10s"}
+{"loss": 0.22041395, "token_acc": 0.9115543, "grad_norm": 1.06877339, "learning_rate": 9.75e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240204, "epoch": 0.50537389, "global_step/max_steps": "6630/65595", "percentage": "10.11%", "elapsed_time": "7h 39m 59s", "remaining_time": "2d 20h 10m 58s"}
+{"loss": 0.21006532, "token_acc": 0.92048868, "grad_norm": 1.06866956, "learning_rate": 9.75e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240253, "epoch": 0.50575501, "global_step/max_steps": "6635/65595", "percentage": "10.12%", "elapsed_time": "7h 40m 14s", "remaining_time": "2d 20h 9m 47s"}
+{"loss": 0.20622294, "token_acc": 0.89710485, "grad_norm": 1.04638815, "learning_rate": 9.749e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240314, "epoch": 0.50613614, "global_step/max_steps": "6640/65595", "percentage": "10.12%", "elapsed_time": "7h 40m 28s", "remaining_time": "2d 20h 8m 24s"}
+{"loss": 0.19636025, "token_acc": 0.92230971, "grad_norm": 0.8689031, "learning_rate": 9.749e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240362, "epoch": 0.50651727, "global_step/max_steps": "6645/65595", "percentage": "10.13%", "elapsed_time": "7h 40m 43s", "remaining_time": "2d 20h 7m 14s"}
+{"loss": 0.16106393, "token_acc": 0.94334049, "grad_norm": 2.04238105, "learning_rate": 9.749e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240409, "epoch": 0.50689839, "global_step/max_steps": "6650/65595", "percentage": "10.14%", "elapsed_time": "7h 40m 58s", "remaining_time": "2d 20h 6m 6s"}
+{"loss": 0.21754241, "token_acc": 0.92078189, "grad_norm": 0.83668226, "learning_rate": 9.748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240411, "epoch": 0.50727952, "global_step/max_steps": "6655/65595", "percentage": "10.15%", "elapsed_time": "7h 41m 19s", "remaining_time": "2d 20h 5m 43s"}
+{"loss": 0.20302079, "token_acc": 0.91428571, "grad_norm": 1.63803887, "learning_rate": 9.748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240476, "epoch": 0.50766064, "global_step/max_steps": "6660/65595", "percentage": "10.15%", "elapsed_time": "7h 41m 32s", "remaining_time": "2d 20h 4m 16s"}
+{"loss": 0.20045702, "token_acc": 0.91542107, "grad_norm": 0.9587276, "learning_rate": 9.747e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240541, "epoch": 0.50804177, "global_step/max_steps": "6665/65595", "percentage": "10.16%", "elapsed_time": "7h 41m 46s", "remaining_time": "2d 20h 2m 50s"}
+{"loss": 0.1665926, "token_acc": 0.93851464, "grad_norm": 1.09028208, "learning_rate": 9.747e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240577, "epoch": 0.5084229, "global_step/max_steps": "6670/65595", "percentage": "10.17%", "elapsed_time": "7h 42m 2s", "remaining_time": "2d 20h 1m 52s"}
+{"loss": 0.21079261, "token_acc": 0.93034005, "grad_norm": 1.10340309, "learning_rate": 9.747e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240634, "epoch": 0.50880402, "global_step/max_steps": "6675/65595", "percentage": "10.18%", "elapsed_time": "7h 42m 17s", "remaining_time": "2d 20h 0m 33s"}
+{"loss": 0.17114673, "token_acc": 0.90777369, "grad_norm": 0.82769316, "learning_rate": 9.746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240677, "epoch": 0.50918515, "global_step/max_steps": "6680/65595", "percentage": "10.18%", "elapsed_time": "7h 42m 32s", "remaining_time": "2d 19h 59m 28s"}
+{"loss": 0.17284416, "token_acc": 0.93776591, "grad_norm": 0.63062227, "learning_rate": 9.746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240671, "epoch": 0.50956628, "global_step/max_steps": "6685/65595", "percentage": "10.19%", "elapsed_time": "7h 42m 54s", "remaining_time": "2d 19h 59m 14s"}
+{"loss": 0.19179361, "token_acc": 0.92031873, "grad_norm": 0.73656577, "learning_rate": 9.746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240709, "epoch": 0.5099474, "global_step/max_steps": "6690/65595", "percentage": "10.20%", "elapsed_time": "7h 43m 10s", "remaining_time": "2d 19h 58m 14s"}
+{"loss": 0.21131303, "token_acc": 0.92509522, "grad_norm": 0.65656769, "learning_rate": 9.745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240736, "epoch": 0.51032853, "global_step/max_steps": "6695/65595", "percentage": "10.21%", "elapsed_time": "7h 43m 28s", "remaining_time": "2d 19h 57m 26s"}
+{"loss": 0.15127559, "token_acc": 0.94113735, "grad_norm": 0.82871175, "learning_rate": 9.745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240787, "epoch": 0.51070966, "global_step/max_steps": "6700/65595", "percentage": "10.21%", "elapsed_time": "7h 43m 43s", "remaining_time": "2d 19h 56m 14s"}
+{"loss": 0.2027535, "token_acc": 0.92567229, "grad_norm": 0.81972522, "learning_rate": 9.744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240822, "epoch": 0.51109078, "global_step/max_steps": "6705/65595", "percentage": "10.22%", "elapsed_time": "7h 43m 59s", "remaining_time": "2d 19h 55m 17s"}
+{"loss": 0.18106968, "token_acc": 0.94327421, "grad_norm": 1.4007144, "learning_rate": 9.744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240847, "epoch": 0.51147191, "global_step/max_steps": "6710/65595", "percentage": "10.23%", "elapsed_time": "7h 44m 17s", "remaining_time": "2d 19h 54m 32s"}
+{"loss": 0.26820395, "token_acc": 0.8901454, "grad_norm": 0.72598225, "learning_rate": 9.744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240904, "epoch": 0.51185304, "global_step/max_steps": "6715/65595", "percentage": "10.24%", "elapsed_time": "7h 44m 31s", "remaining_time": "2d 19h 53m 13s"}
+{"loss": 0.22229307, "token_acc": 0.91170167, "grad_norm": 1.19931293, "learning_rate": 9.743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240952, "epoch": 0.51223416, "global_step/max_steps": "6720/65595", "percentage": "10.24%", "elapsed_time": "7h 44m 47s", "remaining_time": "2d 19h 52m 3s"}
+{"loss": 0.21621416, "token_acc": 0.92072454, "grad_norm": 1.17186725, "learning_rate": 9.743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241005, "epoch": 0.51261529, "global_step/max_steps": "6725/65595", "percentage": "10.25%", "elapsed_time": "7h 45m 1s", "remaining_time": "2d 19h 50m 49s"}
+{"loss": 0.17542717, "token_acc": 0.92811082, "grad_norm": 0.87557036, "learning_rate": 9.743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241048, "epoch": 0.51299642, "global_step/max_steps": "6730/65595", "percentage": "10.26%", "elapsed_time": "7h 45m 17s", "remaining_time": "2d 19h 49m 44s"}
+{"loss": 0.22634416, "token_acc": 0.91949911, "grad_norm": 0.84699756, "learning_rate": 9.742e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241092, "epoch": 0.51337754, "global_step/max_steps": "6735/65595", "percentage": "10.27%", "elapsed_time": "7h 45m 33s", "remaining_time": "2d 19h 48m 39s"}
+{"loss": 0.24060123, "token_acc": 0.92083875, "grad_norm": 0.80175364, "learning_rate": 9.742e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241121, "epoch": 0.51375867, "global_step/max_steps": "6740/65595", "percentage": "10.28%", "elapsed_time": "7h 45m 50s", "remaining_time": "2d 19h 47m 49s"}
+{"loss": 0.20838437, "token_acc": 0.91208285, "grad_norm": 1.1938374, "learning_rate": 9.741e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241179, "epoch": 0.5141398, "global_step/max_steps": "6745/65595", "percentage": "10.28%", "elapsed_time": "7h 46m 4s", "remaining_time": "2d 19h 46m 30s"}
+{"loss": 0.20161655, "token_acc": 0.92013311, "grad_norm": 1.83001697, "learning_rate": 9.741e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241222, "epoch": 0.51452092, "global_step/max_steps": "6750/65595", "percentage": "10.29%", "elapsed_time": "7h 46m 20s", "remaining_time": "2d 19h 45m 26s"}
+{"loss": 0.16628828, "token_acc": 0.92441984, "grad_norm": 0.80902994, "learning_rate": 9.741e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241261, "epoch": 0.51490205, "global_step/max_steps": "6755/65595", "percentage": "10.30%", "elapsed_time": "7h 46m 36s", "remaining_time": "2d 19h 44m 25s"}
+{"loss": 0.13392161, "token_acc": 0.93833093, "grad_norm": 0.7446261, "learning_rate": 9.74e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241273, "epoch": 0.51528318, "global_step/max_steps": "6760/65595", "percentage": "10.31%", "elapsed_time": "7h 46m 55s", "remaining_time": "2d 19h 43m 53s"}
+{"loss": 0.15556943, "token_acc": 0.95042213, "grad_norm": 0.73696661, "learning_rate": 9.74e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2413, "epoch": 0.5156643, "global_step/max_steps": "6765/65595", "percentage": "10.31%", "elapsed_time": "7h 47m 13s", "remaining_time": "2d 19h 43m 5s"}
+{"loss": 0.15453616, "token_acc": 0.935415, "grad_norm": 2.81769276, "learning_rate": 9.739e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241348, "epoch": 0.51604543, "global_step/max_steps": "6770/65595", "percentage": "10.32%", "elapsed_time": "7h 47m 28s", "remaining_time": "2d 19h 41m 56s"}
+{"loss": 0.1698935, "token_acc": 0.93589251, "grad_norm": 0.73955417, "learning_rate": 9.739e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241375, "epoch": 0.51642656, "global_step/max_steps": "6775/65595", "percentage": "10.33%", "elapsed_time": "7h 47m 46s", "remaining_time": "2d 19h 41m 8s"}
+{"loss": 0.15133535, "token_acc": 0.93777407, "grad_norm": 0.95380956, "learning_rate": 9.739e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241419, "epoch": 0.51680768, "global_step/max_steps": "6780/65595", "percentage": "10.34%", "elapsed_time": "7h 48m 1s", "remaining_time": "2d 19h 40m 2s"}
+{"loss": 0.1689636, "token_acc": 0.93812677, "grad_norm": 0.66730285, "learning_rate": 9.738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241418, "epoch": 0.51718881, "global_step/max_steps": "6785/65595", "percentage": "10.34%", "elapsed_time": "7h 48m 22s", "remaining_time": "2d 19h 39m 42s"}
+{"loss": 0.18470911, "token_acc": 0.92753961, "grad_norm": 1.8202033, "learning_rate": 9.738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241465, "epoch": 0.51756994, "global_step/max_steps": "6790/65595", "percentage": "10.35%", "elapsed_time": "7h 48m 37s", "remaining_time": "2d 19h 38m 34s"}
+{"loss": 0.22680886, "token_acc": 0.90539145, "grad_norm": 1.5749265, "learning_rate": 9.738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241502, "epoch": 0.51795106, "global_step/max_steps": "6795/65595", "percentage": "10.36%", "elapsed_time": "7h 48m 54s", "remaining_time": "2d 19h 37m 36s"}
+{"loss": 0.20320556, "token_acc": 0.92522255, "grad_norm": 1.00178587, "learning_rate": 9.737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241546, "epoch": 0.51833219, "global_step/max_steps": "6800/65595", "percentage": "10.37%", "elapsed_time": "7h 49m 9s", "remaining_time": "2d 19h 36m 31s"}
+{"eval_loss": 0.13594389, "eval_token_acc": 0.93295585, "eval_runtime": 177.7803, "eval_samples_per_second": 2.981, "eval_steps_per_second": 2.981, "epoch": 0.51833219, "global_step/max_steps": "6800/65595", "percentage": "10.37%", "elapsed_time": "7h 52m 7s", "remaining_time": "2d 20h 2m 8s"}
+{"loss": 0.12337705, "token_acc": 0.93332503, "grad_norm": 1.62895906, "learning_rate": 9.737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240079, "epoch": 0.51871332, "global_step/max_steps": "6805/65595", "percentage": "10.37%", "elapsed_time": "7h 52m 22s", "remaining_time": "2d 20h 0m 58s"}
+{"loss": 0.12556332, "token_acc": 0.95024055, "grad_norm": 1.33367443, "learning_rate": 9.736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240099, "epoch": 0.51909444, "global_step/max_steps": "6810/65595", "percentage": "10.38%", "elapsed_time": "7h 52m 41s", "remaining_time": "2d 20h 0m 17s"}
+{"loss": 0.20643709, "token_acc": 0.93771943, "grad_norm": 1.63124859, "learning_rate": 9.736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240132, "epoch": 0.51947557, "global_step/max_steps": "6815/65595", "percentage": "10.39%", "elapsed_time": "7h 52m 57s", "remaining_time": "2d 19h 59m 22s"}
+{"loss": 0.1499392, "token_acc": 0.93057537, "grad_norm": 0.81802064, "learning_rate": 9.736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24017, "epoch": 0.5198567, "global_step/max_steps": "6820/65595", "percentage": "10.40%", "elapsed_time": "7h 53m 14s", "remaining_time": "2d 19h 58m 22s"}
+{"loss": 0.19402761, "token_acc": 0.93197996, "grad_norm": 1.1971153, "learning_rate": 9.735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240224, "epoch": 0.52023782, "global_step/max_steps": "6825/65595", "percentage": "10.40%", "elapsed_time": "7h 53m 28s", "remaining_time": "2d 19h 57m 7s"}
+{"loss": 0.16840742, "token_acc": 0.94098506, "grad_norm": 1.27851617, "learning_rate": 9.735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240249, "epoch": 0.52061895, "global_step/max_steps": "6830/65595", "percentage": "10.41%", "elapsed_time": "7h 53m 46s", "remaining_time": "2d 19h 56m 21s"}
+{"loss": 0.218117, "token_acc": 0.92012408, "grad_norm": 1.01872993, "learning_rate": 9.734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240289, "epoch": 0.52100008, "global_step/max_steps": "6835/65595", "percentage": "10.42%", "elapsed_time": "7h 54m 2s", "remaining_time": "2d 19h 55m 19s"}
+{"loss": 0.18455483, "token_acc": 0.92562704, "grad_norm": 0.87932307, "learning_rate": 9.734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240331, "epoch": 0.5213812, "global_step/max_steps": "6840/65595", "percentage": "10.43%", "elapsed_time": "7h 54m 18s", "remaining_time": "2d 19h 54m 16s"}
+{"loss": 0.24943173, "token_acc": 0.9002849, "grad_norm": 1.02671981, "learning_rate": 9.734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240386, "epoch": 0.52176233, "global_step/max_steps": "6845/65595", "percentage": "10.44%", "elapsed_time": "7h 54m 32s", "remaining_time": "2d 19h 52m 59s"}
+{"loss": 0.17839913, "token_acc": 0.93785197, "grad_norm": 1.10657322, "learning_rate": 9.733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24042, "epoch": 0.52214346, "global_step/max_steps": "6850/65595", "percentage": "10.44%", "elapsed_time": "7h 54m 49s", "remaining_time": "2d 19h 52m 3s"}
+{"loss": 0.17860398, "token_acc": 0.93289147, "grad_norm": 1.02482307, "learning_rate": 9.733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24046, "epoch": 0.52252458, "global_step/max_steps": "6855/65595", "percentage": "10.45%", "elapsed_time": "7h 55m 5s", "remaining_time": "2d 19h 51m 2s"}
+{"loss": 0.20544672, "token_acc": 0.91952191, "grad_norm": 1.36868441, "learning_rate": 9.733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24051, "epoch": 0.52290571, "global_step/max_steps": "6860/65595", "percentage": "10.46%", "elapsed_time": "7h 55m 20s", "remaining_time": "2d 19h 49m 50s"}
+{"loss": 0.14408879, "token_acc": 0.93292241, "grad_norm": 1.28652799, "learning_rate": 9.732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240568, "epoch": 0.52328684, "global_step/max_steps": "6865/65595", "percentage": "10.47%", "elapsed_time": "7h 55m 34s", "remaining_time": "2d 19h 48m 31s"}
+{"loss": 0.17828398, "token_acc": 0.94069069, "grad_norm": 1.13844514, "learning_rate": 9.732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240628, "epoch": 0.52366796, "global_step/max_steps": "6870/65595", "percentage": "10.47%", "elapsed_time": "7h 55m 48s", "remaining_time": "2d 19h 47m 9s"}
+{"loss": 0.14369645, "token_acc": 0.93439091, "grad_norm": 0.69387758, "learning_rate": 9.731e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240676, "epoch": 0.52404909, "global_step/max_steps": "6875/65595", "percentage": "10.48%", "elapsed_time": "7h 56m 3s", "remaining_time": "2d 19h 46m 0s"}
+{"loss": 0.1915584, "token_acc": 0.92814995, "grad_norm": 0.77332658, "learning_rate": 9.731e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240709, "epoch": 0.52443022, "global_step/max_steps": "6880/65595", "percentage": "10.49%", "elapsed_time": "7h 56m 20s", "remaining_time": "2d 19h 45m 6s"}
+{"loss": 0.16096376, "token_acc": 0.94113208, "grad_norm": 1.04159594, "learning_rate": 9.731e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240755, "epoch": 0.52481134, "global_step/max_steps": "6885/65595", "percentage": "10.50%", "elapsed_time": "7h 56m 35s", "remaining_time": "2d 19h 43m 59s"}
+{"loss": 0.19486793, "token_acc": 0.9188343, "grad_norm": 1.03898823, "learning_rate": 9.73e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240797, "epoch": 0.52519247, "global_step/max_steps": "6890/65595", "percentage": "10.50%", "elapsed_time": "7h 56m 51s", "remaining_time": "2d 19h 42m 55s"}
+{"loss": 0.27953584, "token_acc": 0.91257755, "grad_norm": 1.70291007, "learning_rate": 9.73e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240827, "epoch": 0.5255736, "global_step/max_steps": "6895/65595", "percentage": "10.51%", "elapsed_time": "7h 57m 8s", "remaining_time": "2d 19h 42m 3s"}
+{"loss": 0.19661734, "token_acc": 0.93295314, "grad_norm": 1.00339437, "learning_rate": 9.729e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240853, "epoch": 0.52595472, "global_step/max_steps": "6900/65595", "percentage": "10.52%", "elapsed_time": "7h 57m 25s", "remaining_time": "2d 19h 41m 16s"}
+{"loss": 0.21375227, "token_acc": 0.92065198, "grad_norm": 0.73005086, "learning_rate": 9.729e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240887, "epoch": 0.52633585, "global_step/max_steps": "6905/65595", "percentage": "10.53%", "elapsed_time": "7h 57m 42s", "remaining_time": "2d 19h 40m 22s"}
+{"loss": 0.19867029, "token_acc": 0.93056142, "grad_norm": 1.08476305, "learning_rate": 9.729e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240939, "epoch": 0.52671698, "global_step/max_steps": "6910/65595", "percentage": "10.53%", "elapsed_time": "7h 57m 57s", "remaining_time": "2d 19h 39m 9s"}
+{"loss": 0.17728138, "token_acc": 0.92295345, "grad_norm": 0.30163452, "learning_rate": 9.728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240977, "epoch": 0.5270981, "global_step/max_steps": "6915/65595", "percentage": "10.54%", "elapsed_time": "7h 58m 13s", "remaining_time": "2d 19h 38m 9s"}
+{"loss": 0.23979831, "token_acc": 0.90593578, "grad_norm": 0.76783347, "learning_rate": 9.728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241031, "epoch": 0.52747923, "global_step/max_steps": "6920/65595", "percentage": "10.55%", "elapsed_time": "7h 58m 27s", "remaining_time": "2d 19h 36m 54s"}
+{"loss": 0.20578313, "token_acc": 0.92122803, "grad_norm": 0.84016693, "learning_rate": 9.728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241075, "epoch": 0.52786036, "global_step/max_steps": "6925/65595", "percentage": "10.56%", "elapsed_time": "7h 58m 43s", "remaining_time": "2d 19h 35m 49s"}
+{"loss": 0.14745963, "token_acc": 0.9318264, "grad_norm": 0.54036361, "learning_rate": 9.727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241108, "epoch": 0.52824148, "global_step/max_steps": "6930/65595", "percentage": "10.56%", "elapsed_time": "7h 59m 0s", "remaining_time": "2d 19h 34m 55s"}
+{"loss": 0.15799859, "token_acc": 0.90486258, "grad_norm": 1.30959845, "learning_rate": 9.727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241169, "epoch": 0.52862261, "global_step/max_steps": "6935/65595", "percentage": "10.57%", "elapsed_time": "7h 59m 13s", "remaining_time": "2d 19h 33m 33s"}
+{"loss": 0.15214589, "token_acc": 0.93823475, "grad_norm": 0.72757775, "learning_rate": 9.726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241207, "epoch": 0.52900374, "global_step/max_steps": "6940/65595", "percentage": "10.58%", "elapsed_time": "7h 59m 29s", "remaining_time": "2d 19h 32m 34s"}
+{"loss": 0.24810147, "token_acc": 0.89557171, "grad_norm": 0.85597956, "learning_rate": 9.726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241261, "epoch": 0.52938486, "global_step/max_steps": "6945/65595", "percentage": "10.59%", "elapsed_time": "7h 59m 44s", "remaining_time": "2d 19h 31m 19s"}
+{"loss": 0.1824121, "token_acc": 0.93669379, "grad_norm": 0.72589183, "learning_rate": 9.726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241299, "epoch": 0.52976599, "global_step/max_steps": "6950/65595", "percentage": "10.60%", "elapsed_time": "8h 0m 0s", "remaining_time": "2d 19h 30m 20s"}
+{"loss": 0.23742976, "token_acc": 0.9203784, "grad_norm": 0.82790148, "learning_rate": 9.725e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241312, "epoch": 0.53014711, "global_step/max_steps": "6955/65595", "percentage": "10.60%", "elapsed_time": "8h 0m 19s", "remaining_time": "2d 19h 29m 46s"}
+{"loss": 0.16767843, "token_acc": 0.94066899, "grad_norm": 0.89597547, "learning_rate": 9.725e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241335, "epoch": 0.53052824, "global_step/max_steps": "6960/65595", "percentage": "10.61%", "elapsed_time": "8h 0m 37s", "remaining_time": "2d 19h 29m 1s"}
+{"loss": 0.15441771, "token_acc": 0.94964997, "grad_norm": 1.29410017, "learning_rate": 9.724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241385, "epoch": 0.53090937, "global_step/max_steps": "6965/65595", "percentage": "10.62%", "elapsed_time": "8h 0m 52s", "remaining_time": "2d 19h 27m 51s"}
+{"loss": 0.21450496, "token_acc": 0.92265457, "grad_norm": 0.88143861, "learning_rate": 9.724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241422, "epoch": 0.53129049, "global_step/max_steps": "6970/65595", "percentage": "10.63%", "elapsed_time": "8h 1m 8s", "remaining_time": "2d 19h 26m 53s"}
+{"loss": 0.20270662, "token_acc": 0.91560483, "grad_norm": 1.17117465, "learning_rate": 9.724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241458, "epoch": 0.53167162, "global_step/max_steps": "6975/65595", "percentage": "10.63%", "elapsed_time": "8h 1m 24s", "remaining_time": "2d 19h 25m 56s"}
+{"loss": 0.17031263, "token_acc": 0.9409653, "grad_norm": 0.09024242, "learning_rate": 9.723e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241515, "epoch": 0.53205275, "global_step/max_steps": "6980/65595", "percentage": "10.64%", "elapsed_time": "8h 1m 38s", "remaining_time": "2d 19h 24m 38s"}
+{"loss": 0.1790895, "token_acc": 0.93277553, "grad_norm": 1.80179584, "learning_rate": 9.723e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241566, "epoch": 0.53243387, "global_step/max_steps": "6985/65595", "percentage": "10.65%", "elapsed_time": "8h 1m 53s", "remaining_time": "2d 19h 23m 26s"}
+{"loss": 0.1333257, "token_acc": 0.95653309, "grad_norm": 0.57111609, "learning_rate": 9.722e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241558, "epoch": 0.532815, "global_step/max_steps": "6990/65595", "percentage": "10.66%", "elapsed_time": "8h 2m 14s", "remaining_time": "2d 19h 23m 13s"}
+{"loss": 0.15450301, "token_acc": 0.94283477, "grad_norm": 1.4494741, "learning_rate": 9.722e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241616, "epoch": 0.53319613, "global_step/max_steps": "6995/65595", "percentage": "10.66%", "elapsed_time": "8h 2m 28s", "remaining_time": "2d 19h 21m 54s"}
+{"loss": 0.18677872, "token_acc": 0.92830482, "grad_norm": 0.95125812, "learning_rate": 9.722e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241646, "epoch": 0.53357725, "global_step/max_steps": "7000/65595", "percentage": "10.67%", "elapsed_time": "8h 2m 45s", "remaining_time": "2d 19h 21m 3s"}
+{"eval_loss": 0.13523255, "eval_token_acc": 0.93425848, "eval_runtime": 178.7585, "eval_samples_per_second": 2.965, "eval_steps_per_second": 2.965, "epoch": 0.53357725, "global_step/max_steps": "7000/65595", "percentage": "10.67%", "elapsed_time": "8h 5m 44s", "remaining_time": "2d 19h 46m 0s"}
+{"loss": 0.2177253, "token_acc": 0.93376813, "grad_norm": 0.95529938, "learning_rate": 9.721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240185, "epoch": 0.53395838, "global_step/max_steps": "7005/65595", "percentage": "10.68%", "elapsed_time": "8h 6m 2s", "remaining_time": "2d 19h 45m 17s"}
+{"loss": 0.14998039, "token_acc": 0.92916353, "grad_norm": 1.48956609, "learning_rate": 9.721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240221, "epoch": 0.53433951, "global_step/max_steps": "7010/65595", "percentage": "10.69%", "elapsed_time": "8h 6m 19s", "remaining_time": "2d 19h 44m 20s"}
+{"loss": 0.17133529, "token_acc": 0.94129353, "grad_norm": 0.96761227, "learning_rate": 9.72e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240243, "epoch": 0.53472063, "global_step/max_steps": "7015/65595", "percentage": "10.69%", "elapsed_time": "8h 6m 37s", "remaining_time": "2d 19h 43m 37s"}
+{"loss": 0.18986506, "token_acc": 0.9213944, "grad_norm": 1.14347935, "learning_rate": 9.72e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240297, "epoch": 0.53510176, "global_step/max_steps": "7020/65595", "percentage": "10.70%", "elapsed_time": "8h 6m 51s", "remaining_time": "2d 19h 42m 21s"}
+{"loss": 0.13494093, "token_acc": 0.94195421, "grad_norm": 0.22521195, "learning_rate": 9.72e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240349, "epoch": 0.53548289, "global_step/max_steps": "7025/65595", "percentage": "10.71%", "elapsed_time": "8h 7m 6s", "remaining_time": "2d 19h 41m 8s"}
+{"loss": 0.18900884, "token_acc": 0.9361418, "grad_norm": 0.74495542, "learning_rate": 9.719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240358, "epoch": 0.53586401, "global_step/max_steps": "7030/65595", "percentage": "10.72%", "elapsed_time": "8h 7m 25s", "remaining_time": "2d 19h 40m 38s"}
+{"loss": 0.17039281, "token_acc": 0.93737731, "grad_norm": 0.7858634, "learning_rate": 9.719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24039, "epoch": 0.53624514, "global_step/max_steps": "7035/65595", "percentage": "10.72%", "elapsed_time": "8h 7m 42s", "remaining_time": "2d 19h 39m 45s"}
+{"loss": 0.18226997, "token_acc": 0.92762326, "grad_norm": 0.92475182, "learning_rate": 9.718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24044, "epoch": 0.53662627, "global_step/max_steps": "7040/65595", "percentage": "10.73%", "elapsed_time": "8h 7m 57s", "remaining_time": "2d 19h 38m 33s"}
+{"loss": 0.14166917, "token_acc": 0.9400545, "grad_norm": 0.73460913, "learning_rate": 9.718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240478, "epoch": 0.53700739, "global_step/max_steps": "7045/65595", "percentage": "10.74%", "elapsed_time": "8h 8m 13s", "remaining_time": "2d 19h 37m 34s"}
+{"loss": 0.17694407, "token_acc": 0.92818597, "grad_norm": 0.68629056, "learning_rate": 9.718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240518, "epoch": 0.53738852, "global_step/max_steps": "7050/65595", "percentage": "10.75%", "elapsed_time": "8h 8m 29s", "remaining_time": "2d 19h 36m 33s"}
+{"loss": 0.17104512, "token_acc": 0.93544458, "grad_norm": 1.06541634, "learning_rate": 9.717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240575, "epoch": 0.53776965, "global_step/max_steps": "7055/65595", "percentage": "10.76%", "elapsed_time": "8h 8m 43s", "remaining_time": "2d 19h 35m 14s"}
+{"loss": 0.18441424, "token_acc": 0.93246058, "grad_norm": 1.93969643, "learning_rate": 9.717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240626, "epoch": 0.53815077, "global_step/max_steps": "7060/65595", "percentage": "10.76%", "elapsed_time": "8h 8m 57s", "remaining_time": "2d 19h 34m 3s"}
+{"loss": 0.18165398, "token_acc": 0.95589459, "grad_norm": 0.5225262, "learning_rate": 9.716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24065, "epoch": 0.5385319, "global_step/max_steps": "7065/65595", "percentage": "10.77%", "elapsed_time": "8h 9m 15s", "remaining_time": "2d 19h 33m 17s"}
+{"loss": 0.20994976, "token_acc": 0.92148014, "grad_norm": 2.04623437, "learning_rate": 9.716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240705, "epoch": 0.53891303, "global_step/max_steps": "7070/65595", "percentage": "10.78%", "elapsed_time": "8h 9m 29s", "remaining_time": "2d 19h 32m 1s"}
+{"loss": 0.15250285, "token_acc": 0.93421053, "grad_norm": 0.66580319, "learning_rate": 9.716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240742, "epoch": 0.53929415, "global_step/max_steps": "7075/65595", "percentage": "10.79%", "elapsed_time": "8h 9m 46s", "remaining_time": "2d 19h 31m 3s"}
+{"loss": 0.23550854, "token_acc": 0.90361446, "grad_norm": 1.08109009, "learning_rate": 9.715e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24079, "epoch": 0.53967528, "global_step/max_steps": "7080/65595", "percentage": "10.79%", "elapsed_time": "8h 10m 0s", "remaining_time": "2d 19h 29m 53s"}
+{"loss": 0.15967736, "token_acc": 0.93557423, "grad_norm": 1.01716769, "learning_rate": 9.715e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240846, "epoch": 0.54005641, "global_step/max_steps": "7085/65595", "percentage": "10.80%", "elapsed_time": "8h 10m 14s", "remaining_time": "2d 19h 28m 37s"}
+{"loss": 0.18215418, "token_acc": 0.94172414, "grad_norm": 0.91340286, "learning_rate": 9.714e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240901, "epoch": 0.54043753, "global_step/max_steps": "7090/65595", "percentage": "10.81%", "elapsed_time": "8h 10m 28s", "remaining_time": "2d 19h 27m 20s"}
+{"loss": 0.15136099, "token_acc": 0.93531958, "grad_norm": 0.86278969, "learning_rate": 9.714e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240953, "epoch": 0.54081866, "global_step/max_steps": "7095/65595", "percentage": "10.82%", "elapsed_time": "8h 10m 43s", "remaining_time": "2d 19h 26m 7s"}
+{"loss": 0.12814153, "token_acc": 0.94402316, "grad_norm": 1.03747797, "learning_rate": 9.714e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240959, "epoch": 0.54119979, "global_step/max_steps": "7100/65595", "percentage": "10.82%", "elapsed_time": "8h 11m 3s", "remaining_time": "2d 19h 25m 40s"}
+{"loss": 0.16154402, "token_acc": 0.93906511, "grad_norm": 0.70011753, "learning_rate": 9.713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240981, "epoch": 0.54158091, "global_step/max_steps": "7105/65595", "percentage": "10.83%", "elapsed_time": "8h 11m 21s", "remaining_time": "2d 19h 24m 57s"}
+{"loss": 0.15714899, "token_acc": 0.93549061, "grad_norm": 1.08885455, "learning_rate": 9.713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241023, "epoch": 0.54196204, "global_step/max_steps": "7110/65595", "percentage": "10.84%", "elapsed_time": "8h 11m 37s", "remaining_time": "2d 19h 23m 54s"}
+{"loss": 0.17855906, "token_acc": 0.92621145, "grad_norm": 1.93280685, "learning_rate": 9.712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241061, "epoch": 0.54234317, "global_step/max_steps": "7115/65595", "percentage": "10.85%", "elapsed_time": "8h 11m 53s", "remaining_time": "2d 19h 22m 55s"}
+{"loss": 0.12409395, "token_acc": 0.94015992, "grad_norm": 1.49088562, "learning_rate": 9.712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241112, "epoch": 0.54272429, "global_step/max_steps": "7120/65595", "percentage": "10.85%", "elapsed_time": "8h 12m 7s", "remaining_time": "2d 19h 21m 44s"}
+{"loss": 0.23386116, "token_acc": 0.89620971, "grad_norm": 0.72225183, "learning_rate": 9.712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241163, "epoch": 0.54310542, "global_step/max_steps": "7125/65595", "percentage": "10.86%", "elapsed_time": "8h 12m 22s", "remaining_time": "2d 19h 20m 31s"}
+{"loss": 0.16658615, "token_acc": 0.95228684, "grad_norm": 0.59605658, "learning_rate": 9.711e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2412, "epoch": 0.54348655, "global_step/max_steps": "7130/65595", "percentage": "10.87%", "elapsed_time": "8h 12m 38s", "remaining_time": "2d 19h 19m 34s"}
+{"loss": 0.16592382, "token_acc": 0.92734048, "grad_norm": 1.31147778, "learning_rate": 9.711e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241249, "epoch": 0.54386767, "global_step/max_steps": "7135/65595", "percentage": "10.88%", "elapsed_time": "8h 12m 52s", "remaining_time": "2d 19h 18m 23s"}
+{"loss": 0.14395552, "token_acc": 0.93674625, "grad_norm": 0.52465111, "learning_rate": 9.71e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24129, "epoch": 0.5442488, "global_step/max_steps": "7140/65595", "percentage": "10.88%", "elapsed_time": "8h 13m 8s", "remaining_time": "2d 19h 17m 22s"}
+{"loss": 0.17862126, "token_acc": 0.9372332, "grad_norm": 1.03929973, "learning_rate": 9.71e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241308, "epoch": 0.54462993, "global_step/max_steps": "7145/65595", "percentage": "10.89%", "elapsed_time": "8h 13m 27s", "remaining_time": "2d 19h 16m 43s"}
+{"loss": 0.14991509, "token_acc": 0.93577736, "grad_norm": 0.69496566, "learning_rate": 9.71e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241355, "epoch": 0.54501105, "global_step/max_steps": "7150/65595", "percentage": "10.90%", "elapsed_time": "8h 13m 42s", "remaining_time": "2d 19h 15m 35s"}
+{"loss": 0.2082664, "token_acc": 0.92438188, "grad_norm": 1.19575262, "learning_rate": 9.709e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241386, "epoch": 0.54539218, "global_step/max_steps": "7155/65595", "percentage": "10.91%", "elapsed_time": "8h 13m 59s", "remaining_time": "2d 19h 14m 43s"}
+{"loss": 0.16280226, "token_acc": 0.92303114, "grad_norm": 0.66762054, "learning_rate": 9.709e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241426, "epoch": 0.54577331, "global_step/max_steps": "7160/65595", "percentage": "10.92%", "elapsed_time": "8h 14m 14s", "remaining_time": "2d 19h 13m 42s"}
+{"loss": 0.15277191, "token_acc": 0.94696081, "grad_norm": 1.06240451, "learning_rate": 9.708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24147, "epoch": 0.54615443, "global_step/max_steps": "7165/65595", "percentage": "10.92%", "elapsed_time": "8h 14m 30s", "remaining_time": "2d 19h 12m 38s"}
+{"loss": 0.18649955, "token_acc": 0.92582723, "grad_norm": 0.55987412, "learning_rate": 9.708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24151, "epoch": 0.54653556, "global_step/max_steps": "7170/65595", "percentage": "10.93%", "elapsed_time": "8h 14m 45s", "remaining_time": "2d 19h 11m 37s"}
+{"loss": 0.21749859, "token_acc": 0.90076661, "grad_norm": 1.16593647, "learning_rate": 9.708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241567, "epoch": 0.54691669, "global_step/max_steps": "7175/65595", "percentage": "10.94%", "elapsed_time": "8h 14m 59s", "remaining_time": "2d 19h 10m 18s"}
+{"loss": 0.16082971, "token_acc": 0.93226864, "grad_norm": 0.77863628, "learning_rate": 9.707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241595, "epoch": 0.54729781, "global_step/max_steps": "7180/65595", "percentage": "10.95%", "elapsed_time": "8h 15m 16s", "remaining_time": "2d 19h 9m 31s"}
+{"loss": 0.23070657, "token_acc": 0.91026211, "grad_norm": 1.51862967, "learning_rate": 9.707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241647, "epoch": 0.54767894, "global_step/max_steps": "7185/65595", "percentage": "10.95%", "elapsed_time": "8h 15m 31s", "remaining_time": "2d 19h 8m 17s"}
+{"loss": 0.2325017, "token_acc": 0.93388282, "grad_norm": 1.54181743, "learning_rate": 9.706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241674, "epoch": 0.54806007, "global_step/max_steps": "7190/65595", "percentage": "10.96%", "elapsed_time": "8h 15m 48s", "remaining_time": "2d 19h 7m 30s"}
+{"loss": 0.20433481, "token_acc": 0.92610442, "grad_norm": 0.9822309, "learning_rate": 9.706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241707, "epoch": 0.54844119, "global_step/max_steps": "7195/65595", "percentage": "10.97%", "elapsed_time": "8h 16m 5s", "remaining_time": "2d 19h 6m 37s"}
+{"loss": 0.14597871, "token_acc": 0.94574621, "grad_norm": 0.66744101, "learning_rate": 9.706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241742, "epoch": 0.54882232, "global_step/max_steps": "7200/65595", "percentage": "10.98%", "elapsed_time": "8h 16m 21s", "remaining_time": "2d 19h 5m 41s"}
+{"eval_loss": 0.13749713, "eval_token_acc": 0.93281278, "eval_runtime": 174.503, "eval_samples_per_second": 3.037, "eval_steps_per_second": 3.037, "epoch": 0.54882232, "global_step/max_steps": "7200/65595", "percentage": "10.98%", "elapsed_time": "8h 19m 16s", "remaining_time": "2d 19h 29m 16s"}
+{"loss": 0.23851743, "token_acc": 0.93242296, "grad_norm": 0.78937727, "learning_rate": 9.705e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240384, "epoch": 0.54920345, "global_step/max_steps": "7205/65595", "percentage": "10.98%", "elapsed_time": "8h 19m 30s", "remaining_time": "2d 19h 28m 5s"}
+{"loss": 0.19691439, "token_acc": 0.93056457, "grad_norm": 0.98736244, "learning_rate": 9.705e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240434, "epoch": 0.54958457, "global_step/max_steps": "7210/65595", "percentage": "10.99%", "elapsed_time": "8h 19m 45s", "remaining_time": "2d 19h 26m 53s"}
+{"loss": 0.20629909, "token_acc": 0.91696464, "grad_norm": 1.58397877, "learning_rate": 9.704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24049, "epoch": 0.5499657, "global_step/max_steps": "7215/65595", "percentage": "11.00%", "elapsed_time": "8h 19m 58s", "remaining_time": "2d 19h 25m 36s"}
+{"loss": 0.1755774, "token_acc": 0.92378584, "grad_norm": 1.18455255, "learning_rate": 9.704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24052, "epoch": 0.55034683, "global_step/max_steps": "7220/65595", "percentage": "11.01%", "elapsed_time": "8h 20m 16s", "remaining_time": "2d 19h 24m 45s"}
+{"loss": 0.1751562, "token_acc": 0.93819153, "grad_norm": 2.07738686, "learning_rate": 9.704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240576, "epoch": 0.55072795, "global_step/max_steps": "7225/65595", "percentage": "11.01%", "elapsed_time": "8h 20m 29s", "remaining_time": "2d 19h 23m 27s"}
+{"loss": 0.18558424, "token_acc": 0.91292063, "grad_norm": 0.9168033, "learning_rate": 9.703e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240631, "epoch": 0.55110908, "global_step/max_steps": "7230/65595", "percentage": "11.02%", "elapsed_time": "8h 20m 43s", "remaining_time": "2d 19h 22m 11s"}
+{"loss": 0.17217324, "token_acc": 0.94261046, "grad_norm": 0.99319851, "learning_rate": 9.703e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240676, "epoch": 0.55149021, "global_step/max_steps": "7235/65595", "percentage": "11.03%", "elapsed_time": "8h 20m 58s", "remaining_time": "2d 19h 21m 5s"}
+{"loss": 0.231953, "token_acc": 0.90674419, "grad_norm": 1.07736206, "learning_rate": 9.702e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240722, "epoch": 0.55187133, "global_step/max_steps": "7240/65595", "percentage": "11.04%", "elapsed_time": "8h 21m 13s", "remaining_time": "2d 19h 19m 58s"}
+{"loss": 0.17318975, "token_acc": 0.93572825, "grad_norm": 1.01648307, "learning_rate": 9.702e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24076, "epoch": 0.55225246, "global_step/max_steps": "7245/65595", "percentage": "11.05%", "elapsed_time": "8h 21m 29s", "remaining_time": "2d 19h 18m 59s"}
+{"loss": 0.18579743, "token_acc": 0.93083183, "grad_norm": 0.74680126, "learning_rate": 9.702e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240789, "epoch": 0.55263358, "global_step/max_steps": "7250/65595", "percentage": "11.05%", "elapsed_time": "8h 21m 47s", "remaining_time": "2d 19h 18m 9s"}
+{"loss": 0.08958526, "token_acc": 0.96090945, "grad_norm": 0.86850941, "learning_rate": 9.701e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240841, "epoch": 0.55301471, "global_step/max_steps": "7255/65595", "percentage": "11.06%", "elapsed_time": "8h 22m 1s", "remaining_time": "2d 19h 16m 56s"}
+{"loss": 0.18612238, "token_acc": 0.93588741, "grad_norm": 1.17025197, "learning_rate": 9.701e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240839, "epoch": 0.55339584, "global_step/max_steps": "7260/65595", "percentage": "11.07%", "elapsed_time": "8h 22m 22s", "remaining_time": "2d 19h 16m 37s"}
+{"loss": 0.19272794, "token_acc": 0.93314823, "grad_norm": 0.70525503, "learning_rate": 9.7e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24088, "epoch": 0.55377696, "global_step/max_steps": "7265/65595", "percentage": "11.08%", "elapsed_time": "8h 22m 37s", "remaining_time": "2d 19h 15m 35s"}
+{"loss": 0.22412977, "token_acc": 0.91728856, "grad_norm": 1.12469804, "learning_rate": 9.7e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240918, "epoch": 0.55415809, "global_step/max_steps": "7270/65595", "percentage": "11.08%", "elapsed_time": "8h 22m 54s", "remaining_time": "2d 19h 14m 37s"}
+{"loss": 0.16886778, "token_acc": 0.92822313, "grad_norm": 1.73061621, "learning_rate": 9.7e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240963, "epoch": 0.55453922, "global_step/max_steps": "7275/65595", "percentage": "11.09%", "elapsed_time": "8h 23m 9s", "remaining_time": "2d 19h 13m 30s"}
+{"loss": 0.16877036, "token_acc": 0.92273236, "grad_norm": 1.22195947, "learning_rate": 9.699e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241009, "epoch": 0.55492034, "global_step/max_steps": "7280/65595", "percentage": "11.10%", "elapsed_time": "8h 23m 24s", "remaining_time": "2d 19h 12m 24s"}
+{"loss": 0.1934291, "token_acc": 0.92319614, "grad_norm": 1.47952259, "learning_rate": 9.699e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241041, "epoch": 0.55530147, "global_step/max_steps": "7285/65595", "percentage": "11.11%", "elapsed_time": "8h 23m 40s", "remaining_time": "2d 19h 11m 30s"}
+{"loss": 0.16372226, "token_acc": 0.93760372, "grad_norm": 1.1641562, "learning_rate": 9.698e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241099, "epoch": 0.5556826, "global_step/max_steps": "7290/65595", "percentage": "11.11%", "elapsed_time": "8h 23m 54s", "remaining_time": "2d 19h 10m 12s"}
+{"loss": 0.12819611, "token_acc": 0.9502521, "grad_norm": 0.31161684, "learning_rate": 9.698e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241134, "epoch": 0.55606372, "global_step/max_steps": "7295/65595", "percentage": "11.12%", "elapsed_time": "8h 24m 10s", "remaining_time": "2d 19h 9m 16s"}
+{"loss": 0.13326963, "token_acc": 0.93494666, "grad_norm": 1.45589244, "learning_rate": 9.698e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241188, "epoch": 0.55644485, "global_step/max_steps": "7300/65595", "percentage": "11.13%", "elapsed_time": "8h 24m 24s", "remaining_time": "2d 19h 8m 1s"}
+{"loss": 0.2098093, "token_acc": 0.92861917, "grad_norm": 0.62158883, "learning_rate": 9.697e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24122, "epoch": 0.55682598, "global_step/max_steps": "7305/65595", "percentage": "11.14%", "elapsed_time": "8h 24m 41s", "remaining_time": "2d 19h 7m 8s"}
+{"loss": 0.14716251, "token_acc": 0.92555102, "grad_norm": 0.53418875, "learning_rate": 9.697e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241263, "epoch": 0.5572071, "global_step/max_steps": "7310/65595", "percentage": "11.14%", "elapsed_time": "8h 24m 56s", "remaining_time": "2d 19h 6m 4s"}
+{"loss": 0.15772172, "token_acc": 0.93887971, "grad_norm": 0.65008092, "learning_rate": 9.696e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241279, "epoch": 0.55758823, "global_step/max_steps": "7315/65595", "percentage": "11.15%", "elapsed_time": "8h 25m 15s", "remaining_time": "2d 19h 5m 28s"}
+{"loss": 0.18280308, "token_acc": 0.93969516, "grad_norm": 0.96275073, "learning_rate": 9.696e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241326, "epoch": 0.55796936, "global_step/max_steps": "7320/65595", "percentage": "11.16%", "elapsed_time": "8h 25m 30s", "remaining_time": "2d 19h 4m 20s"}
+{"loss": 0.18525356, "token_acc": 0.92115903, "grad_norm": 1.12066352, "learning_rate": 9.695e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241365, "epoch": 0.55835048, "global_step/max_steps": "7325/65595", "percentage": "11.17%", "elapsed_time": "8h 25m 46s", "remaining_time": "2d 19h 3m 20s"}
+{"loss": 0.15267862, "token_acc": 0.93008084, "grad_norm": 0.52669352, "learning_rate": 9.695e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241395, "epoch": 0.55873161, "global_step/max_steps": "7330/65595", "percentage": "11.17%", "elapsed_time": "8h 26m 2s", "remaining_time": "2d 19h 2m 29s"}
+{"loss": 0.19264662, "token_acc": 0.92754873, "grad_norm": 0.71230406, "learning_rate": 9.695e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241438, "epoch": 0.55911274, "global_step/max_steps": "7335/65595", "percentage": "11.18%", "elapsed_time": "8h 26m 18s", "remaining_time": "2d 19h 1m 26s"}
+{"loss": 0.11813973, "token_acc": 0.94911455, "grad_norm": 0.85707831, "learning_rate": 9.694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241486, "epoch": 0.55949386, "global_step/max_steps": "7340/65595", "percentage": "11.19%", "elapsed_time": "8h 26m 32s", "remaining_time": "2d 19h 0m 17s"}
+{"loss": 0.14131595, "token_acc": 0.93929804, "grad_norm": 0.70990193, "learning_rate": 9.694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241523, "epoch": 0.55987499, "global_step/max_steps": "7345/65595", "percentage": "11.20%", "elapsed_time": "8h 26m 48s", "remaining_time": "2d 18h 59m 20s"}
+{"loss": 0.16696308, "token_acc": 0.93748667, "grad_norm": 1.00606942, "learning_rate": 9.693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241555, "epoch": 0.56025612, "global_step/max_steps": "7350/65595", "percentage": "11.21%", "elapsed_time": "8h 27m 5s", "remaining_time": "2d 18h 58m 27s"}
+{"loss": 0.20133748, "token_acc": 0.91609507, "grad_norm": 0.95199144, "learning_rate": 9.693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241586, "epoch": 0.56063724, "global_step/max_steps": "7355/65595", "percentage": "11.21%", "elapsed_time": "8h 27m 22s", "remaining_time": "2d 18h 57m 36s"}
+{"loss": 0.12580293, "token_acc": 0.93876913, "grad_norm": 0.13615616, "learning_rate": 9.693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24163, "epoch": 0.56101837, "global_step/max_steps": "7360/65595", "percentage": "11.22%", "elapsed_time": "8h 27m 37s", "remaining_time": "2d 18h 56m 31s"}
+{"loss": 0.09808214, "token_acc": 0.9624105, "grad_norm": 0.7518937, "learning_rate": 9.692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241677, "epoch": 0.5613995, "global_step/max_steps": "7365/65595", "percentage": "11.23%", "elapsed_time": "8h 27m 52s", "remaining_time": "2d 18h 55m 23s"}
+{"loss": 0.20080719, "token_acc": 0.91804098, "grad_norm": 0.90121317, "learning_rate": 9.692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241722, "epoch": 0.56178062, "global_step/max_steps": "7370/65595", "percentage": "11.24%", "elapsed_time": "8h 28m 7s", "remaining_time": "2d 18h 54m 17s"}
+{"loss": 0.19270723, "token_acc": 0.9286152, "grad_norm": 1.78958571, "learning_rate": 9.691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24177, "epoch": 0.56216175, "global_step/max_steps": "7375/65595", "percentage": "11.24%", "elapsed_time": "8h 28m 21s", "remaining_time": "2d 18h 53m 9s"}
+{"loss": 0.16135461, "token_acc": 0.9454023, "grad_norm": 1.19645548, "learning_rate": 9.691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241822, "epoch": 0.56254288, "global_step/max_steps": "7380/65595", "percentage": "11.25%", "elapsed_time": "8h 28m 36s", "remaining_time": "2d 18h 51m 56s"}
+{"loss": 0.15329155, "token_acc": 0.95047342, "grad_norm": 0.9167527, "learning_rate": 9.69e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241839, "epoch": 0.562924, "global_step/max_steps": "7385/65595", "percentage": "11.26%", "elapsed_time": "8h 28m 54s", "remaining_time": "2d 18h 51m 20s"}
+{"loss": 0.1101638, "token_acc": 0.94489796, "grad_norm": 1.41322529, "learning_rate": 9.69e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241887, "epoch": 0.56330513, "global_step/max_steps": "7390/65595", "percentage": "11.27%", "elapsed_time": "8h 29m 9s", "remaining_time": "2d 18h 50m 10s"}
+{"loss": 0.13651907, "token_acc": 0.93023676, "grad_norm": 0.55609292, "learning_rate": 9.69e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241927, "epoch": 0.56368626, "global_step/max_steps": "7395/65595", "percentage": "11.27%", "elapsed_time": "8h 29m 24s", "remaining_time": "2d 18h 49m 10s"}
+{"loss": 0.16572702, "token_acc": 0.92711895, "grad_norm": 0.96639794, "learning_rate": 9.689e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241967, "epoch": 0.56406738, "global_step/max_steps": "7400/65595", "percentage": "11.28%", "elapsed_time": "8h 29m 40s", "remaining_time": "2d 18h 48m 10s"}
+{"eval_loss": 0.13419907, "eval_token_acc": 0.93461237, "eval_runtime": 200.2745, "eval_samples_per_second": 2.646, "eval_steps_per_second": 2.646, "epoch": 0.56406738, "global_step/max_steps": "7400/65595", "percentage": "11.28%", "elapsed_time": "8h 33m 0s", "remaining_time": "2d 19h 14m 25s"}
+{"loss": 0.09302259, "token_acc": 0.93522944, "grad_norm": 0.14313562, "learning_rate": 9.689e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240432, "epoch": 0.56444851, "global_step/max_steps": "7405/65595", "percentage": "11.29%", "elapsed_time": "8h 33m 16s", "remaining_time": "2d 19h 13m 25s"}
+{"loss": 0.24929469, "token_acc": 0.90853242, "grad_norm": 0.67875725, "learning_rate": 9.688e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240466, "epoch": 0.56482964, "global_step/max_steps": "7410/65595", "percentage": "11.30%", "elapsed_time": "8h 33m 32s", "remaining_time": "2d 19h 12m 30s"}
+{"loss": 0.15870609, "token_acc": 0.93847844, "grad_norm": 1.02457619, "learning_rate": 9.688e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240512, "epoch": 0.56521076, "global_step/max_steps": "7415/65595", "percentage": "11.30%", "elapsed_time": "8h 33m 47s", "remaining_time": "2d 19h 11m 23s"}
+{"loss": 0.13587573, "token_acc": 0.93554925, "grad_norm": 1.24162412, "learning_rate": 9.688e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240541, "epoch": 0.56559189, "global_step/max_steps": "7420/65595", "percentage": "11.31%", "elapsed_time": "8h 34m 4s", "remaining_time": "2d 19h 10m 33s"}
+{"loss": 0.15884044, "token_acc": 0.94537554, "grad_norm": 0.84614438, "learning_rate": 9.687e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240575, "epoch": 0.56597302, "global_step/max_steps": "7425/65595", "percentage": "11.32%", "elapsed_time": "8h 34m 21s", "remaining_time": "2d 19h 9m 37s"}
+{"loss": 0.16462674, "token_acc": 0.91996846, "grad_norm": 1.01355052, "learning_rate": 9.687e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240606, "epoch": 0.56635414, "global_step/max_steps": "7430/65595", "percentage": "11.33%", "elapsed_time": "8h 34m 38s", "remaining_time": "2d 19h 8m 46s"}
+{"loss": 0.13394465, "token_acc": 0.94789173, "grad_norm": 0.68861729, "learning_rate": 9.686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240638, "epoch": 0.56673527, "global_step/max_steps": "7435/65595", "percentage": "11.33%", "elapsed_time": "8h 34m 54s", "remaining_time": "2d 19h 7m 53s"}
+{"loss": 0.16913991, "token_acc": 0.93881224, "grad_norm": 1.51126194, "learning_rate": 9.686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240652, "epoch": 0.5671164, "global_step/max_steps": "7440/65595", "percentage": "11.34%", "elapsed_time": "8h 35m 13s", "remaining_time": "2d 19h 7m 18s"}
+{"loss": 0.16341169, "token_acc": 0.927, "grad_norm": 1.15596926, "learning_rate": 9.685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240694, "epoch": 0.56749752, "global_step/max_steps": "7445/65595", "percentage": "11.35%", "elapsed_time": "8h 35m 29s", "remaining_time": "2d 19h 6m 15s"}
+{"loss": 0.16689847, "token_acc": 0.9266436, "grad_norm": 1.56739545, "learning_rate": 9.685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240739, "epoch": 0.56787865, "global_step/max_steps": "7450/65595", "percentage": "11.36%", "elapsed_time": "8h 35m 44s", "remaining_time": "2d 19h 5m 10s"}
+{"loss": 0.21307068, "token_acc": 0.92468886, "grad_norm": 0.89622092, "learning_rate": 9.685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240745, "epoch": 0.56825978, "global_step/max_steps": "7455/65595", "percentage": "11.37%", "elapsed_time": "8h 36m 4s", "remaining_time": "2d 19h 4m 43s"}
+{"loss": 0.12676363, "token_acc": 0.94267101, "grad_norm": 0.93036383, "learning_rate": 9.684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240759, "epoch": 0.5686409, "global_step/max_steps": "7460/65595", "percentage": "11.37%", "elapsed_time": "8h 36m 23s", "remaining_time": "2d 19h 4m 8s"}
+{"loss": 0.17388374, "token_acc": 0.9382443, "grad_norm": 0.61073202, "learning_rate": 9.684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240797, "epoch": 0.56902203, "global_step/max_steps": "7465/65595", "percentage": "11.38%", "elapsed_time": "8h 36m 38s", "remaining_time": "2d 19h 3m 9s"}
+{"loss": 0.16611563, "token_acc": 0.93541442, "grad_norm": 0.56438929, "learning_rate": 9.683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240831, "epoch": 0.56940316, "global_step/max_steps": "7470/65595", "percentage": "11.39%", "elapsed_time": "8h 36m 55s", "remaining_time": "2d 19h 2m 14s"}
+{"loss": 0.18226802, "token_acc": 0.93263035, "grad_norm": 1.325544, "learning_rate": 9.683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240855, "epoch": 0.56978428, "global_step/max_steps": "7475/65595", "percentage": "11.40%", "elapsed_time": "8h 37m 13s", "remaining_time": "2d 19h 1m 29s"}
+{"loss": 0.20334067, "token_acc": 0.92320351, "grad_norm": 1.0153743, "learning_rate": 9.683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240909, "epoch": 0.57016541, "global_step/max_steps": "7480/65595", "percentage": "11.40%", "elapsed_time": "8h 37m 26s", "remaining_time": "2d 19h 0m 14s"}
+{"loss": 0.17605402, "token_acc": 0.92698537, "grad_norm": 0.85312235, "learning_rate": 9.682e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240926, "epoch": 0.57054654, "global_step/max_steps": "7485/65595", "percentage": "11.41%", "elapsed_time": "8h 37m 45s", "remaining_time": "2d 18h 59m 37s"}
+{"loss": 0.22167871, "token_acc": 0.91818182, "grad_norm": 1.01685917, "learning_rate": 9.682e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240964, "epoch": 0.57092766, "global_step/max_steps": "7490/65595", "percentage": "11.42%", "elapsed_time": "8h 38m 1s", "remaining_time": "2d 18h 58m 38s"}
+{"loss": 0.19910808, "token_acc": 0.92512199, "grad_norm": 0.92105389, "learning_rate": 9.681e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240993, "epoch": 0.57130879, "global_step/max_steps": "7495/65595", "percentage": "11.43%", "elapsed_time": "8h 38m 18s", "remaining_time": "2d 18h 57m 48s"}
+{"loss": 0.14987854, "token_acc": 0.93779813, "grad_norm": 0.80715001, "learning_rate": 9.681e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241027, "epoch": 0.57168992, "global_step/max_steps": "7500/65595", "percentage": "11.43%", "elapsed_time": "8h 38m 34s", "remaining_time": "2d 18h 56m 53s"}
+{"loss": 0.20361323, "token_acc": 0.9153372, "grad_norm": 0.76054621, "learning_rate": 9.68e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241055, "epoch": 0.57207104, "global_step/max_steps": "7505/65595", "percentage": "11.44%", "elapsed_time": "8h 38m 51s", "remaining_time": "2d 18h 56m 4s"}
+{"loss": 0.15068873, "token_acc": 0.94033375, "grad_norm": 0.94739443, "learning_rate": 9.68e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241076, "epoch": 0.57245217, "global_step/max_steps": "7510/65595", "percentage": "11.45%", "elapsed_time": "8h 39m 9s", "remaining_time": "2d 18h 55m 23s"}
+{"loss": 0.15428023, "token_acc": 0.92854354, "grad_norm": 1.07045674, "learning_rate": 9.68e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241128, "epoch": 0.5728333, "global_step/max_steps": "7515/65595", "percentage": "11.46%", "elapsed_time": "8h 39m 23s", "remaining_time": "2d 18h 54m 10s"}
+{"loss": 0.19009583, "token_acc": 0.9291153, "grad_norm": 1.49994028, "learning_rate": 9.679e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241161, "epoch": 0.57321442, "global_step/max_steps": "7520/65595", "percentage": "11.46%", "elapsed_time": "8h 39m 40s", "remaining_time": "2d 18h 53m 16s"}
+{"loss": 0.12620053, "token_acc": 0.93631475, "grad_norm": 1.20694554, "learning_rate": 9.679e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241205, "epoch": 0.57359555, "global_step/max_steps": "7525/65595", "percentage": "11.47%", "elapsed_time": "8h 39m 55s", "remaining_time": "2d 18h 52m 12s"}
+{"loss": 0.19405066, "token_acc": 0.93421206, "grad_norm": 0.70592344, "learning_rate": 9.678e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241216, "epoch": 0.57397668, "global_step/max_steps": "7530/65595", "percentage": "11.48%", "elapsed_time": "8h 40m 14s", "remaining_time": "2d 18h 51m 40s"}
+{"loss": 0.21247978, "token_acc": 0.92634207, "grad_norm": 1.00224769, "learning_rate": 9.678e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241257, "epoch": 0.5743578, "global_step/max_steps": "7535/65595", "percentage": "11.49%", "elapsed_time": "8h 40m 30s", "remaining_time": "2d 18h 50m 39s"}
+{"loss": 0.14778281, "token_acc": 0.94406907, "grad_norm": 1.31934655, "learning_rate": 9.678e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241308, "epoch": 0.57473893, "global_step/max_steps": "7540/65595", "percentage": "11.49%", "elapsed_time": "8h 40m 44s", "remaining_time": "2d 18h 49m 27s"}
+{"loss": 0.1965206, "token_acc": 0.91425178, "grad_norm": 1.31933725, "learning_rate": 9.677e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24135, "epoch": 0.57512005, "global_step/max_steps": "7545/65595", "percentage": "11.50%", "elapsed_time": "8h 40m 59s", "remaining_time": "2d 18h 48m 24s"}
+{"loss": 0.11911582, "token_acc": 0.94730207, "grad_norm": 0.73446143, "learning_rate": 9.677e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241388, "epoch": 0.57550118, "global_step/max_steps": "7550/65595", "percentage": "11.51%", "elapsed_time": "8h 41m 15s", "remaining_time": "2d 18h 47m 26s"}
+{"loss": 0.1830458, "token_acc": 0.93514151, "grad_norm": 1.14855552, "learning_rate": 9.676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241416, "epoch": 0.57588231, "global_step/max_steps": "7555/65595", "percentage": "11.52%", "elapsed_time": "8h 41m 32s", "remaining_time": "2d 18h 46m 38s"}
+{"loss": 0.17165685, "token_acc": 0.92634107, "grad_norm": 1.19939649, "learning_rate": 9.676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241448, "epoch": 0.57626343, "global_step/max_steps": "7560/65595", "percentage": "11.53%", "elapsed_time": "8h 41m 48s", "remaining_time": "2d 18h 45m 45s"}
+{"loss": 0.17632283, "token_acc": 0.93625944, "grad_norm": 1.45188129, "learning_rate": 9.675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241491, "epoch": 0.57664456, "global_step/max_steps": "7565/65595", "percentage": "11.53%", "elapsed_time": "8h 42m 4s", "remaining_time": "2d 18h 44m 41s"}
+{"loss": 0.14193686, "token_acc": 0.95224977, "grad_norm": 0.66035962, "learning_rate": 9.675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241511, "epoch": 0.57702569, "global_step/max_steps": "7570/65595", "percentage": "11.54%", "elapsed_time": "8h 42m 22s", "remaining_time": "2d 18h 44m 1s"}
+{"loss": 0.15146863, "token_acc": 0.94106424, "grad_norm": 0.81044769, "learning_rate": 9.675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241543, "epoch": 0.57740681, "global_step/max_steps": "7575/65595", "percentage": "11.55%", "elapsed_time": "8h 42m 38s", "remaining_time": "2d 18h 43m 8s"}
+{"loss": 0.11542356, "token_acc": 0.92617278, "grad_norm": 1.02582836, "learning_rate": 9.674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241587, "epoch": 0.57778794, "global_step/max_steps": "7580/65595", "percentage": "11.56%", "elapsed_time": "8h 42m 53s", "remaining_time": "2d 18h 42m 4s"}
+{"loss": 0.13043693, "token_acc": 0.94255875, "grad_norm": 0.91344553, "learning_rate": 9.674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241607, "epoch": 0.57816907, "global_step/max_steps": "7585/65595", "percentage": "11.56%", "elapsed_time": "8h 43m 11s", "remaining_time": "2d 18h 41m 23s"}
+{"loss": 0.18219378, "token_acc": 0.91762125, "grad_norm": 0.87014914, "learning_rate": 9.673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241639, "epoch": 0.57855019, "global_step/max_steps": "7590/65595", "percentage": "11.57%", "elapsed_time": "8h 43m 28s", "remaining_time": "2d 18h 40m 31s"}
+{"loss": 0.15706671, "token_acc": 0.93558931, "grad_norm": 0.72042876, "learning_rate": 9.673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241681, "epoch": 0.57893132, "global_step/max_steps": "7595/65595", "percentage": "11.58%", "elapsed_time": "8h 43m 43s", "remaining_time": "2d 18h 39m 28s"}
+{"loss": 0.20680177, "token_acc": 0.92077295, "grad_norm": 2.16293502, "learning_rate": 9.672e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241728, "epoch": 0.57931245, "global_step/max_steps": "7600/65595", "percentage": "11.59%", "elapsed_time": "8h 43m 58s", "remaining_time": "2d 18h 38m 21s"}
+{"eval_loss": 0.13142321, "eval_token_acc": 0.93452955, "eval_runtime": 174.8925, "eval_samples_per_second": 3.03, "eval_steps_per_second": 3.03, "epoch": 0.57931245, "global_step/max_steps": "7600/65595", "percentage": "11.59%", "elapsed_time": "8h 46m 52s", "remaining_time": "2d 19h 0m 36s"}
+{"loss": 0.17283272, "token_acc": 0.93415981, "grad_norm": 0.86618233, "learning_rate": 9.672e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240418, "epoch": 0.57969357, "global_step/max_steps": "7605/65595", "percentage": "11.59%", "elapsed_time": "8h 47m 10s", "remaining_time": "2d 18h 59m 47s"}
+{"loss": 0.15058627, "token_acc": 0.93878945, "grad_norm": 1.68819427, "learning_rate": 9.672e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240442, "epoch": 0.5800747, "global_step/max_steps": "7610/65595", "percentage": "11.60%", "elapsed_time": "8h 47m 27s", "remaining_time": "2d 18h 59m 3s"}
+{"loss": 0.18901644, "token_acc": 0.93265241, "grad_norm": 2.24084496, "learning_rate": 9.671e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240494, "epoch": 0.58045583, "global_step/max_steps": "7615/65595", "percentage": "11.61%", "elapsed_time": "8h 47m 41s", "remaining_time": "2d 18h 57m 49s"}
+{"loss": 0.14305048, "token_acc": 0.94682302, "grad_norm": 1.18167973, "learning_rate": 9.671e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240537, "epoch": 0.58083695, "global_step/max_steps": "7620/65595", "percentage": "11.62%", "elapsed_time": "8h 47m 56s", "remaining_time": "2d 18h 56m 46s"}
+{"loss": 0.2084527, "token_acc": 0.91614256, "grad_norm": 0.74393249, "learning_rate": 9.67e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240584, "epoch": 0.58121808, "global_step/max_steps": "7625/65595", "percentage": "11.62%", "elapsed_time": "8h 48m 11s", "remaining_time": "2d 18h 55m 38s"}
+{"loss": 0.15073174, "token_acc": 0.94444444, "grad_norm": 0.68149513, "learning_rate": 9.67e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240616, "epoch": 0.58159921, "global_step/max_steps": "7630/65595", "percentage": "11.63%", "elapsed_time": "8h 48m 28s", "remaining_time": "2d 18h 54m 45s"}
+{"loss": 0.17440183, "token_acc": 0.92904363, "grad_norm": 0.71763486, "learning_rate": 9.669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240647, "epoch": 0.58198033, "global_step/max_steps": "7635/65595", "percentage": "11.64%", "elapsed_time": "8h 48m 44s", "remaining_time": "2d 18h 53m 53s"}
+{"loss": 0.16658301, "token_acc": 0.94191523, "grad_norm": 1.49788594, "learning_rate": 9.669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24071, "epoch": 0.58236146, "global_step/max_steps": "7640/65595", "percentage": "11.65%", "elapsed_time": "8h 48m 57s", "remaining_time": "2d 18h 52m 29s"}
+{"loss": 0.1506811, "token_acc": 0.9379824, "grad_norm": 0.45738325, "learning_rate": 9.669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240745, "epoch": 0.58274259, "global_step/max_steps": "7645/65595", "percentage": "11.65%", "elapsed_time": "8h 49m 13s", "remaining_time": "2d 18h 51m 33s"}
+{"loss": 0.15307832, "token_acc": 0.9429141, "grad_norm": 0.81927598, "learning_rate": 9.668e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240779, "epoch": 0.58312371, "global_step/max_steps": "7650/65595", "percentage": "11.66%", "elapsed_time": "8h 49m 29s", "remaining_time": "2d 18h 50m 39s"}
+{"loss": 0.10569867, "token_acc": 0.96020761, "grad_norm": 0.29432887, "learning_rate": 9.668e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240843, "epoch": 0.58350484, "global_step/max_steps": "7655/65595", "percentage": "11.67%", "elapsed_time": "8h 49m 41s", "remaining_time": "2d 18h 49m 14s"}
+{"loss": 0.19539698, "token_acc": 0.91237113, "grad_norm": 1.49567723, "learning_rate": 9.667e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240892, "epoch": 0.58388597, "global_step/max_steps": "7660/65595", "percentage": "11.68%", "elapsed_time": "8h 49m 56s", "remaining_time": "2d 18h 48m 5s"}
+{"loss": 0.14177179, "token_acc": 0.94094734, "grad_norm": 1.06412089, "learning_rate": 9.667e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240926, "epoch": 0.58426709, "global_step/max_steps": "7665/65595", "percentage": "11.69%", "elapsed_time": "8h 50m 12s", "remaining_time": "2d 18h 47m 10s"}
+{"loss": 0.13923001, "token_acc": 0.94995656, "grad_norm": 0.96831232, "learning_rate": 9.666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24095, "epoch": 0.58464822, "global_step/max_steps": "7670/65595", "percentage": "11.69%", "elapsed_time": "8h 50m 30s", "remaining_time": "2d 18h 46m 25s"}
+{"loss": 0.1823715, "token_acc": 0.92195356, "grad_norm": 1.51540542, "learning_rate": 9.666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240996, "epoch": 0.58502935, "global_step/max_steps": "7675/65595", "percentage": "11.70%", "elapsed_time": "8h 50m 44s", "remaining_time": "2d 18h 45m 19s"}
+{"loss": 0.17306166, "token_acc": 0.94893861, "grad_norm": 1.46485531, "learning_rate": 9.666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241036, "epoch": 0.58541047, "global_step/max_steps": "7680/65595", "percentage": "11.71%", "elapsed_time": "8h 51m 0s", "remaining_time": "2d 18h 44m 17s"}
+{"loss": 0.17935344, "token_acc": 0.91705069, "grad_norm": 0.97865611, "learning_rate": 9.665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24108, "epoch": 0.5857916, "global_step/max_steps": "7685/65595", "percentage": "11.72%", "elapsed_time": "8h 51m 15s", "remaining_time": "2d 18h 43m 13s"}
+{"loss": 0.21822143, "token_acc": 0.91706813, "grad_norm": 0.9718734, "learning_rate": 9.665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241106, "epoch": 0.58617273, "global_step/max_steps": "7690/65595", "percentage": "11.72%", "elapsed_time": "8h 51m 32s", "remaining_time": "2d 18h 42m 27s"}
+{"loss": 0.14806962, "token_acc": 0.94620253, "grad_norm": 1.01285481, "learning_rate": 9.664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241151, "epoch": 0.58655385, "global_step/max_steps": "7695/65595", "percentage": "11.73%", "elapsed_time": "8h 51m 47s", "remaining_time": "2d 18h 41m 21s"}
+{"loss": 0.17259991, "token_acc": 0.93985322, "grad_norm": 0.86765277, "learning_rate": 9.664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241188, "epoch": 0.58693498, "global_step/max_steps": "7700/65595", "percentage": "11.74%", "elapsed_time": "8h 52m 3s", "remaining_time": "2d 18h 40m 24s"}
+{"loss": 0.13988788, "token_acc": 0.94968449, "grad_norm": 0.79880559, "learning_rate": 9.663e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241213, "epoch": 0.58731611, "global_step/max_steps": "7705/65595", "percentage": "11.75%", "elapsed_time": "8h 52m 20s", "remaining_time": "2d 18h 39m 38s"}
+{"loss": 0.1484796, "token_acc": 0.93062538, "grad_norm": 1.90967548, "learning_rate": 9.663e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241255, "epoch": 0.58769723, "global_step/max_steps": "7710/65595", "percentage": "11.75%", "elapsed_time": "8h 52m 35s", "remaining_time": "2d 18h 38m 36s"}
+{"loss": 0.17169402, "token_acc": 0.93028256, "grad_norm": 0.72723532, "learning_rate": 9.663e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241296, "epoch": 0.58807836, "global_step/max_steps": "7715/65595", "percentage": "11.76%", "elapsed_time": "8h 52m 50s", "remaining_time": "2d 18h 37m 34s"}
+{"loss": 0.20573175, "token_acc": 0.92358014, "grad_norm": 1.25550222, "learning_rate": 9.662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241342, "epoch": 0.58845949, "global_step/max_steps": "7720/65595", "percentage": "11.77%", "elapsed_time": "8h 53m 5s", "remaining_time": "2d 18h 36m 28s"}
+{"loss": 0.1693856, "token_acc": 0.9296996, "grad_norm": 1.10177875, "learning_rate": 9.662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241394, "epoch": 0.58884061, "global_step/max_steps": "7725/65595", "percentage": "11.78%", "elapsed_time": "8h 53m 19s", "remaining_time": "2d 18h 35m 15s"}
+{"loss": 0.14452894, "token_acc": 0.93952991, "grad_norm": 0.66801786, "learning_rate": 9.661e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241431, "epoch": 0.58922174, "global_step/max_steps": "7730/65595", "percentage": "11.78%", "elapsed_time": "8h 53m 35s", "remaining_time": "2d 18h 34m 18s"}
+{"loss": 0.17860065, "token_acc": 0.93559719, "grad_norm": 0.50538272, "learning_rate": 9.661e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241468, "epoch": 0.58960287, "global_step/max_steps": "7735/65595", "percentage": "11.79%", "elapsed_time": "8h 53m 51s", "remaining_time": "2d 18h 33m 21s"}
+{"loss": 0.19879472, "token_acc": 0.92623967, "grad_norm": 0.87445945, "learning_rate": 9.66e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241509, "epoch": 0.58998399, "global_step/max_steps": "7740/65595", "percentage": "11.80%", "elapsed_time": "8h 54m 6s", "remaining_time": "2d 18h 32m 19s"}
+{"loss": 0.15277472, "token_acc": 0.93696105, "grad_norm": 1.28193903, "learning_rate": 9.66e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241554, "epoch": 0.59036512, "global_step/max_steps": "7745/65595", "percentage": "11.81%", "elapsed_time": "8h 54m 20s", "remaining_time": "2d 18h 31m 14s"}
+{"loss": 0.13909441, "token_acc": 0.9354932, "grad_norm": 0.98873401, "learning_rate": 9.66e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241599, "epoch": 0.59074625, "global_step/max_steps": "7750/65595", "percentage": "11.81%", "elapsed_time": "8h 54m 35s", "remaining_time": "2d 18h 30m 8s"}
+{"loss": 0.11140373, "token_acc": 0.92710224, "grad_norm": 0.87884474, "learning_rate": 9.659e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241651, "epoch": 0.59112737, "global_step/max_steps": "7755/65595", "percentage": "11.82%", "elapsed_time": "8h 54m 49s", "remaining_time": "2d 18h 28m 56s"}
+{"loss": 0.14730302, "token_acc": 0.94415954, "grad_norm": 1.87975609, "learning_rate": 9.659e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241687, "epoch": 0.5915085, "global_step/max_steps": "7760/65595", "percentage": "11.83%", "elapsed_time": "8h 55m 5s", "remaining_time": "2d 18h 28m 0s"}
+{"loss": 0.14082696, "token_acc": 0.94415194, "grad_norm": 0.92517179, "learning_rate": 9.658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241722, "epoch": 0.59188963, "global_step/max_steps": "7765/65595", "percentage": "11.84%", "elapsed_time": "8h 55m 21s", "remaining_time": "2d 18h 27m 5s"}
+{"loss": 0.23255737, "token_acc": 0.91209035, "grad_norm": 0.83617347, "learning_rate": 9.658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241756, "epoch": 0.59227075, "global_step/max_steps": "7770/65595", "percentage": "11.85%", "elapsed_time": "8h 55m 37s", "remaining_time": "2d 18h 26m 10s"}
+{"loss": 0.15322852, "token_acc": 0.93593421, "grad_norm": 1.2354008, "learning_rate": 9.657e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241792, "epoch": 0.59265188, "global_step/max_steps": "7775/65595", "percentage": "11.85%", "elapsed_time": "8h 55m 53s", "remaining_time": "2d 18h 25m 14s"}
+{"loss": 0.19975624, "token_acc": 0.91692444, "grad_norm": 0.72492665, "learning_rate": 9.657e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241829, "epoch": 0.59303301, "global_step/max_steps": "7780/65595", "percentage": "11.86%", "elapsed_time": "8h 56m 9s", "remaining_time": "2d 18h 24m 17s"}
+{"loss": 0.18164067, "token_acc": 0.92771247, "grad_norm": 0.69833553, "learning_rate": 9.656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241853, "epoch": 0.59341413, "global_step/max_steps": "7785/65595", "percentage": "11.87%", "elapsed_time": "8h 56m 26s", "remaining_time": "2d 18h 23m 33s"}
+{"loss": 0.12894355, "token_acc": 0.93689441, "grad_norm": 0.75448245, "learning_rate": 9.656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241895, "epoch": 0.59379526, "global_step/max_steps": "7790/65595", "percentage": "11.88%", "elapsed_time": "8h 56m 41s", "remaining_time": "2d 18h 22m 30s"}
+{"loss": 0.1892604, "token_acc": 0.91823253, "grad_norm": 0.74225098, "learning_rate": 9.656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241924, "epoch": 0.59417639, "global_step/max_steps": "7795/65595", "percentage": "11.88%", "elapsed_time": "8h 56m 58s", "remaining_time": "2d 18h 21m 41s"}
+{"loss": 0.16706839, "token_acc": 0.92918719, "grad_norm": 1.28115189, "learning_rate": 9.655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241975, "epoch": 0.59455751, "global_step/max_steps": "7800/65595", "percentage": "11.89%", "elapsed_time": "8h 57m 12s", "remaining_time": "2d 18h 20m 30s"}
+{"eval_loss": 0.13117601, "eval_token_acc": 0.93637431, "eval_runtime": 172.1513, "eval_samples_per_second": 3.079, "eval_steps_per_second": 3.079, "epoch": 0.59455751, "global_step/max_steps": "7800/65595", "percentage": "11.89%", "elapsed_time": "9h 0m 4s", "remaining_time": "2d 18h 41m 45s"}
+{"loss": 0.2318553, "token_acc": 0.93581963, "grad_norm": 1.31397212, "learning_rate": 9.655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240726, "epoch": 0.59493864, "global_step/max_steps": "7805/65595", "percentage": "11.90%", "elapsed_time": "9h 0m 20s", "remaining_time": "2d 18h 40m 48s"}
+{"loss": 0.18762571, "token_acc": 0.93006828, "grad_norm": 1.1425786, "learning_rate": 9.654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240778, "epoch": 0.59531977, "global_step/max_steps": "7810/65595", "percentage": "11.91%", "elapsed_time": "9h 0m 34s", "remaining_time": "2d 18h 39m 36s"}
+{"loss": 0.16797359, "token_acc": 0.93805511, "grad_norm": 1.44179642, "learning_rate": 9.654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240812, "epoch": 0.59570089, "global_step/max_steps": "7815/65595", "percentage": "11.91%", "elapsed_time": "9h 0m 50s", "remaining_time": "2d 18h 38m 41s"}
+{"loss": 0.19549913, "token_acc": 0.92504462, "grad_norm": 0.61339438, "learning_rate": 9.653e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24087, "epoch": 0.59608202, "global_step/max_steps": "7820/65595", "percentage": "11.92%", "elapsed_time": "9h 1m 3s", "remaining_time": "2d 18h 37m 22s"}
+{"loss": 0.18271559, "token_acc": 0.9293619, "grad_norm": 1.1524936, "learning_rate": 9.653e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240913, "epoch": 0.59646315, "global_step/max_steps": "7825/65595", "percentage": "11.93%", "elapsed_time": "9h 1m 18s", "remaining_time": "2d 18h 36m 19s"}
+{"loss": 0.18102467, "token_acc": 0.92815294, "grad_norm": 1.11530912, "learning_rate": 9.653e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240935, "epoch": 0.59684427, "global_step/max_steps": "7830/65595", "percentage": "11.94%", "elapsed_time": "9h 1m 36s", "remaining_time": "2d 18h 35m 36s"}
+{"loss": 0.20587754, "token_acc": 0.92500794, "grad_norm": 0.97884566, "learning_rate": 9.652e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240964, "epoch": 0.5972254, "global_step/max_steps": "7835/65595", "percentage": "11.94%", "elapsed_time": "9h 1m 53s", "remaining_time": "2d 18h 34m 47s"}
+{"loss": 0.22603607, "token_acc": 0.90848638, "grad_norm": 1.00251889, "learning_rate": 9.652e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241017, "epoch": 0.59760652, "global_step/max_steps": "7840/65595", "percentage": "11.95%", "elapsed_time": "9h 2m 6s", "remaining_time": "2d 18h 33m 34s"}
+{"loss": 0.16742398, "token_acc": 0.94427467, "grad_norm": 1.15527046, "learning_rate": 9.651e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241039, "epoch": 0.59798765, "global_step/max_steps": "7845/65595", "percentage": "11.96%", "elapsed_time": "9h 2m 24s", "remaining_time": "2d 18h 32m 50s"}
+{"loss": 0.1773926, "token_acc": 0.92683421, "grad_norm": 0.82097185, "learning_rate": 9.651e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241086, "epoch": 0.59836878, "global_step/max_steps": "7850/65595", "percentage": "11.97%", "elapsed_time": "9h 2m 38s", "remaining_time": "2d 18h 31m 44s"}
+{"loss": 0.17339323, "token_acc": 0.92638366, "grad_norm": 1.49412632, "learning_rate": 9.65e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241147, "epoch": 0.5987499, "global_step/max_steps": "7855/65595", "percentage": "11.97%", "elapsed_time": "9h 2m 51s", "remaining_time": "2d 18h 30m 22s"}
+{"loss": 0.15323048, "token_acc": 0.93181818, "grad_norm": 1.32754862, "learning_rate": 9.65e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241191, "epoch": 0.59913103, "global_step/max_steps": "7860/65595", "percentage": "11.98%", "elapsed_time": "9h 3m 6s", "remaining_time": "2d 18h 29m 18s"}
+{"loss": 0.16441717, "token_acc": 0.93577245, "grad_norm": 0.70134908, "learning_rate": 9.649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241218, "epoch": 0.59951216, "global_step/max_steps": "7865/65595", "percentage": "11.99%", "elapsed_time": "9h 3m 23s", "remaining_time": "2d 18h 28m 30s"}
+{"loss": 0.17687045, "token_acc": 0.9316129, "grad_norm": 1.17310607, "learning_rate": 9.649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241229, "epoch": 0.59989328, "global_step/max_steps": "7870/65595", "percentage": "12.00%", "elapsed_time": "9h 3m 42s", "remaining_time": "2d 18h 27m 59s"}
+{"loss": 0.15458996, "token_acc": 0.93736208, "grad_norm": 0.64320105, "learning_rate": 9.649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241255, "epoch": 0.60027441, "global_step/max_steps": "7875/65595", "percentage": "12.01%", "elapsed_time": "9h 3m 59s", "remaining_time": "2d 18h 27m 12s"}
+{"loss": 0.18623953, "token_acc": 0.93368273, "grad_norm": 1.33156765, "learning_rate": 9.648e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241284, "epoch": 0.60065554, "global_step/max_steps": "7880/65595", "percentage": "12.01%", "elapsed_time": "9h 4m 16s", "remaining_time": "2d 18h 26m 23s"}
+{"loss": 0.1972717, "token_acc": 0.93131548, "grad_norm": 0.93189585, "learning_rate": 9.648e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241302, "epoch": 0.60103666, "global_step/max_steps": "7885/65595", "percentage": "12.02%", "elapsed_time": "9h 4m 34s", "remaining_time": "2d 18h 25m 44s"}
+{"loss": 0.13848457, "token_acc": 0.93320313, "grad_norm": 1.21763849, "learning_rate": 9.647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241357, "epoch": 0.60141779, "global_step/max_steps": "7890/65595", "percentage": "12.03%", "elapsed_time": "9h 4m 47s", "remaining_time": "2d 18h 24m 29s"}
+{"loss": 0.25974677, "token_acc": 0.91385768, "grad_norm": 1.13313794, "learning_rate": 9.647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241383, "epoch": 0.60179892, "global_step/max_steps": "7895/65595", "percentage": "12.04%", "elapsed_time": "9h 5m 5s", "remaining_time": "2d 18h 23m 42s"}
+{"loss": 0.14623156, "token_acc": 0.93555759, "grad_norm": 0.46852529, "learning_rate": 9.646e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241419, "epoch": 0.60218004, "global_step/max_steps": "7900/65595", "percentage": "12.04%", "elapsed_time": "9h 5m 20s", "remaining_time": "2d 18h 22m 46s"}
+{"loss": 0.21618452, "token_acc": 0.90762579, "grad_norm": 1.54651821, "learning_rate": 9.646e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241471, "epoch": 0.60256117, "global_step/max_steps": "7905/65595", "percentage": "12.05%", "elapsed_time": "9h 5m 34s", "remaining_time": "2d 18h 21m 34s"}
+{"loss": 0.16696091, "token_acc": 0.93858409, "grad_norm": 0.84031212, "learning_rate": 9.645e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24147, "epoch": 0.6029423, "global_step/max_steps": "7910/65595", "percentage": "12.06%", "elapsed_time": "9h 5m 55s", "remaining_time": "2d 18h 21m 15s"}
+{"loss": 0.24054487, "token_acc": 0.90502978, "grad_norm": 1.32084036, "learning_rate": 9.645e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241515, "epoch": 0.60332342, "global_step/max_steps": "7915/65595", "percentage": "12.07%", "elapsed_time": "9h 6m 10s", "remaining_time": "2d 18h 20m 9s"}
+{"loss": 0.18515775, "token_acc": 0.93650432, "grad_norm": 0.76239842, "learning_rate": 9.645e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241541, "epoch": 0.60370455, "global_step/max_steps": "7920/65595", "percentage": "12.07%", "elapsed_time": "9h 6m 27s", "remaining_time": "2d 18h 19m 23s"}
+{"loss": 0.13962361, "token_acc": 0.94143893, "grad_norm": 0.91610813, "learning_rate": 9.644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241567, "epoch": 0.60408568, "global_step/max_steps": "7925/65595", "percentage": "12.08%", "elapsed_time": "9h 6m 44s", "remaining_time": "2d 18h 18m 36s"}
+{"loss": 0.21504023, "token_acc": 0.92623918, "grad_norm": 0.97039634, "learning_rate": 9.644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24159, "epoch": 0.6044668, "global_step/max_steps": "7930/65595", "percentage": "12.09%", "elapsed_time": "9h 7m 1s", "remaining_time": "2d 18h 17m 52s"}
+{"loss": 0.2101541, "token_acc": 0.92684439, "grad_norm": 1.17349625, "learning_rate": 9.643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24163, "epoch": 0.60484793, "global_step/max_steps": "7935/65595", "percentage": "12.10%", "elapsed_time": "9h 7m 17s", "remaining_time": "2d 18h 16m 52s"}
+{"loss": 0.17848647, "token_acc": 0.92358674, "grad_norm": 1.44186819, "learning_rate": 9.643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24168, "epoch": 0.60522906, "global_step/max_steps": "7940/65595", "percentage": "12.10%", "elapsed_time": "9h 7m 31s", "remaining_time": "2d 18h 15m 43s"}
+{"loss": 0.12784313, "token_acc": 0.9490161, "grad_norm": 0.85454124, "learning_rate": 9.642e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241722, "epoch": 0.60561018, "global_step/max_steps": "7945/65595", "percentage": "12.11%", "elapsed_time": "9h 7m 46s", "remaining_time": "2d 18h 14m 40s"}
+{"loss": 0.17703682, "token_acc": 0.92012579, "grad_norm": 0.84475535, "learning_rate": 9.642e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241766, "epoch": 0.60599131, "global_step/max_steps": "7950/65595", "percentage": "12.12%", "elapsed_time": "9h 8m 0s", "remaining_time": "2d 18h 13m 36s"}
+{"loss": 0.15238268, "token_acc": 0.93786814, "grad_norm": 0.86783367, "learning_rate": 9.641e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241788, "epoch": 0.60637244, "global_step/max_steps": "7955/65595", "percentage": "12.13%", "elapsed_time": "9h 8m 18s", "remaining_time": "2d 18h 12m 54s"}
+{"loss": 0.11448772, "token_acc": 0.93757576, "grad_norm": 0.6750896, "learning_rate": 9.641e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241828, "epoch": 0.60675356, "global_step/max_steps": "7960/65595", "percentage": "12.14%", "elapsed_time": "9h 8m 33s", "remaining_time": "2d 18h 11m 53s"}
+{"loss": 0.16998256, "token_acc": 0.92896175, "grad_norm": 0.91822577, "learning_rate": 9.641e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241871, "epoch": 0.60713469, "global_step/max_steps": "7965/65595", "percentage": "12.14%", "elapsed_time": "9h 8m 48s", "remaining_time": "2d 18h 10m 50s"}
+{"loss": 0.19324847, "token_acc": 0.91806452, "grad_norm": 1.02821112, "learning_rate": 9.64e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241906, "epoch": 0.60751582, "global_step/max_steps": "7970/65595", "percentage": "12.15%", "elapsed_time": "9h 9m 4s", "remaining_time": "2d 18h 9m 56s"}
+{"loss": 0.18764237, "token_acc": 0.92471388, "grad_norm": 0.75383502, "learning_rate": 9.64e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241931, "epoch": 0.60789694, "global_step/max_steps": "7975/65595", "percentage": "12.16%", "elapsed_time": "9h 9m 21s", "remaining_time": "2d 18h 9m 11s"}
+{"loss": 0.14887338, "token_acc": 0.94172297, "grad_norm": 0.5646143, "learning_rate": 9.639e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241989, "epoch": 0.60827807, "global_step/max_steps": "7980/65595", "percentage": "12.17%", "elapsed_time": "9h 9m 34s", "remaining_time": "2d 18h 7m 52s"}
+{"loss": 0.16283581, "token_acc": 0.94408476, "grad_norm": 2.0593977, "learning_rate": 9.639e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242029, "epoch": 0.6086592, "global_step/max_steps": "7985/65595", "percentage": "12.17%", "elapsed_time": "9h 9m 49s", "remaining_time": "2d 18h 6m 52s"}
+{"loss": 0.15430002, "token_acc": 0.92927536, "grad_norm": 0.35301957, "learning_rate": 9.638e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242078, "epoch": 0.60904032, "global_step/max_steps": "7990/65595", "percentage": "12.18%", "elapsed_time": "9h 10m 3s", "remaining_time": "2d 18h 5m 44s"}
+{"loss": 0.22461538, "token_acc": 0.91642941, "grad_norm": 1.550331, "learning_rate": 9.638e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242105, "epoch": 0.60942145, "global_step/max_steps": "7995/65595", "percentage": "12.19%", "elapsed_time": "9h 10m 20s", "remaining_time": "2d 18h 4m 57s"}
+{"loss": 0.18137159, "token_acc": 0.91859632, "grad_norm": 1.57568848, "learning_rate": 9.637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242141, "epoch": 0.60980258, "global_step/max_steps": "8000/65595", "percentage": "12.20%", "elapsed_time": "9h 10m 36s", "remaining_time": "2d 18h 4m 1s"}
+{"eval_loss": 0.13106345, "eval_token_acc": 0.93633667, "eval_runtime": 189.8956, "eval_samples_per_second": 2.791, "eval_steps_per_second": 2.791, "epoch": 0.60980258, "global_step/max_steps": "8000/65595", "percentage": "12.20%", "elapsed_time": "9h 13m 46s", "remaining_time": "2d 18h 26m 48s"}
+{"loss": 0.20544662, "token_acc": 0.93585452, "grad_norm": 1.42842829, "learning_rate": 9.637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24077, "epoch": 0.6101837, "global_step/max_steps": "8005/65595", "percentage": "12.20%", "elapsed_time": "9h 14m 5s", "remaining_time": "2d 18h 26m 14s"}
+{"loss": 0.12355037, "token_acc": 0.94260179, "grad_norm": 0.12143537, "learning_rate": 9.637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240799, "epoch": 0.61056483, "global_step/max_steps": "8010/65595", "percentage": "12.21%", "elapsed_time": "9h 14m 22s", "remaining_time": "2d 18h 25m 25s"}
+{"loss": 0.16331074, "token_acc": 0.92078635, "grad_norm": 0.27542475, "learning_rate": 9.636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240845, "epoch": 0.61094596, "global_step/max_steps": "8015/65595", "percentage": "12.22%", "elapsed_time": "9h 14m 36s", "remaining_time": "2d 18h 24m 19s"}
+{"loss": 0.19358373, "token_acc": 0.94224335, "grad_norm": 0.77162135, "learning_rate": 9.636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240863, "epoch": 0.61132708, "global_step/max_steps": "8020/65595", "percentage": "12.23%", "elapsed_time": "9h 14m 54s", "remaining_time": "2d 18h 23m 40s"}
+{"loss": 0.19928573, "token_acc": 0.91140777, "grad_norm": 1.41198528, "learning_rate": 9.635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240907, "epoch": 0.61170821, "global_step/max_steps": "8025/65595", "percentage": "12.23%", "elapsed_time": "9h 15m 9s", "remaining_time": "2d 18h 22m 35s"}
+{"loss": 0.24821348, "token_acc": 0.89827784, "grad_norm": 1.06485999, "learning_rate": 9.635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240949, "epoch": 0.61208934, "global_step/max_steps": "8030/65595", "percentage": "12.24%", "elapsed_time": "9h 15m 24s", "remaining_time": "2d 18h 21m 33s"}
+{"loss": 0.10390888, "token_acc": 0.95527344, "grad_norm": 0.84650409, "learning_rate": 9.634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240969, "epoch": 0.61247046, "global_step/max_steps": "8035/65595", "percentage": "12.25%", "elapsed_time": "9h 15m 42s", "remaining_time": "2d 18h 20m 52s"}
+{"loss": 0.15623214, "token_acc": 0.93179695, "grad_norm": 1.27138937, "learning_rate": 9.634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241017, "epoch": 0.61285159, "global_step/max_steps": "8040/65595", "percentage": "12.26%", "elapsed_time": "9h 15m 56s", "remaining_time": "2d 18h 19m 44s"}
+{"loss": 0.18682261, "token_acc": 0.94149356, "grad_norm": 0.54807353, "learning_rate": 9.633e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241039, "epoch": 0.61323272, "global_step/max_steps": "8045/65595", "percentage": "12.26%", "elapsed_time": "9h 16m 14s", "remaining_time": "2d 18h 19m 1s"}
+{"loss": 0.17028531, "token_acc": 0.94117647, "grad_norm": 0.96086258, "learning_rate": 9.633e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241045, "epoch": 0.61361384, "global_step/max_steps": "8050/65595", "percentage": "12.27%", "elapsed_time": "9h 16m 34s", "remaining_time": "2d 18h 18m 35s"}
+{"loss": 0.19159598, "token_acc": 0.92149015, "grad_norm": 1.00304449, "learning_rate": 9.633e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241097, "epoch": 0.61399497, "global_step/max_steps": "8055/65595", "percentage": "12.28%", "elapsed_time": "9h 16m 47s", "remaining_time": "2d 18h 17m 23s"}
+{"loss": 0.16223336, "token_acc": 0.93519882, "grad_norm": 0.74490023, "learning_rate": 9.632e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241138, "epoch": 0.6143761, "global_step/max_steps": "8060/65595", "percentage": "12.29%", "elapsed_time": "9h 17m 2s", "remaining_time": "2d 18h 16m 22s"}
+{"loss": 0.21803746, "token_acc": 0.91452742, "grad_norm": 1.97180021, "learning_rate": 9.632e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24118, "epoch": 0.61475722, "global_step/max_steps": "8065/65595", "percentage": "12.30%", "elapsed_time": "9h 17m 17s", "remaining_time": "2d 18h 15m 19s"}
+{"loss": 0.15574627, "token_acc": 0.93658967, "grad_norm": 1.14646602, "learning_rate": 9.631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241192, "epoch": 0.61513835, "global_step/max_steps": "8070/65595", "percentage": "12.30%", "elapsed_time": "9h 17m 36s", "remaining_time": "2d 18h 14m 47s"}
+{"loss": 0.16249715, "token_acc": 0.93344044, "grad_norm": 0.95127296, "learning_rate": 9.631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241232, "epoch": 0.61551948, "global_step/max_steps": "8075/65595", "percentage": "12.31%", "elapsed_time": "9h 17m 51s", "remaining_time": "2d 18h 13m 46s"}
+{"loss": 0.16679708, "token_acc": 0.9261477, "grad_norm": 0.87484795, "learning_rate": 9.63e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241277, "epoch": 0.6159006, "global_step/max_steps": "8080/65595", "percentage": "12.32%", "elapsed_time": "9h 18m 6s", "remaining_time": "2d 18h 12m 41s"}
+{"loss": 0.12746153, "token_acc": 0.93267167, "grad_norm": 0.9450112, "learning_rate": 9.63e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241318, "epoch": 0.61628173, "global_step/max_steps": "8085/65595", "percentage": "12.33%", "elapsed_time": "9h 18m 21s", "remaining_time": "2d 18h 11m 40s"}
+{"loss": 0.20208726, "token_acc": 0.93921515, "grad_norm": 1.53214288, "learning_rate": 9.629e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241323, "epoch": 0.61666286, "global_step/max_steps": "8090/65595", "percentage": "12.33%", "elapsed_time": "9h 18m 41s", "remaining_time": "2d 18h 11m 14s"}
+{"loss": 0.20431612, "token_acc": 0.92399691, "grad_norm": 1.7236594, "learning_rate": 9.629e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241352, "epoch": 0.61704398, "global_step/max_steps": "8095/65595", "percentage": "12.34%", "elapsed_time": "9h 18m 57s", "remaining_time": "2d 18h 10m 25s"}
+{"loss": 0.14441049, "token_acc": 0.93391877, "grad_norm": 0.90772897, "learning_rate": 9.628e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241388, "epoch": 0.61742511, "global_step/max_steps": "8100/65595", "percentage": "12.35%", "elapsed_time": "9h 19m 13s", "remaining_time": "2d 18h 9m 28s"}
+{"loss": 0.14001426, "token_acc": 0.94724363, "grad_norm": 0.93472862, "learning_rate": 9.628e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241383, "epoch": 0.61780624, "global_step/max_steps": "8105/65595", "percentage": "12.36%", "elapsed_time": "9h 19m 35s", "remaining_time": "2d 18h 9m 12s"}
+{"loss": 0.18200642, "token_acc": 0.91965429, "grad_norm": 1.15940869, "learning_rate": 9.628e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241434, "epoch": 0.61818736, "global_step/max_steps": "8110/65595", "percentage": "12.36%", "elapsed_time": "9h 19m 48s", "remaining_time": "2d 18h 8m 2s"}
+{"loss": 0.16899501, "token_acc": 0.93241323, "grad_norm": 0.80212837, "learning_rate": 9.627e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241464, "epoch": 0.61856849, "global_step/max_steps": "8115/65595", "percentage": "12.37%", "elapsed_time": "9h 20m 5s", "remaining_time": "2d 18h 7m 12s"}
+{"loss": 0.18900158, "token_acc": 0.9310391, "grad_norm": 0.83280593, "learning_rate": 9.627e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241476, "epoch": 0.61894962, "global_step/max_steps": "8120/65595", "percentage": "12.38%", "elapsed_time": "9h 20m 24s", "remaining_time": "2d 18h 6m 39s"}
+{"loss": 0.15584073, "token_acc": 0.91364353, "grad_norm": 0.61169612, "learning_rate": 9.626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241512, "epoch": 0.61933074, "global_step/max_steps": "8125/65595", "percentage": "12.39%", "elapsed_time": "9h 20m 39s", "remaining_time": "2d 18h 5m 43s"}
+{"loss": 0.19368694, "token_acc": 0.93028846, "grad_norm": 1.08642304, "learning_rate": 9.626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241539, "epoch": 0.61971187, "global_step/max_steps": "8130/65595", "percentage": "12.39%", "elapsed_time": "9h 20m 56s", "remaining_time": "2d 18h 4m 55s"}
+{"loss": 0.18076191, "token_acc": 0.93432961, "grad_norm": 1.46591032, "learning_rate": 9.625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241575, "epoch": 0.62009299, "global_step/max_steps": "8135/65595", "percentage": "12.40%", "elapsed_time": "9h 21m 12s", "remaining_time": "2d 18h 3m 59s"}
+{"loss": 0.15629597, "token_acc": 0.94500724, "grad_norm": 0.98138589, "learning_rate": 9.625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241621, "epoch": 0.62047412, "global_step/max_steps": "8140/65595", "percentage": "12.41%", "elapsed_time": "9h 21m 26s", "remaining_time": "2d 18h 2m 53s"}
+{"loss": 0.16451846, "token_acc": 0.93411194, "grad_norm": 0.67699879, "learning_rate": 9.624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241658, "epoch": 0.62085525, "global_step/max_steps": "8145/65595", "percentage": "12.42%", "elapsed_time": "9h 21m 42s", "remaining_time": "2d 18h 1m 57s"}
+{"loss": 0.21328106, "token_acc": 0.92163389, "grad_norm": 1.41936994, "learning_rate": 9.624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241706, "epoch": 0.62123637, "global_step/max_steps": "8150/65595", "percentage": "12.42%", "elapsed_time": "9h 21m 56s", "remaining_time": "2d 18h 0m 48s"}
+{"loss": 0.1773831, "token_acc": 0.95006722, "grad_norm": 2.27311683, "learning_rate": 9.623e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241702, "epoch": 0.6216175, "global_step/max_steps": "8155/65595", "percentage": "12.43%", "elapsed_time": "9h 22m 17s", "remaining_time": "2d 18h 0m 32s"}
+{"loss": 0.15275661, "token_acc": 0.93022402, "grad_norm": 0.85742599, "learning_rate": 9.623e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241754, "epoch": 0.62199863, "global_step/max_steps": "8160/65595", "percentage": "12.44%", "elapsed_time": "9h 22m 31s", "remaining_time": "2d 17h 59m 20s"}
+{"loss": 0.18044419, "token_acc": 0.91119166, "grad_norm": 1.51057601, "learning_rate": 9.623e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241807, "epoch": 0.62237975, "global_step/max_steps": "8165/65595", "percentage": "12.45%", "elapsed_time": "9h 22m 44s", "remaining_time": "2d 17h 58m 7s"}
+{"loss": 0.12229187, "token_acc": 0.93413897, "grad_norm": 0.90936935, "learning_rate": 9.622e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241851, "epoch": 0.62276088, "global_step/max_steps": "8170/65595", "percentage": "12.46%", "elapsed_time": "9h 22m 58s", "remaining_time": "2d 17h 57m 3s"}
+{"loss": 0.21604681, "token_acc": 0.92190751, "grad_norm": 0.74944615, "learning_rate": 9.622e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241873, "epoch": 0.62314201, "global_step/max_steps": "8175/65595", "percentage": "12.46%", "elapsed_time": "9h 23m 16s", "remaining_time": "2d 17h 56m 21s"}
+{"loss": 0.16938009, "token_acc": 0.92560719, "grad_norm": 1.23318601, "learning_rate": 9.621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241919, "epoch": 0.62352313, "global_step/max_steps": "8180/65595", "percentage": "12.47%", "elapsed_time": "9h 23m 30s", "remaining_time": "2d 17h 55m 15s"}
+{"loss": 0.182458, "token_acc": 0.93516152, "grad_norm": 0.7395376, "learning_rate": 9.621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241964, "epoch": 0.62390426, "global_step/max_steps": "8185/65595", "percentage": "12.48%", "elapsed_time": "9h 23m 45s", "remaining_time": "2d 17h 54m 11s"}
+{"loss": 0.21112447, "token_acc": 0.93075498, "grad_norm": 0.94454753, "learning_rate": 9.62e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24198, "epoch": 0.62428539, "global_step/max_steps": "8190/65595", "percentage": "12.49%", "elapsed_time": "9h 24m 3s", "remaining_time": "2d 17h 53m 34s"}
+{"loss": 0.17850127, "token_acc": 0.92750234, "grad_norm": 1.09790063, "learning_rate": 9.62e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242014, "epoch": 0.62466651, "global_step/max_steps": "8195/65595", "percentage": "12.49%", "elapsed_time": "9h 24m 19s", "remaining_time": "2d 17h 52m 40s"}
+{"loss": 0.14135752, "token_acc": 0.93403057, "grad_norm": 0.80796999, "learning_rate": 9.619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242057, "epoch": 0.62504764, "global_step/max_steps": "8200/65595", "percentage": "12.50%", "elapsed_time": "9h 24m 34s", "remaining_time": "2d 17h 51m 38s"}
+{"eval_loss": 0.12730992, "eval_token_acc": 0.93694657, "eval_runtime": 171.4553, "eval_samples_per_second": 3.091, "eval_steps_per_second": 3.091, "epoch": 0.62504764, "global_step/max_steps": "8200/65595", "percentage": "12.50%", "elapsed_time": "9h 27m 25s", "remaining_time": "2d 18h 11m 38s"}
+{"loss": 0.17102773, "token_acc": 0.93727869, "grad_norm": 1.41489077, "learning_rate": 9.619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240858, "epoch": 0.62542877, "global_step/max_steps": "8205/65595", "percentage": "12.51%", "elapsed_time": "9h 27m 43s", "remaining_time": "2d 18h 10m 57s"}
+{"loss": 0.23213916, "token_acc": 0.90217391, "grad_norm": 0.83103895, "learning_rate": 9.618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240887, "epoch": 0.62580989, "global_step/max_steps": "8210/65595", "percentage": "12.52%", "elapsed_time": "9h 28m 0s", "remaining_time": "2d 18h 10m 7s"}
+{"loss": 0.14814152, "token_acc": 0.93058227, "grad_norm": 0.95462531, "learning_rate": 9.618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240917, "epoch": 0.62619102, "global_step/max_steps": "8215/65595", "percentage": "12.52%", "elapsed_time": "9h 28m 16s", "remaining_time": "2d 18h 9m 17s"}
+{"loss": 0.20111682, "token_acc": 0.92018331, "grad_norm": 0.84428477, "learning_rate": 9.618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240943, "epoch": 0.62657215, "global_step/max_steps": "8220/65595", "percentage": "12.53%", "elapsed_time": "9h 28m 33s", "remaining_time": "2d 18h 8m 31s"}
+{"loss": 0.13059466, "token_acc": 0.94745763, "grad_norm": 0.57003719, "learning_rate": 9.617e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240978, "epoch": 0.62695327, "global_step/max_steps": "8225/65595", "percentage": "12.54%", "elapsed_time": "9h 28m 49s", "remaining_time": "2d 18h 7m 36s"}
+{"loss": 0.18340636, "token_acc": 0.93010753, "grad_norm": 0.77768004, "learning_rate": 9.617e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241028, "epoch": 0.6273344, "global_step/max_steps": "8230/65595", "percentage": "12.55%", "elapsed_time": "9h 29m 3s", "remaining_time": "2d 18h 6m 25s"}
+{"loss": 0.13759534, "token_acc": 0.93812255, "grad_norm": 1.10322928, "learning_rate": 9.616e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241068, "epoch": 0.62771553, "global_step/max_steps": "8235/65595", "percentage": "12.55%", "elapsed_time": "9h 29m 18s", "remaining_time": "2d 18h 5m 25s"}
+{"loss": 0.17645233, "token_acc": 0.937684, "grad_norm": 1.4373728, "learning_rate": 9.616e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241074, "epoch": 0.62809665, "global_step/max_steps": "8240/65595", "percentage": "12.56%", "elapsed_time": "9h 29m 38s", "remaining_time": "2d 18h 4m 58s"}
+{"loss": 0.20728436, "token_acc": 0.9223244, "grad_norm": 0.90781063, "learning_rate": 9.615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241109, "epoch": 0.62847778, "global_step/max_steps": "8245/65595", "percentage": "12.57%", "elapsed_time": "9h 29m 53s", "remaining_time": "2d 18h 4m 4s"}
+{"loss": 0.11596149, "token_acc": 0.95463198, "grad_norm": 1.42975283, "learning_rate": 9.615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241155, "epoch": 0.62885891, "global_step/max_steps": "8250/65595", "percentage": "12.58%", "elapsed_time": "9h 30m 8s", "remaining_time": "2d 18h 2m 57s"}
+{"loss": 0.11538888, "token_acc": 0.93554688, "grad_norm": 0.87541819, "learning_rate": 9.614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241193, "epoch": 0.62924003, "global_step/max_steps": "8255/65595", "percentage": "12.58%", "elapsed_time": "9h 30m 23s", "remaining_time": "2d 18h 1m 59s"}
+{"loss": 0.15533295, "token_acc": 0.9368171, "grad_norm": 0.66127437, "learning_rate": 9.614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241214, "epoch": 0.62962116, "global_step/max_steps": "8260/65595", "percentage": "12.59%", "elapsed_time": "9h 30m 41s", "remaining_time": "2d 18h 1m 17s"}
+{"loss": 0.19150298, "token_acc": 0.92275892, "grad_norm": 1.32629359, "learning_rate": 9.613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24125, "epoch": 0.63000229, "global_step/max_steps": "8265/65595", "percentage": "12.60%", "elapsed_time": "9h 30m 56s", "remaining_time": "2d 18h 0m 22s"}
+{"loss": 0.1591894, "token_acc": 0.9402604, "grad_norm": 1.22416663, "learning_rate": 9.613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24129, "epoch": 0.63038341, "global_step/max_steps": "8270/65595", "percentage": "12.61%", "elapsed_time": "9h 31m 11s", "remaining_time": "2d 17h 59m 22s"}
+{"loss": 0.17678125, "token_acc": 0.9336656, "grad_norm": 1.14990067, "learning_rate": 9.612e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241304, "epoch": 0.63076454, "global_step/max_steps": "8275/65595", "percentage": "12.62%", "elapsed_time": "9h 31m 30s", "remaining_time": "2d 17h 58m 46s"}
+{"loss": 0.18676252, "token_acc": 0.93487732, "grad_norm": 1.26700878, "learning_rate": 9.612e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241345, "epoch": 0.63114567, "global_step/max_steps": "8280/65595", "percentage": "12.62%", "elapsed_time": "9h 31m 45s", "remaining_time": "2d 17h 57m 46s"}
+{"loss": 0.17513938, "token_acc": 0.92607393, "grad_norm": 0.96493387, "learning_rate": 9.612e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241388, "epoch": 0.63152679, "global_step/max_steps": "8285/65595", "percentage": "12.63%", "elapsed_time": "9h 32m 0s", "remaining_time": "2d 17h 56m 43s"}
+{"loss": 0.20511427, "token_acc": 0.92399368, "grad_norm": 1.20129609, "learning_rate": 9.611e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241392, "epoch": 0.63190792, "global_step/max_steps": "8290/65595", "percentage": "12.64%", "elapsed_time": "9h 32m 20s", "remaining_time": "2d 17h 56m 18s"}
+{"loss": 0.17460933, "token_acc": 0.93131548, "grad_norm": 0.89397997, "learning_rate": 9.611e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241411, "epoch": 0.63228905, "global_step/max_steps": "8295/65595", "percentage": "12.65%", "elapsed_time": "9h 32m 38s", "remaining_time": "2d 17h 55m 38s"}
+{"loss": 0.12126558, "token_acc": 0.94937665, "grad_norm": 0.15668103, "learning_rate": 9.61e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241459, "epoch": 0.63267017, "global_step/max_steps": "8300/65595", "percentage": "12.65%", "elapsed_time": "9h 32m 52s", "remaining_time": "2d 17h 54m 31s"}
+{"loss": 0.17887375, "token_acc": 0.93438212, "grad_norm": 0.90862781, "learning_rate": 9.61e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241492, "epoch": 0.6330513, "global_step/max_steps": "8305/65595", "percentage": "12.66%", "elapsed_time": "9h 33m 8s", "remaining_time": "2d 17h 53m 37s"}
+{"loss": 0.17997029, "token_acc": 0.92765062, "grad_norm": 0.71593106, "learning_rate": 9.609e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241537, "epoch": 0.63343243, "global_step/max_steps": "8310/65595", "percentage": "12.67%", "elapsed_time": "9h 33m 22s", "remaining_time": "2d 17h 52m 33s"}
+{"loss": 0.12555792, "token_acc": 0.94837085, "grad_norm": 1.41668665, "learning_rate": 9.609e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241562, "epoch": 0.63381355, "global_step/max_steps": "8315/65595", "percentage": "12.68%", "elapsed_time": "9h 33m 39s", "remaining_time": "2d 17h 51m 47s"}
+{"loss": 0.15337046, "token_acc": 0.94131852, "grad_norm": 1.92159951, "learning_rate": 9.608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2416, "epoch": 0.63419468, "global_step/max_steps": "8320/65595", "percentage": "12.68%", "elapsed_time": "9h 33m 54s", "remaining_time": "2d 17h 50m 50s"}
+{"loss": 0.17771646, "token_acc": 0.9164391, "grad_norm": 0.74613583, "learning_rate": 9.608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241641, "epoch": 0.63457581, "global_step/max_steps": "8325/65595", "percentage": "12.69%", "elapsed_time": "9h 34m 9s", "remaining_time": "2d 17h 49m 48s"}
+{"loss": 0.15266958, "token_acc": 0.92718999, "grad_norm": 0.8541621, "learning_rate": 9.607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241678, "epoch": 0.63495693, "global_step/max_steps": "8330/65595", "percentage": "12.70%", "elapsed_time": "9h 34m 25s", "remaining_time": "2d 17h 48m 52s"}
+{"loss": 0.13736329, "token_acc": 0.9475949, "grad_norm": 0.56198245, "learning_rate": 9.607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241707, "epoch": 0.63533806, "global_step/max_steps": "8335/65595", "percentage": "12.71%", "elapsed_time": "9h 34m 41s", "remaining_time": "2d 17h 48m 3s"}
+{"loss": 0.16110675, "token_acc": 0.93535826, "grad_norm": 0.7591145, "learning_rate": 9.606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241723, "epoch": 0.63571919, "global_step/max_steps": "8340/65595", "percentage": "12.71%", "elapsed_time": "9h 35m 0s", "remaining_time": "2d 17h 47m 26s"}
+{"loss": 0.20532303, "token_acc": 0.91462806, "grad_norm": 0.88638139, "learning_rate": 9.606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241758, "epoch": 0.63610031, "global_step/max_steps": "8345/65595", "percentage": "12.72%", "elapsed_time": "9h 35m 15s", "remaining_time": "2d 17h 46m 32s"}
+{"loss": 0.1616099, "token_acc": 0.94288368, "grad_norm": 0.63453364, "learning_rate": 9.605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24179, "epoch": 0.63648144, "global_step/max_steps": "8350/65595", "percentage": "12.73%", "elapsed_time": "9h 35m 31s", "remaining_time": "2d 17h 45m 39s"}
+{"loss": 0.18547506, "token_acc": 0.9306521, "grad_norm": 0.78423417, "learning_rate": 9.605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241817, "epoch": 0.63686257, "global_step/max_steps": "8355/65595", "percentage": "12.74%", "elapsed_time": "9h 35m 48s", "remaining_time": "2d 17h 44m 52s"}
+{"loss": 0.17235246, "token_acc": 0.94458566, "grad_norm": 1.42839885, "learning_rate": 9.605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241844, "epoch": 0.63724369, "global_step/max_steps": "8360/65595", "percentage": "12.74%", "elapsed_time": "9h 36m 5s", "remaining_time": "2d 17h 44m 5s"}
+{"loss": 0.17958345, "token_acc": 0.93312854, "grad_norm": 0.84467685, "learning_rate": 9.604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241878, "epoch": 0.63762482, "global_step/max_steps": "8365/65595", "percentage": "12.75%", "elapsed_time": "9h 36m 21s", "remaining_time": "2d 17h 43m 11s"}
+{"loss": 0.20288916, "token_acc": 0.93162541, "grad_norm": 1.22495008, "learning_rate": 9.604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241898, "epoch": 0.63800595, "global_step/max_steps": "8370/65595", "percentage": "12.76%", "elapsed_time": "9h 36m 39s", "remaining_time": "2d 17h 42m 31s"}
+{"loss": 0.20430231, "token_acc": 0.930803, "grad_norm": 0.80475187, "learning_rate": 9.603e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241931, "epoch": 0.63838707, "global_step/max_steps": "8375/65595", "percentage": "12.77%", "elapsed_time": "9h 36m 55s", "remaining_time": "2d 17h 41m 38s"}
+{"loss": 0.15162469, "token_acc": 0.93908314, "grad_norm": 1.31150568, "learning_rate": 9.603e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241947, "epoch": 0.6387682, "global_step/max_steps": "8380/65595", "percentage": "12.78%", "elapsed_time": "9h 37m 13s", "remaining_time": "2d 17h 41m 2s"}
+{"loss": 0.17509646, "token_acc": 0.92673338, "grad_norm": 0.35626307, "learning_rate": 9.602e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24199, "epoch": 0.63914933, "global_step/max_steps": "8385/65595", "percentage": "12.78%", "elapsed_time": "9h 37m 27s", "remaining_time": "2d 17h 39m 59s"}
+{"loss": 0.19403173, "token_acc": 0.92162662, "grad_norm": 1.09813631, "learning_rate": 9.602e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242036, "epoch": 0.63953045, "global_step/max_steps": "8390/65595", "percentage": "12.79%", "elapsed_time": "9h 37m 42s", "remaining_time": "2d 17h 38m 54s"}
+{"loss": 0.22104952, "token_acc": 0.92069426, "grad_norm": 1.40409768, "learning_rate": 9.601e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24208, "epoch": 0.63991158, "global_step/max_steps": "8395/65595", "percentage": "12.80%", "elapsed_time": "9h 37m 56s", "remaining_time": "2d 17h 37m 50s"}
+{"loss": 0.1582309, "token_acc": 0.92719615, "grad_norm": 1.56461406, "learning_rate": 9.601e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24213, "epoch": 0.64029271, "global_step/max_steps": "8400/65595", "percentage": "12.81%", "elapsed_time": "9h 38m 9s", "remaining_time": "2d 17h 36m 41s"}
+{"eval_loss": 0.12958688, "eval_token_acc": 0.93744353, "eval_runtime": 174.435, "eval_samples_per_second": 3.038, "eval_steps_per_second": 3.038, "epoch": 0.64029271, "global_step/max_steps": "8400/65595", "percentage": "12.81%", "elapsed_time": "9h 41m 4s", "remaining_time": "2d 17h 56m 29s"}
+{"loss": 0.14245579, "token_acc": 0.93776934, "grad_norm": 0.38185179, "learning_rate": 9.6e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240942, "epoch": 0.64067383, "global_step/max_steps": "8405/65595", "percentage": "12.81%", "elapsed_time": "9h 41m 21s", "remaining_time": "2d 17h 55m 44s"}
+{"loss": 0.15536724, "token_acc": 0.93880572, "grad_norm": 1.0085634, "learning_rate": 9.6e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240966, "epoch": 0.64105496, "global_step/max_steps": "8410/65595", "percentage": "12.82%", "elapsed_time": "9h 41m 38s", "remaining_time": "2d 17h 55m 0s"}
+{"loss": 0.15746684, "token_acc": 0.94017254, "grad_norm": 0.88168359, "learning_rate": 9.599e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240993, "epoch": 0.64143609, "global_step/max_steps": "8415/65595", "percentage": "12.83%", "elapsed_time": "9h 41m 55s", "remaining_time": "2d 17h 54m 13s"}
+{"loss": 0.19809754, "token_acc": 0.90226087, "grad_norm": 0.84463537, "learning_rate": 9.599e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24104, "epoch": 0.64181721, "global_step/max_steps": "8420/65595", "percentage": "12.84%", "elapsed_time": "9h 42m 9s", "remaining_time": "2d 17h 53m 6s"}
+{"loss": 0.18180603, "token_acc": 0.92979127, "grad_norm": 0.7561236, "learning_rate": 9.598e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241086, "epoch": 0.64219834, "global_step/max_steps": "8425/65595", "percentage": "12.84%", "elapsed_time": "9h 42m 23s", "remaining_time": "2d 17h 52m 0s"}
+{"loss": 0.17112646, "token_acc": 0.9266055, "grad_norm": 1.3481884, "learning_rate": 9.598e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241115, "epoch": 0.64257946, "global_step/max_steps": "8430/65595", "percentage": "12.85%", "elapsed_time": "9h 42m 40s", "remaining_time": "2d 17h 51m 10s"}
+{"loss": 0.16461453, "token_acc": 0.93833556, "grad_norm": 1.09524524, "learning_rate": 9.598e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241141, "epoch": 0.64296059, "global_step/max_steps": "8435/65595", "percentage": "12.86%", "elapsed_time": "9h 42m 57s", "remaining_time": "2d 17h 50m 25s"}
+{"loss": 0.19042859, "token_acc": 0.93004913, "grad_norm": 1.09596443, "learning_rate": 9.597e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241149, "epoch": 0.64334172, "global_step/max_steps": "8440/65595", "percentage": "12.87%", "elapsed_time": "9h 43m 16s", "remaining_time": "2d 17h 49m 56s"}
+{"loss": 0.19325727, "token_acc": 0.91886983, "grad_norm": 1.04553175, "learning_rate": 9.597e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241184, "epoch": 0.64372284, "global_step/max_steps": "8445/65595", "percentage": "12.87%", "elapsed_time": "9h 43m 32s", "remaining_time": "2d 17h 49m 0s"}
+{"loss": 0.13968426, "token_acc": 0.94171393, "grad_norm": 0.55259883, "learning_rate": 9.596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241233, "epoch": 0.64410397, "global_step/max_steps": "8450/65595", "percentage": "12.88%", "elapsed_time": "9h 43m 46s", "remaining_time": "2d 17h 47m 52s"}
+{"loss": 0.18562925, "token_acc": 0.92138631, "grad_norm": 1.12372839, "learning_rate": 9.596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241274, "epoch": 0.6444851, "global_step/max_steps": "8455/65595", "percentage": "12.89%", "elapsed_time": "9h 44m 0s", "remaining_time": "2d 17h 46m 50s"}
+{"loss": 0.27615833, "token_acc": 0.91059939, "grad_norm": 0.90309334, "learning_rate": 9.595e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24132, "epoch": 0.64486622, "global_step/max_steps": "8460/65595", "percentage": "12.90%", "elapsed_time": "9h 44m 14s", "remaining_time": "2d 17h 45m 45s"}
+{"loss": 0.18834749, "token_acc": 0.92936391, "grad_norm": 1.22308218, "learning_rate": 9.595e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241346, "epoch": 0.64524735, "global_step/max_steps": "8465/65595", "percentage": "12.90%", "elapsed_time": "9h 44m 31s", "remaining_time": "2d 17h 44m 58s"}
+{"loss": 0.10805976, "token_acc": 0.95263284, "grad_norm": 0.83256042, "learning_rate": 9.594e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241379, "epoch": 0.64562848, "global_step/max_steps": "8470/65595", "percentage": "12.91%", "elapsed_time": "9h 44m 47s", "remaining_time": "2d 17h 44m 5s"}
+{"loss": 0.19726217, "token_acc": 0.93068298, "grad_norm": 2.52775836, "learning_rate": 9.594e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241419, "epoch": 0.6460096, "global_step/max_steps": "8475/65595", "percentage": "12.92%", "elapsed_time": "9h 45m 2s", "remaining_time": "2d 17h 43m 5s"}
+{"loss": 0.20717239, "token_acc": 0.92324073, "grad_norm": 0.81767255, "learning_rate": 9.593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241433, "epoch": 0.64639073, "global_step/max_steps": "8480/65595", "percentage": "12.93%", "elapsed_time": "9h 45m 21s", "remaining_time": "2d 17h 42m 31s"}
+{"loss": 0.22733972, "token_acc": 0.9210588, "grad_norm": 0.94248122, "learning_rate": 9.593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241465, "epoch": 0.64677186, "global_step/max_steps": "8485/65595", "percentage": "12.94%", "elapsed_time": "9h 45m 37s", "remaining_time": "2d 17h 41m 39s"}
+{"loss": 0.15941703, "token_acc": 0.94137512, "grad_norm": 1.35719728, "learning_rate": 9.592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241467, "epoch": 0.64715298, "global_step/max_steps": "8490/65595", "percentage": "12.94%", "elapsed_time": "9h 45m 57s", "remaining_time": "2d 17h 41m 16s"}
+{"loss": 0.18537269, "token_acc": 0.923305, "grad_norm": 0.84614873, "learning_rate": 9.592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241504, "epoch": 0.64753411, "global_step/max_steps": "8495/65595", "percentage": "12.95%", "elapsed_time": "9h 46m 13s", "remaining_time": "2d 17h 40m 19s"}
+{"loss": 0.18645673, "token_acc": 0.92801047, "grad_norm": 0.7605291, "learning_rate": 9.591e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241523, "epoch": 0.64791524, "global_step/max_steps": "8500/65595", "percentage": "12.96%", "elapsed_time": "9h 46m 31s", "remaining_time": "2d 17h 39m 40s"}
+{"loss": 0.15756999, "token_acc": 0.94632234, "grad_norm": 1.55629444, "learning_rate": 9.591e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241537, "epoch": 0.64829636, "global_step/max_steps": "8505/65595", "percentage": "12.97%", "elapsed_time": "9h 46m 49s", "remaining_time": "2d 17h 39m 5s"}
+{"loss": 0.23643885, "token_acc": 0.92109375, "grad_norm": 0.93774837, "learning_rate": 9.59e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241563, "epoch": 0.64867749, "global_step/max_steps": "8510/65595", "percentage": "12.97%", "elapsed_time": "9h 47m 6s", "remaining_time": "2d 17h 38m 20s"}
+{"loss": 0.20934031, "token_acc": 0.93657736, "grad_norm": 0.98712677, "learning_rate": 9.59e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24158, "epoch": 0.64905862, "global_step/max_steps": "8515/65595", "percentage": "12.98%", "elapsed_time": "9h 47m 24s", "remaining_time": "2d 17h 37m 42s"}
+{"loss": 0.17358671, "token_acc": 0.94061523, "grad_norm": 1.43401408, "learning_rate": 9.589e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241603, "epoch": 0.64943974, "global_step/max_steps": "8520/65595", "percentage": "12.99%", "elapsed_time": "9h 47m 42s", "remaining_time": "2d 17h 36m 59s"}
+{"loss": 0.15114778, "token_acc": 0.93496908, "grad_norm": 0.74611789, "learning_rate": 9.589e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24163, "epoch": 0.64982087, "global_step/max_steps": "8525/65595", "percentage": "13.00%", "elapsed_time": "9h 47m 58s", "remaining_time": "2d 17h 36m 12s"}
+{"loss": 0.13082759, "token_acc": 0.953125, "grad_norm": 1.46154344, "learning_rate": 9.589e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241657, "epoch": 0.650202, "global_step/max_steps": "8530/65595", "percentage": "13.00%", "elapsed_time": "9h 48m 15s", "remaining_time": "2d 17h 35m 25s"}
+{"loss": 0.18232908, "token_acc": 0.92222222, "grad_norm": 0.81194592, "learning_rate": 9.588e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241693, "epoch": 0.65058312, "global_step/max_steps": "8535/65595", "percentage": "13.01%", "elapsed_time": "9h 48m 31s", "remaining_time": "2d 17h 34m 30s"}
+{"loss": 0.15288931, "token_acc": 0.93365238, "grad_norm": 0.81494671, "learning_rate": 9.588e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241726, "epoch": 0.65096425, "global_step/max_steps": "8540/65595", "percentage": "13.02%", "elapsed_time": "9h 48m 47s", "remaining_time": "2d 17h 33m 36s"}
+{"loss": 0.23793921, "token_acc": 0.88435374, "grad_norm": 0.96219897, "learning_rate": 9.587e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241771, "epoch": 0.65134538, "global_step/max_steps": "8545/65595", "percentage": "13.03%", "elapsed_time": "9h 49m 1s", "remaining_time": "2d 17h 32m 32s"}
+{"loss": 0.16908464, "token_acc": 0.92460589, "grad_norm": 0.97835809, "learning_rate": 9.587e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241811, "epoch": 0.6517265, "global_step/max_steps": "8550/65595", "percentage": "13.03%", "elapsed_time": "9h 49m 15s", "remaining_time": "2d 17h 31m 32s"}
+{"loss": 0.14428446, "token_acc": 0.94623656, "grad_norm": 0.91109437, "learning_rate": 9.586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241842, "epoch": 0.65210763, "global_step/max_steps": "8555/65595", "percentage": "13.04%", "elapsed_time": "9h 49m 32s", "remaining_time": "2d 17h 30m 41s"}
+{"loss": 0.15822073, "token_acc": 0.93953151, "grad_norm": 1.15970492, "learning_rate": 9.586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241869, "epoch": 0.65248876, "global_step/max_steps": "8560/65595", "percentage": "13.05%", "elapsed_time": "9h 49m 48s", "remaining_time": "2d 17h 29m 54s"}
+{"loss": 0.16016092, "token_acc": 0.93361732, "grad_norm": 0.99576735, "learning_rate": 9.585e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241894, "epoch": 0.65286988, "global_step/max_steps": "8565/65595", "percentage": "13.06%", "elapsed_time": "9h 50m 5s", "remaining_time": "2d 17h 29m 9s"}
+{"loss": 0.19196686, "token_acc": 0.92520138, "grad_norm": 0.58462018, "learning_rate": 9.585e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241927, "epoch": 0.65325101, "global_step/max_steps": "8570/65595", "percentage": "13.07%", "elapsed_time": "9h 50m 21s", "remaining_time": "2d 17h 28m 16s"}
+{"loss": 0.16478531, "token_acc": 0.91676354, "grad_norm": 0.63236326, "learning_rate": 9.584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241959, "epoch": 0.65363214, "global_step/max_steps": "8575/65595", "percentage": "13.07%", "elapsed_time": "9h 50m 37s", "remaining_time": "2d 17h 27m 25s"}
+{"loss": 0.15533189, "token_acc": 0.93323442, "grad_norm": 0.98409528, "learning_rate": 9.584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242011, "epoch": 0.65401326, "global_step/max_steps": "8580/65595", "percentage": "13.08%", "elapsed_time": "9h 50m 50s", "remaining_time": "2d 17h 26m 13s"}
+{"loss": 0.14741787, "token_acc": 0.94455316, "grad_norm": 1.14171159, "learning_rate": 9.583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24205, "epoch": 0.65439439, "global_step/max_steps": "8585/65595", "percentage": "13.09%", "elapsed_time": "9h 51m 5s", "remaining_time": "2d 17h 25m 15s"}
+{"loss": 0.14976318, "token_acc": 0.94087523, "grad_norm": 0.73464751, "learning_rate": 9.583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242065, "epoch": 0.65477552, "global_step/max_steps": "8590/65595", "percentage": "13.10%", "elapsed_time": "9h 51m 24s", "remaining_time": "2d 17h 24m 39s"}
+{"loss": 0.16570783, "token_acc": 0.93314607, "grad_norm": 0.74734902, "learning_rate": 9.582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242092, "epoch": 0.65515664, "global_step/max_steps": "8595/65595", "percentage": "13.10%", "elapsed_time": "9h 51m 40s", "remaining_time": "2d 17h 23m 53s"}
+{"loss": 0.19766793, "token_acc": 0.91304992, "grad_norm": 0.94313443, "learning_rate": 9.582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242123, "epoch": 0.65553777, "global_step/max_steps": "8600/65595", "percentage": "13.11%", "elapsed_time": "9h 51m 56s", "remaining_time": "2d 17h 23m 1s"}
+{"eval_loss": 0.12851115, "eval_token_acc": 0.93840732, "eval_runtime": 171.0549, "eval_samples_per_second": 3.098, "eval_steps_per_second": 3.098, "epoch": 0.65553777, "global_step/max_steps": "8600/65595", "percentage": "13.11%", "elapsed_time": "9h 54m 47s", "remaining_time": "2d 17h 41m 55s"}
+{"loss": 0.15280789, "token_acc": 0.93841825, "grad_norm": 1.31709349, "learning_rate": 9.581e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241014, "epoch": 0.6559189, "global_step/max_steps": "8605/65595", "percentage": "13.12%", "elapsed_time": "9h 55m 1s", "remaining_time": "2d 17h 40m 44s"}
+{"loss": 0.1515662, "token_acc": 0.94291796, "grad_norm": 1.11952615, "learning_rate": 9.581e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24105, "epoch": 0.65630002, "global_step/max_steps": "8610/65595", "percentage": "13.13%", "elapsed_time": "9h 55m 16s", "remaining_time": "2d 17h 39m 48s"}
+{"loss": 0.15759152, "token_acc": 0.93969631, "grad_norm": 1.04792905, "learning_rate": 9.58e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24107, "epoch": 0.65668115, "global_step/max_steps": "8615/65595", "percentage": "13.13%", "elapsed_time": "9h 55m 34s", "remaining_time": "2d 17h 39m 7s"}
+{"loss": 0.20240908, "token_acc": 0.91908925, "grad_norm": 1.32742584, "learning_rate": 9.58e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241108, "epoch": 0.65706228, "global_step/max_steps": "8620/65595", "percentage": "13.14%", "elapsed_time": "9h 55m 49s", "remaining_time": "2d 17h 38m 10s"}
+{"loss": 0.22017102, "token_acc": 0.91930307, "grad_norm": 1.9867382, "learning_rate": 9.579e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241138, "epoch": 0.6574434, "global_step/max_steps": "8625/65595", "percentage": "13.15%", "elapsed_time": "9h 56m 5s", "remaining_time": "2d 17h 37m 19s"}
+{"loss": 0.14391725, "token_acc": 0.9433288, "grad_norm": 1.55642033, "learning_rate": 9.579e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241165, "epoch": 0.65782453, "global_step/max_steps": "8630/65595", "percentage": "13.16%", "elapsed_time": "9h 56m 22s", "remaining_time": "2d 17h 36m 32s"}
+{"loss": 0.22846317, "token_acc": 0.926255, "grad_norm": 0.45271945, "learning_rate": 9.578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24118, "epoch": 0.65820566, "global_step/max_steps": "8635/65595", "percentage": "13.16%", "elapsed_time": "9h 56m 40s", "remaining_time": "2d 17h 35m 57s"}
+{"loss": 0.13359334, "token_acc": 0.94121489, "grad_norm": 0.39930853, "learning_rate": 9.578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241226, "epoch": 0.65858678, "global_step/max_steps": "8640/65595", "percentage": "13.17%", "elapsed_time": "9h 56m 54s", "remaining_time": "2d 17h 34m 51s"}
+{"loss": 0.15227952, "token_acc": 0.946163, "grad_norm": 1.24412394, "learning_rate": 9.578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241272, "epoch": 0.65896791, "global_step/max_steps": "8645/65595", "percentage": "13.18%", "elapsed_time": "9h 57m 8s", "remaining_time": "2d 17h 33m 46s"}
+{"loss": 0.14404083, "token_acc": 0.94362292, "grad_norm": 1.23579848, "learning_rate": 9.577e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241276, "epoch": 0.65934904, "global_step/max_steps": "8650/65595", "percentage": "13.19%", "elapsed_time": "9h 57m 28s", "remaining_time": "2d 17h 33m 21s"}
+{"loss": 0.25566206, "token_acc": 0.91979758, "grad_norm": 0.63633287, "learning_rate": 9.577e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241307, "epoch": 0.65973016, "global_step/max_steps": "8655/65595", "percentage": "13.19%", "elapsed_time": "9h 57m 44s", "remaining_time": "2d 17h 32m 30s"}
+{"loss": 0.12260277, "token_acc": 0.93771489, "grad_norm": 0.66456676, "learning_rate": 9.576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24134, "epoch": 0.66011129, "global_step/max_steps": "8660/65595", "percentage": "13.20%", "elapsed_time": "9h 58m 0s", "remaining_time": "2d 17h 31m 37s"}
+{"loss": 0.12180486, "token_acc": 0.95429515, "grad_norm": 0.75695193, "learning_rate": 9.576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241358, "epoch": 0.66049242, "global_step/max_steps": "8665/65595", "percentage": "13.21%", "elapsed_time": "9h 58m 18s", "remaining_time": "2d 17h 30m 59s"}
+{"loss": 0.1716879, "token_acc": 0.9368476, "grad_norm": 1.01723909, "learning_rate": 9.575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241378, "epoch": 0.66087354, "global_step/max_steps": "8670/65595", "percentage": "13.22%", "elapsed_time": "9h 58m 36s", "remaining_time": "2d 17h 30m 19s"}
+{"loss": 0.15445762, "token_acc": 0.9321254, "grad_norm": 1.16716385, "learning_rate": 9.575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241416, "epoch": 0.66125467, "global_step/max_steps": "8675/65595", "percentage": "13.23%", "elapsed_time": "9h 58m 51s", "remaining_time": "2d 17h 29m 20s"}
+{"loss": 0.18331101, "token_acc": 0.9309291, "grad_norm": 1.15446532, "learning_rate": 9.574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241457, "epoch": 0.6616358, "global_step/max_steps": "8680/65595", "percentage": "13.23%", "elapsed_time": "9h 59m 6s", "remaining_time": "2d 17h 28m 20s"}
+{"loss": 0.13530209, "token_acc": 0.93392461, "grad_norm": 0.55322862, "learning_rate": 9.574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241506, "epoch": 0.66201692, "global_step/max_steps": "8685/65595", "percentage": "13.24%", "elapsed_time": "9h 59m 19s", "remaining_time": "2d 17h 27m 11s"}
+{"loss": 0.16688116, "token_acc": 0.92583979, "grad_norm": 1.38022637, "learning_rate": 9.573e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241545, "epoch": 0.66239805, "global_step/max_steps": "8690/65595", "percentage": "13.25%", "elapsed_time": "9h 59m 34s", "remaining_time": "2d 17h 26m 13s"}
+{"loss": 0.17219002, "token_acc": 0.94340129, "grad_norm": 1.36338806, "learning_rate": 9.573e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241558, "epoch": 0.66277918, "global_step/max_steps": "8695/65595", "percentage": "13.26%", "elapsed_time": "9h 59m 53s", "remaining_time": "2d 17h 25m 39s"}
+{"loss": 0.27863691, "token_acc": 0.89443768, "grad_norm": 1.5130645, "learning_rate": 9.572e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2416, "epoch": 0.6631603, "global_step/max_steps": "8700/65595", "percentage": "13.26%", "elapsed_time": "10h 0m 7s", "remaining_time": "2d 17h 24m 38s"}
+{"loss": 0.12863739, "token_acc": 0.95899317, "grad_norm": 0.82752067, "learning_rate": 9.572e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241613, "epoch": 0.66354143, "global_step/max_steps": "8705/65595", "percentage": "13.27%", "elapsed_time": "10h 0m 26s", "remaining_time": "2d 17h 24m 4s"}
+{"loss": 0.13788354, "token_acc": 0.94165067, "grad_norm": 1.55099165, "learning_rate": 9.571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241662, "epoch": 0.66392256, "global_step/max_steps": "8710/65595", "percentage": "13.28%", "elapsed_time": "10h 0m 39s", "remaining_time": "2d 17h 22m 56s"}
+{"loss": 0.17092932, "token_acc": 0.93501455, "grad_norm": 0.98346996, "learning_rate": 9.571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241699, "epoch": 0.66430368, "global_step/max_steps": "8715/65595", "percentage": "13.29%", "elapsed_time": "10h 0m 55s", "remaining_time": "2d 17h 21m 59s"}
+{"loss": 0.10659273, "token_acc": 0.95583211, "grad_norm": 1.05688334, "learning_rate": 9.57e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24173, "epoch": 0.66468481, "global_step/max_steps": "8720/65595", "percentage": "13.29%", "elapsed_time": "10h 1m 11s", "remaining_time": "2d 17h 21m 8s"}
+{"loss": 0.16662126, "token_acc": 0.93768032, "grad_norm": 1.63101435, "learning_rate": 9.57e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241754, "epoch": 0.66506593, "global_step/max_steps": "8725/65595", "percentage": "13.30%", "elapsed_time": "10h 1m 28s", "remaining_time": "2d 17h 20m 24s"}
+{"loss": 0.13291589, "token_acc": 0.94907162, "grad_norm": 0.65052187, "learning_rate": 9.569e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241786, "epoch": 0.66544706, "global_step/max_steps": "8730/65595", "percentage": "13.31%", "elapsed_time": "10h 1m 44s", "remaining_time": "2d 17h 19m 32s"}
+{"loss": 0.10045559, "token_acc": 0.95093795, "grad_norm": 0.87023181, "learning_rate": 9.569e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241819, "epoch": 0.66582819, "global_step/max_steps": "8735/65595", "percentage": "13.32%", "elapsed_time": "10h 1m 59s", "remaining_time": "2d 17h 18m 40s"}
+{"loss": 0.1531624, "token_acc": 0.95299395, "grad_norm": 0.70565552, "learning_rate": 9.568e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241848, "epoch": 0.66620931, "global_step/max_steps": "8740/65595", "percentage": "13.32%", "elapsed_time": "10h 2m 16s", "remaining_time": "2d 17h 17m 51s"}
+{"loss": 0.16463145, "token_acc": 0.93857021, "grad_norm": 1.72382259, "learning_rate": 9.568e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241876, "epoch": 0.66659044, "global_step/max_steps": "8745/65595", "percentage": "13.33%", "elapsed_time": "10h 2m 32s", "remaining_time": "2d 17h 17m 3s"}
+{"loss": 0.15795145, "token_acc": 0.94357606, "grad_norm": 1.41837907, "learning_rate": 9.567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241904, "epoch": 0.66697157, "global_step/max_steps": "8750/65595", "percentage": "13.34%", "elapsed_time": "10h 2m 49s", "remaining_time": "2d 17h 16m 15s"}
+{"loss": 0.21323838, "token_acc": 0.92023205, "grad_norm": 1.15418231, "learning_rate": 9.567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241947, "epoch": 0.66735269, "global_step/max_steps": "8755/65595", "percentage": "13.35%", "elapsed_time": "10h 3m 3s", "remaining_time": "2d 17h 15m 13s"}
+{"loss": 0.15494591, "token_acc": 0.94621904, "grad_norm": 0.65358067, "learning_rate": 9.566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24199, "epoch": 0.66773382, "global_step/max_steps": "8760/65595", "percentage": "13.35%", "elapsed_time": "10h 3m 17s", "remaining_time": "2d 17h 14m 10s"}
+{"loss": 0.19834681, "token_acc": 0.91683119, "grad_norm": 1.16942418, "learning_rate": 9.566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242028, "epoch": 0.66811495, "global_step/max_steps": "8765/65595", "percentage": "13.36%", "elapsed_time": "10h 3m 32s", "remaining_time": "2d 17h 13m 12s"}
+{"loss": 0.17736285, "token_acc": 0.9304359, "grad_norm": 0.98713011, "learning_rate": 9.565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242047, "epoch": 0.66849607, "global_step/max_steps": "8770/65595", "percentage": "13.37%", "elapsed_time": "10h 3m 50s", "remaining_time": "2d 17h 12m 34s"}
+{"loss": 0.15914329, "token_acc": 0.9309959, "grad_norm": 1.19939733, "learning_rate": 9.565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24209, "epoch": 0.6688772, "global_step/max_steps": "8775/65595", "percentage": "13.38%", "elapsed_time": "10h 4m 4s", "remaining_time": "2d 17h 11m 31s"}
+{"loss": 0.16486392, "token_acc": 0.94207051, "grad_norm": 0.42793268, "learning_rate": 9.564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242101, "epoch": 0.66925833, "global_step/max_steps": "8780/65595", "percentage": "13.39%", "elapsed_time": "10h 4m 23s", "remaining_time": "2d 17h 11m 0s"}
+{"loss": 0.2121501, "token_acc": 0.89631811, "grad_norm": 0.58970404, "learning_rate": 9.564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242147, "epoch": 0.66963945, "global_step/max_steps": "8785/65595", "percentage": "13.39%", "elapsed_time": "10h 4m 37s", "remaining_time": "2d 17h 9m 54s"}
+{"loss": 0.11364174, "token_acc": 0.94498559, "grad_norm": 0.54199058, "learning_rate": 9.563e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242175, "epoch": 0.67002058, "global_step/max_steps": "8790/65595", "percentage": "13.40%", "elapsed_time": "10h 4m 53s", "remaining_time": "2d 17h 9m 7s"}
+{"loss": 0.20366795, "token_acc": 0.91896208, "grad_norm": 2.0005374, "learning_rate": 9.563e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242221, "epoch": 0.67040171, "global_step/max_steps": "8795/65595", "percentage": "13.41%", "elapsed_time": "10h 5m 7s", "remaining_time": "2d 17h 8m 2s"}
+{"loss": 0.22212112, "token_acc": 0.91241511, "grad_norm": 1.30722034, "learning_rate": 9.562e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242253, "epoch": 0.67078283, "global_step/max_steps": "8800/65595", "percentage": "13.42%", "elapsed_time": "10h 5m 23s", "remaining_time": "2d 17h 7m 10s"}
+{"eval_loss": 0.13469699, "eval_token_acc": 0.93714234, "eval_runtime": 175.1444, "eval_samples_per_second": 3.026, "eval_steps_per_second": 3.026, "epoch": 0.67078283, "global_step/max_steps": "8800/65595", "percentage": "13.42%", "elapsed_time": "10h 8m 18s", "remaining_time": "2d 17h 26m 0s"}
+{"loss": 0.17053878, "token_acc": 0.93691452, "grad_norm": 2.53648496, "learning_rate": 9.562e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241124, "epoch": 0.67116396, "global_step/max_steps": "8805/65595", "percentage": "13.42%", "elapsed_time": "10h 8m 34s", "remaining_time": "2d 17h 25m 7s"}
+{"loss": 0.17152542, "token_acc": 0.92595584, "grad_norm": 1.40124965, "learning_rate": 9.561e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241163, "epoch": 0.67154509, "global_step/max_steps": "8810/65595", "percentage": "13.43%", "elapsed_time": "10h 8m 49s", "remaining_time": "2d 17h 24m 8s"}
+{"loss": 0.14110744, "token_acc": 0.94675794, "grad_norm": 0.88013023, "learning_rate": 9.561e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24119, "epoch": 0.67192621, "global_step/max_steps": "8815/65595", "percentage": "13.44%", "elapsed_time": "10h 9m 5s", "remaining_time": "2d 17h 23m 21s"}
+{"loss": 0.17345608, "token_acc": 0.94444444, "grad_norm": 0.91245675, "learning_rate": 9.56e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241228, "epoch": 0.67230734, "global_step/max_steps": "8820/65595", "percentage": "13.45%", "elapsed_time": "10h 9m 20s", "remaining_time": "2d 17h 22m 23s"}
+{"loss": 0.22027831, "token_acc": 0.9044586, "grad_norm": 1.58181834, "learning_rate": 9.56e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241268, "epoch": 0.67268847, "global_step/max_steps": "8825/65595", "percentage": "13.45%", "elapsed_time": "10h 9m 35s", "remaining_time": "2d 17h 21m 24s"}
+{"loss": 0.14973567, "token_acc": 0.92861526, "grad_norm": 0.62764817, "learning_rate": 9.56e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241297, "epoch": 0.67306959, "global_step/max_steps": "8830/65595", "percentage": "13.46%", "elapsed_time": "10h 9m 51s", "remaining_time": "2d 17h 20m 34s"}
+{"loss": 0.21606216, "token_acc": 0.91833564, "grad_norm": 1.15062428, "learning_rate": 9.559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241327, "epoch": 0.67345072, "global_step/max_steps": "8835/65595", "percentage": "13.47%", "elapsed_time": "10h 10m 7s", "remaining_time": "2d 17h 19m 44s"}
+{"loss": 0.13313488, "token_acc": 0.95423729, "grad_norm": 0.6084758, "learning_rate": 9.559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241367, "epoch": 0.67383185, "global_step/max_steps": "8840/65595", "percentage": "13.48%", "elapsed_time": "10h 10m 22s", "remaining_time": "2d 17h 18m 45s"}
+{"loss": 0.21463361, "token_acc": 0.9329668, "grad_norm": 1.84221756, "learning_rate": 9.558e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241399, "epoch": 0.67421297, "global_step/max_steps": "8845/65595", "percentage": "13.48%", "elapsed_time": "10h 10m 38s", "remaining_time": "2d 17h 17m 53s"}
+{"loss": 0.22564201, "token_acc": 0.90872818, "grad_norm": 0.65836835, "learning_rate": 9.558e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241438, "epoch": 0.6745941, "global_step/max_steps": "8850/65595", "percentage": "13.49%", "elapsed_time": "10h 10m 53s", "remaining_time": "2d 17h 16m 54s"}
+{"loss": 0.16976986, "token_acc": 0.92763503, "grad_norm": 0.79615456, "learning_rate": 9.557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241473, "epoch": 0.67497523, "global_step/max_steps": "8855/65595", "percentage": "13.50%", "elapsed_time": "10h 11m 8s", "remaining_time": "2d 17h 16m 0s"}
+{"loss": 0.16795276, "token_acc": 0.93802053, "grad_norm": 1.22081661, "learning_rate": 9.557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241502, "epoch": 0.67535635, "global_step/max_steps": "8860/65595", "percentage": "13.51%", "elapsed_time": "10h 11m 24s", "remaining_time": "2d 17h 15m 11s"}
+{"loss": 0.16901131, "token_acc": 0.93768042, "grad_norm": 0.66252565, "learning_rate": 9.556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241518, "epoch": 0.67573748, "global_step/max_steps": "8865/65595", "percentage": "13.51%", "elapsed_time": "10h 11m 43s", "remaining_time": "2d 17h 14m 35s"}
+{"loss": 0.18368821, "token_acc": 0.93784079, "grad_norm": 1.3168304, "learning_rate": 9.556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24153, "epoch": 0.67611861, "global_step/max_steps": "8870/65595", "percentage": "13.52%", "elapsed_time": "10h 12m 1s", "remaining_time": "2d 17h 14m 2s"}
+{"loss": 0.19685887, "token_acc": 0.93143101, "grad_norm": 1.41479611, "learning_rate": 9.555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241569, "epoch": 0.67649973, "global_step/max_steps": "8875/65595", "percentage": "13.53%", "elapsed_time": "10h 12m 16s", "remaining_time": "2d 17h 13m 4s"}
+{"loss": 0.12632844, "token_acc": 0.95097881, "grad_norm": 0.62316781, "learning_rate": 9.555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241586, "epoch": 0.67688086, "global_step/max_steps": "8880/65595", "percentage": "13.54%", "elapsed_time": "10h 12m 34s", "remaining_time": "2d 17h 12m 26s"}
+{"loss": 0.20332282, "token_acc": 0.92915447, "grad_norm": 1.18616939, "learning_rate": 9.554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241612, "epoch": 0.67726199, "global_step/max_steps": "8885/65595", "percentage": "13.55%", "elapsed_time": "10h 12m 51s", "remaining_time": "2d 17h 11m 40s"}
+{"loss": 0.16985955, "token_acc": 0.93559097, "grad_norm": 1.13476074, "learning_rate": 9.554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241656, "epoch": 0.67764311, "global_step/max_steps": "8890/65595", "percentage": "13.55%", "elapsed_time": "10h 13m 5s", "remaining_time": "2d 17h 10m 37s"}
+{"loss": 0.17807511, "token_acc": 0.92784993, "grad_norm": 1.51796019, "learning_rate": 9.553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241694, "epoch": 0.67802424, "global_step/max_steps": "8895/65595", "percentage": "13.56%", "elapsed_time": "10h 13m 20s", "remaining_time": "2d 17h 9m 40s"}
+{"loss": 0.14517058, "token_acc": 0.93554237, "grad_norm": 1.14539242, "learning_rate": 9.553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241717, "epoch": 0.67840537, "global_step/max_steps": "8900/65595", "percentage": "13.57%", "elapsed_time": "10h 13m 37s", "remaining_time": "2d 17h 8m 56s"}
+{"loss": 0.14203604, "token_acc": 0.95136244, "grad_norm": 1.26170456, "learning_rate": 9.552e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241758, "epoch": 0.67878649, "global_step/max_steps": "8905/65595", "percentage": "13.58%", "elapsed_time": "10h 13m 52s", "remaining_time": "2d 17h 7m 56s"}
+{"loss": 0.15114081, "token_acc": 0.92234364, "grad_norm": 1.04368806, "learning_rate": 9.552e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241798, "epoch": 0.67916762, "global_step/max_steps": "8910/65595", "percentage": "13.58%", "elapsed_time": "10h 14m 6s", "remaining_time": "2d 17h 6m 56s"}
+{"loss": 0.13928529, "token_acc": 0.93860364, "grad_norm": 0.34513086, "learning_rate": 9.551e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241843, "epoch": 0.67954875, "global_step/max_steps": "8915/65595", "percentage": "13.59%", "elapsed_time": "10h 14m 20s", "remaining_time": "2d 17h 5m 52s"}
+{"loss": 0.15831769, "token_acc": 0.93671498, "grad_norm": 0.62880599, "learning_rate": 9.551e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241877, "epoch": 0.67992987, "global_step/max_steps": "8920/65595", "percentage": "13.60%", "elapsed_time": "10h 14m 36s", "remaining_time": "2d 17h 4m 59s"}
+{"loss": 0.14547148, "token_acc": 0.93926731, "grad_norm": 0.85978264, "learning_rate": 9.55e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241892, "epoch": 0.680311, "global_step/max_steps": "8925/65595", "percentage": "13.61%", "elapsed_time": "10h 14m 54s", "remaining_time": "2d 17h 4m 23s"}
+{"loss": 0.10918498, "token_acc": 0.95603119, "grad_norm": 0.68573445, "learning_rate": 9.55e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241916, "epoch": 0.68069213, "global_step/max_steps": "8930/65595", "percentage": "13.61%", "elapsed_time": "10h 15m 11s", "remaining_time": "2d 17h 3m 39s"}
+{"loss": 0.1594466, "token_acc": 0.93152204, "grad_norm": 1.02984071, "learning_rate": 9.549e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241957, "epoch": 0.68107325, "global_step/max_steps": "8935/65595", "percentage": "13.62%", "elapsed_time": "10h 15m 25s", "remaining_time": "2d 17h 2m 39s"}
+{"loss": 0.19863269, "token_acc": 0.93381389, "grad_norm": 1.16442859, "learning_rate": 9.549e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241983, "epoch": 0.68145438, "global_step/max_steps": "8940/65595", "percentage": "13.63%", "elapsed_time": "10h 15m 42s", "remaining_time": "2d 17h 1m 53s"}
+{"loss": 0.13427571, "token_acc": 0.95945606, "grad_norm": 0.53542686, "learning_rate": 9.548e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242017, "epoch": 0.68183551, "global_step/max_steps": "8945/65595", "percentage": "13.64%", "elapsed_time": "10h 15m 57s", "remaining_time": "2d 17h 1m 0s"}
+{"loss": 0.11590391, "token_acc": 0.93613139, "grad_norm": 4.3197093, "learning_rate": 9.548e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242061, "epoch": 0.68221663, "global_step/max_steps": "8950/65595", "percentage": "13.64%", "elapsed_time": "10h 16m 11s", "remaining_time": "2d 16h 59m 56s"}
+{"loss": 0.22108159, "token_acc": 0.92185079, "grad_norm": 0.99758798, "learning_rate": 9.547e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242092, "epoch": 0.68259776, "global_step/max_steps": "8955/65595", "percentage": "13.65%", "elapsed_time": "10h 16m 27s", "remaining_time": "2d 16h 59m 6s"}
+{"loss": 0.21794977, "token_acc": 0.92486607, "grad_norm": 1.57802236, "learning_rate": 9.547e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242106, "epoch": 0.68297889, "global_step/max_steps": "8960/65595", "percentage": "13.66%", "elapsed_time": "10h 16m 46s", "remaining_time": "2d 16h 58m 32s"}
+{"loss": 0.18097103, "token_acc": 0.92996556, "grad_norm": 1.04016912, "learning_rate": 9.546e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242144, "epoch": 0.68336001, "global_step/max_steps": "8965/65595", "percentage": "13.67%", "elapsed_time": "10h 17m 1s", "remaining_time": "2d 16h 57m 34s"}
+{"loss": 0.21135964, "token_acc": 0.90912512, "grad_norm": 0.81871718, "learning_rate": 9.546e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242176, "epoch": 0.68374114, "global_step/max_steps": "8970/65595", "percentage": "13.67%", "elapsed_time": "10h 17m 16s", "remaining_time": "2d 16h 56m 43s"}
+{"loss": 0.18899888, "token_acc": 0.93274591, "grad_norm": 0.7409789, "learning_rate": 9.545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242198, "epoch": 0.68412227, "global_step/max_steps": "8975/65595", "percentage": "13.68%", "elapsed_time": "10h 17m 34s", "remaining_time": "2d 16h 56m 1s"}
+{"loss": 0.14227595, "token_acc": 0.9453159, "grad_norm": 1.07226467, "learning_rate": 9.545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242229, "epoch": 0.68450339, "global_step/max_steps": "8980/65595", "percentage": "13.69%", "elapsed_time": "10h 17m 50s", "remaining_time": "2d 16h 55m 11s"}
+{"loss": 0.15148913, "token_acc": 0.94313423, "grad_norm": 0.68094325, "learning_rate": 9.544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242264, "epoch": 0.68488452, "global_step/max_steps": "8985/65595", "percentage": "13.70%", "elapsed_time": "10h 18m 5s", "remaining_time": "2d 16h 54m 16s"}
+{"loss": 0.15777791, "token_acc": 0.93693694, "grad_norm": 0.84710175, "learning_rate": 9.544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242278, "epoch": 0.68526565, "global_step/max_steps": "8990/65595", "percentage": "13.71%", "elapsed_time": "10h 18m 23s", "remaining_time": "2d 16h 53m 42s"}
+{"loss": 0.18837495, "token_acc": 0.92662277, "grad_norm": 1.04974127, "learning_rate": 9.543e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242324, "epoch": 0.68564677, "global_step/max_steps": "8995/65595", "percentage": "13.71%", "elapsed_time": "10h 18m 37s", "remaining_time": "2d 16h 52m 37s"}
+{"loss": 0.16907623, "token_acc": 0.93188698, "grad_norm": 0.95823377, "learning_rate": 9.543e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242353, "epoch": 0.6860279, "global_step/max_steps": "9000/65595", "percentage": "13.72%", "elapsed_time": "10h 18m 53s", "remaining_time": "2d 16h 51m 48s"}
+{"eval_loss": 0.12857121, "eval_token_acc": 0.93861816, "eval_runtime": 175.5949, "eval_samples_per_second": 3.018, "eval_steps_per_second": 3.018, "epoch": 0.6860279, "global_step/max_steps": "9000/65595", "percentage": "13.72%", "elapsed_time": "10h 21m 49s", "remaining_time": "2d 17h 10m 12s"}
+{"loss": 0.16513875, "token_acc": 0.93849337, "grad_norm": 0.50605029, "learning_rate": 9.542e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241252, "epoch": 0.68640903, "global_step/max_steps": "9005/65595", "percentage": "13.73%", "elapsed_time": "10h 22m 3s", "remaining_time": "2d 17h 9m 14s"}
+{"loss": 0.18938639, "token_acc": 0.92691573, "grad_norm": 1.10097182, "learning_rate": 9.542e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241293, "epoch": 0.68679015, "global_step/max_steps": "9010/65595", "percentage": "13.74%", "elapsed_time": "10h 22m 18s", "remaining_time": "2d 17h 8m 13s"}
+{"loss": 0.113802, "token_acc": 0.95144891, "grad_norm": 0.73288733, "learning_rate": 9.541e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241334, "epoch": 0.68717128, "global_step/max_steps": "9015/65595", "percentage": "13.74%", "elapsed_time": "10h 22m 32s", "remaining_time": "2d 17h 7m 12s"}
+{"loss": 0.14297109, "token_acc": 0.93215706, "grad_norm": 0.22346509, "learning_rate": 9.541e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241371, "epoch": 0.6875524, "global_step/max_steps": "9020/65595", "percentage": "13.75%", "elapsed_time": "10h 22m 47s", "remaining_time": "2d 17h 6m 16s"}
+{"loss": 0.13426323, "token_acc": 0.94457187, "grad_norm": 1.71490395, "learning_rate": 9.54e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241416, "epoch": 0.68793353, "global_step/max_steps": "9025/65595", "percentage": "13.76%", "elapsed_time": "10h 23m 1s", "remaining_time": "2d 17h 5m 11s"}
+{"loss": 0.20138679, "token_acc": 0.92994012, "grad_norm": 0.9419713, "learning_rate": 9.54e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241428, "epoch": 0.68831466, "global_step/max_steps": "9030/65595", "percentage": "13.77%", "elapsed_time": "10h 23m 20s", "remaining_time": "2d 17h 4m 39s"}
+{"loss": 0.13442998, "token_acc": 0.94031687, "grad_norm": 0.69218761, "learning_rate": 9.539e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241458, "epoch": 0.68869578, "global_step/max_steps": "9035/65595", "percentage": "13.77%", "elapsed_time": "10h 23m 36s", "remaining_time": "2d 17h 3m 49s"}
+{"loss": 0.13786128, "token_acc": 0.93679674, "grad_norm": 0.82874584, "learning_rate": 9.539e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241498, "epoch": 0.68907691, "global_step/max_steps": "9040/65595", "percentage": "13.78%", "elapsed_time": "10h 23m 50s", "remaining_time": "2d 17h 2m 49s"}
+{"loss": 0.14074978, "token_acc": 0.92464879, "grad_norm": 0.5757373, "learning_rate": 9.538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241536, "epoch": 0.68945804, "global_step/max_steps": "9045/65595", "percentage": "13.79%", "elapsed_time": "10h 24m 5s", "remaining_time": "2d 17h 1m 52s"}
+{"loss": 0.16111424, "token_acc": 0.92906336, "grad_norm": 0.71215165, "learning_rate": 9.538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241592, "epoch": 0.68983916, "global_step/max_steps": "9050/65595", "percentage": "13.80%", "elapsed_time": "10h 24m 17s", "remaining_time": "2d 17h 0m 37s"}
+{"loss": 0.17431943, "token_acc": 0.93910082, "grad_norm": 0.59167624, "learning_rate": 9.537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241602, "epoch": 0.69022029, "global_step/max_steps": "9055/65595", "percentage": "13.80%", "elapsed_time": "10h 24m 36s", "remaining_time": "2d 17h 0m 6s"}
+{"loss": 0.2074374, "token_acc": 0.91681802, "grad_norm": 1.15035057, "learning_rate": 9.537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241646, "epoch": 0.69060142, "global_step/max_steps": "9060/65595", "percentage": "13.81%", "elapsed_time": "10h 24m 50s", "remaining_time": "2d 16h 59m 4s"}
+{"loss": 0.19148124, "token_acc": 0.93692431, "grad_norm": 0.92403948, "learning_rate": 9.536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241668, "epoch": 0.69098254, "global_step/max_steps": "9065/65595", "percentage": "13.82%", "elapsed_time": "10h 25m 7s", "remaining_time": "2d 16h 58m 21s"}
+{"loss": 0.16958908, "token_acc": 0.93949416, "grad_norm": 0.95134515, "learning_rate": 9.536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2417, "epoch": 0.69136367, "global_step/max_steps": "9070/65595", "percentage": "13.83%", "elapsed_time": "10h 25m 23s", "remaining_time": "2d 16h 57m 30s"}
+{"loss": 0.14342585, "token_acc": 0.9369349, "grad_norm": 1.16483855, "learning_rate": 9.535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241738, "epoch": 0.6917448, "global_step/max_steps": "9075/65595", "percentage": "13.83%", "elapsed_time": "10h 25m 38s", "remaining_time": "2d 16h 56m 32s"}
+{"loss": 0.17801239, "token_acc": 0.9343618, "grad_norm": 0.83911455, "learning_rate": 9.535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241742, "epoch": 0.69212592, "global_step/max_steps": "9080/65595", "percentage": "13.84%", "elapsed_time": "10h 25m 58s", "remaining_time": "2d 16h 56m 8s"}
+{"loss": 0.17341911, "token_acc": 0.93146067, "grad_norm": 0.95372784, "learning_rate": 9.534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241783, "epoch": 0.69250705, "global_step/max_steps": "9085/65595", "percentage": "13.85%", "elapsed_time": "10h 26m 12s", "remaining_time": "2d 16h 55m 8s"}
+{"loss": 0.1678128, "token_acc": 0.92707525, "grad_norm": 0.7163766, "learning_rate": 9.534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241831, "epoch": 0.69288818, "global_step/max_steps": "9090/65595", "percentage": "13.86%", "elapsed_time": "10h 26m 26s", "remaining_time": "2d 16h 54m 1s"}
+{"loss": 0.21151726, "token_acc": 0.92625625, "grad_norm": 1.81515384, "learning_rate": 9.533e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241864, "epoch": 0.6932693, "global_step/max_steps": "9095/65595", "percentage": "13.87%", "elapsed_time": "10h 26m 41s", "remaining_time": "2d 16h 53m 8s"}
+{"loss": 0.12327859, "token_acc": 0.9404814, "grad_norm": 0.79458904, "learning_rate": 9.533e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241915, "epoch": 0.69365043, "global_step/max_steps": "9100/65595", "percentage": "13.87%", "elapsed_time": "10h 26m 54s", "remaining_time": "2d 16h 51m 59s"}
+{"loss": 0.21699944, "token_acc": 0.91952852, "grad_norm": 1.20906818, "learning_rate": 9.532e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241928, "epoch": 0.69403156, "global_step/max_steps": "9105/65595", "percentage": "13.88%", "elapsed_time": "10h 27m 12s", "remaining_time": "2d 16h 51m 25s"}
+{"loss": 0.18052191, "token_acc": 0.93037786, "grad_norm": 0.81871843, "learning_rate": 9.532e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241969, "epoch": 0.69441268, "global_step/max_steps": "9110/65595", "percentage": "13.89%", "elapsed_time": "10h 27m 27s", "remaining_time": "2d 16h 50m 25s"}
+{"loss": 0.12614607, "token_acc": 0.94052728, "grad_norm": 0.67031914, "learning_rate": 9.531e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241991, "epoch": 0.69479381, "global_step/max_steps": "9115/65595", "percentage": "13.90%", "elapsed_time": "10h 27m 44s", "remaining_time": "2d 16h 49m 43s"}
+{"loss": 0.1510201, "token_acc": 0.9331191, "grad_norm": 0.38572073, "learning_rate": 9.531e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242016, "epoch": 0.69517494, "global_step/max_steps": "9120/65595", "percentage": "13.90%", "elapsed_time": "10h 28m 1s", "remaining_time": "2d 16h 48m 58s"}
+{"loss": 0.15617528, "token_acc": 0.92305972, "grad_norm": 0.77044362, "learning_rate": 9.53e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242055, "epoch": 0.69555606, "global_step/max_steps": "9125/65595", "percentage": "13.91%", "elapsed_time": "10h 28m 15s", "remaining_time": "2d 16h 47m 59s"}
+{"loss": 0.20035377, "token_acc": 0.90034364, "grad_norm": 0.34445956, "learning_rate": 9.53e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242098, "epoch": 0.69593719, "global_step/max_steps": "9130/65595", "percentage": "13.92%", "elapsed_time": "10h 28m 29s", "remaining_time": "2d 16h 46m 58s"}
+{"loss": 0.17889431, "token_acc": 0.92003086, "grad_norm": 1.14769983, "learning_rate": 9.529e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242136, "epoch": 0.69631832, "global_step/max_steps": "9135/65595", "percentage": "13.93%", "elapsed_time": "10h 28m 44s", "remaining_time": "2d 16h 46m 0s"}
+{"loss": 0.1309294, "token_acc": 0.93603992, "grad_norm": 0.60609943, "learning_rate": 9.529e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242173, "epoch": 0.69669944, "global_step/max_steps": "9140/65595", "percentage": "13.93%", "elapsed_time": "10h 28m 59s", "remaining_time": "2d 16h 45m 4s"}
+{"loss": 0.19163123, "token_acc": 0.93099449, "grad_norm": 1.77109385, "learning_rate": 9.528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242213, "epoch": 0.69708057, "global_step/max_steps": "9145/65595", "percentage": "13.94%", "elapsed_time": "10h 29m 13s", "remaining_time": "2d 16h 44m 5s"}
+{"loss": 0.13546504, "token_acc": 0.94558417, "grad_norm": 0.59533358, "learning_rate": 9.528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242239, "epoch": 0.6974617, "global_step/max_steps": "9150/65595", "percentage": "13.95%", "elapsed_time": "10h 29m 30s", "remaining_time": "2d 16h 43m 20s"}
+{"loss": 0.17275388, "token_acc": 0.93997119, "grad_norm": 0.8541199, "learning_rate": 9.527e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242265, "epoch": 0.69784282, "global_step/max_steps": "9155/65595", "percentage": "13.96%", "elapsed_time": "10h 29m 46s", "remaining_time": "2d 16h 42m 34s"}
+{"loss": 0.14775205, "token_acc": 0.94791275, "grad_norm": 1.70903087, "learning_rate": 9.527e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242294, "epoch": 0.69822395, "global_step/max_steps": "9160/65595", "percentage": "13.96%", "elapsed_time": "10h 30m 3s", "remaining_time": "2d 16h 41m 45s"}
+{"loss": 0.16596382, "token_acc": 0.93923146, "grad_norm": 1.23739004, "learning_rate": 9.526e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242318, "epoch": 0.69860508, "global_step/max_steps": "9165/65595", "percentage": "13.97%", "elapsed_time": "10h 30m 20s", "remaining_time": "2d 16h 41m 2s"}
+{"loss": 0.18876747, "token_acc": 0.9358222, "grad_norm": 0.7678504, "learning_rate": 9.525e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242327, "epoch": 0.6989862, "global_step/max_steps": "9170/65595", "percentage": "13.98%", "elapsed_time": "10h 30m 39s", "remaining_time": "2d 16h 40m 33s"}
+{"loss": 0.27291036, "token_acc": 0.90124877, "grad_norm": 0.98063427, "learning_rate": 9.525e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242347, "epoch": 0.69936733, "global_step/max_steps": "9175/65595", "percentage": "13.99%", "elapsed_time": "10h 30m 56s", "remaining_time": "2d 16h 39m 52s"}
+{"loss": 0.13511434, "token_acc": 0.94223046, "grad_norm": 1.33135068, "learning_rate": 9.524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242389, "epoch": 0.69974846, "global_step/max_steps": "9180/65595", "percentage": "13.99%", "elapsed_time": "10h 31m 10s", "remaining_time": "2d 16h 38m 52s"}
+{"loss": 0.1369429, "token_acc": 0.94691224, "grad_norm": 0.59600556, "learning_rate": 9.524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24242, "epoch": 0.70012958, "global_step/max_steps": "9185/65595", "percentage": "14.00%", "elapsed_time": "10h 31m 26s", "remaining_time": "2d 16h 38m 1s"}
+{"loss": 0.16868145, "token_acc": 0.9456869, "grad_norm": 0.53286237, "learning_rate": 9.523e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24246, "epoch": 0.70051071, "global_step/max_steps": "9190/65595", "percentage": "14.01%", "elapsed_time": "10h 31m 40s", "remaining_time": "2d 16h 37m 2s"}
+{"loss": 0.19919424, "token_acc": 0.91255061, "grad_norm": 0.93968457, "learning_rate": 9.523e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242497, "epoch": 0.70089184, "global_step/max_steps": "9195/65595", "percentage": "14.02%", "elapsed_time": "10h 31m 55s", "remaining_time": "2d 16h 36m 6s"}
+{"loss": 0.15298905, "token_acc": 0.93705261, "grad_norm": 0.68838513, "learning_rate": 9.522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242501, "epoch": 0.70127296, "global_step/max_steps": "9200/65595", "percentage": "14.03%", "elapsed_time": "10h 32m 15s", "remaining_time": "2d 16h 35m 42s"}
+{"eval_loss": 0.13086063, "eval_token_acc": 0.93817391, "eval_runtime": 185.3798, "eval_samples_per_second": 2.859, "eval_steps_per_second": 2.859, "epoch": 0.70127296, "global_step/max_steps": "9200/65595", "percentage": "14.03%", "elapsed_time": "10h 35m 21s", "remaining_time": "2d 16h 54m 38s"}
+{"loss": 0.1146063, "token_acc": 0.93880455, "grad_norm": 0.90172017, "learning_rate": 9.522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241322, "epoch": 0.70165409, "global_step/max_steps": "9205/65595", "percentage": "14.03%", "elapsed_time": "10h 35m 41s", "remaining_time": "2d 16h 54m 17s"}
+{"loss": 0.17072108, "token_acc": 0.93852384, "grad_norm": 0.96778888, "learning_rate": 9.521e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241354, "epoch": 0.70203522, "global_step/max_steps": "9210/65595", "percentage": "14.04%", "elapsed_time": "10h 35m 57s", "remaining_time": "2d 16h 53m 25s"}
+{"loss": 0.17181146, "token_acc": 0.94600062, "grad_norm": 0.64504862, "learning_rate": 9.521e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241376, "epoch": 0.70241634, "global_step/max_steps": "9215/65595", "percentage": "14.05%", "elapsed_time": "10h 36m 14s", "remaining_time": "2d 16h 52m 43s"}
+{"loss": 0.15026689, "token_acc": 0.93310181, "grad_norm": 1.51382077, "learning_rate": 9.52e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241407, "epoch": 0.70279747, "global_step/max_steps": "9220/65595", "percentage": "14.06%", "elapsed_time": "10h 36m 30s", "remaining_time": "2d 16h 51m 53s"}
+{"loss": 0.13592062, "token_acc": 0.94009067, "grad_norm": 0.99844366, "learning_rate": 9.52e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241426, "epoch": 0.7031786, "global_step/max_steps": "9225/65595", "percentage": "14.06%", "elapsed_time": "10h 36m 48s", "remaining_time": "2d 16h 51m 13s"}
+{"loss": 0.20855324, "token_acc": 0.91970155, "grad_norm": 1.01462126, "learning_rate": 9.519e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241445, "epoch": 0.70355972, "global_step/max_steps": "9230/65595", "percentage": "14.07%", "elapsed_time": "10h 37m 5s", "remaining_time": "2d 16h 50m 34s"}
+{"loss": 0.14185711, "token_acc": 0.93752396, "grad_norm": 0.77647948, "learning_rate": 9.519e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241488, "epoch": 0.70394085, "global_step/max_steps": "9235/65595", "percentage": "14.08%", "elapsed_time": "10h 37m 19s", "remaining_time": "2d 16h 49m 32s"}
+{"loss": 0.14879272, "token_acc": 0.93462007, "grad_norm": 1.43915522, "learning_rate": 9.518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24151, "epoch": 0.70432198, "global_step/max_steps": "9240/65595", "percentage": "14.09%", "elapsed_time": "10h 37m 36s", "remaining_time": "2d 16h 48m 50s"}
+{"loss": 0.13160188, "token_acc": 0.94655051, "grad_norm": 0.96704447, "learning_rate": 9.518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241534, "epoch": 0.7047031, "global_step/max_steps": "9245/65595", "percentage": "14.09%", "elapsed_time": "10h 37m 53s", "remaining_time": "2d 16h 48m 6s"}
+{"loss": 0.10536361, "token_acc": 0.94938272, "grad_norm": 0.61863577, "learning_rate": 9.517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241563, "epoch": 0.70508423, "global_step/max_steps": "9250/65595", "percentage": "14.10%", "elapsed_time": "10h 38m 10s", "remaining_time": "2d 16h 47m 18s"}
+{"loss": 0.2260952, "token_acc": 0.91398408, "grad_norm": 0.48218545, "learning_rate": 9.517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241589, "epoch": 0.70546536, "global_step/max_steps": "9255/65595", "percentage": "14.11%", "elapsed_time": "10h 38m 26s", "remaining_time": "2d 16h 46m 31s"}
+{"loss": 0.1231639, "token_acc": 0.94694208, "grad_norm": 0.45969185, "learning_rate": 9.516e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241613, "epoch": 0.70584648, "global_step/max_steps": "9260/65595", "percentage": "14.12%", "elapsed_time": "10h 38m 43s", "remaining_time": "2d 16h 45m 48s"}
+{"loss": 0.12428358, "token_acc": 0.94256228, "grad_norm": 0.75611371, "learning_rate": 9.516e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241625, "epoch": 0.70622761, "global_step/max_steps": "9265/65595", "percentage": "14.12%", "elapsed_time": "10h 39m 2s", "remaining_time": "2d 16h 45m 15s"}
+{"loss": 0.15767552, "token_acc": 0.93826739, "grad_norm": 0.99526739, "learning_rate": 9.515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241662, "epoch": 0.70660874, "global_step/max_steps": "9270/65595", "percentage": "14.13%", "elapsed_time": "10h 39m 17s", "remaining_time": "2d 16h 44m 19s"}
+{"loss": 0.21163893, "token_acc": 0.91865672, "grad_norm": 0.75418442, "learning_rate": 9.515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241683, "epoch": 0.70698986, "global_step/max_steps": "9275/65595", "percentage": "14.14%", "elapsed_time": "10h 39m 34s", "remaining_time": "2d 16h 43m 39s"}
+{"loss": 0.07625975, "token_acc": 0.96419437, "grad_norm": 0.61405975, "learning_rate": 9.514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241731, "epoch": 0.70737099, "global_step/max_steps": "9280/65595", "percentage": "14.15%", "elapsed_time": "10h 39m 47s", "remaining_time": "2d 16h 42m 31s"}
+{"loss": 0.15799406, "token_acc": 0.92940725, "grad_norm": 2.14763021, "learning_rate": 9.514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241763, "epoch": 0.70775212, "global_step/max_steps": "9285/65595", "percentage": "14.16%", "elapsed_time": "10h 40m 3s", "remaining_time": "2d 16h 41m 40s"}
+{"loss": 0.18859422, "token_acc": 0.92985253, "grad_norm": 0.95676398, "learning_rate": 9.513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241787, "epoch": 0.70813324, "global_step/max_steps": "9290/65595", "percentage": "14.16%", "elapsed_time": "10h 40m 19s", "remaining_time": "2d 16h 40m 56s"}
+{"loss": 0.20215762, "token_acc": 0.92386968, "grad_norm": 1.33043087, "learning_rate": 9.513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241825, "epoch": 0.70851437, "global_step/max_steps": "9295/65595", "percentage": "14.17%", "elapsed_time": "10h 40m 34s", "remaining_time": "2d 16h 39m 59s"}
+{"loss": 0.29559197, "token_acc": 0.89385113, "grad_norm": 1.13534725, "learning_rate": 9.512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241865, "epoch": 0.7088955, "global_step/max_steps": "9300/65595", "percentage": "14.18%", "elapsed_time": "10h 40m 49s", "remaining_time": "2d 16h 39m 0s"}
+{"loss": 0.13640637, "token_acc": 0.9401926, "grad_norm": 1.06102586, "learning_rate": 9.512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241902, "epoch": 0.70927662, "global_step/max_steps": "9305/65595", "percentage": "14.19%", "elapsed_time": "10h 41m 3s", "remaining_time": "2d 16h 38m 3s"}
+{"loss": 0.14563468, "token_acc": 0.94302269, "grad_norm": 1.52713406, "learning_rate": 9.511e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241952, "epoch": 0.70965775, "global_step/max_steps": "9310/65595", "percentage": "14.19%", "elapsed_time": "10h 41m 16s", "remaining_time": "2d 16h 36m 55s"}
+{"loss": 0.13970212, "token_acc": 0.93312901, "grad_norm": 0.81231052, "learning_rate": 9.511e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241991, "epoch": 0.71003887, "global_step/max_steps": "9315/65595", "percentage": "14.20%", "elapsed_time": "10h 41m 30s", "remaining_time": "2d 16h 35m 57s"}
+{"loss": 0.14172838, "token_acc": 0.94132029, "grad_norm": 1.09623158, "learning_rate": 9.51e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242004, "epoch": 0.71042, "global_step/max_steps": "9320/65595", "percentage": "14.21%", "elapsed_time": "10h 41m 49s", "remaining_time": "2d 16h 35m 23s"}
+{"loss": 0.12998594, "token_acc": 0.94956336, "grad_norm": 0.90211385, "learning_rate": 9.51e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242026, "epoch": 0.71080113, "global_step/max_steps": "9325/65595", "percentage": "14.22%", "elapsed_time": "10h 42m 6s", "remaining_time": "2d 16h 34m 41s"}
+{"loss": 0.14173335, "token_acc": 0.94969735, "grad_norm": 0.95775712, "learning_rate": 9.509e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242052, "epoch": 0.71118225, "global_step/max_steps": "9330/65595", "percentage": "14.22%", "elapsed_time": "10h 42m 23s", "remaining_time": "2d 16h 33m 56s"}
+{"loss": 0.13561689, "token_acc": 0.93635716, "grad_norm": 1.46735597, "learning_rate": 9.509e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242091, "epoch": 0.71156338, "global_step/max_steps": "9335/65595", "percentage": "14.23%", "elapsed_time": "10h 42m 37s", "remaining_time": "2d 16h 32m 58s"}
+{"loss": 0.20392985, "token_acc": 0.92137889, "grad_norm": 1.10841501, "learning_rate": 9.508e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242129, "epoch": 0.71194451, "global_step/max_steps": "9340/65595", "percentage": "14.24%", "elapsed_time": "10h 42m 52s", "remaining_time": "2d 16h 32m 1s"}
+{"loss": 0.25233445, "token_acc": 0.89060184, "grad_norm": 0.83828783, "learning_rate": 9.508e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242166, "epoch": 0.71232563, "global_step/max_steps": "9345/65595", "percentage": "14.25%", "elapsed_time": "10h 43m 6s", "remaining_time": "2d 16h 31m 4s"}
+{"loss": 0.18749039, "token_acc": 0.93235931, "grad_norm": 1.25488174, "learning_rate": 9.507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242215, "epoch": 0.71270676, "global_step/max_steps": "9350/65595", "percentage": "14.25%", "elapsed_time": "10h 43m 19s", "remaining_time": "2d 16h 29m 57s"}
+{"loss": 0.19393816, "token_acc": 0.92553901, "grad_norm": 1.73762727, "learning_rate": 9.506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242249, "epoch": 0.71308789, "global_step/max_steps": "9355/65595", "percentage": "14.26%", "elapsed_time": "10h 43m 34s", "remaining_time": "2d 16h 29m 3s"}
+{"loss": 0.13960931, "token_acc": 0.9398688, "grad_norm": 0.92695516, "learning_rate": 9.506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242295, "epoch": 0.71346901, "global_step/max_steps": "9360/65595", "percentage": "14.27%", "elapsed_time": "10h 43m 48s", "remaining_time": "2d 16h 27m 59s"}
+{"loss": 0.15177395, "token_acc": 0.94149466, "grad_norm": 0.75817281, "learning_rate": 9.505e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242303, "epoch": 0.71385014, "global_step/max_steps": "9365/65595", "percentage": "14.28%", "elapsed_time": "10h 44m 7s", "remaining_time": "2d 16h 27m 31s"}
+{"loss": 0.14161267, "token_acc": 0.94576828, "grad_norm": 1.19781089, "learning_rate": 9.505e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242333, "epoch": 0.71423127, "global_step/max_steps": "9370/65595", "percentage": "14.28%", "elapsed_time": "10h 44m 23s", "remaining_time": "2d 16h 26m 41s"}
+{"loss": 0.15277047, "token_acc": 0.93096321, "grad_norm": 1.24923086, "learning_rate": 9.504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242363, "epoch": 0.71461239, "global_step/max_steps": "9375/65595", "percentage": "14.29%", "elapsed_time": "10h 44m 39s", "remaining_time": "2d 16h 25m 53s"}
+{"loss": 0.13427114, "token_acc": 0.94095507, "grad_norm": 0.94466555, "learning_rate": 9.504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242393, "epoch": 0.71499352, "global_step/max_steps": "9380/65595", "percentage": "14.30%", "elapsed_time": "10h 44m 55s", "remaining_time": "2d 16h 25m 3s"}
+{"loss": 0.16234105, "token_acc": 0.9401289, "grad_norm": 0.90606475, "learning_rate": 9.503e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242418, "epoch": 0.71537465, "global_step/max_steps": "9385/65595", "percentage": "14.31%", "elapsed_time": "10h 45m 11s", "remaining_time": "2d 16h 24m 19s"}
+{"loss": 0.22716122, "token_acc": 0.91056787, "grad_norm": 1.0125345, "learning_rate": 9.503e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242433, "epoch": 0.71575577, "global_step/max_steps": "9390/65595", "percentage": "14.32%", "elapsed_time": "10h 45m 30s", "remaining_time": "2d 16h 23m 43s"}
+{"loss": 0.16765108, "token_acc": 0.92959535, "grad_norm": 2.13636518, "learning_rate": 9.502e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242458, "epoch": 0.7161369, "global_step/max_steps": "9395/65595", "percentage": "14.32%", "elapsed_time": "10h 45m 46s", "remaining_time": "2d 16h 22m 59s"}
+{"loss": 0.14179101, "token_acc": 0.94754797, "grad_norm": 0.92731982, "learning_rate": 9.502e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242469, "epoch": 0.71651803, "global_step/max_steps": "9400/65595", "percentage": "14.33%", "elapsed_time": "10h 46m 5s", "remaining_time": "2d 16h 22m 28s"}
+{"eval_loss": 0.1255478, "eval_token_acc": 0.93967984, "eval_runtime": 173.7211, "eval_samples_per_second": 3.051, "eval_steps_per_second": 3.051, "epoch": 0.71651803, "global_step/max_steps": "9400/65595", "percentage": "14.33%", "elapsed_time": "10h 48m 59s", "remaining_time": "2d 16h 39m 46s"}
+{"loss": 0.16858606, "token_acc": 0.93959511, "grad_norm": 0.90809065, "learning_rate": 9.501e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241409, "epoch": 0.71689915, "global_step/max_steps": "9405/65595", "percentage": "14.34%", "elapsed_time": "10h 49m 16s", "remaining_time": "2d 16h 39m 5s"}
+{"loss": 0.13730581, "token_acc": 0.94706706, "grad_norm": 0.66071993, "learning_rate": 9.501e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241424, "epoch": 0.71728028, "global_step/max_steps": "9410/65595", "percentage": "14.35%", "elapsed_time": "10h 49m 34s", "remaining_time": "2d 16h 38m 29s"}
+{"loss": 0.20568476, "token_acc": 0.93788692, "grad_norm": 0.71002233, "learning_rate": 9.5e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24145, "epoch": 0.71766141, "global_step/max_steps": "9415/65595", "percentage": "14.35%", "elapsed_time": "10h 49m 51s", "remaining_time": "2d 16h 37m 44s"}
+{"loss": 0.11031845, "token_acc": 0.94404494, "grad_norm": 1.00209296, "learning_rate": 9.5e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241478, "epoch": 0.71804253, "global_step/max_steps": "9420/65595", "percentage": "14.36%", "elapsed_time": "10h 50m 7s", "remaining_time": "2d 16h 36m 56s"}
+{"loss": 0.1549396, "token_acc": 0.9365699, "grad_norm": 0.79082769, "learning_rate": 9.499e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241508, "epoch": 0.71842366, "global_step/max_steps": "9425/65595", "percentage": "14.37%", "elapsed_time": "10h 50m 23s", "remaining_time": "2d 16h 36m 6s"}
+{"loss": 0.16566228, "token_acc": 0.93727073, "grad_norm": 0.71216261, "learning_rate": 9.499e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241552, "epoch": 0.71880479, "global_step/max_steps": "9430/65595", "percentage": "14.38%", "elapsed_time": "10h 50m 36s", "remaining_time": "2d 16h 35m 3s"}
+{"loss": 0.23364463, "token_acc": 0.91956979, "grad_norm": 0.69131052, "learning_rate": 9.498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241581, "epoch": 0.71918591, "global_step/max_steps": "9435/65595", "percentage": "14.38%", "elapsed_time": "10h 50m 53s", "remaining_time": "2d 16h 34m 15s"}
+{"loss": 0.14959674, "token_acc": 0.93617694, "grad_norm": 0.86807799, "learning_rate": 9.498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241621, "epoch": 0.71956704, "global_step/max_steps": "9440/65595", "percentage": "14.39%", "elapsed_time": "10h 51m 7s", "remaining_time": "2d 16h 33m 16s"}
+{"loss": 0.13811256, "token_acc": 0.93354232, "grad_norm": 1.28036201, "learning_rate": 9.497e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241657, "epoch": 0.71994817, "global_step/max_steps": "9445/65595", "percentage": "14.40%", "elapsed_time": "10h 51m 22s", "remaining_time": "2d 16h 32m 20s"}
+{"loss": 0.16256261, "token_acc": 0.94128114, "grad_norm": 0.82656246, "learning_rate": 9.497e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241689, "epoch": 0.72032929, "global_step/max_steps": "9450/65595", "percentage": "14.41%", "elapsed_time": "10h 51m 37s", "remaining_time": "2d 16h 31m 28s"}
+{"loss": 0.20339487, "token_acc": 0.8913672, "grad_norm": 0.74006486, "learning_rate": 9.496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241734, "epoch": 0.72071042, "global_step/max_steps": "9455/65595", "percentage": "14.41%", "elapsed_time": "10h 51m 50s", "remaining_time": "2d 16h 30m 25s"}
+{"loss": 0.15558652, "token_acc": 0.93710923, "grad_norm": 0.95055282, "learning_rate": 9.496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241777, "epoch": 0.72109155, "global_step/max_steps": "9460/65595", "percentage": "14.42%", "elapsed_time": "10h 52m 4s", "remaining_time": "2d 16h 29m 23s"}
+{"loss": 0.19748167, "token_acc": 0.91791745, "grad_norm": 1.65618145, "learning_rate": 9.495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24181, "epoch": 0.72147267, "global_step/max_steps": "9465/65595", "percentage": "14.43%", "elapsed_time": "10h 52m 20s", "remaining_time": "2d 16h 28m 31s"}
+{"loss": 0.15923698, "token_acc": 0.93965661, "grad_norm": 0.74718165, "learning_rate": 9.494e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241831, "epoch": 0.7218538, "global_step/max_steps": "9470/65595", "percentage": "14.44%", "elapsed_time": "10h 52m 37s", "remaining_time": "2d 16h 27m 50s"}
+{"loss": 0.1591506, "token_acc": 0.92299044, "grad_norm": 1.47126257, "learning_rate": 9.494e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241872, "epoch": 0.72223493, "global_step/max_steps": "9475/65595", "percentage": "14.44%", "elapsed_time": "10h 52m 51s", "remaining_time": "2d 16h 26m 50s"}
+{"loss": 0.21880991, "token_acc": 0.91996111, "grad_norm": 1.27556717, "learning_rate": 9.493e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241911, "epoch": 0.72261605, "global_step/max_steps": "9480/65595", "percentage": "14.45%", "elapsed_time": "10h 53m 5s", "remaining_time": "2d 16h 25m 52s"}
+{"loss": 0.18624883, "token_acc": 0.9279752, "grad_norm": 0.59726477, "learning_rate": 9.493e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241949, "epoch": 0.72299718, "global_step/max_steps": "9485/65595", "percentage": "14.46%", "elapsed_time": "10h 53m 20s", "remaining_time": "2d 16h 24m 55s"}
+{"loss": 0.13626194, "token_acc": 0.95597397, "grad_norm": 0.66703045, "learning_rate": 9.492e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241959, "epoch": 0.72337831, "global_step/max_steps": "9490/65595", "percentage": "14.47%", "elapsed_time": "10h 53m 39s", "remaining_time": "2d 16h 24m 25s"}
+{"loss": 0.15555207, "token_acc": 0.94100295, "grad_norm": 1.27283895, "learning_rate": 9.492e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24198, "epoch": 0.72375943, "global_step/max_steps": "9495/65595", "percentage": "14.48%", "elapsed_time": "10h 53m 56s", "remaining_time": "2d 16h 23m 43s"}
+{"loss": 0.19695691, "token_acc": 0.92263344, "grad_norm": 1.06889832, "learning_rate": 9.491e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241999, "epoch": 0.72414056, "global_step/max_steps": "9500/65595", "percentage": "14.48%", "elapsed_time": "10h 54m 14s", "remaining_time": "2d 16h 23m 4s"}
+{"loss": 0.14586709, "token_acc": 0.93911917, "grad_norm": 0.84975052, "learning_rate": 9.491e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242019, "epoch": 0.72452169, "global_step/max_steps": "9505/65595", "percentage": "14.49%", "elapsed_time": "10h 54m 31s", "remaining_time": "2d 16h 22m 25s"}
+{"loss": 0.1710855, "token_acc": 0.92774869, "grad_norm": 1.04064465, "learning_rate": 9.49e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242059, "epoch": 0.72490281, "global_step/max_steps": "9510/65595", "percentage": "14.50%", "elapsed_time": "10h 54m 45s", "remaining_time": "2d 16h 21m 26s"}
+{"loss": 0.13256854, "token_acc": 0.9459364, "grad_norm": 0.65669978, "learning_rate": 9.49e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242062, "epoch": 0.72528394, "global_step/max_steps": "9515/65595", "percentage": "14.51%", "elapsed_time": "10h 55m 5s", "remaining_time": "2d 16h 21m 3s"}
+{"loss": 0.11833096, "token_acc": 0.93843448, "grad_norm": 0.99909729, "learning_rate": 9.489e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242106, "epoch": 0.72566507, "global_step/max_steps": "9520/65595", "percentage": "14.51%", "elapsed_time": "10h 55m 19s", "remaining_time": "2d 16h 19m 59s"}
+{"loss": 0.15328783, "token_acc": 0.93898146, "grad_norm": 1.06428361, "learning_rate": 9.489e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24214, "epoch": 0.72604619, "global_step/max_steps": "9525/65595", "percentage": "14.52%", "elapsed_time": "10h 55m 34s", "remaining_time": "2d 16h 19m 6s"}
+{"loss": 0.17541608, "token_acc": 0.93689435, "grad_norm": 1.29069149, "learning_rate": 9.488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242176, "epoch": 0.72642732, "global_step/max_steps": "9530/65595", "percentage": "14.53%", "elapsed_time": "10h 55m 49s", "remaining_time": "2d 16h 18m 12s"}
+{"loss": 0.15730485, "token_acc": 0.93172906, "grad_norm": 1.34613407, "learning_rate": 9.488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2422, "epoch": 0.72680845, "global_step/max_steps": "9535/65595", "percentage": "14.54%", "elapsed_time": "10h 56m 6s", "remaining_time": "2d 16h 17m 28s"}
+{"loss": 0.15969371, "token_acc": 0.93162393, "grad_norm": 1.440377, "learning_rate": 9.487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242241, "epoch": 0.72718957, "global_step/max_steps": "9540/65595", "percentage": "14.54%", "elapsed_time": "10h 56m 20s", "remaining_time": "2d 16h 16m 29s"}
+{"loss": 0.17053714, "token_acc": 0.93549166, "grad_norm": 1.43995655, "learning_rate": 9.487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242273, "epoch": 0.7275707, "global_step/max_steps": "9545/65595", "percentage": "14.55%", "elapsed_time": "10h 56m 35s", "remaining_time": "2d 16h 15m 37s"}
+{"loss": 0.14581928, "token_acc": 0.93888556, "grad_norm": 1.61873722, "learning_rate": 9.486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2423, "epoch": 0.72795183, "global_step/max_steps": "9550/65595", "percentage": "14.56%", "elapsed_time": "10h 56m 51s", "remaining_time": "2d 16h 14m 50s"}
+{"loss": 0.14240323, "token_acc": 0.93935039, "grad_norm": 1.48675132, "learning_rate": 9.486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242336, "epoch": 0.72833295, "global_step/max_steps": "9555/65595", "percentage": "14.57%", "elapsed_time": "10h 57m 6s", "remaining_time": "2d 16h 13m 55s"}
+{"loss": 0.13947897, "token_acc": 0.94603211, "grad_norm": 0.69101363, "learning_rate": 9.485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242341, "epoch": 0.72871408, "global_step/max_steps": "9560/65595", "percentage": "14.57%", "elapsed_time": "10h 57m 26s", "remaining_time": "2d 16h 13m 30s"}
+{"loss": 0.21459486, "token_acc": 0.92307692, "grad_norm": 0.960495, "learning_rate": 9.484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242374, "epoch": 0.72909521, "global_step/max_steps": "9565/65595", "percentage": "14.58%", "elapsed_time": "10h 57m 41s", "remaining_time": "2d 16h 12m 38s"}
+{"loss": 0.18734812, "token_acc": 0.9286615, "grad_norm": 0.74327785, "learning_rate": 9.484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242404, "epoch": 0.72947633, "global_step/max_steps": "9570/65595", "percentage": "14.59%", "elapsed_time": "10h 57m 57s", "remaining_time": "2d 16h 11m 48s"}
+{"loss": 0.17016313, "token_acc": 0.93399126, "grad_norm": 0.81789452, "learning_rate": 9.483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242425, "epoch": 0.72985746, "global_step/max_steps": "9575/65595", "percentage": "14.60%", "elapsed_time": "10h 58m 14s", "remaining_time": "2d 16h 11m 8s"}
+{"loss": 0.15654901, "token_acc": 0.92593426, "grad_norm": 1.05945218, "learning_rate": 9.483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242456, "epoch": 0.73023859, "global_step/max_steps": "9580/65595", "percentage": "14.60%", "elapsed_time": "10h 58m 30s", "remaining_time": "2d 16h 10m 18s"}
+{"loss": 0.26044521, "token_acc": 0.90788382, "grad_norm": 0.87251318, "learning_rate": 9.482e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242493, "epoch": 0.73061971, "global_step/max_steps": "9585/65595", "percentage": "14.61%", "elapsed_time": "10h 58m 44s", "remaining_time": "2d 16h 9m 22s"}
+{"loss": 0.12553904, "token_acc": 0.95377258, "grad_norm": 2.1509769, "learning_rate": 9.482e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24251, "epoch": 0.73100084, "global_step/max_steps": "9590/65595", "percentage": "14.62%", "elapsed_time": "10h 59m 2s", "remaining_time": "2d 16h 8m 45s"}
+{"loss": 0.13605206, "token_acc": 0.94925075, "grad_norm": 0.85409272, "learning_rate": 9.481e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242534, "epoch": 0.73138197, "global_step/max_steps": "9595/65595", "percentage": "14.63%", "elapsed_time": "10h 59m 19s", "remaining_time": "2d 16h 8m 2s"}
+{"loss": 0.14591159, "token_acc": 0.94195519, "grad_norm": 0.95055175, "learning_rate": 9.481e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242573, "epoch": 0.73176309, "global_step/max_steps": "9600/65595", "percentage": "14.64%", "elapsed_time": "10h 59m 33s", "remaining_time": "2d 16h 7m 4s"}
+{"eval_loss": 0.12556854, "eval_token_acc": 0.93943136, "eval_runtime": 177.3511, "eval_samples_per_second": 2.988, "eval_steps_per_second": 2.988, "epoch": 0.73176309, "global_step/max_steps": "9600/65595", "percentage": "14.64%", "elapsed_time": "11h 2m 30s", "remaining_time": "2d 16h 24m 19s"}
+{"loss": 0.15734323, "token_acc": 0.93918557, "grad_norm": 0.61041975, "learning_rate": 9.48e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241509, "epoch": 0.73214422, "global_step/max_steps": "9605/65595", "percentage": "14.64%", "elapsed_time": "11h 2m 48s", "remaining_time": "2d 16h 23m 40s"}
+{"loss": 0.15857716, "token_acc": 0.94233858, "grad_norm": 1.12918437, "learning_rate": 9.48e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241539, "epoch": 0.73252534, "global_step/max_steps": "9610/65595", "percentage": "14.65%", "elapsed_time": "11h 3m 4s", "remaining_time": "2d 16h 22m 51s"}
+{"loss": 0.11634983, "token_acc": 0.93614202, "grad_norm": 0.47092476, "learning_rate": 9.479e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241577, "epoch": 0.73290647, "global_step/max_steps": "9615/65595", "percentage": "14.66%", "elapsed_time": "11h 3m 18s", "remaining_time": "2d 16h 21m 54s"}
+{"loss": 0.18759751, "token_acc": 0.9207956, "grad_norm": 0.99828774, "learning_rate": 9.479e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241605, "epoch": 0.7332876, "global_step/max_steps": "9620/65595", "percentage": "14.67%", "elapsed_time": "11h 3m 34s", "remaining_time": "2d 16h 21m 7s"}
+{"loss": 0.18188465, "token_acc": 0.9281882, "grad_norm": 0.79701728, "learning_rate": 9.478e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241626, "epoch": 0.73366872, "global_step/max_steps": "9625/65595", "percentage": "14.67%", "elapsed_time": "11h 3m 52s", "remaining_time": "2d 16h 20m 26s"}
+{"loss": 0.21206355, "token_acc": 0.90885041, "grad_norm": 1.1506722, "learning_rate": 9.478e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241659, "epoch": 0.73404985, "global_step/max_steps": "9630/65595", "percentage": "14.68%", "elapsed_time": "11h 4m 7s", "remaining_time": "2d 16h 19m 33s"}
+{"loss": 0.12616601, "token_acc": 0.94299674, "grad_norm": 0.82340878, "learning_rate": 9.477e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241687, "epoch": 0.73443098, "global_step/max_steps": "9635/65595", "percentage": "14.69%", "elapsed_time": "11h 4m 23s", "remaining_time": "2d 16h 18m 45s"}
+{"loss": 0.16825099, "token_acc": 0.92926316, "grad_norm": 1.41770387, "learning_rate": 9.476e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241732, "epoch": 0.7348121, "global_step/max_steps": "9640/65595", "percentage": "14.70%", "elapsed_time": "11h 4m 36s", "remaining_time": "2d 16h 17m 42s"}
+{"loss": 0.14838631, "token_acc": 0.94557449, "grad_norm": 0.56493551, "learning_rate": 9.476e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241763, "epoch": 0.73519323, "global_step/max_steps": "9645/65595", "percentage": "14.70%", "elapsed_time": "11h 4m 52s", "remaining_time": "2d 16h 16m 51s"}
+{"loss": 0.14149978, "token_acc": 0.95, "grad_norm": 0.5706619, "learning_rate": 9.475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241762, "epoch": 0.73557436, "global_step/max_steps": "9650/65595", "percentage": "14.71%", "elapsed_time": "11h 5m 13s", "remaining_time": "2d 16h 16m 32s"}
+{"loss": 0.2085973, "token_acc": 0.91465629, "grad_norm": 0.86602622, "learning_rate": 9.475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241775, "epoch": 0.73595548, "global_step/max_steps": "9655/65595", "percentage": "14.72%", "elapsed_time": "11h 5m 31s", "remaining_time": "2d 16h 15m 59s"}
+{"loss": 0.08104597, "token_acc": 0.95665236, "grad_norm": 0.56112587, "learning_rate": 9.474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241786, "epoch": 0.73633661, "global_step/max_steps": "9660/65595", "percentage": "14.73%", "elapsed_time": "11h 5m 50s", "remaining_time": "2d 16h 15m 28s"}
+{"loss": 0.19141641, "token_acc": 0.91272304, "grad_norm": 1.65322292, "learning_rate": 9.474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241826, "epoch": 0.73671774, "global_step/max_steps": "9665/65595", "percentage": "14.73%", "elapsed_time": "11h 6m 4s", "remaining_time": "2d 16h 14m 29s"}
+{"loss": 0.20618739, "token_acc": 0.92964976, "grad_norm": 1.43696058, "learning_rate": 9.473e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241862, "epoch": 0.73709886, "global_step/max_steps": "9670/65595", "percentage": "14.74%", "elapsed_time": "11h 6m 19s", "remaining_time": "2d 16h 13m 34s"}
+{"loss": 0.14784333, "token_acc": 0.94547054, "grad_norm": 0.69227666, "learning_rate": 9.473e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241896, "epoch": 0.73747999, "global_step/max_steps": "9675/65595", "percentage": "14.75%", "elapsed_time": "11h 6m 34s", "remaining_time": "2d 16h 12m 40s"}
+{"loss": 0.15219604, "token_acc": 0.94080605, "grad_norm": 0.79212922, "learning_rate": 9.472e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241937, "epoch": 0.73786112, "global_step/max_steps": "9680/65595", "percentage": "14.76%", "elapsed_time": "11h 6m 48s", "remaining_time": "2d 16h 11m 40s"}
+{"loss": 0.12949321, "token_acc": 0.94180746, "grad_norm": 0.8768872, "learning_rate": 9.472e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241972, "epoch": 0.73824224, "global_step/max_steps": "9685/65595", "percentage": "14.76%", "elapsed_time": "11h 7m 3s", "remaining_time": "2d 16h 10m 47s"}
+{"loss": 0.1659457, "token_acc": 0.92751678, "grad_norm": 1.65818059, "learning_rate": 9.471e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242015, "epoch": 0.73862337, "global_step/max_steps": "9690/65595", "percentage": "14.77%", "elapsed_time": "11h 7m 16s", "remaining_time": "2d 16h 9m 44s"}
+{"loss": 0.1476155, "token_acc": 0.92271845, "grad_norm": 1.87017643, "learning_rate": 9.471e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242055, "epoch": 0.7390045, "global_step/max_steps": "9695/65595", "percentage": "14.78%", "elapsed_time": "11h 7m 30s", "remaining_time": "2d 16h 8m 46s"}
+{"loss": 0.13869087, "token_acc": 0.93867244, "grad_norm": 1.46967316, "learning_rate": 9.47e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242099, "epoch": 0.73938562, "global_step/max_steps": "9700/65595", "percentage": "14.79%", "elapsed_time": "11h 7m 44s", "remaining_time": "2d 16h 7m 43s"}
+{"loss": 0.13499306, "token_acc": 0.95396419, "grad_norm": 0.82741719, "learning_rate": 9.47e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242129, "epoch": 0.73976675, "global_step/max_steps": "9705/65595", "percentage": "14.80%", "elapsed_time": "11h 7m 59s", "remaining_time": "2d 16h 6m 54s"}
+{"loss": 0.18717136, "token_acc": 0.93398622, "grad_norm": 0.99826598, "learning_rate": 9.469e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242157, "epoch": 0.74014788, "global_step/max_steps": "9710/65595", "percentage": "14.80%", "elapsed_time": "11h 8m 15s", "remaining_time": "2d 16h 6m 7s"}
+{"loss": 0.14164386, "token_acc": 0.94906108, "grad_norm": 1.23577976, "learning_rate": 9.468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242185, "epoch": 0.740529, "global_step/max_steps": "9715/65595", "percentage": "14.81%", "elapsed_time": "11h 8m 31s", "remaining_time": "2d 16h 5m 19s"}
+{"loss": 0.16590912, "token_acc": 0.93449931, "grad_norm": 0.76878142, "learning_rate": 9.468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242206, "epoch": 0.74091013, "global_step/max_steps": "9720/65595", "percentage": "14.82%", "elapsed_time": "11h 8m 48s", "remaining_time": "2d 16h 4m 39s"}
+{"loss": 0.133997, "token_acc": 0.94558458, "grad_norm": 1.00668681, "learning_rate": 9.467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24224, "epoch": 0.74129126, "global_step/max_steps": "9725/65595", "percentage": "14.83%", "elapsed_time": "11h 9m 3s", "remaining_time": "2d 16h 3m 46s"}
+{"loss": 0.15944788, "token_acc": 0.93896191, "grad_norm": 0.84456342, "learning_rate": 9.467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242268, "epoch": 0.74167238, "global_step/max_steps": "9730/65595", "percentage": "14.83%", "elapsed_time": "11h 9m 19s", "remaining_time": "2d 16h 2m 59s"}
+{"loss": 0.10543488, "token_acc": 0.95714286, "grad_norm": 0.79313689, "learning_rate": 9.466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242298, "epoch": 0.74205351, "global_step/max_steps": "9735/65595", "percentage": "14.84%", "elapsed_time": "11h 9m 35s", "remaining_time": "2d 16h 2m 9s"}
+{"loss": 0.18347626, "token_acc": 0.93673338, "grad_norm": 0.88463277, "learning_rate": 9.466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242332, "epoch": 0.74243464, "global_step/max_steps": "9740/65595", "percentage": "14.85%", "elapsed_time": "11h 9m 50s", "remaining_time": "2d 16h 1m 17s"}
+{"loss": 0.09040594, "token_acc": 0.96637056, "grad_norm": 2.4335835, "learning_rate": 9.465e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242366, "epoch": 0.74281576, "global_step/max_steps": "9745/65595", "percentage": "14.86%", "elapsed_time": "11h 10m 5s", "remaining_time": "2d 16h 0m 24s"}
+{"loss": 0.17692941, "token_acc": 0.92794268, "grad_norm": 0.91444921, "learning_rate": 9.465e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242399, "epoch": 0.74319689, "global_step/max_steps": "9750/65595", "percentage": "14.86%", "elapsed_time": "11h 10m 20s", "remaining_time": "2d 15h 59m 31s"}
+{"loss": 0.20904992, "token_acc": 0.943074, "grad_norm": 1.80172789, "learning_rate": 9.464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24243, "epoch": 0.74357802, "global_step/max_steps": "9755/65595", "percentage": "14.87%", "elapsed_time": "11h 10m 36s", "remaining_time": "2d 15h 58m 41s"}
+{"loss": 0.16922208, "token_acc": 0.93927188, "grad_norm": 0.79069078, "learning_rate": 9.464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24246, "epoch": 0.74395914, "global_step/max_steps": "9760/65595", "percentage": "14.88%", "elapsed_time": "11h 10m 51s", "remaining_time": "2d 15h 57m 52s"}
+{"loss": 0.14137485, "token_acc": 0.94732824, "grad_norm": 0.66709661, "learning_rate": 9.463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242492, "epoch": 0.74434027, "global_step/max_steps": "9765/65595", "percentage": "14.89%", "elapsed_time": "11h 11m 7s", "remaining_time": "2d 15h 57m 1s"}
+{"loss": 0.18473113, "token_acc": 0.93065596, "grad_norm": 0.73801625, "learning_rate": 9.463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242528, "epoch": 0.7447214, "global_step/max_steps": "9770/65595", "percentage": "14.89%", "elapsed_time": "11h 11m 21s", "remaining_time": "2d 15h 56m 6s"}
+{"loss": 0.15084267, "token_acc": 0.94137655, "grad_norm": 0.90779179, "learning_rate": 9.462e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242549, "epoch": 0.74510252, "global_step/max_steps": "9775/65595", "percentage": "14.90%", "elapsed_time": "11h 11m 38s", "remaining_time": "2d 15h 55m 26s"}
+{"loss": 0.12521952, "token_acc": 0.95021645, "grad_norm": 0.81163591, "learning_rate": 9.461e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2426, "epoch": 0.74548365, "global_step/max_steps": "9780/65595", "percentage": "14.91%", "elapsed_time": "11h 11m 50s", "remaining_time": "2d 15h 54m 16s"}
+{"loss": 0.09742087, "token_acc": 0.95675464, "grad_norm": 0.75795662, "learning_rate": 9.461e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242607, "epoch": 0.74586478, "global_step/max_steps": "9785/65595", "percentage": "14.92%", "elapsed_time": "11h 12m 10s", "remaining_time": "2d 15h 53m 50s"}
+{"loss": 0.14509152, "token_acc": 0.93920776, "grad_norm": 0.74269181, "learning_rate": 9.46e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242624, "epoch": 0.7462459, "global_step/max_steps": "9790/65595", "percentage": "14.92%", "elapsed_time": "11h 12m 28s", "remaining_time": "2d 15h 53m 13s"}
+{"loss": 0.15610675, "token_acc": 0.93426043, "grad_norm": 1.45363986, "learning_rate": 9.46e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242658, "epoch": 0.74662703, "global_step/max_steps": "9795/65595", "percentage": "14.93%", "elapsed_time": "11h 12m 43s", "remaining_time": "2d 15h 52m 20s"}
+{"loss": 0.20035262, "token_acc": 0.92392157, "grad_norm": 0.59397846, "learning_rate": 9.459e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242692, "epoch": 0.74700816, "global_step/max_steps": "9800/65595", "percentage": "14.94%", "elapsed_time": "11h 12m 58s", "remaining_time": "2d 15h 51m 27s"}
+{"eval_loss": 0.12852833, "eval_token_acc": 0.93925065, "eval_runtime": 179.5577, "eval_samples_per_second": 2.952, "eval_steps_per_second": 2.952, "epoch": 0.74700816, "global_step/max_steps": "9800/65595", "percentage": "14.94%", "elapsed_time": "11h 15m 57s", "remaining_time": "2d 16h 8m 29s"}
+{"loss": 0.22302871, "token_acc": 0.93849321, "grad_norm": 0.71729678, "learning_rate": 9.459e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241652, "epoch": 0.74738928, "global_step/max_steps": "9805/65595", "percentage": "14.95%", "elapsed_time": "11h 16m 12s", "remaining_time": "2d 16h 7m 36s"}
+{"loss": 0.21264286, "token_acc": 0.91719379, "grad_norm": 0.45996666, "learning_rate": 9.458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241689, "epoch": 0.74777041, "global_step/max_steps": "9810/65595", "percentage": "14.96%", "elapsed_time": "11h 16m 27s", "remaining_time": "2d 16h 6m 40s"}
+{"loss": 0.19275894, "token_acc": 0.93452791, "grad_norm": 0.66811419, "learning_rate": 9.458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24172, "epoch": 0.74815154, "global_step/max_steps": "9815/65595", "percentage": "14.96%", "elapsed_time": "11h 16m 42s", "remaining_time": "2d 16h 5m 49s"}
+{"loss": 0.1603376, "token_acc": 0.92788189, "grad_norm": 0.98880285, "learning_rate": 9.457e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241746, "epoch": 0.74853266, "global_step/max_steps": "9820/65595", "percentage": "14.97%", "elapsed_time": "11h 16m 58s", "remaining_time": "2d 16h 5m 4s"}
+{"loss": 0.1428413, "token_acc": 0.93652884, "grad_norm": 1.26335561, "learning_rate": 9.457e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241781, "epoch": 0.74891379, "global_step/max_steps": "9825/65595", "percentage": "14.98%", "elapsed_time": "11h 17m 13s", "remaining_time": "2d 16h 4m 10s"}
+{"loss": 0.17930821, "token_acc": 0.92090931, "grad_norm": 0.77363271, "learning_rate": 9.456e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24182, "epoch": 0.74929492, "global_step/max_steps": "9830/65595", "percentage": "14.99%", "elapsed_time": "11h 17m 27s", "remaining_time": "2d 16h 3m 12s"}
+{"loss": 0.17710414, "token_acc": 0.92327306, "grad_norm": 1.07583368, "learning_rate": 9.455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241857, "epoch": 0.74967604, "global_step/max_steps": "9835/65595", "percentage": "14.99%", "elapsed_time": "11h 17m 42s", "remaining_time": "2d 16h 2m 16s"}
+{"loss": 0.13782687, "token_acc": 0.93348281, "grad_norm": 0.66781878, "learning_rate": 9.455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241895, "epoch": 0.75005717, "global_step/max_steps": "9840/65595", "percentage": "15.00%", "elapsed_time": "11h 17m 56s", "remaining_time": "2d 16h 1m 20s"}
+{"loss": 0.19369582, "token_acc": 0.9381207, "grad_norm": 0.87911624, "learning_rate": 9.454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24192, "epoch": 0.7504383, "global_step/max_steps": "9845/65595", "percentage": "15.01%", "elapsed_time": "11h 18m 13s", "remaining_time": "2d 16h 0m 35s"}
+{"loss": 0.15858778, "token_acc": 0.92671167, "grad_norm": 0.60406601, "learning_rate": 9.454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241938, "epoch": 0.75081942, "global_step/max_steps": "9850/65595", "percentage": "15.02%", "elapsed_time": "11h 18m 30s", "remaining_time": "2d 15h 59m 58s"}
+{"loss": 0.16560683, "token_acc": 0.92772809, "grad_norm": 1.02048874, "learning_rate": 9.453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241978, "epoch": 0.75120055, "global_step/max_steps": "9855/65595", "percentage": "15.02%", "elapsed_time": "11h 18m 44s", "remaining_time": "2d 15h 58m 58s"}
+{"loss": 0.16130449, "token_acc": 0.93719572, "grad_norm": 1.35271049, "learning_rate": 9.453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242004, "epoch": 0.75158168, "global_step/max_steps": "9860/65595", "percentage": "15.03%", "elapsed_time": "11h 19m 0s", "remaining_time": "2d 15h 58m 13s"}
+{"loss": 0.1614872, "token_acc": 0.94677566, "grad_norm": 0.79906666, "learning_rate": 9.452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242029, "epoch": 0.7519628, "global_step/max_steps": "9865/65595", "percentage": "15.04%", "elapsed_time": "11h 19m 17s", "remaining_time": "2d 15h 57m 28s"}
+{"loss": 0.16029212, "token_acc": 0.94141252, "grad_norm": 0.74301559, "learning_rate": 9.452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24207, "epoch": 0.75234393, "global_step/max_steps": "9870/65595", "percentage": "15.05%", "elapsed_time": "11h 19m 31s", "remaining_time": "2d 15h 56m 29s"}
+{"loss": 0.175501, "token_acc": 0.9378848, "grad_norm": 0.76183957, "learning_rate": 9.451e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242085, "epoch": 0.75272506, "global_step/max_steps": "9875/65595", "percentage": "15.05%", "elapsed_time": "11h 19m 49s", "remaining_time": "2d 15h 55m 54s"}
+{"loss": 0.17197106, "token_acc": 0.9398075, "grad_norm": 1.09870982, "learning_rate": 9.451e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242098, "epoch": 0.75310618, "global_step/max_steps": "9880/65595", "percentage": "15.06%", "elapsed_time": "11h 20m 7s", "remaining_time": "2d 15h 55m 21s"}
+{"loss": 0.17654073, "token_acc": 0.93774428, "grad_norm": 0.65419161, "learning_rate": 9.45e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242097, "epoch": 0.75348731, "global_step/max_steps": "9885/65595", "percentage": "15.07%", "elapsed_time": "11h 20m 28s", "remaining_time": "2d 15h 55m 1s"}
+{"loss": 0.19317569, "token_acc": 0.92845659, "grad_norm": 0.78590423, "learning_rate": 9.45e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242121, "epoch": 0.75386844, "global_step/max_steps": "9890/65595", "percentage": "15.08%", "elapsed_time": "11h 20m 45s", "remaining_time": "2d 15h 54m 18s"}
+{"loss": 0.15474031, "token_acc": 0.93907002, "grad_norm": 0.86134779, "learning_rate": 9.449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24216, "epoch": 0.75424956, "global_step/max_steps": "9895/65595", "percentage": "15.08%", "elapsed_time": "11h 20m 59s", "remaining_time": "2d 15h 53m 20s"}
+{"loss": 0.16298364, "token_acc": 0.94439567, "grad_norm": 0.79479134, "learning_rate": 9.448e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242187, "epoch": 0.75463069, "global_step/max_steps": "9900/65595", "percentage": "15.09%", "elapsed_time": "11h 21m 15s", "remaining_time": "2d 15h 52m 33s"}
+{"loss": 0.15721626, "token_acc": 0.93245318, "grad_norm": 0.88593215, "learning_rate": 9.448e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242223, "epoch": 0.75501181, "global_step/max_steps": "9905/65595", "percentage": "15.10%", "elapsed_time": "11h 21m 29s", "remaining_time": "2d 15h 51m 39s"}
+{"loss": 0.12190951, "token_acc": 0.94210526, "grad_norm": 0.8989929, "learning_rate": 9.447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242267, "epoch": 0.75539294, "global_step/max_steps": "9910/65595", "percentage": "15.11%", "elapsed_time": "11h 21m 43s", "remaining_time": "2d 15h 50m 36s"}
+{"loss": 0.19959998, "token_acc": 0.92453313, "grad_norm": 1.42579949, "learning_rate": 9.447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2423, "epoch": 0.75577407, "global_step/max_steps": "9915/65595", "percentage": "15.12%", "elapsed_time": "11h 21m 58s", "remaining_time": "2d 15h 49m 44s"}
+{"loss": 0.12771419, "token_acc": 0.95523466, "grad_norm": 0.76796699, "learning_rate": 9.446e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24232, "epoch": 0.75615519, "global_step/max_steps": "9920/65595", "percentage": "15.12%", "elapsed_time": "11h 22m 15s", "remaining_time": "2d 15h 49m 5s"}
+{"loss": 0.20506399, "token_acc": 0.94203209, "grad_norm": 0.65010822, "learning_rate": 9.446e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242323, "epoch": 0.75653632, "global_step/max_steps": "9925/65595", "percentage": "15.13%", "elapsed_time": "11h 22m 35s", "remaining_time": "2d 15h 48m 42s"}
+{"loss": 0.1855011, "token_acc": 0.92267503, "grad_norm": 0.61962825, "learning_rate": 9.445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242354, "epoch": 0.75691745, "global_step/max_steps": "9930/65595", "percentage": "15.14%", "elapsed_time": "11h 22m 50s", "remaining_time": "2d 15h 47m 52s"}
+{"loss": 0.15926256, "token_acc": 0.9370283, "grad_norm": 0.58757132, "learning_rate": 9.445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242381, "epoch": 0.75729857, "global_step/max_steps": "9935/65595", "percentage": "15.15%", "elapsed_time": "11h 23m 6s", "remaining_time": "2d 15h 47m 6s"}
+{"loss": 0.21202497, "token_acc": 0.91945289, "grad_norm": 1.20360804, "learning_rate": 9.444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242421, "epoch": 0.7576797, "global_step/max_steps": "9940/65595", "percentage": "15.15%", "elapsed_time": "11h 23m 20s", "remaining_time": "2d 15h 46m 7s"}
+{"loss": 0.1458479, "token_acc": 0.94553265, "grad_norm": 0.77740914, "learning_rate": 9.443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242434, "epoch": 0.75806083, "global_step/max_steps": "9945/65595", "percentage": "15.16%", "elapsed_time": "11h 23m 39s", "remaining_time": "2d 15h 45m 34s"}
+{"loss": 0.17077217, "token_acc": 0.926, "grad_norm": 0.44562736, "learning_rate": 9.443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242455, "epoch": 0.75844195, "global_step/max_steps": "9950/65595", "percentage": "15.17%", "elapsed_time": "11h 23m 56s", "remaining_time": "2d 15h 44m 54s"}
+{"loss": 0.15312188, "token_acc": 0.93827525, "grad_norm": 1.24117362, "learning_rate": 9.442e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242479, "epoch": 0.75882308, "global_step/max_steps": "9955/65595", "percentage": "15.18%", "elapsed_time": "11h 24m 12s", "remaining_time": "2d 15h 44m 10s"}
+{"loss": 0.143124, "token_acc": 0.94595222, "grad_norm": 0.42862576, "learning_rate": 9.442e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242503, "epoch": 0.75920421, "global_step/max_steps": "9960/65595", "percentage": "15.18%", "elapsed_time": "11h 24m 29s", "remaining_time": "2d 15h 43m 27s"}
+{"loss": 0.23034978, "token_acc": 0.90966691, "grad_norm": 0.83431131, "learning_rate": 9.441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242521, "epoch": 0.75958533, "global_step/max_steps": "9965/65595", "percentage": "15.19%", "elapsed_time": "11h 24m 46s", "remaining_time": "2d 15h 42m 49s"}
+{"loss": 0.14444002, "token_acc": 0.95462138, "grad_norm": 0.68955153, "learning_rate": 9.441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242551, "epoch": 0.75996646, "global_step/max_steps": "9970/65595", "percentage": "15.20%", "elapsed_time": "11h 25m 2s", "remaining_time": "2d 15h 42m 0s"}
+{"loss": 0.13719649, "token_acc": 0.94597515, "grad_norm": 0.66692251, "learning_rate": 9.44e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242595, "epoch": 0.76034759, "global_step/max_steps": "9975/65595", "percentage": "15.21%", "elapsed_time": "11h 25m 15s", "remaining_time": "2d 15h 40m 58s"}
+{"loss": 0.14297525, "token_acc": 0.93003126, "grad_norm": 0.56185532, "learning_rate": 9.44e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242624, "epoch": 0.76072871, "global_step/max_steps": "9980/65595", "percentage": "15.21%", "elapsed_time": "11h 25m 31s", "remaining_time": "2d 15h 40m 10s"}
+{"loss": 0.09632376, "token_acc": 0.95476759, "grad_norm": 0.90658015, "learning_rate": 9.439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242631, "epoch": 0.76110984, "global_step/max_steps": "9985/65595", "percentage": "15.22%", "elapsed_time": "11h 25m 50s", "remaining_time": "2d 15h 39m 42s"}
+{"loss": 0.16396852, "token_acc": 0.93663912, "grad_norm": 1.64617276, "learning_rate": 9.439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242667, "epoch": 0.76149097, "global_step/max_steps": "9990/65595", "percentage": "15.23%", "elapsed_time": "11h 26m 5s", "remaining_time": "2d 15h 38m 48s"}
+{"loss": 0.11436672, "token_acc": 0.95698302, "grad_norm": 0.6022231, "learning_rate": 9.438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242692, "epoch": 0.76187209, "global_step/max_steps": "9995/65595", "percentage": "15.24%", "elapsed_time": "11h 26m 21s", "remaining_time": "2d 15h 38m 4s"}
+{"loss": 0.21129055, "token_acc": 0.91706356, "grad_norm": 0.92646772, "learning_rate": 9.437e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242716, "epoch": 0.76225322, "global_step/max_steps": "10000/65595", "percentage": "15.25%", "elapsed_time": "11h 26m 38s", "remaining_time": "2d 15h 37m 21s"}
+{"eval_loss": 0.1262309, "eval_token_acc": 0.940862, "eval_runtime": 183.2008, "eval_samples_per_second": 2.893, "eval_steps_per_second": 2.893, "epoch": 0.76225322, "global_step/max_steps": "10000/65595", "percentage": "15.25%", "elapsed_time": "11h 29m 41s", "remaining_time": "2d 15h 54m 19s"}
+{"loss": 0.16877534, "token_acc": 0.94065036, "grad_norm": 1.17611146, "learning_rate": 9.437e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241671, "epoch": 0.76263435, "global_step/max_steps": "10005/65595", "percentage": "15.25%", "elapsed_time": "11h 29m 57s", "remaining_time": "2d 15h 53m 31s"}
+{"loss": 0.13846622, "token_acc": 0.9492884, "grad_norm": 0.59398162, "learning_rate": 9.436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241686, "epoch": 0.76301547, "global_step/max_steps": "10010/65595", "percentage": "15.26%", "elapsed_time": "11h 30m 15s", "remaining_time": "2d 15h 52m 56s"}
+{"loss": 0.17694741, "token_acc": 0.93132676, "grad_norm": 0.93269968, "learning_rate": 9.436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241704, "epoch": 0.7633966, "global_step/max_steps": "10015/65595", "percentage": "15.27%", "elapsed_time": "11h 30m 32s", "remaining_time": "2d 15h 52m 17s"}
+{"loss": 0.13185022, "token_acc": 0.94357159, "grad_norm": 0.37365746, "learning_rate": 9.435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241736, "epoch": 0.76377773, "global_step/max_steps": "10020/65595", "percentage": "15.28%", "elapsed_time": "11h 30m 48s", "remaining_time": "2d 15h 51m 27s"}
+{"loss": 0.12952211, "token_acc": 0.93949796, "grad_norm": 0.61983353, "learning_rate": 9.435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241762, "epoch": 0.76415885, "global_step/max_steps": "10025/65595", "percentage": "15.28%", "elapsed_time": "11h 31m 4s", "remaining_time": "2d 15h 50m 42s"}
+{"loss": 0.11471018, "token_acc": 0.95249406, "grad_norm": 0.91660696, "learning_rate": 9.434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241803, "epoch": 0.76453998, "global_step/max_steps": "10030/65595", "percentage": "15.29%", "elapsed_time": "11h 31m 17s", "remaining_time": "2d 15h 49m 42s"}
+{"loss": 0.14897938, "token_acc": 0.94166667, "grad_norm": 1.0876931, "learning_rate": 9.434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241846, "epoch": 0.76492111, "global_step/max_steps": "10035/65595", "percentage": "15.30%", "elapsed_time": "11h 31m 31s", "remaining_time": "2d 15h 48m 40s"}
+{"loss": 0.18548417, "token_acc": 0.93395349, "grad_norm": 0.92510319, "learning_rate": 9.433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24188, "epoch": 0.76530223, "global_step/max_steps": "10040/65595", "percentage": "15.31%", "elapsed_time": "11h 31m 45s", "remaining_time": "2d 15h 47m 47s"}
+{"loss": 0.12823393, "token_acc": 0.95125469, "grad_norm": 0.48083794, "learning_rate": 9.432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241915, "epoch": 0.76568336, "global_step/max_steps": "10045/65595", "percentage": "15.31%", "elapsed_time": "11h 32m 0s", "remaining_time": "2d 15h 46m 53s"}
+{"loss": 0.15743548, "token_acc": 0.94358233, "grad_norm": 0.78582025, "learning_rate": 9.432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241917, "epoch": 0.76606449, "global_step/max_steps": "10050/65595", "percentage": "15.32%", "elapsed_time": "11h 32m 20s", "remaining_time": "2d 15h 46m 31s"}
+{"loss": 0.19395365, "token_acc": 0.91427718, "grad_norm": 1.73401237, "learning_rate": 9.431e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241948, "epoch": 0.76644561, "global_step/max_steps": "10055/65595", "percentage": "15.33%", "elapsed_time": "11h 32m 36s", "remaining_time": "2d 15h 45m 41s"}
+{"loss": 0.18309401, "token_acc": 0.92382739, "grad_norm": 1.1218425, "learning_rate": 9.431e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241968, "epoch": 0.76682674, "global_step/max_steps": "10060/65595", "percentage": "15.34%", "elapsed_time": "11h 32m 53s", "remaining_time": "2d 15h 45m 1s"}
+{"loss": 0.13447102, "token_acc": 0.94522, "grad_norm": 0.97870332, "learning_rate": 9.43e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241985, "epoch": 0.76720787, "global_step/max_steps": "10065/65595", "percentage": "15.34%", "elapsed_time": "11h 33m 11s", "remaining_time": "2d 15h 44m 24s"}
+{"loss": 0.22339208, "token_acc": 0.91079698, "grad_norm": 0.95359939, "learning_rate": 9.43e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242013, "epoch": 0.76758899, "global_step/max_steps": "10070/65595", "percentage": "15.35%", "elapsed_time": "11h 33m 27s", "remaining_time": "2d 15h 43m 37s"}
+{"loss": 0.26694794, "token_acc": 0.90486409, "grad_norm": 0.83893967, "learning_rate": 9.429e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242035, "epoch": 0.76797012, "global_step/max_steps": "10075/65595", "percentage": "15.36%", "elapsed_time": "11h 33m 43s", "remaining_time": "2d 15h 42m 55s"}
+{"loss": 0.15905604, "token_acc": 0.92475852, "grad_norm": 1.75086689, "learning_rate": 9.429e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24208, "epoch": 0.76835125, "global_step/max_steps": "10080/65595", "percentage": "15.37%", "elapsed_time": "11h 33m 56s", "remaining_time": "2d 15h 41m 52s"}
+{"loss": 0.20968192, "token_acc": 0.90961214, "grad_norm": 0.84126014, "learning_rate": 9.428e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242117, "epoch": 0.76873237, "global_step/max_steps": "10085/65595", "percentage": "15.37%", "elapsed_time": "11h 34m 11s", "remaining_time": "2d 15h 40m 57s"}
+{"loss": 0.12054093, "token_acc": 0.93668831, "grad_norm": 1.25976515, "learning_rate": 9.427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242153, "epoch": 0.7691135, "global_step/max_steps": "10090/65595", "percentage": "15.38%", "elapsed_time": "11h 34m 25s", "remaining_time": "2d 15h 40m 1s"}
+{"loss": 0.20515938, "token_acc": 0.94113884, "grad_norm": 0.74713105, "learning_rate": 9.427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242175, "epoch": 0.76949463, "global_step/max_steps": "10095/65595", "percentage": "15.39%", "elapsed_time": "11h 34m 42s", "remaining_time": "2d 15h 39m 20s"}
+{"loss": 0.16183045, "token_acc": 0.93688829, "grad_norm": 0.99597383, "learning_rate": 9.426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24221, "epoch": 0.76987575, "global_step/max_steps": "10100/65595", "percentage": "15.40%", "elapsed_time": "11h 34m 57s", "remaining_time": "2d 15h 38m 27s"}
+{"loss": 0.13832994, "token_acc": 0.95060832, "grad_norm": 0.72943509, "learning_rate": 9.426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242231, "epoch": 0.77025688, "global_step/max_steps": "10105/65595", "percentage": "15.41%", "elapsed_time": "11h 35m 14s", "remaining_time": "2d 15h 37m 46s"}
+{"loss": 0.16054361, "token_acc": 0.91657397, "grad_norm": 0.57846242, "learning_rate": 9.425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242273, "epoch": 0.77063801, "global_step/max_steps": "10110/65595", "percentage": "15.41%", "elapsed_time": "11h 35m 27s", "remaining_time": "2d 15h 36m 46s"}
+{"loss": 0.16338441, "token_acc": 0.93164062, "grad_norm": 1.36151958, "learning_rate": 9.425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242302, "epoch": 0.77101913, "global_step/max_steps": "10115/65595", "percentage": "15.42%", "elapsed_time": "11h 35m 43s", "remaining_time": "2d 15h 35m 57s"}
+{"loss": 0.15057245, "token_acc": 0.94380437, "grad_norm": 0.92969352, "learning_rate": 9.424e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242329, "epoch": 0.77140026, "global_step/max_steps": "10120/65595", "percentage": "15.43%", "elapsed_time": "11h 35m 59s", "remaining_time": "2d 15h 35m 12s"}
+{"loss": 0.11956145, "token_acc": 0.95716423, "grad_norm": 1.31226301, "learning_rate": 9.424e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242346, "epoch": 0.77178139, "global_step/max_steps": "10125/65595", "percentage": "15.44%", "elapsed_time": "11h 36m 16s", "remaining_time": "2d 15h 34m 35s"}
+{"loss": 0.17109134, "token_acc": 0.92163927, "grad_norm": 1.46687424, "learning_rate": 9.423e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24237, "epoch": 0.77216251, "global_step/max_steps": "10130/65595", "percentage": "15.44%", "elapsed_time": "11h 36m 33s", "remaining_time": "2d 15h 33m 52s"}
+{"loss": 0.19327943, "token_acc": 0.92599701, "grad_norm": 0.71589696, "learning_rate": 9.422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242392, "epoch": 0.77254364, "global_step/max_steps": "10135/65595", "percentage": "15.45%", "elapsed_time": "11h 36m 50s", "remaining_time": "2d 15h 33m 10s"}
+{"loss": 0.1474198, "token_acc": 0.93389407, "grad_norm": 0.78632498, "learning_rate": 9.422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242402, "epoch": 0.77292477, "global_step/max_steps": "10140/65595", "percentage": "15.46%", "elapsed_time": "11h 37m 9s", "remaining_time": "2d 15h 32m 40s"}
+{"loss": 0.16271608, "token_acc": 0.93198601, "grad_norm": 1.15578377, "learning_rate": 9.421e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242444, "epoch": 0.77330589, "global_step/max_steps": "10145/65595", "percentage": "15.47%", "elapsed_time": "11h 37m 22s", "remaining_time": "2d 15h 31m 40s"}
+{"loss": 0.14023783, "token_acc": 0.93712196, "grad_norm": 0.69334739, "learning_rate": 9.421e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242453, "epoch": 0.77368702, "global_step/max_steps": "10150/65595", "percentage": "15.47%", "elapsed_time": "11h 37m 41s", "remaining_time": "2d 15h 31m 11s"}
+{"loss": 0.14766405, "token_acc": 0.94241843, "grad_norm": 0.83446199, "learning_rate": 9.42e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24249, "epoch": 0.77406815, "global_step/max_steps": "10155/65595", "percentage": "15.48%", "elapsed_time": "11h 37m 55s", "remaining_time": "2d 15h 30m 15s"}
+{"loss": 0.18667682, "token_acc": 0.92363734, "grad_norm": 0.69620681, "learning_rate": 9.42e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242499, "epoch": 0.77444927, "global_step/max_steps": "10160/65595", "percentage": "15.49%", "elapsed_time": "11h 38m 14s", "remaining_time": "2d 15h 29m 46s"}
+{"loss": 0.17228197, "token_acc": 0.92918251, "grad_norm": 0.29539421, "learning_rate": 9.419e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242537, "epoch": 0.7748304, "global_step/max_steps": "10165/65595", "percentage": "15.50%", "elapsed_time": "11h 38m 28s", "remaining_time": "2d 15h 28m 50s"}
+{"loss": 0.19174317, "token_acc": 0.94206994, "grad_norm": 1.50459647, "learning_rate": 9.419e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242556, "epoch": 0.77521153, "global_step/max_steps": "10170/65595", "percentage": "15.50%", "elapsed_time": "11h 38m 46s", "remaining_time": "2d 15h 28m 12s"}
+{"loss": 0.19660118, "token_acc": 0.92631579, "grad_norm": 1.03948212, "learning_rate": 9.418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242584, "epoch": 0.77559265, "global_step/max_steps": "10175/65595", "percentage": "15.51%", "elapsed_time": "11h 39m 2s", "remaining_time": "2d 15h 27m 24s"}
+{"loss": 0.13537335, "token_acc": 0.94367986, "grad_norm": 1.11553001, "learning_rate": 9.417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242616, "epoch": 0.77597378, "global_step/max_steps": "10180/65595", "percentage": "15.52%", "elapsed_time": "11h 39m 17s", "remaining_time": "2d 15h 26m 34s"}
+{"loss": 0.18464618, "token_acc": 0.90643275, "grad_norm": 0.77012813, "learning_rate": 9.417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242657, "epoch": 0.77635491, "global_step/max_steps": "10185/65595", "percentage": "15.53%", "elapsed_time": "11h 39m 30s", "remaining_time": "2d 15h 25m 34s"}
+{"loss": 0.17863858, "token_acc": 0.94167156, "grad_norm": 0.56445277, "learning_rate": 9.416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24268, "epoch": 0.77673603, "global_step/max_steps": "10190/65595", "percentage": "15.53%", "elapsed_time": "11h 39m 47s", "remaining_time": "2d 15h 24m 52s"}
+{"loss": 0.14011191, "token_acc": 0.94881237, "grad_norm": 0.97749281, "learning_rate": 9.416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242701, "epoch": 0.77711716, "global_step/max_steps": "10195/65595", "percentage": "15.54%", "elapsed_time": "11h 40m 4s", "remaining_time": "2d 15h 24m 12s"}
+{"loss": 0.21697977, "token_acc": 0.91560102, "grad_norm": 0.85426259, "learning_rate": 9.415e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242732, "epoch": 0.77749828, "global_step/max_steps": "10200/65595", "percentage": "15.55%", "elapsed_time": "11h 40m 19s", "remaining_time": "2d 15h 23m 22s"}
+{"eval_loss": 0.12458353, "eval_token_acc": 0.94131378, "eval_runtime": 183.8235, "eval_samples_per_second": 2.883, "eval_steps_per_second": 2.883, "epoch": 0.77749828, "global_step/max_steps": "10200/65595", "percentage": "15.55%", "elapsed_time": "11h 43m 23s", "remaining_time": "2d 15h 40m 0s"}
+{"loss": 0.14743692, "token_acc": 0.94122546, "grad_norm": 1.08764005, "learning_rate": 9.415e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241713, "epoch": 0.77787941, "global_step/max_steps": "10205/65595", "percentage": "15.56%", "elapsed_time": "11h 43m 37s", "remaining_time": "2d 15h 39m 3s"}
+{"loss": 0.14041917, "token_acc": 0.95025096, "grad_norm": 0.66648722, "learning_rate": 9.414e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241721, "epoch": 0.77826054, "global_step/max_steps": "10210/65595", "percentage": "15.57%", "elapsed_time": "11h 43m 56s", "remaining_time": "2d 15h 38m 35s"}
+{"loss": 0.10142708, "token_acc": 0.95461826, "grad_norm": 0.38424486, "learning_rate": 9.413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241752, "epoch": 0.77864166, "global_step/max_steps": "10215/65595", "percentage": "15.57%", "elapsed_time": "11h 44m 11s", "remaining_time": "2d 15h 37m 45s"}
+{"loss": 0.16325679, "token_acc": 0.94234264, "grad_norm": 1.7439822, "learning_rate": 9.413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241773, "epoch": 0.77902279, "global_step/max_steps": "10220/65595", "percentage": "15.58%", "elapsed_time": "11h 44m 28s", "remaining_time": "2d 15h 37m 5s"}
+{"loss": 0.18970933, "token_acc": 0.92834138, "grad_norm": 1.87749219, "learning_rate": 9.412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241809, "epoch": 0.77940392, "global_step/max_steps": "10225/65595", "percentage": "15.59%", "elapsed_time": "11h 44m 43s", "remaining_time": "2d 15h 36m 9s"}
+{"loss": 0.15058894, "token_acc": 0.9360119, "grad_norm": 1.16022968, "learning_rate": 9.412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241852, "epoch": 0.77978504, "global_step/max_steps": "10230/65595", "percentage": "15.60%", "elapsed_time": "11h 44m 56s", "remaining_time": "2d 15h 35m 8s"}
+{"loss": 0.10819763, "token_acc": 0.96072839, "grad_norm": 0.97850502, "learning_rate": 9.411e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241879, "epoch": 0.78016617, "global_step/max_steps": "10235/65595", "percentage": "15.60%", "elapsed_time": "11h 45m 12s", "remaining_time": "2d 15h 34m 23s"}
+{"loss": 0.19633734, "token_acc": 0.9292672, "grad_norm": 1.05140567, "learning_rate": 9.411e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241887, "epoch": 0.7805473, "global_step/max_steps": "10240/65595", "percentage": "15.61%", "elapsed_time": "11h 45m 31s", "remaining_time": "2d 15h 33m 54s"}
+{"loss": 0.17310071, "token_acc": 0.94184839, "grad_norm": 1.45337927, "learning_rate": 9.41e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241907, "epoch": 0.78092842, "global_step/max_steps": "10245/65595", "percentage": "15.62%", "elapsed_time": "11h 45m 48s", "remaining_time": "2d 15h 33m 14s"}
+{"loss": 0.18299178, "token_acc": 0.91596366, "grad_norm": 0.74659443, "learning_rate": 9.41e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24195, "epoch": 0.78130955, "global_step/max_steps": "10250/65595", "percentage": "15.63%", "elapsed_time": "11h 46m 1s", "remaining_time": "2d 15h 32m 13s"}
+{"loss": 0.1543864, "token_acc": 0.94223083, "grad_norm": 1.00080383, "learning_rate": 9.409e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241958, "epoch": 0.78169068, "global_step/max_steps": "10255/65595", "percentage": "15.63%", "elapsed_time": "11h 46m 21s", "remaining_time": "2d 15h 31m 45s"}
+{"loss": 0.19170458, "token_acc": 0.92872013, "grad_norm": 0.62006259, "learning_rate": 9.408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241968, "epoch": 0.7820718, "global_step/max_steps": "10260/65595", "percentage": "15.64%", "elapsed_time": "11h 46m 40s", "remaining_time": "2d 15h 31m 15s"}
+{"loss": 0.13135337, "token_acc": 0.94604003, "grad_norm": 1.17744684, "learning_rate": 9.408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241998, "epoch": 0.78245293, "global_step/max_steps": "10265/65595", "percentage": "15.65%", "elapsed_time": "11h 46m 55s", "remaining_time": "2d 15h 30m 25s"}
+{"loss": 0.19143285, "token_acc": 0.93506494, "grad_norm": 1.05627644, "learning_rate": 9.407e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242024, "epoch": 0.78283406, "global_step/max_steps": "10270/65595", "percentage": "15.66%", "elapsed_time": "11h 47m 11s", "remaining_time": "2d 15h 29m 41s"}
+{"loss": 0.14099622, "token_acc": 0.9373246, "grad_norm": 0.88162494, "learning_rate": 9.407e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242042, "epoch": 0.78321518, "global_step/max_steps": "10275/65595", "percentage": "15.66%", "elapsed_time": "11h 47m 29s", "remaining_time": "2d 15h 29m 3s"}
+{"loss": 0.15888605, "token_acc": 0.94316597, "grad_norm": 0.80035985, "learning_rate": 9.406e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242056, "epoch": 0.78359631, "global_step/max_steps": "10280/65595", "percentage": "15.67%", "elapsed_time": "11h 47m 47s", "remaining_time": "2d 15h 28m 29s"}
+{"loss": 0.1065573, "token_acc": 0.94772563, "grad_norm": 0.91427863, "learning_rate": 9.406e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242079, "epoch": 0.78397744, "global_step/max_steps": "10285/65595", "percentage": "15.68%", "elapsed_time": "11h 48m 3s", "remaining_time": "2d 15h 27m 46s"}
+{"loss": 0.2082736, "token_acc": 0.91615769, "grad_norm": 0.68747193, "learning_rate": 9.405e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242119, "epoch": 0.78435856, "global_step/max_steps": "10290/65595", "percentage": "15.69%", "elapsed_time": "11h 48m 17s", "remaining_time": "2d 15h 26m 48s"}
+{"loss": 0.14909437, "token_acc": 0.9350523, "grad_norm": 1.36235666, "learning_rate": 9.404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242151, "epoch": 0.78473969, "global_step/max_steps": "10295/65595", "percentage": "15.69%", "elapsed_time": "11h 48m 32s", "remaining_time": "2d 15h 25m 58s"}
+{"loss": 0.19132257, "token_acc": 0.93261385, "grad_norm": 1.81244934, "learning_rate": 9.404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242183, "epoch": 0.78512082, "global_step/max_steps": "10300/65595", "percentage": "15.70%", "elapsed_time": "11h 48m 47s", "remaining_time": "2d 15h 25m 6s"}
+{"loss": 0.11235989, "token_acc": 0.94931425, "grad_norm": 1.30095029, "learning_rate": 9.403e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242216, "epoch": 0.78550194, "global_step/max_steps": "10305/65595", "percentage": "15.71%", "elapsed_time": "11h 49m 2s", "remaining_time": "2d 15h 24m 15s"}
+{"loss": 0.19816706, "token_acc": 0.91973539, "grad_norm": 0.93119657, "learning_rate": 9.403e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242245, "epoch": 0.78588307, "global_step/max_steps": "10310/65595", "percentage": "15.72%", "elapsed_time": "11h 49m 17s", "remaining_time": "2d 15h 23m 27s"}
+{"loss": 0.09531231, "token_acc": 0.94873915, "grad_norm": 0.95192116, "learning_rate": 9.402e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242272, "epoch": 0.7862642, "global_step/max_steps": "10315/65595", "percentage": "15.73%", "elapsed_time": "11h 49m 33s", "remaining_time": "2d 15h 22m 41s"}
+{"loss": 0.21883185, "token_acc": 0.914361, "grad_norm": 1.22708893, "learning_rate": 9.402e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242299, "epoch": 0.78664532, "global_step/max_steps": "10320/65595", "percentage": "15.73%", "elapsed_time": "11h 49m 49s", "remaining_time": "2d 15h 21m 54s"}
+{"loss": 0.1618422, "token_acc": 0.92137592, "grad_norm": 0.87375128, "learning_rate": 9.401e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242326, "epoch": 0.78702645, "global_step/max_steps": "10325/65595", "percentage": "15.74%", "elapsed_time": "11h 50m 5s", "remaining_time": "2d 15h 21m 9s"}
+{"loss": 0.15270329, "token_acc": 0.92694064, "grad_norm": 0.82798707, "learning_rate": 9.4e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242368, "epoch": 0.78740758, "global_step/max_steps": "10330/65595", "percentage": "15.75%", "elapsed_time": "11h 50m 18s", "remaining_time": "2d 15h 20m 9s"}
+{"loss": 0.16004294, "token_acc": 0.93997041, "grad_norm": 0.75080842, "learning_rate": 9.4e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242393, "epoch": 0.7877887, "global_step/max_steps": "10335/65595", "percentage": "15.76%", "elapsed_time": "11h 50m 35s", "remaining_time": "2d 15h 19m 25s"}
+{"loss": 0.12106168, "token_acc": 0.94983328, "grad_norm": 0.59323305, "learning_rate": 9.399e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2424, "epoch": 0.78816983, "global_step/max_steps": "10340/65595", "percentage": "15.76%", "elapsed_time": "11h 50m 54s", "remaining_time": "2d 15h 18m 57s"}
+{"loss": 0.13343065, "token_acc": 0.94889103, "grad_norm": 0.38608709, "learning_rate": 9.399e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24242, "epoch": 0.78855096, "global_step/max_steps": "10345/65595", "percentage": "15.77%", "elapsed_time": "11h 51m 11s", "remaining_time": "2d 15h 18m 18s"}
+{"loss": 0.17907829, "token_acc": 0.9308158, "grad_norm": 0.60423332, "learning_rate": 9.398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242435, "epoch": 0.78893208, "global_step/max_steps": "10350/65595", "percentage": "15.78%", "elapsed_time": "11h 51m 29s", "remaining_time": "2d 15h 17m 43s"}
+{"loss": 0.15976943, "token_acc": 0.93450635, "grad_norm": 1.52539599, "learning_rate": 9.398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242476, "epoch": 0.78931321, "global_step/max_steps": "10355/65595", "percentage": "15.79%", "elapsed_time": "11h 51m 42s", "remaining_time": "2d 15h 16m 44s"}
+{"loss": 0.10646889, "token_acc": 0.94628277, "grad_norm": 0.71728384, "learning_rate": 9.397e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242501, "epoch": 0.78969434, "global_step/max_steps": "10360/65595", "percentage": "15.79%", "elapsed_time": "11h 51m 59s", "remaining_time": "2d 15h 16m 0s"}
+{"loss": 0.17067475, "token_acc": 0.93754081, "grad_norm": 0.75617272, "learning_rate": 9.396e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242529, "epoch": 0.79007546, "global_step/max_steps": "10365/65595", "percentage": "15.80%", "elapsed_time": "11h 52m 14s", "remaining_time": "2d 15h 15m 13s"}
+{"loss": 0.13535504, "token_acc": 0.94620986, "grad_norm": 0.65452188, "learning_rate": 9.396e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242548, "epoch": 0.79045659, "global_step/max_steps": "10370/65595", "percentage": "15.81%", "elapsed_time": "11h 52m 32s", "remaining_time": "2d 15h 14m 35s"}
+{"loss": 0.18405344, "token_acc": 0.93012581, "grad_norm": 0.85474342, "learning_rate": 9.395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242564, "epoch": 0.79083772, "global_step/max_steps": "10375/65595", "percentage": "15.82%", "elapsed_time": "11h 52m 49s", "remaining_time": "2d 15h 13m 59s"}
+{"loss": 0.19842528, "token_acc": 0.92409181, "grad_norm": 1.0439496, "learning_rate": 9.395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242591, "epoch": 0.79121884, "global_step/max_steps": "10380/65595", "percentage": "15.82%", "elapsed_time": "11h 53m 5s", "remaining_time": "2d 15h 13m 13s"}
+{"loss": 0.15426919, "token_acc": 0.94090442, "grad_norm": 0.75583118, "learning_rate": 9.394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24261, "epoch": 0.79159997, "global_step/max_steps": "10385/65595", "percentage": "15.83%", "elapsed_time": "11h 53m 23s", "remaining_time": "2d 15h 12m 34s"}
+{"loss": 0.11831559, "token_acc": 0.95500409, "grad_norm": 0.51514864, "learning_rate": 9.394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242623, "epoch": 0.7919811, "global_step/max_steps": "10390/65595", "percentage": "15.84%", "elapsed_time": "11h 53m 41s", "remaining_time": "2d 15h 12m 1s"}
+{"loss": 0.19669447, "token_acc": 0.92623716, "grad_norm": 0.81501067, "learning_rate": 9.393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242646, "epoch": 0.79236222, "global_step/max_steps": "10395/65595", "percentage": "15.85%", "elapsed_time": "11h 53m 57s", "remaining_time": "2d 15h 11m 19s"}
+{"loss": 0.12950126, "token_acc": 0.93549329, "grad_norm": 0.98914123, "learning_rate": 9.392e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242675, "epoch": 0.79274335, "global_step/max_steps": "10400/65595", "percentage": "15.85%", "elapsed_time": "11h 54m 13s", "remaining_time": "2d 15h 10m 32s"}
+{"eval_loss": 0.120927, "eval_token_acc": 0.94200651, "eval_runtime": 184.3402, "eval_samples_per_second": 2.875, "eval_steps_per_second": 2.875, "epoch": 0.79274335, "global_step/max_steps": "10400/65595", "percentage": "15.85%", "elapsed_time": "11h 57m 17s", "remaining_time": "2d 15h 26m 50s"}
+{"loss": 0.16607811, "token_acc": 0.94187856, "grad_norm": 1.00765848, "learning_rate": 9.392e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241653, "epoch": 0.79312448, "global_step/max_steps": "10405/65595", "percentage": "15.86%", "elapsed_time": "11h 57m 35s", "remaining_time": "2d 15h 26m 13s"}
+{"loss": 0.15128094, "token_acc": 0.93738521, "grad_norm": 1.01598573, "learning_rate": 9.391e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241667, "epoch": 0.7935056, "global_step/max_steps": "10410/65595", "percentage": "15.87%", "elapsed_time": "11h 57m 53s", "remaining_time": "2d 15h 25m 39s"}
+{"loss": 0.13824898, "token_acc": 0.94442916, "grad_norm": 0.85628235, "learning_rate": 9.391e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241694, "epoch": 0.79388673, "global_step/max_steps": "10415/65595", "percentage": "15.88%", "elapsed_time": "11h 58m 9s", "remaining_time": "2d 15h 24m 53s"}
+{"loss": 0.15494616, "token_acc": 0.93380813, "grad_norm": 1.24799144, "learning_rate": 9.39e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241715, "epoch": 0.79426786, "global_step/max_steps": "10420/65595", "percentage": "15.89%", "elapsed_time": "11h 58m 26s", "remaining_time": "2d 15h 24m 13s"}
+{"loss": 0.14489383, "token_acc": 0.94539445, "grad_norm": 0.79587328, "learning_rate": 9.39e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241734, "epoch": 0.79464898, "global_step/max_steps": "10425/65595", "percentage": "15.89%", "elapsed_time": "11h 58m 43s", "remaining_time": "2d 15h 23m 34s"}
+{"loss": 0.18153517, "token_acc": 0.92986894, "grad_norm": 0.89308465, "learning_rate": 9.389e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241748, "epoch": 0.79503011, "global_step/max_steps": "10430/65595", "percentage": "15.90%", "elapsed_time": "11h 59m 1s", "remaining_time": "2d 15h 23m 0s"}
+{"loss": 0.24058409, "token_acc": 0.93210779, "grad_norm": 1.82743037, "learning_rate": 9.388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241774, "epoch": 0.79541124, "global_step/max_steps": "10435/65595", "percentage": "15.91%", "elapsed_time": "11h 59m 17s", "remaining_time": "2d 15h 22m 15s"}
+{"loss": 0.16767633, "token_acc": 0.93515142, "grad_norm": 0.59423482, "learning_rate": 9.388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241783, "epoch": 0.79579236, "global_step/max_steps": "10440/65595", "percentage": "15.92%", "elapsed_time": "11h 59m 37s", "remaining_time": "2d 15h 21m 46s"}
+{"loss": 0.14289262, "token_acc": 0.94477998, "grad_norm": 1.34621644, "learning_rate": 9.387e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241809, "epoch": 0.79617349, "global_step/max_steps": "10445/65595", "percentage": "15.92%", "elapsed_time": "11h 59m 52s", "remaining_time": "2d 15h 21m 0s"}
+{"loss": 0.17768731, "token_acc": 0.92781207, "grad_norm": 1.0372138, "learning_rate": 9.387e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241831, "epoch": 0.79655462, "global_step/max_steps": "10450/65595", "percentage": "15.93%", "elapsed_time": "12h 0m 9s", "remaining_time": "2d 15h 20m 18s"}
+{"loss": 0.19446074, "token_acc": 0.92567568, "grad_norm": 0.77436727, "learning_rate": 9.386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241855, "epoch": 0.79693574, "global_step/max_steps": "10455/65595", "percentage": "15.94%", "elapsed_time": "12h 0m 26s", "remaining_time": "2d 15h 19m 36s"}
+{"loss": 0.11160449, "token_acc": 0.9432038, "grad_norm": 1.02713132, "learning_rate": 9.386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241879, "epoch": 0.79731687, "global_step/max_steps": "10460/65595", "percentage": "15.95%", "elapsed_time": "12h 0m 42s", "remaining_time": "2d 15h 18m 52s"}
+{"loss": 0.11425718, "token_acc": 0.94461954, "grad_norm": 0.93339133, "learning_rate": 9.385e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241921, "epoch": 0.797698, "global_step/max_steps": "10465/65595", "percentage": "15.95%", "elapsed_time": "12h 0m 55s", "remaining_time": "2d 15h 17m 52s"}
+{"loss": 0.18089322, "token_acc": 0.93267006, "grad_norm": 1.16222811, "learning_rate": 9.384e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241948, "epoch": 0.79807912, "global_step/max_steps": "10470/65595", "percentage": "15.96%", "elapsed_time": "12h 1m 11s", "remaining_time": "2d 15h 17m 6s"}
+{"loss": 0.17532868, "token_acc": 0.94212411, "grad_norm": 1.3617419, "learning_rate": 9.384e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241974, "epoch": 0.79846025, "global_step/max_steps": "10475/65595", "percentage": "15.97%", "elapsed_time": "12h 1m 27s", "remaining_time": "2d 15h 16m 21s"}
+{"loss": 0.15992239, "token_acc": 0.94941845, "grad_norm": 0.8373825, "learning_rate": 9.383e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242007, "epoch": 0.79884138, "global_step/max_steps": "10480/65595", "percentage": "15.98%", "elapsed_time": "12h 1m 42s", "remaining_time": "2d 15h 15m 29s"}
+{"loss": 0.2232461, "token_acc": 0.92424242, "grad_norm": 1.18449318, "learning_rate": 9.383e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242041, "epoch": 0.7992225, "global_step/max_steps": "10485/65595", "percentage": "15.98%", "elapsed_time": "12h 1m 56s", "remaining_time": "2d 15h 14m 36s"}
+{"loss": 0.16789035, "token_acc": 0.93975751, "grad_norm": 0.74784261, "learning_rate": 9.382e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242045, "epoch": 0.79960363, "global_step/max_steps": "10490/65595", "percentage": "15.99%", "elapsed_time": "12h 2m 16s", "remaining_time": "2d 15h 14m 12s"}
+{"loss": 0.11218828, "token_acc": 0.95562717, "grad_norm": 0.80352783, "learning_rate": 9.382e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242071, "epoch": 0.79998475, "global_step/max_steps": "10495/65595", "percentage": "16.00%", "elapsed_time": "12h 2m 32s", "remaining_time": "2d 15h 13m 27s"}
+{"loss": 0.16499152, "token_acc": 0.92766132, "grad_norm": 1.03313267, "learning_rate": 9.381e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242113, "epoch": 0.80036588, "global_step/max_steps": "10500/65595", "percentage": "16.01%", "elapsed_time": "12h 2m 45s", "remaining_time": "2d 15h 12m 27s"}
+{"loss": 0.14206145, "token_acc": 0.9434943, "grad_norm": 0.79922789, "learning_rate": 9.38e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242132, "epoch": 0.80074701, "global_step/max_steps": "10505/65595", "percentage": "16.01%", "elapsed_time": "12h 3m 3s", "remaining_time": "2d 15h 11m 48s"}
+{"loss": 0.18631417, "token_acc": 0.94291212, "grad_norm": 0.6687668, "learning_rate": 9.38e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242162, "epoch": 0.80112813, "global_step/max_steps": "10510/65595", "percentage": "16.02%", "elapsed_time": "12h 3m 18s", "remaining_time": "2d 15h 11m 0s"}
+{"loss": 0.09256383, "token_acc": 0.94607379, "grad_norm": 0.75430119, "learning_rate": 9.379e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242191, "epoch": 0.80150926, "global_step/max_steps": "10515/65595", "percentage": "16.03%", "elapsed_time": "12h 3m 33s", "remaining_time": "2d 15h 10m 11s"}
+{"loss": 0.17069849, "token_acc": 0.93269869, "grad_norm": 1.39442599, "learning_rate": 9.379e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242215, "epoch": 0.80189039, "global_step/max_steps": "10520/65595", "percentage": "16.04%", "elapsed_time": "12h 3m 50s", "remaining_time": "2d 15h 9m 28s"}
+{"loss": 0.17842953, "token_acc": 0.93896872, "grad_norm": 1.09138048, "learning_rate": 9.378e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242239, "epoch": 0.80227151, "global_step/max_steps": "10525/65595", "percentage": "16.05%", "elapsed_time": "12h 4m 6s", "remaining_time": "2d 15h 8m 45s"}
+{"loss": 0.21049418, "token_acc": 0.92804076, "grad_norm": 0.9133718, "learning_rate": 9.378e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242265, "epoch": 0.80265264, "global_step/max_steps": "10530/65595", "percentage": "16.05%", "elapsed_time": "12h 4m 22s", "remaining_time": "2d 15h 8m 1s"}
+{"loss": 0.10623915, "token_acc": 0.94374461, "grad_norm": 0.58669943, "learning_rate": 9.377e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24229, "epoch": 0.80303377, "global_step/max_steps": "10535/65595", "percentage": "16.06%", "elapsed_time": "12h 4m 38s", "remaining_time": "2d 15h 7m 16s"}
+{"loss": 0.16794258, "token_acc": 0.93404323, "grad_norm": 0.60791171, "learning_rate": 9.376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242306, "epoch": 0.80341489, "global_step/max_steps": "10540/65595", "percentage": "16.07%", "elapsed_time": "12h 4m 56s", "remaining_time": "2d 15h 6m 40s"}
+{"loss": 0.183451, "token_acc": 0.93599647, "grad_norm": 0.73431766, "learning_rate": 9.376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24233, "epoch": 0.80379602, "global_step/max_steps": "10545/65595", "percentage": "16.08%", "elapsed_time": "12h 5m 12s", "remaining_time": "2d 15h 5m 58s"}
+{"loss": 0.10703576, "token_acc": 0.95654762, "grad_norm": 1.06201982, "learning_rate": 9.375e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242358, "epoch": 0.80417715, "global_step/max_steps": "10550/65595", "percentage": "16.08%", "elapsed_time": "12h 5m 28s", "remaining_time": "2d 15h 5m 11s"}
+{"loss": 0.22305882, "token_acc": 0.90522208, "grad_norm": 0.58238429, "learning_rate": 9.375e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242382, "epoch": 0.80455827, "global_step/max_steps": "10555/65595", "percentage": "16.09%", "elapsed_time": "12h 5m 44s", "remaining_time": "2d 15h 4m 27s"}
+{"loss": 0.13158768, "token_acc": 0.94818319, "grad_norm": 0.7113387, "learning_rate": 9.374e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242409, "epoch": 0.8049394, "global_step/max_steps": "10560/65595", "percentage": "16.10%", "elapsed_time": "12h 6m 0s", "remaining_time": "2d 15h 3m 42s"}
+{"loss": 0.13366265, "token_acc": 0.93946284, "grad_norm": 0.70728052, "learning_rate": 9.373e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242421, "epoch": 0.80532053, "global_step/max_steps": "10565/65595", "percentage": "16.11%", "elapsed_time": "12h 6m 18s", "remaining_time": "2d 15h 3m 10s"}
+{"loss": 0.1401165, "token_acc": 0.9456346, "grad_norm": 0.71845579, "learning_rate": 9.373e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242444, "epoch": 0.80570165, "global_step/max_steps": "10570/65595", "percentage": "16.11%", "elapsed_time": "12h 6m 35s", "remaining_time": "2d 15h 2m 28s"}
+{"loss": 0.15648391, "token_acc": 0.94321848, "grad_norm": 0.62590623, "learning_rate": 9.372e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242455, "epoch": 0.80608278, "global_step/max_steps": "10575/65595", "percentage": "16.12%", "elapsed_time": "12h 6m 54s", "remaining_time": "2d 15h 1m 56s"}
+{"loss": 0.19317054, "token_acc": 0.93358371, "grad_norm": 0.90083629, "learning_rate": 9.372e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242484, "epoch": 0.80646391, "global_step/max_steps": "10580/65595", "percentage": "16.13%", "elapsed_time": "12h 7m 9s", "remaining_time": "2d 15h 1m 9s"}
+{"loss": 0.1249457, "token_acc": 0.95615276, "grad_norm": 0.61112076, "learning_rate": 9.371e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242513, "epoch": 0.80684503, "global_step/max_steps": "10585/65595", "percentage": "16.14%", "elapsed_time": "12h 7m 24s", "remaining_time": "2d 15h 0m 21s"}
+{"loss": 0.1675773, "token_acc": 0.92780993, "grad_norm": 1.53867304, "learning_rate": 9.371e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242548, "epoch": 0.80722616, "global_step/max_steps": "10590/65595", "percentage": "16.14%", "elapsed_time": "12h 7m 39s", "remaining_time": "2d 14h 59m 28s"}
+{"loss": 0.19613367, "token_acc": 0.92435678, "grad_norm": 1.34228206, "learning_rate": 9.37e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24257, "epoch": 0.80760729, "global_step/max_steps": "10595/65595", "percentage": "16.15%", "elapsed_time": "12h 7m 55s", "remaining_time": "2d 14h 58m 47s"}
+{"loss": 0.19347106, "token_acc": 0.92326506, "grad_norm": 1.51748061, "learning_rate": 9.369e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242602, "epoch": 0.80798841, "global_step/max_steps": "10600/65595", "percentage": "16.16%", "elapsed_time": "12h 8m 10s", "remaining_time": "2d 14h 57m 56s"}
+{"eval_loss": 0.12085249, "eval_token_acc": 0.94266159, "eval_runtime": 171.0115, "eval_samples_per_second": 3.099, "eval_steps_per_second": 3.099, "epoch": 0.80798841, "global_step/max_steps": "10600/65595", "percentage": "16.16%", "elapsed_time": "12h 11m 1s", "remaining_time": "2d 15h 12m 44s"}
+{"loss": 0.14942909, "token_acc": 0.94248564, "grad_norm": 0.04346719, "learning_rate": 9.369e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241687, "epoch": 0.80836954, "global_step/max_steps": "10605/65595", "percentage": "16.17%", "elapsed_time": "12h 11m 16s", "remaining_time": "2d 15h 11m 53s"}
+{"loss": 0.1801744, "token_acc": 0.9298065, "grad_norm": 1.02629733, "learning_rate": 9.368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241716, "epoch": 0.80875067, "global_step/max_steps": "10610/65595", "percentage": "16.18%", "elapsed_time": "12h 11m 32s", "remaining_time": "2d 15h 11m 6s"}
+{"loss": 0.16760859, "token_acc": 0.93173129, "grad_norm": 0.67983276, "learning_rate": 9.368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241739, "epoch": 0.80913179, "global_step/max_steps": "10615/65595", "percentage": "16.18%", "elapsed_time": "12h 11m 48s", "remaining_time": "2d 15h 10m 23s"}
+{"loss": 0.12464848, "token_acc": 0.9539903, "grad_norm": 0.95601714, "learning_rate": 9.367e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241759, "epoch": 0.80951292, "global_step/max_steps": "10620/65595", "percentage": "16.19%", "elapsed_time": "12h 12m 5s", "remaining_time": "2d 15h 9m 44s"}
+{"loss": 0.17044137, "token_acc": 0.92998679, "grad_norm": 0.74930954, "learning_rate": 9.366e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241792, "epoch": 0.80989405, "global_step/max_steps": "10625/65595", "percentage": "16.20%", "elapsed_time": "12h 12m 20s", "remaining_time": "2d 15h 8m 52s"}
+{"loss": 0.10044813, "token_acc": 0.94833333, "grad_norm": 0.25629029, "learning_rate": 9.366e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241832, "epoch": 0.81027517, "global_step/max_steps": "10630/65595", "percentage": "16.21%", "elapsed_time": "12h 12m 33s", "remaining_time": "2d 15h 7m 54s"}
+{"loss": 0.17323571, "token_acc": 0.94407286, "grad_norm": 0.76925296, "learning_rate": 9.365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24185, "epoch": 0.8106563, "global_step/max_steps": "10635/65595", "percentage": "16.21%", "elapsed_time": "12h 12m 51s", "remaining_time": "2d 15h 7m 16s"}
+{"loss": 0.12741477, "token_acc": 0.95618285, "grad_norm": 0.50445366, "learning_rate": 9.365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241878, "epoch": 0.81103743, "global_step/max_steps": "10640/65595", "percentage": "16.22%", "elapsed_time": "12h 13m 6s", "remaining_time": "2d 15h 6m 29s"}
+{"loss": 0.08211479, "token_acc": 0.96546571, "grad_norm": 0.54083627, "learning_rate": 9.364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241902, "epoch": 0.81141855, "global_step/max_steps": "10645/65595", "percentage": "16.23%", "elapsed_time": "12h 13m 23s", "remaining_time": "2d 15h 5m 46s"}
+{"loss": 0.15744494, "token_acc": 0.93971198, "grad_norm": 0.87189418, "learning_rate": 9.364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241928, "epoch": 0.81179968, "global_step/max_steps": "10650/65595", "percentage": "16.24%", "elapsed_time": "12h 13m 39s", "remaining_time": "2d 15h 5m 1s"}
+{"loss": 0.15617477, "token_acc": 0.94109397, "grad_norm": 1.46770704, "learning_rate": 9.363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241951, "epoch": 0.81218081, "global_step/max_steps": "10655/65595", "percentage": "16.24%", "elapsed_time": "12h 13m 55s", "remaining_time": "2d 15h 4m 19s"}
+{"loss": 0.19796021, "token_acc": 0.94141604, "grad_norm": 0.65712655, "learning_rate": 9.362e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241961, "epoch": 0.81256193, "global_step/max_steps": "10660/65595", "percentage": "16.25%", "elapsed_time": "12h 14m 14s", "remaining_time": "2d 15h 3m 49s"}
+{"loss": 0.20541537, "token_acc": 0.93791136, "grad_norm": 0.5700444, "learning_rate": 9.362e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241991, "epoch": 0.81294306, "global_step/max_steps": "10665/65595", "percentage": "16.26%", "elapsed_time": "12h 14m 29s", "remaining_time": "2d 15h 3m 0s"}
+{"loss": 0.23660161, "token_acc": 0.9178273, "grad_norm": 1.12021601, "learning_rate": 9.361e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242023, "epoch": 0.81332419, "global_step/max_steps": "10670/65595", "percentage": "16.27%", "elapsed_time": "12h 14m 44s", "remaining_time": "2d 15h 2m 9s"}
+{"loss": 0.14121351, "token_acc": 0.94467109, "grad_norm": 1.1226908, "learning_rate": 9.361e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24203, "epoch": 0.81370531, "global_step/max_steps": "10675/65595", "percentage": "16.27%", "elapsed_time": "12h 15m 3s", "remaining_time": "2d 15h 1m 42s"}
+{"loss": 0.18938787, "token_acc": 0.92652832, "grad_norm": 0.55650347, "learning_rate": 9.36e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242049, "epoch": 0.81408644, "global_step/max_steps": "10680/65595", "percentage": "16.28%", "elapsed_time": "12h 15m 20s", "remaining_time": "2d 15h 1m 3s"}
+{"loss": 0.15379324, "token_acc": 0.93759728, "grad_norm": 0.65919483, "learning_rate": 9.359e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242075, "epoch": 0.81446757, "global_step/max_steps": "10685/65595", "percentage": "16.29%", "elapsed_time": "12h 15m 36s", "remaining_time": "2d 15h 0m 18s"}
+{"loss": 0.17218339, "token_acc": 0.92508664, "grad_norm": 0.84477752, "learning_rate": 9.359e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242104, "epoch": 0.81484869, "global_step/max_steps": "10690/65595", "percentage": "16.30%", "elapsed_time": "12h 15m 52s", "remaining_time": "2d 14h 59m 30s"}
+{"loss": 0.21194873, "token_acc": 0.91796344, "grad_norm": 1.60681272, "learning_rate": 9.358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242127, "epoch": 0.81522982, "global_step/max_steps": "10695/65595", "percentage": "16.30%", "elapsed_time": "12h 16m 8s", "remaining_time": "2d 14h 58m 48s"}
+{"loss": 0.12281077, "token_acc": 0.95685786, "grad_norm": 0.4072406, "learning_rate": 9.358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242153, "epoch": 0.81561095, "global_step/max_steps": "10700/65595", "percentage": "16.31%", "elapsed_time": "12h 16m 24s", "remaining_time": "2d 14h 58m 3s"}
+{"loss": 0.13844981, "token_acc": 0.94125646, "grad_norm": 0.91449267, "learning_rate": 9.357e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242185, "epoch": 0.81599207, "global_step/max_steps": "10705/65595", "percentage": "16.32%", "elapsed_time": "12h 16m 39s", "remaining_time": "2d 14h 57m 13s"}
+{"loss": 0.1732017, "token_acc": 0.94031482, "grad_norm": 1.25184524, "learning_rate": 9.357e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242211, "epoch": 0.8163732, "global_step/max_steps": "10710/65595", "percentage": "16.33%", "elapsed_time": "12h 16m 55s", "remaining_time": "2d 14h 56m 28s"}
+{"loss": 0.14413716, "token_acc": 0.94599478, "grad_norm": 1.05370688, "learning_rate": 9.356e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242237, "epoch": 0.81675433, "global_step/max_steps": "10715/65595", "percentage": "16.34%", "elapsed_time": "12h 17m 11s", "remaining_time": "2d 14h 55m 43s"}
+{"loss": 0.21037989, "token_acc": 0.91631653, "grad_norm": 0.7839222, "learning_rate": 9.355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242273, "epoch": 0.81713545, "global_step/max_steps": "10720/65595", "percentage": "16.34%", "elapsed_time": "12h 17m 25s", "remaining_time": "2d 14h 54m 48s"}
+{"loss": 0.16994919, "token_acc": 0.93610635, "grad_norm": 0.85410553, "learning_rate": 9.355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242311, "epoch": 0.81751658, "global_step/max_steps": "10725/65595", "percentage": "16.35%", "elapsed_time": "12h 17m 39s", "remaining_time": "2d 14h 53m 52s"}
+{"loss": 0.20904353, "token_acc": 0.92037936, "grad_norm": 2.20008659, "learning_rate": 9.354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242343, "epoch": 0.81789771, "global_step/max_steps": "10730/65595", "percentage": "16.36%", "elapsed_time": "12h 17m 53s", "remaining_time": "2d 14h 53m 2s"}
+{"loss": 0.12065561, "token_acc": 0.95586107, "grad_norm": 0.8004126, "learning_rate": 9.354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242376, "epoch": 0.81827883, "global_step/max_steps": "10735/65595", "percentage": "16.37%", "elapsed_time": "12h 18m 8s", "remaining_time": "2d 14h 52m 10s"}
+{"loss": 0.11057955, "token_acc": 0.94271287, "grad_norm": 0.55428964, "learning_rate": 9.353e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2424, "epoch": 0.81865996, "global_step/max_steps": "10740/65595", "percentage": "16.37%", "elapsed_time": "12h 18m 24s", "remaining_time": "2d 14h 51m 28s"}
+{"loss": 0.16316955, "token_acc": 0.92804579, "grad_norm": 1.50056839, "learning_rate": 9.352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242431, "epoch": 0.81904109, "global_step/max_steps": "10745/65595", "percentage": "16.38%", "elapsed_time": "12h 18m 39s", "remaining_time": "2d 14h 50m 38s"}
+{"loss": 0.20647137, "token_acc": 0.943369, "grad_norm": 0.59735441, "learning_rate": 9.352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242443, "epoch": 0.81942221, "global_step/max_steps": "10750/65595", "percentage": "16.39%", "elapsed_time": "12h 18m 58s", "remaining_time": "2d 14h 50m 6s"}
+{"loss": 0.10870914, "token_acc": 0.96128124, "grad_norm": 0.61920696, "learning_rate": 9.351e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24247, "epoch": 0.81980334, "global_step/max_steps": "10755/65595", "percentage": "16.40%", "elapsed_time": "12h 19m 13s", "remaining_time": "2d 14h 49m 21s"}
+{"loss": 0.16726174, "token_acc": 0.9429009, "grad_norm": 0.81504971, "learning_rate": 9.351e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2425, "epoch": 0.82018447, "global_step/max_steps": "10760/65595", "percentage": "16.40%", "elapsed_time": "12h 19m 28s", "remaining_time": "2d 14h 48m 32s"}
+{"loss": 0.17383258, "token_acc": 0.94114697, "grad_norm": 0.87673593, "learning_rate": 9.35e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242518, "epoch": 0.82056559, "global_step/max_steps": "10765/65595", "percentage": "16.41%", "elapsed_time": "12h 19m 46s", "remaining_time": "2d 14h 47m 54s"}
+{"loss": 0.14928395, "token_acc": 0.94524437, "grad_norm": 1.00337946, "learning_rate": 9.349e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242539, "epoch": 0.82094672, "global_step/max_steps": "10770/65595", "percentage": "16.42%", "elapsed_time": "12h 20m 2s", "remaining_time": "2d 14h 47m 14s"}
+{"loss": 0.1518419, "token_acc": 0.93460621, "grad_norm": 1.28832674, "learning_rate": 9.349e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242579, "epoch": 0.82132785, "global_step/max_steps": "10775/65595", "percentage": "16.43%", "elapsed_time": "12h 20m 16s", "remaining_time": "2d 14h 46m 16s"}
+{"loss": 0.14872177, "token_acc": 0.92128399, "grad_norm": 0.7896623, "learning_rate": 9.348e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242608, "epoch": 0.82170897, "global_step/max_steps": "10780/65595", "percentage": "16.43%", "elapsed_time": "12h 20m 31s", "remaining_time": "2d 14h 45m 29s"}
+{"loss": 0.12904688, "token_acc": 0.94435905, "grad_norm": 0.95097256, "learning_rate": 9.348e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24264, "epoch": 0.8220901, "global_step/max_steps": "10785/65595", "percentage": "16.44%", "elapsed_time": "12h 20m 46s", "remaining_time": "2d 14h 44m 38s"}
+{"loss": 0.15470783, "token_acc": 0.93898727, "grad_norm": 0.77257913, "learning_rate": 9.347e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242651, "epoch": 0.82247122, "global_step/max_steps": "10790/65595", "percentage": "16.45%", "elapsed_time": "12h 21m 4s", "remaining_time": "2d 14h 44m 8s"}
+{"loss": 0.20953181, "token_acc": 0.92833743, "grad_norm": 1.2725966, "learning_rate": 9.346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24269, "epoch": 0.82285235, "global_step/max_steps": "10795/65595", "percentage": "16.46%", "elapsed_time": "12h 21m 18s", "remaining_time": "2d 14h 43m 11s"}
+{"loss": 0.21541486, "token_acc": 0.88552972, "grad_norm": 0.29657179, "learning_rate": 9.346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242729, "epoch": 0.82323348, "global_step/max_steps": "10800/65595", "percentage": "16.46%", "elapsed_time": "12h 21m 31s", "remaining_time": "2d 14h 42m 14s"}
+{"eval_loss": 0.12327141, "eval_token_acc": 0.94153214, "eval_runtime": 175.9421, "eval_samples_per_second": 3.012, "eval_steps_per_second": 3.012, "epoch": 0.82323348, "global_step/max_steps": "10800/65595", "percentage": "16.46%", "elapsed_time": "12h 24m 27s", "remaining_time": "2d 14h 57m 7s"}
+{"loss": 0.1863587, "token_acc": 0.94112581, "grad_norm": 1.59852934, "learning_rate": 9.345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2418, "epoch": 0.8236146, "global_step/max_steps": "10805/65595", "percentage": "16.47%", "elapsed_time": "12h 24m 43s", "remaining_time": "2d 14h 56m 20s"}
+{"loss": 0.18324305, "token_acc": 0.92776298, "grad_norm": 1.10682034, "learning_rate": 9.345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241818, "epoch": 0.82399573, "global_step/max_steps": "10810/65595", "percentage": "16.48%", "elapsed_time": "12h 25m 0s", "remaining_time": "2d 14h 55m 43s"}
+{"loss": 0.1280697, "token_acc": 0.95395727, "grad_norm": 1.33944309, "learning_rate": 9.344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241851, "epoch": 0.82437686, "global_step/max_steps": "10815/65595", "percentage": "16.49%", "elapsed_time": "12h 25m 15s", "remaining_time": "2d 14h 54m 51s"}
+{"loss": 0.15793397, "token_acc": 0.94371918, "grad_norm": 0.63599616, "learning_rate": 9.344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241889, "epoch": 0.82475798, "global_step/max_steps": "10820/65595", "percentage": "16.50%", "elapsed_time": "12h 25m 28s", "remaining_time": "2d 14h 53m 55s"}
+{"loss": 0.18080485, "token_acc": 0.92643443, "grad_norm": 0.78409815, "learning_rate": 9.343e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241916, "epoch": 0.82513911, "global_step/max_steps": "10825/65595", "percentage": "16.50%", "elapsed_time": "12h 25m 44s", "remaining_time": "2d 14h 53m 10s"}
+{"loss": 0.18395014, "token_acc": 0.93244626, "grad_norm": 0.93916595, "learning_rate": 9.342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241943, "epoch": 0.82552024, "global_step/max_steps": "10830/65595", "percentage": "16.51%", "elapsed_time": "12h 26m 0s", "remaining_time": "2d 14h 52m 23s"}
+{"loss": 0.14089674, "token_acc": 0.94922691, "grad_norm": 1.27950037, "learning_rate": 9.342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241972, "epoch": 0.82590136, "global_step/max_steps": "10835/65595", "percentage": "16.52%", "elapsed_time": "12h 26m 15s", "remaining_time": "2d 14h 51m 36s"}
+{"loss": 0.1302002, "token_acc": 0.95014282, "grad_norm": 0.83751887, "learning_rate": 9.341e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242001, "epoch": 0.82628249, "global_step/max_steps": "10840/65595", "percentage": "16.53%", "elapsed_time": "12h 26m 30s", "remaining_time": "2d 14h 50m 47s"}
+{"loss": 0.10393034, "token_acc": 0.94382698, "grad_norm": 0.8336392, "learning_rate": 9.341e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242032, "epoch": 0.82666362, "global_step/max_steps": "10845/65595", "percentage": "16.53%", "elapsed_time": "12h 26m 45s", "remaining_time": "2d 14h 49m 58s"}
+{"loss": 0.15688032, "token_acc": 0.94223827, "grad_norm": 0.43302241, "learning_rate": 9.34e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24205, "epoch": 0.82704474, "global_step/max_steps": "10850/65595", "percentage": "16.54%", "elapsed_time": "12h 27m 3s", "remaining_time": "2d 14h 49m 21s"}
+{"loss": 0.13391684, "token_acc": 0.94412724, "grad_norm": 1.12429416, "learning_rate": 9.339e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242073, "epoch": 0.82742587, "global_step/max_steps": "10855/65595", "percentage": "16.55%", "elapsed_time": "12h 27m 19s", "remaining_time": "2d 14h 48m 38s"}
+{"loss": 0.19041207, "token_acc": 0.92655699, "grad_norm": 1.2474649, "learning_rate": 9.339e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242092, "epoch": 0.827807, "global_step/max_steps": "10860/65595", "percentage": "16.56%", "elapsed_time": "12h 27m 36s", "remaining_time": "2d 14h 48m 0s"}
+{"loss": 0.13738723, "token_acc": 0.94847365, "grad_norm": 0.76991564, "learning_rate": 9.338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242121, "epoch": 0.82818812, "global_step/max_steps": "10865/65595", "percentage": "16.56%", "elapsed_time": "12h 27m 52s", "remaining_time": "2d 14h 47m 12s"}
+{"loss": 0.15506753, "token_acc": 0.94368059, "grad_norm": 0.61549538, "learning_rate": 9.338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24215, "epoch": 0.82856925, "global_step/max_steps": "10870/65595", "percentage": "16.57%", "elapsed_time": "12h 28m 7s", "remaining_time": "2d 14h 46m 25s"}
+{"loss": 0.2513906, "token_acc": 0.91571125, "grad_norm": 1.60679281, "learning_rate": 9.337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242182, "epoch": 0.82895038, "global_step/max_steps": "10875/65595", "percentage": "16.58%", "elapsed_time": "12h 28m 21s", "remaining_time": "2d 14h 45m 34s"}
+{"loss": 0.17181237, "token_acc": 0.93405472, "grad_norm": 0.74704212, "learning_rate": 9.336e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242206, "epoch": 0.8293315, "global_step/max_steps": "10880/65595", "percentage": "16.59%", "elapsed_time": "12h 28m 38s", "remaining_time": "2d 14h 44m 51s"}
+{"loss": 0.12316359, "token_acc": 0.93957704, "grad_norm": 0.47588843, "learning_rate": 9.336e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242235, "epoch": 0.82971263, "global_step/max_steps": "10885/65595", "percentage": "16.59%", "elapsed_time": "12h 28m 53s", "remaining_time": "2d 14h 44m 4s"}
+{"loss": 0.11335659, "token_acc": 0.96472795, "grad_norm": 0.81321543, "learning_rate": 9.335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242247, "epoch": 0.83009376, "global_step/max_steps": "10890/65595", "percentage": "16.60%", "elapsed_time": "12h 29m 11s", "remaining_time": "2d 14h 43m 31s"}
+{"loss": 0.18620025, "token_acc": 0.92903386, "grad_norm": 1.50277996, "learning_rate": 9.335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242274, "epoch": 0.83047488, "global_step/max_steps": "10895/65595", "percentage": "16.61%", "elapsed_time": "12h 29m 27s", "remaining_time": "2d 14h 42m 46s"}
+{"loss": 0.10942531, "token_acc": 0.94297977, "grad_norm": 0.67327183, "learning_rate": 9.334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242318, "epoch": 0.83085601, "global_step/max_steps": "10900/65595", "percentage": "16.62%", "elapsed_time": "12h 29m 40s", "remaining_time": "2d 14h 41m 44s"}
+{"loss": 0.18650107, "token_acc": 0.92156311, "grad_norm": 0.94988614, "learning_rate": 9.333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242352, "epoch": 0.83123714, "global_step/max_steps": "10905/65595", "percentage": "16.62%", "elapsed_time": "12h 29m 54s", "remaining_time": "2d 14h 40m 52s"}
+{"loss": 0.12636368, "token_acc": 0.94758621, "grad_norm": 1.98781371, "learning_rate": 9.333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242391, "epoch": 0.83161826, "global_step/max_steps": "10910/65595", "percentage": "16.63%", "elapsed_time": "12h 30m 7s", "remaining_time": "2d 14h 39m 54s"}
+{"loss": 0.10581499, "token_acc": 0.94914225, "grad_norm": 0.64830548, "learning_rate": 9.332e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242402, "epoch": 0.83199939, "global_step/max_steps": "10915/65595", "percentage": "16.64%", "elapsed_time": "12h 30m 26s", "remaining_time": "2d 14h 39m 24s"}
+{"loss": 0.16082144, "token_acc": 0.93720213, "grad_norm": 0.58186376, "learning_rate": 9.332e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242437, "epoch": 0.83238052, "global_step/max_steps": "10920/65595", "percentage": "16.65%", "elapsed_time": "12h 30m 40s", "remaining_time": "2d 14h 38m 31s"}
+{"loss": 0.17940677, "token_acc": 0.94146341, "grad_norm": 1.0212642, "learning_rate": 9.331e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24246, "epoch": 0.83276164, "global_step/max_steps": "10925/65595", "percentage": "16.66%", "elapsed_time": "12h 30m 56s", "remaining_time": "2d 14h 37m 49s"}
+{"loss": 0.14104139, "token_acc": 0.94786626, "grad_norm": 0.81360662, "learning_rate": 9.33e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242464, "epoch": 0.83314277, "global_step/max_steps": "10930/65595", "percentage": "16.66%", "elapsed_time": "12h 31m 16s", "remaining_time": "2d 14h 37m 25s"}
+{"loss": 0.16079073, "token_acc": 0.93118594, "grad_norm": 0.88970733, "learning_rate": 9.33e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242494, "epoch": 0.8335239, "global_step/max_steps": "10935/65595", "percentage": "16.67%", "elapsed_time": "12h 31m 31s", "remaining_time": "2d 14h 36m 36s"}
+{"loss": 0.1738678, "token_acc": 0.93656981, "grad_norm": 0.7524811, "learning_rate": 9.329e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24252, "epoch": 0.83390502, "global_step/max_steps": "10940/65595", "percentage": "16.68%", "elapsed_time": "12h 31m 47s", "remaining_time": "2d 14h 35m 52s"}
+{"loss": 0.12721066, "token_acc": 0.94570559, "grad_norm": 1.0789001, "learning_rate": 9.329e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24255, "epoch": 0.83428615, "global_step/max_steps": "10945/65595", "percentage": "16.69%", "elapsed_time": "12h 32m 2s", "remaining_time": "2d 14h 35m 3s"}
+{"loss": 0.15169305, "token_acc": 0.94206009, "grad_norm": 0.84138668, "learning_rate": 9.328e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24256, "epoch": 0.83466728, "global_step/max_steps": "10950/65595", "percentage": "16.69%", "elapsed_time": "12h 32m 21s", "remaining_time": "2d 14h 34m 32s"}
+{"loss": 0.19273015, "token_acc": 0.92702805, "grad_norm": 0.61522698, "learning_rate": 9.327e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24258, "epoch": 0.8350484, "global_step/max_steps": "10955/65595", "percentage": "16.70%", "elapsed_time": "12h 32m 38s", "remaining_time": "2d 14h 33m 54s"}
+{"loss": 0.11245507, "token_acc": 0.95717998, "grad_norm": 0.61234379, "learning_rate": 9.327e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242581, "epoch": 0.83542953, "global_step/max_steps": "10960/65595", "percentage": "16.71%", "elapsed_time": "12h 32m 58s", "remaining_time": "2d 14h 33m 32s"}
+{"loss": 0.13175561, "token_acc": 0.94717082, "grad_norm": 0.67439187, "learning_rate": 9.326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242597, "epoch": 0.83581066, "global_step/max_steps": "10965/65595", "percentage": "16.72%", "elapsed_time": "12h 33m 16s", "remaining_time": "2d 14h 32m 57s"}
+{"loss": 0.15788116, "token_acc": 0.94253288, "grad_norm": 1.24697518, "learning_rate": 9.326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242617, "epoch": 0.83619178, "global_step/max_steps": "10970/65595", "percentage": "16.72%", "elapsed_time": "12h 33m 33s", "remaining_time": "2d 14h 32m 17s"}
+{"loss": 0.14531921, "token_acc": 0.94389059, "grad_norm": 0.70096236, "learning_rate": 9.325e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242628, "epoch": 0.83657291, "global_step/max_steps": "10975/65595", "percentage": "16.73%", "elapsed_time": "12h 33m 51s", "remaining_time": "2d 14h 31m 47s"}
+{"loss": 0.142239, "token_acc": 0.94130127, "grad_norm": 0.67957842, "learning_rate": 9.324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242648, "epoch": 0.83695404, "global_step/max_steps": "10980/65595", "percentage": "16.74%", "elapsed_time": "12h 34m 8s", "remaining_time": "2d 14h 31m 8s"}
+{"loss": 0.10234172, "token_acc": 0.94682231, "grad_norm": 0.93201429, "learning_rate": 9.324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242676, "epoch": 0.83733516, "global_step/max_steps": "10985/65595", "percentage": "16.75%", "elapsed_time": "12h 34m 23s", "remaining_time": "2d 14h 30m 21s"}
+{"loss": 0.12136092, "token_acc": 0.93585415, "grad_norm": 0.84508091, "learning_rate": 9.323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242701, "epoch": 0.83771629, "global_step/max_steps": "10990/65595", "percentage": "16.75%", "elapsed_time": "12h 34m 39s", "remaining_time": "2d 14h 29m 37s"}
+{"loss": 0.13176246, "token_acc": 0.93930636, "grad_norm": 0.28553361, "learning_rate": 9.323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242736, "epoch": 0.83809742, "global_step/max_steps": "10995/65595", "percentage": "16.76%", "elapsed_time": "12h 34m 53s", "remaining_time": "2d 14h 28m 44s"}
+{"loss": 0.11941643, "token_acc": 0.94370327, "grad_norm": 1.15100336, "learning_rate": 9.322e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242762, "epoch": 0.83847854, "global_step/max_steps": "11000/65595", "percentage": "16.77%", "elapsed_time": "12h 35m 9s", "remaining_time": "2d 14h 28m 0s"}
+{"eval_loss": 0.11903817, "eval_token_acc": 0.94358774, "eval_runtime": 177.629, "eval_samples_per_second": 2.984, "eval_steps_per_second": 2.984, "epoch": 0.83847854, "global_step/max_steps": "11000/65595", "percentage": "16.77%", "elapsed_time": "12h 38m 7s", "remaining_time": "2d 14h 42m 42s"}
+{"loss": 0.14373393, "token_acc": 0.94345168, "grad_norm": 0.67023379, "learning_rate": 9.321e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241831, "epoch": 0.83885967, "global_step/max_steps": "11005/65595", "percentage": "16.78%", "elapsed_time": "12h 38m 24s", "remaining_time": "2d 14h 42m 5s"}
+{"loss": 0.14332402, "token_acc": 0.92033679, "grad_norm": 0.80210745, "learning_rate": 9.321e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241866, "epoch": 0.8392408, "global_step/max_steps": "11010/65595", "percentage": "16.78%", "elapsed_time": "12h 38m 38s", "remaining_time": "2d 14h 41m 11s"}
+{"loss": 0.1467615, "token_acc": 0.94419181, "grad_norm": 0.72499418, "learning_rate": 9.32e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241877, "epoch": 0.83962192, "global_step/max_steps": "11015/65595", "percentage": "16.79%", "elapsed_time": "12h 38m 57s", "remaining_time": "2d 14h 40m 40s"}
+{"loss": 0.1884312, "token_acc": 0.92767733, "grad_norm": 2.50195384, "learning_rate": 9.32e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241908, "epoch": 0.84000305, "global_step/max_steps": "11020/65595", "percentage": "16.80%", "elapsed_time": "12h 39m 12s", "remaining_time": "2d 14h 39m 51s"}
+{"loss": 0.14675939, "token_acc": 0.93914508, "grad_norm": 1.37366688, "learning_rate": 9.319e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241931, "epoch": 0.84038418, "global_step/max_steps": "11025/65595", "percentage": "16.81%", "elapsed_time": "12h 39m 28s", "remaining_time": "2d 14h 39m 9s"}
+{"loss": 0.19592135, "token_acc": 0.92884371, "grad_norm": 0.73416013, "learning_rate": 9.318e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241953, "epoch": 0.8407653, "global_step/max_steps": "11030/65595", "percentage": "16.82%", "elapsed_time": "12h 39m 45s", "remaining_time": "2d 14h 38m 27s"}
+{"loss": 0.19210788, "token_acc": 0.94083392, "grad_norm": 1.71569133, "learning_rate": 9.318e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241978, "epoch": 0.84114643, "global_step/max_steps": "11035/65595", "percentage": "16.82%", "elapsed_time": "12h 40m 1s", "remaining_time": "2d 14h 37m 44s"}
+{"loss": 0.14122083, "token_acc": 0.94248265, "grad_norm": 0.80082172, "learning_rate": 9.317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241992, "epoch": 0.84152756, "global_step/max_steps": "11040/65595", "percentage": "16.83%", "elapsed_time": "12h 40m 19s", "remaining_time": "2d 14h 37m 10s"}
+{"loss": 0.16083933, "token_acc": 0.94045802, "grad_norm": 0.66064298, "learning_rate": 9.317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242015, "epoch": 0.84190868, "global_step/max_steps": "11045/65595", "percentage": "16.84%", "elapsed_time": "12h 40m 35s", "remaining_time": "2d 14h 36m 28s"}
+{"loss": 0.14739598, "token_acc": 0.95588235, "grad_norm": 1.58208895, "learning_rate": 9.316e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242041, "epoch": 0.84228981, "global_step/max_steps": "11050/65595", "percentage": "16.85%", "elapsed_time": "12h 40m 51s", "remaining_time": "2d 14h 35m 43s"}
+{"loss": 0.1614848, "token_acc": 0.94419208, "grad_norm": 1.39574444, "learning_rate": 9.315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24206, "epoch": 0.84267094, "global_step/max_steps": "11055/65595", "percentage": "16.85%", "elapsed_time": "12h 41m 8s", "remaining_time": "2d 14h 35m 5s"}
+{"loss": 0.12625062, "token_acc": 0.95071482, "grad_norm": 1.3653456, "learning_rate": 9.315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242097, "epoch": 0.84305206, "global_step/max_steps": "11060/65595", "percentage": "16.86%", "elapsed_time": "12h 41m 21s", "remaining_time": "2d 14h 34m 9s"}
+{"loss": 0.12409739, "token_acc": 0.94378892, "grad_norm": 1.04247558, "learning_rate": 9.314e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242118, "epoch": 0.84343319, "global_step/max_steps": "11065/65595", "percentage": "16.87%", "elapsed_time": "12h 41m 38s", "remaining_time": "2d 14h 33m 29s"}
+{"loss": 0.10168704, "token_acc": 0.96617536, "grad_norm": 1.43460572, "learning_rate": 9.314e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242146, "epoch": 0.84381432, "global_step/max_steps": "11070/65595", "percentage": "16.88%", "elapsed_time": "12h 41m 54s", "remaining_time": "2d 14h 32m 43s"}
+{"loss": 0.11996313, "token_acc": 0.9489986, "grad_norm": 0.996593, "learning_rate": 9.313e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242174, "epoch": 0.84419544, "global_step/max_steps": "11075/65595", "percentage": "16.88%", "elapsed_time": "12h 42m 9s", "remaining_time": "2d 14h 31m 55s"}
+{"loss": 0.15396605, "token_acc": 0.93495935, "grad_norm": 1.55279219, "learning_rate": 9.312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242217, "epoch": 0.84457657, "global_step/max_steps": "11080/65595", "percentage": "16.89%", "elapsed_time": "12h 42m 21s", "remaining_time": "2d 14h 30m 55s"}
+{"loss": 0.17043307, "token_acc": 0.94317241, "grad_norm": 1.03357995, "learning_rate": 9.312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242243, "epoch": 0.84495769, "global_step/max_steps": "11085/65595", "percentage": "16.90%", "elapsed_time": "12h 42m 37s", "remaining_time": "2d 14h 30m 11s"}
+{"loss": 0.16430689, "token_acc": 0.93595434, "grad_norm": 2.11019969, "learning_rate": 9.311e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242273, "epoch": 0.84533882, "global_step/max_steps": "11090/65595", "percentage": "16.91%", "elapsed_time": "12h 42m 52s", "remaining_time": "2d 14h 29m 22s"}
+{"loss": 0.1611052, "token_acc": 0.93991228, "grad_norm": 1.08792329, "learning_rate": 9.311e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242297, "epoch": 0.84571995, "global_step/max_steps": "11095/65595", "percentage": "16.91%", "elapsed_time": "12h 43m 8s", "remaining_time": "2d 14h 28m 39s"}
+{"loss": 0.19714189, "token_acc": 0.92639717, "grad_norm": 1.95182383, "learning_rate": 9.31e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242323, "epoch": 0.84610107, "global_step/max_steps": "11100/65595", "percentage": "16.92%", "elapsed_time": "12h 43m 24s", "remaining_time": "2d 14h 27m 54s"}
+{"loss": 0.16797824, "token_acc": 0.93405535, "grad_norm": 1.4333595, "learning_rate": 9.309e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242346, "epoch": 0.8464822, "global_step/max_steps": "11105/65595", "percentage": "16.93%", "elapsed_time": "12h 43m 40s", "remaining_time": "2d 14h 27m 13s"}
+{"loss": 0.20840809, "token_acc": 0.90831086, "grad_norm": 0.96935511, "learning_rate": 9.309e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242374, "epoch": 0.84686333, "global_step/max_steps": "11110/65595", "percentage": "16.94%", "elapsed_time": "12h 43m 56s", "remaining_time": "2d 14h 26m 26s"}
+{"loss": 0.11118177, "token_acc": 0.94522378, "grad_norm": 0.3867141, "learning_rate": 9.308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2424, "epoch": 0.84724445, "global_step/max_steps": "11115/65595", "percentage": "16.94%", "elapsed_time": "12h 44m 11s", "remaining_time": "2d 14h 25m 41s"}
+{"loss": 0.12820685, "token_acc": 0.95042703, "grad_norm": 0.9719767, "learning_rate": 9.308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24242, "epoch": 0.84762558, "global_step/max_steps": "11120/65595", "percentage": "16.95%", "elapsed_time": "12h 44m 28s", "remaining_time": "2d 14h 25m 2s"}
+{"loss": 0.13506241, "token_acc": 0.95088067, "grad_norm": 0.86314005, "learning_rate": 9.307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242446, "epoch": 0.84800671, "global_step/max_steps": "11125/65595", "percentage": "16.96%", "elapsed_time": "12h 44m 44s", "remaining_time": "2d 14h 24m 17s"}
+{"loss": 0.17733449, "token_acc": 0.92300266, "grad_norm": 0.84663916, "learning_rate": 9.306e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242477, "epoch": 0.84838783, "global_step/max_steps": "11130/65595", "percentage": "16.97%", "elapsed_time": "12h 44m 59s", "remaining_time": "2d 14h 23m 28s"}
+{"loss": 0.13892336, "token_acc": 0.94917556, "grad_norm": 0.79103011, "learning_rate": 9.306e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242498, "epoch": 0.84876896, "global_step/max_steps": "11135/65595", "percentage": "16.98%", "elapsed_time": "12h 45m 15s", "remaining_time": "2d 14h 22m 48s"}
+{"loss": 0.18649893, "token_acc": 0.92307692, "grad_norm": 1.09289384, "learning_rate": 9.305e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242525, "epoch": 0.84915009, "global_step/max_steps": "11140/65595", "percentage": "16.98%", "elapsed_time": "12h 45m 31s", "remaining_time": "2d 14h 22m 2s"}
+{"loss": 0.17914717, "token_acc": 0.94727843, "grad_norm": 1.37371564, "learning_rate": 9.304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242554, "epoch": 0.84953121, "global_step/max_steps": "11145/65595", "percentage": "16.99%", "elapsed_time": "12h 45m 46s", "remaining_time": "2d 14h 21m 15s"}
+{"loss": 0.13918216, "token_acc": 0.94827586, "grad_norm": 0.74253136, "learning_rate": 9.304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242587, "epoch": 0.84991234, "global_step/max_steps": "11150/65595", "percentage": "17.00%", "elapsed_time": "12h 46m 0s", "remaining_time": "2d 14h 20m 24s"}
+{"loss": 0.18921554, "token_acc": 0.93579454, "grad_norm": 1.10646486, "learning_rate": 9.303e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242612, "epoch": 0.85029347, "global_step/max_steps": "11155/65595", "percentage": "17.01%", "elapsed_time": "12h 46m 16s", "remaining_time": "2d 14h 19m 40s"}
+{"loss": 0.11232266, "token_acc": 0.93993862, "grad_norm": 0.34457302, "learning_rate": 9.303e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24264, "epoch": 0.85067459, "global_step/max_steps": "11160/65595", "percentage": "17.01%", "elapsed_time": "12h 46m 31s", "remaining_time": "2d 14h 18m 54s"}
+{"loss": 0.19182618, "token_acc": 0.94579993, "grad_norm": 1.14217579, "learning_rate": 9.302e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242663, "epoch": 0.85105572, "global_step/max_steps": "11165/65595", "percentage": "17.02%", "elapsed_time": "12h 46m 48s", "remaining_time": "2d 14h 18m 11s"}
+{"loss": 0.13044491, "token_acc": 0.95221413, "grad_norm": 1.01392865, "learning_rate": 9.301e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242671, "epoch": 0.85143685, "global_step/max_steps": "11170/65595", "percentage": "17.03%", "elapsed_time": "12h 47m 7s", "remaining_time": "2d 14h 17m 43s"}
+{"loss": 0.16573522, "token_acc": 0.92497793, "grad_norm": 0.69244581, "learning_rate": 9.301e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242706, "epoch": 0.85181797, "global_step/max_steps": "11175/65595", "percentage": "17.04%", "elapsed_time": "12h 47m 21s", "remaining_time": "2d 14h 16m 50s"}
+{"loss": 0.14350019, "token_acc": 0.94448716, "grad_norm": 0.54919565, "learning_rate": 9.3e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242716, "epoch": 0.8521991, "global_step/max_steps": "11180/65595", "percentage": "17.04%", "elapsed_time": "12h 47m 39s", "remaining_time": "2d 14h 16m 20s"}
+{"loss": 0.15703367, "token_acc": 0.94710744, "grad_norm": 0.89351815, "learning_rate": 9.3e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242746, "epoch": 0.85258023, "global_step/max_steps": "11185/65595", "percentage": "17.05%", "elapsed_time": "12h 47m 54s", "remaining_time": "2d 14h 15m 32s"}
+{"loss": 0.15880259, "token_acc": 0.93287266, "grad_norm": 0.91662312, "learning_rate": 9.299e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242777, "epoch": 0.85296135, "global_step/max_steps": "11190/65595", "percentage": "17.06%", "elapsed_time": "12h 48m 9s", "remaining_time": "2d 14h 14m 43s"}
+{"loss": 0.1385083, "token_acc": 0.94639556, "grad_norm": 1.9896698, "learning_rate": 9.298e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242812, "epoch": 0.85334248, "global_step/max_steps": "11195/65595", "percentage": "17.07%", "elapsed_time": "12h 48m 23s", "remaining_time": "2d 14h 13m 50s"}
+{"loss": 0.18870625, "token_acc": 0.93024501, "grad_norm": 0.67273378, "learning_rate": 9.298e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24282, "epoch": 0.85372361, "global_step/max_steps": "11200/65595", "percentage": "17.07%", "elapsed_time": "12h 48m 42s", "remaining_time": "2d 14h 13m 23s"}
+{"eval_loss": 0.11900966, "eval_token_acc": 0.94370821, "eval_runtime": 184.8537, "eval_samples_per_second": 2.867, "eval_steps_per_second": 2.867, "epoch": 0.85372361, "global_step/max_steps": "11200/65595", "percentage": "17.07%", "elapsed_time": "12h 51m 47s", "remaining_time": "2d 14h 28m 20s"}
+{"loss": 0.18284678, "token_acc": 0.94364079, "grad_norm": 1.0817548, "learning_rate": 9.297e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241887, "epoch": 0.85410473, "global_step/max_steps": "11205/65595", "percentage": "17.08%", "elapsed_time": "12h 52m 1s", "remaining_time": "2d 14h 27m 26s"}
+{"loss": 0.16453466, "token_acc": 0.94912609, "grad_norm": 1.35129583, "learning_rate": 9.297e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241926, "epoch": 0.85448586, "global_step/max_steps": "11210/65595", "percentage": "17.09%", "elapsed_time": "12h 52m 14s", "remaining_time": "2d 14h 26m 29s"}
+{"loss": 0.14493275, "token_acc": 0.95072993, "grad_norm": 0.62060112, "learning_rate": 9.296e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241933, "epoch": 0.85486699, "global_step/max_steps": "11215/65595", "percentage": "17.10%", "elapsed_time": "12h 52m 33s", "remaining_time": "2d 14h 26m 2s"}
+{"loss": 0.1310398, "token_acc": 0.94572838, "grad_norm": 0.6712293, "learning_rate": 9.295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241956, "epoch": 0.85524811, "global_step/max_steps": "11220/65595", "percentage": "17.10%", "elapsed_time": "12h 52m 49s", "remaining_time": "2d 14h 25m 20s"}
+{"loss": 0.15444634, "token_acc": 0.9420857, "grad_norm": 1.96027124, "learning_rate": 9.295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241978, "epoch": 0.85562924, "global_step/max_steps": "11225/65595", "percentage": "17.11%", "elapsed_time": "12h 53m 6s", "remaining_time": "2d 14h 24m 38s"}
+{"loss": 0.15099869, "token_acc": 0.94286317, "grad_norm": 0.80124247, "learning_rate": 9.294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242002, "epoch": 0.85601037, "global_step/max_steps": "11230/65595", "percentage": "17.12%", "elapsed_time": "12h 53m 22s", "remaining_time": "2d 14h 23m 56s"}
+{"loss": 0.12697191, "token_acc": 0.95194508, "grad_norm": 1.28920114, "learning_rate": 9.293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242004, "epoch": 0.85639149, "global_step/max_steps": "11235/65595", "percentage": "17.13%", "elapsed_time": "12h 53m 42s", "remaining_time": "2d 14h 23m 33s"}
+{"loss": 0.14466591, "token_acc": 0.94199197, "grad_norm": 0.44902378, "learning_rate": 9.293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242027, "epoch": 0.85677262, "global_step/max_steps": "11240/65595", "percentage": "17.14%", "elapsed_time": "12h 53m 58s", "remaining_time": "2d 14h 22m 51s"}
+{"loss": 0.14058228, "token_acc": 0.94618529, "grad_norm": 0.87011701, "learning_rate": 9.292e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242045, "epoch": 0.85715375, "global_step/max_steps": "11245/65595", "percentage": "17.14%", "elapsed_time": "12h 54m 16s", "remaining_time": "2d 14h 22m 14s"}
+{"loss": 0.24053016, "token_acc": 0.91817352, "grad_norm": 0.58630735, "learning_rate": 9.292e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242061, "epoch": 0.85753487, "global_step/max_steps": "11250/65595", "percentage": "17.15%", "elapsed_time": "12h 54m 33s", "remaining_time": "2d 14h 21m 38s"}
+{"loss": 0.12870147, "token_acc": 0.9487666, "grad_norm": 0.5197258, "learning_rate": 9.291e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242083, "epoch": 0.857916, "global_step/max_steps": "11255/65595", "percentage": "17.16%", "elapsed_time": "12h 54m 50s", "remaining_time": "2d 14h 20m 58s"}
+{"loss": 0.12530384, "token_acc": 0.95425978, "grad_norm": 0.71262163, "learning_rate": 9.29e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242082, "epoch": 0.85829713, "global_step/max_steps": "11260/65595", "percentage": "17.17%", "elapsed_time": "12h 55m 10s", "remaining_time": "2d 14h 20m 37s"}
+{"loss": 0.16428244, "token_acc": 0.93337688, "grad_norm": 1.02758968, "learning_rate": 9.29e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242115, "epoch": 0.85867825, "global_step/max_steps": "11265/65595", "percentage": "17.17%", "elapsed_time": "12h 55m 25s", "remaining_time": "2d 14h 19m 46s"}
+{"loss": 0.14040806, "token_acc": 0.93528561, "grad_norm": 1.23289418, "learning_rate": 9.289e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242129, "epoch": 0.85905938, "global_step/max_steps": "11270/65595", "percentage": "17.18%", "elapsed_time": "12h 55m 43s", "remaining_time": "2d 14h 19m 13s"}
+{"loss": 0.14184411, "token_acc": 0.94518332, "grad_norm": 0.73225468, "learning_rate": 9.289e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242141, "epoch": 0.85944051, "global_step/max_steps": "11275/65595", "percentage": "17.19%", "elapsed_time": "12h 56m 1s", "remaining_time": "2d 14h 18m 40s"}
+{"loss": 0.23989294, "token_acc": 0.92319804, "grad_norm": 1.10226953, "learning_rate": 9.288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242159, "epoch": 0.85982163, "global_step/max_steps": "11280/65595", "percentage": "17.20%", "elapsed_time": "12h 56m 18s", "remaining_time": "2d 14h 18m 3s"}
+{"loss": 0.15799055, "token_acc": 0.92523172, "grad_norm": 0.66753644, "learning_rate": 9.287e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242185, "epoch": 0.86020276, "global_step/max_steps": "11285/65595", "percentage": "17.20%", "elapsed_time": "12h 56m 34s", "remaining_time": "2d 14h 17m 18s"}
+{"loss": 0.13705127, "token_acc": 0.94826996, "grad_norm": 1.32726014, "learning_rate": 9.287e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242206, "epoch": 0.86058389, "global_step/max_steps": "11290/65595", "percentage": "17.21%", "elapsed_time": "12h 56m 50s", "remaining_time": "2d 14h 16m 39s"}
+{"loss": 0.19024005, "token_acc": 0.93574374, "grad_norm": 1.12287295, "learning_rate": 9.286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242214, "epoch": 0.86096501, "global_step/max_steps": "11295/65595", "percentage": "17.22%", "elapsed_time": "12h 57m 10s", "remaining_time": "2d 14h 16m 11s"}
+{"loss": 0.15102235, "token_acc": 0.94553942, "grad_norm": 0.84572673, "learning_rate": 9.285e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242252, "epoch": 0.86134614, "global_step/max_steps": "11300/65595", "percentage": "17.23%", "elapsed_time": "12h 57m 23s", "remaining_time": "2d 14h 15m 15s"}
+{"loss": 0.12301328, "token_acc": 0.95053869, "grad_norm": 0.90081263, "learning_rate": 9.285e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242279, "epoch": 0.86172727, "global_step/max_steps": "11305/65595", "percentage": "17.23%", "elapsed_time": "12h 57m 38s", "remaining_time": "2d 14h 14m 30s"}
+{"loss": 0.14297122, "token_acc": 0.94094081, "grad_norm": 0.84410149, "learning_rate": 9.284e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242287, "epoch": 0.86210839, "global_step/max_steps": "11310/65595", "percentage": "17.24%", "elapsed_time": "12h 57m 57s", "remaining_time": "2d 14h 14m 1s"}
+{"loss": 0.13432112, "token_acc": 0.94613408, "grad_norm": 0.82687187, "learning_rate": 9.284e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242279, "epoch": 0.86248952, "global_step/max_steps": "11315/65595", "percentage": "17.25%", "elapsed_time": "12h 58m 20s", "remaining_time": "2d 14h 13m 48s"}
+{"loss": 0.13096645, "token_acc": 0.94431487, "grad_norm": 1.09756804, "learning_rate": 9.283e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242308, "epoch": 0.86287065, "global_step/max_steps": "11320/65595", "percentage": "17.26%", "elapsed_time": "12h 58m 35s", "remaining_time": "2d 14h 13m 0s"}
+{"loss": 0.20588057, "token_acc": 0.92303079, "grad_norm": 1.16941714, "learning_rate": 9.282e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242331, "epoch": 0.86325177, "global_step/max_steps": "11325/65595", "percentage": "17.27%", "elapsed_time": "12h 58m 51s", "remaining_time": "2d 14h 12m 19s"}
+{"loss": 0.15845749, "token_acc": 0.94474219, "grad_norm": 0.62970567, "learning_rate": 9.282e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242349, "epoch": 0.8636329, "global_step/max_steps": "11330/65595", "percentage": "17.27%", "elapsed_time": "12h 59m 8s", "remaining_time": "2d 14h 11m 41s"}
+{"loss": 0.20952964, "token_acc": 0.9084676, "grad_norm": 1.04193676, "learning_rate": 9.281e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242366, "epoch": 0.86401403, "global_step/max_steps": "11335/65595", "percentage": "17.28%", "elapsed_time": "12h 59m 25s", "remaining_time": "2d 14h 11m 5s"}
+{"loss": 0.12869424, "token_acc": 0.952204, "grad_norm": 0.68626803, "learning_rate": 9.281e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242369, "epoch": 0.86439515, "global_step/max_steps": "11340/65595", "percentage": "17.29%", "elapsed_time": "12h 59m 45s", "remaining_time": "2d 14h 10m 42s"}
+{"loss": 0.12949741, "token_acc": 0.95114249, "grad_norm": 0.12061134, "learning_rate": 9.28e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242393, "epoch": 0.86477628, "global_step/max_steps": "11345/65595", "percentage": "17.30%", "elapsed_time": "13h 0m 1s", "remaining_time": "2d 14h 9m 59s"}
+{"loss": 0.15031658, "token_acc": 0.94628253, "grad_norm": 1.27687252, "learning_rate": 9.279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242412, "epoch": 0.86515741, "global_step/max_steps": "11350/65595", "percentage": "17.30%", "elapsed_time": "13h 0m 18s", "remaining_time": "2d 14h 9m 21s"}
+{"loss": 0.17574484, "token_acc": 0.93246887, "grad_norm": 1.06831515, "learning_rate": 9.279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24243, "epoch": 0.86553853, "global_step/max_steps": "11355/65595", "percentage": "17.31%", "elapsed_time": "13h 0m 36s", "remaining_time": "2d 14h 8m 43s"}
+{"loss": 0.09582919, "token_acc": 0.94311523, "grad_norm": 0.53434694, "learning_rate": 9.278e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242456, "epoch": 0.86591966, "global_step/max_steps": "11360/65595", "percentage": "17.32%", "elapsed_time": "13h 0m 51s", "remaining_time": "2d 14h 7m 59s"}
+{"loss": 0.12343357, "token_acc": 0.95203993, "grad_norm": 0.5921213, "learning_rate": 9.277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242483, "epoch": 0.86630079, "global_step/max_steps": "11365/65595", "percentage": "17.33%", "elapsed_time": "13h 1m 6s", "remaining_time": "2d 14h 7m 13s"}
+{"loss": 0.19461839, "token_acc": 0.91136802, "grad_norm": 1.16809893, "learning_rate": 9.277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242512, "epoch": 0.86668191, "global_step/max_steps": "11370/65595", "percentage": "17.33%", "elapsed_time": "13h 1m 22s", "remaining_time": "2d 14h 6m 26s"}
+{"loss": 0.19429901, "token_acc": 0.90373045, "grad_norm": 1.33052957, "learning_rate": 9.276e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242551, "epoch": 0.86706304, "global_step/max_steps": "11375/65595", "percentage": "17.34%", "elapsed_time": "13h 1m 35s", "remaining_time": "2d 14h 5m 30s"}
+{"loss": 0.20306687, "token_acc": 0.90795317, "grad_norm": 1.04737425, "learning_rate": 9.276e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242587, "epoch": 0.86744416, "global_step/max_steps": "11380/65595", "percentage": "17.35%", "elapsed_time": "13h 1m 48s", "remaining_time": "2d 14h 4m 36s"}
+{"loss": 0.15284119, "token_acc": 0.94034209, "grad_norm": 1.10641778, "learning_rate": 9.275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242623, "epoch": 0.86782529, "global_step/max_steps": "11385/65595", "percentage": "17.36%", "elapsed_time": "13h 2m 2s", "remaining_time": "2d 14h 3m 41s"}
+{"loss": 0.10176662, "token_acc": 0.94832648, "grad_norm": 0.71798414, "learning_rate": 9.274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242638, "epoch": 0.86820642, "global_step/max_steps": "11390/65595", "percentage": "17.36%", "elapsed_time": "13h 2m 20s", "remaining_time": "2d 14h 3m 8s"}
+{"loss": 0.1150419, "token_acc": 0.95622181, "grad_norm": 0.89642817, "learning_rate": 9.274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242665, "epoch": 0.86858754, "global_step/max_steps": "11395/65595", "percentage": "17.37%", "elapsed_time": "13h 2m 35s", "remaining_time": "2d 14h 2m 22s"}
+{"loss": 0.11975105, "token_acc": 0.95210096, "grad_norm": 1.04318905, "learning_rate": 9.273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242678, "epoch": 0.86896867, "global_step/max_steps": "11400/65595", "percentage": "17.38%", "elapsed_time": "13h 2m 53s", "remaining_time": "2d 14h 1m 49s"}
+{"eval_loss": 0.12047484, "eval_token_acc": 0.94339196, "eval_runtime": 172.761, "eval_samples_per_second": 3.068, "eval_steps_per_second": 3.068, "epoch": 0.86896867, "global_step/max_steps": "11400/65595", "percentage": "17.38%", "elapsed_time": "13h 5m 46s", "remaining_time": "2d 14h 15m 30s"}
+{"loss": 0.29540699, "token_acc": 0.94246421, "grad_norm": 1.6278652, "learning_rate": 9.272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24182, "epoch": 0.8693498, "global_step/max_steps": "11405/65595", "percentage": "17.39%", "elapsed_time": "13h 6m 0s", "remaining_time": "2d 14h 14m 41s"}
+{"loss": 0.13939646, "token_acc": 0.93068182, "grad_norm": 0.05468103, "learning_rate": 9.272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241849, "epoch": 0.86973092, "global_step/max_steps": "11410/65595", "percentage": "17.39%", "elapsed_time": "13h 6m 15s", "remaining_time": "2d 14h 13m 53s"}
+{"loss": 0.14522194, "token_acc": 0.93825846, "grad_norm": 2.28372955, "learning_rate": 9.271e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241875, "epoch": 0.87011205, "global_step/max_steps": "11415/65595", "percentage": "17.40%", "elapsed_time": "13h 6m 31s", "remaining_time": "2d 14h 13m 9s"}
+{"loss": 0.14301534, "token_acc": 0.95074167, "grad_norm": 0.65808958, "learning_rate": 9.271e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241903, "epoch": 0.87049318, "global_step/max_steps": "11420/65595", "percentage": "17.41%", "elapsed_time": "13h 6m 46s", "remaining_time": "2d 14h 12m 23s"}
+{"loss": 0.14156969, "token_acc": 0.9326463, "grad_norm": 1.1832242, "learning_rate": 9.27e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241936, "epoch": 0.8708743, "global_step/max_steps": "11425/65595", "percentage": "17.42%", "elapsed_time": "13h 7m 1s", "remaining_time": "2d 14h 11m 31s"}
+{"loss": 0.13483788, "token_acc": 0.94169641, "grad_norm": 0.58783191, "learning_rate": 9.269e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241957, "epoch": 0.87125543, "global_step/max_steps": "11430/65595", "percentage": "17.43%", "elapsed_time": "13h 7m 17s", "remaining_time": "2d 14h 10m 51s"}
+{"loss": 0.14003829, "token_acc": 0.94224924, "grad_norm": 0.55402297, "learning_rate": 9.269e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241976, "epoch": 0.87163656, "global_step/max_steps": "11435/65595", "percentage": "17.43%", "elapsed_time": "13h 7m 34s", "remaining_time": "2d 14h 10m 13s"}
+{"loss": 0.10877614, "token_acc": 0.95119306, "grad_norm": 0.45875546, "learning_rate": 9.268e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24199, "epoch": 0.87201768, "global_step/max_steps": "11440/65595", "percentage": "17.44%", "elapsed_time": "13h 7m 52s", "remaining_time": "2d 14h 9m 39s"}
+{"loss": 0.15411088, "token_acc": 0.9380774, "grad_norm": 2.10051346, "learning_rate": 9.267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242018, "epoch": 0.87239881, "global_step/max_steps": "11445/65595", "percentage": "17.45%", "elapsed_time": "13h 8m 7s", "remaining_time": "2d 14h 8m 53s"}
+{"loss": 0.13391371, "token_acc": 0.9405252, "grad_norm": 0.51812929, "learning_rate": 9.267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242027, "epoch": 0.87277994, "global_step/max_steps": "11450/65595", "percentage": "17.46%", "elapsed_time": "13h 8m 26s", "remaining_time": "2d 14h 8m 24s"}
+{"loss": 0.10791489, "token_acc": 0.94743469, "grad_norm": 1.50145376, "learning_rate": 9.266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242058, "epoch": 0.87316106, "global_step/max_steps": "11455/65595", "percentage": "17.46%", "elapsed_time": "13h 8m 41s", "remaining_time": "2d 14h 7m 34s"}
+{"loss": 0.1397902, "token_acc": 0.94640821, "grad_norm": 0.51198882, "learning_rate": 9.266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242088, "epoch": 0.87354219, "global_step/max_steps": "11460/65595", "percentage": "17.47%", "elapsed_time": "13h 8m 56s", "remaining_time": "2d 14h 6m 46s"}
+{"loss": 0.15427352, "token_acc": 0.92794843, "grad_norm": 0.31261829, "learning_rate": 9.265e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242109, "epoch": 0.87392332, "global_step/max_steps": "11465/65595", "percentage": "17.48%", "elapsed_time": "13h 9m 12s", "remaining_time": "2d 14h 6m 6s"}
+{"loss": 0.21288195, "token_acc": 0.92721142, "grad_norm": 0.96167219, "learning_rate": 9.264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242135, "epoch": 0.87430444, "global_step/max_steps": "11470/65595", "percentage": "17.49%", "elapsed_time": "13h 9m 27s", "remaining_time": "2d 14h 5m 21s"}
+{"loss": 0.1638341, "token_acc": 0.93796791, "grad_norm": 1.49938488, "learning_rate": 9.264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242148, "epoch": 0.87468557, "global_step/max_steps": "11475/65595", "percentage": "17.49%", "elapsed_time": "13h 9m 46s", "remaining_time": "2d 14h 4m 48s"}
+{"loss": 0.10661209, "token_acc": 0.95215406, "grad_norm": 0.67198181, "learning_rate": 9.263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242168, "epoch": 0.8750667, "global_step/max_steps": "11480/65595", "percentage": "17.50%", "elapsed_time": "13h 10m 2s", "remaining_time": "2d 14h 4m 10s"}
+{"loss": 0.11815255, "token_acc": 0.95148699, "grad_norm": 0.72749108, "learning_rate": 9.262e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242191, "epoch": 0.87544782, "global_step/max_steps": "11485/65595", "percentage": "17.51%", "elapsed_time": "13h 10m 19s", "remaining_time": "2d 14h 3m 28s"}
+{"loss": 0.19358292, "token_acc": 0.91837165, "grad_norm": 0.59802079, "learning_rate": 9.262e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242213, "epoch": 0.87582895, "global_step/max_steps": "11490/65595", "percentage": "17.52%", "elapsed_time": "13h 10m 35s", "remaining_time": "2d 14h 2m 47s"}
+{"loss": 0.16730958, "token_acc": 0.92816867, "grad_norm": 0.78007144, "learning_rate": 9.261e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242244, "epoch": 0.87621008, "global_step/max_steps": "11495/65595", "percentage": "17.52%", "elapsed_time": "13h 10m 49s", "remaining_time": "2d 14h 1m 57s"}
+{"loss": 0.10308022, "token_acc": 0.95081444, "grad_norm": 0.83327943, "learning_rate": 9.261e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242279, "epoch": 0.8765912, "global_step/max_steps": "11500/65595", "percentage": "17.53%", "elapsed_time": "13h 11m 3s", "remaining_time": "2d 14h 1m 4s"}
+{"loss": 0.1281587, "token_acc": 0.95027562, "grad_norm": 0.74375987, "learning_rate": 9.26e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242281, "epoch": 0.87697233, "global_step/max_steps": "11505/65595", "percentage": "17.54%", "elapsed_time": "13h 11m 23s", "remaining_time": "2d 14h 0m 42s"}
+{"loss": 0.11342629, "token_acc": 0.95877825, "grad_norm": 0.89145768, "learning_rate": 9.259e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24231, "epoch": 0.87735346, "global_step/max_steps": "11510/65595", "percentage": "17.55%", "elapsed_time": "13h 11m 38s", "remaining_time": "2d 13h 59m 55s"}
+{"loss": 0.18521571, "token_acc": 0.92121524, "grad_norm": 1.37389803, "learning_rate": 9.259e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242338, "epoch": 0.87773458, "global_step/max_steps": "11515/65595", "percentage": "17.55%", "elapsed_time": "13h 11m 54s", "remaining_time": "2d 13h 59m 9s"}
+{"loss": 0.16222748, "token_acc": 0.9304314, "grad_norm": 1.3673414, "learning_rate": 9.258e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242369, "epoch": 0.87811571, "global_step/max_steps": "11520/65595", "percentage": "17.56%", "elapsed_time": "13h 12m 8s", "remaining_time": "2d 13h 58m 20s"}
+{"loss": 0.1493427, "token_acc": 0.93655371, "grad_norm": 1.64613295, "learning_rate": 9.257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242404, "epoch": 0.87849684, "global_step/max_steps": "11525/65595", "percentage": "17.57%", "elapsed_time": "13h 12m 22s", "remaining_time": "2d 13h 57m 26s"}
+{"loss": 0.11434768, "token_acc": 0.95005643, "grad_norm": 0.55787808, "learning_rate": 9.257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242434, "epoch": 0.87887796, "global_step/max_steps": "11530/65595", "percentage": "17.58%", "elapsed_time": "13h 12m 37s", "remaining_time": "2d 13h 56m 38s"}
+{"loss": 0.12437794, "token_acc": 0.94733656, "grad_norm": 0.62204367, "learning_rate": 9.256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242464, "epoch": 0.87925909, "global_step/max_steps": "11535/65595", "percentage": "17.59%", "elapsed_time": "13h 12m 51s", "remaining_time": "2d 13h 55m 50s"}
+{"loss": 0.17805936, "token_acc": 0.93767472, "grad_norm": 0.96172249, "learning_rate": 9.256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242486, "epoch": 0.87964022, "global_step/max_steps": "11540/65595", "percentage": "17.59%", "elapsed_time": "13h 13m 8s", "remaining_time": "2d 13h 55m 9s"}
+{"loss": 0.12242883, "token_acc": 0.95249695, "grad_norm": 0.73958302, "learning_rate": 9.255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242497, "epoch": 0.88002134, "global_step/max_steps": "11545/65595", "percentage": "17.60%", "elapsed_time": "13h 13m 26s", "remaining_time": "2d 13h 54m 39s"}
+{"loss": 0.13247371, "token_acc": 0.95923122, "grad_norm": 0.87839162, "learning_rate": 9.254e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242517, "epoch": 0.88040247, "global_step/max_steps": "11550/65595", "percentage": "17.61%", "elapsed_time": "13h 13m 43s", "remaining_time": "2d 13h 53m 59s"}
+{"loss": 0.14341196, "token_acc": 0.94567122, "grad_norm": 0.64632964, "learning_rate": 9.254e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242536, "epoch": 0.8807836, "global_step/max_steps": "11555/65595", "percentage": "17.62%", "elapsed_time": "13h 14m 0s", "remaining_time": "2d 13h 53m 21s"}
+{"loss": 0.12439313, "token_acc": 0.94436371, "grad_norm": 0.76339227, "learning_rate": 9.253e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242562, "epoch": 0.88116472, "global_step/max_steps": "11560/65595", "percentage": "17.62%", "elapsed_time": "13h 14m 15s", "remaining_time": "2d 13h 52m 37s"}
+{"loss": 0.18157945, "token_acc": 0.93300654, "grad_norm": 1.35234213, "learning_rate": 9.252e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242598, "epoch": 0.88154585, "global_step/max_steps": "11565/65595", "percentage": "17.63%", "elapsed_time": "13h 14m 29s", "remaining_time": "2d 13h 51m 43s"}
+{"loss": 0.10114048, "token_acc": 0.95173745, "grad_norm": 0.87856269, "learning_rate": 9.252e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242627, "epoch": 0.88192698, "global_step/max_steps": "11570/65595", "percentage": "17.64%", "elapsed_time": "13h 14m 44s", "remaining_time": "2d 13h 50m 56s"}
+{"loss": 0.21737995, "token_acc": 0.93092497, "grad_norm": 1.62962401, "learning_rate": 9.251e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242661, "epoch": 0.8823081, "global_step/max_steps": "11575/65595", "percentage": "17.65%", "elapsed_time": "13h 14m 58s", "remaining_time": "2d 13h 50m 4s"}
+{"loss": 0.17732959, "token_acc": 0.92476545, "grad_norm": 1.04683006, "learning_rate": 9.251e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242683, "epoch": 0.88268923, "global_step/max_steps": "11580/65595", "percentage": "17.65%", "elapsed_time": "13h 15m 14s", "remaining_time": "2d 13h 49m 23s"}
+{"loss": 0.09798108, "token_acc": 0.95114504, "grad_norm": 0.79051918, "learning_rate": 9.25e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24272, "epoch": 0.88307036, "global_step/max_steps": "11585/65595", "percentage": "17.66%", "elapsed_time": "13h 15m 27s", "remaining_time": "2d 13h 48m 29s"}
+{"loss": 0.19752394, "token_acc": 0.92007642, "grad_norm": 0.83429509, "learning_rate": 9.249e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242737, "epoch": 0.88345148, "global_step/max_steps": "11590/65595", "percentage": "17.67%", "elapsed_time": "13h 15m 44s", "remaining_time": "2d 13h 47m 53s"}
+{"loss": 0.16384885, "token_acc": 0.94424823, "grad_norm": 1.3242619, "learning_rate": 9.249e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242765, "epoch": 0.88383261, "global_step/max_steps": "11595/65595", "percentage": "17.68%", "elapsed_time": "13h 15m 59s", "remaining_time": "2d 13h 47m 6s"}
+{"loss": 0.12706501, "token_acc": 0.94953952, "grad_norm": 0.98049045, "learning_rate": 9.248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242785, "epoch": 0.88421374, "global_step/max_steps": "11600/65595", "percentage": "17.68%", "elapsed_time": "13h 16m 16s", "remaining_time": "2d 13h 46m 27s"}
+{"eval_loss": 0.11803941, "eval_token_acc": 0.94341455, "eval_runtime": 178.586, "eval_samples_per_second": 2.968, "eval_steps_per_second": 2.968, "epoch": 0.88421374, "global_step/max_steps": "11600/65595", "percentage": "17.68%", "elapsed_time": "13h 19m 15s", "remaining_time": "2d 14h 0m 19s"}
+{"loss": 0.17875896, "token_acc": 0.94271353, "grad_norm": 0.74562281, "learning_rate": 9.247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24191, "epoch": 0.88459486, "global_step/max_steps": "11605/65595", "percentage": "17.69%", "elapsed_time": "13h 19m 30s", "remaining_time": "2d 13h 59m 31s"}
+{"loss": 0.13523639, "token_acc": 0.95043783, "grad_norm": 1.19225013, "learning_rate": 9.247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241929, "epoch": 0.88497599, "global_step/max_steps": "11610/65595", "percentage": "17.70%", "elapsed_time": "13h 19m 47s", "remaining_time": "2d 13h 58m 53s"}
+{"loss": 0.16903975, "token_acc": 0.92808662, "grad_norm": 0.93288422, "learning_rate": 9.246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241952, "epoch": 0.88535712, "global_step/max_steps": "11615/65595", "percentage": "17.71%", "elapsed_time": "13h 20m 3s", "remaining_time": "2d 13h 58m 12s"}
+{"loss": 0.15201432, "token_acc": 0.93691275, "grad_norm": 1.21805823, "learning_rate": 9.245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24198, "epoch": 0.88573824, "global_step/max_steps": "11620/65595", "percentage": "17.71%", "elapsed_time": "13h 20m 18s", "remaining_time": "2d 13h 57m 25s"}
+{"loss": 0.14544885, "token_acc": 0.94769043, "grad_norm": 0.61622185, "learning_rate": 9.245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24199, "epoch": 0.88611937, "global_step/max_steps": "11625/65595", "percentage": "17.72%", "elapsed_time": "13h 20m 36s", "remaining_time": "2d 13h 56m 55s"}
+{"loss": 0.13743439, "token_acc": 0.9500828, "grad_norm": 0.77658743, "learning_rate": 9.244e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242012, "epoch": 0.8865005, "global_step/max_steps": "11630/65595", "percentage": "17.73%", "elapsed_time": "13h 20m 53s", "remaining_time": "2d 13h 56m 14s"}
+{"loss": 0.15001805, "token_acc": 0.92003998, "grad_norm": 0.82828343, "learning_rate": 9.244e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242045, "epoch": 0.88688162, "global_step/max_steps": "11635/65595", "percentage": "17.74%", "elapsed_time": "13h 21m 7s", "remaining_time": "2d 13h 55m 23s"}
+{"loss": 0.20054381, "token_acc": 0.91740929, "grad_norm": 1.22232568, "learning_rate": 9.243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242061, "epoch": 0.88726275, "global_step/max_steps": "11640/65595", "percentage": "17.75%", "elapsed_time": "13h 21m 24s", "remaining_time": "2d 13h 54m 47s"}
+{"loss": 0.14292953, "token_acc": 0.94004796, "grad_norm": 0.60123438, "learning_rate": 9.242e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242084, "epoch": 0.88764388, "global_step/max_steps": "11645/65595", "percentage": "17.75%", "elapsed_time": "13h 21m 40s", "remaining_time": "2d 13h 54m 6s"}
+{"loss": 0.15435535, "token_acc": 0.94112804, "grad_norm": 0.96730453, "learning_rate": 9.242e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242096, "epoch": 0.888025, "global_step/max_steps": "11650/65595", "percentage": "17.76%", "elapsed_time": "13h 21m 59s", "remaining_time": "2d 13h 53m 34s"}
+{"loss": 0.11826034, "token_acc": 0.95916667, "grad_norm": 0.33740312, "learning_rate": 9.241e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242128, "epoch": 0.88840613, "global_step/max_steps": "11655/65595", "percentage": "17.77%", "elapsed_time": "13h 22m 13s", "remaining_time": "2d 13h 52m 44s"}
+{"loss": 0.16891656, "token_acc": 0.92961211, "grad_norm": 1.67130971, "learning_rate": 9.24e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242154, "epoch": 0.88878726, "global_step/max_steps": "11660/65595", "percentage": "17.78%", "elapsed_time": "13h 22m 28s", "remaining_time": "2d 13h 51m 59s"}
+{"loss": 0.14773941, "token_acc": 0.93184979, "grad_norm": 0.92648697, "learning_rate": 9.24e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242175, "epoch": 0.88916838, "global_step/max_steps": "11665/65595", "percentage": "17.78%", "elapsed_time": "13h 22m 45s", "remaining_time": "2d 13h 51m 19s"}
+{"loss": 0.15114856, "token_acc": 0.9447102, "grad_norm": 0.79100126, "learning_rate": 9.239e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24218, "epoch": 0.88954951, "global_step/max_steps": "11670/65595", "percentage": "17.79%", "elapsed_time": "13h 23m 5s", "remaining_time": "2d 13h 50m 54s"}
+{"loss": 0.15131816, "token_acc": 0.94626683, "grad_norm": 0.64814889, "learning_rate": 9.239e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242182, "epoch": 0.88993063, "global_step/max_steps": "11675/65595", "percentage": "17.80%", "elapsed_time": "13h 23m 25s", "remaining_time": "2d 13h 50m 32s"}
+{"loss": 0.18101712, "token_acc": 0.93874071, "grad_norm": 0.57858467, "learning_rate": 9.238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242192, "epoch": 0.89031176, "global_step/max_steps": "11680/65595", "percentage": "17.81%", "elapsed_time": "13h 23m 43s", "remaining_time": "2d 13h 50m 2s"}
+{"loss": 0.15444326, "token_acc": 0.92831106, "grad_norm": 1.01191664, "learning_rate": 9.237e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242225, "epoch": 0.89069289, "global_step/max_steps": "11685/65595", "percentage": "17.81%", "elapsed_time": "13h 23m 57s", "remaining_time": "2d 13h 49m 11s"}
+{"loss": 0.11219714, "token_acc": 0.95755771, "grad_norm": 0.72815627, "learning_rate": 9.237e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242256, "epoch": 0.89107401, "global_step/max_steps": "11690/65595", "percentage": "17.82%", "elapsed_time": "13h 24m 12s", "remaining_time": "2d 13h 48m 22s"}
+{"loss": 0.16654958, "token_acc": 0.95357235, "grad_norm": 1.19523835, "learning_rate": 9.236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242282, "epoch": 0.89145514, "global_step/max_steps": "11695/65595", "percentage": "17.83%", "elapsed_time": "13h 24m 27s", "remaining_time": "2d 13h 47m 37s"}
+{"loss": 0.15942227, "token_acc": 0.92993302, "grad_norm": 0.67872435, "learning_rate": 9.235e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242306, "epoch": 0.89183627, "global_step/max_steps": "11700/65595", "percentage": "17.84%", "elapsed_time": "13h 24m 43s", "remaining_time": "2d 13h 46m 55s"}
+{"loss": 0.13336177, "token_acc": 0.94782016, "grad_norm": 0.73593515, "learning_rate": 9.235e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24231, "epoch": 0.89221739, "global_step/max_steps": "11705/65595", "percentage": "17.84%", "elapsed_time": "13h 25m 3s", "remaining_time": "2d 13h 46m 30s"}
+{"loss": 0.21991596, "token_acc": 0.90935115, "grad_norm": 0.8653928, "learning_rate": 9.234e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242344, "epoch": 0.89259852, "global_step/max_steps": "11710/65595", "percentage": "17.85%", "elapsed_time": "13h 25m 17s", "remaining_time": "2d 13h 45m 38s"}
+{"loss": 0.11937529, "token_acc": 0.94351108, "grad_norm": 0.75057018, "learning_rate": 9.233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242366, "epoch": 0.89297965, "global_step/max_steps": "11715/65595", "percentage": "17.86%", "elapsed_time": "13h 25m 33s", "remaining_time": "2d 13h 44m 57s"}
+{"loss": 0.12721608, "token_acc": 0.96777003, "grad_norm": 0.49155566, "learning_rate": 9.233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242391, "epoch": 0.89336077, "global_step/max_steps": "11720/65595", "percentage": "17.87%", "elapsed_time": "13h 25m 49s", "remaining_time": "2d 13h 44m 14s"}
+{"loss": 0.10543087, "token_acc": 0.96109184, "grad_norm": 0.19501294, "learning_rate": 9.232e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242404, "epoch": 0.8937419, "global_step/max_steps": "11725/65595", "percentage": "17.87%", "elapsed_time": "13h 26m 7s", "remaining_time": "2d 13h 43m 42s"}
+{"loss": 0.1152679, "token_acc": 0.95221901, "grad_norm": 0.83946639, "learning_rate": 9.232e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242418, "epoch": 0.89412303, "global_step/max_steps": "11730/65595", "percentage": "17.88%", "elapsed_time": "13h 26m 25s", "remaining_time": "2d 13h 43m 9s"}
+{"loss": 0.14696994, "token_acc": 0.94011419, "grad_norm": 0.55045682, "learning_rate": 9.231e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242424, "epoch": 0.89450415, "global_step/max_steps": "11735/65595", "percentage": "17.89%", "elapsed_time": "13h 26m 44s", "remaining_time": "2d 13h 42m 42s"}
+{"loss": 0.14533056, "token_acc": 0.94743734, "grad_norm": 1.13730407, "learning_rate": 9.23e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242439, "epoch": 0.89488528, "global_step/max_steps": "11740/65595", "percentage": "17.90%", "elapsed_time": "13h 27m 2s", "remaining_time": "2d 13h 42m 8s"}
+{"loss": 0.15756341, "token_acc": 0.91633321, "grad_norm": 1.32035828, "learning_rate": 9.23e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242475, "epoch": 0.89526641, "global_step/max_steps": "11745/65595", "percentage": "17.91%", "elapsed_time": "13h 27m 15s", "remaining_time": "2d 13h 41m 14s"}
+{"loss": 0.17532362, "token_acc": 0.93392505, "grad_norm": 1.39003408, "learning_rate": 9.229e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242503, "epoch": 0.89564753, "global_step/max_steps": "11750/65595", "percentage": "17.91%", "elapsed_time": "13h 27m 30s", "remaining_time": "2d 13h 40m 28s"}
+{"loss": 0.14256284, "token_acc": 0.93242553, "grad_norm": 0.99402338, "learning_rate": 9.228e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242524, "epoch": 0.89602866, "global_step/max_steps": "11755/65595", "percentage": "17.92%", "elapsed_time": "13h 27m 47s", "remaining_time": "2d 13h 39m 48s"}
+{"loss": 0.14655333, "token_acc": 0.94743377, "grad_norm": 0.85881162, "learning_rate": 9.228e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242545, "epoch": 0.89640979, "global_step/max_steps": "11760/65595", "percentage": "17.93%", "elapsed_time": "13h 28m 3s", "remaining_time": "2d 13h 39m 8s"}
+{"loss": 0.14155629, "token_acc": 0.94469922, "grad_norm": 0.8200286, "learning_rate": 9.227e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242558, "epoch": 0.89679091, "global_step/max_steps": "11765/65595", "percentage": "17.94%", "elapsed_time": "13h 28m 21s", "remaining_time": "2d 13h 38m 36s"}
+{"loss": 0.14444783, "token_acc": 0.93657984, "grad_norm": 1.25456679, "learning_rate": 9.226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242586, "epoch": 0.89717204, "global_step/max_steps": "11770/65595", "percentage": "17.94%", "elapsed_time": "13h 28m 36s", "remaining_time": "2d 13h 37m 49s"}
+{"loss": 0.14715809, "token_acc": 0.94236821, "grad_norm": 1.08532274, "learning_rate": 9.226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242611, "epoch": 0.89755317, "global_step/max_steps": "11775/65595", "percentage": "17.95%", "elapsed_time": "13h 28m 52s", "remaining_time": "2d 13h 37m 6s"}
+{"loss": 0.17790711, "token_acc": 0.93528677, "grad_norm": 0.91255462, "learning_rate": 9.225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242618, "epoch": 0.89793429, "global_step/max_steps": "11780/65595", "percentage": "17.96%", "elapsed_time": "13h 29m 11s", "remaining_time": "2d 13h 36m 39s"}
+{"loss": 0.14402978, "token_acc": 0.95380857, "grad_norm": 0.80532384, "learning_rate": 9.224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242636, "epoch": 0.89831542, "global_step/max_steps": "11785/65595", "percentage": "17.97%", "elapsed_time": "13h 29m 28s", "remaining_time": "2d 13h 36m 2s"}
+{"loss": 0.14119811, "token_acc": 0.93312409, "grad_norm": 1.19525111, "learning_rate": 9.224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242664, "epoch": 0.89869655, "global_step/max_steps": "11790/65595", "percentage": "17.97%", "elapsed_time": "13h 29m 43s", "remaining_time": "2d 13h 35m 16s"}
+{"loss": 0.1526672, "token_acc": 0.94653056, "grad_norm": 1.42287731, "learning_rate": 9.223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242674, "epoch": 0.89907767, "global_step/max_steps": "11795/65595", "percentage": "17.98%", "elapsed_time": "13h 30m 2s", "remaining_time": "2d 13h 34m 46s"}
+{"loss": 0.12227008, "token_acc": 0.95193662, "grad_norm": 1.23614275, "learning_rate": 9.223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242695, "epoch": 0.8994588, "global_step/max_steps": "11800/65595", "percentage": "17.99%", "elapsed_time": "13h 30m 18s", "remaining_time": "2d 13h 34m 6s"}
+{"eval_loss": 0.11847015, "eval_token_acc": 0.94446118, "eval_runtime": 178.1484, "eval_samples_per_second": 2.975, "eval_steps_per_second": 2.975, "epoch": 0.8994588, "global_step/max_steps": "11800/65595", "percentage": "17.99%", "elapsed_time": "13h 33m 16s", "remaining_time": "2d 13h 47m 38s"}
+{"loss": 0.18087038, "token_acc": 0.94345117, "grad_norm": 1.00865138, "learning_rate": 9.222e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241829, "epoch": 0.89983993, "global_step/max_steps": "11805/65595", "percentage": "18.00%", "elapsed_time": "13h 33m 33s", "remaining_time": "2d 13h 47m 0s"}
+{"loss": 0.14509079, "token_acc": 0.93862007, "grad_norm": 0.66792995, "learning_rate": 9.221e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241864, "epoch": 0.90022105, "global_step/max_steps": "11810/65595", "percentage": "18.00%", "elapsed_time": "13h 33m 46s", "remaining_time": "2d 13h 46m 7s"}
+{"loss": 0.18981799, "token_acc": 0.92496444, "grad_norm": 0.57721037, "learning_rate": 9.221e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241897, "epoch": 0.90060218, "global_step/max_steps": "11815/65595", "percentage": "18.01%", "elapsed_time": "13h 34m 0s", "remaining_time": "2d 13h 45m 16s"}
+{"loss": 0.10760597, "token_acc": 0.95293291, "grad_norm": 0.98872167, "learning_rate": 9.22e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241931, "epoch": 0.90098331, "global_step/max_steps": "11820/65595", "percentage": "18.02%", "elapsed_time": "13h 34m 14s", "remaining_time": "2d 13h 44m 24s"}
+{"loss": 0.16150445, "token_acc": 0.92632078, "grad_norm": 1.36797643, "learning_rate": 9.219e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241956, "epoch": 0.90136443, "global_step/max_steps": "11825/65595", "percentage": "18.03%", "elapsed_time": "13h 34m 30s", "remaining_time": "2d 13h 43m 40s"}
+{"loss": 0.17334594, "token_acc": 0.95004112, "grad_norm": 1.2807461, "learning_rate": 9.219e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241976, "epoch": 0.90174556, "global_step/max_steps": "11830/65595", "percentage": "18.03%", "elapsed_time": "13h 34m 47s", "remaining_time": "2d 13h 43m 1s"}
+{"loss": 0.16150217, "token_acc": 0.9371771, "grad_norm": 1.05473173, "learning_rate": 9.218e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242, "epoch": 0.90212669, "global_step/max_steps": "11835/65595", "percentage": "18.04%", "elapsed_time": "13h 35m 2s", "remaining_time": "2d 13h 42m 18s"}
+{"loss": 0.15725875, "token_acc": 0.93068655, "grad_norm": 1.11990297, "learning_rate": 9.217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242022, "epoch": 0.90250781, "global_step/max_steps": "11840/65595", "percentage": "18.05%", "elapsed_time": "13h 35m 18s", "remaining_time": "2d 13h 41m 37s"}
+{"loss": 0.15320952, "token_acc": 0.94011317, "grad_norm": 0.58756328, "learning_rate": 9.217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242045, "epoch": 0.90288894, "global_step/max_steps": "11845/65595", "percentage": "18.06%", "elapsed_time": "13h 35m 34s", "remaining_time": "2d 13h 40m 56s"}
+{"loss": 0.14380199, "token_acc": 0.95814289, "grad_norm": 0.48914644, "learning_rate": 9.216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242072, "epoch": 0.90327007, "global_step/max_steps": "11850/65595", "percentage": "18.07%", "elapsed_time": "13h 35m 50s", "remaining_time": "2d 13h 40m 10s"}
+{"loss": 0.17016726, "token_acc": 0.92118451, "grad_norm": 0.78246397, "learning_rate": 9.215e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242111, "epoch": 0.90365119, "global_step/max_steps": "11855/65595", "percentage": "18.07%", "elapsed_time": "13h 36m 2s", "remaining_time": "2d 13h 39m 14s"}
+{"loss": 0.1583051, "token_acc": 0.94860003, "grad_norm": 0.71675599, "learning_rate": 9.215e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242111, "epoch": 0.90403232, "global_step/max_steps": "11860/65595", "percentage": "18.08%", "elapsed_time": "13h 36m 23s", "remaining_time": "2d 13h 38m 53s"}
+{"loss": 0.19446541, "token_acc": 0.93382097, "grad_norm": 0.43831274, "learning_rate": 9.214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242143, "epoch": 0.90441345, "global_step/max_steps": "11865/65595", "percentage": "18.09%", "elapsed_time": "13h 36m 37s", "remaining_time": "2d 13h 38m 3s"}
+{"loss": 0.14148728, "token_acc": 0.94926929, "grad_norm": 0.70446295, "learning_rate": 9.214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242131, "epoch": 0.90479457, "global_step/max_steps": "11870/65595", "percentage": "18.10%", "elapsed_time": "13h 37m 0s", "remaining_time": "2d 13h 37m 54s"}
+{"loss": 0.10304226, "token_acc": 0.95622416, "grad_norm": 0.7193948, "learning_rate": 9.213e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242138, "epoch": 0.9051757, "global_step/max_steps": "11875/65595", "percentage": "18.10%", "elapsed_time": "13h 37m 20s", "remaining_time": "2d 13h 37m 26s"}
+{"loss": 0.12540863, "token_acc": 0.94218415, "grad_norm": 1.28934264, "learning_rate": 9.212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242166, "epoch": 0.90555683, "global_step/max_steps": "11880/65595", "percentage": "18.11%", "elapsed_time": "13h 37m 35s", "remaining_time": "2d 13h 36m 40s"}
+{"loss": 0.1576086, "token_acc": 0.93870968, "grad_norm": 1.92334926, "learning_rate": 9.212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242196, "epoch": 0.90593795, "global_step/max_steps": "11885/65595", "percentage": "18.12%", "elapsed_time": "13h 37m 49s", "remaining_time": "2d 13h 35m 52s"}
+{"loss": 0.13520212, "token_acc": 0.9494542, "grad_norm": 0.6106872, "learning_rate": 9.211e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242222, "epoch": 0.90631908, "global_step/max_steps": "11890/65595", "percentage": "18.13%", "elapsed_time": "13h 38m 5s", "remaining_time": "2d 13h 35m 8s"}
+{"loss": 0.13717477, "token_acc": 0.93541604, "grad_norm": 1.13222146, "learning_rate": 9.21e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242251, "epoch": 0.90670021, "global_step/max_steps": "11895/65595", "percentage": "18.13%", "elapsed_time": "13h 38m 19s", "remaining_time": "2d 13h 34m 21s"}
+{"loss": 0.15325381, "token_acc": 0.94365047, "grad_norm": 3.61144876, "learning_rate": 9.21e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242285, "epoch": 0.90708133, "global_step/max_steps": "11900/65595", "percentage": "18.14%", "elapsed_time": "13h 38m 33s", "remaining_time": "2d 13h 33m 29s"}
+{"loss": 0.13793685, "token_acc": 0.93988411, "grad_norm": 0.8233906, "learning_rate": 9.209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242312, "epoch": 0.90746246, "global_step/max_steps": "11905/65595", "percentage": "18.15%", "elapsed_time": "13h 38m 48s", "remaining_time": "2d 13h 32m 44s"}
+{"loss": 0.18429594, "token_acc": 0.92730046, "grad_norm": 0.90611142, "learning_rate": 9.208e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242342, "epoch": 0.90784359, "global_step/max_steps": "11910/65595", "percentage": "18.16%", "elapsed_time": "13h 39m 3s", "remaining_time": "2d 13h 31m 55s"}
+{"loss": 0.13917872, "token_acc": 0.9427232, "grad_norm": 1.48105514, "learning_rate": 9.208e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242368, "epoch": 0.90822471, "global_step/max_steps": "11915/65595", "percentage": "18.16%", "elapsed_time": "13h 39m 18s", "remaining_time": "2d 13h 31m 11s"}
+{"loss": 0.12181053, "token_acc": 0.95082383, "grad_norm": 0.50863522, "learning_rate": 9.207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242392, "epoch": 0.90860584, "global_step/max_steps": "11920/65595", "percentage": "18.17%", "elapsed_time": "13h 39m 34s", "remaining_time": "2d 13h 30m 28s"}
+{"loss": 0.16192403, "token_acc": 0.93494299, "grad_norm": 0.91370898, "learning_rate": 9.206e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24242, "epoch": 0.90898697, "global_step/max_steps": "11925/65595", "percentage": "18.18%", "elapsed_time": "13h 39m 49s", "remaining_time": "2d 13h 29m 42s"}
+{"loss": 0.18976017, "token_acc": 0.9373989, "grad_norm": 0.59201479, "learning_rate": 9.206e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242439, "epoch": 0.90936809, "global_step/max_steps": "11930/65595", "percentage": "18.19%", "elapsed_time": "13h 40m 5s", "remaining_time": "2d 13h 29m 4s"}
+{"loss": 0.19894406, "token_acc": 0.92741062, "grad_norm": 1.49299073, "learning_rate": 9.205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242467, "epoch": 0.90974922, "global_step/max_steps": "11935/65595", "percentage": "18.19%", "elapsed_time": "13h 40m 20s", "remaining_time": "2d 13h 28m 17s"}
+{"loss": 0.17703309, "token_acc": 0.92043269, "grad_norm": 0.63370883, "learning_rate": 9.205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242495, "epoch": 0.91013035, "global_step/max_steps": "11940/65595", "percentage": "18.20%", "elapsed_time": "13h 40m 35s", "remaining_time": "2d 13h 27m 32s"}
+{"loss": 0.10702053, "token_acc": 0.94672702, "grad_norm": 0.8873235, "learning_rate": 9.204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242528, "epoch": 0.91051147, "global_step/max_steps": "11945/65595", "percentage": "18.21%", "elapsed_time": "13h 40m 49s", "remaining_time": "2d 13h 26m 41s"}
+{"loss": 0.1694751, "token_acc": 0.94090783, "grad_norm": 1.1136359, "learning_rate": 9.203e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242537, "epoch": 0.9108926, "global_step/max_steps": "11950/65595", "percentage": "18.22%", "elapsed_time": "13h 41m 8s", "remaining_time": "2d 13h 26m 12s"}
+{"loss": 0.13364313, "token_acc": 0.94608132, "grad_norm": 0.27986485, "learning_rate": 9.203e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242567, "epoch": 0.91127373, "global_step/max_steps": "11955/65595", "percentage": "18.23%", "elapsed_time": "13h 41m 23s", "remaining_time": "2d 13h 25m 25s"}
+{"loss": 0.20252471, "token_acc": 0.93225882, "grad_norm": 1.15632057, "learning_rate": 9.202e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242572, "epoch": 0.91165485, "global_step/max_steps": "11960/65595", "percentage": "18.23%", "elapsed_time": "13h 41m 42s", "remaining_time": "2d 13h 24m 59s"}
+{"loss": 0.1324612, "token_acc": 0.93894994, "grad_norm": 1.30116534, "learning_rate": 9.201e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242595, "epoch": 0.91203598, "global_step/max_steps": "11965/65595", "percentage": "18.24%", "elapsed_time": "13h 41m 58s", "remaining_time": "2d 13h 24m 18s"}
+{"loss": 0.16521816, "token_acc": 0.94564695, "grad_norm": 0.87539244, "learning_rate": 9.201e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242619, "epoch": 0.9124171, "global_step/max_steps": "11970/65595", "percentage": "18.25%", "elapsed_time": "13h 42m 14s", "remaining_time": "2d 13h 23m 35s"}
+{"loss": 0.14216172, "token_acc": 0.94739772, "grad_norm": 1.67709386, "learning_rate": 9.2e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242649, "epoch": 0.91279823, "global_step/max_steps": "11975/65595", "percentage": "18.26%", "elapsed_time": "13h 42m 28s", "remaining_time": "2d 13h 22m 48s"}
+{"loss": 0.11614676, "token_acc": 0.94956746, "grad_norm": 0.89212841, "learning_rate": 9.199e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242668, "epoch": 0.91317936, "global_step/max_steps": "11980/65595", "percentage": "18.26%", "elapsed_time": "13h 42m 45s", "remaining_time": "2d 13h 22m 9s"}
+{"loss": 0.07566847, "token_acc": 0.95964361, "grad_norm": 0.9243173, "learning_rate": 9.199e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242695, "epoch": 0.91356048, "global_step/max_steps": "11985/65595", "percentage": "18.27%", "elapsed_time": "13h 43m 0s", "remaining_time": "2d 13h 21m 24s"}
+{"loss": 0.19226406, "token_acc": 0.92778809, "grad_norm": 1.13018167, "learning_rate": 9.198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242717, "epoch": 0.91394161, "global_step/max_steps": "11990/65595", "percentage": "18.28%", "elapsed_time": "13h 43m 16s", "remaining_time": "2d 13h 20m 44s"}
+{"loss": 0.12943798, "token_acc": 0.94903667, "grad_norm": 0.72780091, "learning_rate": 9.197e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242755, "epoch": 0.91432274, "global_step/max_steps": "11995/65595", "percentage": "18.29%", "elapsed_time": "13h 43m 29s", "remaining_time": "2d 13h 19m 49s"}
+{"loss": 0.12744931, "token_acc": 0.94336446, "grad_norm": 0.35429376, "learning_rate": 9.197e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24277, "epoch": 0.91470386, "global_step/max_steps": "12000/65595", "percentage": "18.29%", "elapsed_time": "13h 43m 47s", "remaining_time": "2d 13h 19m 14s"}
+{"eval_loss": 0.11662054, "eval_token_acc": 0.94440094, "eval_runtime": 175.8834, "eval_samples_per_second": 3.013, "eval_steps_per_second": 3.013, "epoch": 0.91470386, "global_step/max_steps": "12000/65595", "percentage": "18.29%", "elapsed_time": "13h 46m 43s", "remaining_time": "2d 13h 32m 19s"}
+{"loss": 0.16453679, "token_acc": 0.94443888, "grad_norm": 1.17213321, "learning_rate": 9.196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241925, "epoch": 0.91508499, "global_step/max_steps": "12005/65595", "percentage": "18.30%", "elapsed_time": "13h 47m 0s", "remaining_time": "2d 13h 31m 44s"}
+{"loss": 0.13364335, "token_acc": 0.95352275, "grad_norm": 0.58871406, "learning_rate": 9.195e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241944, "epoch": 0.91546612, "global_step/max_steps": "12010/65595", "percentage": "18.31%", "elapsed_time": "13h 47m 17s", "remaining_time": "2d 13h 31m 6s"}
+{"loss": 0.1653129, "token_acc": 0.94639121, "grad_norm": 1.04449546, "learning_rate": 9.195e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24197, "epoch": 0.91584724, "global_step/max_steps": "12015/65595", "percentage": "18.32%", "elapsed_time": "13h 47m 32s", "remaining_time": "2d 13h 30m 22s"}
+{"loss": 0.14036311, "token_acc": 0.94420645, "grad_norm": 0.80945414, "learning_rate": 9.194e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241981, "epoch": 0.91622837, "global_step/max_steps": "12020/65595", "percentage": "18.32%", "elapsed_time": "13h 47m 51s", "remaining_time": "2d 13h 29m 51s"}
+{"loss": 0.14506104, "token_acc": 0.94615385, "grad_norm": 1.06041086, "learning_rate": 9.193e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241983, "epoch": 0.9166095, "global_step/max_steps": "12025/65595", "percentage": "18.33%", "elapsed_time": "13h 48m 11s", "remaining_time": "2d 13h 29m 29s"}
+{"loss": 0.17972655, "token_acc": 0.92699217, "grad_norm": 1.01626694, "learning_rate": 9.193e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24201, "epoch": 0.91699062, "global_step/max_steps": "12030/65595", "percentage": "18.34%", "elapsed_time": "13h 48m 26s", "remaining_time": "2d 13h 28m 44s"}
+{"loss": 0.16812284, "token_acc": 0.93390805, "grad_norm": 1.56863225, "learning_rate": 9.192e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242035, "epoch": 0.91737175, "global_step/max_steps": "12035/65595", "percentage": "18.35%", "elapsed_time": "13h 48m 41s", "remaining_time": "2d 13h 28m 0s"}
+{"loss": 0.13720534, "token_acc": 0.92817059, "grad_norm": 0.59082073, "learning_rate": 9.191e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242074, "epoch": 0.91775288, "global_step/max_steps": "12040/65595", "percentage": "18.36%", "elapsed_time": "13h 48m 54s", "remaining_time": "2d 13h 27m 4s"}
+{"loss": 0.18171563, "token_acc": 0.93374913, "grad_norm": 0.67899507, "learning_rate": 9.191e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24209, "epoch": 0.918134, "global_step/max_steps": "12045/65595", "percentage": "18.36%", "elapsed_time": "13h 49m 11s", "remaining_time": "2d 13h 26m 28s"}
+{"loss": 0.1085896, "token_acc": 0.96126363, "grad_norm": 0.45283934, "learning_rate": 9.19e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242121, "epoch": 0.91851513, "global_step/max_steps": "12050/65595", "percentage": "18.37%", "elapsed_time": "13h 49m 26s", "remaining_time": "2d 13h 25m 39s"}
+{"loss": 0.14404941, "token_acc": 0.95921305, "grad_norm": 1.2656976, "learning_rate": 9.19e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242146, "epoch": 0.91889626, "global_step/max_steps": "12055/65595", "percentage": "18.38%", "elapsed_time": "13h 49m 41s", "remaining_time": "2d 13h 24m 56s"}
+{"loss": 0.19252576, "token_acc": 0.92386949, "grad_norm": 1.69164205, "learning_rate": 9.189e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242173, "epoch": 0.91927738, "global_step/max_steps": "12060/65595", "percentage": "18.39%", "elapsed_time": "13h 49m 56s", "remaining_time": "2d 13h 24m 11s"}
+{"loss": 0.20890052, "token_acc": 0.93029714, "grad_norm": 0.52868116, "learning_rate": 9.188e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242193, "epoch": 0.91965851, "global_step/max_steps": "12065/65595", "percentage": "18.39%", "elapsed_time": "13h 50m 13s", "remaining_time": "2d 13h 23m 32s"}
+{"loss": 0.18122923, "token_acc": 0.91877551, "grad_norm": 0.5750044, "learning_rate": 9.188e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24222, "epoch": 0.92003964, "global_step/max_steps": "12070/65595", "percentage": "18.40%", "elapsed_time": "13h 50m 28s", "remaining_time": "2d 13h 22m 46s"}
+{"loss": 0.10699106, "token_acc": 0.95358025, "grad_norm": 0.49387395, "learning_rate": 9.187e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242249, "epoch": 0.92042076, "global_step/max_steps": "12075/65595", "percentage": "18.41%", "elapsed_time": "13h 50m 43s", "remaining_time": "2d 13h 21m 59s"}
+{"loss": 0.14992896, "token_acc": 0.92587373, "grad_norm": 0.49181357, "learning_rate": 9.186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24228, "epoch": 0.92080189, "global_step/max_steps": "12080/65595", "percentage": "18.42%", "elapsed_time": "13h 50m 57s", "remaining_time": "2d 13h 21m 11s"}
+{"loss": 0.10095445, "token_acc": 0.95339305, "grad_norm": 0.86231309, "learning_rate": 9.186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242293, "epoch": 0.92118302, "global_step/max_steps": "12085/65595", "percentage": "18.42%", "elapsed_time": "13h 51m 15s", "remaining_time": "2d 13h 20m 38s"}
+{"loss": 0.10906807, "token_acc": 0.95648177, "grad_norm": 0.42404422, "learning_rate": 9.185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242309, "epoch": 0.92156414, "global_step/max_steps": "12090/65595", "percentage": "18.43%", "elapsed_time": "13h 51m 32s", "remaining_time": "2d 13h 20m 2s"}
+{"loss": 0.13414075, "token_acc": 0.94005778, "grad_norm": 0.71256053, "learning_rate": 9.184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242338, "epoch": 0.92194527, "global_step/max_steps": "12095/65595", "percentage": "18.44%", "elapsed_time": "13h 51m 47s", "remaining_time": "2d 13h 19m 16s"}
+{"loss": 0.10778902, "token_acc": 0.95434828, "grad_norm": 0.59705949, "learning_rate": 9.184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24236, "epoch": 0.9223264, "global_step/max_steps": "12100/65595", "percentage": "18.45%", "elapsed_time": "13h 52m 3s", "remaining_time": "2d 13h 18m 35s"}
+{"loss": 0.11380608, "token_acc": 0.95026726, "grad_norm": 0.70449209, "learning_rate": 9.183e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242391, "epoch": 0.92270752, "global_step/max_steps": "12105/65595", "percentage": "18.45%", "elapsed_time": "13h 52m 17s", "remaining_time": "2d 13h 17m 46s"}
+{"loss": 0.158496, "token_acc": 0.94258238, "grad_norm": 1.28749979, "learning_rate": 9.182e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242408, "epoch": 0.92308865, "global_step/max_steps": "12110/65595", "percentage": "18.46%", "elapsed_time": "13h 52m 34s", "remaining_time": "2d 13h 17m 10s"}
+{"loss": 0.11668022, "token_acc": 0.94102823, "grad_norm": 0.93508691, "learning_rate": 9.182e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242441, "epoch": 0.92346978, "global_step/max_steps": "12115/65595", "percentage": "18.47%", "elapsed_time": "13h 52m 48s", "remaining_time": "2d 13h 16m 19s"}
+{"loss": 0.14451483, "token_acc": 0.93722529, "grad_norm": 0.53659266, "learning_rate": 9.181e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242452, "epoch": 0.9238509, "global_step/max_steps": "12120/65595", "percentage": "18.48%", "elapsed_time": "13h 53m 7s", "remaining_time": "2d 13h 15m 49s"}
+{"loss": 0.12828012, "token_acc": 0.93425834, "grad_norm": 1.04473126, "learning_rate": 9.18e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242485, "epoch": 0.92423203, "global_step/max_steps": "12125/65595", "percentage": "18.48%", "elapsed_time": "13h 53m 20s", "remaining_time": "2d 13h 14m 58s"}
+{"loss": 0.10404415, "token_acc": 0.96161385, "grad_norm": 0.74501377, "learning_rate": 9.18e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242501, "epoch": 0.92461316, "global_step/max_steps": "12130/65595", "percentage": "18.49%", "elapsed_time": "13h 53m 38s", "remaining_time": "2d 13h 14m 23s"}
+{"loss": 0.15296514, "token_acc": 0.93672041, "grad_norm": 1.42812538, "learning_rate": 9.179e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242529, "epoch": 0.92499428, "global_step/max_steps": "12135/65595", "percentage": "18.50%", "elapsed_time": "13h 53m 53s", "remaining_time": "2d 13h 13m 37s"}
+{"loss": 0.13391484, "token_acc": 0.94296062, "grad_norm": 0.70405191, "learning_rate": 9.178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242528, "epoch": 0.92537541, "global_step/max_steps": "12140/65595", "percentage": "18.51%", "elapsed_time": "13h 54m 13s", "remaining_time": "2d 13h 13m 17s"}
+{"loss": 0.14983537, "token_acc": 0.95130406, "grad_norm": 0.8738212, "learning_rate": 9.178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242541, "epoch": 0.92575654, "global_step/max_steps": "12145/65595", "percentage": "18.52%", "elapsed_time": "13h 54m 31s", "remaining_time": "2d 13h 12m 45s"}
+{"loss": 0.12810501, "token_acc": 0.9293656, "grad_norm": 0.19297455, "learning_rate": 9.177e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24258, "epoch": 0.92613766, "global_step/max_steps": "12150/65595", "percentage": "18.52%", "elapsed_time": "13h 54m 44s", "remaining_time": "2d 13h 11m 49s"}
+{"loss": 0.12594324, "token_acc": 0.95474428, "grad_norm": 0.18724516, "learning_rate": 9.176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242602, "epoch": 0.92651879, "global_step/max_steps": "12155/65595", "percentage": "18.53%", "elapsed_time": "13h 55m 0s", "remaining_time": "2d 13h 11m 8s"}
+{"loss": 0.17756814, "token_acc": 0.93196544, "grad_norm": 0.74917603, "learning_rate": 9.176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242622, "epoch": 0.92689992, "global_step/max_steps": "12160/65595", "percentage": "18.54%", "elapsed_time": "13h 55m 16s", "remaining_time": "2d 13h 10m 29s"}
+{"loss": 0.15123456, "token_acc": 0.94070548, "grad_norm": 1.1850878, "learning_rate": 9.175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242647, "epoch": 0.92728104, "global_step/max_steps": "12165/65595", "percentage": "18.55%", "elapsed_time": "13h 55m 32s", "remaining_time": "2d 13h 9m 46s"}
+{"loss": 0.17799895, "token_acc": 0.93062387, "grad_norm": 1.62450206, "learning_rate": 9.174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242671, "epoch": 0.92766217, "global_step/max_steps": "12170/65595", "percentage": "18.55%", "elapsed_time": "13h 55m 47s", "remaining_time": "2d 13h 9m 4s"}
+{"loss": 0.16304129, "token_acc": 0.92855568, "grad_norm": 0.65119535, "learning_rate": 9.174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242696, "epoch": 0.9280433, "global_step/max_steps": "12175/65595", "percentage": "18.56%", "elapsed_time": "13h 56m 3s", "remaining_time": "2d 13h 8m 20s"}
+{"loss": 0.10091534, "token_acc": 0.95476009, "grad_norm": 0.68008995, "learning_rate": 9.173e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242709, "epoch": 0.92842442, "global_step/max_steps": "12180/65595", "percentage": "18.57%", "elapsed_time": "13h 56m 21s", "remaining_time": "2d 13h 7m 48s"}
+{"loss": 0.11389726, "token_acc": 0.95544554, "grad_norm": 0.52569187, "learning_rate": 9.172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242732, "epoch": 0.92880555, "global_step/max_steps": "12185/65595", "percentage": "18.58%", "elapsed_time": "13h 56m 37s", "remaining_time": "2d 13h 7m 7s"}
+{"loss": 0.16064382, "token_acc": 0.94969708, "grad_norm": 0.56129169, "learning_rate": 9.172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242756, "epoch": 0.92918668, "global_step/max_steps": "12190/65595", "percentage": "18.58%", "elapsed_time": "13h 56m 52s", "remaining_time": "2d 13h 6m 25s"}
+{"loss": 0.13194029, "token_acc": 0.94959496, "grad_norm": 0.51947838, "learning_rate": 9.171e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242778, "epoch": 0.9295678, "global_step/max_steps": "12195/65595", "percentage": "18.59%", "elapsed_time": "13h 57m 8s", "remaining_time": "2d 13h 5m 44s"}
+{"loss": 0.1274024, "token_acc": 0.95575221, "grad_norm": 0.84897232, "learning_rate": 9.17e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242799, "epoch": 0.92994893, "global_step/max_steps": "12200/65595", "percentage": "18.60%", "elapsed_time": "13h 57m 25s", "remaining_time": "2d 13h 5m 4s"}
+{"eval_loss": 0.11756383, "eval_token_acc": 0.94466448, "eval_runtime": 174.1205, "eval_samples_per_second": 3.044, "eval_steps_per_second": 3.044, "epoch": 0.92994893, "global_step/max_steps": "12200/65595", "percentage": "18.60%", "elapsed_time": "14h 0m 19s", "remaining_time": "2d 13h 17m 46s"}
+{"loss": 0.16443282, "token_acc": 0.94431514, "grad_norm": 0.6613254, "learning_rate": 9.17e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241981, "epoch": 0.93033006, "global_step/max_steps": "12205/65595", "percentage": "18.61%", "elapsed_time": "14h 0m 35s", "remaining_time": "2d 13h 17m 7s"}
+{"loss": 0.20351756, "token_acc": 0.93996248, "grad_norm": 0.91216606, "learning_rate": 9.169e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241994, "epoch": 0.93071118, "global_step/max_steps": "12210/65595", "percentage": "18.61%", "elapsed_time": "14h 0m 53s", "remaining_time": "2d 13h 16m 34s"}
+{"loss": 0.15243161, "token_acc": 0.93617753, "grad_norm": 0.62397063, "learning_rate": 9.168e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242016, "epoch": 0.93109231, "global_step/max_steps": "12215/65595", "percentage": "18.62%", "elapsed_time": "14h 1m 9s", "remaining_time": "2d 13h 15m 53s"}
+{"loss": 0.14186103, "token_acc": 0.9375605, "grad_norm": 1.29245961, "learning_rate": 9.168e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242051, "epoch": 0.93147344, "global_step/max_steps": "12220/65595", "percentage": "18.63%", "elapsed_time": "14h 1m 23s", "remaining_time": "2d 13h 15m 1s"}
+{"loss": 0.21459746, "token_acc": 0.94151361, "grad_norm": 0.927347, "learning_rate": 9.167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242062, "epoch": 0.93185456, "global_step/max_steps": "12225/65595", "percentage": "18.64%", "elapsed_time": "14h 1m 41s", "remaining_time": "2d 13h 14m 31s"}
+{"loss": 0.21885324, "token_acc": 0.91668252, "grad_norm": 0.91487986, "learning_rate": 9.167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242087, "epoch": 0.93223569, "global_step/max_steps": "12230/65595", "percentage": "18.64%", "elapsed_time": "14h 1m 56s", "remaining_time": "2d 13h 13m 47s"}
+{"loss": 0.13861508, "token_acc": 0.9403432, "grad_norm": 0.73792058, "learning_rate": 9.166e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242091, "epoch": 0.93261682, "global_step/max_steps": "12235/65595", "percentage": "18.65%", "elapsed_time": "14h 2m 16s", "remaining_time": "2d 13h 13m 23s"}
+{"loss": 0.14086823, "token_acc": 0.95104138, "grad_norm": 2.01465607, "learning_rate": 9.165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242116, "epoch": 0.93299794, "global_step/max_steps": "12240/65595", "percentage": "18.66%", "elapsed_time": "14h 2m 32s", "remaining_time": "2d 13h 12m 39s"}
+{"loss": 0.13957394, "token_acc": 0.95709806, "grad_norm": 1.37737978, "learning_rate": 9.165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242116, "epoch": 0.93337907, "global_step/max_steps": "12245/65595", "percentage": "18.67%", "elapsed_time": "14h 2m 52s", "remaining_time": "2d 13h 12m 19s"}
+{"loss": 0.16790409, "token_acc": 0.94171337, "grad_norm": 0.73648596, "learning_rate": 9.164e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242136, "epoch": 0.9337602, "global_step/max_steps": "12250/65595", "percentage": "18.68%", "elapsed_time": "14h 3m 9s", "remaining_time": "2d 13h 11m 40s"}
+{"loss": 0.19430033, "token_acc": 0.91685563, "grad_norm": 0.81903404, "learning_rate": 9.163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242167, "epoch": 0.93414132, "global_step/max_steps": "12255/65595", "percentage": "18.68%", "elapsed_time": "14h 3m 23s", "remaining_time": "2d 13h 10m 51s"}
+{"loss": 0.15196917, "token_acc": 0.94802136, "grad_norm": 0.85448188, "learning_rate": 9.163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242189, "epoch": 0.93452245, "global_step/max_steps": "12260/65595", "percentage": "18.69%", "elapsed_time": "14h 3m 39s", "remaining_time": "2d 13h 10m 10s"}
+{"loss": 0.19429468, "token_acc": 0.92526374, "grad_norm": 0.9462592, "learning_rate": 9.162e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242194, "epoch": 0.93490357, "global_step/max_steps": "12265/65595", "percentage": "18.70%", "elapsed_time": "14h 3m 59s", "remaining_time": "2d 13h 9m 45s"}
+{"loss": 0.1661853, "token_acc": 0.93660569, "grad_norm": 0.66287392, "learning_rate": 9.161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242211, "epoch": 0.9352847, "global_step/max_steps": "12270/65595", "percentage": "18.71%", "elapsed_time": "14h 4m 16s", "remaining_time": "2d 13h 9m 9s"}
+{"loss": 0.16949934, "token_acc": 0.9192233, "grad_norm": 1.2484318, "learning_rate": 9.161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242241, "epoch": 0.93566583, "global_step/max_steps": "12275/65595", "percentage": "18.71%", "elapsed_time": "14h 4m 30s", "remaining_time": "2d 13h 8m 21s"}
+{"loss": 0.08662274, "token_acc": 0.95727769, "grad_norm": 0.73536825, "learning_rate": 9.16e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24227, "epoch": 0.93604695, "global_step/max_steps": "12280/65595", "percentage": "18.72%", "elapsed_time": "14h 4m 45s", "remaining_time": "2d 13h 7m 34s"}
+{"loss": 0.12940902, "token_acc": 0.94744465, "grad_norm": 1.71063685, "learning_rate": 9.159e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242291, "epoch": 0.93642808, "global_step/max_steps": "12285/65595", "percentage": "18.73%", "elapsed_time": "14h 5m 1s", "remaining_time": "2d 13h 6m 54s"}
+{"loss": 0.10844582, "token_acc": 0.95874263, "grad_norm": 0.6022464, "learning_rate": 9.159e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242305, "epoch": 0.93680921, "global_step/max_steps": "12290/65595", "percentage": "18.74%", "elapsed_time": "14h 5m 18s", "remaining_time": "2d 13h 6m 21s"}
+{"loss": 0.12513418, "token_acc": 0.95243757, "grad_norm": 0.87082291, "learning_rate": 9.158e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242315, "epoch": 0.93719033, "global_step/max_steps": "12295/65595", "percentage": "18.74%", "elapsed_time": "14h 5m 37s", "remaining_time": "2d 13h 5m 51s"}
+{"loss": 0.0957276, "token_acc": 0.95716871, "grad_norm": 0.66108131, "learning_rate": 9.157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242335, "epoch": 0.93757146, "global_step/max_steps": "12300/65595", "percentage": "18.75%", "elapsed_time": "14h 5m 53s", "remaining_time": "2d 13h 5m 13s"}
+{"loss": 0.17928512, "token_acc": 0.93656043, "grad_norm": 1.13805795, "learning_rate": 9.157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242363, "epoch": 0.93795259, "global_step/max_steps": "12305/65595", "percentage": "18.76%", "elapsed_time": "14h 6m 8s", "remaining_time": "2d 13h 4m 26s"}
+{"loss": 0.15735766, "token_acc": 0.94496443, "grad_norm": 0.74495566, "learning_rate": 9.156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242382, "epoch": 0.93833371, "global_step/max_steps": "12310/65595", "percentage": "18.77%", "elapsed_time": "14h 6m 25s", "remaining_time": "2d 13h 3m 49s"}
+{"loss": 0.1164596, "token_acc": 0.94769939, "grad_norm": 0.54861271, "learning_rate": 9.155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242397, "epoch": 0.93871484, "global_step/max_steps": "12315/65595", "percentage": "18.77%", "elapsed_time": "14h 6m 42s", "remaining_time": "2d 13h 3m 14s"}
+{"loss": 0.1562547, "token_acc": 0.93291896, "grad_norm": 0.41119739, "learning_rate": 9.155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242404, "epoch": 0.93909597, "global_step/max_steps": "12320/65595", "percentage": "18.78%", "elapsed_time": "14h 7m 1s", "remaining_time": "2d 13h 2m 47s"}
+{"loss": 0.17147166, "token_acc": 0.92929703, "grad_norm": 0.81672281, "learning_rate": 9.154e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242422, "epoch": 0.93947709, "global_step/max_steps": "12325/65595", "percentage": "18.79%", "elapsed_time": "14h 7m 18s", "remaining_time": "2d 13h 2m 10s"}
+{"loss": 0.20161381, "token_acc": 0.93890146, "grad_norm": 1.36490631, "learning_rate": 9.153e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242445, "epoch": 0.93985822, "global_step/max_steps": "12330/65595", "percentage": "18.80%", "elapsed_time": "14h 7m 34s", "remaining_time": "2d 13h 1m 30s"}
+{"loss": 0.15683161, "token_acc": 0.94461323, "grad_norm": 0.60432106, "learning_rate": 9.153e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242466, "epoch": 0.94023935, "global_step/max_steps": "12335/65595", "percentage": "18.80%", "elapsed_time": "14h 7m 50s", "remaining_time": "2d 13h 0m 50s"}
+{"loss": 0.10245786, "token_acc": 0.94933681, "grad_norm": 0.9746297, "learning_rate": 9.152e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242492, "epoch": 0.94062047, "global_step/max_steps": "12340/65595", "percentage": "18.81%", "elapsed_time": "14h 8m 6s", "remaining_time": "2d 13h 0m 6s"}
+{"loss": 0.1385891, "token_acc": 0.9315133, "grad_norm": 0.92921627, "learning_rate": 9.151e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242518, "epoch": 0.9410016, "global_step/max_steps": "12345/65595", "percentage": "18.82%", "elapsed_time": "14h 8m 21s", "remaining_time": "2d 12h 59m 22s"}
+{"loss": 0.12880955, "token_acc": 0.94810059, "grad_norm": 0.54525989, "learning_rate": 9.151e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242529, "epoch": 0.94138273, "global_step/max_steps": "12350/65595", "percentage": "18.83%", "elapsed_time": "14h 8m 39s", "remaining_time": "2d 12h 58m 50s"}
+{"loss": 0.14861716, "token_acc": 0.94918945, "grad_norm": 1.20678973, "learning_rate": 9.15e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242555, "epoch": 0.94176385, "global_step/max_steps": "12355/65595", "percentage": "18.84%", "elapsed_time": "14h 8m 54s", "remaining_time": "2d 12h 58m 6s"}
+{"loss": 0.13349352, "token_acc": 0.95553379, "grad_norm": 1.08317709, "learning_rate": 9.149e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242578, "epoch": 0.94214498, "global_step/max_steps": "12360/65595", "percentage": "18.84%", "elapsed_time": "14h 9m 10s", "remaining_time": "2d 12h 57m 25s"}
+{"loss": 0.1002182, "token_acc": 0.96111634, "grad_norm": 0.6250692, "learning_rate": 9.149e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24261, "epoch": 0.94252611, "global_step/max_steps": "12365/65595", "percentage": "18.85%", "elapsed_time": "14h 9m 24s", "remaining_time": "2d 12h 56m 35s"}
+{"loss": 0.12314031, "token_acc": 0.94397697, "grad_norm": 0.56463212, "learning_rate": 9.148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242634, "epoch": 0.94290723, "global_step/max_steps": "12370/65595", "percentage": "18.86%", "elapsed_time": "14h 9m 39s", "remaining_time": "2d 12h 55m 53s"}
+{"loss": 0.11838377, "token_acc": 0.95130238, "grad_norm": 0.75455493, "learning_rate": 9.147e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242664, "epoch": 0.94328836, "global_step/max_steps": "12375/65595", "percentage": "18.87%", "elapsed_time": "14h 9m 54s", "remaining_time": "2d 12h 55m 6s"}
+{"loss": 0.17386359, "token_acc": 0.92738212, "grad_norm": 0.83070511, "learning_rate": 9.147e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242678, "epoch": 0.94366949, "global_step/max_steps": "12380/65595", "percentage": "18.87%", "elapsed_time": "14h 10m 11s", "remaining_time": "2d 12h 54m 32s"}
+{"loss": 0.12686696, "token_acc": 0.9478022, "grad_norm": 0.82617557, "learning_rate": 9.146e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24269, "epoch": 0.94405061, "global_step/max_steps": "12385/65595", "percentage": "18.88%", "elapsed_time": "14h 10m 30s", "remaining_time": "2d 12h 54m 1s"}
+{"loss": 0.16295242, "token_acc": 0.93076441, "grad_norm": 2.04479694, "learning_rate": 9.145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242711, "epoch": 0.94443174, "global_step/max_steps": "12390/65595", "percentage": "18.89%", "elapsed_time": "14h 10m 46s", "remaining_time": "2d 12h 53m 21s"}
+{"loss": 0.1191155, "token_acc": 0.95358744, "grad_norm": 0.86098433, "learning_rate": 9.145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242737, "epoch": 0.94481287, "global_step/max_steps": "12395/65595", "percentage": "18.90%", "elapsed_time": "14h 11m 1s", "remaining_time": "2d 12h 52m 37s"}
+{"loss": 0.10483273, "token_acc": 0.95686579, "grad_norm": 2.58466697, "learning_rate": 9.144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242751, "epoch": 0.94519399, "global_step/max_steps": "12400/65595", "percentage": "18.90%", "elapsed_time": "14h 11m 18s", "remaining_time": "2d 12h 52m 3s"}
+{"eval_loss": 0.11346241, "eval_token_acc": 0.94630595, "eval_runtime": 161.8205, "eval_samples_per_second": 3.275, "eval_steps_per_second": 3.275, "epoch": 0.94519399, "global_step/max_steps": "12400/65595", "percentage": "18.90%", "elapsed_time": "14h 14m 0s", "remaining_time": "2d 13h 3m 38s"}
+{"loss": 0.19119593, "token_acc": 0.94615991, "grad_norm": 2.03589916, "learning_rate": 9.143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242021, "epoch": 0.94557512, "global_step/max_steps": "12405/65595", "percentage": "18.91%", "elapsed_time": "14h 14m 13s", "remaining_time": "2d 13h 2m 45s"}
+{"loss": 0.147197, "token_acc": 0.95106551, "grad_norm": 0.33811355, "learning_rate": 9.143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242061, "epoch": 0.94595625, "global_step/max_steps": "12410/65595", "percentage": "18.92%", "elapsed_time": "14h 14m 25s", "remaining_time": "2d 13h 1m 47s"}
+{"loss": 0.14927375, "token_acc": 0.94556231, "grad_norm": 0.95009387, "learning_rate": 9.142e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242078, "epoch": 0.94633737, "global_step/max_steps": "12415/65595", "percentage": "18.93%", "elapsed_time": "14h 14m 42s", "remaining_time": "2d 13h 1m 11s"}
+{"loss": 0.19367703, "token_acc": 0.91505792, "grad_norm": 0.84659326, "learning_rate": 9.141e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242099, "epoch": 0.9467185, "global_step/max_steps": "12420/65595", "percentage": "18.93%", "elapsed_time": "14h 14m 59s", "remaining_time": "2d 13h 0m 32s"}
+{"loss": 0.12113461, "token_acc": 0.95130558, "grad_norm": 1.02698874, "learning_rate": 9.141e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242139, "epoch": 0.94709963, "global_step/max_steps": "12425/65595", "percentage": "18.94%", "elapsed_time": "14h 15m 11s", "remaining_time": "2d 12h 59m 35s"}
+{"loss": 0.14671841, "token_acc": 0.93736366, "grad_norm": 1.25399613, "learning_rate": 9.14e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24217, "epoch": 0.94748075, "global_step/max_steps": "12430/65595", "percentage": "18.95%", "elapsed_time": "14h 15m 25s", "remaining_time": "2d 12h 58m 46s"}
+{"loss": 0.17355781, "token_acc": 0.92395437, "grad_norm": 1.06571472, "learning_rate": 9.139e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242198, "epoch": 0.94786188, "global_step/max_steps": "12435/65595", "percentage": "18.96%", "elapsed_time": "14h 15m 39s", "remaining_time": "2d 12h 57m 59s"}
+{"loss": 0.13309202, "token_acc": 0.95735855, "grad_norm": 1.2264154, "learning_rate": 9.139e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242221, "epoch": 0.94824301, "global_step/max_steps": "12440/65595", "percentage": "18.96%", "elapsed_time": "14h 15m 55s", "remaining_time": "2d 12h 57m 19s"}
+{"loss": 0.19082494, "token_acc": 0.926957, "grad_norm": 0.85386634, "learning_rate": 9.138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242236, "epoch": 0.94862413, "global_step/max_steps": "12445/65595", "percentage": "18.97%", "elapsed_time": "14h 16m 13s", "remaining_time": "2d 12h 56m 44s"}
+{"loss": 0.17732338, "token_acc": 0.93607306, "grad_norm": 1.21738112, "learning_rate": 9.137e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242254, "epoch": 0.94900526, "global_step/max_steps": "12450/65595", "percentage": "18.98%", "elapsed_time": "14h 16m 30s", "remaining_time": "2d 12h 56m 7s"}
+{"loss": 0.13959742, "token_acc": 0.94479985, "grad_norm": 0.60540295, "learning_rate": 9.136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242282, "epoch": 0.94938639, "global_step/max_steps": "12455/65595", "percentage": "18.99%", "elapsed_time": "14h 16m 44s", "remaining_time": "2d 12h 55m 21s"}
+{"loss": 0.1381876, "token_acc": 0.94455525, "grad_norm": 0.78139663, "learning_rate": 9.136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242307, "epoch": 0.94976751, "global_step/max_steps": "12460/65595", "percentage": "19.00%", "elapsed_time": "14h 17m 0s", "remaining_time": "2d 12h 54m 38s"}
+{"loss": 0.19733995, "token_acc": 0.92471935, "grad_norm": 0.83710706, "learning_rate": 9.135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242332, "epoch": 0.95014864, "global_step/max_steps": "12465/65595", "percentage": "19.00%", "elapsed_time": "14h 17m 15s", "remaining_time": "2d 12h 53m 55s"}
+{"loss": 0.16887839, "token_acc": 0.92455917, "grad_norm": 0.9141432, "learning_rate": 9.134e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242358, "epoch": 0.95052977, "global_step/max_steps": "12470/65595", "percentage": "19.01%", "elapsed_time": "14h 17m 30s", "remaining_time": "2d 12h 53m 10s"}
+{"loss": 0.14325402, "token_acc": 0.91966019, "grad_norm": 1.03457665, "learning_rate": 9.134e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242391, "epoch": 0.95091089, "global_step/max_steps": "12475/65595", "percentage": "19.02%", "elapsed_time": "14h 17m 44s", "remaining_time": "2d 12h 52m 20s"}
+{"loss": 0.1447576, "token_acc": 0.94782185, "grad_norm": 0.9074896, "learning_rate": 9.133e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242411, "epoch": 0.95129202, "global_step/max_steps": "12480/65595", "percentage": "19.03%", "elapsed_time": "14h 18m 0s", "remaining_time": "2d 12h 51m 41s"}
+{"loss": 0.17250173, "token_acc": 0.92956349, "grad_norm": 1.29160321, "learning_rate": 9.132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242442, "epoch": 0.95167315, "global_step/max_steps": "12485/65595", "percentage": "19.03%", "elapsed_time": "14h 18m 14s", "remaining_time": "2d 12h 50m 53s"}
+{"loss": 0.13211737, "token_acc": 0.95142094, "grad_norm": 0.44149584, "learning_rate": 9.132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242468, "epoch": 0.95205427, "global_step/max_steps": "12490/65595", "percentage": "19.04%", "elapsed_time": "14h 18m 29s", "remaining_time": "2d 12h 50m 9s"}
+{"loss": 0.15776137, "token_acc": 0.93675065, "grad_norm": 0.74531984, "learning_rate": 9.131e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24249, "epoch": 0.9524354, "global_step/max_steps": "12495/65595", "percentage": "19.05%", "elapsed_time": "14h 18m 45s", "remaining_time": "2d 12h 49m 28s"}
+{"loss": 0.17042394, "token_acc": 0.93509235, "grad_norm": 0.98143226, "learning_rate": 9.13e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242521, "epoch": 0.95281653, "global_step/max_steps": "12500/65595", "percentage": "19.06%", "elapsed_time": "14h 18m 59s", "remaining_time": "2d 12h 48m 39s"}
+{"loss": 0.1256978, "token_acc": 0.9492544, "grad_norm": 0.95583051, "learning_rate": 9.13e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242543, "epoch": 0.95319765, "global_step/max_steps": "12505/65595", "percentage": "19.06%", "elapsed_time": "14h 19m 15s", "remaining_time": "2d 12h 47m 59s"}
+{"loss": 0.16030017, "token_acc": 0.93790071, "grad_norm": 0.75482517, "learning_rate": 9.129e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242564, "epoch": 0.95357878, "global_step/max_steps": "12510/65595", "percentage": "19.07%", "elapsed_time": "14h 19m 31s", "remaining_time": "2d 12h 47m 19s"}
+{"loss": 0.11236532, "token_acc": 0.94536817, "grad_norm": 1.05733871, "learning_rate": 9.128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242601, "epoch": 0.95395991, "global_step/max_steps": "12515/65595", "percentage": "19.08%", "elapsed_time": "14h 19m 44s", "remaining_time": "2d 12h 46m 26s"}
+{"loss": 0.11807133, "token_acc": 0.93954187, "grad_norm": 0.84649235, "learning_rate": 9.128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242633, "epoch": 0.95434103, "global_step/max_steps": "12520/65595", "percentage": "19.09%", "elapsed_time": "14h 19m 58s", "remaining_time": "2d 12h 45m 36s"}
+{"loss": 0.12895534, "token_acc": 0.94419709, "grad_norm": 1.40175736, "learning_rate": 9.127e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242666, "epoch": 0.95472216, "global_step/max_steps": "12525/65595", "percentage": "19.09%", "elapsed_time": "14h 20m 11s", "remaining_time": "2d 12h 44m 45s"}
+{"loss": 0.1262535, "token_acc": 0.94571252, "grad_norm": 0.65871966, "learning_rate": 9.126e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242691, "epoch": 0.95510329, "global_step/max_steps": "12530/65595", "percentage": "19.10%", "elapsed_time": "14h 20m 27s", "remaining_time": "2d 12h 44m 2s"}
+{"loss": 0.18841397, "token_acc": 0.94066367, "grad_norm": 1.0051949, "learning_rate": 9.126e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242697, "epoch": 0.95548441, "global_step/max_steps": "12535/65595", "percentage": "19.11%", "elapsed_time": "14h 20m 46s", "remaining_time": "2d 12h 43m 37s"}
+{"loss": 0.15459507, "token_acc": 0.93714183, "grad_norm": 0.66912615, "learning_rate": 9.125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242721, "epoch": 0.95586554, "global_step/max_steps": "12540/65595", "percentage": "19.12%", "elapsed_time": "14h 21m 1s", "remaining_time": "2d 12h 42m 54s"}
+{"loss": 0.1557796, "token_acc": 0.95619449, "grad_norm": 1.54576659, "learning_rate": 9.124e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242736, "epoch": 0.95624667, "global_step/max_steps": "12545/65595", "percentage": "19.12%", "elapsed_time": "14h 21m 19s", "remaining_time": "2d 12h 42m 20s"}
+{"loss": 0.05284889, "token_acc": 0.96533203, "grad_norm": 4.16364431, "learning_rate": 9.124e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242772, "epoch": 0.95662779, "global_step/max_steps": "12550/65595", "percentage": "19.13%", "elapsed_time": "14h 21m 32s", "remaining_time": "2d 12h 41m 27s"}
+{"loss": 0.11360035, "token_acc": 0.95161507, "grad_norm": 0.93735582, "learning_rate": 9.123e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242776, "epoch": 0.95700892, "global_step/max_steps": "12555/65595", "percentage": "19.14%", "elapsed_time": "14h 21m 52s", "remaining_time": "2d 12h 41m 3s"}
+{"loss": 0.12866645, "token_acc": 0.96100279, "grad_norm": 1.16660953, "learning_rate": 9.122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242796, "epoch": 0.95739004, "global_step/max_steps": "12560/65595", "percentage": "19.15%", "elapsed_time": "14h 22m 8s", "remaining_time": "2d 12h 40m 24s"}
+{"loss": 0.14236095, "token_acc": 0.95329843, "grad_norm": 1.10079992, "learning_rate": 9.122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242815, "epoch": 0.95777117, "global_step/max_steps": "12565/65595", "percentage": "19.16%", "elapsed_time": "14h 22m 24s", "remaining_time": "2d 12h 39m 47s"}
+{"loss": 0.16538545, "token_acc": 0.92992908, "grad_norm": 1.04121566, "learning_rate": 9.121e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242845, "epoch": 0.9581523, "global_step/max_steps": "12570/65595", "percentage": "19.16%", "elapsed_time": "14h 22m 39s", "remaining_time": "2d 12h 38m 59s"}
+{"loss": 0.16031842, "token_acc": 0.94206312, "grad_norm": 1.08084607, "learning_rate": 9.12e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242869, "epoch": 0.95853342, "global_step/max_steps": "12575/65595", "percentage": "19.17%", "elapsed_time": "14h 22m 54s", "remaining_time": "2d 12h 38m 17s"}
+{"loss": 0.17578827, "token_acc": 0.91363251, "grad_norm": 2.94900918, "learning_rate": 9.12e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242904, "epoch": 0.95891455, "global_step/max_steps": "12580/65595", "percentage": "19.18%", "elapsed_time": "14h 23m 7s", "remaining_time": "2d 12h 37m 25s"}
+{"loss": 0.12529417, "token_acc": 0.9494542, "grad_norm": 0.46280119, "learning_rate": 9.119e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24292, "epoch": 0.95929568, "global_step/max_steps": "12585/65595", "percentage": "19.19%", "elapsed_time": "14h 23m 24s", "remaining_time": "2d 12h 36m 50s"}
+{"loss": 0.19715021, "token_acc": 0.91653226, "grad_norm": 0.68013233, "learning_rate": 9.118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242939, "epoch": 0.9596768, "global_step/max_steps": "12590/65595", "percentage": "19.19%", "elapsed_time": "14h 23m 41s", "remaining_time": "2d 12h 36m 13s"}
+{"loss": 0.16272097, "token_acc": 0.93536122, "grad_norm": 0.51492792, "learning_rate": 9.118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242968, "epoch": 0.96005793, "global_step/max_steps": "12595/65595", "percentage": "19.20%", "elapsed_time": "14h 23m 55s", "remaining_time": "2d 12h 35m 26s"}
+{"loss": 0.09934695, "token_acc": 0.9559387, "grad_norm": 0.79318649, "learning_rate": 9.117e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242998, "epoch": 0.96043906, "global_step/max_steps": "12600/65595", "percentage": "19.21%", "elapsed_time": "14h 24m 10s", "remaining_time": "2d 12h 34m 39s"}
+{"eval_loss": 0.11736885, "eval_token_acc": 0.94510873, "eval_runtime": 160.8089, "eval_samples_per_second": 3.296, "eval_steps_per_second": 3.296, "epoch": 0.96043906, "global_step/max_steps": "12600/65595", "percentage": "19.21%", "elapsed_time": "14h 26m 50s", "remaining_time": "2d 12h 45m 55s"}
+{"loss": 0.19204888, "token_acc": 0.94452884, "grad_norm": 0.4606764, "learning_rate": 9.116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242283, "epoch": 0.96082018, "global_step/max_steps": "12605/65595", "percentage": "19.22%", "elapsed_time": "14h 27m 3s", "remaining_time": "2d 12h 45m 2s"}
+{"loss": 0.1520018, "token_acc": 0.93238434, "grad_norm": 1.0171665, "learning_rate": 9.116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242317, "epoch": 0.96120131, "global_step/max_steps": "12610/65595", "percentage": "19.22%", "elapsed_time": "14h 27m 17s", "remaining_time": "2d 12h 44m 10s"}
+{"loss": 0.15564768, "token_acc": 0.94036813, "grad_norm": 0.85623711, "learning_rate": 9.115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242327, "epoch": 0.96158244, "global_step/max_steps": "12615/65595", "percentage": "19.23%", "elapsed_time": "14h 27m 35s", "remaining_time": "2d 12h 43m 40s"}
+{"loss": 0.15644525, "token_acc": 0.93822132, "grad_norm": 0.71405727, "learning_rate": 9.114e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242344, "epoch": 0.96196356, "global_step/max_steps": "12620/65595", "percentage": "19.24%", "elapsed_time": "14h 27m 52s", "remaining_time": "2d 12h 43m 4s"}
+{"loss": 0.1060735, "token_acc": 0.95303677, "grad_norm": 0.53605425, "learning_rate": 9.113e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242356, "epoch": 0.96234469, "global_step/max_steps": "12625/65595", "percentage": "19.25%", "elapsed_time": "14h 28m 10s", "remaining_time": "2d 12h 42m 33s"}
+{"loss": 0.12701845, "token_acc": 0.94320586, "grad_norm": 1.46966195, "learning_rate": 9.113e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242377, "epoch": 0.96272582, "global_step/max_steps": "12630/65595", "percentage": "19.25%", "elapsed_time": "14h 28m 26s", "remaining_time": "2d 12h 41m 54s"}
+{"loss": 0.09789317, "token_acc": 0.9566787, "grad_norm": 1.04981077, "learning_rate": 9.112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242411, "epoch": 0.96310694, "global_step/max_steps": "12635/65595", "percentage": "19.26%", "elapsed_time": "14h 28m 39s", "remaining_time": "2d 12h 41m 2s"}
+{"loss": 0.24358759, "token_acc": 0.91366906, "grad_norm": 2.4460392, "learning_rate": 9.111e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242438, "epoch": 0.96348807, "global_step/max_steps": "12640/65595", "percentage": "19.27%", "elapsed_time": "14h 28m 54s", "remaining_time": "2d 12h 40m 17s"}
+{"loss": 0.12912641, "token_acc": 0.95377678, "grad_norm": 1.14248753, "learning_rate": 9.111e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242458, "epoch": 0.9638692, "global_step/max_steps": "12645/65595", "percentage": "19.28%", "elapsed_time": "14h 29m 11s", "remaining_time": "2d 12h 39m 39s"}
+{"loss": 0.22132444, "token_acc": 0.92651147, "grad_norm": 0.58581591, "learning_rate": 9.11e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24248, "epoch": 0.96425032, "global_step/max_steps": "12650/65595", "percentage": "19.29%", "elapsed_time": "14h 29m 26s", "remaining_time": "2d 12h 38m 58s"}
+{"loss": 0.16232382, "token_acc": 0.9408872, "grad_norm": 0.93482292, "learning_rate": 9.109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242476, "epoch": 0.96463145, "global_step/max_steps": "12655/65595", "percentage": "19.29%", "elapsed_time": "14h 29m 48s", "remaining_time": "2d 12h 38m 41s"}
+{"loss": 0.21986566, "token_acc": 0.93249476, "grad_norm": 1.4766432, "learning_rate": 9.109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2425, "epoch": 0.96501258, "global_step/max_steps": "12660/65595", "percentage": "19.30%", "elapsed_time": "14h 30m 3s", "remaining_time": "2d 12h 37m 59s"}
+{"loss": 0.18708277, "token_acc": 0.93668273, "grad_norm": 1.38382435, "learning_rate": 9.108e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242518, "epoch": 0.9653937, "global_step/max_steps": "12665/65595", "percentage": "19.31%", "elapsed_time": "14h 30m 20s", "remaining_time": "2d 12h 37m 22s"}
+{"loss": 0.09474118, "token_acc": 0.96076946, "grad_norm": 1.37041128, "learning_rate": 9.107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242525, "epoch": 0.96577483, "global_step/max_steps": "12670/65595", "percentage": "19.32%", "elapsed_time": "14h 30m 39s", "remaining_time": "2d 12h 36m 55s"}
+{"loss": 0.14071383, "token_acc": 0.94218784, "grad_norm": 1.19939399, "learning_rate": 9.107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242548, "epoch": 0.96615596, "global_step/max_steps": "12675/65595", "percentage": "19.32%", "elapsed_time": "14h 30m 55s", "remaining_time": "2d 12h 36m 14s"}
+{"loss": 0.15024239, "token_acc": 0.93585526, "grad_norm": 0.98203611, "learning_rate": 9.106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242567, "epoch": 0.96653708, "global_step/max_steps": "12680/65595", "percentage": "19.33%", "elapsed_time": "14h 31m 11s", "remaining_time": "2d 12h 35m 36s"}
+{"loss": 0.09964171, "token_acc": 0.96002611, "grad_norm": 0.6660642, "learning_rate": 9.105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242586, "epoch": 0.96691821, "global_step/max_steps": "12685/65595", "percentage": "19.34%", "elapsed_time": "14h 31m 28s", "remaining_time": "2d 12h 34m 58s"}
+{"loss": 0.17633266, "token_acc": 0.94775015, "grad_norm": 1.33718371, "learning_rate": 9.105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242596, "epoch": 0.96729934, "global_step/max_steps": "12690/65595", "percentage": "19.35%", "elapsed_time": "14h 31m 47s", "remaining_time": "2d 12h 34m 29s"}
+{"loss": 0.14857335, "token_acc": 0.94023256, "grad_norm": 0.83846444, "learning_rate": 9.104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242619, "epoch": 0.96768046, "global_step/max_steps": "12695/65595", "percentage": "19.35%", "elapsed_time": "14h 32m 2s", "remaining_time": "2d 12h 33m 48s"}
+{"loss": 0.21381357, "token_acc": 0.90411462, "grad_norm": 0.92167455, "learning_rate": 9.103e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242653, "epoch": 0.96806159, "global_step/max_steps": "12700/65595", "percentage": "19.36%", "elapsed_time": "14h 32m 15s", "remaining_time": "2d 12h 32m 57s"}
+{"loss": 0.10878422, "token_acc": 0.95710827, "grad_norm": 1.02711654, "learning_rate": 9.103e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242664, "epoch": 0.96844272, "global_step/max_steps": "12705/65595", "percentage": "19.37%", "elapsed_time": "14h 32m 34s", "remaining_time": "2d 12h 32m 26s"}
+{"loss": 0.15361543, "token_acc": 0.94389439, "grad_norm": 0.92681175, "learning_rate": 9.102e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24269, "epoch": 0.96882384, "global_step/max_steps": "12710/65595", "percentage": "19.38%", "elapsed_time": "14h 32m 49s", "remaining_time": "2d 12h 31m 42s"}
+{"loss": 0.16761804, "token_acc": 0.91655585, "grad_norm": 0.15602845, "learning_rate": 9.101e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242723, "epoch": 0.96920497, "global_step/max_steps": "12715/65595", "percentage": "19.38%", "elapsed_time": "14h 33m 2s", "remaining_time": "2d 12h 30m 52s"}
+{"loss": 0.13764144, "token_acc": 0.95689655, "grad_norm": 0.82220435, "learning_rate": 9.101e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24274, "epoch": 0.9695861, "global_step/max_steps": "12720/65595", "percentage": "19.39%", "elapsed_time": "14h 33m 19s", "remaining_time": "2d 12h 30m 16s"}
+{"loss": 0.1206071, "token_acc": 0.94251825, "grad_norm": 0.40221933, "learning_rate": 9.1e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242776, "epoch": 0.96996722, "global_step/max_steps": "12725/65595", "percentage": "19.40%", "elapsed_time": "14h 33m 32s", "remaining_time": "2d 12h 29m 23s"}
+{"loss": 0.16885915, "token_acc": 0.94740621, "grad_norm": 1.5900017, "learning_rate": 9.099e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242795, "epoch": 0.97034835, "global_step/max_steps": "12730/65595", "percentage": "19.41%", "elapsed_time": "14h 33m 48s", "remaining_time": "2d 12h 28m 46s"}
+{"loss": 0.12622933, "token_acc": 0.94779772, "grad_norm": 0.6742267, "learning_rate": 9.098e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242802, "epoch": 0.97072948, "global_step/max_steps": "12735/65595", "percentage": "19.41%", "elapsed_time": "14h 34m 7s", "remaining_time": "2d 12h 28m 18s"}
+{"loss": 0.12346469, "token_acc": 0.96313173, "grad_norm": 0.5303129, "learning_rate": 9.098e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242821, "epoch": 0.9711106, "global_step/max_steps": "12740/65595", "percentage": "19.42%", "elapsed_time": "14h 34m 24s", "remaining_time": "2d 12h 27m 41s"}
+{"loss": 0.11265637, "token_acc": 0.95718625, "grad_norm": 0.55710143, "learning_rate": 9.097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242822, "epoch": 0.97149173, "global_step/max_steps": "12745/65595", "percentage": "19.43%", "elapsed_time": "14h 34m 44s", "remaining_time": "2d 12h 27m 19s"}
+{"loss": 0.14302514, "token_acc": 0.94136702, "grad_norm": 1.02093589, "learning_rate": 9.096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242852, "epoch": 0.97187286, "global_step/max_steps": "12750/65595", "percentage": "19.44%", "elapsed_time": "14h 34m 58s", "remaining_time": "2d 12h 26m 32s"}
+{"loss": 0.13858149, "token_acc": 0.94960854, "grad_norm": 0.60592985, "learning_rate": 9.096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242867, "epoch": 0.97225398, "global_step/max_steps": "12755/65595", "percentage": "19.45%", "elapsed_time": "14h 35m 16s", "remaining_time": "2d 12h 25m 58s"}
+{"loss": 0.16359013, "token_acc": 0.94225122, "grad_norm": 0.95918489, "learning_rate": 9.095e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242882, "epoch": 0.97263511, "global_step/max_steps": "12760/65595", "percentage": "19.45%", "elapsed_time": "14h 35m 33s", "remaining_time": "2d 12h 25m 24s"}
+{"loss": 0.12806708, "token_acc": 0.9471706, "grad_norm": 0.96983254, "learning_rate": 9.094e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242905, "epoch": 0.97301624, "global_step/max_steps": "12765/65595", "percentage": "19.46%", "elapsed_time": "14h 35m 49s", "remaining_time": "2d 12h 24m 43s"}
+{"loss": 0.13033507, "token_acc": 0.94608822, "grad_norm": 1.28501499, "learning_rate": 9.094e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242931, "epoch": 0.97339736, "global_step/max_steps": "12770/65595", "percentage": "19.47%", "elapsed_time": "14h 36m 4s", "remaining_time": "2d 12h 23m 59s"}
+{"loss": 0.14732524, "token_acc": 0.94391829, "grad_norm": 1.27023888, "learning_rate": 9.093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242954, "epoch": 0.97377849, "global_step/max_steps": "12775/65595", "percentage": "19.48%", "elapsed_time": "14h 36m 19s", "remaining_time": "2d 12h 23m 18s"}
+{"loss": 0.09388878, "token_acc": 0.94601617, "grad_norm": 1.1373992, "learning_rate": 9.092e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242985, "epoch": 0.97415962, "global_step/max_steps": "12780/65595", "percentage": "19.48%", "elapsed_time": "14h 36m 33s", "remaining_time": "2d 12h 22m 29s"}
+{"loss": 0.13880643, "token_acc": 0.94072047, "grad_norm": 0.86887711, "learning_rate": 9.092e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243012, "epoch": 0.97454074, "global_step/max_steps": "12785/65595", "percentage": "19.49%", "elapsed_time": "14h 36m 48s", "remaining_time": "2d 12h 21m 45s"}
+{"loss": 0.14608284, "token_acc": 0.93821749, "grad_norm": 1.46325219, "learning_rate": 9.091e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243039, "epoch": 0.97492187, "global_step/max_steps": "12790/65595", "percentage": "19.50%", "elapsed_time": "14h 37m 3s", "remaining_time": "2d 12h 21m 0s"}
+{"loss": 0.14504342, "token_acc": 0.9451922, "grad_norm": 1.00880134, "learning_rate": 9.09e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243046, "epoch": 0.975303, "global_step/max_steps": "12795/65595", "percentage": "19.51%", "elapsed_time": "14h 37m 22s", "remaining_time": "2d 12h 20m 33s"}
+{"loss": 0.13781251, "token_acc": 0.9433322, "grad_norm": 1.6049, "learning_rate": 9.09e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243067, "epoch": 0.97568412, "global_step/max_steps": "12800/65595", "percentage": "19.51%", "elapsed_time": "14h 37m 38s", "remaining_time": "2d 12h 19m 53s"}
+{"eval_loss": 0.11753977, "eval_token_acc": 0.94563581, "eval_runtime": 157.412, "eval_samples_per_second": 3.367, "eval_steps_per_second": 3.367, "epoch": 0.97568412, "global_step/max_steps": "12800/65595", "percentage": "19.51%", "elapsed_time": "14h 40m 15s", "remaining_time": "2d 12h 30m 43s"}
+{"loss": 0.20663738, "token_acc": 0.94502709, "grad_norm": 1.34900165, "learning_rate": 9.089e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242376, "epoch": 0.97606525, "global_step/max_steps": "12805/65595", "percentage": "19.52%", "elapsed_time": "14h 40m 28s", "remaining_time": "2d 12h 29m 52s"}
+{"loss": 0.13109879, "token_acc": 0.94113561, "grad_norm": 0.83415931, "learning_rate": 9.088e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242396, "epoch": 0.97644638, "global_step/max_steps": "12810/65595", "percentage": "19.53%", "elapsed_time": "14h 40m 45s", "remaining_time": "2d 12h 29m 14s"}
+{"loss": 0.13605032, "token_acc": 0.94836957, "grad_norm": 0.60892087, "learning_rate": 9.087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24242, "epoch": 0.9768275, "global_step/max_steps": "12815/65595", "percentage": "19.54%", "elapsed_time": "14h 41m 0s", "remaining_time": "2d 12h 28m 32s"}
+{"loss": 0.18811969, "token_acc": 0.9230629, "grad_norm": 1.10562599, "learning_rate": 9.087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242446, "epoch": 0.97720863, "global_step/max_steps": "12820/65595", "percentage": "19.54%", "elapsed_time": "14h 41m 15s", "remaining_time": "2d 12h 27m 47s"}
+{"loss": 0.15532393, "token_acc": 0.93511375, "grad_norm": 1.04769611, "learning_rate": 9.086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242469, "epoch": 0.97758976, "global_step/max_steps": "12825/65595", "percentage": "19.55%", "elapsed_time": "14h 41m 31s", "remaining_time": "2d 12h 27m 6s"}
+{"loss": 0.15314502, "token_acc": 0.95342868, "grad_norm": 1.56266499, "learning_rate": 9.085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242488, "epoch": 0.97797088, "global_step/max_steps": "12830/65595", "percentage": "19.56%", "elapsed_time": "14h 41m 47s", "remaining_time": "2d 12h 26m 28s"}
+{"loss": 0.14838926, "token_acc": 0.94601019, "grad_norm": 0.9460097, "learning_rate": 9.085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242509, "epoch": 0.97835201, "global_step/max_steps": "12835/65595", "percentage": "19.57%", "elapsed_time": "14h 42m 3s", "remaining_time": "2d 12h 25m 49s"}
+{"loss": 0.15346909, "token_acc": 0.93667689, "grad_norm": 0.93040049, "learning_rate": 9.084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242529, "epoch": 0.97873314, "global_step/max_steps": "12840/65595", "percentage": "19.57%", "elapsed_time": "14h 42m 19s", "remaining_time": "2d 12h 25m 11s"}
+{"loss": 0.1419436, "token_acc": 0.95538137, "grad_norm": 0.93073356, "learning_rate": 9.083e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242558, "epoch": 0.97911426, "global_step/max_steps": "12845/65595", "percentage": "19.58%", "elapsed_time": "14h 42m 34s", "remaining_time": "2d 12h 24m 24s"}
+{"loss": 0.23424106, "token_acc": 0.90546529, "grad_norm": 1.73604739, "learning_rate": 9.083e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24259, "epoch": 0.97949539, "global_step/max_steps": "12850/65595", "percentage": "19.59%", "elapsed_time": "14h 42m 47s", "remaining_time": "2d 12h 23m 35s"}
+{"loss": 0.14928051, "token_acc": 0.95333965, "grad_norm": 0.58305472, "learning_rate": 9.082e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242616, "epoch": 0.97987651, "global_step/max_steps": "12855/65595", "percentage": "19.60%", "elapsed_time": "14h 43m 2s", "remaining_time": "2d 12h 22m 51s"}
+{"loss": 0.12877252, "token_acc": 0.9378228, "grad_norm": 2.22170877, "learning_rate": 9.081e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242641, "epoch": 0.98025764, "global_step/max_steps": "12860/65595", "percentage": "19.61%", "elapsed_time": "14h 43m 17s", "remaining_time": "2d 12h 22m 8s"}
+{"loss": 0.17830157, "token_acc": 0.93216593, "grad_norm": 0.46369517, "learning_rate": 9.081e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24266, "epoch": 0.98063877, "global_step/max_steps": "12865/65595", "percentage": "19.61%", "elapsed_time": "14h 43m 34s", "remaining_time": "2d 12h 21m 30s"}
+{"loss": 0.13838899, "token_acc": 0.93578205, "grad_norm": 1.16576982, "learning_rate": 9.08e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242689, "epoch": 0.98101989, "global_step/max_steps": "12870/65595", "percentage": "19.62%", "elapsed_time": "14h 43m 48s", "remaining_time": "2d 12h 20m 44s"}
+{"loss": 0.15551928, "token_acc": 0.93591654, "grad_norm": 0.8685897, "learning_rate": 9.079e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242717, "epoch": 0.98140102, "global_step/max_steps": "12875/65595", "percentage": "19.63%", "elapsed_time": "14h 44m 3s", "remaining_time": "2d 12h 19m 58s"}
+{"loss": 0.12114787, "token_acc": 0.96062992, "grad_norm": 0.79783583, "learning_rate": 9.078e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242748, "epoch": 0.98178215, "global_step/max_steps": "12880/65595", "percentage": "19.64%", "elapsed_time": "14h 44m 16s", "remaining_time": "2d 12h 19m 10s"}
+{"loss": 0.14338311, "token_acc": 0.93268146, "grad_norm": 0.84183264, "learning_rate": 9.078e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24278, "epoch": 0.98216327, "global_step/max_steps": "12885/65595", "percentage": "19.64%", "elapsed_time": "14h 44m 30s", "remaining_time": "2d 12h 18m 20s"}
+{"loss": 0.17863925, "token_acc": 0.92904713, "grad_norm": 0.81592095, "learning_rate": 9.077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242805, "epoch": 0.9825444, "global_step/max_steps": "12890/65595", "percentage": "19.65%", "elapsed_time": "14h 44m 45s", "remaining_time": "2d 12h 17m 38s"}
+{"loss": 0.171179, "token_acc": 0.93087682, "grad_norm": 0.54539216, "learning_rate": 9.076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242829, "epoch": 0.98292553, "global_step/max_steps": "12895/65595", "percentage": "19.66%", "elapsed_time": "14h 45m 0s", "remaining_time": "2d 12h 16m 56s"}
+{"loss": 0.14029661, "token_acc": 0.95087336, "grad_norm": 1.02008367, "learning_rate": 9.076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242857, "epoch": 0.98330665, "global_step/max_steps": "12900/65595", "percentage": "19.67%", "elapsed_time": "14h 45m 15s", "remaining_time": "2d 12h 16m 10s"}
+{"loss": 0.11890755, "token_acc": 0.95134689, "grad_norm": 0.91576749, "learning_rate": 9.075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242862, "epoch": 0.98368778, "global_step/max_steps": "12905/65595", "percentage": "19.67%", "elapsed_time": "14h 45m 34s", "remaining_time": "2d 12h 15m 44s"}
+{"loss": 0.1255623, "token_acc": 0.93996176, "grad_norm": 0.87446946, "learning_rate": 9.074e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242896, "epoch": 0.98406891, "global_step/max_steps": "12910/65595", "percentage": "19.68%", "elapsed_time": "14h 45m 48s", "remaining_time": "2d 12h 14m 54s"}
+{"loss": 0.14889154, "token_acc": 0.94097942, "grad_norm": 0.8613981, "learning_rate": 9.074e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242915, "epoch": 0.98445003, "global_step/max_steps": "12915/65595", "percentage": "19.69%", "elapsed_time": "14h 46m 4s", "remaining_time": "2d 12h 14m 17s"}
+{"loss": 0.11992695, "token_acc": 0.95490389, "grad_norm": 1.21000504, "learning_rate": 9.073e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242941, "epoch": 0.98483116, "global_step/max_steps": "12920/65595", "percentage": "19.70%", "elapsed_time": "14h 46m 19s", "remaining_time": "2d 12h 13m 33s"}
+{"loss": 0.10551498, "token_acc": 0.96001692, "grad_norm": 0.44918275, "learning_rate": 9.072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242962, "epoch": 0.98521229, "global_step/max_steps": "12925/65595", "percentage": "19.70%", "elapsed_time": "14h 46m 35s", "remaining_time": "2d 12h 12m 53s"}
+{"loss": 0.12806191, "token_acc": 0.95152288, "grad_norm": 1.12581491, "learning_rate": 9.072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242973, "epoch": 0.98559341, "global_step/max_steps": "12930/65595", "percentage": "19.71%", "elapsed_time": "14h 46m 53s", "remaining_time": "2d 12h 12m 23s"}
+{"loss": 0.13284124, "token_acc": 0.95446266, "grad_norm": 0.88132906, "learning_rate": 9.071e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243007, "epoch": 0.98597454, "global_step/max_steps": "12935/65595", "percentage": "19.72%", "elapsed_time": "14h 47m 6s", "remaining_time": "2d 12h 11m 32s"}
+{"loss": 0.17557836, "token_acc": 0.93070508, "grad_norm": 0.73075485, "learning_rate": 9.07e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243025, "epoch": 0.98635567, "global_step/max_steps": "12940/65595", "percentage": "19.73%", "elapsed_time": "14h 47m 23s", "remaining_time": "2d 12h 10m 55s"}
+{"loss": 0.13195364, "token_acc": 0.95438839, "grad_norm": 1.71996784, "learning_rate": 9.069e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243055, "epoch": 0.98673679, "global_step/max_steps": "12945/65595", "percentage": "19.73%", "elapsed_time": "14h 47m 37s", "remaining_time": "2d 12h 10m 8s"}
+{"loss": 0.16090397, "token_acc": 0.93819925, "grad_norm": 1.51339161, "learning_rate": 9.069e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243081, "epoch": 0.98711792, "global_step/max_steps": "12950/65595", "percentage": "19.74%", "elapsed_time": "14h 47m 52s", "remaining_time": "2d 12h 9m 25s"}
+{"loss": 0.19202931, "token_acc": 0.91030425, "grad_norm": 1.08844209, "learning_rate": 9.068e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243098, "epoch": 0.98749905, "global_step/max_steps": "12955/65595", "percentage": "19.75%", "elapsed_time": "14h 48m 9s", "remaining_time": "2d 12h 8m 49s"}
+{"loss": 0.18465101, "token_acc": 0.93562807, "grad_norm": 1.11036611, "learning_rate": 9.067e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243112, "epoch": 0.98788017, "global_step/max_steps": "12960/65595", "percentage": "19.76%", "elapsed_time": "14h 48m 26s", "remaining_time": "2d 12h 8m 16s"}
+{"loss": 0.14351265, "token_acc": 0.95274102, "grad_norm": 0.65584916, "learning_rate": 9.067e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243139, "epoch": 0.9882613, "global_step/max_steps": "12965/65595", "percentage": "19.77%", "elapsed_time": "14h 48m 41s", "remaining_time": "2d 12h 7m 31s"}
+{"loss": 0.17533288, "token_acc": 0.93834249, "grad_norm": 1.18658924, "learning_rate": 9.066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243163, "epoch": 0.98864243, "global_step/max_steps": "12970/65595", "percentage": "19.77%", "elapsed_time": "14h 48m 56s", "remaining_time": "2d 12h 6m 49s"}
+{"loss": 0.15498749, "token_acc": 0.95195693, "grad_norm": 0.77136075, "learning_rate": 9.065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243183, "epoch": 0.98902355, "global_step/max_steps": "12975/65595", "percentage": "19.78%", "elapsed_time": "14h 49m 12s", "remaining_time": "2d 12h 6m 10s"}
+{"loss": 0.13800753, "token_acc": 0.95280329, "grad_norm": 0.50072545, "learning_rate": 9.065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243193, "epoch": 0.98940468, "global_step/max_steps": "12980/65595", "percentage": "19.79%", "elapsed_time": "14h 49m 30s", "remaining_time": "2d 12h 5m 41s"}
+{"loss": 0.14775225, "token_acc": 0.9462904, "grad_norm": 1.2839849, "learning_rate": 9.064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243216, "epoch": 0.98978581, "global_step/max_steps": "12985/65595", "percentage": "19.80%", "elapsed_time": "14h 49m 46s", "remaining_time": "2d 12h 5m 0s"}
+{"loss": 0.1109778, "token_acc": 0.95261742, "grad_norm": 0.70669919, "learning_rate": 9.063e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243235, "epoch": 0.99016693, "global_step/max_steps": "12990/65595", "percentage": "19.80%", "elapsed_time": "14h 50m 2s", "remaining_time": "2d 12h 4m 23s"}
+{"loss": 0.2094491, "token_acc": 0.91915303, "grad_norm": 0.92338914, "learning_rate": 9.062e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24327, "epoch": 0.99054806, "global_step/max_steps": "12995/65595", "percentage": "19.81%", "elapsed_time": "14h 50m 15s", "remaining_time": "2d 12h 3m 31s"}
+{"loss": 0.15398425, "token_acc": 0.94055051, "grad_norm": 0.79005671, "learning_rate": 9.062e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243281, "epoch": 0.99092919, "global_step/max_steps": "13000/65595", "percentage": "19.82%", "elapsed_time": "14h 50m 33s", "remaining_time": "2d 12h 3m 0s"}
+{"eval_loss": 0.11379074, "eval_token_acc": 0.94627583, "eval_runtime": 159.7392, "eval_samples_per_second": 3.318, "eval_steps_per_second": 3.318, "epoch": 0.99092919, "global_step/max_steps": "13000/65595", "percentage": "19.82%", "elapsed_time": "14h 53m 13s", "remaining_time": "2d 12h 13m 47s"}
+{"loss": 0.14906244, "token_acc": 0.94605345, "grad_norm": 1.48660529, "learning_rate": 9.061e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24258, "epoch": 0.99131031, "global_step/max_steps": "13005/65595", "percentage": "19.83%", "elapsed_time": "14h 53m 28s", "remaining_time": "2d 12h 13m 5s"}
+{"loss": 0.15298531, "token_acc": 0.94186276, "grad_norm": 0.96125096, "learning_rate": 9.06e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242603, "epoch": 0.99169144, "global_step/max_steps": "13010/65595", "percentage": "19.83%", "elapsed_time": "14h 53m 44s", "remaining_time": "2d 12h 12m 24s"}
+{"loss": 0.14684865, "token_acc": 0.94528633, "grad_norm": 0.74976987, "learning_rate": 9.06e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242616, "epoch": 0.99207257, "global_step/max_steps": "13015/65595", "percentage": "19.84%", "elapsed_time": "14h 54m 2s", "remaining_time": "2d 12h 11m 52s"}
+{"loss": 0.147943, "token_acc": 0.94210526, "grad_norm": 1.25754976, "learning_rate": 9.059e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242644, "epoch": 0.99245369, "global_step/max_steps": "13020/65595", "percentage": "19.85%", "elapsed_time": "14h 54m 16s", "remaining_time": "2d 12h 11m 6s"}
+{"loss": 0.21087809, "token_acc": 0.93787436, "grad_norm": 0.61679178, "learning_rate": 9.058e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242658, "epoch": 0.99283482, "global_step/max_steps": "13025/65595", "percentage": "19.86%", "elapsed_time": "14h 54m 34s", "remaining_time": "2d 12h 10m 33s"}
+{"loss": 0.18107074, "token_acc": 0.93488453, "grad_norm": 0.88143742, "learning_rate": 9.058e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242675, "epoch": 0.99321595, "global_step/max_steps": "13030/65595", "percentage": "19.86%", "elapsed_time": "14h 54m 50s", "remaining_time": "2d 12h 9m 57s"}
+{"loss": 0.14560816, "token_acc": 0.96250572, "grad_norm": 0.53263664, "learning_rate": 9.057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242696, "epoch": 0.99359707, "global_step/max_steps": "13035/65595", "percentage": "19.87%", "elapsed_time": "14h 55m 6s", "remaining_time": "2d 12h 9m 18s"}
+{"loss": 0.17738031, "token_acc": 0.92749942, "grad_norm": 0.64443523, "learning_rate": 9.056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242722, "epoch": 0.9939782, "global_step/max_steps": "13040/65595", "percentage": "19.88%", "elapsed_time": "14h 55m 21s", "remaining_time": "2d 12h 8m 34s"}
+{"loss": 0.13217245, "token_acc": 0.9427379, "grad_norm": 0.75492936, "learning_rate": 9.055e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242737, "epoch": 0.99435933, "global_step/max_steps": "13045/65595", "percentage": "19.89%", "elapsed_time": "14h 55m 38s", "remaining_time": "2d 12h 8m 0s"}
+{"loss": 0.14355943, "token_acc": 0.94198029, "grad_norm": 1.51267266, "learning_rate": 9.055e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242761, "epoch": 0.99474045, "global_step/max_steps": "13050/65595", "percentage": "19.89%", "elapsed_time": "14h 55m 54s", "remaining_time": "2d 12h 7m 18s"}
+{"loss": 0.18673935, "token_acc": 0.91693548, "grad_norm": 1.10966504, "learning_rate": 9.054e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242793, "epoch": 0.99512158, "global_step/max_steps": "13055/65595", "percentage": "19.90%", "elapsed_time": "14h 56m 7s", "remaining_time": "2d 12h 6m 29s"}
+{"loss": 0.10564805, "token_acc": 0.95744681, "grad_norm": 0.35763359, "learning_rate": 9.053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242818, "epoch": 0.99550271, "global_step/max_steps": "13060/65595", "percentage": "19.91%", "elapsed_time": "14h 56m 22s", "remaining_time": "2d 12h 5m 46s"}
+{"loss": 0.14977226, "token_acc": 0.93825388, "grad_norm": 0.98004007, "learning_rate": 9.053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242849, "epoch": 0.99588383, "global_step/max_steps": "13065/65595", "percentage": "19.92%", "elapsed_time": "14h 56m 36s", "remaining_time": "2d 12h 4m 58s"}
+{"loss": 0.12221092, "token_acc": 0.94960904, "grad_norm": 0.7127009, "learning_rate": 9.052e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24287, "epoch": 0.99626496, "global_step/max_steps": "13070/65595", "percentage": "19.93%", "elapsed_time": "14h 56m 52s", "remaining_time": "2d 12h 4m 19s"}
+{"loss": 0.16754279, "token_acc": 0.9357744, "grad_norm": 0.70850503, "learning_rate": 9.051e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242886, "epoch": 0.99664609, "global_step/max_steps": "13075/65595", "percentage": "19.93%", "elapsed_time": "14h 57m 9s", "remaining_time": "2d 12h 3m 44s"}
+{"loss": 0.10579664, "token_acc": 0.95452113, "grad_norm": 0.41360471, "learning_rate": 9.051e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242922, "epoch": 0.99702721, "global_step/max_steps": "13080/65595", "percentage": "19.94%", "elapsed_time": "14h 57m 22s", "remaining_time": "2d 12h 2m 51s"}
+{"loss": 0.14258871, "token_acc": 0.95122457, "grad_norm": 0.85088062, "learning_rate": 9.05e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242944, "epoch": 0.99740834, "global_step/max_steps": "13085/65595", "percentage": "19.95%", "elapsed_time": "14h 57m 38s", "remaining_time": "2d 12h 2m 11s"}
+{"loss": 0.10106058, "token_acc": 0.95862357, "grad_norm": 0.63613844, "learning_rate": 9.049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242961, "epoch": 0.99778947, "global_step/max_steps": "13090/65595", "percentage": "19.96%", "elapsed_time": "14h 57m 54s", "remaining_time": "2d 12h 1m 35s"}
+{"loss": 0.14365032, "token_acc": 0.94338149, "grad_norm": 0.62882781, "learning_rate": 9.048e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24298, "epoch": 0.99817059, "global_step/max_steps": "13095/65595", "percentage": "19.96%", "elapsed_time": "14h 58m 11s", "remaining_time": "2d 12h 0m 58s"}
+{"loss": 0.0896082, "token_acc": 0.9526738, "grad_norm": 0.74135149, "learning_rate": 9.048e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242991, "epoch": 0.99855172, "global_step/max_steps": "13100/65595", "percentage": "19.97%", "elapsed_time": "14h 58m 29s", "remaining_time": "2d 12h 0m 28s"}
+{"loss": 0.15240257, "token_acc": 0.94128114, "grad_norm": 0.97281605, "learning_rate": 9.047e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243008, "epoch": 0.99893285, "global_step/max_steps": "13105/65595", "percentage": "19.98%", "elapsed_time": "14h 58m 46s", "remaining_time": "2d 11h 59m 52s"}
+{"loss": 0.16470314, "token_acc": 0.94155398, "grad_norm": 0.66835165, "learning_rate": 9.046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243033, "epoch": 0.99931397, "global_step/max_steps": "13110/65595", "percentage": "19.99%", "elapsed_time": "14h 59m 1s", "remaining_time": "2d 11h 59m 9s"}
+{"loss": 0.14240711, "token_acc": 0.95490529, "grad_norm": 0.51644617, "learning_rate": 9.046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243039, "epoch": 0.9996951, "global_step/max_steps": "13115/65595", "percentage": "19.99%", "elapsed_time": "14h 59m 20s", "remaining_time": "2d 11h 58m 43s"}
+{"loss": 0.18563666, "token_acc": 0.93239589, "grad_norm": 0.66387081, "learning_rate": 9.045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24307, "epoch": 1.00007623, "global_step/max_steps": "13120/65595", "percentage": "20.00%", "elapsed_time": "14h 59m 34s", "remaining_time": "2d 11h 57m 55s"}
+{"loss": 0.10783932, "token_acc": 0.95017976, "grad_norm": 0.88874781, "learning_rate": 9.044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243096, "epoch": 1.00045735, "global_step/max_steps": "13125/65595", "percentage": "20.01%", "elapsed_time": "14h 59m 48s", "remaining_time": "2d 11h 57m 11s"}
+{"loss": 0.15447317, "token_acc": 0.93599062, "grad_norm": 0.87013495, "learning_rate": 9.044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243124, "epoch": 1.00083848, "global_step/max_steps": "13130/65595", "percentage": "20.02%", "elapsed_time": "15h 0m 3s", "remaining_time": "2d 11h 56m 26s"}
+{"loss": 0.15913857, "token_acc": 0.9464746, "grad_norm": 0.73055118, "learning_rate": 9.043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24314, "epoch": 1.00121961, "global_step/max_steps": "13135/65595", "percentage": "20.02%", "elapsed_time": "15h 0m 20s", "remaining_time": "2d 11h 55m 51s"}
+{"loss": 0.13561136, "token_acc": 0.94929245, "grad_norm": 0.87762499, "learning_rate": 9.042e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243158, "epoch": 1.00160073, "global_step/max_steps": "13140/65595", "percentage": "20.03%", "elapsed_time": "15h 0m 36s", "remaining_time": "2d 11h 55m 15s"}
+{"loss": 0.15365107, "token_acc": 0.94605078, "grad_norm": 1.40028274, "learning_rate": 9.041e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243191, "epoch": 1.00198186, "global_step/max_steps": "13145/65595", "percentage": "20.04%", "elapsed_time": "15h 0m 49s", "remaining_time": "2d 11h 54m 25s"}
+{"loss": 0.11698277, "token_acc": 0.94571591, "grad_norm": 1.39417565, "learning_rate": 9.041e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24321, "epoch": 1.00236298, "global_step/max_steps": "13150/65595", "percentage": "20.05%", "elapsed_time": "15h 1m 6s", "remaining_time": "2d 11h 53m 48s"}
+{"loss": 0.16960212, "token_acc": 0.92526846, "grad_norm": 0.31202674, "learning_rate": 9.04e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243237, "epoch": 1.00274411, "global_step/max_steps": "13155/65595", "percentage": "20.05%", "elapsed_time": "15h 1m 20s", "remaining_time": "2d 11h 53m 2s"}
+{"loss": 0.12895806, "token_acc": 0.95847885, "grad_norm": 0.50134814, "learning_rate": 9.039e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243259, "epoch": 1.00312524, "global_step/max_steps": "13160/65595", "percentage": "20.06%", "elapsed_time": "15h 1m 36s", "remaining_time": "2d 11h 52m 23s"}
+{"loss": 0.17277244, "token_acc": 0.94316747, "grad_norm": 1.18953216, "learning_rate": 9.039e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243284, "epoch": 1.00350636, "global_step/max_steps": "13165/65595", "percentage": "20.07%", "elapsed_time": "15h 1m 51s", "remaining_time": "2d 11h 51m 40s"}
+{"loss": 0.12657909, "token_acc": 0.94997108, "grad_norm": 0.80389571, "learning_rate": 9.038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243311, "epoch": 1.00388749, "global_step/max_steps": "13170/65595", "percentage": "20.08%", "elapsed_time": "15h 2m 6s", "remaining_time": "2d 11h 50m 56s"}
+{"loss": 0.10776899, "token_acc": 0.95465995, "grad_norm": 0.27494892, "learning_rate": 9.037e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243339, "epoch": 1.00426862, "global_step/max_steps": "13175/65595", "percentage": "20.09%", "elapsed_time": "15h 2m 20s", "remaining_time": "2d 11h 50m 10s"}
+{"loss": 0.14088907, "token_acc": 0.91869498, "grad_norm": 1.2263999, "learning_rate": 9.036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243374, "epoch": 1.00464974, "global_step/max_steps": "13180/65595", "percentage": "20.09%", "elapsed_time": "15h 2m 33s", "remaining_time": "2d 11h 49m 19s"}
+{"loss": 0.11438615, "token_acc": 0.94857447, "grad_norm": 59.28468323, "learning_rate": 9.036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2434, "epoch": 1.00503087, "global_step/max_steps": "13185/65595", "percentage": "20.10%", "elapsed_time": "15h 2m 47s", "remaining_time": "2d 11h 48m 35s"}
+{"loss": 0.17062006, "token_acc": 0.92969039, "grad_norm": 0.65807182, "learning_rate": 9.035e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243402, "epoch": 1.005412, "global_step/max_steps": "13190/65595", "percentage": "20.11%", "elapsed_time": "15h 3m 7s", "remaining_time": "2d 11h 48m 13s"}
+{"loss": 0.16813061, "token_acc": 0.94329114, "grad_norm": 1.98445332, "learning_rate": 9.034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243429, "epoch": 1.00579312, "global_step/max_steps": "13195/65595", "percentage": "20.12%", "elapsed_time": "15h 3m 22s", "remaining_time": "2d 11h 47m 28s"}
+{"loss": 0.08492687, "token_acc": 0.96288318, "grad_norm": 0.45210826, "learning_rate": 9.034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243442, "epoch": 1.00617425, "global_step/max_steps": "13200/65595", "percentage": "20.12%", "elapsed_time": "15h 3m 40s", "remaining_time": "2d 11h 46m 56s"}
+{"eval_loss": 0.11405002, "eval_token_acc": 0.94595958, "eval_runtime": 161.2966, "eval_samples_per_second": 3.286, "eval_steps_per_second": 3.286, "epoch": 1.00617425, "global_step/max_steps": "13200/65595", "percentage": "20.12%", "elapsed_time": "15h 6m 21s", "remaining_time": "2d 11h 57m 37s"}
+{"loss": 0.12711072, "token_acc": 0.94617223, "grad_norm": 0.52493036, "learning_rate": 9.033e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242723, "epoch": 1.00655538, "global_step/max_steps": "13205/65595", "percentage": "20.13%", "elapsed_time": "15h 6m 41s", "remaining_time": "2d 11h 57m 13s"}
+{"loss": 0.13433942, "token_acc": 0.95356878, "grad_norm": 0.77929759, "learning_rate": 9.032e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242752, "epoch": 1.0069365, "global_step/max_steps": "13210/65595", "percentage": "20.14%", "elapsed_time": "15h 6m 55s", "remaining_time": "2d 11h 56m 27s"}
+{"loss": 0.13739072, "token_acc": 0.94348259, "grad_norm": 0.59571594, "learning_rate": 9.032e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242772, "epoch": 1.00731763, "global_step/max_steps": "13215/65595", "percentage": "20.15%", "elapsed_time": "15h 7m 11s", "remaining_time": "2d 11h 55m 49s"}
+{"loss": 0.13840945, "token_acc": 0.93447099, "grad_norm": 1.55178452, "learning_rate": 9.031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242804, "epoch": 1.00769876, "global_step/max_steps": "13220/65595", "percentage": "20.15%", "elapsed_time": "15h 7m 24s", "remaining_time": "2d 11h 54m 59s"}
+{"loss": 0.12464809, "token_acc": 0.96041404, "grad_norm": 0.56608564, "learning_rate": 9.03e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242822, "epoch": 1.00807988, "global_step/max_steps": "13225/65595", "percentage": "20.16%", "elapsed_time": "15h 7m 41s", "remaining_time": "2d 11h 54m 23s"}
+{"loss": 0.10962262, "token_acc": 0.94495807, "grad_norm": 1.00829303, "learning_rate": 9.029e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242846, "epoch": 1.00846101, "global_step/max_steps": "13230/65595", "percentage": "20.17%", "elapsed_time": "15h 7m 56s", "remaining_time": "2d 11h 53m 41s"}
+{"loss": 0.17590911, "token_acc": 0.91462307, "grad_norm": 1.05025518, "learning_rate": 9.029e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242881, "epoch": 1.00884214, "global_step/max_steps": "13235/65595", "percentage": "20.18%", "elapsed_time": "15h 8m 9s", "remaining_time": "2d 11h 52m 49s"}
+{"loss": 0.12844294, "token_acc": 0.94923109, "grad_norm": 0.93522859, "learning_rate": 9.028e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2429, "epoch": 1.00922326, "global_step/max_steps": "13240/65595", "percentage": "20.18%", "elapsed_time": "15h 8m 25s", "remaining_time": "2d 11h 52m 12s"}
+{"loss": 0.13101761, "token_acc": 0.94911504, "grad_norm": 0.51414949, "learning_rate": 9.027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242918, "epoch": 1.00960439, "global_step/max_steps": "13245/65595", "percentage": "20.19%", "elapsed_time": "15h 8m 42s", "remaining_time": "2d 11h 51m 36s"}
+{"loss": 0.1177891, "token_acc": 0.95285293, "grad_norm": 1.05393195, "learning_rate": 9.027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242942, "epoch": 1.00998552, "global_step/max_steps": "13250/65595", "percentage": "20.20%", "elapsed_time": "15h 8m 57s", "remaining_time": "2d 11h 50m 53s"}
+{"loss": 0.19528688, "token_acc": 0.92564841, "grad_norm": 1.04622149, "learning_rate": 9.026e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242964, "epoch": 1.01036664, "global_step/max_steps": "13255/65595", "percentage": "20.21%", "elapsed_time": "15h 9m 13s", "remaining_time": "2d 11h 50m 14s"}
+{"loss": 0.13569742, "token_acc": 0.95245208, "grad_norm": 1.09905255, "learning_rate": 9.025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242974, "epoch": 1.01074777, "global_step/max_steps": "13260/65595", "percentage": "20.21%", "elapsed_time": "15h 9m 31s", "remaining_time": "2d 11h 49m 44s"}
+{"loss": 0.14029942, "token_acc": 0.95667226, "grad_norm": 0.77222693, "learning_rate": 9.024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242973, "epoch": 1.0111289, "global_step/max_steps": "13265/65595", "percentage": "20.22%", "elapsed_time": "15h 9m 52s", "remaining_time": "2d 11h 49m 25s"}
+{"loss": 0.11814294, "token_acc": 0.94668923, "grad_norm": 1.43596971, "learning_rate": 9.024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242992, "epoch": 1.01151002, "global_step/max_steps": "13270/65595", "percentage": "20.23%", "elapsed_time": "15h 10m 8s", "remaining_time": "2d 11h 48m 47s"}
+{"loss": 0.12027857, "token_acc": 0.95519984, "grad_norm": 0.53118086, "learning_rate": 9.023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242988, "epoch": 1.01189115, "global_step/max_steps": "13275/65595", "percentage": "20.24%", "elapsed_time": "15h 10m 30s", "remaining_time": "2d 11h 48m 30s"}
+{"loss": 0.13706323, "token_acc": 0.94682094, "grad_norm": 0.62120306, "learning_rate": 9.022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242999, "epoch": 1.01227228, "global_step/max_steps": "13280/65595", "percentage": "20.25%", "elapsed_time": "15h 10m 48s", "remaining_time": "2d 11h 48m 0s"}
+{"loss": 0.0924238, "token_acc": 0.95505171, "grad_norm": 0.59428728, "learning_rate": 9.022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243014, "epoch": 1.0126534, "global_step/max_steps": "13285/65595", "percentage": "20.25%", "elapsed_time": "15h 11m 5s", "remaining_time": "2d 11h 47m 26s"}
+{"loss": 0.12993178, "token_acc": 0.9561095, "grad_norm": 0.55244148, "learning_rate": 9.021e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243027, "epoch": 1.01303453, "global_step/max_steps": "13290/65595", "percentage": "20.26%", "elapsed_time": "15h 11m 23s", "remaining_time": "2d 11h 46m 54s"}
+{"loss": 0.11526881, "token_acc": 0.95173697, "grad_norm": 0.52356517, "learning_rate": 9.02e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243039, "epoch": 1.01341566, "global_step/max_steps": "13295/65595", "percentage": "20.27%", "elapsed_time": "15h 11m 40s", "remaining_time": "2d 11h 46m 23s"}
+{"loss": 0.12882034, "token_acc": 0.95358593, "grad_norm": 0.8513158, "learning_rate": 9.019e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243052, "epoch": 1.01379678, "global_step/max_steps": "13300/65595", "percentage": "20.28%", "elapsed_time": "15h 11m 58s", "remaining_time": "2d 11h 45m 50s"}
+{"loss": 0.15540638, "token_acc": 0.93128834, "grad_norm": 1.10902274, "learning_rate": 9.019e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243078, "epoch": 1.01417791, "global_step/max_steps": "13305/65595", "percentage": "20.28%", "elapsed_time": "15h 12m 13s", "remaining_time": "2d 11h 45m 7s"}
+{"loss": 0.11464146, "token_acc": 0.96190893, "grad_norm": 0.79944038, "learning_rate": 9.018e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243105, "epoch": 1.01455904, "global_step/max_steps": "13310/65595", "percentage": "20.29%", "elapsed_time": "15h 12m 27s", "remaining_time": "2d 11h 44m 22s"}
+{"loss": 0.13281611, "token_acc": 0.94422596, "grad_norm": 1.10083294, "learning_rate": 9.017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243136, "epoch": 1.01494016, "global_step/max_steps": "13315/65595", "percentage": "20.30%", "elapsed_time": "15h 12m 41s", "remaining_time": "2d 11h 43m 34s"}
+{"loss": 0.13819352, "token_acc": 0.94906054, "grad_norm": 1.126472, "learning_rate": 9.017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243167, "epoch": 1.01532129, "global_step/max_steps": "13320/65595", "percentage": "20.31%", "elapsed_time": "15h 12m 55s", "remaining_time": "2d 11h 42m 47s"}
+{"loss": 0.14500753, "token_acc": 0.94954311, "grad_norm": 0.31522062, "learning_rate": 9.016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243197, "epoch": 1.01570242, "global_step/max_steps": "13325/65595", "percentage": "20.31%", "elapsed_time": "15h 13m 8s", "remaining_time": "2d 11h 41m 59s"}
+{"loss": 0.18771822, "token_acc": 0.93209494, "grad_norm": 1.23321676, "learning_rate": 9.015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243216, "epoch": 1.01608354, "global_step/max_steps": "13330/65595", "percentage": "20.32%", "elapsed_time": "15h 13m 25s", "remaining_time": "2d 11h 41m 22s"}
+{"loss": 0.1823404, "token_acc": 0.92255541, "grad_norm": 1.69533134, "learning_rate": 9.014e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243242, "epoch": 1.01646467, "global_step/max_steps": "13335/65595", "percentage": "20.33%", "elapsed_time": "15h 13m 39s", "remaining_time": "2d 11h 40m 38s"}
+{"loss": 0.09690826, "token_acc": 0.95111377, "grad_norm": 0.54533452, "learning_rate": 9.014e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243261, "epoch": 1.0168458, "global_step/max_steps": "13340/65595", "percentage": "20.34%", "elapsed_time": "15h 13m 55s", "remaining_time": "2d 11h 40m 1s"}
+{"loss": 0.09796566, "token_acc": 0.95167163, "grad_norm": 0.84184241, "learning_rate": 9.013e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24329, "epoch": 1.01722692, "global_step/max_steps": "13345/65595", "percentage": "20.34%", "elapsed_time": "15h 14m 10s", "remaining_time": "2d 11h 39m 15s"}
+{"loss": 0.1392221, "token_acc": 0.93999152, "grad_norm": 1.12684143, "learning_rate": 9.012e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243313, "epoch": 1.01760805, "global_step/max_steps": "13350/65595", "percentage": "20.35%", "elapsed_time": "15h 14m 25s", "remaining_time": "2d 11h 38m 34s"}
+{"loss": 0.12688041, "token_acc": 0.95316754, "grad_norm": 0.8943516, "learning_rate": 9.012e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243332, "epoch": 1.01798918, "global_step/max_steps": "13355/65595", "percentage": "20.36%", "elapsed_time": "15h 14m 41s", "remaining_time": "2d 11h 37m 56s"}
+{"loss": 0.11399437, "token_acc": 0.95100223, "grad_norm": 1.21761453, "learning_rate": 9.011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243359, "epoch": 1.0183703, "global_step/max_steps": "13360/65595", "percentage": "20.37%", "elapsed_time": "15h 14m 56s", "remaining_time": "2d 11h 37m 12s"}
+{"loss": 0.15052452, "token_acc": 0.9456114, "grad_norm": 0.84650236, "learning_rate": 9.01e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243394, "epoch": 1.01875143, "global_step/max_steps": "13365/65595", "percentage": "20.38%", "elapsed_time": "15h 15m 8s", "remaining_time": "2d 11h 36m 21s"}
+{"loss": 0.1299197, "token_acc": 0.94023628, "grad_norm": 0.82548106, "learning_rate": 9.009e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243425, "epoch": 1.01913256, "global_step/max_steps": "13370/65595", "percentage": "20.38%", "elapsed_time": "15h 15m 22s", "remaining_time": "2d 11h 35m 34s"}
+{"loss": 0.15339882, "token_acc": 0.94177584, "grad_norm": 0.65672725, "learning_rate": 9.009e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243439, "epoch": 1.01951368, "global_step/max_steps": "13375/65595", "percentage": "20.39%", "elapsed_time": "15h 15m 39s", "remaining_time": "2d 11h 35m 1s"}
+{"loss": 0.12552629, "token_acc": 0.95798969, "grad_norm": 0.81730884, "learning_rate": 9.008e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243466, "epoch": 1.01989481, "global_step/max_steps": "13380/65595", "percentage": "20.40%", "elapsed_time": "15h 15m 54s", "remaining_time": "2d 11h 34m 16s"}
+{"loss": 0.17698462, "token_acc": 0.95108516, "grad_norm": 1.87549198, "learning_rate": 9.007e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243471, "epoch": 1.02027594, "global_step/max_steps": "13385/65595", "percentage": "20.41%", "elapsed_time": "15h 16m 13s", "remaining_time": "2d 11h 33m 51s"}
+{"loss": 0.14281054, "token_acc": 0.9430399, "grad_norm": 0.75726855, "learning_rate": 9.007e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243499, "epoch": 1.02065706, "global_step/max_steps": "13390/65595", "percentage": "20.41%", "elapsed_time": "15h 16m 27s", "remaining_time": "2d 11h 33m 6s"}
+{"loss": 0.15240601, "token_acc": 0.94030852, "grad_norm": 1.01796126, "learning_rate": 9.006e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243517, "epoch": 1.02103819, "global_step/max_steps": "13395/65595", "percentage": "20.42%", "elapsed_time": "15h 16m 44s", "remaining_time": "2d 11h 32m 29s"}
+{"loss": 0.15707879, "token_acc": 0.93707483, "grad_norm": 1.11543536, "learning_rate": 9.005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243541, "epoch": 1.02141932, "global_step/max_steps": "13400/65595", "percentage": "20.43%", "elapsed_time": "15h 16m 59s", "remaining_time": "2d 11h 31m 48s"}
+{"eval_loss": 0.11693436, "eval_token_acc": 0.94612523, "eval_runtime": 160.762, "eval_samples_per_second": 3.297, "eval_steps_per_second": 3.297, "epoch": 1.02141932, "global_step/max_steps": "13400/65595", "percentage": "20.43%", "elapsed_time": "15h 19m 40s", "remaining_time": "2d 11h 42m 14s"}
+{"loss": 0.12977231, "token_acc": 0.94635302, "grad_norm": 0.72112697, "learning_rate": 9.004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242851, "epoch": 1.02180044, "global_step/max_steps": "13405/65595", "percentage": "20.44%", "elapsed_time": "15h 19m 56s", "remaining_time": "2d 11h 41m 36s"}
+{"loss": 0.11355312, "token_acc": 0.96346494, "grad_norm": 1.02417755, "learning_rate": 9.004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24288, "epoch": 1.02218157, "global_step/max_steps": "13410/65595", "percentage": "20.44%", "elapsed_time": "15h 20m 10s", "remaining_time": "2d 11h 40m 50s"}
+{"loss": 0.1438092, "token_acc": 0.94302815, "grad_norm": 0.68594974, "learning_rate": 9.003e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2429, "epoch": 1.0225627, "global_step/max_steps": "13415/65595", "percentage": "20.45%", "elapsed_time": "15h 20m 26s", "remaining_time": "2d 11h 40m 11s"}
+{"loss": 0.1403322, "token_acc": 0.92551841, "grad_norm": 1.1805948, "learning_rate": 9.002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242933, "epoch": 1.02294382, "global_step/max_steps": "13420/65595", "percentage": "20.46%", "elapsed_time": "15h 20m 39s", "remaining_time": "2d 11h 39m 22s"}
+{"loss": 0.14687922, "token_acc": 0.9432612, "grad_norm": 1.17043138, "learning_rate": 9.002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242947, "epoch": 1.02332495, "global_step/max_steps": "13425/65595", "percentage": "20.47%", "elapsed_time": "15h 20m 56s", "remaining_time": "2d 11h 38m 49s"}
+{"loss": 0.1582005, "token_acc": 0.92718952, "grad_norm": 0.9427582, "learning_rate": 9.001e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242968, "epoch": 1.02370608, "global_step/max_steps": "13430/65595", "percentage": "20.47%", "elapsed_time": "15h 21m 12s", "remaining_time": "2d 11h 38m 10s"}
+{"loss": 0.13539801, "token_acc": 0.95593932, "grad_norm": 1.35453236, "learning_rate": 9e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242987, "epoch": 1.0240872, "global_step/max_steps": "13435/65595", "percentage": "20.48%", "elapsed_time": "15h 21m 28s", "remaining_time": "2d 11h 37m 33s"}
+{"loss": 0.18731288, "token_acc": 0.94193904, "grad_norm": 0.64050871, "learning_rate": 8.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242996, "epoch": 1.02446833, "global_step/max_steps": "13440/65595", "percentage": "20.49%", "elapsed_time": "15h 21m 47s", "remaining_time": "2d 11h 37m 4s"}
+{"loss": 0.13950385, "token_acc": 0.95444542, "grad_norm": 0.75467157, "learning_rate": 8.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243003, "epoch": 1.02484945, "global_step/max_steps": "13445/65595", "percentage": "20.50%", "elapsed_time": "15h 22m 6s", "remaining_time": "2d 11h 36m 37s"}
+{"loss": 0.15849128, "token_acc": 0.93398903, "grad_norm": 0.81812853, "learning_rate": 8.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243023, "epoch": 1.02523058, "global_step/max_steps": "13450/65595", "percentage": "20.50%", "elapsed_time": "15h 22m 22s", "remaining_time": "2d 11h 35m 59s"}
+{"loss": 0.13048158, "token_acc": 0.93726619, "grad_norm": 0.89611316, "learning_rate": 8.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243048, "epoch": 1.02561171, "global_step/max_steps": "13455/65595", "percentage": "20.51%", "elapsed_time": "15h 22m 37s", "remaining_time": "2d 11h 35m 16s"}
+{"loss": 0.13354518, "token_acc": 0.94483403, "grad_norm": 1.04552758, "learning_rate": 8.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243085, "epoch": 1.02599283, "global_step/max_steps": "13460/65595", "percentage": "20.52%", "elapsed_time": "15h 22m 49s", "remaining_time": "2d 11h 34m 23s"}
+{"loss": 0.12568374, "token_acc": 0.94856548, "grad_norm": 0.56655192, "learning_rate": 8.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243104, "epoch": 1.02637396, "global_step/max_steps": "13465/65595", "percentage": "20.53%", "elapsed_time": "15h 23m 5s", "remaining_time": "2d 11h 33m 46s"}
+{"loss": 0.17393974, "token_acc": 0.92980296, "grad_norm": 1.24744499, "learning_rate": 8.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243127, "epoch": 1.02675509, "global_step/max_steps": "13470/65595", "percentage": "20.54%", "elapsed_time": "15h 23m 20s", "remaining_time": "2d 11h 33m 5s"}
+{"loss": 0.10171938, "token_acc": 0.95, "grad_norm": 0.83845615, "learning_rate": 8.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243157, "epoch": 1.02713621, "global_step/max_steps": "13475/65595", "percentage": "20.54%", "elapsed_time": "15h 23m 34s", "remaining_time": "2d 11h 32m 18s"}
+{"loss": 0.09824131, "token_acc": 0.9593292, "grad_norm": 0.46671253, "learning_rate": 8.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243173, "epoch": 1.02751734, "global_step/max_steps": "13480/65595", "percentage": "20.55%", "elapsed_time": "15h 23m 51s", "remaining_time": "2d 11h 31m 43s"}
+{"loss": 0.14350948, "token_acc": 0.94253331, "grad_norm": 0.81663746, "learning_rate": 8.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243197, "epoch": 1.02789847, "global_step/max_steps": "13485/65595", "percentage": "20.56%", "elapsed_time": "15h 24m 6s", "remaining_time": "2d 11h 31m 1s"}
+{"loss": 0.13689647, "token_acc": 0.95454545, "grad_norm": 1.60825467, "learning_rate": 8.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243222, "epoch": 1.02827959, "global_step/max_steps": "13490/65595", "percentage": "20.57%", "elapsed_time": "15h 24m 21s", "remaining_time": "2d 11h 30m 19s"}
+{"loss": 0.14596915, "token_acc": 0.94218718, "grad_norm": 0.94131941, "learning_rate": 8.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243247, "epoch": 1.02866072, "global_step/max_steps": "13495/65595", "percentage": "20.57%", "elapsed_time": "15h 24m 36s", "remaining_time": "2d 11h 29m 37s"}
+{"loss": 0.10985904, "token_acc": 0.962508, "grad_norm": 0.62325364, "learning_rate": 8.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243249, "epoch": 1.02904185, "global_step/max_steps": "13500/65595", "percentage": "20.58%", "elapsed_time": "15h 24m 56s", "remaining_time": "2d 11h 29m 14s"}
+{"loss": 0.14309734, "token_acc": 0.94678715, "grad_norm": 0.71549702, "learning_rate": 8.99e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243268, "epoch": 1.02942297, "global_step/max_steps": "13505/65595", "percentage": "20.59%", "elapsed_time": "15h 25m 12s", "remaining_time": "2d 11h 28m 37s"}
+{"loss": 0.13017554, "token_acc": 0.95078593, "grad_norm": 1.21554458, "learning_rate": 8.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243283, "epoch": 1.0298041, "global_step/max_steps": "13510/65595", "percentage": "20.60%", "elapsed_time": "15h 25m 29s", "remaining_time": "2d 11h 28m 3s"}
+{"loss": 0.12737114, "token_acc": 0.94735303, "grad_norm": 1.17760587, "learning_rate": 8.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243315, "epoch": 1.03018523, "global_step/max_steps": "13515/65595", "percentage": "20.60%", "elapsed_time": "15h 25m 43s", "remaining_time": "2d 11h 27m 15s"}
+{"loss": 0.16982564, "token_acc": 0.93134684, "grad_norm": 3.11339331, "learning_rate": 8.988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243345, "epoch": 1.03056635, "global_step/max_steps": "13520/65595", "percentage": "20.61%", "elapsed_time": "15h 25m 56s", "remaining_time": "2d 11h 26m 28s"}
+{"loss": 0.11491933, "token_acc": 0.94837218, "grad_norm": 1.10660982, "learning_rate": 8.987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243367, "epoch": 1.03094748, "global_step/max_steps": "13525/65595", "percentage": "20.62%", "elapsed_time": "15h 26m 12s", "remaining_time": "2d 11h 25m 47s"}
+{"loss": 0.14321139, "token_acc": 0.95233905, "grad_norm": 0.72603393, "learning_rate": 8.986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243385, "epoch": 1.03132861, "global_step/max_steps": "13530/65595", "percentage": "20.63%", "elapsed_time": "15h 26m 28s", "remaining_time": "2d 11h 25m 11s"}
+{"loss": 0.09017078, "token_acc": 0.96290131, "grad_norm": 0.52889228, "learning_rate": 8.986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243413, "epoch": 1.03170973, "global_step/max_steps": "13535/65595", "percentage": "20.63%", "elapsed_time": "15h 26m 42s", "remaining_time": "2d 11h 24m 26s"}
+{"loss": 0.15156652, "token_acc": 0.93466086, "grad_norm": 2.51261997, "learning_rate": 8.985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243439, "epoch": 1.03209086, "global_step/max_steps": "13540/65595", "percentage": "20.64%", "elapsed_time": "15h 26m 57s", "remaining_time": "2d 11h 23m 43s"}
+{"loss": 0.14731052, "token_acc": 0.94295795, "grad_norm": 1.0796392, "learning_rate": 8.984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24347, "epoch": 1.03247199, "global_step/max_steps": "13545/65595", "percentage": "20.65%", "elapsed_time": "15h 27m 10s", "remaining_time": "2d 11h 22m 55s"}
+{"loss": 0.14867218, "token_acc": 0.94561334, "grad_norm": 0.77765083, "learning_rate": 8.984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243481, "epoch": 1.03285311, "global_step/max_steps": "13550/65595", "percentage": "20.66%", "elapsed_time": "15h 27m 28s", "remaining_time": "2d 11h 22m 25s"}
+{"loss": 0.12658956, "token_acc": 0.94042391, "grad_norm": 0.84850335, "learning_rate": 8.983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243503, "epoch": 1.03323424, "global_step/max_steps": "13555/65595", "percentage": "20.66%", "elapsed_time": "15h 27m 44s", "remaining_time": "2d 11h 21m 45s"}
+{"loss": 0.20261495, "token_acc": 0.94640123, "grad_norm": 2.01887155, "learning_rate": 8.982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243528, "epoch": 1.03361537, "global_step/max_steps": "13560/65595", "percentage": "20.67%", "elapsed_time": "15h 27m 59s", "remaining_time": "2d 11h 21m 2s"}
+{"loss": 0.11040883, "token_acc": 0.94624476, "grad_norm": 1.40460765, "learning_rate": 8.981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243559, "epoch": 1.03399649, "global_step/max_steps": "13565/65595", "percentage": "20.68%", "elapsed_time": "15h 28m 12s", "remaining_time": "2d 11h 20m 15s"}
+{"loss": 0.074076, "token_acc": 0.96172249, "grad_norm": 0.97552735, "learning_rate": 8.981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243582, "epoch": 1.03437762, "global_step/max_steps": "13570/65595", "percentage": "20.69%", "elapsed_time": "15h 28m 28s", "remaining_time": "2d 11h 19m 34s"}
+{"loss": 0.1175141, "token_acc": 0.95731173, "grad_norm": 0.83098984, "learning_rate": 8.98e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243602, "epoch": 1.03475875, "global_step/max_steps": "13575/65595", "percentage": "20.70%", "elapsed_time": "15h 28m 43s", "remaining_time": "2d 11h 18m 56s"}
+{"loss": 0.14962058, "token_acc": 0.93929712, "grad_norm": 1.72048247, "learning_rate": 8.979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243624, "epoch": 1.03513987, "global_step/max_steps": "13580/65595", "percentage": "20.70%", "elapsed_time": "15h 28m 59s", "remaining_time": "2d 11h 18m 16s"}
+{"loss": 0.14077853, "token_acc": 0.95549958, "grad_norm": 1.15433121, "learning_rate": 8.978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243646, "epoch": 1.035521, "global_step/max_steps": "13585/65595", "percentage": "20.71%", "elapsed_time": "15h 29m 14s", "remaining_time": "2d 11h 17m 36s"}
+{"loss": 0.12712208, "token_acc": 0.93862134, "grad_norm": 0.7658385, "learning_rate": 8.978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243676, "epoch": 1.03590213, "global_step/max_steps": "13590/65595", "percentage": "20.72%", "elapsed_time": "15h 29m 28s", "remaining_time": "2d 11h 16m 49s"}
+{"loss": 0.20319872, "token_acc": 0.91620728, "grad_norm": 0.85280627, "learning_rate": 8.977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243712, "epoch": 1.03628325, "global_step/max_steps": "13595/65595", "percentage": "20.73%", "elapsed_time": "15h 29m 40s", "remaining_time": "2d 11h 15m 58s"}
+{"loss": 0.1688427, "token_acc": 0.92596225, "grad_norm": 1.54515004, "learning_rate": 8.976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243736, "epoch": 1.03666438, "global_step/max_steps": "13600/65595", "percentage": "20.73%", "elapsed_time": "15h 29m 55s", "remaining_time": "2d 11h 15m 16s"}
+{"eval_loss": 0.11341374, "eval_token_acc": 0.94628336, "eval_runtime": 158.0854, "eval_samples_per_second": 3.353, "eval_steps_per_second": 3.353, "epoch": 1.03666438, "global_step/max_steps": "13600/65595", "percentage": "20.73%", "elapsed_time": "15h 32m 33s", "remaining_time": "2d 11h 25m 20s"}
+{"loss": 0.11757108, "token_acc": 0.94655713, "grad_norm": 0.87756538, "learning_rate": 8.976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243069, "epoch": 1.03704551, "global_step/max_steps": "13605/65595", "percentage": "20.74%", "elapsed_time": "15h 32m 49s", "remaining_time": "2d 11h 24m 41s"}
+{"loss": 0.1238983, "token_acc": 0.94723377, "grad_norm": 0.85362047, "learning_rate": 8.975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243099, "epoch": 1.03742663, "global_step/max_steps": "13610/65595", "percentage": "20.75%", "elapsed_time": "15h 33m 3s", "remaining_time": "2d 11h 23m 54s"}
+{"loss": 0.12852123, "token_acc": 0.94927196, "grad_norm": 1.06819582, "learning_rate": 8.974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243111, "epoch": 1.03780776, "global_step/max_steps": "13615/65595", "percentage": "20.76%", "elapsed_time": "15h 33m 21s", "remaining_time": "2d 11h 23m 23s"}
+{"loss": 0.13967134, "token_acc": 0.94214152, "grad_norm": 0.70102036, "learning_rate": 8.973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243125, "epoch": 1.03818889, "global_step/max_steps": "13620/65595", "percentage": "20.76%", "elapsed_time": "15h 33m 38s", "remaining_time": "2d 11h 22m 50s"}
+{"loss": 0.13783787, "token_acc": 0.94834103, "grad_norm": 0.57924962, "learning_rate": 8.973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243159, "epoch": 1.03857001, "global_step/max_steps": "13625/65595", "percentage": "20.77%", "elapsed_time": "15h 33m 50s", "remaining_time": "2d 11h 21m 59s"}
+{"loss": 0.16979593, "token_acc": 0.93977177, "grad_norm": 1.1490252, "learning_rate": 8.972e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243184, "epoch": 1.03895114, "global_step/max_steps": "13630/65595", "percentage": "20.78%", "elapsed_time": "15h 34m 5s", "remaining_time": "2d 11h 21m 17s"}
+{"loss": 0.1380044, "token_acc": 0.94373817, "grad_norm": 0.96378028, "learning_rate": 8.971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243213, "epoch": 1.03933227, "global_step/max_steps": "13635/65595", "percentage": "20.79%", "elapsed_time": "15h 34m 19s", "remaining_time": "2d 11h 20m 31s"}
+{"loss": 0.15870745, "token_acc": 0.94074818, "grad_norm": 1.46726072, "learning_rate": 8.97e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243242, "epoch": 1.03971339, "global_step/max_steps": "13640/65595", "percentage": "20.79%", "elapsed_time": "15h 34m 33s", "remaining_time": "2d 11h 19m 45s"}
+{"loss": 0.13408083, "token_acc": 0.9406495, "grad_norm": 0.88620555, "learning_rate": 8.97e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243258, "epoch": 1.04009452, "global_step/max_steps": "13645/65595", "percentage": "20.80%", "elapsed_time": "15h 34m 50s", "remaining_time": "2d 11h 19m 10s"}
+{"loss": 0.10010494, "token_acc": 0.95200362, "grad_norm": 0.96477783, "learning_rate": 8.969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243281, "epoch": 1.04047565, "global_step/max_steps": "13650/65595", "percentage": "20.81%", "elapsed_time": "15h 35m 5s", "remaining_time": "2d 11h 18m 29s"}
+{"loss": 0.12826627, "token_acc": 0.93768231, "grad_norm": 1.56812966, "learning_rate": 8.968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243306, "epoch": 1.04085677, "global_step/max_steps": "13655/65595", "percentage": "20.82%", "elapsed_time": "15h 35m 20s", "remaining_time": "2d 11h 17m 47s"}
+{"loss": 0.12088323, "token_acc": 0.94919421, "grad_norm": 0.80088025, "learning_rate": 8.968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24333, "epoch": 1.0412379, "global_step/max_steps": "13660/65595", "percentage": "20.82%", "elapsed_time": "15h 35m 35s", "remaining_time": "2d 11h 17m 5s"}
+{"loss": 0.12159066, "token_acc": 0.95357096, "grad_norm": 0.92337775, "learning_rate": 8.967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24334, "epoch": 1.04161903, "global_step/max_steps": "13665/65595", "percentage": "20.83%", "elapsed_time": "15h 35m 53s", "remaining_time": "2d 11h 16m 36s"}
+{"loss": 0.17538166, "token_acc": 0.93104313, "grad_norm": 1.74688447, "learning_rate": 8.966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243365, "epoch": 1.04200015, "global_step/max_steps": "13670/65595", "percentage": "20.84%", "elapsed_time": "15h 36m 8s", "remaining_time": "2d 11h 15m 53s"}
+{"loss": 0.07961732, "token_acc": 0.95748031, "grad_norm": 0.93750739, "learning_rate": 8.965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24339, "epoch": 1.04238128, "global_step/max_steps": "13675/65595", "percentage": "20.85%", "elapsed_time": "15h 36m 23s", "remaining_time": "2d 11h 15m 11s"}
+{"loss": 0.11720694, "token_acc": 0.94630449, "grad_norm": 1.42851162, "learning_rate": 8.965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243418, "epoch": 1.04276241, "global_step/max_steps": "13680/65595", "percentage": "20.86%", "elapsed_time": "15h 36m 37s", "remaining_time": "2d 11h 14m 26s"}
+{"loss": 0.1352559, "token_acc": 0.94953771, "grad_norm": 0.88223046, "learning_rate": 8.964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243417, "epoch": 1.04314353, "global_step/max_steps": "13685/65595", "percentage": "20.86%", "elapsed_time": "15h 36m 58s", "remaining_time": "2d 11h 14m 6s"}
+{"loss": 0.15498523, "token_acc": 0.95247333, "grad_norm": 1.40040195, "learning_rate": 8.963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243441, "epoch": 1.04352466, "global_step/max_steps": "13690/65595", "percentage": "20.87%", "elapsed_time": "15h 37m 13s", "remaining_time": "2d 11h 13m 24s"}
+{"loss": 0.14953227, "token_acc": 0.94589393, "grad_norm": 0.74721986, "learning_rate": 8.962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24346, "epoch": 1.04390579, "global_step/max_steps": "13695/65595", "percentage": "20.88%", "elapsed_time": "15h 37m 29s", "remaining_time": "2d 11h 12m 48s"}
+{"loss": 0.12039797, "token_acc": 0.95360687, "grad_norm": 1.34991145, "learning_rate": 8.962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243485, "epoch": 1.04428691, "global_step/max_steps": "13700/65595", "percentage": "20.89%", "elapsed_time": "15h 37m 44s", "remaining_time": "2d 11h 12m 6s"}
+{"loss": 0.14435898, "token_acc": 0.93998153, "grad_norm": 0.98946571, "learning_rate": 8.961e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243504, "epoch": 1.04466804, "global_step/max_steps": "13705/65595", "percentage": "20.89%", "elapsed_time": "15h 38m 0s", "remaining_time": "2d 11h 11m 28s"}
+{"loss": 0.11741419, "token_acc": 0.94601381, "grad_norm": 0.69427186, "learning_rate": 8.96e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24353, "epoch": 1.04504917, "global_step/max_steps": "13710/65595", "percentage": "20.90%", "elapsed_time": "15h 38m 14s", "remaining_time": "2d 11h 10m 44s"}
+{"loss": 0.21252525, "token_acc": 0.94200431, "grad_norm": 0.83216894, "learning_rate": 8.96e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243549, "epoch": 1.04543029, "global_step/max_steps": "13715/65595", "percentage": "20.91%", "elapsed_time": "15h 38m 30s", "remaining_time": "2d 11h 10m 8s"}
+{"loss": 0.10047923, "token_acc": 0.96278966, "grad_norm": 1.17806733, "learning_rate": 8.959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243571, "epoch": 1.04581142, "global_step/max_steps": "13720/65595", "percentage": "20.92%", "elapsed_time": "15h 38m 46s", "remaining_time": "2d 11h 9m 28s"}
+{"loss": 0.09293027, "token_acc": 0.95926578, "grad_norm": 1.15184927, "learning_rate": 8.958e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243595, "epoch": 1.04619255, "global_step/max_steps": "13725/65595", "percentage": "20.92%", "elapsed_time": "15h 39m 1s", "remaining_time": "2d 11h 8m 47s"}
+{"loss": 0.1390887, "token_acc": 0.9449851, "grad_norm": 0.78370523, "learning_rate": 8.957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24362, "epoch": 1.04657367, "global_step/max_steps": "13730/65595", "percentage": "20.93%", "elapsed_time": "15h 39m 15s", "remaining_time": "2d 11h 8m 4s"}
+{"loss": 0.12769444, "token_acc": 0.93897707, "grad_norm": 1.08397961, "learning_rate": 8.957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24365, "epoch": 1.0469548, "global_step/max_steps": "13735/65595", "percentage": "20.94%", "elapsed_time": "15h 39m 29s", "remaining_time": "2d 11h 7m 17s"}
+{"loss": 0.09670545, "token_acc": 0.96320583, "grad_norm": 0.7969293, "learning_rate": 8.956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243671, "epoch": 1.04733592, "global_step/max_steps": "13740/65595", "percentage": "20.95%", "elapsed_time": "15h 39m 45s", "remaining_time": "2d 11h 6m 39s"}
+{"loss": 0.13300953, "token_acc": 0.94461685, "grad_norm": 0.78634727, "learning_rate": 8.955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243696, "epoch": 1.04771705, "global_step/max_steps": "13745/65595", "percentage": "20.95%", "elapsed_time": "15h 39m 59s", "remaining_time": "2d 11h 5m 56s"}
+{"loss": 0.10193939, "token_acc": 0.95387614, "grad_norm": 1.20498955, "learning_rate": 8.954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243723, "epoch": 1.04809818, "global_step/max_steps": "13750/65595", "percentage": "20.96%", "elapsed_time": "15h 40m 14s", "remaining_time": "2d 11h 5m 12s"}
+{"loss": 0.17364826, "token_acc": 0.93240189, "grad_norm": 1.38497007, "learning_rate": 8.954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243749, "epoch": 1.0484793, "global_step/max_steps": "13755/65595", "percentage": "20.97%", "elapsed_time": "15h 40m 28s", "remaining_time": "2d 11h 4m 29s"}
+{"loss": 0.11265557, "token_acc": 0.95100814, "grad_norm": 0.8267445, "learning_rate": 8.953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243765, "epoch": 1.04886043, "global_step/max_steps": "13760/65595", "percentage": "20.98%", "elapsed_time": "15h 40m 45s", "remaining_time": "2d 11h 3m 54s"}
+{"loss": 0.16342424, "token_acc": 0.93173878, "grad_norm": 0.92573375, "learning_rate": 8.952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243793, "epoch": 1.04924156, "global_step/max_steps": "13765/65595", "percentage": "20.98%", "elapsed_time": "15h 40m 59s", "remaining_time": "2d 11h 3m 10s"}
+{"loss": 0.14949425, "token_acc": 0.94899198, "grad_norm": 0.79787201, "learning_rate": 8.952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243822, "epoch": 1.04962268, "global_step/max_steps": "13770/65595", "percentage": "20.99%", "elapsed_time": "15h 41m 13s", "remaining_time": "2d 11h 2m 24s"}
+{"loss": 0.16833198, "token_acc": 0.92723082, "grad_norm": 1.82115853, "learning_rate": 8.951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243851, "epoch": 1.05000381, "global_step/max_steps": "13775/65595", "percentage": "21.00%", "elapsed_time": "15h 41m 27s", "remaining_time": "2d 11h 1m 38s"}
+{"loss": 0.13624104, "token_acc": 0.94841063, "grad_norm": 0.7974928, "learning_rate": 8.95e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243858, "epoch": 1.05038494, "global_step/max_steps": "13780/65595", "percentage": "21.01%", "elapsed_time": "15h 41m 46s", "remaining_time": "2d 11h 1m 12s"}
+{"loss": 0.13579282, "token_acc": 0.94398647, "grad_norm": 0.91879189, "learning_rate": 8.949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243882, "epoch": 1.05076606, "global_step/max_steps": "13785/65595", "percentage": "21.02%", "elapsed_time": "15h 42m 1s", "remaining_time": "2d 11h 0m 30s"}
+{"loss": 0.13017846, "token_acc": 0.95400056, "grad_norm": 0.79497975, "learning_rate": 8.949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243908, "epoch": 1.05114719, "global_step/max_steps": "13790/65595", "percentage": "21.02%", "elapsed_time": "15h 42m 15s", "remaining_time": "2d 10h 59m 47s"}
+{"loss": 0.10907024, "token_acc": 0.94957983, "grad_norm": 0.05753763, "learning_rate": 8.948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24393, "epoch": 1.05152832, "global_step/max_steps": "13795/65595", "percentage": "21.03%", "elapsed_time": "15h 42m 30s", "remaining_time": "2d 10h 59m 7s"}
+{"loss": 0.12767888, "token_acc": 0.95260314, "grad_norm": 0.98875248, "learning_rate": 8.947e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243952, "epoch": 1.05190944, "global_step/max_steps": "13800/65595", "percentage": "21.04%", "elapsed_time": "15h 42m 46s", "remaining_time": "2d 10h 58m 27s"}
+{"eval_loss": 0.11490592, "eval_token_acc": 0.94623818, "eval_runtime": 160.0928, "eval_samples_per_second": 3.311, "eval_steps_per_second": 3.311, "epoch": 1.05190944, "global_step/max_steps": "13800/65595", "percentage": "21.04%", "elapsed_time": "15h 45m 26s", "remaining_time": "2d 11h 8m 28s"}
+{"loss": 0.14066787, "token_acc": 0.94621672, "grad_norm": 1.12434328, "learning_rate": 8.946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24329, "epoch": 1.05229057, "global_step/max_steps": "13805/65595", "percentage": "21.05%", "elapsed_time": "15h 45m 40s", "remaining_time": "2d 11h 7m 45s"}
+{"loss": 0.12184176, "token_acc": 0.95196507, "grad_norm": 1.95961928, "learning_rate": 8.946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243325, "epoch": 1.0526717, "global_step/max_steps": "13810/65595", "percentage": "21.05%", "elapsed_time": "15h 45m 53s", "remaining_time": "2d 11h 6m 54s"}
+{"loss": 0.13443182, "token_acc": 0.93707332, "grad_norm": 0.831047, "learning_rate": 8.945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243346, "epoch": 1.05305282, "global_step/max_steps": "13815/65595", "percentage": "21.06%", "elapsed_time": "15h 46m 8s", "remaining_time": "2d 11h 6m 14s"}
+{"loss": 0.13695544, "token_acc": 0.94858612, "grad_norm": 0.57207668, "learning_rate": 8.944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243376, "epoch": 1.05343395, "global_step/max_steps": "13820/65595", "percentage": "21.07%", "elapsed_time": "15h 46m 22s", "remaining_time": "2d 11h 5m 28s"}
+{"loss": 0.15187511, "token_acc": 0.94236618, "grad_norm": 0.53798741, "learning_rate": 8.943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243388, "epoch": 1.05381508, "global_step/max_steps": "13825/65595", "percentage": "21.08%", "elapsed_time": "15h 46m 40s", "remaining_time": "2d 11h 4m 57s"}
+{"loss": 0.19357091, "token_acc": 0.93265602, "grad_norm": 1.01449561, "learning_rate": 8.943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243416, "epoch": 1.0541962, "global_step/max_steps": "13830/65595", "percentage": "21.08%", "elapsed_time": "15h 46m 54s", "remaining_time": "2d 11h 4m 12s"}
+{"loss": 0.15310171, "token_acc": 0.94664608, "grad_norm": 0.47639355, "learning_rate": 8.942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243432, "epoch": 1.05457733, "global_step/max_steps": "13835/65595", "percentage": "21.09%", "elapsed_time": "15h 47m 10s", "remaining_time": "2d 11h 3m 38s"}
+{"loss": 0.13954623, "token_acc": 0.93774319, "grad_norm": 0.86375433, "learning_rate": 8.941e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243458, "epoch": 1.05495846, "global_step/max_steps": "13840/65595", "percentage": "21.10%", "elapsed_time": "15h 47m 25s", "remaining_time": "2d 11h 2m 54s"}
+{"loss": 0.14207327, "token_acc": 0.95138242, "grad_norm": 0.72677672, "learning_rate": 8.94e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243474, "epoch": 1.05533958, "global_step/max_steps": "13845/65595", "percentage": "21.11%", "elapsed_time": "15h 47m 42s", "remaining_time": "2d 11h 2m 20s"}
+{"loss": 0.15841224, "token_acc": 0.95069808, "grad_norm": 0.74716985, "learning_rate": 8.94e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243486, "epoch": 1.05572071, "global_step/max_steps": "13850/65595", "percentage": "21.11%", "elapsed_time": "15h 47m 59s", "remaining_time": "2d 11h 1m 48s"}
+{"loss": 0.08919199, "token_acc": 0.95869565, "grad_norm": 1.39001095, "learning_rate": 8.939e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243514, "epoch": 1.05610184, "global_step/max_steps": "13855/65595", "percentage": "21.12%", "elapsed_time": "15h 48m 13s", "remaining_time": "2d 11h 1m 4s"}
+{"loss": 0.13083904, "token_acc": 0.95393994, "grad_norm": 1.01759601, "learning_rate": 8.938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243533, "epoch": 1.05648296, "global_step/max_steps": "13860/65595", "percentage": "21.13%", "elapsed_time": "15h 48m 29s", "remaining_time": "2d 11h 0m 26s"}
+{"loss": 0.15616945, "token_acc": 0.94173316, "grad_norm": 0.51424283, "learning_rate": 8.938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243546, "epoch": 1.05686409, "global_step/max_steps": "13865/65595", "percentage": "21.14%", "elapsed_time": "15h 48m 47s", "remaining_time": "2d 10h 59m 54s"}
+{"loss": 0.11118948, "token_acc": 0.95175064, "grad_norm": 1.09947324, "learning_rate": 8.937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243567, "epoch": 1.05724522, "global_step/max_steps": "13870/65595", "percentage": "21.14%", "elapsed_time": "15h 49m 3s", "remaining_time": "2d 10h 59m 16s"}
+{"loss": 0.14403163, "token_acc": 0.94149909, "grad_norm": 0.94000363, "learning_rate": 8.936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243591, "epoch": 1.05762634, "global_step/max_steps": "13875/65595", "percentage": "21.15%", "elapsed_time": "15h 49m 17s", "remaining_time": "2d 10h 58m 34s"}
+{"loss": 0.11485897, "token_acc": 0.95650949, "grad_norm": 0.44308475, "learning_rate": 8.935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243604, "epoch": 1.05800747, "global_step/max_steps": "13880/65595", "percentage": "21.16%", "elapsed_time": "15h 49m 35s", "remaining_time": "2d 10h 58m 3s"}
+{"loss": 0.1539168, "token_acc": 0.93089567, "grad_norm": 0.76002574, "learning_rate": 8.935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243622, "epoch": 1.0583886, "global_step/max_steps": "13885/65595", "percentage": "21.17%", "elapsed_time": "15h 49m 51s", "remaining_time": "2d 10h 57m 26s"}
+{"loss": 0.11927629, "token_acc": 0.95922256, "grad_norm": 1.46200061, "learning_rate": 8.934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243652, "epoch": 1.05876972, "global_step/max_steps": "13890/65595", "percentage": "21.18%", "elapsed_time": "15h 50m 5s", "remaining_time": "2d 10h 56m 40s"}
+{"loss": 0.15493178, "token_acc": 0.94859179, "grad_norm": 0.85273731, "learning_rate": 8.933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243662, "epoch": 1.05915085, "global_step/max_steps": "13895/65595", "percentage": "21.18%", "elapsed_time": "15h 50m 23s", "remaining_time": "2d 10h 56m 11s"}
+{"loss": 0.14387928, "token_acc": 0.95446661, "grad_norm": 0.79270774, "learning_rate": 8.932e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243684, "epoch": 1.05953198, "global_step/max_steps": "13900/65595", "percentage": "21.19%", "elapsed_time": "15h 50m 38s", "remaining_time": "2d 10h 55m 31s"}
+{"loss": 0.13518057, "token_acc": 0.95022201, "grad_norm": 1.44255269, "learning_rate": 8.932e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24371, "epoch": 1.0599131, "global_step/max_steps": "13905/65595", "percentage": "21.20%", "elapsed_time": "15h 50m 53s", "remaining_time": "2d 10h 54m 48s"}
+{"loss": 0.16339347, "token_acc": 0.92780749, "grad_norm": 0.98096502, "learning_rate": 8.931e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243727, "epoch": 1.06029423, "global_step/max_steps": "13910/65595", "percentage": "21.21%", "elapsed_time": "15h 51m 9s", "remaining_time": "2d 10h 54m 12s"}
+{"loss": 0.12379005, "token_acc": 0.95471867, "grad_norm": 0.57449627, "learning_rate": 8.93e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24375, "epoch": 1.06067536, "global_step/max_steps": "13915/65595", "percentage": "21.21%", "elapsed_time": "15h 51m 24s", "remaining_time": "2d 10h 53m 31s"}
+{"loss": 0.13455127, "token_acc": 0.95535876, "grad_norm": 0.33915219, "learning_rate": 8.929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243768, "epoch": 1.06105648, "global_step/max_steps": "13920/65595", "percentage": "21.22%", "elapsed_time": "15h 51m 41s", "remaining_time": "2d 10h 52m 56s"}
+{"loss": 0.09828578, "token_acc": 0.96560789, "grad_norm": 0.72237718, "learning_rate": 8.929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243787, "epoch": 1.06143761, "global_step/max_steps": "13925/65595", "percentage": "21.23%", "elapsed_time": "15h 51m 57s", "remaining_time": "2d 10h 52m 18s"}
+{"loss": 0.14081578, "token_acc": 0.94450374, "grad_norm": 1.02278173, "learning_rate": 8.928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243811, "epoch": 1.06181874, "global_step/max_steps": "13930/65595", "percentage": "21.24%", "elapsed_time": "15h 52m 12s", "remaining_time": "2d 10h 51m 37s"}
+{"loss": 0.11488572, "token_acc": 0.9477968, "grad_norm": 1.10465848, "learning_rate": 8.927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243836, "epoch": 1.06219986, "global_step/max_steps": "13935/65595", "percentage": "21.24%", "elapsed_time": "15h 52m 26s", "remaining_time": "2d 10h 50m 55s"}
+{"loss": 0.13014965, "token_acc": 0.93966198, "grad_norm": 0.74640262, "learning_rate": 8.926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243852, "epoch": 1.06258099, "global_step/max_steps": "13940/65595", "percentage": "21.25%", "elapsed_time": "15h 52m 43s", "remaining_time": "2d 10h 50m 20s"}
+{"loss": 0.11515038, "token_acc": 0.95681135, "grad_norm": 1.33790302, "learning_rate": 8.926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243877, "epoch": 1.06296212, "global_step/max_steps": "13945/65595", "percentage": "21.26%", "elapsed_time": "15h 52m 58s", "remaining_time": "2d 10h 49m 38s"}
+{"loss": 0.25736575, "token_acc": 0.88449532, "grad_norm": 1.86971831, "learning_rate": 8.925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243908, "epoch": 1.06334324, "global_step/max_steps": "13950/65595", "percentage": "21.27%", "elapsed_time": "15h 53m 11s", "remaining_time": "2d 10h 48m 51s"}
+{"loss": 0.14185888, "token_acc": 0.9480433, "grad_norm": 0.83530253, "learning_rate": 8.924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243926, "epoch": 1.06372437, "global_step/max_steps": "13955/65595", "percentage": "21.27%", "elapsed_time": "15h 53m 27s", "remaining_time": "2d 10h 48m 15s"}
+{"loss": 0.18336135, "token_acc": 0.92236489, "grad_norm": 1.97873342, "learning_rate": 8.923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243954, "epoch": 1.0641055, "global_step/max_steps": "13960/65595", "percentage": "21.28%", "elapsed_time": "15h 53m 41s", "remaining_time": "2d 10h 47m 30s"}
+{"loss": 0.20720797, "token_acc": 0.92303552, "grad_norm": 0.99082899, "learning_rate": 8.923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243977, "epoch": 1.06448662, "global_step/max_steps": "13965/65595", "percentage": "21.29%", "elapsed_time": "15h 53m 56s", "remaining_time": "2d 10h 46m 49s"}
+{"loss": 0.20223215, "token_acc": 0.90974167, "grad_norm": 1.02054954, "learning_rate": 8.922e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243994, "epoch": 1.06486775, "global_step/max_steps": "13970/65595", "percentage": "21.30%", "elapsed_time": "15h 54m 13s", "remaining_time": "2d 10h 46m 14s"}
+{"loss": 0.14606394, "token_acc": 0.94114173, "grad_norm": 0.74333256, "learning_rate": 8.921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244013, "epoch": 1.06524888, "global_step/max_steps": "13975/65595", "percentage": "21.30%", "elapsed_time": "15h 54m 29s", "remaining_time": "2d 10h 45m 38s"}
+{"loss": 0.17261846, "token_acc": 0.93168433, "grad_norm": 1.5916481, "learning_rate": 8.92e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244044, "epoch": 1.06563, "global_step/max_steps": "13980/65595", "percentage": "21.31%", "elapsed_time": "15h 54m 42s", "remaining_time": "2d 10h 44m 50s"}
+{"loss": 0.14515729, "token_acc": 0.94505495, "grad_norm": 0.72168875, "learning_rate": 8.92e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244066, "epoch": 1.06601113, "global_step/max_steps": "13985/65595", "percentage": "21.32%", "elapsed_time": "15h 54m 57s", "remaining_time": "2d 10h 44m 10s"}
+{"loss": 0.14387414, "token_acc": 0.94105427, "grad_norm": 0.90981251, "learning_rate": 8.919e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244093, "epoch": 1.06639226, "global_step/max_steps": "13990/65595", "percentage": "21.33%", "elapsed_time": "15h 55m 12s", "remaining_time": "2d 10h 43m 27s"}
+{"loss": 0.12207679, "token_acc": 0.96575536, "grad_norm": 1.90561628, "learning_rate": 8.918e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244103, "epoch": 1.06677338, "global_step/max_steps": "13995/65595", "percentage": "21.34%", "elapsed_time": "15h 55m 30s", "remaining_time": "2d 10h 42m 57s"}
+{"loss": 0.08823397, "token_acc": 0.96438864, "grad_norm": 0.71234065, "learning_rate": 8.918e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244126, "epoch": 1.06715451, "global_step/max_steps": "14000/65595", "percentage": "21.34%", "elapsed_time": "15h 55m 45s", "remaining_time": "2d 10h 42m 17s"}
+{"eval_loss": 0.1133702, "eval_token_acc": 0.94676526, "eval_runtime": 161.096, "eval_samples_per_second": 3.29, "eval_steps_per_second": 3.29, "epoch": 1.06715451, "global_step/max_steps": "14000/65595", "percentage": "21.34%", "elapsed_time": "15h 58m 26s", "remaining_time": "2d 10h 52m 11s"}
+{"loss": 0.17265146, "token_acc": 0.94638335, "grad_norm": 0.68307757, "learning_rate": 8.917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243459, "epoch": 1.06753564, "global_step/max_steps": "14005/65595", "percentage": "21.35%", "elapsed_time": "15h 58m 42s", "remaining_time": "2d 10h 51m 35s"}
+{"loss": 0.12832537, "token_acc": 0.95697008, "grad_norm": 0.4624517, "learning_rate": 8.916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243468, "epoch": 1.06791676, "global_step/max_steps": "14010/65595", "percentage": "21.36%", "elapsed_time": "15h 59m 1s", "remaining_time": "2d 10h 51m 7s"}
+{"loss": 0.12904551, "token_acc": 0.93853256, "grad_norm": 1.18346679, "learning_rate": 8.915e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243495, "epoch": 1.06829789, "global_step/max_steps": "14015/65595", "percentage": "21.37%", "elapsed_time": "15h 59m 15s", "remaining_time": "2d 10h 50m 23s"}
+{"loss": 0.11929768, "token_acc": 0.95735849, "grad_norm": 1.36290896, "learning_rate": 8.915e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243525, "epoch": 1.06867902, "global_step/max_steps": "14020/65595", "percentage": "21.37%", "elapsed_time": "15h 59m 28s", "remaining_time": "2d 10h 49m 37s"}
+{"loss": 0.15612262, "token_acc": 0.9432242, "grad_norm": 0.99882501, "learning_rate": 8.914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243551, "epoch": 1.06906014, "global_step/max_steps": "14025/65595", "percentage": "21.38%", "elapsed_time": "15h 59m 43s", "remaining_time": "2d 10h 48m 53s"}
+{"loss": 0.17082748, "token_acc": 0.94858731, "grad_norm": 1.38710511, "learning_rate": 8.913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243561, "epoch": 1.06944127, "global_step/max_steps": "14030/65595", "percentage": "21.39%", "elapsed_time": "16h 0m 1s", "remaining_time": "2d 10h 48m 24s"}
+{"loss": 0.13875477, "token_acc": 0.94138474, "grad_norm": 1.70772278, "learning_rate": 8.912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243593, "epoch": 1.06982239, "global_step/max_steps": "14035/65595", "percentage": "21.40%", "elapsed_time": "16h 0m 14s", "remaining_time": "2d 10h 47m 36s"}
+{"loss": 0.12211597, "token_acc": 0.95298879, "grad_norm": 0.750934, "learning_rate": 8.912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243616, "epoch": 1.07020352, "global_step/max_steps": "14040/65595", "percentage": "21.40%", "elapsed_time": "16h 0m 29s", "remaining_time": "2d 10h 46m 55s"}
+{"loss": 0.08998557, "token_acc": 0.96441231, "grad_norm": 0.70221519, "learning_rate": 8.911e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243626, "epoch": 1.07058465, "global_step/max_steps": "14045/65595", "percentage": "21.41%", "elapsed_time": "16h 0m 47s", "remaining_time": "2d 10h 46m 26s"}
+{"loss": 0.19588857, "token_acc": 0.93064423, "grad_norm": 0.96276325, "learning_rate": 8.91e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24365, "epoch": 1.07096577, "global_step/max_steps": "14050/65595", "percentage": "21.42%", "elapsed_time": "16h 1m 2s", "remaining_time": "2d 10h 45m 45s"}
+{"loss": 0.11999053, "token_acc": 0.95035139, "grad_norm": 0.97017282, "learning_rate": 8.909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243674, "epoch": 1.0713469, "global_step/max_steps": "14055/65595", "percentage": "21.43%", "elapsed_time": "16h 1m 17s", "remaining_time": "2d 10h 45m 4s"}
+{"loss": 0.11081262, "token_acc": 0.95808203, "grad_norm": 0.46703759, "learning_rate": 8.909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243685, "epoch": 1.07172803, "global_step/max_steps": "14060/65595", "percentage": "21.43%", "elapsed_time": "16h 1m 35s", "remaining_time": "2d 10h 44m 33s"}
+{"loss": 0.11033324, "token_acc": 0.95925721, "grad_norm": 0.80733144, "learning_rate": 8.908e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243709, "epoch": 1.07210915, "global_step/max_steps": "14065/65595", "percentage": "21.44%", "elapsed_time": "16h 1m 50s", "remaining_time": "2d 10h 43m 52s"}
+{"loss": 0.13623741, "token_acc": 0.95295767, "grad_norm": 0.72557014, "learning_rate": 8.907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243716, "epoch": 1.07249028, "global_step/max_steps": "14070/65595", "percentage": "21.45%", "elapsed_time": "16h 2m 8s", "remaining_time": "2d 10h 43m 25s"}
+{"loss": 0.13491211, "token_acc": 0.93301812, "grad_norm": 1.10959768, "learning_rate": 8.906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243744, "epoch": 1.07287141, "global_step/max_steps": "14075/65595", "percentage": "21.46%", "elapsed_time": "16h 2m 22s", "remaining_time": "2d 10h 42m 41s"}
+{"loss": 0.14500494, "token_acc": 0.94423884, "grad_norm": 1.7091161, "learning_rate": 8.906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24377, "epoch": 1.07325253, "global_step/max_steps": "14080/65595", "percentage": "21.47%", "elapsed_time": "16h 2m 37s", "remaining_time": "2d 10h 41m 57s"}
+{"loss": 0.12184612, "token_acc": 0.95598618, "grad_norm": 1.32287896, "learning_rate": 8.905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243784, "epoch": 1.07363366, "global_step/max_steps": "14085/65595", "percentage": "21.47%", "elapsed_time": "16h 2m 54s", "remaining_time": "2d 10h 41m 25s"}
+{"loss": 0.14568944, "token_acc": 0.94722598, "grad_norm": 0.98564458, "learning_rate": 8.904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243802, "epoch": 1.07401479, "global_step/max_steps": "14090/65595", "percentage": "21.48%", "elapsed_time": "16h 3m 10s", "remaining_time": "2d 10h 40m 48s"}
+{"loss": 0.08975246, "token_acc": 0.96291652, "grad_norm": 0.36612967, "learning_rate": 8.903e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243828, "epoch": 1.07439591, "global_step/max_steps": "14095/65595", "percentage": "21.49%", "elapsed_time": "16h 3m 25s", "remaining_time": "2d 10h 40m 6s"}
+{"loss": 0.13899684, "token_acc": 0.94892568, "grad_norm": 0.82298887, "learning_rate": 8.903e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243858, "epoch": 1.07477704, "global_step/max_steps": "14100/65595", "percentage": "21.50%", "elapsed_time": "16h 3m 38s", "remaining_time": "2d 10h 39m 19s"}
+{"loss": 0.08099815, "token_acc": 0.97305683, "grad_norm": 0.5527826, "learning_rate": 8.902e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243871, "epoch": 1.07515817, "global_step/max_steps": "14105/65595", "percentage": "21.50%", "elapsed_time": "16h 3m 55s", "remaining_time": "2d 10h 38m 47s"}
+{"loss": 0.14886187, "token_acc": 0.93409379, "grad_norm": 1.26507235, "learning_rate": 8.901e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243881, "epoch": 1.07553929, "global_step/max_steps": "14110/65595", "percentage": "21.51%", "elapsed_time": "16h 4m 13s", "remaining_time": "2d 10h 38m 19s"}
+{"loss": 0.175564, "token_acc": 0.93837929, "grad_norm": 1.13890767, "learning_rate": 8.9e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243906, "epoch": 1.07592042, "global_step/max_steps": "14115/65595", "percentage": "21.52%", "elapsed_time": "16h 4m 28s", "remaining_time": "2d 10h 37m 37s"}
+{"loss": 0.16824106, "token_acc": 0.93403694, "grad_norm": 1.58753884, "learning_rate": 8.9e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243917, "epoch": 1.07630155, "global_step/max_steps": "14120/65595", "percentage": "21.53%", "elapsed_time": "16h 4m 46s", "remaining_time": "2d 10h 37m 6s"}
+{"loss": 0.12246976, "token_acc": 0.94053837, "grad_norm": 1.04287291, "learning_rate": 8.899e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243947, "epoch": 1.07668267, "global_step/max_steps": "14125/65595", "percentage": "21.53%", "elapsed_time": "16h 4m 59s", "remaining_time": "2d 10h 36m 20s"}
+{"loss": 0.10996633, "token_acc": 0.95167526, "grad_norm": 1.00092196, "learning_rate": 8.898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243972, "epoch": 1.0770638, "global_step/max_steps": "14130/65595", "percentage": "21.54%", "elapsed_time": "16h 5m 14s", "remaining_time": "2d 10h 35m 38s"}
+{"loss": 0.12390153, "token_acc": 0.94825581, "grad_norm": 1.36948597, "learning_rate": 8.897e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243989, "epoch": 1.07744493, "global_step/max_steps": "14135/65595", "percentage": "21.55%", "elapsed_time": "16h 5m 30s", "remaining_time": "2d 10h 35m 3s"}
+{"loss": 0.13058323, "token_acc": 0.95253895, "grad_norm": 1.50922561, "learning_rate": 8.897e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244004, "epoch": 1.07782605, "global_step/max_steps": "14140/65595", "percentage": "21.56%", "elapsed_time": "16h 5m 47s", "remaining_time": "2d 10h 34m 29s"}
+{"loss": 0.10018735, "token_acc": 0.95242411, "grad_norm": 0.69847208, "learning_rate": 8.896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244016, "epoch": 1.07820718, "global_step/max_steps": "14145/65595", "percentage": "21.56%", "elapsed_time": "16h 6m 5s", "remaining_time": "2d 10h 33m 58s"}
+{"loss": 0.10984331, "token_acc": 0.95645735, "grad_norm": 0.47876617, "learning_rate": 8.895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244041, "epoch": 1.07858831, "global_step/max_steps": "14150/65595", "percentage": "21.57%", "elapsed_time": "16h 6m 19s", "remaining_time": "2d 10h 33m 16s"}
+{"loss": 0.17121742, "token_acc": 0.93404335, "grad_norm": 1.05103314, "learning_rate": 8.894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244065, "epoch": 1.07896943, "global_step/max_steps": "14155/65595", "percentage": "21.58%", "elapsed_time": "16h 6m 34s", "remaining_time": "2d 10h 32m 35s"}
+{"loss": 0.11933771, "token_acc": 0.95528102, "grad_norm": 0.69810802, "learning_rate": 8.894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244081, "epoch": 1.07935056, "global_step/max_steps": "14160/65595", "percentage": "21.59%", "elapsed_time": "16h 6m 51s", "remaining_time": "2d 10h 32m 1s"}
+{"loss": 0.08192515, "token_acc": 0.9652359, "grad_norm": 1.40209877, "learning_rate": 8.893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244098, "epoch": 1.07973169, "global_step/max_steps": "14165/65595", "percentage": "21.59%", "elapsed_time": "16h 7m 7s", "remaining_time": "2d 10h 31m 26s"}
+{"loss": 0.10373154, "token_acc": 0.95568912, "grad_norm": 0.56127906, "learning_rate": 8.892e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244103, "epoch": 1.08011281, "global_step/max_steps": "14170/65595", "percentage": "21.60%", "elapsed_time": "16h 7m 27s", "remaining_time": "2d 10h 31m 1s"}
+{"loss": 0.14267386, "token_acc": 0.94385027, "grad_norm": 1.05011952, "learning_rate": 8.891e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244127, "epoch": 1.08049394, "global_step/max_steps": "14175/65595", "percentage": "21.61%", "elapsed_time": "16h 7m 41s", "remaining_time": "2d 10h 30m 19s"}
+{"loss": 0.1427524, "token_acc": 0.94446553, "grad_norm": 0.93444407, "learning_rate": 8.891e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24413, "epoch": 1.08087507, "global_step/max_steps": "14180/65595", "percentage": "21.62%", "elapsed_time": "16h 8m 1s", "remaining_time": "2d 10h 29m 56s"}
+{"loss": 0.12619506, "token_acc": 0.94177911, "grad_norm": 1.28867233, "learning_rate": 8.89e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244155, "epoch": 1.08125619, "global_step/max_steps": "14185/65595", "percentage": "21.63%", "elapsed_time": "16h 8m 16s", "remaining_time": "2d 10h 29m 15s"}
+{"loss": 0.16930033, "token_acc": 0.93697372, "grad_norm": 0.86452562, "learning_rate": 8.889e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244162, "epoch": 1.08163732, "global_step/max_steps": "14190/65595", "percentage": "21.63%", "elapsed_time": "16h 8m 35s", "remaining_time": "2d 10h 28m 48s"}
+{"loss": 0.14395092, "token_acc": 0.94468811, "grad_norm": 0.65460259, "learning_rate": 8.888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244181, "epoch": 1.08201845, "global_step/max_steps": "14195/65595", "percentage": "21.64%", "elapsed_time": "16h 8m 50s", "remaining_time": "2d 10h 28m 11s"}
+{"loss": 0.20056264, "token_acc": 0.93854352, "grad_norm": 0.66426218, "learning_rate": 8.888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244183, "epoch": 1.08239957, "global_step/max_steps": "14200/65595", "percentage": "21.65%", "elapsed_time": "16h 9m 10s", "remaining_time": "2d 10h 27m 49s"}
+{"eval_loss": 0.11249065, "eval_token_acc": 0.9476387, "eval_runtime": 161.3497, "eval_samples_per_second": 3.285, "eval_steps_per_second": 3.285, "epoch": 1.08239957, "global_step/max_steps": "14200/65595", "percentage": "21.65%", "elapsed_time": "16h 11m 52s", "remaining_time": "2d 10h 37m 33s"}
+{"loss": 0.14480102, "token_acc": 0.94738281, "grad_norm": 0.83245987, "learning_rate": 8.887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243537, "epoch": 1.0827807, "global_step/max_steps": "14205/65595", "percentage": "21.66%", "elapsed_time": "16h 12m 5s", "remaining_time": "2d 10h 36m 47s"}
+{"loss": 0.14870902, "token_acc": 0.94687972, "grad_norm": 0.85738093, "learning_rate": 8.886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243561, "epoch": 1.08316183, "global_step/max_steps": "14210/65595", "percentage": "21.66%", "elapsed_time": "16h 12m 20s", "remaining_time": "2d 10h 36m 6s"}
+{"loss": 0.14986436, "token_acc": 0.94587545, "grad_norm": 0.92498904, "learning_rate": 8.885e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243586, "epoch": 1.08354295, "global_step/max_steps": "14215/65595", "percentage": "21.67%", "elapsed_time": "16h 12m 34s", "remaining_time": "2d 10h 35m 23s"}
+{"loss": 0.12732201, "token_acc": 0.94991756, "grad_norm": 1.37664735, "learning_rate": 8.885e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243608, "epoch": 1.08392408, "global_step/max_steps": "14220/65595", "percentage": "21.68%", "elapsed_time": "16h 12m 50s", "remaining_time": "2d 10h 34m 44s"}
+{"loss": 0.19117594, "token_acc": 0.93139511, "grad_norm": 1.39871001, "learning_rate": 8.884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243631, "epoch": 1.08430521, "global_step/max_steps": "14225/65595", "percentage": "21.69%", "elapsed_time": "16h 13m 5s", "remaining_time": "2d 10h 34m 3s"}
+{"loss": 0.16268827, "token_acc": 0.94686985, "grad_norm": 1.1975528, "learning_rate": 8.883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24365, "epoch": 1.08468633, "global_step/max_steps": "14230/65595", "percentage": "21.69%", "elapsed_time": "16h 13m 21s", "remaining_time": "2d 10h 33m 26s"}
+{"loss": 0.06861157, "token_acc": 0.95839452, "grad_norm": 0.93376577, "learning_rate": 8.882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243682, "epoch": 1.08506746, "global_step/max_steps": "14235/65595", "percentage": "21.70%", "elapsed_time": "16h 13m 34s", "remaining_time": "2d 10h 32m 38s"}
+{"loss": 0.12826788, "token_acc": 0.95143125, "grad_norm": 0.85790378, "learning_rate": 8.882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243704, "epoch": 1.08544859, "global_step/max_steps": "14240/65595", "percentage": "21.71%", "elapsed_time": "16h 13m 49s", "remaining_time": "2d 10h 31m 59s"}
+{"loss": 0.14227854, "token_acc": 0.94693252, "grad_norm": 0.79882151, "learning_rate": 8.881e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243729, "epoch": 1.08582971, "global_step/max_steps": "14245/65595", "percentage": "21.72%", "elapsed_time": "16h 14m 3s", "remaining_time": "2d 10h 31m 16s"}
+{"loss": 0.15314873, "token_acc": 0.95399142, "grad_norm": 0.86088556, "learning_rate": 8.88e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243748, "epoch": 1.08621084, "global_step/max_steps": "14250/65595", "percentage": "21.72%", "elapsed_time": "16h 14m 19s", "remaining_time": "2d 10h 30m 40s"}
+{"loss": 0.15466945, "token_acc": 0.94598505, "grad_norm": 1.29685748, "learning_rate": 8.879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243771, "epoch": 1.08659197, "global_step/max_steps": "14255/65595", "percentage": "21.73%", "elapsed_time": "16h 14m 34s", "remaining_time": "2d 10h 29m 59s"}
+{"loss": 0.12981813, "token_acc": 0.95574498, "grad_norm": 1.24712074, "learning_rate": 8.879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243779, "epoch": 1.08697309, "global_step/max_steps": "14260/65595", "percentage": "21.74%", "elapsed_time": "16h 14m 53s", "remaining_time": "2d 10h 29m 32s"}
+{"loss": 0.11611336, "token_acc": 0.95793413, "grad_norm": 0.81432623, "learning_rate": 8.878e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243791, "epoch": 1.08735422, "global_step/max_steps": "14265/65595", "percentage": "21.75%", "elapsed_time": "16h 15m 10s", "remaining_time": "2d 10h 29m 0s"}
+{"loss": 0.12645556, "token_acc": 0.94018439, "grad_norm": 0.71025079, "learning_rate": 8.877e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243817, "epoch": 1.08773535, "global_step/max_steps": "14270/65595", "percentage": "21.75%", "elapsed_time": "16h 15m 25s", "remaining_time": "2d 10h 28m 18s"}
+{"loss": 0.11931932, "token_acc": 0.95748839, "grad_norm": 0.75467116, "learning_rate": 8.876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243845, "epoch": 1.08811647, "global_step/max_steps": "14275/65595", "percentage": "21.76%", "elapsed_time": "16h 15m 39s", "remaining_time": "2d 10h 27m 33s"}
+{"loss": 0.1010199, "token_acc": 0.95836735, "grad_norm": 0.97978377, "learning_rate": 8.875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243873, "epoch": 1.0884976, "global_step/max_steps": "14280/65595", "percentage": "21.77%", "elapsed_time": "16h 15m 52s", "remaining_time": "2d 10h 26m 48s"}
+{"loss": 0.11701342, "token_acc": 0.96036147, "grad_norm": 1.04575992, "learning_rate": 8.875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243896, "epoch": 1.08887873, "global_step/max_steps": "14285/65595", "percentage": "21.78%", "elapsed_time": "16h 16m 7s", "remaining_time": "2d 10h 26m 8s"}
+{"loss": 0.11453989, "token_acc": 0.94971591, "grad_norm": 0.93283796, "learning_rate": 8.874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243904, "epoch": 1.08925985, "global_step/max_steps": "14290/65595", "percentage": "21.79%", "elapsed_time": "16h 16m 26s", "remaining_time": "2d 10h 25m 41s"}
+{"loss": 0.17462208, "token_acc": 0.93869499, "grad_norm": 1.54621053, "learning_rate": 8.873e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243932, "epoch": 1.08964098, "global_step/max_steps": "14295/65595", "percentage": "21.79%", "elapsed_time": "16h 16m 40s", "remaining_time": "2d 10h 24m 56s"}
+{"loss": 0.15134213, "token_acc": 0.94323557, "grad_norm": 0.73391759, "learning_rate": 8.872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243952, "epoch": 1.09002211, "global_step/max_steps": "14300/65595", "percentage": "21.80%", "elapsed_time": "16h 16m 55s", "remaining_time": "2d 10h 24m 19s"}
+{"loss": 0.17620113, "token_acc": 0.93153678, "grad_norm": 1.38280988, "learning_rate": 8.872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243974, "epoch": 1.09040323, "global_step/max_steps": "14305/65595", "percentage": "21.81%", "elapsed_time": "16h 17m 11s", "remaining_time": "2d 10h 23m 39s"}
+{"loss": 0.12643037, "token_acc": 0.94705532, "grad_norm": 0.98784482, "learning_rate": 8.871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243985, "epoch": 1.09078436, "global_step/max_steps": "14310/65595", "percentage": "21.82%", "elapsed_time": "16h 17m 28s", "remaining_time": "2d 10h 23m 9s"}
+{"loss": 0.13811444, "token_acc": 0.95052137, "grad_norm": 1.2611618, "learning_rate": 8.87e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24401, "epoch": 1.09116549, "global_step/max_steps": "14315/65595", "percentage": "21.82%", "elapsed_time": "16h 17m 43s", "remaining_time": "2d 10h 22m 27s"}
+{"loss": 0.14708765, "token_acc": 0.95184349, "grad_norm": 0.43517968, "learning_rate": 8.869e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244032, "epoch": 1.09154661, "global_step/max_steps": "14320/65595", "percentage": "21.83%", "elapsed_time": "16h 17m 58s", "remaining_time": "2d 10h 21m 47s"}
+{"loss": 0.14730892, "token_acc": 0.94920154, "grad_norm": 1.02009702, "learning_rate": 8.869e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244038, "epoch": 1.09192774, "global_step/max_steps": "14325/65595", "percentage": "21.84%", "elapsed_time": "16h 18m 17s", "remaining_time": "2d 10h 21m 22s"}
+{"loss": 0.13442734, "token_acc": 0.9462404, "grad_norm": 0.91213417, "learning_rate": 8.868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244054, "epoch": 1.09230887, "global_step/max_steps": "14330/65595", "percentage": "21.85%", "elapsed_time": "16h 18m 34s", "remaining_time": "2d 10h 20m 47s"}
+{"loss": 0.12837203, "token_acc": 0.95764239, "grad_norm": 0.83465987, "learning_rate": 8.867e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244071, "epoch": 1.09268999, "global_step/max_steps": "14335/65595", "percentage": "21.85%", "elapsed_time": "16h 18m 50s", "remaining_time": "2d 10h 20m 12s"}
+{"loss": 0.11385934, "token_acc": 0.9402852, "grad_norm": 0.6503126, "learning_rate": 8.866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2441, "epoch": 1.09307112, "global_step/max_steps": "14340/65595", "percentage": "21.86%", "elapsed_time": "16h 19m 4s", "remaining_time": "2d 10h 19m 27s"}
+{"loss": 0.13434341, "token_acc": 0.95930025, "grad_norm": 0.17235407, "learning_rate": 8.866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244129, "epoch": 1.09345224, "global_step/max_steps": "14345/65595", "percentage": "21.87%", "elapsed_time": "16h 19m 17s", "remaining_time": "2d 10h 18m 41s"}
+{"loss": 0.15625798, "token_acc": 0.92675921, "grad_norm": 0.35588545, "learning_rate": 8.865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244163, "epoch": 1.09383337, "global_step/max_steps": "14350/65595", "percentage": "21.88%", "elapsed_time": "16h 19m 29s", "remaining_time": "2d 10h 17m 52s"}
+{"loss": 0.15003788, "token_acc": 0.92926637, "grad_norm": 0.82309926, "learning_rate": 8.864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244192, "epoch": 1.0942145, "global_step/max_steps": "14355/65595", "percentage": "21.88%", "elapsed_time": "16h 19m 43s", "remaining_time": "2d 10h 17m 6s"}
+{"loss": 0.13766525, "token_acc": 0.95240893, "grad_norm": 0.28865662, "learning_rate": 8.863e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244222, "epoch": 1.09459562, "global_step/max_steps": "14360/65595", "percentage": "21.89%", "elapsed_time": "16h 19m 56s", "remaining_time": "2d 10h 16m 20s"}
+{"loss": 0.11312516, "token_acc": 0.95001572, "grad_norm": 1.32685506, "learning_rate": 8.863e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244251, "epoch": 1.09497675, "global_step/max_steps": "14365/65595", "percentage": "21.90%", "elapsed_time": "16h 20m 10s", "remaining_time": "2d 10h 15m 35s"}
+{"loss": 0.12927932, "token_acc": 0.94871795, "grad_norm": 1.29462731, "learning_rate": 8.862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244269, "epoch": 1.09535788, "global_step/max_steps": "14370/65595", "percentage": "21.91%", "elapsed_time": "16h 20m 26s", "remaining_time": "2d 10h 14m 59s"}
+{"loss": 0.12208488, "token_acc": 0.94765292, "grad_norm": 1.9984566, "learning_rate": 8.861e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244291, "epoch": 1.095739, "global_step/max_steps": "14375/65595", "percentage": "21.91%", "elapsed_time": "16h 20m 41s", "remaining_time": "2d 10h 14m 19s"}
+{"loss": 0.13554133, "token_acc": 0.94639293, "grad_norm": 1.55765283, "learning_rate": 8.86e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24432, "epoch": 1.09612013, "global_step/max_steps": "14380/65595", "percentage": "21.92%", "elapsed_time": "16h 20m 55s", "remaining_time": "2d 10h 13m 34s"}
+{"loss": 0.1190653, "token_acc": 0.94950864, "grad_norm": 0.84681648, "learning_rate": 8.86e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244339, "epoch": 1.09650126, "global_step/max_steps": "14385/65595", "percentage": "21.93%", "elapsed_time": "16h 21m 10s", "remaining_time": "2d 10h 12m 57s"}
+{"loss": 0.15391226, "token_acc": 0.93818243, "grad_norm": 1.14790285, "learning_rate": 8.859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244358, "epoch": 1.09688238, "global_step/max_steps": "14390/65595", "percentage": "21.94%", "elapsed_time": "16h 21m 26s", "remaining_time": "2d 10h 12m 21s"}
+{"loss": 0.09148204, "token_acc": 0.95959032, "grad_norm": 0.31084245, "learning_rate": 8.858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244374, "epoch": 1.09726351, "global_step/max_steps": "14395/65595", "percentage": "21.95%", "elapsed_time": "16h 21m 43s", "remaining_time": "2d 10h 11m 47s"}
+{"loss": 0.1814399, "token_acc": 0.9332305, "grad_norm": 1.38605177, "learning_rate": 8.857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244395, "epoch": 1.09764464, "global_step/max_steps": "14400/65595", "percentage": "21.95%", "elapsed_time": "16h 21m 58s", "remaining_time": "2d 10h 11m 8s"}
+{"eval_loss": 0.11170077, "eval_token_acc": 0.94858743, "eval_runtime": 159.4039, "eval_samples_per_second": 3.325, "eval_steps_per_second": 3.325, "epoch": 1.09764464, "global_step/max_steps": "14400/65595", "percentage": "21.95%", "elapsed_time": "16h 24m 38s", "remaining_time": "2d 10h 20m 34s"}
+{"loss": 0.11858257, "token_acc": 0.94858765, "grad_norm": 1.3578943, "learning_rate": 8.857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243764, "epoch": 1.09802576, "global_step/max_steps": "14405/65595", "percentage": "21.96%", "elapsed_time": "16h 24m 51s", "remaining_time": "2d 10h 19m 50s"}
+{"loss": 0.14838911, "token_acc": 0.9460501, "grad_norm": 1.1676935, "learning_rate": 8.856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243778, "epoch": 1.09840689, "global_step/max_steps": "14410/65595", "percentage": "21.97%", "elapsed_time": "16h 25m 8s", "remaining_time": "2d 10h 19m 17s"}
+{"loss": 0.15635422, "token_acc": 0.94486094, "grad_norm": 1.56181216, "learning_rate": 8.855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243802, "epoch": 1.09878802, "global_step/max_steps": "14415/65595", "percentage": "21.98%", "elapsed_time": "16h 25m 23s", "remaining_time": "2d 10h 18m 36s"}
+{"loss": 0.19608779, "token_acc": 0.93797893, "grad_norm": 0.95558935, "learning_rate": 8.854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243828, "epoch": 1.09916914, "global_step/max_steps": "14420/65595", "percentage": "21.98%", "elapsed_time": "16h 25m 37s", "remaining_time": "2d 10h 17m 53s"}
+{"loss": 0.14514102, "token_acc": 0.94102179, "grad_norm": 0.66264886, "learning_rate": 8.853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243851, "epoch": 1.09955027, "global_step/max_steps": "14425/65595", "percentage": "21.99%", "elapsed_time": "16h 25m 52s", "remaining_time": "2d 10h 17m 13s"}
+{"loss": 0.09144092, "token_acc": 0.96214789, "grad_norm": 1.84613526, "learning_rate": 8.853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243883, "epoch": 1.0999314, "global_step/max_steps": "14430/65595", "percentage": "22.00%", "elapsed_time": "16h 26m 5s", "remaining_time": "2d 10h 16m 24s"}
+{"loss": 0.16422632, "token_acc": 0.93757939, "grad_norm": 1.08590412, "learning_rate": 8.852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243903, "epoch": 1.10031252, "global_step/max_steps": "14435/65595", "percentage": "22.01%", "elapsed_time": "16h 26m 21s", "remaining_time": "2d 10h 15m 47s"}
+{"loss": 0.16506019, "token_acc": 0.9379354, "grad_norm": 0.44659105, "learning_rate": 8.851e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243921, "epoch": 1.10069365, "global_step/max_steps": "14440/65595", "percentage": "22.01%", "elapsed_time": "16h 26m 37s", "remaining_time": "2d 10h 15m 11s"}
+{"loss": 0.16799304, "token_acc": 0.9427996, "grad_norm": 0.84279209, "learning_rate": 8.85e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24394, "epoch": 1.10107478, "global_step/max_steps": "14445/65595", "percentage": "22.02%", "elapsed_time": "16h 26m 53s", "remaining_time": "2d 10h 14m 34s"}
+{"loss": 0.11650709, "token_acc": 0.9457088, "grad_norm": 0.72718626, "learning_rate": 8.85e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24397, "epoch": 1.1014559, "global_step/max_steps": "14450/65595", "percentage": "22.03%", "elapsed_time": "16h 27m 6s", "remaining_time": "2d 10h 13m 48s"}
+{"loss": 0.15535417, "token_acc": 0.93460111, "grad_norm": 1.1876843, "learning_rate": 8.849e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243986, "epoch": 1.10183703, "global_step/max_steps": "14455/65595", "percentage": "22.04%", "elapsed_time": "16h 27m 22s", "remaining_time": "2d 10h 13m 13s"}
+{"loss": 0.15821362, "token_acc": 0.93632263, "grad_norm": 0.8193599, "learning_rate": 8.848e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244012, "epoch": 1.10221816, "global_step/max_steps": "14460/65595", "percentage": "22.04%", "elapsed_time": "16h 27m 37s", "remaining_time": "2d 10h 12m 31s"}
+{"loss": 0.14682831, "token_acc": 0.94271357, "grad_norm": 1.22866368, "learning_rate": 8.847e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244022, "epoch": 1.10259928, "global_step/max_steps": "14465/65595", "percentage": "22.05%", "elapsed_time": "16h 27m 55s", "remaining_time": "2d 10h 12m 2s"}
+{"loss": 0.13539214, "token_acc": 0.95268894, "grad_norm": 0.78046644, "learning_rate": 8.847e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244028, "epoch": 1.10298041, "global_step/max_steps": "14470/65595", "percentage": "22.06%", "elapsed_time": "16h 28m 14s", "remaining_time": "2d 10h 11m 36s"}
+{"loss": 0.11843812, "token_acc": 0.94212783, "grad_norm": 0.84370941, "learning_rate": 8.846e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244045, "epoch": 1.10336154, "global_step/max_steps": "14475/65595", "percentage": "22.07%", "elapsed_time": "16h 28m 30s", "remaining_time": "2d 10h 11m 1s"}
+{"loss": 0.16073298, "token_acc": 0.93988854, "grad_norm": 0.98555773, "learning_rate": 8.845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244073, "epoch": 1.10374266, "global_step/max_steps": "14480/65595", "percentage": "22.07%", "elapsed_time": "16h 28m 44s", "remaining_time": "2d 10h 10m 17s"}
+{"loss": 0.17864352, "token_acc": 0.94030852, "grad_norm": 1.77008176, "learning_rate": 8.844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244087, "epoch": 1.10412379, "global_step/max_steps": "14485/65595", "percentage": "22.08%", "elapsed_time": "16h 29m 1s", "remaining_time": "2d 10h 9m 44s"}
+{"loss": 0.15962973, "token_acc": 0.94123765, "grad_norm": 1.1716435, "learning_rate": 8.844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244112, "epoch": 1.10450492, "global_step/max_steps": "14490/65595", "percentage": "22.09%", "elapsed_time": "16h 29m 15s", "remaining_time": "2d 10h 9m 3s"}
+{"loss": 0.1189922, "token_acc": 0.94751706, "grad_norm": 1.17466307, "learning_rate": 8.843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244134, "epoch": 1.10488604, "global_step/max_steps": "14495/65595", "percentage": "22.10%", "elapsed_time": "16h 29m 30s", "remaining_time": "2d 10h 8m 23s"}
+{"loss": 0.10175942, "token_acc": 0.96269555, "grad_norm": 0.41472372, "learning_rate": 8.842e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244153, "epoch": 1.10526717, "global_step/max_steps": "14500/65595", "percentage": "22.11%", "elapsed_time": "16h 29m 46s", "remaining_time": "2d 10h 7m 46s"}
+{"loss": 0.16685281, "token_acc": 0.91749049, "grad_norm": 1.27780437, "learning_rate": 8.841e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244179, "epoch": 1.1056483, "global_step/max_steps": "14505/65595", "percentage": "22.11%", "elapsed_time": "16h 30m 0s", "remaining_time": "2d 10h 7m 4s"}
+{"loss": 0.1196635, "token_acc": 0.94212819, "grad_norm": 2.09559703, "learning_rate": 8.84e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244201, "epoch": 1.10602942, "global_step/max_steps": "14510/65595", "percentage": "22.12%", "elapsed_time": "16h 30m 15s", "remaining_time": "2d 10h 6m 24s"}
+{"loss": 0.14795015, "token_acc": 0.94548511, "grad_norm": 0.86625457, "learning_rate": 8.84e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24423, "epoch": 1.10641055, "global_step/max_steps": "14515/65595", "percentage": "22.13%", "elapsed_time": "16h 30m 29s", "remaining_time": "2d 10h 5m 38s"}
+{"loss": 0.10350685, "token_acc": 0.95628514, "grad_norm": 1.36160707, "learning_rate": 8.839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244248, "epoch": 1.10679168, "global_step/max_steps": "14520/65595", "percentage": "22.14%", "elapsed_time": "16h 30m 45s", "remaining_time": "2d 10h 5m 3s"}
+{"loss": 0.16952913, "token_acc": 0.93788084, "grad_norm": 1.02922738, "learning_rate": 8.838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244262, "epoch": 1.1071728, "global_step/max_steps": "14525/65595", "percentage": "22.14%", "elapsed_time": "16h 31m 2s", "remaining_time": "2d 10h 4m 30s"}
+{"loss": 0.10094172, "token_acc": 0.9537203, "grad_norm": 1.27252018, "learning_rate": 8.837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244271, "epoch": 1.10755393, "global_step/max_steps": "14530/65595", "percentage": "22.15%", "elapsed_time": "16h 31m 20s", "remaining_time": "2d 10h 4m 2s"}
+{"loss": 0.15456331, "token_acc": 0.92610332, "grad_norm": 0.46861401, "learning_rate": 8.837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244298, "epoch": 1.10793506, "global_step/max_steps": "14535/65595", "percentage": "22.16%", "elapsed_time": "16h 31m 34s", "remaining_time": "2d 10h 3m 18s"}
+{"loss": 0.12474924, "token_acc": 0.94823682, "grad_norm": 0.75197279, "learning_rate": 8.836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244325, "epoch": 1.10831618, "global_step/max_steps": "14540/65595", "percentage": "22.17%", "elapsed_time": "16h 31m 48s", "remaining_time": "2d 10h 2m 35s"}
+{"loss": 0.11268393, "token_acc": 0.95513886, "grad_norm": 0.718615, "learning_rate": 8.835e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244345, "epoch": 1.10869731, "global_step/max_steps": "14545/65595", "percentage": "22.17%", "elapsed_time": "16h 32m 4s", "remaining_time": "2d 10h 1m 57s"}
+{"loss": 0.0992243, "token_acc": 0.95627928, "grad_norm": 0.89309835, "learning_rate": 8.834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244369, "epoch": 1.10907844, "global_step/max_steps": "14550/65595", "percentage": "22.18%", "elapsed_time": "16h 32m 18s", "remaining_time": "2d 10h 1m 16s"}
+{"loss": 0.13515921, "token_acc": 0.95989233, "grad_norm": 1.49032462, "learning_rate": 8.834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244393, "epoch": 1.10945956, "global_step/max_steps": "14555/65595", "percentage": "22.19%", "elapsed_time": "16h 32m 33s", "remaining_time": "2d 10h 0m 36s"}
+{"loss": 0.11715937, "token_acc": 0.9502708, "grad_norm": 1.01140678, "learning_rate": 8.833e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244416, "epoch": 1.10984069, "global_step/max_steps": "14560/65595", "percentage": "22.20%", "elapsed_time": "16h 32m 48s", "remaining_time": "2d 9h 59m 56s"}
+{"loss": 0.15945317, "token_acc": 0.95194618, "grad_norm": 0.70814866, "learning_rate": 8.832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244424, "epoch": 1.11022182, "global_step/max_steps": "14565/65595", "percentage": "22.20%", "elapsed_time": "16h 33m 6s", "remaining_time": "2d 9h 59m 28s"}
+{"loss": 0.11560359, "token_acc": 0.95643364, "grad_norm": 0.76655591, "learning_rate": 8.831e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244446, "epoch": 1.11060294, "global_step/max_steps": "14570/65595", "percentage": "22.21%", "elapsed_time": "16h 33m 21s", "remaining_time": "2d 9h 58m 49s"}
+{"loss": 0.12432988, "token_acc": 0.95492662, "grad_norm": 0.78435642, "learning_rate": 8.83e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244469, "epoch": 1.11098407, "global_step/max_steps": "14575/65595", "percentage": "22.22%", "elapsed_time": "16h 33m 36s", "remaining_time": "2d 9h 58m 9s"}
+{"loss": 0.13628879, "token_acc": 0.93790256, "grad_norm": 0.91824138, "learning_rate": 8.83e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244489, "epoch": 1.1113652, "global_step/max_steps": "14580/65595", "percentage": "22.23%", "elapsed_time": "16h 33m 52s", "remaining_time": "2d 9h 57m 31s"}
+{"loss": 0.16028663, "token_acc": 0.94899461, "grad_norm": 1.12397575, "learning_rate": 8.829e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24451, "epoch": 1.11174632, "global_step/max_steps": "14585/65595", "percentage": "22.23%", "elapsed_time": "16h 34m 7s", "remaining_time": "2d 9h 56m 53s"}
+{"loss": 0.14382741, "token_acc": 0.94370801, "grad_norm": 1.49845409, "learning_rate": 8.828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244531, "epoch": 1.11212745, "global_step/max_steps": "14590/65595", "percentage": "22.24%", "elapsed_time": "16h 34m 23s", "remaining_time": "2d 9h 56m 15s"}
+{"loss": 0.10743606, "token_acc": 0.95076622, "grad_norm": 0.53577203, "learning_rate": 8.827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244554, "epoch": 1.11250858, "global_step/max_steps": "14595/65595", "percentage": "22.25%", "elapsed_time": "16h 34m 37s", "remaining_time": "2d 9h 55m 35s"}
+{"loss": 0.1286497, "token_acc": 0.95622805, "grad_norm": 1.03827882, "learning_rate": 8.827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244561, "epoch": 1.1128897, "global_step/max_steps": "14600/65595", "percentage": "22.26%", "elapsed_time": "16h 34m 56s", "remaining_time": "2d 9h 55m 8s"}
+{"eval_loss": 0.11288681, "eval_token_acc": 0.94748057, "eval_runtime": 160.3547, "eval_samples_per_second": 3.305, "eval_steps_per_second": 3.305, "epoch": 1.1128897, "global_step/max_steps": "14600/65595", "percentage": "22.26%", "elapsed_time": "16h 37m 36s", "remaining_time": "2d 10h 4m 28s"}
+{"loss": 0.14933368, "token_acc": 0.94732716, "grad_norm": 1.51071751, "learning_rate": 8.826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24391, "epoch": 1.11327083, "global_step/max_steps": "14605/65595", "percentage": "22.27%", "elapsed_time": "16h 37m 56s", "remaining_time": "2d 10h 4m 4s"}
+{"loss": 0.17118076, "token_acc": 0.93905412, "grad_norm": 1.61601424, "learning_rate": 8.825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243933, "epoch": 1.11365196, "global_step/max_steps": "14610/65595", "percentage": "22.27%", "elapsed_time": "16h 38m 11s", "remaining_time": "2d 10h 3m 24s"}
+{"loss": 0.10271906, "token_acc": 0.95539033, "grad_norm": 0.52978188, "learning_rate": 8.824e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243954, "epoch": 1.11403308, "global_step/max_steps": "14615/65595", "percentage": "22.28%", "elapsed_time": "16h 38m 26s", "remaining_time": "2d 10h 2m 45s"}
+{"loss": 0.13967974, "token_acc": 0.93899485, "grad_norm": 1.4766556, "learning_rate": 8.824e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243975, "epoch": 1.11441421, "global_step/max_steps": "14620/65595", "percentage": "22.29%", "elapsed_time": "16h 38m 41s", "remaining_time": "2d 10h 2m 7s"}
+{"loss": 0.15079367, "token_acc": 0.94846678, "grad_norm": 0.77763063, "learning_rate": 8.823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243993, "epoch": 1.11479534, "global_step/max_steps": "14625/65595", "percentage": "22.30%", "elapsed_time": "16h 38m 58s", "remaining_time": "2d 10h 1m 31s"}
+{"loss": 0.11755968, "token_acc": 0.9454516, "grad_norm": 0.00466692, "learning_rate": 8.822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24401, "epoch": 1.11517646, "global_step/max_steps": "14630/65595", "percentage": "22.30%", "elapsed_time": "16h 39m 14s", "remaining_time": "2d 10h 0m 56s"}
+{"loss": 0.12462645, "token_acc": 0.95198929, "grad_norm": 0.98600054, "learning_rate": 8.821e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244031, "epoch": 1.11555759, "global_step/max_steps": "14635/65595", "percentage": "22.31%", "elapsed_time": "16h 39m 29s", "remaining_time": "2d 10h 0m 18s"}
+{"loss": 0.09451914, "token_acc": 0.96623094, "grad_norm": 0.41929677, "learning_rate": 8.82e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244035, "epoch": 1.11593871, "global_step/max_steps": "14640/65595", "percentage": "22.32%", "elapsed_time": "16h 39m 49s", "remaining_time": "2d 9h 59m 54s"}
+{"loss": 0.15708003, "token_acc": 0.92075472, "grad_norm": 1.13634038, "learning_rate": 8.82e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244067, "epoch": 1.11631984, "global_step/max_steps": "14645/65595", "percentage": "22.33%", "elapsed_time": "16h 40m 1s", "remaining_time": "2d 9h 59m 6s"}
+{"loss": 0.16134675, "token_acc": 0.94477435, "grad_norm": 2.0429709, "learning_rate": 8.819e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244085, "epoch": 1.11670097, "global_step/max_steps": "14650/65595", "percentage": "22.33%", "elapsed_time": "16h 40m 17s", "remaining_time": "2d 9h 58m 30s"}
+{"loss": 0.1908623, "token_acc": 0.92124915, "grad_norm": 0.91418505, "learning_rate": 8.818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24411, "epoch": 1.11708209, "global_step/max_steps": "14655/65595", "percentage": "22.34%", "elapsed_time": "16h 40m 32s", "remaining_time": "2d 9h 57m 48s"}
+{"loss": 0.13876716, "token_acc": 0.94210931, "grad_norm": 0.65764111, "learning_rate": 8.817e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244127, "epoch": 1.11746322, "global_step/max_steps": "14660/65595", "percentage": "22.35%", "elapsed_time": "16h 40m 48s", "remaining_time": "2d 9h 57m 13s"}
+{"loss": 0.15596478, "token_acc": 0.93815295, "grad_norm": 1.13442683, "learning_rate": 8.817e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244149, "epoch": 1.11784435, "global_step/max_steps": "14665/65595", "percentage": "22.36%", "elapsed_time": "16h 41m 3s", "remaining_time": "2d 9h 56m 34s"}
+{"loss": 0.1437971, "token_acc": 0.93906696, "grad_norm": 0.90371221, "learning_rate": 8.816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244175, "epoch": 1.11822547, "global_step/max_steps": "14670/65595", "percentage": "22.36%", "elapsed_time": "16h 41m 17s", "remaining_time": "2d 9h 55m 51s"}
+{"loss": 0.1492433, "token_acc": 0.93497305, "grad_norm": 0.70301086, "learning_rate": 8.815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244201, "epoch": 1.1186066, "global_step/max_steps": "14675/65595", "percentage": "22.37%", "elapsed_time": "16h 41m 31s", "remaining_time": "2d 9h 55m 8s"}
+{"loss": 0.10723374, "token_acc": 0.9609246, "grad_norm": 0.69890666, "learning_rate": 8.814e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244235, "epoch": 1.11898773, "global_step/max_steps": "14680/65595", "percentage": "22.38%", "elapsed_time": "16h 41m 43s", "remaining_time": "2d 9h 54m 19s"}
+{"loss": 0.14099398, "token_acc": 0.94665137, "grad_norm": 0.64979154, "learning_rate": 8.813e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244247, "epoch": 1.11936885, "global_step/max_steps": "14685/65595", "percentage": "22.39%", "elapsed_time": "16h 42m 1s", "remaining_time": "2d 9h 53m 49s"}
+{"loss": 0.10079099, "token_acc": 0.95805107, "grad_norm": 0.12249028, "learning_rate": 8.813e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244268, "epoch": 1.11974998, "global_step/max_steps": "14690/65595", "percentage": "22.39%", "elapsed_time": "16h 42m 16s", "remaining_time": "2d 9h 53m 10s"}
+{"loss": 0.1308163, "token_acc": 0.94346568, "grad_norm": 1.09139585, "learning_rate": 8.812e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244295, "epoch": 1.12013111, "global_step/max_steps": "14695/65595", "percentage": "22.40%", "elapsed_time": "16h 42m 30s", "remaining_time": "2d 9h 52m 27s"}
+{"loss": 0.11786898, "token_acc": 0.93688268, "grad_norm": 0.18087824, "learning_rate": 8.811e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244316, "epoch": 1.12051223, "global_step/max_steps": "14700/65595", "percentage": "22.41%", "elapsed_time": "16h 42m 45s", "remaining_time": "2d 9h 51m 48s"}
+{"loss": 0.10318767, "token_acc": 0.95070968, "grad_norm": 0.79657334, "learning_rate": 8.81e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24434, "epoch": 1.12089336, "global_step/max_steps": "14705/65595", "percentage": "22.42%", "elapsed_time": "16h 43m 0s", "remaining_time": "2d 9h 51m 7s"}
+{"loss": 0.15136799, "token_acc": 0.93111546, "grad_norm": 3.64990997, "learning_rate": 8.81e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244369, "epoch": 1.12127449, "global_step/max_steps": "14710/65595", "percentage": "22.43%", "elapsed_time": "16h 43m 13s", "remaining_time": "2d 9h 50m 22s"}
+{"loss": 0.13056004, "token_acc": 0.94788141, "grad_norm": 1.21609449, "learning_rate": 8.809e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244376, "epoch": 1.12165561, "global_step/max_steps": "14715/65595", "percentage": "22.43%", "elapsed_time": "16h 43m 32s", "remaining_time": "2d 9h 49m 55s"}
+{"loss": 0.13374571, "token_acc": 0.94744122, "grad_norm": 0.82003653, "learning_rate": 8.808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244388, "epoch": 1.12203674, "global_step/max_steps": "14720/65595", "percentage": "22.44%", "elapsed_time": "16h 43m 49s", "remaining_time": "2d 9h 49m 25s"}
+{"loss": 0.11512158, "token_acc": 0.95211492, "grad_norm": 0.78215694, "learning_rate": 8.807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244405, "epoch": 1.12241787, "global_step/max_steps": "14725/65595", "percentage": "22.45%", "elapsed_time": "16h 44m 6s", "remaining_time": "2d 9h 48m 50s"}
+{"loss": 0.15147821, "token_acc": 0.9409396, "grad_norm": 1.94923067, "learning_rate": 8.807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244424, "epoch": 1.12279899, "global_step/max_steps": "14730/65595", "percentage": "22.46%", "elapsed_time": "16h 44m 21s", "remaining_time": "2d 9h 48m 14s"}
+{"loss": 0.12038544, "token_acc": 0.95838471, "grad_norm": 1.10753322, "learning_rate": 8.806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244435, "epoch": 1.12318012, "global_step/max_steps": "14735/65595", "percentage": "22.46%", "elapsed_time": "16h 44m 39s", "remaining_time": "2d 9h 47m 43s"}
+{"loss": 0.21417253, "token_acc": 0.91381433, "grad_norm": 1.24515152, "learning_rate": 8.805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244458, "epoch": 1.12356125, "global_step/max_steps": "14740/65595", "percentage": "22.47%", "elapsed_time": "16h 44m 54s", "remaining_time": "2d 9h 47m 3s"}
+{"loss": 0.08756918, "token_acc": 0.96685998, "grad_norm": 0.62668496, "learning_rate": 8.804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244488, "epoch": 1.12394237, "global_step/max_steps": "14745/65595", "percentage": "22.48%", "elapsed_time": "16h 45m 7s", "remaining_time": "2d 9h 46m 18s"}
+{"loss": 0.1753692, "token_acc": 0.94577826, "grad_norm": 0.5966444, "learning_rate": 8.803e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244513, "epoch": 1.1243235, "global_step/max_steps": "14750/65595", "percentage": "22.49%", "elapsed_time": "16h 45m 21s", "remaining_time": "2d 9h 45m 36s"}
+{"loss": 0.08749452, "token_acc": 0.9687286, "grad_norm": 0.51785493, "learning_rate": 8.803e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244535, "epoch": 1.12470463, "global_step/max_steps": "14755/65595", "percentage": "22.49%", "elapsed_time": "16h 45m 36s", "remaining_time": "2d 9h 44m 56s"}
+{"loss": 0.17378874, "token_acc": 0.9253526, "grad_norm": 1.35407114, "learning_rate": 8.802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244562, "epoch": 1.12508575, "global_step/max_steps": "14760/65595", "percentage": "22.50%", "elapsed_time": "16h 45m 50s", "remaining_time": "2d 9h 44m 13s"}
+{"loss": 0.20466502, "token_acc": 0.93114826, "grad_norm": 0.82837117, "learning_rate": 8.801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244586, "epoch": 1.12546688, "global_step/max_steps": "14765/65595", "percentage": "22.51%", "elapsed_time": "16h 46m 5s", "remaining_time": "2d 9h 43m 33s"}
+{"loss": 0.12286053, "token_acc": 0.95922716, "grad_norm": 0.4480679, "learning_rate": 8.8e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244598, "epoch": 1.12584801, "global_step/max_steps": "14770/65595", "percentage": "22.52%", "elapsed_time": "16h 46m 22s", "remaining_time": "2d 9h 43m 1s"}
+{"loss": 0.13751308, "token_acc": 0.95104261, "grad_norm": 1.23018253, "learning_rate": 8.8e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244609, "epoch": 1.12622913, "global_step/max_steps": "14775/65595", "percentage": "22.52%", "elapsed_time": "16h 46m 40s", "remaining_time": "2d 9h 42m 32s"}
+{"loss": 0.12390106, "token_acc": 0.94790953, "grad_norm": 0.7519362, "learning_rate": 8.799e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244643, "epoch": 1.12661026, "global_step/max_steps": "14780/65595", "percentage": "22.53%", "elapsed_time": "16h 46m 52s", "remaining_time": "2d 9h 41m 43s"}
+{"loss": 0.15460103, "token_acc": 0.94217594, "grad_norm": 0.95336181, "learning_rate": 8.798e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244669, "epoch": 1.12699139, "global_step/max_steps": "14785/65595", "percentage": "22.54%", "elapsed_time": "16h 47m 6s", "remaining_time": "2d 9h 41m 0s"}
+{"loss": 0.15204998, "token_acc": 0.94776212, "grad_norm": 0.49090725, "learning_rate": 8.797e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244686, "epoch": 1.12737251, "global_step/max_steps": "14790/65595", "percentage": "22.55%", "elapsed_time": "16h 47m 22s", "remaining_time": "2d 9h 40m 25s"}
+{"loss": 0.10481985, "token_acc": 0.95790944, "grad_norm": 0.38940319, "learning_rate": 8.796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244707, "epoch": 1.12775364, "global_step/max_steps": "14795/65595", "percentage": "22.56%", "elapsed_time": "16h 47m 37s", "remaining_time": "2d 9h 39m 47s"}
+{"loss": 0.11775988, "token_acc": 0.95791246, "grad_norm": 0.93257767, "learning_rate": 8.796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244716, "epoch": 1.12813477, "global_step/max_steps": "14800/65595", "percentage": "22.56%", "elapsed_time": "16h 47m 55s", "remaining_time": "2d 9h 39m 19s"}
+{"eval_loss": 0.11246662, "eval_token_acc": 0.94815071, "eval_runtime": 156.9299, "eval_samples_per_second": 3.377, "eval_steps_per_second": 3.377, "epoch": 1.12813477, "global_step/max_steps": "14800/65595", "percentage": "22.56%", "elapsed_time": "16h 50m 32s", "remaining_time": "2d 9h 48m 17s"}
+{"loss": 0.14296873, "token_acc": 0.9480018, "grad_norm": 0.58586591, "learning_rate": 8.795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244098, "epoch": 1.12851589, "global_step/max_steps": "14805/65595", "percentage": "22.57%", "elapsed_time": "16h 50m 49s", "remaining_time": "2d 9h 47m 44s"}
+{"loss": 0.10204833, "token_acc": 0.95162835, "grad_norm": 0.70571721, "learning_rate": 8.794e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244118, "epoch": 1.12889702, "global_step/max_steps": "14810/65595", "percentage": "22.58%", "elapsed_time": "16h 51m 5s", "remaining_time": "2d 9h 47m 7s"}
+{"loss": 0.12823519, "token_acc": 0.95029975, "grad_norm": 0.8164618, "learning_rate": 8.793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24413, "epoch": 1.12927815, "global_step/max_steps": "14815/65595", "percentage": "22.59%", "elapsed_time": "16h 51m 22s", "remaining_time": "2d 9h 46m 36s"}
+{"loss": 0.15122306, "token_acc": 0.9472032, "grad_norm": 0.71771628, "learning_rate": 8.793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244161, "epoch": 1.12965927, "global_step/max_steps": "14820/65595", "percentage": "22.59%", "elapsed_time": "16h 51m 35s", "remaining_time": "2d 9h 45m 49s"}
+{"loss": 0.10543401, "token_acc": 0.94456812, "grad_norm": 0.74118292, "learning_rate": 8.792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244182, "epoch": 1.1300404, "global_step/max_steps": "14825/65595", "percentage": "22.60%", "elapsed_time": "16h 51m 50s", "remaining_time": "2d 9h 45m 11s"}
+{"loss": 0.14504588, "token_acc": 0.93549092, "grad_norm": 2.18319845, "learning_rate": 8.791e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24421, "epoch": 1.13042153, "global_step/max_steps": "14830/65595", "percentage": "22.61%", "elapsed_time": "16h 52m 4s", "remaining_time": "2d 9h 44m 26s"}
+{"loss": 0.12789541, "token_acc": 0.94520891, "grad_norm": 0.85717195, "learning_rate": 8.79e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244234, "epoch": 1.13080265, "global_step/max_steps": "14835/65595", "percentage": "22.62%", "elapsed_time": "16h 52m 18s", "remaining_time": "2d 9h 43m 45s"}
+{"loss": 0.1011151, "token_acc": 0.96460382, "grad_norm": 1.49655104, "learning_rate": 8.789e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244245, "epoch": 1.13118378, "global_step/max_steps": "14840/65595", "percentage": "22.62%", "elapsed_time": "16h 52m 36s", "remaining_time": "2d 9h 43m 15s"}
+{"loss": 0.12717626, "token_acc": 0.94326376, "grad_norm": 1.06902957, "learning_rate": 8.789e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244267, "epoch": 1.13156491, "global_step/max_steps": "14845/65595", "percentage": "22.63%", "elapsed_time": "16h 52m 51s", "remaining_time": "2d 9h 42m 36s"}
+{"loss": 0.1392518, "token_acc": 0.95378607, "grad_norm": 1.22588348, "learning_rate": 8.788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244287, "epoch": 1.13194603, "global_step/max_steps": "14850/65595", "percentage": "22.64%", "elapsed_time": "16h 53m 6s", "remaining_time": "2d 9h 41m 58s"}
+{"loss": 0.13183166, "token_acc": 0.94231389, "grad_norm": 0.9318856, "learning_rate": 8.787e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244314, "epoch": 1.13232716, "global_step/max_steps": "14855/65595", "percentage": "22.65%", "elapsed_time": "16h 53m 20s", "remaining_time": "2d 9h 41m 15s"}
+{"loss": 0.20236564, "token_acc": 0.91810022, "grad_norm": 2.2202785, "learning_rate": 8.786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24434, "epoch": 1.13270829, "global_step/max_steps": "14860/65595", "percentage": "22.65%", "elapsed_time": "16h 53m 34s", "remaining_time": "2d 9h 40m 32s"}
+{"loss": 0.16791748, "token_acc": 0.9429183, "grad_norm": 1.46456182, "learning_rate": 8.785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244354, "epoch": 1.13308941, "global_step/max_steps": "14865/65595", "percentage": "22.66%", "elapsed_time": "16h 53m 51s", "remaining_time": "2d 9h 40m 0s"}
+{"loss": 0.11979988, "token_acc": 0.94183211, "grad_norm": 0.77791017, "learning_rate": 8.785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244376, "epoch": 1.13347054, "global_step/max_steps": "14870/65595", "percentage": "22.67%", "elapsed_time": "16h 54m 6s", "remaining_time": "2d 9h 39m 21s"}
+{"loss": 0.16935352, "token_acc": 0.93887286, "grad_norm": 0.82534558, "learning_rate": 8.784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244375, "epoch": 1.13385167, "global_step/max_steps": "14875/65595", "percentage": "22.68%", "elapsed_time": "16h 54m 27s", "remaining_time": "2d 9h 39m 2s"}
+{"loss": 0.10881816, "token_acc": 0.96298455, "grad_norm": 1.20457673, "learning_rate": 8.783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244402, "epoch": 1.13423279, "global_step/max_steps": "14880/65595", "percentage": "22.68%", "elapsed_time": "16h 54m 41s", "remaining_time": "2d 9h 38m 18s"}
+{"loss": 0.07671125, "token_acc": 0.95713411, "grad_norm": 0.51749504, "learning_rate": 8.782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244419, "epoch": 1.13461392, "global_step/max_steps": "14885/65595", "percentage": "22.69%", "elapsed_time": "16h 54m 57s", "remaining_time": "2d 9h 37m 44s"}
+{"loss": 0.15886917, "token_acc": 0.93543092, "grad_norm": 0.90421182, "learning_rate": 8.782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244445, "epoch": 1.13499505, "global_step/max_steps": "14890/65595", "percentage": "22.70%", "elapsed_time": "16h 55m 11s", "remaining_time": "2d 9h 37m 1s"}
+{"loss": 0.15011091, "token_acc": 0.94395528, "grad_norm": 0.76849312, "learning_rate": 8.781e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244461, "epoch": 1.13537617, "global_step/max_steps": "14895/65595", "percentage": "22.71%", "elapsed_time": "16h 55m 27s", "remaining_time": "2d 9h 36m 27s"}
+{"loss": 0.11822941, "token_acc": 0.96064184, "grad_norm": 1.07380688, "learning_rate": 8.78e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244487, "epoch": 1.1357573, "global_step/max_steps": "14900/65595", "percentage": "22.72%", "elapsed_time": "16h 55m 41s", "remaining_time": "2d 9h 35m 45s"}
+{"loss": 0.12796317, "token_acc": 0.95277665, "grad_norm": 0.48068056, "learning_rate": 8.779e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244504, "epoch": 1.13613843, "global_step/max_steps": "14905/65595", "percentage": "22.72%", "elapsed_time": "16h 55m 57s", "remaining_time": "2d 9h 35m 10s"}
+{"loss": 0.16808603, "token_acc": 0.93808411, "grad_norm": 1.03150642, "learning_rate": 8.778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244524, "epoch": 1.13651955, "global_step/max_steps": "14910/65595", "percentage": "22.73%", "elapsed_time": "16h 56m 13s", "remaining_time": "2d 9h 34m 32s"}
+{"loss": 0.14136891, "token_acc": 0.94790698, "grad_norm": 0.58669198, "learning_rate": 8.778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244544, "epoch": 1.13690068, "global_step/max_steps": "14915/65595", "percentage": "22.74%", "elapsed_time": "16h 56m 28s", "remaining_time": "2d 9h 33m 55s"}
+{"loss": 0.09477418, "token_acc": 0.95811637, "grad_norm": 1.16783667, "learning_rate": 8.777e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24457, "epoch": 1.13728181, "global_step/max_steps": "14920/65595", "percentage": "22.75%", "elapsed_time": "16h 56m 42s", "remaining_time": "2d 9h 33m 12s"}
+{"loss": 0.18082427, "token_acc": 0.9441123, "grad_norm": 1.36999989, "learning_rate": 8.776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244587, "epoch": 1.13766293, "global_step/max_steps": "14925/65595", "percentage": "22.75%", "elapsed_time": "16h 56m 59s", "remaining_time": "2d 9h 32m 38s"}
+{"loss": 0.156987, "token_acc": 0.94621883, "grad_norm": 0.78551441, "learning_rate": 8.775e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244609, "epoch": 1.13804406, "global_step/max_steps": "14930/65595", "percentage": "22.76%", "elapsed_time": "16h 57m 13s", "remaining_time": "2d 9h 31m 58s"}
+{"loss": 0.15934781, "token_acc": 0.93474801, "grad_norm": 0.93375874, "learning_rate": 8.775e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244631, "epoch": 1.13842518, "global_step/max_steps": "14935/65595", "percentage": "22.77%", "elapsed_time": "16h 57m 28s", "remaining_time": "2d 9h 31m 20s"}
+{"loss": 0.14023571, "token_acc": 0.95550678, "grad_norm": 0.44149667, "learning_rate": 8.774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244654, "epoch": 1.13880631, "global_step/max_steps": "14940/65595", "percentage": "22.78%", "elapsed_time": "16h 57m 43s", "remaining_time": "2d 9h 30m 39s"}
+{"loss": 0.12431993, "token_acc": 0.95179133, "grad_norm": 0.92867881, "learning_rate": 8.773e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244647, "epoch": 1.13918744, "global_step/max_steps": "14945/65595", "percentage": "22.78%", "elapsed_time": "16h 58m 5s", "remaining_time": "2d 9h 30m 25s"}
+{"loss": 0.12879533, "token_acc": 0.93965353, "grad_norm": 0.8473655, "learning_rate": 8.772e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244666, "epoch": 1.13956856, "global_step/max_steps": "14950/65595", "percentage": "22.79%", "elapsed_time": "16h 58m 21s", "remaining_time": "2d 9h 29m 49s"}
+{"loss": 0.13803332, "token_acc": 0.94792948, "grad_norm": 0.82851899, "learning_rate": 8.771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244687, "epoch": 1.13994969, "global_step/max_steps": "14955/65595", "percentage": "22.80%", "elapsed_time": "16h 58m 36s", "remaining_time": "2d 9h 29m 10s"}
+{"loss": 0.13609519, "token_acc": 0.94601496, "grad_norm": 0.84562582, "learning_rate": 8.771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244707, "epoch": 1.14033082, "global_step/max_steps": "14960/65595", "percentage": "22.81%", "elapsed_time": "16h 58m 52s", "remaining_time": "2d 9h 28m 33s"}
+{"loss": 0.15916312, "token_acc": 0.94565416, "grad_norm": 1.39355695, "learning_rate": 8.77e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244725, "epoch": 1.14071194, "global_step/max_steps": "14965/65595", "percentage": "22.81%", "elapsed_time": "16h 59m 8s", "remaining_time": "2d 9h 27m 57s"}
+{"loss": 0.11329989, "token_acc": 0.95922747, "grad_norm": 0.73281914, "learning_rate": 8.769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244748, "epoch": 1.14109307, "global_step/max_steps": "14970/65595", "percentage": "22.82%", "elapsed_time": "16h 59m 22s", "remaining_time": "2d 9h 27m 18s"}
+{"loss": 0.10292206, "token_acc": 0.95999377, "grad_norm": 0.54226017, "learning_rate": 8.768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244756, "epoch": 1.1414742, "global_step/max_steps": "14975/65595", "percentage": "22.83%", "elapsed_time": "16h 59m 41s", "remaining_time": "2d 9h 26m 50s"}
+{"loss": 0.08533363, "token_acc": 0.96420411, "grad_norm": 0.67213309, "learning_rate": 8.767e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244783, "epoch": 1.14185532, "global_step/max_steps": "14980/65595", "percentage": "22.84%", "elapsed_time": "16h 59m 54s", "remaining_time": "2d 9h 26m 7s"}
+{"loss": 0.10993979, "token_acc": 0.94466317, "grad_norm": 0.67549407, "learning_rate": 8.767e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244803, "epoch": 1.14223645, "global_step/max_steps": "14985/65595", "percentage": "22.84%", "elapsed_time": "17h 0m 10s", "remaining_time": "2d 9h 25m 29s"}
+{"loss": 0.12096083, "token_acc": 0.96028037, "grad_norm": 0.72631156, "learning_rate": 8.766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244827, "epoch": 1.14261758, "global_step/max_steps": "14990/65595", "percentage": "22.85%", "elapsed_time": "17h 0m 24s", "remaining_time": "2d 9h 24m 49s"}
+{"loss": 0.16149945, "token_acc": 0.9366116, "grad_norm": 0.71464926, "learning_rate": 8.765e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244854, "epoch": 1.1429987, "global_step/max_steps": "14995/65595", "percentage": "22.86%", "elapsed_time": "17h 0m 38s", "remaining_time": "2d 9h 24m 6s"}
+{"loss": 0.13319383, "token_acc": 0.95092396, "grad_norm": 1.01483822, "learning_rate": 8.764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244879, "epoch": 1.14337983, "global_step/max_steps": "15000/65595", "percentage": "22.87%", "elapsed_time": "17h 0m 52s", "remaining_time": "2d 9h 23m 25s"}
+{"eval_loss": 0.11213987, "eval_token_acc": 0.94799259, "eval_runtime": 158.4148, "eval_samples_per_second": 3.346, "eval_steps_per_second": 3.346, "epoch": 1.14337983, "global_step/max_steps": "15000/65595", "percentage": "22.87%", "elapsed_time": "17h 3m 31s", "remaining_time": "2d 9h 32m 19s"}
+{"loss": 0.09414033, "token_acc": 0.94865972, "grad_norm": 0.85210454, "learning_rate": 8.763e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24424, "epoch": 1.14376096, "global_step/max_steps": "15005/65595", "percentage": "22.88%", "elapsed_time": "17h 3m 53s", "remaining_time": "2d 9h 32m 4s"}
+{"loss": 0.16544831, "token_acc": 0.92044019, "grad_norm": 1.15164137, "learning_rate": 8.763e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244258, "epoch": 1.14414208, "global_step/max_steps": "15010/65595", "percentage": "22.88%", "elapsed_time": "17h 4m 9s", "remaining_time": "2d 9h 31m 29s"}
+{"loss": 0.14657499, "token_acc": 0.94072744, "grad_norm": 1.59309638, "learning_rate": 8.762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244269, "epoch": 1.14452321, "global_step/max_steps": "15015/65595", "percentage": "22.89%", "elapsed_time": "17h 4m 26s", "remaining_time": "2d 9h 30m 58s"}
+{"loss": 0.12655807, "token_acc": 0.94783368, "grad_norm": 0.61424768, "learning_rate": 8.761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24428, "epoch": 1.14490434, "global_step/max_steps": "15020/65595", "percentage": "22.90%", "elapsed_time": "17h 4m 44s", "remaining_time": "2d 9h 30m 29s"}
+{"loss": 0.19002196, "token_acc": 0.93044515, "grad_norm": 0.81418353, "learning_rate": 8.76e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244296, "epoch": 1.14528546, "global_step/max_steps": "15025/65595", "percentage": "22.91%", "elapsed_time": "17h 5m 0s", "remaining_time": "2d 9h 29m 55s"}
+{"loss": 0.11336743, "token_acc": 0.95322777, "grad_norm": 0.08428605, "learning_rate": 8.76e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24432, "epoch": 1.14566659, "global_step/max_steps": "15030/65595", "percentage": "22.91%", "elapsed_time": "17h 5m 15s", "remaining_time": "2d 9h 29m 14s"}
+{"loss": 0.14064549, "token_acc": 0.9470762, "grad_norm": 0.72871149, "learning_rate": 8.759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244324, "epoch": 1.14604772, "global_step/max_steps": "15035/65595", "percentage": "22.92%", "elapsed_time": "17h 5m 35s", "remaining_time": "2d 9h 28m 51s"}
+{"loss": 0.14259892, "token_acc": 0.94714354, "grad_norm": 0.98675722, "learning_rate": 8.758e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24434, "epoch": 1.14642884, "global_step/max_steps": "15040/65595", "percentage": "22.93%", "elapsed_time": "17h 5m 51s", "remaining_time": "2d 9h 28m 16s"}
+{"loss": 0.14767596, "token_acc": 0.94951284, "grad_norm": 0.55099565, "learning_rate": 8.757e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244364, "epoch": 1.14680997, "global_step/max_steps": "15045/65595", "percentage": "22.94%", "elapsed_time": "17h 6m 5s", "remaining_time": "2d 9h 27m 35s"}
+{"loss": 0.09168214, "token_acc": 0.96612553, "grad_norm": 0.46354902, "learning_rate": 8.756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244369, "epoch": 1.1471911, "global_step/max_steps": "15050/65595", "percentage": "22.94%", "elapsed_time": "17h 6m 25s", "remaining_time": "2d 9h 27m 11s"}
+{"loss": 0.1193032, "token_acc": 0.94635865, "grad_norm": 0.71588564, "learning_rate": 8.756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244387, "epoch": 1.14757222, "global_step/max_steps": "15055/65595", "percentage": "22.95%", "elapsed_time": "17h 6m 40s", "remaining_time": "2d 9h 26m 35s"}
+{"loss": 0.14333152, "token_acc": 0.94962087, "grad_norm": 0.85134429, "learning_rate": 8.755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244397, "epoch": 1.14795335, "global_step/max_steps": "15060/65595", "percentage": "22.96%", "elapsed_time": "17h 6m 58s", "remaining_time": "2d 9h 26m 6s"}
+{"loss": 0.09215972, "token_acc": 0.95770021, "grad_norm": 0.85457951, "learning_rate": 8.754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244426, "epoch": 1.14833448, "global_step/max_steps": "15065/65595", "percentage": "22.97%", "elapsed_time": "17h 7m 11s", "remaining_time": "2d 9h 25m 21s"}
+{"loss": 0.1751245, "token_acc": 0.94830508, "grad_norm": 0.74790317, "learning_rate": 8.753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244449, "epoch": 1.1487156, "global_step/max_steps": "15070/65595", "percentage": "22.97%", "elapsed_time": "17h 7m 26s", "remaining_time": "2d 9h 24m 41s"}
+{"loss": 0.16083064, "token_acc": 0.93579148, "grad_norm": 0.7710641, "learning_rate": 8.752e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244471, "epoch": 1.14909673, "global_step/max_steps": "15075/65595", "percentage": "22.98%", "elapsed_time": "17h 7m 41s", "remaining_time": "2d 9h 24m 2s"}
+{"loss": 0.11266645, "token_acc": 0.9507123, "grad_norm": 0.83334076, "learning_rate": 8.752e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244493, "epoch": 1.14947786, "global_step/max_steps": "15080/65595", "percentage": "22.99%", "elapsed_time": "17h 7m 56s", "remaining_time": "2d 9h 23m 23s"}
+{"loss": 0.11827308, "token_acc": 0.95448257, "grad_norm": 0.79214388, "learning_rate": 8.751e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24451, "epoch": 1.14985898, "global_step/max_steps": "15085/65595", "percentage": "23.00%", "elapsed_time": "17h 8m 12s", "remaining_time": "2d 9h 22m 48s"}
+{"loss": 0.13288893, "token_acc": 0.94583772, "grad_norm": 0.64859527, "learning_rate": 8.75e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244528, "epoch": 1.15024011, "global_step/max_steps": "15090/65595", "percentage": "23.00%", "elapsed_time": "17h 8m 28s", "remaining_time": "2d 9h 22m 12s"}
+{"loss": 0.14683166, "token_acc": 0.92103574, "grad_norm": 0.05959833, "learning_rate": 8.749e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244554, "epoch": 1.15062124, "global_step/max_steps": "15095/65595", "percentage": "23.01%", "elapsed_time": "17h 8m 42s", "remaining_time": "2d 9h 21m 30s"}
+{"loss": 0.11480459, "token_acc": 0.94851928, "grad_norm": 0.92766905, "learning_rate": 8.748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244574, "epoch": 1.15100236, "global_step/max_steps": "15100/65595", "percentage": "23.02%", "elapsed_time": "17h 8m 57s", "remaining_time": "2d 9h 20m 53s"}
+{"loss": 0.11390598, "token_acc": 0.95577599, "grad_norm": 0.90791851, "learning_rate": 8.748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244594, "epoch": 1.15138349, "global_step/max_steps": "15105/65595", "percentage": "23.03%", "elapsed_time": "17h 9m 13s", "remaining_time": "2d 9h 20m 16s"}
+{"loss": 0.10988939, "token_acc": 0.95889946, "grad_norm": 0.94349551, "learning_rate": 8.747e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244618, "epoch": 1.15176462, "global_step/max_steps": "15110/65595", "percentage": "23.04%", "elapsed_time": "17h 9m 27s", "remaining_time": "2d 9h 19m 35s"}
+{"loss": 0.13305755, "token_acc": 0.94959962, "grad_norm": 0.34239101, "learning_rate": 8.746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244636, "epoch": 1.15214574, "global_step/max_steps": "15115/65595", "percentage": "23.04%", "elapsed_time": "17h 9m 43s", "remaining_time": "2d 9h 18m 59s"}
+{"loss": 0.13739628, "token_acc": 0.94593664, "grad_norm": 0.56062174, "learning_rate": 8.745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244661, "epoch": 1.15252687, "global_step/max_steps": "15120/65595", "percentage": "23.05%", "elapsed_time": "17h 9m 57s", "remaining_time": "2d 9h 18m 17s"}
+{"loss": 0.14448047, "token_acc": 0.94248197, "grad_norm": 1.12027788, "learning_rate": 8.745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24468, "epoch": 1.152908, "global_step/max_steps": "15125/65595", "percentage": "23.06%", "elapsed_time": "17h 10m 13s", "remaining_time": "2d 9h 17m 42s"}
+{"loss": 0.12370639, "token_acc": 0.94786656, "grad_norm": 0.30901426, "learning_rate": 8.744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244692, "epoch": 1.15328912, "global_step/max_steps": "15130/65595", "percentage": "23.07%", "elapsed_time": "17h 10m 30s", "remaining_time": "2d 9h 17m 11s"}
+{"loss": 0.14784565, "token_acc": 0.93564089, "grad_norm": 1.10077393, "learning_rate": 8.743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244707, "epoch": 1.15367025, "global_step/max_steps": "15135/65595", "percentage": "23.07%", "elapsed_time": "17h 10m 47s", "remaining_time": "2d 9h 16m 38s"}
+{"loss": 0.13279253, "token_acc": 0.94852321, "grad_norm": 0.93135589, "learning_rate": 8.742e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244731, "epoch": 1.15405138, "global_step/max_steps": "15140/65595", "percentage": "23.08%", "elapsed_time": "17h 11m 1s", "remaining_time": "2d 9h 15m 57s"}
+{"loss": 0.09134545, "token_acc": 0.96906676, "grad_norm": 0.63806045, "learning_rate": 8.741e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244744, "epoch": 1.1544325, "global_step/max_steps": "15145/65595", "percentage": "23.09%", "elapsed_time": "17h 11m 18s", "remaining_time": "2d 9h 15m 26s"}
+{"loss": 0.12652283, "token_acc": 0.95103168, "grad_norm": 1.07470167, "learning_rate": 8.741e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244753, "epoch": 1.15481363, "global_step/max_steps": "15150/65595", "percentage": "23.10%", "elapsed_time": "17h 11m 36s", "remaining_time": "2d 9h 14m 58s"}
+{"loss": 0.14105078, "token_acc": 0.94119205, "grad_norm": 0.73244536, "learning_rate": 8.74e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24478, "epoch": 1.15519476, "global_step/max_steps": "15155/65595", "percentage": "23.10%", "elapsed_time": "17h 11m 50s", "remaining_time": "2d 9h 14m 15s"}
+{"loss": 0.16334066, "token_acc": 0.9300543, "grad_norm": 0.95119125, "learning_rate": 8.739e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244797, "epoch": 1.15557588, "global_step/max_steps": "15160/65595", "percentage": "23.11%", "elapsed_time": "17h 12m 6s", "remaining_time": "2d 9h 13m 40s"}
+{"loss": 0.19450895, "token_acc": 0.95120437, "grad_norm": 0.91501081, "learning_rate": 8.738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244802, "epoch": 1.15595701, "global_step/max_steps": "15165/65595", "percentage": "23.12%", "elapsed_time": "17h 12m 25s", "remaining_time": "2d 9h 13m 15s"}
+{"loss": 0.13020154, "token_acc": 0.94955621, "grad_norm": 0.99249256, "learning_rate": 8.737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244815, "epoch": 1.15633814, "global_step/max_steps": "15170/65595", "percentage": "23.13%", "elapsed_time": "17h 12m 42s", "remaining_time": "2d 9h 12m 44s"}
+{"loss": 0.09521171, "token_acc": 0.96508564, "grad_norm": 0.32507432, "learning_rate": 8.737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24483, "epoch": 1.15671926, "global_step/max_steps": "15175/65595", "percentage": "23.13%", "elapsed_time": "17h 12m 59s", "remaining_time": "2d 9h 12m 11s"}
+{"loss": 0.09836295, "token_acc": 0.9591195, "grad_norm": 0.7084077, "learning_rate": 8.736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244851, "epoch": 1.15710039, "global_step/max_steps": "15180/65595", "percentage": "23.14%", "elapsed_time": "17h 13m 14s", "remaining_time": "2d 9h 11m 33s"}
+{"loss": 0.13604525, "token_acc": 0.93976971, "grad_norm": 2.06528759, "learning_rate": 8.735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244875, "epoch": 1.15748152, "global_step/max_steps": "15185/65595", "percentage": "23.15%", "elapsed_time": "17h 13m 29s", "remaining_time": "2d 9h 10m 52s"}
+{"loss": 0.15464386, "token_acc": 0.93806374, "grad_norm": 0.74203748, "learning_rate": 8.734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244888, "epoch": 1.15786264, "global_step/max_steps": "15190/65595", "percentage": "23.16%", "elapsed_time": "17h 13m 46s", "remaining_time": "2d 9h 10m 21s"}
+{"loss": 0.12671427, "token_acc": 0.95402299, "grad_norm": 0.64966667, "learning_rate": 8.733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244905, "epoch": 1.15824377, "global_step/max_steps": "15195/65595", "percentage": "23.16%", "elapsed_time": "17h 14m 2s", "remaining_time": "2d 9h 9m 46s"}
+{"loss": 0.12306988, "token_acc": 0.94957983, "grad_norm": 1.03395915, "learning_rate": 8.733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244913, "epoch": 1.1586249, "global_step/max_steps": "15200/65595", "percentage": "23.17%", "elapsed_time": "17h 14m 20s", "remaining_time": "2d 9h 9m 19s"}
+{"eval_loss": 0.11309268, "eval_token_acc": 0.94733751, "eval_runtime": 160.6576, "eval_samples_per_second": 3.299, "eval_steps_per_second": 3.299, "epoch": 1.1586249, "global_step/max_steps": "15200/65595", "percentage": "23.17%", "elapsed_time": "17h 17m 1s", "remaining_time": "2d 9h 18m 12s"}
+{"loss": 0.13024368, "token_acc": 0.94755455, "grad_norm": 0.85086673, "learning_rate": 8.732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244304, "epoch": 1.15900602, "global_step/max_steps": "15205/65595", "percentage": "23.18%", "elapsed_time": "17h 17m 15s", "remaining_time": "2d 9h 17m 32s"}
+{"loss": 0.15528592, "token_acc": 0.93660131, "grad_norm": 1.59826314, "learning_rate": 8.731e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244332, "epoch": 1.15938715, "global_step/max_steps": "15210/65595", "percentage": "23.19%", "elapsed_time": "17h 17m 29s", "remaining_time": "2d 9h 16m 48s"}
+{"loss": 0.20747645, "token_acc": 0.92973955, "grad_norm": 0.92662656, "learning_rate": 8.73e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244357, "epoch": 1.15976828, "global_step/max_steps": "15215/65595", "percentage": "23.20%", "elapsed_time": "17h 17m 43s", "remaining_time": "2d 9h 16m 6s"}
+{"loss": 0.14198945, "token_acc": 0.94635788, "grad_norm": 1.48438823, "learning_rate": 8.729e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244376, "epoch": 1.1601494, "global_step/max_steps": "15220/65595", "percentage": "23.20%", "elapsed_time": "17h 17m 58s", "remaining_time": "2d 9h 15m 29s"}
+{"loss": 0.14326217, "token_acc": 0.94237783, "grad_norm": 0.77389681, "learning_rate": 8.729e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244403, "epoch": 1.16053053, "global_step/max_steps": "15225/65595", "percentage": "23.21%", "elapsed_time": "17h 18m 12s", "remaining_time": "2d 9h 14m 46s"}
+{"loss": 0.17608291, "token_acc": 0.92759022, "grad_norm": 1.25360513, "learning_rate": 8.728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244423, "epoch": 1.16091165, "global_step/max_steps": "15230/65595", "percentage": "23.22%", "elapsed_time": "17h 18m 27s", "remaining_time": "2d 9h 14m 9s"}
+{"loss": 0.10799274, "token_acc": 0.94554048, "grad_norm": 0.40909719, "learning_rate": 8.727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244442, "epoch": 1.16129278, "global_step/max_steps": "15235/65595", "percentage": "23.23%", "elapsed_time": "17h 18m 43s", "remaining_time": "2d 9h 13m 32s"}
+{"loss": 0.09496197, "token_acc": 0.95985176, "grad_norm": 1.24936712, "learning_rate": 8.726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244465, "epoch": 1.16167391, "global_step/max_steps": "15240/65595", "percentage": "23.23%", "elapsed_time": "17h 18m 58s", "remaining_time": "2d 9h 12m 53s"}
+{"loss": 0.11940067, "token_acc": 0.95811627, "grad_norm": 1.35699415, "learning_rate": 8.725e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244485, "epoch": 1.16205503, "global_step/max_steps": "15245/65595", "percentage": "23.24%", "elapsed_time": "17h 19m 13s", "remaining_time": "2d 9h 12m 15s"}
+{"loss": 0.12390018, "token_acc": 0.95356083, "grad_norm": 0.59193605, "learning_rate": 8.725e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244499, "epoch": 1.16243616, "global_step/max_steps": "15250/65595", "percentage": "23.25%", "elapsed_time": "17h 19m 30s", "remaining_time": "2d 9h 11m 43s"}
+{"loss": 0.18417188, "token_acc": 0.90818859, "grad_norm": 1.26943088, "learning_rate": 8.724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244529, "epoch": 1.16281729, "global_step/max_steps": "15255/65595", "percentage": "23.26%", "elapsed_time": "17h 19m 43s", "remaining_time": "2d 9h 10m 58s"}
+{"loss": 0.11598963, "token_acc": 0.95404255, "grad_norm": 0.7929002, "learning_rate": 8.723e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244526, "epoch": 1.16319841, "global_step/max_steps": "15260/65595", "percentage": "23.26%", "elapsed_time": "17h 20m 4s", "remaining_time": "2d 9h 10m 39s"}
+{"loss": 0.10466889, "token_acc": 0.95167757, "grad_norm": 0.59002203, "learning_rate": 8.722e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244554, "epoch": 1.16357954, "global_step/max_steps": "15265/65595", "percentage": "23.27%", "elapsed_time": "17h 20m 17s", "remaining_time": "2d 9h 9m 55s"}
+{"loss": 0.14594425, "token_acc": 0.94580878, "grad_norm": 0.9482578, "learning_rate": 8.721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244565, "epoch": 1.16396067, "global_step/max_steps": "15270/65595", "percentage": "23.28%", "elapsed_time": "17h 20m 35s", "remaining_time": "2d 9h 9m 26s"}
+{"loss": 0.11488378, "token_acc": 0.95586488, "grad_norm": 0.61277831, "learning_rate": 8.721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244579, "epoch": 1.16434179, "global_step/max_steps": "15275/65595", "percentage": "23.29%", "elapsed_time": "17h 20m 51s", "remaining_time": "2d 9h 8m 53s"}
+{"loss": 0.11078819, "token_acc": 0.96089744, "grad_norm": 1.46117616, "learning_rate": 8.72e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244596, "epoch": 1.16472292, "global_step/max_steps": "15280/65595", "percentage": "23.29%", "elapsed_time": "17h 21m 8s", "remaining_time": "2d 9h 8m 19s"}
+{"loss": 0.11859328, "token_acc": 0.95396648, "grad_norm": 1.12779748, "learning_rate": 8.719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244613, "epoch": 1.16510405, "global_step/max_steps": "15285/65595", "percentage": "23.30%", "elapsed_time": "17h 21m 24s", "remaining_time": "2d 9h 7m 44s"}
+{"loss": 0.11753823, "token_acc": 0.9544833, "grad_norm": 1.47308791, "learning_rate": 8.718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24463, "epoch": 1.16548517, "global_step/max_steps": "15290/65595", "percentage": "23.31%", "elapsed_time": "17h 21m 40s", "remaining_time": "2d 9h 7m 9s"}
+{"loss": 0.11303395, "token_acc": 0.95986452, "grad_norm": 0.70267361, "learning_rate": 8.717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244649, "epoch": 1.1658663, "global_step/max_steps": "15295/65595", "percentage": "23.32%", "elapsed_time": "17h 21m 55s", "remaining_time": "2d 9h 6m 33s"}
+{"loss": 0.12630377, "token_acc": 0.95489317, "grad_norm": 1.03723395, "learning_rate": 8.717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244655, "epoch": 1.16624743, "global_step/max_steps": "15300/65595", "percentage": "23.32%", "elapsed_time": "17h 22m 14s", "remaining_time": "2d 9h 6m 8s"}
+{"loss": 0.11490499, "token_acc": 0.95285616, "grad_norm": 0.92827785, "learning_rate": 8.716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244683, "epoch": 1.16662855, "global_step/max_steps": "15305/65595", "percentage": "23.33%", "elapsed_time": "17h 22m 28s", "remaining_time": "2d 9h 5m 24s"}
+{"loss": 0.16258968, "token_acc": 0.93373743, "grad_norm": 0.91378421, "learning_rate": 8.715e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244692, "epoch": 1.16700968, "global_step/max_steps": "15310/65595", "percentage": "23.34%", "elapsed_time": "17h 22m 46s", "remaining_time": "2d 9h 4m 55s"}
+{"loss": 0.11977761, "token_acc": 0.95985876, "grad_norm": 0.87123621, "learning_rate": 8.714e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244714, "epoch": 1.16739081, "global_step/max_steps": "15315/65595", "percentage": "23.35%", "elapsed_time": "17h 23m 1s", "remaining_time": "2d 9h 4m 17s"}
+{"loss": 0.16022828, "token_acc": 0.92929957, "grad_norm": 1.23757482, "learning_rate": 8.713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244743, "epoch": 1.16777193, "global_step/max_steps": "15320/65595", "percentage": "23.36%", "elapsed_time": "17h 23m 14s", "remaining_time": "2d 9h 3m 32s"}
+{"loss": 0.08282303, "token_acc": 0.95838978, "grad_norm": 1.05297923, "learning_rate": 8.713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244757, "epoch": 1.16815306, "global_step/max_steps": "15325/65595", "percentage": "23.36%", "elapsed_time": "17h 23m 30s", "remaining_time": "2d 9h 2m 59s"}
+{"loss": 0.15539879, "token_acc": 0.94645862, "grad_norm": 0.78022289, "learning_rate": 8.712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24477, "epoch": 1.16853419, "global_step/max_steps": "15330/65595", "percentage": "23.37%", "elapsed_time": "17h 23m 47s", "remaining_time": "2d 9h 2m 28s"}
+{"loss": 0.17490951, "token_acc": 0.93372703, "grad_norm": 1.39733803, "learning_rate": 8.711e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244796, "epoch": 1.16891531, "global_step/max_steps": "15335/65595", "percentage": "23.38%", "elapsed_time": "17h 24m 1s", "remaining_time": "2d 9h 1m 46s"}
+{"loss": 0.18078779, "token_acc": 0.94389821, "grad_norm": 1.04067147, "learning_rate": 8.71e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244818, "epoch": 1.16929644, "global_step/max_steps": "15340/65595", "percentage": "23.39%", "elapsed_time": "17h 24m 16s", "remaining_time": "2d 9h 1m 7s"}
+{"loss": 0.1686447, "token_acc": 0.92663834, "grad_norm": 0.65262586, "learning_rate": 8.709e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244841, "epoch": 1.16967757, "global_step/max_steps": "15345/65595", "percentage": "23.39%", "elapsed_time": "17h 24m 31s", "remaining_time": "2d 9h 0m 27s"}
+{"loss": 0.13500215, "token_acc": 0.96518934, "grad_norm": 0.37981588, "learning_rate": 8.709e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244856, "epoch": 1.17005869, "global_step/max_steps": "15350/65595", "percentage": "23.40%", "elapsed_time": "17h 24m 47s", "remaining_time": "2d 8h 59m 54s"}
+{"loss": 0.14339447, "token_acc": 0.94903285, "grad_norm": 0.92672902, "learning_rate": 8.708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244873, "epoch": 1.17043982, "global_step/max_steps": "15355/65595", "percentage": "23.41%", "elapsed_time": "17h 25m 3s", "remaining_time": "2d 8h 59m 20s"}
+{"loss": 0.16250926, "token_acc": 0.9221968, "grad_norm": 0.11955124, "learning_rate": 8.707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2449, "epoch": 1.17082095, "global_step/max_steps": "15360/65595", "percentage": "23.42%", "elapsed_time": "17h 25m 17s", "remaining_time": "2d 8h 58m 37s"}
+{"loss": 0.11914885, "token_acc": 0.93925413, "grad_norm": 0.76716453, "learning_rate": 8.706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244921, "epoch": 1.17120207, "global_step/max_steps": "15365/65595", "percentage": "23.42%", "elapsed_time": "17h 25m 32s", "remaining_time": "2d 8h 57m 59s"}
+{"loss": 0.18182967, "token_acc": 0.92356115, "grad_norm": 1.28604889, "learning_rate": 8.705e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244949, "epoch": 1.1715832, "global_step/max_steps": "15370/65595", "percentage": "23.43%", "elapsed_time": "17h 25m 45s", "remaining_time": "2d 8h 57m 15s"}
+{"loss": 0.0944574, "token_acc": 0.95459757, "grad_norm": 0.73282605, "learning_rate": 8.705e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244969, "epoch": 1.17196433, "global_step/max_steps": "15375/65595", "percentage": "23.44%", "elapsed_time": "17h 26m 0s", "remaining_time": "2d 8h 56m 37s"}
+{"loss": 0.14686689, "token_acc": 0.942118, "grad_norm": 0.79126751, "learning_rate": 8.704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244985, "epoch": 1.17234545, "global_step/max_steps": "15380/65595", "percentage": "23.45%", "elapsed_time": "17h 26m 17s", "remaining_time": "2d 8h 56m 4s"}
+{"loss": 0.1516942, "token_acc": 0.94767674, "grad_norm": 0.64931864, "learning_rate": 8.703e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244992, "epoch": 1.17272658, "global_step/max_steps": "15385/65595", "percentage": "23.45%", "elapsed_time": "17h 26m 35s", "remaining_time": "2d 8h 55m 37s"}
+{"loss": 0.11498951, "token_acc": 0.95407771, "grad_norm": 0.806265, "learning_rate": 8.702e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245002, "epoch": 1.17310771, "global_step/max_steps": "15390/65595", "percentage": "23.46%", "elapsed_time": "17h 26m 53s", "remaining_time": "2d 8h 55m 9s"}
+{"loss": 0.17094635, "token_acc": 0.93300166, "grad_norm": 1.2523551, "learning_rate": 8.701e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24503, "epoch": 1.17348883, "global_step/max_steps": "15395/65595", "percentage": "23.47%", "elapsed_time": "17h 27m 6s", "remaining_time": "2d 8h 54m 25s"}
+{"loss": 0.15060426, "token_acc": 0.93945892, "grad_norm": 0.86296034, "learning_rate": 8.701e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245048, "epoch": 1.17386996, "global_step/max_steps": "15400/65595", "percentage": "23.48%", "elapsed_time": "17h 27m 22s", "remaining_time": "2d 8h 53m 50s"}
+{"eval_loss": 0.10974685, "eval_token_acc": 0.94869285, "eval_runtime": 158.7485, "eval_samples_per_second": 3.339, "eval_steps_per_second": 3.339, "epoch": 1.17386996, "global_step/max_steps": "15400/65595", "percentage": "23.48%", "elapsed_time": "17h 30m 1s", "remaining_time": "2d 9h 2m 27s"}
+{"loss": 0.10440998, "token_acc": 0.94911626, "grad_norm": 0.72949004, "learning_rate": 8.7e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244452, "epoch": 1.17425109, "global_step/max_steps": "15405/65595", "percentage": "23.49%", "elapsed_time": "17h 30m 16s", "remaining_time": "2d 9h 1m 48s"}
+{"loss": 0.17267327, "token_acc": 0.93835084, "grad_norm": 1.29136407, "learning_rate": 8.699e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244469, "epoch": 1.17463221, "global_step/max_steps": "15410/65595", "percentage": "23.49%", "elapsed_time": "17h 30m 32s", "remaining_time": "2d 9h 1m 14s"}
+{"loss": 0.14803648, "token_acc": 0.93899598, "grad_norm": 1.58257973, "learning_rate": 8.698e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244488, "epoch": 1.17501334, "global_step/max_steps": "15415/65595", "percentage": "23.50%", "elapsed_time": "17h 30m 47s", "remaining_time": "2d 9h 0m 38s"}
+{"loss": 0.10160846, "token_acc": 0.96629213, "grad_norm": 0.63563174, "learning_rate": 8.697e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244514, "epoch": 1.17539447, "global_step/max_steps": "15420/65595", "percentage": "23.51%", "elapsed_time": "17h 31m 1s", "remaining_time": "2d 8h 59m 55s"}
+{"loss": 0.11745185, "token_acc": 0.94911202, "grad_norm": 0.96811873, "learning_rate": 8.697e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244542, "epoch": 1.17577559, "global_step/max_steps": "15425/65595", "percentage": "23.52%", "elapsed_time": "17h 31m 14s", "remaining_time": "2d 8h 59m 11s"}
+{"loss": 0.11490235, "token_acc": 0.95408717, "grad_norm": 0.27029878, "learning_rate": 8.696e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244562, "epoch": 1.17615672, "global_step/max_steps": "15430/65595", "percentage": "23.52%", "elapsed_time": "17h 31m 30s", "remaining_time": "2d 8h 58m 34s"}
+{"loss": 0.15282104, "token_acc": 0.9415437, "grad_norm": 0.77356219, "learning_rate": 8.695e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244589, "epoch": 1.17653785, "global_step/max_steps": "15435/65595", "percentage": "23.53%", "elapsed_time": "17h 31m 43s", "remaining_time": "2d 8h 57m 51s"}
+{"loss": 0.16595627, "token_acc": 0.94136808, "grad_norm": 1.45135689, "learning_rate": 8.694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244617, "epoch": 1.17691897, "global_step/max_steps": "15440/65595", "percentage": "23.54%", "elapsed_time": "17h 31m 56s", "remaining_time": "2d 8h 57m 7s"}
+{"loss": 0.13164755, "token_acc": 0.94806655, "grad_norm": 0.81871402, "learning_rate": 8.693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244639, "epoch": 1.1773001, "global_step/max_steps": "15445/65595", "percentage": "23.55%", "elapsed_time": "17h 32m 11s", "remaining_time": "2d 8h 56m 28s"}
+{"loss": 0.10914645, "token_acc": 0.95795247, "grad_norm": 1.09443152, "learning_rate": 8.692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244643, "epoch": 1.17768123, "global_step/max_steps": "15450/65595", "percentage": "23.55%", "elapsed_time": "17h 32m 30s", "remaining_time": "2d 8h 56m 4s"}
+{"loss": 0.16969302, "token_acc": 0.93743017, "grad_norm": 0.97532332, "learning_rate": 8.692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244664, "epoch": 1.17806235, "global_step/max_steps": "15455/65595", "percentage": "23.56%", "elapsed_time": "17h 32m 46s", "remaining_time": "2d 8h 55m 27s"}
+{"loss": 0.10209591, "token_acc": 0.96273434, "grad_norm": 0.1861864, "learning_rate": 8.691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244685, "epoch": 1.17844348, "global_step/max_steps": "15460/65595", "percentage": "23.57%", "elapsed_time": "17h 33m 1s", "remaining_time": "2d 8h 54m 49s"}
+{"loss": 0.14055452, "token_acc": 0.94339623, "grad_norm": 0.99010861, "learning_rate": 8.69e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244713, "epoch": 1.17882461, "global_step/max_steps": "15465/65595", "percentage": "23.58%", "elapsed_time": "17h 33m 14s", "remaining_time": "2d 8h 54m 5s"}
+{"loss": 0.08217063, "token_acc": 0.97192225, "grad_norm": 0.87909746, "learning_rate": 8.689e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244723, "epoch": 1.17920573, "global_step/max_steps": "15470/65595", "percentage": "23.58%", "elapsed_time": "17h 33m 32s", "remaining_time": "2d 8h 53m 36s"}
+{"loss": 0.15218801, "token_acc": 0.94059969, "grad_norm": 1.00420439, "learning_rate": 8.688e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244734, "epoch": 1.17958686, "global_step/max_steps": "15475/65595", "percentage": "23.59%", "elapsed_time": "17h 33m 49s", "remaining_time": "2d 8h 53m 6s"}
+{"loss": 0.16309088, "token_acc": 0.94163484, "grad_norm": 0.76042056, "learning_rate": 8.688e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244744, "epoch": 1.17996799, "global_step/max_steps": "15480/65595", "percentage": "23.60%", "elapsed_time": "17h 34m 7s", "remaining_time": "2d 8h 52m 37s"}
+{"loss": 0.0908445, "token_acc": 0.96333485, "grad_norm": 1.58596814, "learning_rate": 8.687e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244757, "epoch": 1.18034911, "global_step/max_steps": "15485/65595", "percentage": "23.61%", "elapsed_time": "17h 34m 24s", "remaining_time": "2d 8h 52m 6s"}
+{"loss": 0.13292165, "token_acc": 0.9108749, "grad_norm": 1.34733272, "learning_rate": 8.686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244788, "epoch": 1.18073024, "global_step/max_steps": "15490/65595", "percentage": "23.61%", "elapsed_time": "17h 34m 37s", "remaining_time": "2d 8h 51m 20s"}
+{"loss": 0.12665894, "token_acc": 0.9519828, "grad_norm": 0.62169856, "learning_rate": 8.685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244806, "epoch": 1.18111137, "global_step/max_steps": "15495/65595", "percentage": "23.62%", "elapsed_time": "17h 34m 52s", "remaining_time": "2d 8h 50m 44s"}
+{"loss": 0.13310776, "token_acc": 0.94276707, "grad_norm": 0.44705012, "learning_rate": 8.684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244816, "epoch": 1.18149249, "global_step/max_steps": "15500/65595", "percentage": "23.63%", "elapsed_time": "17h 35m 10s", "remaining_time": "2d 8h 50m 15s"}
+{"loss": 0.17519704, "token_acc": 0.94823208, "grad_norm": 0.9363274, "learning_rate": 8.684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244834, "epoch": 1.18187362, "global_step/max_steps": "15505/65595", "percentage": "23.64%", "elapsed_time": "17h 35m 26s", "remaining_time": "2d 8h 49m 40s"}
+{"loss": 0.16682402, "token_acc": 0.93535392, "grad_norm": 1.85510826, "learning_rate": 8.683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244851, "epoch": 1.18225475, "global_step/max_steps": "15510/65595", "percentage": "23.65%", "elapsed_time": "17h 35m 42s", "remaining_time": "2d 8h 49m 5s"}
+{"loss": 0.10499423, "token_acc": 0.94420601, "grad_norm": 0.30918977, "learning_rate": 8.682e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244879, "epoch": 1.18263587, "global_step/max_steps": "15515/65595", "percentage": "23.65%", "elapsed_time": "17h 35m 55s", "remaining_time": "2d 8h 48m 21s"}
+{"loss": 0.12954739, "token_acc": 0.94506627, "grad_norm": 0.4615517, "learning_rate": 8.681e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244899, "epoch": 1.183017, "global_step/max_steps": "15520/65595", "percentage": "23.66%", "elapsed_time": "17h 36m 10s", "remaining_time": "2d 8h 47m 45s"}
+{"loss": 0.12848299, "token_acc": 0.94444444, "grad_norm": 1.38810337, "learning_rate": 8.68e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244923, "epoch": 1.18339812, "global_step/max_steps": "15525/65595", "percentage": "23.67%", "elapsed_time": "17h 36m 25s", "remaining_time": "2d 8h 47m 4s"}
+{"loss": 0.11738846, "token_acc": 0.95136026, "grad_norm": 0.95364827, "learning_rate": 8.68e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244948, "epoch": 1.18377925, "global_step/max_steps": "15530/65595", "percentage": "23.68%", "elapsed_time": "17h 36m 38s", "remaining_time": "2d 8h 46m 22s"}
+{"loss": 0.12805204, "token_acc": 0.95239544, "grad_norm": 0.89382493, "learning_rate": 8.679e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244964, "epoch": 1.18416038, "global_step/max_steps": "15535/65595", "percentage": "23.68%", "elapsed_time": "17h 36m 55s", "remaining_time": "2d 8h 45m 49s"}
+{"loss": 0.14952415, "token_acc": 0.9437799, "grad_norm": 0.63421351, "learning_rate": 8.678e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244978, "epoch": 1.1845415, "global_step/max_steps": "15540/65595", "percentage": "23.69%", "elapsed_time": "17h 37m 12s", "remaining_time": "2d 8h 45m 17s"}
+{"loss": 0.15230418, "token_acc": 0.95120062, "grad_norm": 0.51934898, "learning_rate": 8.677e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244988, "epoch": 1.18492263, "global_step/max_steps": "15545/65595", "percentage": "23.70%", "elapsed_time": "17h 37m 29s", "remaining_time": "2d 8h 44m 48s"}
+{"loss": 0.12025766, "token_acc": 0.9612437, "grad_norm": 2.05877638, "learning_rate": 8.676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245004, "epoch": 1.18530376, "global_step/max_steps": "15550/65595", "percentage": "23.71%", "elapsed_time": "17h 37m 46s", "remaining_time": "2d 8h 44m 14s"}
+{"loss": 0.15560597, "token_acc": 0.95538689, "grad_norm": 0.99533677, "learning_rate": 8.675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245013, "epoch": 1.18568488, "global_step/max_steps": "15555/65595", "percentage": "23.71%", "elapsed_time": "17h 38m 4s", "remaining_time": "2d 8h 43m 46s"}
+{"loss": 0.11464679, "token_acc": 0.96235294, "grad_norm": 0.55089557, "learning_rate": 8.675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245021, "epoch": 1.18606601, "global_step/max_steps": "15560/65595", "percentage": "23.72%", "elapsed_time": "17h 38m 22s", "remaining_time": "2d 8h 43m 19s"}
+{"loss": 0.13746432, "token_acc": 0.94978602, "grad_norm": 1.22857893, "learning_rate": 8.674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245046, "epoch": 1.18644714, "global_step/max_steps": "15565/65595", "percentage": "23.73%", "elapsed_time": "17h 38m 36s", "remaining_time": "2d 8h 42m 38s"}
+{"loss": 0.14445004, "token_acc": 0.9343758, "grad_norm": 1.78461516, "learning_rate": 8.673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24507, "epoch": 1.18682826, "global_step/max_steps": "15570/65595", "percentage": "23.74%", "elapsed_time": "17h 38m 50s", "remaining_time": "2d 8h 41m 58s"}
+{"loss": 0.15620584, "token_acc": 0.94693133, "grad_norm": 0.77352905, "learning_rate": 8.672e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245088, "epoch": 1.18720939, "global_step/max_steps": "15575/65595", "percentage": "23.74%", "elapsed_time": "17h 39m 6s", "remaining_time": "2d 8h 41m 22s"}
+{"loss": 0.17003367, "token_acc": 0.94443207, "grad_norm": 1.61242676, "learning_rate": 8.671e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245097, "epoch": 1.18759052, "global_step/max_steps": "15580/65595", "percentage": "23.75%", "elapsed_time": "17h 39m 24s", "remaining_time": "2d 8h 40m 54s"}
+{"loss": 0.15675766, "token_acc": 0.93837706, "grad_norm": 1.34323335, "learning_rate": 8.671e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245112, "epoch": 1.18797164, "global_step/max_steps": "15585/65595", "percentage": "23.76%", "elapsed_time": "17h 39m 40s", "remaining_time": "2d 8h 40m 21s"}
+{"loss": 0.11131103, "token_acc": 0.9613808, "grad_norm": 0.59448802, "learning_rate": 8.67e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245132, "epoch": 1.18835277, "global_step/max_steps": "15590/65595", "percentage": "23.77%", "elapsed_time": "17h 39m 56s", "remaining_time": "2d 8h 39m 45s"}
+{"loss": 0.11792599, "token_acc": 0.94874229, "grad_norm": 0.75077051, "learning_rate": 8.669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245155, "epoch": 1.1887339, "global_step/max_steps": "15595/65595", "percentage": "23.77%", "elapsed_time": "17h 40m 10s", "remaining_time": "2d 8h 39m 5s"}
+{"loss": 0.10193474, "token_acc": 0.95873397, "grad_norm": 0.49609959, "learning_rate": 8.668e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245171, "epoch": 1.18911502, "global_step/max_steps": "15600/65595", "percentage": "23.78%", "elapsed_time": "17h 40m 26s", "remaining_time": "2d 8h 38m 31s"}
+{"eval_loss": 0.10949928, "eval_token_acc": 0.94882838, "eval_runtime": 157.95, "eval_samples_per_second": 3.355, "eval_steps_per_second": 3.355, "epoch": 1.18911502, "global_step/max_steps": "15600/65595", "percentage": "23.78%", "elapsed_time": "17h 43m 4s", "remaining_time": "2d 8h 46m 57s"}
+{"loss": 0.09314852, "token_acc": 0.95003355, "grad_norm": 0.62548512, "learning_rate": 8.667e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24456, "epoch": 1.18949615, "global_step/max_steps": "15605/65595", "percentage": "23.79%", "elapsed_time": "17h 43m 26s", "remaining_time": "2d 8h 46m 40s"}
+{"loss": 0.15930067, "token_acc": 0.93873348, "grad_norm": 0.89404875, "learning_rate": 8.667e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244576, "epoch": 1.18987728, "global_step/max_steps": "15610/65595", "percentage": "23.80%", "elapsed_time": "17h 43m 42s", "remaining_time": "2d 8h 46m 6s"}
+{"loss": 0.15432335, "token_acc": 0.95172414, "grad_norm": 0.57357943, "learning_rate": 8.666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24458, "epoch": 1.1902584, "global_step/max_steps": "15615/65595", "percentage": "23.81%", "elapsed_time": "17h 44m 1s", "remaining_time": "2d 8h 45m 42s"}
+{"loss": 0.207407, "token_acc": 0.91424915, "grad_norm": 1.89298487, "learning_rate": 8.665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244607, "epoch": 1.19063953, "global_step/max_steps": "15620/65595", "percentage": "23.81%", "elapsed_time": "17h 44m 15s", "remaining_time": "2d 8h 44m 59s"}
+{"loss": 0.15379525, "token_acc": 0.94097302, "grad_norm": 1.50220954, "learning_rate": 8.664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244624, "epoch": 1.19102066, "global_step/max_steps": "15625/65595", "percentage": "23.82%", "elapsed_time": "17h 44m 31s", "remaining_time": "2d 8h 44m 25s"}
+{"loss": 0.06006485, "token_acc": 0.97897503, "grad_norm": 0.58577865, "learning_rate": 8.663e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244656, "epoch": 1.19140178, "global_step/max_steps": "15630/65595", "percentage": "23.83%", "elapsed_time": "17h 44m 43s", "remaining_time": "2d 8h 43m 38s"}
+{"loss": 0.07783631, "token_acc": 0.96169711, "grad_norm": 0.08278291, "learning_rate": 8.662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24468, "epoch": 1.19178291, "global_step/max_steps": "15635/65595", "percentage": "23.84%", "elapsed_time": "17h 44m 57s", "remaining_time": "2d 8h 42m 58s"}
+{"loss": 0.10311133, "token_acc": 0.949116, "grad_norm": 1.21537721, "learning_rate": 8.662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24471, "epoch": 1.19216404, "global_step/max_steps": "15640/65595", "percentage": "23.84%", "elapsed_time": "17h 45m 10s", "remaining_time": "2d 8h 42m 12s"}
+{"loss": 0.12466133, "token_acc": 0.94002726, "grad_norm": 0.21574956, "learning_rate": 8.661e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244729, "epoch": 1.19254516, "global_step/max_steps": "15645/65595", "percentage": "23.85%", "elapsed_time": "17h 45m 25s", "remaining_time": "2d 8h 41m 36s"}
+{"loss": 0.11552401, "token_acc": 0.95107176, "grad_norm": 1.62953401, "learning_rate": 8.66e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244759, "epoch": 1.19292629, "global_step/max_steps": "15650/65595", "percentage": "23.86%", "elapsed_time": "17h 45m 38s", "remaining_time": "2d 8h 40m 50s"}
+{"loss": 0.11986469, "token_acc": 0.94373464, "grad_norm": 0.03493613, "learning_rate": 8.659e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244785, "epoch": 1.19330742, "global_step/max_steps": "15655/65595", "percentage": "23.87%", "elapsed_time": "17h 45m 51s", "remaining_time": "2d 8h 40m 8s"}
+{"loss": 0.16565304, "token_acc": 0.93713813, "grad_norm": 0.84102631, "learning_rate": 8.658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244806, "epoch": 1.19368854, "global_step/max_steps": "15660/65595", "percentage": "23.87%", "elapsed_time": "17h 46m 6s", "remaining_time": "2d 8h 39m 30s"}
+{"loss": 0.1023947, "token_acc": 0.95515379, "grad_norm": 0.66002184, "learning_rate": 8.658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244832, "epoch": 1.19406967, "global_step/max_steps": "15665/65595", "percentage": "23.88%", "elapsed_time": "17h 46m 20s", "remaining_time": "2d 8h 38m 48s"}
+{"loss": 0.17225127, "token_acc": 0.93077407, "grad_norm": 1.13415337, "learning_rate": 8.657e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244857, "epoch": 1.1944508, "global_step/max_steps": "15670/65595", "percentage": "23.89%", "elapsed_time": "17h 46m 34s", "remaining_time": "2d 8h 38m 7s"}
+{"loss": 0.14840837, "token_acc": 0.94202899, "grad_norm": 0.87889647, "learning_rate": 8.656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244884, "epoch": 1.19483192, "global_step/max_steps": "15675/65595", "percentage": "23.90%", "elapsed_time": "17h 46m 47s", "remaining_time": "2d 8h 37m 24s"}
+{"loss": 0.13622861, "token_acc": 0.95157949, "grad_norm": 1.01090169, "learning_rate": 8.655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244904, "epoch": 1.19521305, "global_step/max_steps": "15680/65595", "percentage": "23.90%", "elapsed_time": "17h 47m 2s", "remaining_time": "2d 8h 36m 47s"}
+{"loss": 0.15194954, "token_acc": 0.9472768, "grad_norm": 1.69606102, "learning_rate": 8.654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244929, "epoch": 1.19559418, "global_step/max_steps": "15685/65595", "percentage": "23.91%", "elapsed_time": "17h 47m 16s", "remaining_time": "2d 8h 36m 6s"}
+{"loss": 0.15752742, "token_acc": 0.93894586, "grad_norm": 0.70765013, "learning_rate": 8.653e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24495, "epoch": 1.1959753, "global_step/max_steps": "15690/65595", "percentage": "23.92%", "elapsed_time": "17h 47m 31s", "remaining_time": "2d 8h 35m 28s"}
+{"loss": 0.13883682, "token_acc": 0.93724116, "grad_norm": 0.74829853, "learning_rate": 8.653e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244978, "epoch": 1.19635643, "global_step/max_steps": "15695/65595", "percentage": "23.93%", "elapsed_time": "17h 47m 44s", "remaining_time": "2d 8h 34m 44s"}
+{"loss": 0.09900745, "token_acc": 0.96332006, "grad_norm": 0.63962185, "learning_rate": 8.652e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244993, "epoch": 1.19673756, "global_step/max_steps": "15700/65595", "percentage": "23.93%", "elapsed_time": "17h 48m 1s", "remaining_time": "2d 8h 34m 11s"}
+{"loss": 0.13875976, "token_acc": 0.9521077, "grad_norm": 0.91703486, "learning_rate": 8.651e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245013, "epoch": 1.19711868, "global_step/max_steps": "15705/65595", "percentage": "23.94%", "elapsed_time": "17h 48m 16s", "remaining_time": "2d 8h 33m 34s"}
+{"loss": 0.17269354, "token_acc": 0.94537815, "grad_norm": 0.74215853, "learning_rate": 8.65e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245029, "epoch": 1.19749981, "global_step/max_steps": "15710/65595", "percentage": "23.95%", "elapsed_time": "17h 48m 32s", "remaining_time": "2d 8h 33m 1s"}
+{"loss": 0.17152791, "token_acc": 0.94195804, "grad_norm": 1.02723718, "learning_rate": 8.649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245044, "epoch": 1.19788094, "global_step/max_steps": "15715/65595", "percentage": "23.96%", "elapsed_time": "17h 48m 49s", "remaining_time": "2d 8h 32m 28s"}
+{"loss": 0.15956596, "token_acc": 0.94548495, "grad_norm": 0.90682536, "learning_rate": 8.649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245068, "epoch": 1.19826206, "global_step/max_steps": "15720/65595", "percentage": "23.97%", "elapsed_time": "17h 49m 3s", "remaining_time": "2d 8h 31m 48s"}
+{"loss": 0.12419443, "token_acc": 0.94628975, "grad_norm": 0.75807405, "learning_rate": 8.648e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245094, "epoch": 1.19864319, "global_step/max_steps": "15725/65595", "percentage": "23.97%", "elapsed_time": "17h 49m 16s", "remaining_time": "2d 8h 31m 5s"}
+{"loss": 0.16741663, "token_acc": 0.93271955, "grad_norm": 0.98028713, "learning_rate": 8.647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245121, "epoch": 1.19902432, "global_step/max_steps": "15730/65595", "percentage": "23.98%", "elapsed_time": "17h 49m 30s", "remaining_time": "2d 8h 30m 22s"}
+{"loss": 0.1807249, "token_acc": 0.93447446, "grad_norm": 0.99845684, "learning_rate": 8.646e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245135, "epoch": 1.19940544, "global_step/max_steps": "15735/65595", "percentage": "23.99%", "elapsed_time": "17h 49m 46s", "remaining_time": "2d 8h 29m 51s"}
+{"loss": 0.11003753, "token_acc": 0.95593779, "grad_norm": 1.04262328, "learning_rate": 8.645e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245155, "epoch": 1.19978657, "global_step/max_steps": "15740/65595", "percentage": "24.00%", "elapsed_time": "17h 50m 2s", "remaining_time": "2d 8h 29m 14s"}
+{"loss": 0.11582124, "token_acc": 0.94692443, "grad_norm": 1.40153694, "learning_rate": 8.644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245183, "epoch": 1.2001677, "global_step/max_steps": "15745/65595", "percentage": "24.00%", "elapsed_time": "17h 50m 15s", "remaining_time": "2d 8h 28m 30s"}
+{"loss": 0.15168804, "token_acc": 0.94208754, "grad_norm": 0.26828399, "learning_rate": 8.644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245209, "epoch": 1.20054882, "global_step/max_steps": "15750/65595", "percentage": "24.01%", "elapsed_time": "17h 50m 28s", "remaining_time": "2d 8h 27m 48s"}
+{"loss": 0.18277129, "token_acc": 0.92776476, "grad_norm": 0.96836853, "learning_rate": 8.643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245229, "epoch": 1.20092995, "global_step/max_steps": "15755/65595", "percentage": "24.02%", "elapsed_time": "17h 50m 43s", "remaining_time": "2d 8h 27m 11s"}
+{"loss": 0.16164229, "token_acc": 0.94851317, "grad_norm": 1.43987107, "learning_rate": 8.642e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245242, "epoch": 1.20131108, "global_step/max_steps": "15760/65595", "percentage": "24.03%", "elapsed_time": "17h 51m 0s", "remaining_time": "2d 8h 26m 40s"}
+{"loss": 0.14125606, "token_acc": 0.95701591, "grad_norm": 0.99301064, "learning_rate": 8.641e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24526, "epoch": 1.2016922, "global_step/max_steps": "15765/65595", "percentage": "24.03%", "elapsed_time": "17h 51m 16s", "remaining_time": "2d 8h 26m 5s"}
+{"loss": 0.17500603, "token_acc": 0.92682369, "grad_norm": 0.95776641, "learning_rate": 8.64e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245279, "epoch": 1.20207333, "global_step/max_steps": "15770/65595", "percentage": "24.04%", "elapsed_time": "17h 51m 31s", "remaining_time": "2d 8h 25m 28s"}
+{"loss": 0.10504404, "token_acc": 0.9545849, "grad_norm": 0.601538, "learning_rate": 8.64e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245302, "epoch": 1.20245446, "global_step/max_steps": "15775/65595", "percentage": "24.05%", "elapsed_time": "17h 51m 46s", "remaining_time": "2d 8h 24m 49s"}
+{"loss": 0.14085275, "token_acc": 0.94981413, "grad_norm": 0.61978811, "learning_rate": 8.639e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245306, "epoch": 1.20283558, "global_step/max_steps": "15780/65595", "percentage": "24.06%", "elapsed_time": "17h 52m 5s", "remaining_time": "2d 8h 24m 25s"}
+{"loss": 0.12354809, "token_acc": 0.9501192, "grad_norm": 0.49084654, "learning_rate": 8.638e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245318, "epoch": 1.20321671, "global_step/max_steps": "15785/65595", "percentage": "24.06%", "elapsed_time": "17h 52m 22s", "remaining_time": "2d 8h 23m 55s"}
+{"loss": 0.08869107, "token_acc": 0.96359743, "grad_norm": 0.70210445, "learning_rate": 8.637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245336, "epoch": 1.20359784, "global_step/max_steps": "15790/65595", "percentage": "24.07%", "elapsed_time": "17h 52m 38s", "remaining_time": "2d 8h 23m 20s"}
+{"loss": 0.10839877, "token_acc": 0.95524957, "grad_norm": 0.89171714, "learning_rate": 8.636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245359, "epoch": 1.20397896, "global_step/max_steps": "15795/65595", "percentage": "24.08%", "elapsed_time": "17h 52m 52s", "remaining_time": "2d 8h 22m 40s"}
+{"loss": 0.19416492, "token_acc": 0.94502341, "grad_norm": 0.47438985, "learning_rate": 8.635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245368, "epoch": 1.20436009, "global_step/max_steps": "15800/65595", "percentage": "24.09%", "elapsed_time": "17h 53m 10s", "remaining_time": "2d 8h 22m 13s"}
+{"eval_loss": 0.10888305, "eval_token_acc": 0.94946088, "eval_runtime": 160.7788, "eval_samples_per_second": 3.296, "eval_steps_per_second": 3.296, "epoch": 1.20436009, "global_step/max_steps": "15800/65595", "percentage": "24.09%", "elapsed_time": "17h 55m 51s", "remaining_time": "2d 8h 30m 39s"}
+{"loss": 0.1356735, "token_acc": 0.9492373, "grad_norm": 0.78278154, "learning_rate": 8.635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244767, "epoch": 1.20474122, "global_step/max_steps": "15805/65595", "percentage": "24.09%", "elapsed_time": "17h 56m 9s", "remaining_time": "2d 8h 30m 10s"}
+{"loss": 0.12117927, "token_acc": 0.96064375, "grad_norm": 0.40823287, "learning_rate": 8.634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244782, "epoch": 1.20512234, "global_step/max_steps": "15810/65595", "percentage": "24.10%", "elapsed_time": "17h 56m 25s", "remaining_time": "2d 8h 29m 38s"}
+{"loss": 0.13693579, "token_acc": 0.94818841, "grad_norm": 0.65258837, "learning_rate": 8.633e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244797, "epoch": 1.20550347, "global_step/max_steps": "15815/65595", "percentage": "24.11%", "elapsed_time": "17h 56m 42s", "remaining_time": "2d 8h 29m 5s"}
+{"loss": 0.1282608, "token_acc": 0.95044825, "grad_norm": 1.07397151, "learning_rate": 8.632e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244808, "epoch": 1.20588459, "global_step/max_steps": "15820/65595", "percentage": "24.12%", "elapsed_time": "17h 56m 59s", "remaining_time": "2d 8h 28m 35s"}
+{"loss": 0.13622546, "token_acc": 0.94237726, "grad_norm": 1.16177285, "learning_rate": 8.631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244831, "epoch": 1.20626572, "global_step/max_steps": "15825/65595", "percentage": "24.13%", "elapsed_time": "17h 57m 14s", "remaining_time": "2d 8h 27m 56s"}
+{"loss": 0.13062527, "token_acc": 0.94045534, "grad_norm": 1.60079277, "learning_rate": 8.631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244858, "epoch": 1.20664685, "global_step/max_steps": "15830/65595", "percentage": "24.13%", "elapsed_time": "17h 57m 27s", "remaining_time": "2d 8h 27m 13s"}
+{"loss": 0.13574251, "token_acc": 0.94772657, "grad_norm": 0.91409415, "learning_rate": 8.63e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244873, "epoch": 1.20702797, "global_step/max_steps": "15835/65595", "percentage": "24.14%", "elapsed_time": "17h 57m 43s", "remaining_time": "2d 8h 26m 40s"}
+{"loss": 0.10227219, "token_acc": 0.94767726, "grad_norm": 0.38835937, "learning_rate": 8.629e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244896, "epoch": 1.2074091, "global_step/max_steps": "15840/65595", "percentage": "24.15%", "elapsed_time": "17h 57m 58s", "remaining_time": "2d 8h 26m 0s"}
+{"loss": 0.10925573, "token_acc": 0.94749547, "grad_norm": 0.05199311, "learning_rate": 8.628e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244923, "epoch": 1.20779023, "global_step/max_steps": "15845/65595", "percentage": "24.16%", "elapsed_time": "17h 58m 11s", "remaining_time": "2d 8h 25m 17s"}
+{"loss": 0.23278034, "token_acc": 0.90883807, "grad_norm": 1.60140181, "learning_rate": 8.627e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244946, "epoch": 1.20817135, "global_step/max_steps": "15850/65595", "percentage": "24.16%", "elapsed_time": "17h 58m 25s", "remaining_time": "2d 8h 24m 38s"}
+{"loss": 0.09664826, "token_acc": 0.96230814, "grad_norm": 0.7493192, "learning_rate": 8.626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244966, "epoch": 1.20855248, "global_step/max_steps": "15855/65595", "percentage": "24.17%", "elapsed_time": "17h 58m 40s", "remaining_time": "2d 8h 24m 1s"}
+{"loss": 0.18731816, "token_acc": 0.92220219, "grad_norm": 1.0744592, "learning_rate": 8.626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244981, "epoch": 1.20893361, "global_step/max_steps": "15860/65595", "percentage": "24.18%", "elapsed_time": "17h 58m 57s", "remaining_time": "2d 8h 23m 28s"}
+{"loss": 0.14536923, "token_acc": 0.94117647, "grad_norm": 0.82301605, "learning_rate": 8.625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245002, "epoch": 1.20931473, "global_step/max_steps": "15865/65595", "percentage": "24.19%", "elapsed_time": "17h 59m 12s", "remaining_time": "2d 8h 22m 50s"}
+{"loss": 0.17896481, "token_acc": 0.92288557, "grad_norm": 1.11929095, "learning_rate": 8.624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245026, "epoch": 1.20969586, "global_step/max_steps": "15870/65595", "percentage": "24.19%", "elapsed_time": "17h 59m 26s", "remaining_time": "2d 8h 22m 10s"}
+{"loss": 0.19663693, "token_acc": 0.92534661, "grad_norm": 0.67413175, "learning_rate": 8.623e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245035, "epoch": 1.21007699, "global_step/max_steps": "15875/65595", "percentage": "24.20%", "elapsed_time": "17h 59m 44s", "remaining_time": "2d 8h 21m 43s"}
+{"loss": 0.10869426, "token_acc": 0.95177994, "grad_norm": 0.47300956, "learning_rate": 8.622e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245062, "epoch": 1.21045811, "global_step/max_steps": "15880/65595", "percentage": "24.21%", "elapsed_time": "17h 59m 57s", "remaining_time": "2d 8h 20m 59s"}
+{"loss": 0.12261606, "token_acc": 0.95432329, "grad_norm": 0.70655811, "learning_rate": 8.621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245055, "epoch": 1.21083924, "global_step/max_steps": "15885/65595", "percentage": "24.22%", "elapsed_time": "18h 0m 19s", "remaining_time": "2d 8h 20m 45s"}
+{"loss": 0.14339259, "token_acc": 0.94806404, "grad_norm": 0.92390674, "learning_rate": 8.621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245075, "epoch": 1.21122037, "global_step/max_steps": "15890/65595", "percentage": "24.22%", "elapsed_time": "18h 0m 35s", "remaining_time": "2d 8h 20m 8s"}
+{"loss": 0.12770411, "token_acc": 0.93587571, "grad_norm": 0.89281976, "learning_rate": 8.62e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245101, "epoch": 1.21160149, "global_step/max_steps": "15895/65595", "percentage": "24.23%", "elapsed_time": "18h 0m 48s", "remaining_time": "2d 8h 19m 26s"}
+{"loss": 0.12836328, "token_acc": 0.95293558, "grad_norm": 0.95075595, "learning_rate": 8.619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245122, "epoch": 1.21198262, "global_step/max_steps": "15900/65595", "percentage": "24.24%", "elapsed_time": "18h 1m 3s", "remaining_time": "2d 8h 18m 48s"}
+{"loss": 0.15555522, "token_acc": 0.94225025, "grad_norm": 1.39587629, "learning_rate": 8.618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24514, "epoch": 1.21236375, "global_step/max_steps": "15905/65595", "percentage": "24.25%", "elapsed_time": "18h 1m 19s", "remaining_time": "2d 8h 18m 13s"}
+{"loss": 0.10153658, "token_acc": 0.94421154, "grad_norm": 0.10395363, "learning_rate": 8.617e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245166, "epoch": 1.21274487, "global_step/max_steps": "15910/65595", "percentage": "24.25%", "elapsed_time": "18h 1m 32s", "remaining_time": "2d 8h 17m 31s"}
+{"loss": 0.12605407, "token_acc": 0.95368667, "grad_norm": 0.49249959, "learning_rate": 8.616e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245184, "epoch": 1.213126, "global_step/max_steps": "15915/65595", "percentage": "24.26%", "elapsed_time": "18h 1m 48s", "remaining_time": "2d 8h 16m 56s"}
+{"loss": 0.13689724, "token_acc": 0.92564892, "grad_norm": 0.14692093, "learning_rate": 8.616e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245213, "epoch": 1.21350713, "global_step/max_steps": "15920/65595", "percentage": "24.27%", "elapsed_time": "18h 2m 1s", "remaining_time": "2d 8h 16m 12s"}
+{"loss": 0.10539435, "token_acc": 0.9557763, "grad_norm": 0.61093509, "learning_rate": 8.615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245225, "epoch": 1.21388825, "global_step/max_steps": "15925/65595", "percentage": "24.28%", "elapsed_time": "18h 2m 18s", "remaining_time": "2d 8h 15m 41s"}
+{"loss": 0.126755, "token_acc": 0.9577239, "grad_norm": 0.7190029, "learning_rate": 8.614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245228, "epoch": 1.21426938, "global_step/max_steps": "15930/65595", "percentage": "24.29%", "elapsed_time": "18h 2m 37s", "remaining_time": "2d 8h 15m 18s"}
+{"loss": 0.16124549, "token_acc": 0.93258909, "grad_norm": 0.996342, "learning_rate": 8.613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245256, "epoch": 1.21465051, "global_step/max_steps": "15935/65595", "percentage": "24.29%", "elapsed_time": "18h 2m 50s", "remaining_time": "2d 8h 14m 35s"}
+{"loss": 0.15811887, "token_acc": 0.93256956, "grad_norm": 1.1787957, "learning_rate": 8.612e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245283, "epoch": 1.21503163, "global_step/max_steps": "15940/65595", "percentage": "24.30%", "elapsed_time": "18h 3m 3s", "remaining_time": "2d 8h 13m 52s"}
+{"loss": 0.15772945, "token_acc": 0.93764488, "grad_norm": 0.70189428, "learning_rate": 8.612e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245306, "epoch": 1.21541276, "global_step/max_steps": "15945/65595", "percentage": "24.31%", "elapsed_time": "18h 3m 18s", "remaining_time": "2d 8h 13m 13s"}
+{"loss": 0.12648573, "token_acc": 0.94514107, "grad_norm": 0.40290463, "learning_rate": 8.611e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245328, "epoch": 1.21579389, "global_step/max_steps": "15950/65595", "percentage": "24.32%", "elapsed_time": "18h 3m 32s", "remaining_time": "2d 8h 12m 35s"}
+{"loss": 0.19594244, "token_acc": 0.93929539, "grad_norm": 1.4024725, "learning_rate": 8.61e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245344, "epoch": 1.21617501, "global_step/max_steps": "15955/65595", "percentage": "24.32%", "elapsed_time": "18h 3m 48s", "remaining_time": "2d 8h 12m 1s"}
+{"loss": 0.14989123, "token_acc": 0.95053836, "grad_norm": 0.48563823, "learning_rate": 8.609e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245368, "epoch": 1.21655614, "global_step/max_steps": "15960/65595", "percentage": "24.33%", "elapsed_time": "18h 4m 2s", "remaining_time": "2d 8h 11m 20s"}
+{"loss": 0.19434042, "token_acc": 0.93585923, "grad_norm": 1.53155696, "learning_rate": 8.608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245382, "epoch": 1.21693727, "global_step/max_steps": "15965/65595", "percentage": "24.34%", "elapsed_time": "18h 4m 19s", "remaining_time": "2d 8h 10m 49s"}
+{"loss": 0.13692328, "token_acc": 0.94945434, "grad_norm": 2.98367357, "learning_rate": 8.607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245404, "epoch": 1.21731839, "global_step/max_steps": "15970/65595", "percentage": "24.35%", "elapsed_time": "18h 4m 34s", "remaining_time": "2d 8h 10m 10s"}
+{"loss": 0.1288263, "token_acc": 0.95151754, "grad_norm": 0.68094522, "learning_rate": 8.607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245424, "epoch": 1.21769952, "global_step/max_steps": "15975/65595", "percentage": "24.35%", "elapsed_time": "18h 4m 49s", "remaining_time": "2d 8h 9m 34s"}
+{"loss": 0.1478322, "token_acc": 0.93770292, "grad_norm": 1.2504375, "learning_rate": 8.606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245442, "epoch": 1.21808065, "global_step/max_steps": "15980/65595", "percentage": "24.36%", "elapsed_time": "18h 5m 4s", "remaining_time": "2d 8h 8m 58s"}
+{"loss": 0.10217789, "token_acc": 0.95729036, "grad_norm": 0.82037824, "learning_rate": 8.605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245454, "epoch": 1.21846177, "global_step/max_steps": "15985/65595", "percentage": "24.37%", "elapsed_time": "18h 5m 22s", "remaining_time": "2d 8h 8m 28s"}
+{"loss": 0.17598901, "token_acc": 0.92777427, "grad_norm": 0.77939916, "learning_rate": 8.604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245477, "epoch": 1.2188429, "global_step/max_steps": "15990/65595", "percentage": "24.38%", "elapsed_time": "18h 5m 36s", "remaining_time": "2d 8h 7m 48s"}
+{"loss": 0.18720703, "token_acc": 0.93349443, "grad_norm": 0.5459764, "learning_rate": 8.603e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245485, "epoch": 1.21922403, "global_step/max_steps": "15995/65595", "percentage": "24.38%", "elapsed_time": "18h 5m 54s", "remaining_time": "2d 8h 7m 22s"}
+{"loss": 0.13662257, "token_acc": 0.95475035, "grad_norm": 1.25322604, "learning_rate": 8.602e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2455, "epoch": 1.21960515, "global_step/max_steps": "16000/65595", "percentage": "24.39%", "elapsed_time": "18h 6m 10s", "remaining_time": "2d 8h 6m 49s"}
+{"eval_loss": 0.10765693, "eval_token_acc": 0.94998042, "eval_runtime": 161.6495, "eval_samples_per_second": 3.279, "eval_steps_per_second": 3.279, "epoch": 1.21960515, "global_step/max_steps": "16000/65595", "percentage": "24.39%", "elapsed_time": "18h 8m 52s", "remaining_time": "2d 8h 15m 10s"}
+{"loss": 0.17029469, "token_acc": 0.94965072, "grad_norm": 0.6384474, "learning_rate": 8.602e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244911, "epoch": 1.21998628, "global_step/max_steps": "16005/65595", "percentage": "24.40%", "elapsed_time": "18h 9m 8s", "remaining_time": "2d 8h 14m 35s"}
+{"loss": 0.1425406, "token_acc": 0.95485477, "grad_norm": 0.97261876, "learning_rate": 8.601e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244926, "epoch": 1.22036741, "global_step/max_steps": "16010/65595", "percentage": "24.41%", "elapsed_time": "18h 9m 24s", "remaining_time": "2d 8h 14m 1s"}
+{"loss": 0.12409054, "token_acc": 0.93404762, "grad_norm": 0.71824652, "learning_rate": 8.6e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244952, "epoch": 1.22074853, "global_step/max_steps": "16015/65595", "percentage": "24.41%", "elapsed_time": "18h 9m 37s", "remaining_time": "2d 8h 13m 19s"}
+{"loss": 0.13901689, "token_acc": 0.9472693, "grad_norm": 0.94168472, "learning_rate": 8.599e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244971, "epoch": 1.22112966, "global_step/max_steps": "16020/65595", "percentage": "24.42%", "elapsed_time": "18h 9m 53s", "remaining_time": "2d 8h 12m 43s"}
+{"loss": 0.10334191, "token_acc": 0.95385396, "grad_norm": 0.16284971, "learning_rate": 8.598e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245, "epoch": 1.22151079, "global_step/max_steps": "16025/65595", "percentage": "24.43%", "elapsed_time": "18h 10m 5s", "remaining_time": "2d 8h 11m 59s"}
+{"loss": 0.13739452, "token_acc": 0.94833117, "grad_norm": 0.87434125, "learning_rate": 8.597e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24499, "epoch": 1.22189191, "global_step/max_steps": "16030/65595", "percentage": "24.44%", "elapsed_time": "18h 10m 28s", "remaining_time": "2d 8h 11m 47s"}
+{"loss": 0.11962087, "token_acc": 0.95381905, "grad_norm": 0.47932202, "learning_rate": 8.597e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244997, "epoch": 1.22227304, "global_step/max_steps": "16035/65595", "percentage": "24.45%", "elapsed_time": "18h 10m 47s", "remaining_time": "2d 8h 11m 21s"}
+{"loss": 0.1155452, "token_acc": 0.95409556, "grad_norm": 0.64119381, "learning_rate": 8.596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245012, "epoch": 1.22265417, "global_step/max_steps": "16040/65595", "percentage": "24.45%", "elapsed_time": "18h 11m 3s", "remaining_time": "2d 8h 10m 48s"}
+{"loss": 0.20547345, "token_acc": 0.92594702, "grad_norm": 0.70815855, "learning_rate": 8.595e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245023, "epoch": 1.22303529, "global_step/max_steps": "16045/65595", "percentage": "24.46%", "elapsed_time": "18h 11m 21s", "remaining_time": "2d 8h 10m 19s"}
+{"loss": 0.12679923, "token_acc": 0.95331453, "grad_norm": 0.66821522, "learning_rate": 8.594e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245031, "epoch": 1.22341642, "global_step/max_steps": "16050/65595", "percentage": "24.47%", "elapsed_time": "18h 11m 39s", "remaining_time": "2d 8h 9m 51s"}
+{"loss": 0.15692455, "token_acc": 0.9481352, "grad_norm": 0.65237808, "learning_rate": 8.593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245051, "epoch": 1.22379755, "global_step/max_steps": "16055/65595", "percentage": "24.48%", "elapsed_time": "18h 11m 54s", "remaining_time": "2d 8h 9m 15s"}
+{"loss": 0.10363598, "token_acc": 0.95588433, "grad_norm": 0.85971349, "learning_rate": 8.592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245061, "epoch": 1.22417867, "global_step/max_steps": "16060/65595", "percentage": "24.48%", "elapsed_time": "18h 12m 12s", "remaining_time": "2d 8h 8m 46s"}
+{"loss": 0.12690383, "token_acc": 0.95378451, "grad_norm": 0.5574376, "learning_rate": 8.592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245054, "epoch": 1.2245598, "global_step/max_steps": "16065/65595", "percentage": "24.49%", "elapsed_time": "18h 12m 34s", "remaining_time": "2d 8h 8m 31s"}
+{"loss": 0.18539945, "token_acc": 0.9324474, "grad_norm": 0.63976163, "learning_rate": 8.591e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245071, "epoch": 1.22494093, "global_step/max_steps": "16070/65595", "percentage": "24.50%", "elapsed_time": "18h 12m 50s", "remaining_time": "2d 8h 7m 57s"}
+{"loss": 0.15264732, "token_acc": 0.9356623, "grad_norm": 0.50233883, "learning_rate": 8.59e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245094, "epoch": 1.22532205, "global_step/max_steps": "16075/65595", "percentage": "24.51%", "elapsed_time": "18h 13m 4s", "remaining_time": "2d 8h 7m 17s"}
+{"loss": 0.14215537, "token_acc": 0.94860884, "grad_norm": 0.74833155, "learning_rate": 8.589e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245104, "epoch": 1.22570318, "global_step/max_steps": "16080/65595", "percentage": "24.51%", "elapsed_time": "18h 13m 22s", "remaining_time": "2d 8h 6m 49s"}
+{"loss": 0.1358031, "token_acc": 0.93407466, "grad_norm": 0.91918612, "learning_rate": 8.588e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245125, "epoch": 1.22608431, "global_step/max_steps": "16085/65595", "percentage": "24.52%", "elapsed_time": "18h 13m 37s", "remaining_time": "2d 8h 6m 11s"}
+{"loss": 0.13323121, "token_acc": 0.94733348, "grad_norm": 1.45463431, "learning_rate": 8.587e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245144, "epoch": 1.22646543, "global_step/max_steps": "16090/65595", "percentage": "24.53%", "elapsed_time": "18h 13m 52s", "remaining_time": "2d 8h 5m 35s"}
+{"loss": 0.14846998, "token_acc": 0.94209772, "grad_norm": 1.09906936, "learning_rate": 8.587e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245154, "epoch": 1.22684656, "global_step/max_steps": "16095/65595", "percentage": "24.54%", "elapsed_time": "18h 14m 10s", "remaining_time": "2d 8h 5m 7s"}
+{"loss": 0.15352663, "token_acc": 0.94326726, "grad_norm": 0.89572841, "learning_rate": 8.586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245176, "epoch": 1.22722769, "global_step/max_steps": "16100/65595", "percentage": "24.54%", "elapsed_time": "18h 14m 24s", "remaining_time": "2d 8h 4m 28s"}
+{"loss": 0.11999896, "token_acc": 0.95936795, "grad_norm": 1.02199423, "learning_rate": 8.585e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245202, "epoch": 1.22760881, "global_step/max_steps": "16105/65595", "percentage": "24.55%", "elapsed_time": "18h 14m 38s", "remaining_time": "2d 8h 3m 46s"}
+{"loss": 0.13033831, "token_acc": 0.94809866, "grad_norm": 1.28879476, "learning_rate": 8.584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245222, "epoch": 1.22798994, "global_step/max_steps": "16110/65595", "percentage": "24.56%", "elapsed_time": "18h 14m 53s", "remaining_time": "2d 8h 3m 9s"}
+{"loss": 0.19755836, "token_acc": 0.93614912, "grad_norm": 1.10487592, "learning_rate": 8.583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245238, "epoch": 1.22837106, "global_step/max_steps": "16115/65595", "percentage": "24.57%", "elapsed_time": "18h 15m 9s", "remaining_time": "2d 8h 2m 36s"}
+{"loss": 0.14043872, "token_acc": 0.94783076, "grad_norm": 0.84711933, "learning_rate": 8.582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245255, "epoch": 1.22875219, "global_step/max_steps": "16120/65595", "percentage": "24.58%", "elapsed_time": "18h 15m 25s", "remaining_time": "2d 8h 2m 1s"}
+{"loss": 0.09041902, "token_acc": 0.9600461, "grad_norm": 0.23152922, "learning_rate": 8.582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245272, "epoch": 1.22913332, "global_step/max_steps": "16125/65595", "percentage": "24.58%", "elapsed_time": "18h 15m 41s", "remaining_time": "2d 8h 1m 27s"}
+{"loss": 0.13333459, "token_acc": 0.93825666, "grad_norm": 0.91427386, "learning_rate": 8.581e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245294, "epoch": 1.22951444, "global_step/max_steps": "16130/65595", "percentage": "24.59%", "elapsed_time": "18h 15m 55s", "remaining_time": "2d 8h 0m 49s"}
+{"loss": 0.1362276, "token_acc": 0.94695961, "grad_norm": 1.17016447, "learning_rate": 8.58e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245311, "epoch": 1.22989557, "global_step/max_steps": "16135/65595", "percentage": "24.60%", "elapsed_time": "18h 16m 11s", "remaining_time": "2d 8h 0m 14s"}
+{"loss": 0.13965021, "token_acc": 0.94132929, "grad_norm": 1.00739527, "learning_rate": 8.579e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245329, "epoch": 1.2302767, "global_step/max_steps": "16140/65595", "percentage": "24.61%", "elapsed_time": "18h 16m 27s", "remaining_time": "2d 7h 59m 39s"}
+{"loss": 0.13524644, "token_acc": 0.94487597, "grad_norm": 0.73380882, "learning_rate": 8.578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245351, "epoch": 1.23065782, "global_step/max_steps": "16145/65595", "percentage": "24.61%", "elapsed_time": "18h 16m 41s", "remaining_time": "2d 7h 59m 1s"}
+{"loss": 0.14350303, "token_acc": 0.9498313, "grad_norm": 0.56617272, "learning_rate": 8.577e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245359, "epoch": 1.23103895, "global_step/max_steps": "16150/65595", "percentage": "24.62%", "elapsed_time": "18h 16m 59s", "remaining_time": "2d 7h 58m 34s"}
+{"loss": 0.13511101, "token_acc": 0.94978098, "grad_norm": 0.77387375, "learning_rate": 8.577e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245369, "epoch": 1.23142008, "global_step/max_steps": "16155/65595", "percentage": "24.63%", "elapsed_time": "18h 17m 17s", "remaining_time": "2d 7h 58m 5s"}
+{"loss": 0.09294385, "token_acc": 0.95393192, "grad_norm": 0.7543453, "learning_rate": 8.576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245391, "epoch": 1.2318012, "global_step/max_steps": "16160/65595", "percentage": "24.64%", "elapsed_time": "18h 17m 31s", "remaining_time": "2d 7h 57m 27s"}
+{"loss": 0.10364333, "token_acc": 0.9556797, "grad_norm": 1.1241014, "learning_rate": 8.575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245408, "epoch": 1.23218233, "global_step/max_steps": "16165/65595", "percentage": "24.64%", "elapsed_time": "18h 17m 47s", "remaining_time": "2d 7h 56m 52s"}
+{"loss": 0.15829127, "token_acc": 0.94449795, "grad_norm": 0.62141329, "learning_rate": 8.574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24541, "epoch": 1.23256346, "global_step/max_steps": "16170/65595", "percentage": "24.65%", "elapsed_time": "18h 18m 7s", "remaining_time": "2d 7h 56m 30s"}
+{"loss": 0.14953094, "token_acc": 0.94286573, "grad_norm": 0.86043304, "learning_rate": 8.573e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245418, "epoch": 1.23294458, "global_step/max_steps": "16175/65595", "percentage": "24.66%", "elapsed_time": "18h 18m 25s", "remaining_time": "2d 7h 56m 3s"}
+{"loss": 0.1200089, "token_acc": 0.95533333, "grad_norm": 1.04559743, "learning_rate": 8.572e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245437, "epoch": 1.23332571, "global_step/max_steps": "16180/65595", "percentage": "24.67%", "elapsed_time": "18h 18m 41s", "remaining_time": "2d 7h 55m 28s"}
+{"loss": 0.15520564, "token_acc": 0.94477498, "grad_norm": 0.9940936, "learning_rate": 8.572e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245448, "epoch": 1.23370684, "global_step/max_steps": "16185/65595", "percentage": "24.67%", "elapsed_time": "18h 18m 58s", "remaining_time": "2d 7h 54m 58s"}
+{"loss": 0.12008628, "token_acc": 0.95492548, "grad_norm": 0.6602475, "learning_rate": 8.571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245456, "epoch": 1.23408796, "global_step/max_steps": "16190/65595", "percentage": "24.68%", "elapsed_time": "18h 19m 16s", "remaining_time": "2d 7h 54m 31s"}
+{"loss": 0.19270926, "token_acc": 0.91950035, "grad_norm": 0.43843433, "learning_rate": 8.57e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245481, "epoch": 1.23446909, "global_step/max_steps": "16195/65595", "percentage": "24.69%", "elapsed_time": "18h 19m 30s", "remaining_time": "2d 7h 53m 50s"}
+{"loss": 0.12809966, "token_acc": 0.95694469, "grad_norm": 1.04615271, "learning_rate": 8.569e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245498, "epoch": 1.23485022, "global_step/max_steps": "16200/65595", "percentage": "24.70%", "elapsed_time": "18h 19m 46s", "remaining_time": "2d 7h 53m 16s"}
+{"eval_loss": 0.10766288, "eval_token_acc": 0.949619, "eval_runtime": 161.5295, "eval_samples_per_second": 3.281, "eval_steps_per_second": 3.281, "epoch": 1.23485022, "global_step/max_steps": "16200/65595", "percentage": "24.70%", "elapsed_time": "18h 22m 27s", "remaining_time": "2d 8h 1m 29s"}
+{"loss": 0.12476699, "token_acc": 0.94977082, "grad_norm": 1.02277458, "learning_rate": 8.568e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244904, "epoch": 1.23523134, "global_step/max_steps": "16205/65595", "percentage": "24.70%", "elapsed_time": "18h 22m 46s", "remaining_time": "2d 8h 1m 3s"}
+{"loss": 0.17499225, "token_acc": 0.93208874, "grad_norm": 1.00884426, "learning_rate": 8.567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244928, "epoch": 1.23561247, "global_step/max_steps": "16210/65595", "percentage": "24.71%", "elapsed_time": "18h 23m 0s", "remaining_time": "2d 8h 0m 23s"}
+{"loss": 0.19828248, "token_acc": 0.93469557, "grad_norm": 0.83880067, "learning_rate": 8.567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244937, "epoch": 1.2359936, "global_step/max_steps": "16215/65595", "percentage": "24.72%", "elapsed_time": "18h 23m 18s", "remaining_time": "2d 7h 59m 56s"}
+{"loss": 0.15347192, "token_acc": 0.948241, "grad_norm": 1.34743345, "learning_rate": 8.566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244954, "epoch": 1.23637472, "global_step/max_steps": "16220/65595", "percentage": "24.73%", "elapsed_time": "18h 23m 34s", "remaining_time": "2d 7h 59m 21s"}
+{"loss": 0.13751211, "token_acc": 0.94800434, "grad_norm": 0.98228121, "learning_rate": 8.565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244975, "epoch": 1.23675585, "global_step/max_steps": "16225/65595", "percentage": "24.74%", "elapsed_time": "18h 23m 48s", "remaining_time": "2d 7h 58m 43s"}
+{"loss": 0.10468109, "token_acc": 0.95919071, "grad_norm": 1.3502332, "learning_rate": 8.564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24498, "epoch": 1.23713698, "global_step/max_steps": "16230/65595", "percentage": "24.74%", "elapsed_time": "18h 24m 8s", "remaining_time": "2d 7h 58m 19s"}
+{"loss": 0.16945064, "token_acc": 0.94349315, "grad_norm": 0.73405045, "learning_rate": 8.563e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244993, "epoch": 1.2375181, "global_step/max_steps": "16235/65595", "percentage": "24.75%", "elapsed_time": "18h 24m 25s", "remaining_time": "2d 7h 57m 48s"}
+{"loss": 0.14653047, "token_acc": 0.95079863, "grad_norm": 1.15264213, "learning_rate": 8.562e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245005, "epoch": 1.23789923, "global_step/max_steps": "16240/65595", "percentage": "24.76%", "elapsed_time": "18h 24m 42s", "remaining_time": "2d 7h 57m 17s"}
+{"loss": 0.10892183, "token_acc": 0.95312137, "grad_norm": 0.92515939, "learning_rate": 8.561e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245029, "epoch": 1.23828036, "global_step/max_steps": "16245/65595", "percentage": "24.77%", "elapsed_time": "18h 24m 56s", "remaining_time": "2d 7h 56m 37s"}
+{"loss": 0.14373908, "token_acc": 0.93778802, "grad_norm": 0.87803966, "learning_rate": 8.561e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245053, "epoch": 1.23866148, "global_step/max_steps": "16250/65595", "percentage": "24.77%", "elapsed_time": "18h 25m 9s", "remaining_time": "2d 7h 55m 57s"}
+{"loss": 0.11026409, "token_acc": 0.95631848, "grad_norm": 0.61743444, "learning_rate": 8.56e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245058, "epoch": 1.23904261, "global_step/max_steps": "16255/65595", "percentage": "24.78%", "elapsed_time": "18h 25m 29s", "remaining_time": "2d 7h 55m 33s"}
+{"loss": 0.17896136, "token_acc": 0.94356211, "grad_norm": 2.23939276, "learning_rate": 8.559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245078, "epoch": 1.23942374, "global_step/max_steps": "16260/65595", "percentage": "24.79%", "elapsed_time": "18h 25m 43s", "remaining_time": "2d 7h 54m 56s"}
+{"loss": 0.11942565, "token_acc": 0.9459268, "grad_norm": 0.88938528, "learning_rate": 8.558e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245101, "epoch": 1.23980486, "global_step/max_steps": "16265/65595", "percentage": "24.80%", "elapsed_time": "18h 25m 58s", "remaining_time": "2d 7h 54m 17s"}
+{"loss": 0.12961932, "token_acc": 0.94126705, "grad_norm": 0.94513273, "learning_rate": 8.557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24512, "epoch": 1.24018599, "global_step/max_steps": "16270/65595", "percentage": "24.80%", "elapsed_time": "18h 26m 13s", "remaining_time": "2d 7h 53m 40s"}
+{"loss": 0.11456368, "token_acc": 0.95645161, "grad_norm": 0.65116972, "learning_rate": 8.556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245147, "epoch": 1.24056712, "global_step/max_steps": "16275/65595", "percentage": "24.81%", "elapsed_time": "18h 26m 26s", "remaining_time": "2d 7h 52m 58s"}
+{"loss": 0.06572735, "token_acc": 0.96669134, "grad_norm": 1.46128118, "learning_rate": 8.556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245172, "epoch": 1.24094824, "global_step/max_steps": "16280/65595", "percentage": "24.82%", "elapsed_time": "18h 26m 40s", "remaining_time": "2d 7h 52m 17s"}
+{"loss": 0.09961251, "token_acc": 0.95281307, "grad_norm": 0.61850619, "learning_rate": 8.555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245185, "epoch": 1.24132937, "global_step/max_steps": "16285/65595", "percentage": "24.83%", "elapsed_time": "18h 26m 56s", "remaining_time": "2d 7h 51m 46s"}
+{"loss": 0.11793203, "token_acc": 0.95456225, "grad_norm": 0.9334349, "learning_rate": 8.554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24521, "epoch": 1.2417105, "global_step/max_steps": "16290/65595", "percentage": "24.83%", "elapsed_time": "18h 27m 10s", "remaining_time": "2d 7h 51m 5s"}
+{"loss": 0.09529297, "token_acc": 0.96517323, "grad_norm": 0.92999494, "learning_rate": 8.553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245222, "epoch": 1.24209162, "global_step/max_steps": "16295/65595", "percentage": "24.84%", "elapsed_time": "18h 27m 27s", "remaining_time": "2d 7h 50m 35s"}
+{"loss": 0.16186554, "token_acc": 0.93575478, "grad_norm": 1.36966181, "learning_rate": 8.552e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245239, "epoch": 1.24247275, "global_step/max_steps": "16300/65595", "percentage": "24.85%", "elapsed_time": "18h 27m 43s", "remaining_time": "2d 7h 50m 1s"}
+{"loss": 0.11763109, "token_acc": 0.95801627, "grad_norm": 1.83437419, "learning_rate": 8.551e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245261, "epoch": 1.24285388, "global_step/max_steps": "16305/65595", "percentage": "24.86%", "elapsed_time": "18h 27m 57s", "remaining_time": "2d 7h 49m 22s"}
+{"loss": 0.11769867, "token_acc": 0.95759566, "grad_norm": 1.04238319, "learning_rate": 8.551e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245272, "epoch": 1.243235, "global_step/max_steps": "16310/65595", "percentage": "24.86%", "elapsed_time": "18h 28m 15s", "remaining_time": "2d 7h 48m 53s"}
+{"loss": 0.12598065, "token_acc": 0.94405073, "grad_norm": 0.64018953, "learning_rate": 8.55e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245298, "epoch": 1.24361613, "global_step/max_steps": "16315/65595", "percentage": "24.87%", "elapsed_time": "18h 28m 28s", "remaining_time": "2d 7h 48m 11s"}
+{"loss": 0.18629682, "token_acc": 0.93665835, "grad_norm": 0.90185517, "learning_rate": 8.549e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245306, "epoch": 1.24399726, "global_step/max_steps": "16320/65595", "percentage": "24.88%", "elapsed_time": "18h 28m 46s", "remaining_time": "2d 7h 47m 44s"}
+{"loss": 0.13186516, "token_acc": 0.94609306, "grad_norm": 0.81298482, "learning_rate": 8.548e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245319, "epoch": 1.24437838, "global_step/max_steps": "16325/65595", "percentage": "24.89%", "elapsed_time": "18h 29m 3s", "remaining_time": "2d 7h 47m 13s"}
+{"loss": 0.1133868, "token_acc": 0.94988553, "grad_norm": 0.44746357, "learning_rate": 8.547e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245327, "epoch": 1.24475951, "global_step/max_steps": "16330/65595", "percentage": "24.90%", "elapsed_time": "18h 29m 21s", "remaining_time": "2d 7h 46m 46s"}
+{"loss": 0.12022822, "token_acc": 0.95585544, "grad_norm": 0.91369075, "learning_rate": 8.546e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245347, "epoch": 1.24514064, "global_step/max_steps": "16335/65595", "percentage": "24.90%", "elapsed_time": "18h 29m 36s", "remaining_time": "2d 7h 46m 9s"}
+{"loss": 0.12179215, "token_acc": 0.95653775, "grad_norm": 0.61026031, "learning_rate": 8.545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245355, "epoch": 1.24552176, "global_step/max_steps": "16340/65595", "percentage": "24.91%", "elapsed_time": "18h 29m 55s", "remaining_time": "2d 7h 45m 43s"}
+{"loss": 0.08639991, "token_acc": 0.96134607, "grad_norm": 0.8213858, "learning_rate": 8.545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245367, "epoch": 1.24590289, "global_step/max_steps": "16345/65595", "percentage": "24.92%", "elapsed_time": "18h 30m 12s", "remaining_time": "2d 7h 45m 13s"}
+{"loss": 0.16746289, "token_acc": 0.94068204, "grad_norm": 0.65002859, "learning_rate": 8.544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245387, "epoch": 1.24628402, "global_step/max_steps": "16350/65595", "percentage": "24.93%", "elapsed_time": "18h 30m 27s", "remaining_time": "2d 7h 44m 36s"}
+{"loss": 0.12734637, "token_acc": 0.95311653, "grad_norm": 0.95093542, "learning_rate": 8.543e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245401, "epoch": 1.24666514, "global_step/max_steps": "16355/65595", "percentage": "24.93%", "elapsed_time": "18h 30m 43s", "remaining_time": "2d 7h 44m 4s"}
+{"loss": 0.11243488, "token_acc": 0.95918367, "grad_norm": 0.73518658, "learning_rate": 8.542e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24543, "epoch": 1.24704627, "global_step/max_steps": "16360/65595", "percentage": "24.94%", "elapsed_time": "18h 30m 56s", "remaining_time": "2d 7h 43m 20s"}
+{"loss": 0.15277913, "token_acc": 0.93222749, "grad_norm": 1.11253381, "learning_rate": 8.541e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245455, "epoch": 1.2474274, "global_step/max_steps": "16365/65595", "percentage": "24.95%", "elapsed_time": "18h 31m 9s", "remaining_time": "2d 7h 42m 39s"}
+{"loss": 0.2022337, "token_acc": 0.92289922, "grad_norm": 1.07631385, "learning_rate": 8.54e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245477, "epoch": 1.24780852, "global_step/max_steps": "16370/65595", "percentage": "24.96%", "elapsed_time": "18h 31m 24s", "remaining_time": "2d 7h 42m 1s"}
+{"loss": 0.10317001, "token_acc": 0.9590985, "grad_norm": 1.18012428, "learning_rate": 8.54e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245501, "epoch": 1.24818965, "global_step/max_steps": "16375/65595", "percentage": "24.96%", "elapsed_time": "18h 31m 38s", "remaining_time": "2d 7h 41m 21s"}
+{"loss": 0.13459961, "token_acc": 0.944488, "grad_norm": 1.0889082, "learning_rate": 8.539e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245513, "epoch": 1.24857078, "global_step/max_steps": "16380/65595", "percentage": "24.97%", "elapsed_time": "18h 31m 55s", "remaining_time": "2d 7h 40m 51s"}
+{"loss": 0.15145862, "token_acc": 0.95264511, "grad_norm": 0.98781365, "learning_rate": 8.538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245528, "epoch": 1.2489519, "global_step/max_steps": "16385/65595", "percentage": "24.98%", "elapsed_time": "18h 32m 11s", "remaining_time": "2d 7h 40m 18s"}
+{"loss": 0.06706009, "token_acc": 0.97243492, "grad_norm": 0.62094802, "learning_rate": 8.537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245549, "epoch": 1.24933303, "global_step/max_steps": "16390/65595", "percentage": "24.99%", "elapsed_time": "18h 32m 26s", "remaining_time": "2d 7h 39m 40s"}
+{"loss": 0.10744179, "token_acc": 0.95305967, "grad_norm": 0.92167944, "learning_rate": 8.536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245564, "epoch": 1.24971416, "global_step/max_steps": "16395/65595", "percentage": "24.99%", "elapsed_time": "18h 32m 42s", "remaining_time": "2d 7h 39m 8s"}
+{"loss": 0.1042878, "token_acc": 0.96008689, "grad_norm": 0.59027362, "learning_rate": 8.535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245575, "epoch": 1.25009528, "global_step/max_steps": "16400/65595", "percentage": "25.00%", "elapsed_time": "18h 32m 59s", "remaining_time": "2d 7h 38m 39s"}
+{"eval_loss": 0.10671171, "eval_token_acc": 0.95033432, "eval_runtime": 160.9739, "eval_samples_per_second": 3.292, "eval_steps_per_second": 3.292, "epoch": 1.25009528, "global_step/max_steps": "16400/65595", "percentage": "25.00%", "elapsed_time": "18h 35m 40s", "remaining_time": "2d 7h 46m 41s"}
+{"loss": 0.09915532, "token_acc": 0.95056687, "grad_norm": 0.84660947, "learning_rate": 8.534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245, "epoch": 1.25047641, "global_step/max_steps": "16405/65595", "percentage": "25.01%", "elapsed_time": "18h 35m 56s", "remaining_time": "2d 7h 46m 8s"}
+{"loss": 0.16276128, "token_acc": 0.93936446, "grad_norm": 0.81980628, "learning_rate": 8.534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245022, "epoch": 1.25085753, "global_step/max_steps": "16410/65595", "percentage": "25.02%", "elapsed_time": "18h 36m 11s", "remaining_time": "2d 7h 45m 29s"}
+{"loss": 0.14997178, "token_acc": 0.94270377, "grad_norm": 0.98924029, "learning_rate": 8.533e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245034, "epoch": 1.25123866, "global_step/max_steps": "16415/65595", "percentage": "25.02%", "elapsed_time": "18h 36m 28s", "remaining_time": "2d 7h 44m 59s"}
+{"loss": 0.11156213, "token_acc": 0.96049927, "grad_norm": 0.92984784, "learning_rate": 8.532e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245047, "epoch": 1.25161979, "global_step/max_steps": "16420/65595", "percentage": "25.03%", "elapsed_time": "18h 36m 45s", "remaining_time": "2d 7h 44m 29s"}
+{"loss": 0.12091948, "token_acc": 0.95552224, "grad_norm": 1.02872777, "learning_rate": 8.531e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245057, "epoch": 1.25200091, "global_step/max_steps": "16425/65595", "percentage": "25.04%", "elapsed_time": "18h 37m 2s", "remaining_time": "2d 7h 44m 0s"}
+{"loss": 0.11415219, "token_acc": 0.95070074, "grad_norm": 0.63810694, "learning_rate": 8.53e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245064, "epoch": 1.25238204, "global_step/max_steps": "16430/65595", "percentage": "25.05%", "elapsed_time": "18h 37m 21s", "remaining_time": "2d 7h 43m 34s"}
+{"loss": 0.10267646, "token_acc": 0.96214343, "grad_norm": 0.44791332, "learning_rate": 8.529e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245087, "epoch": 1.25276317, "global_step/max_steps": "16435/65595", "percentage": "25.06%", "elapsed_time": "18h 37m 35s", "remaining_time": "2d 7h 42m 55s"}
+{"loss": 0.06668526, "token_acc": 0.96402375, "grad_norm": 0.61776817, "learning_rate": 8.529e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245113, "epoch": 1.25314429, "global_step/max_steps": "16440/65595", "percentage": "25.06%", "elapsed_time": "18h 37m 48s", "remaining_time": "2d 7h 42m 13s"}
+{"loss": 0.08779544, "token_acc": 0.95549374, "grad_norm": 0.59017473, "learning_rate": 8.528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245139, "epoch": 1.25352542, "global_step/max_steps": "16445/65595", "percentage": "25.07%", "elapsed_time": "18h 38m 2s", "remaining_time": "2d 7h 41m 32s"}
+{"loss": 0.10611989, "token_acc": 0.96221068, "grad_norm": 0.80097622, "learning_rate": 8.527e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245137, "epoch": 1.25390655, "global_step/max_steps": "16450/65595", "percentage": "25.08%", "elapsed_time": "18h 38m 23s", "remaining_time": "2d 7h 41m 13s"}
+{"loss": 0.14922209, "token_acc": 0.93690906, "grad_norm": 0.84327549, "learning_rate": 8.526e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245151, "epoch": 1.25428767, "global_step/max_steps": "16455/65595", "percentage": "25.09%", "elapsed_time": "18h 38m 39s", "remaining_time": "2d 7h 40m 40s"}
+{"loss": 0.12019533, "token_acc": 0.94859281, "grad_norm": 0.42287788, "learning_rate": 8.525e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245162, "epoch": 1.2546688, "global_step/max_steps": "16460/65595", "percentage": "25.09%", "elapsed_time": "18h 38m 56s", "remaining_time": "2d 7h 40m 11s"}
+{"loss": 0.12271336, "token_acc": 0.94333267, "grad_norm": 0.55720437, "learning_rate": 8.524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245184, "epoch": 1.25504993, "global_step/max_steps": "16465/65595", "percentage": "25.10%", "elapsed_time": "18h 39m 11s", "remaining_time": "2d 7h 39m 33s"}
+{"loss": 0.11233664, "token_acc": 0.95103498, "grad_norm": 0.84166837, "learning_rate": 8.523e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245195, "epoch": 1.25543105, "global_step/max_steps": "16470/65595", "percentage": "25.11%", "elapsed_time": "18h 39m 28s", "remaining_time": "2d 7h 39m 3s"}
+{"loss": 0.17379262, "token_acc": 0.93079657, "grad_norm": 0.87641817, "learning_rate": 8.523e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245215, "epoch": 1.25581218, "global_step/max_steps": "16475/65595", "percentage": "25.12%", "elapsed_time": "18h 39m 43s", "remaining_time": "2d 7h 38m 27s"}
+{"loss": 0.17483339, "token_acc": 0.92973766, "grad_norm": 1.22282135, "learning_rate": 8.522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245231, "epoch": 1.25619331, "global_step/max_steps": "16480/65595", "percentage": "25.12%", "elapsed_time": "18h 39m 59s", "remaining_time": "2d 7h 37m 53s"}
+{"loss": 0.12620114, "token_acc": 0.95473111, "grad_norm": 0.87298226, "learning_rate": 8.521e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245244, "epoch": 1.25657443, "global_step/max_steps": "16485/65595", "percentage": "25.13%", "elapsed_time": "18h 40m 16s", "remaining_time": "2d 7h 37m 23s"}
+{"loss": 0.09612629, "token_acc": 0.96453527, "grad_norm": 0.78892362, "learning_rate": 8.52e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245255, "epoch": 1.25695556, "global_step/max_steps": "16490/65595", "percentage": "25.14%", "elapsed_time": "18h 40m 33s", "remaining_time": "2d 7h 36m 53s"}
+{"loss": 0.1284969, "token_acc": 0.9383902, "grad_norm": 1.8017658, "learning_rate": 8.519e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24528, "epoch": 1.25733669, "global_step/max_steps": "16495/65595", "percentage": "25.15%", "elapsed_time": "18h 40m 47s", "remaining_time": "2d 7h 36m 12s"}
+{"loss": 0.12587478, "token_acc": 0.95273492, "grad_norm": 0.67868757, "learning_rate": 8.518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245293, "epoch": 1.25771781, "global_step/max_steps": "16500/65595", "percentage": "25.15%", "elapsed_time": "18h 41m 4s", "remaining_time": "2d 7h 35m 41s"}
+{"loss": 0.06280009, "token_acc": 0.96710208, "grad_norm": 0.07459103, "learning_rate": 8.517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245319, "epoch": 1.25809894, "global_step/max_steps": "16505/65595", "percentage": "25.16%", "elapsed_time": "18h 41m 17s", "remaining_time": "2d 7h 34m 59s"}
+{"loss": 0.1133903, "token_acc": 0.95021645, "grad_norm": 1.25634909, "learning_rate": 8.517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245345, "epoch": 1.25848007, "global_step/max_steps": "16510/65595", "percentage": "25.17%", "elapsed_time": "18h 41m 30s", "remaining_time": "2d 7h 34m 18s"}
+{"loss": 0.13147248, "token_acc": 0.93911535, "grad_norm": 0.46298981, "learning_rate": 8.516e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245364, "epoch": 1.25886119, "global_step/max_steps": "16515/65595", "percentage": "25.18%", "elapsed_time": "18h 41m 46s", "remaining_time": "2d 7h 33m 42s"}
+{"loss": 0.13074697, "token_acc": 0.9517058, "grad_norm": 0.64362454, "learning_rate": 8.515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245385, "epoch": 1.25924232, "global_step/max_steps": "16520/65595", "percentage": "25.18%", "elapsed_time": "18h 42m 0s", "remaining_time": "2d 7h 33m 5s"}
+{"loss": 0.14128497, "token_acc": 0.93708547, "grad_norm": 0.33527952, "learning_rate": 8.514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245406, "epoch": 1.25962345, "global_step/max_steps": "16525/65595", "percentage": "25.19%", "elapsed_time": "18h 42m 15s", "remaining_time": "2d 7h 32m 27s"}
+{"loss": 0.14635547, "token_acc": 0.95174944, "grad_norm": 1.05633914, "learning_rate": 8.513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24543, "epoch": 1.26000457, "global_step/max_steps": "16530/65595", "percentage": "25.20%", "elapsed_time": "18h 42m 28s", "remaining_time": "2d 7h 31m 47s"}
+{"loss": 0.09188921, "token_acc": 0.96408619, "grad_norm": 0.88955718, "learning_rate": 8.512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245462, "epoch": 1.2603857, "global_step/max_steps": "16535/65595", "percentage": "25.21%", "elapsed_time": "18h 42m 40s", "remaining_time": "2d 7h 31m 1s"}
+{"loss": 0.11151891, "token_acc": 0.94228913, "grad_norm": 0.81171679, "learning_rate": 8.512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245479, "epoch": 1.26076683, "global_step/max_steps": "16540/65595", "percentage": "25.22%", "elapsed_time": "18h 42m 56s", "remaining_time": "2d 7h 30m 27s"}
+{"loss": 0.09429635, "token_acc": 0.96033613, "grad_norm": 1.97285163, "learning_rate": 8.511e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245492, "epoch": 1.26114795, "global_step/max_steps": "16545/65595", "percentage": "25.22%", "elapsed_time": "18h 43m 12s", "remaining_time": "2d 7h 29m 55s"}
+{"loss": 0.17679689, "token_acc": 0.92706237, "grad_norm": 0.80587757, "learning_rate": 8.51e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245507, "epoch": 1.26152908, "global_step/max_steps": "16550/65595", "percentage": "25.23%", "elapsed_time": "18h 43m 29s", "remaining_time": "2d 7h 29m 23s"}
+{"loss": 0.12692869, "token_acc": 0.95479303, "grad_norm": 1.32282794, "learning_rate": 8.509e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245532, "epoch": 1.26191021, "global_step/max_steps": "16555/65595", "percentage": "25.24%", "elapsed_time": "18h 43m 42s", "remaining_time": "2d 7h 28m 42s"}
+{"loss": 0.11586323, "token_acc": 0.95313332, "grad_norm": 0.66178036, "learning_rate": 8.508e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245548, "epoch": 1.26229133, "global_step/max_steps": "16560/65595", "percentage": "25.25%", "elapsed_time": "18h 43m 58s", "remaining_time": "2d 7h 28m 9s"}
+{"loss": 0.12028145, "token_acc": 0.95751717, "grad_norm": 0.5419811, "learning_rate": 8.507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245552, "epoch": 1.26267246, "global_step/max_steps": "16565/65595", "percentage": "25.25%", "elapsed_time": "18h 44m 18s", "remaining_time": "2d 7h 27m 45s"}
+{"loss": 0.13043017, "token_acc": 0.95040401, "grad_norm": 1.1417501, "learning_rate": 8.506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245574, "epoch": 1.26305359, "global_step/max_steps": "16570/65595", "percentage": "25.26%", "elapsed_time": "18h 44m 32s", "remaining_time": "2d 7h 27m 7s"}
+{"loss": 0.14015455, "token_acc": 0.94855249, "grad_norm": 0.44056457, "learning_rate": 8.506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24559, "epoch": 1.26343471, "global_step/max_steps": "16575/65595", "percentage": "25.27%", "elapsed_time": "18h 44m 48s", "remaining_time": "2d 7h 26m 34s"}
+{"loss": 0.12750452, "token_acc": 0.95259467, "grad_norm": 0.7274105, "learning_rate": 8.505e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245613, "epoch": 1.26381584, "global_step/max_steps": "16580/65595", "percentage": "25.28%", "elapsed_time": "18h 45m 2s", "remaining_time": "2d 7h 25m 55s"}
+{"loss": 0.18542473, "token_acc": 0.92803504, "grad_norm": 1.75805569, "learning_rate": 8.504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245638, "epoch": 1.26419697, "global_step/max_steps": "16585/65595", "percentage": "25.28%", "elapsed_time": "18h 45m 15s", "remaining_time": "2d 7h 25m 14s"}
+{"loss": 0.10515034, "token_acc": 0.95761515, "grad_norm": 0.22889875, "learning_rate": 8.503e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24566, "epoch": 1.26457809, "global_step/max_steps": "16590/65595", "percentage": "25.29%", "elapsed_time": "18h 45m 30s", "remaining_time": "2d 7h 24m 36s"}
+{"loss": 0.12585875, "token_acc": 0.94141769, "grad_norm": 0.91612995, "learning_rate": 8.502e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245685, "epoch": 1.26495922, "global_step/max_steps": "16595/65595", "percentage": "25.30%", "elapsed_time": "18h 45m 43s", "remaining_time": "2d 7h 23m 56s"}
+{"loss": 0.13267002, "token_acc": 0.97012579, "grad_norm": 0.54592222, "learning_rate": 8.501e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245708, "epoch": 1.26534035, "global_step/max_steps": "16600/65595", "percentage": "25.31%", "elapsed_time": "18h 45m 57s", "remaining_time": "2d 7h 23m 17s"}
+{"eval_loss": 0.1084329, "eval_token_acc": 0.95020631, "eval_runtime": 164.2228, "eval_samples_per_second": 3.227, "eval_steps_per_second": 3.227, "epoch": 1.26534035, "global_step/max_steps": "16600/65595", "percentage": "25.31%", "elapsed_time": "18h 48m 41s", "remaining_time": "2d 7h 31m 21s"}
+{"loss": 0.09482348, "token_acc": 0.95049584, "grad_norm": 0.62803125, "learning_rate": 8.5e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245132, "epoch": 1.26572147, "global_step/max_steps": "16605/65595", "percentage": "25.31%", "elapsed_time": "18h 48m 56s", "remaining_time": "2d 7h 30m 45s"}
+{"loss": 0.12856109, "token_acc": 0.95461074, "grad_norm": 0.70715249, "learning_rate": 8.5e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245156, "epoch": 1.2661026, "global_step/max_steps": "16610/65595", "percentage": "25.32%", "elapsed_time": "18h 49m 10s", "remaining_time": "2d 7h 30m 5s"}
+{"loss": 0.13119885, "token_acc": 0.94565217, "grad_norm": 1.64783239, "learning_rate": 8.499e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245179, "epoch": 1.26648373, "global_step/max_steps": "16615/65595", "percentage": "25.33%", "elapsed_time": "18h 49m 24s", "remaining_time": "2d 7h 29m 25s"}
+{"loss": 0.12816852, "token_acc": 0.94821841, "grad_norm": 0.70570934, "learning_rate": 8.498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245202, "epoch": 1.26686485, "global_step/max_steps": "16620/65595", "percentage": "25.34%", "elapsed_time": "18h 49m 38s", "remaining_time": "2d 7h 28m 46s"}
+{"loss": 0.13958743, "token_acc": 0.94760981, "grad_norm": 1.03108537, "learning_rate": 8.497e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245216, "epoch": 1.26724598, "global_step/max_steps": "16625/65595", "percentage": "25.34%", "elapsed_time": "18h 49m 55s", "remaining_time": "2d 7h 28m 14s"}
+{"loss": 0.14560294, "token_acc": 0.93916428, "grad_norm": 0.52190864, "learning_rate": 8.496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24524, "epoch": 1.26762711, "global_step/max_steps": "16630/65595", "percentage": "25.35%", "elapsed_time": "18h 50m 8s", "remaining_time": "2d 7h 27m 35s"}
+{"loss": 0.1586533, "token_acc": 0.93340757, "grad_norm": 0.70370752, "learning_rate": 8.495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245261, "epoch": 1.26800823, "global_step/max_steps": "16635/65595", "percentage": "25.36%", "elapsed_time": "18h 50m 23s", "remaining_time": "2d 7h 26m 57s"}
+{"loss": 0.12828025, "token_acc": 0.9384019, "grad_norm": 1.05743706, "learning_rate": 8.494e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245282, "epoch": 1.26838936, "global_step/max_steps": "16640/65595", "percentage": "25.37%", "elapsed_time": "18h 50m 37s", "remaining_time": "2d 7h 26m 19s"}
+{"loss": 0.12425238, "token_acc": 0.95279621, "grad_norm": 0.69397724, "learning_rate": 8.494e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245298, "epoch": 1.26877049, "global_step/max_steps": "16645/65595", "percentage": "25.38%", "elapsed_time": "18h 50m 53s", "remaining_time": "2d 7h 25m 46s"}
+{"loss": 0.17778324, "token_acc": 0.93517671, "grad_norm": 0.69515485, "learning_rate": 8.493e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24531, "epoch": 1.26915161, "global_step/max_steps": "16650/65595", "percentage": "25.38%", "elapsed_time": "18h 51m 10s", "remaining_time": "2d 7h 25m 16s"}
+{"loss": 0.13065206, "token_acc": 0.9449127, "grad_norm": 1.30330598, "learning_rate": 8.492e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245334, "epoch": 1.26953274, "global_step/max_steps": "16655/65595", "percentage": "25.39%", "elapsed_time": "18h 51m 24s", "remaining_time": "2d 7h 24m 36s"}
+{"loss": 0.09996623, "token_acc": 0.95359629, "grad_norm": 0.62360632, "learning_rate": 8.491e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245353, "epoch": 1.26991387, "global_step/max_steps": "16660/65595", "percentage": "25.40%", "elapsed_time": "18h 51m 39s", "remaining_time": "2d 7h 24m 0s"}
+{"loss": 0.09706243, "token_acc": 0.96245734, "grad_norm": 0.84112543, "learning_rate": 8.49e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245379, "epoch": 1.27029499, "global_step/max_steps": "16665/65595", "percentage": "25.41%", "elapsed_time": "18h 51m 53s", "remaining_time": "2d 7h 23m 19s"}
+{"loss": 0.12115948, "token_acc": 0.95649073, "grad_norm": 0.65168166, "learning_rate": 8.489e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245389, "epoch": 1.27067612, "global_step/max_steps": "16670/65595", "percentage": "25.41%", "elapsed_time": "18h 52m 10s", "remaining_time": "2d 7h 22m 50s"}
+{"loss": 0.11309378, "token_acc": 0.95619208, "grad_norm": 0.90331626, "learning_rate": 8.488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245405, "epoch": 1.27105725, "global_step/max_steps": "16675/65595", "percentage": "25.42%", "elapsed_time": "18h 52m 26s", "remaining_time": "2d 7h 22m 17s"}
+{"loss": 0.08474704, "token_acc": 0.96519084, "grad_norm": 0.60267633, "learning_rate": 8.488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245418, "epoch": 1.27143837, "global_step/max_steps": "16680/65595", "percentage": "25.43%", "elapsed_time": "18h 52m 43s", "remaining_time": "2d 7h 21m 46s"}
+{"loss": 0.07867011, "token_acc": 0.96662031, "grad_norm": 0.3336553, "learning_rate": 8.487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245446, "epoch": 1.2718195, "global_step/max_steps": "16685/65595", "percentage": "25.44%", "elapsed_time": "18h 52m 55s", "remaining_time": "2d 7h 21m 3s"}
+{"loss": 0.14551275, "token_acc": 0.92830655, "grad_norm": 2.16078687, "learning_rate": 8.486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245471, "epoch": 1.27220063, "global_step/max_steps": "16690/65595", "percentage": "25.44%", "elapsed_time": "18h 53m 9s", "remaining_time": "2d 7h 20m 22s"}
+{"loss": 0.10835865, "token_acc": 0.96341463, "grad_norm": 1.30217886, "learning_rate": 8.485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245492, "epoch": 1.27258175, "global_step/max_steps": "16695/65595", "percentage": "25.45%", "elapsed_time": "18h 53m 24s", "remaining_time": "2d 7h 19m 45s"}
+{"loss": 0.15383527, "token_acc": 0.94337486, "grad_norm": 0.95396537, "learning_rate": 8.484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245504, "epoch": 1.27296288, "global_step/max_steps": "16700/65595", "percentage": "25.46%", "elapsed_time": "18h 53m 41s", "remaining_time": "2d 7h 19m 15s"}
+{"loss": 0.13168886, "token_acc": 0.92920354, "grad_norm": 1.08843517, "learning_rate": 8.483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245528, "epoch": 1.273344, "global_step/max_steps": "16705/65595", "percentage": "25.47%", "elapsed_time": "18h 53m 54s", "remaining_time": "2d 7h 18m 34s"}
+{"loss": 0.1096549, "token_acc": 0.95172084, "grad_norm": 0.76204532, "learning_rate": 8.482e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245555, "epoch": 1.27372513, "global_step/max_steps": "16710/65595", "percentage": "25.47%", "elapsed_time": "18h 54m 7s", "remaining_time": "2d 7h 17m 52s"}
+{"loss": 0.17378018, "token_acc": 0.93571188, "grad_norm": 1.46508563, "learning_rate": 8.482e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24558, "epoch": 1.27410626, "global_step/max_steps": "16715/65595", "percentage": "25.48%", "elapsed_time": "18h 54m 21s", "remaining_time": "2d 7h 17m 12s"}
+{"loss": 0.08627678, "token_acc": 0.96648045, "grad_norm": 2.78814006, "learning_rate": 8.481e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245603, "epoch": 1.27448738, "global_step/max_steps": "16720/65595", "percentage": "25.49%", "elapsed_time": "18h 54m 35s", "remaining_time": "2d 7h 16m 33s"}
+{"loss": 0.13692901, "token_acc": 0.93340564, "grad_norm": 0.96891814, "learning_rate": 8.48e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245624, "epoch": 1.27486851, "global_step/max_steps": "16725/65595", "percentage": "25.50%", "elapsed_time": "18h 54m 49s", "remaining_time": "2d 7h 15m 56s"}
+{"loss": 0.13685139, "token_acc": 0.95512728, "grad_norm": 0.56571615, "learning_rate": 8.479e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245635, "epoch": 1.27524964, "global_step/max_steps": "16730/65595", "percentage": "25.50%", "elapsed_time": "18h 55m 7s", "remaining_time": "2d 7h 15m 27s"}
+{"loss": 0.08421672, "token_acc": 0.96419098, "grad_norm": 0.64598209, "learning_rate": 8.478e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245653, "epoch": 1.27563076, "global_step/max_steps": "16735/65595", "percentage": "25.51%", "elapsed_time": "18h 55m 22s", "remaining_time": "2d 7h 14m 52s"}
+{"loss": 0.13019054, "token_acc": 0.94783676, "grad_norm": 0.51402617, "learning_rate": 8.477e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245661, "epoch": 1.27601189, "global_step/max_steps": "16740/65595", "percentage": "25.52%", "elapsed_time": "18h 55m 40s", "remaining_time": "2d 7h 14m 25s"}
+{"loss": 0.18440454, "token_acc": 0.93026532, "grad_norm": 0.97787505, "learning_rate": 8.476e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24568, "epoch": 1.27639302, "global_step/max_steps": "16745/65595", "percentage": "25.53%", "elapsed_time": "18h 55m 55s", "remaining_time": "2d 7h 13m 49s"}
+{"loss": 0.14349089, "token_acc": 0.9518222, "grad_norm": 1.3635205, "learning_rate": 8.476e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24569, "epoch": 1.27677414, "global_step/max_steps": "16750/65595", "percentage": "25.54%", "elapsed_time": "18h 56m 13s", "remaining_time": "2d 7h 13m 21s"}
+{"loss": 0.10252753, "token_acc": 0.95299562, "grad_norm": 0.55750418, "learning_rate": 8.475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245711, "epoch": 1.27715527, "global_step/max_steps": "16755/65595", "percentage": "25.54%", "elapsed_time": "18h 56m 27s", "remaining_time": "2d 7h 12m 43s"}
+{"loss": 0.12319101, "token_acc": 0.93921318, "grad_norm": 0.87837166, "learning_rate": 8.474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245725, "epoch": 1.2775364, "global_step/max_steps": "16760/65595", "percentage": "25.55%", "elapsed_time": "18h 56m 43s", "remaining_time": "2d 7h 12m 11s"}
+{"loss": 0.10819823, "token_acc": 0.96130031, "grad_norm": 0.65885788, "learning_rate": 8.473e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245741, "epoch": 1.27791752, "global_step/max_steps": "16765/65595", "percentage": "25.56%", "elapsed_time": "18h 56m 59s", "remaining_time": "2d 7h 11m 38s"}
+{"loss": 0.10308421, "token_acc": 0.95948999, "grad_norm": 0.61640489, "learning_rate": 8.472e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245751, "epoch": 1.27829865, "global_step/max_steps": "16770/65595", "percentage": "25.57%", "elapsed_time": "18h 57m 17s", "remaining_time": "2d 7h 11m 10s"}
+{"loss": 0.08818424, "token_acc": 0.96330275, "grad_norm": 1.17940223, "learning_rate": 8.471e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245774, "epoch": 1.27867978, "global_step/max_steps": "16775/65595", "percentage": "25.57%", "elapsed_time": "18h 57m 31s", "remaining_time": "2d 7h 10m 31s"}
+{"loss": 0.13655853, "token_acc": 0.94328979, "grad_norm": 0.74684918, "learning_rate": 8.47e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245797, "epoch": 1.2790609, "global_step/max_steps": "16780/65595", "percentage": "25.58%", "elapsed_time": "18h 57m 45s", "remaining_time": "2d 7h 9m 52s"}
+{"loss": 0.11959813, "token_acc": 0.96057473, "grad_norm": 0.73315144, "learning_rate": 8.47e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245811, "epoch": 1.27944203, "global_step/max_steps": "16785/65595", "percentage": "25.59%", "elapsed_time": "18h 58m 2s", "remaining_time": "2d 7h 9m 20s"}
+{"loss": 0.2545763, "token_acc": 0.91338242, "grad_norm": 1.1030612, "learning_rate": 8.469e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245828, "epoch": 1.27982316, "global_step/max_steps": "16790/65595", "percentage": "25.60%", "elapsed_time": "18h 58m 17s", "remaining_time": "2d 7h 8m 46s"}
+{"loss": 0.08735077, "token_acc": 0.97281831, "grad_norm": 0.35091218, "learning_rate": 8.468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24585, "epoch": 1.28020428, "global_step/max_steps": "16795/65595", "percentage": "25.60%", "elapsed_time": "18h 58m 31s", "remaining_time": "2d 7h 8m 8s"}
+{"loss": 0.08531662, "token_acc": 0.95990975, "grad_norm": 0.6249541, "learning_rate": 8.467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245865, "epoch": 1.28058541, "global_step/max_steps": "16800/65595", "percentage": "25.61%", "elapsed_time": "18h 58m 48s", "remaining_time": "2d 7h 7m 36s"}
+{"eval_loss": 0.11012813, "eval_token_acc": 0.95001054, "eval_runtime": 160.0252, "eval_samples_per_second": 3.312, "eval_steps_per_second": 3.312, "epoch": 1.28058541, "global_step/max_steps": "16800/65595", "percentage": "25.61%", "elapsed_time": "19h 1m 28s", "remaining_time": "2d 7h 15m 21s"}
+{"loss": 0.21175425, "token_acc": 0.94904627, "grad_norm": 1.10831869, "learning_rate": 8.466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245313, "epoch": 1.28096654, "global_step/max_steps": "16805/65595", "percentage": "25.62%", "elapsed_time": "19h 1m 42s", "remaining_time": "2d 7h 14m 42s"}
+{"loss": 0.13501792, "token_acc": 0.94953214, "grad_norm": 1.0545336, "learning_rate": 8.465e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245322, "epoch": 1.28134766, "global_step/max_steps": "16810/65595", "percentage": "25.63%", "elapsed_time": "19h 2m 0s", "remaining_time": "2d 7h 14m 14s"}
+{"loss": 0.10566951, "token_acc": 0.95391705, "grad_norm": 0.66428238, "learning_rate": 8.464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245341, "epoch": 1.28172879, "global_step/max_steps": "16815/65595", "percentage": "25.63%", "elapsed_time": "19h 2m 14s", "remaining_time": "2d 7h 13m 38s"}
+{"loss": 0.08803196, "token_acc": 0.95533074, "grad_norm": 1.0369283, "learning_rate": 8.463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245349, "epoch": 1.28210992, "global_step/max_steps": "16820/65595", "percentage": "25.64%", "elapsed_time": "19h 2m 33s", "remaining_time": "2d 7h 13m 11s"}
+{"loss": 0.14360316, "token_acc": 0.94458438, "grad_norm": 1.9384706, "learning_rate": 8.463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24537, "epoch": 1.28249104, "global_step/max_steps": "16825/65595", "percentage": "25.65%", "elapsed_time": "19h 2m 47s", "remaining_time": "2d 7h 12m 34s"}
+{"loss": 0.11990577, "token_acc": 0.96527778, "grad_norm": 0.63317156, "learning_rate": 8.462e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245385, "epoch": 1.28287217, "global_step/max_steps": "16830/65595", "percentage": "25.66%", "elapsed_time": "19h 3m 3s", "remaining_time": "2d 7h 12m 1s"}
+{"loss": 0.18707532, "token_acc": 0.93808125, "grad_norm": 0.49716452, "learning_rate": 8.461e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245404, "epoch": 1.2832533, "global_step/max_steps": "16835/65595", "percentage": "25.67%", "elapsed_time": "19h 3m 18s", "remaining_time": "2d 7h 11m 26s"}
+{"loss": 0.13146095, "token_acc": 0.95340502, "grad_norm": 0.91220528, "learning_rate": 8.46e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245425, "epoch": 1.28363442, "global_step/max_steps": "16840/65595", "percentage": "25.67%", "elapsed_time": "19h 3m 33s", "remaining_time": "2d 7h 10m 48s"}
+{"loss": 0.12091308, "token_acc": 0.94752496, "grad_norm": 1.08556664, "learning_rate": 8.459e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245443, "epoch": 1.28401555, "global_step/max_steps": "16845/65595", "percentage": "25.68%", "elapsed_time": "19h 3m 48s", "remaining_time": "2d 7h 10m 13s"}
+{"loss": 0.11455096, "token_acc": 0.95451156, "grad_norm": 0.23356076, "learning_rate": 8.458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245461, "epoch": 1.28439668, "global_step/max_steps": "16850/65595", "percentage": "25.69%", "elapsed_time": "19h 4m 4s", "remaining_time": "2d 7h 9m 38s"}
+{"loss": 0.15824854, "token_acc": 0.93726284, "grad_norm": 1.39105189, "learning_rate": 8.457e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245482, "epoch": 1.2847778, "global_step/max_steps": "16855/65595", "percentage": "25.70%", "elapsed_time": "19h 4m 18s", "remaining_time": "2d 7h 9m 2s"}
+{"loss": 0.14768088, "token_acc": 0.950667, "grad_norm": 0.63808286, "learning_rate": 8.457e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245504, "epoch": 1.28515893, "global_step/max_steps": "16860/65595", "percentage": "25.70%", "elapsed_time": "19h 4m 32s", "remaining_time": "2d 7h 8m 23s"}
+{"loss": 0.12844827, "token_acc": 0.94909464, "grad_norm": 0.55153537, "learning_rate": 8.456e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245518, "epoch": 1.28554006, "global_step/max_steps": "16865/65595", "percentage": "25.71%", "elapsed_time": "19h 4m 49s", "remaining_time": "2d 7h 7m 51s"}
+{"loss": 0.1467849, "token_acc": 0.9423901, "grad_norm": 0.80301237, "learning_rate": 8.455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245528, "epoch": 1.28592118, "global_step/max_steps": "16870/65595", "percentage": "25.72%", "elapsed_time": "19h 5m 6s", "remaining_time": "2d 7h 7m 23s"}
+{"loss": 0.11741855, "token_acc": 0.96066455, "grad_norm": 1.04027128, "learning_rate": 8.454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245528, "epoch": 1.28630231, "global_step/max_steps": "16875/65595", "percentage": "25.73%", "elapsed_time": "19h 5m 27s", "remaining_time": "2d 7h 7m 2s"}
+{"loss": 0.09133844, "token_acc": 0.96477052, "grad_norm": 0.83467889, "learning_rate": 8.453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24554, "epoch": 1.28668344, "global_step/max_steps": "16880/65595", "percentage": "25.73%", "elapsed_time": "19h 5m 44s", "remaining_time": "2d 7h 6m 33s"}
+{"loss": 0.09476844, "token_acc": 0.94334651, "grad_norm": 0.34645343, "learning_rate": 8.452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245565, "epoch": 1.28706456, "global_step/max_steps": "16885/65595", "percentage": "25.74%", "elapsed_time": "19h 5m 57s", "remaining_time": "2d 7h 5m 52s"}
+{"loss": 0.15775564, "token_acc": 0.93741991, "grad_norm": 0.72860128, "learning_rate": 8.451e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245586, "epoch": 1.28744569, "global_step/max_steps": "16890/65595", "percentage": "25.75%", "elapsed_time": "19h 6m 12s", "remaining_time": "2d 7h 5m 15s"}
+{"loss": 0.14544072, "token_acc": 0.95424504, "grad_norm": 1.02791595, "learning_rate": 8.451e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245613, "epoch": 1.28782682, "global_step/max_steps": "16895/65595", "percentage": "25.76%", "elapsed_time": "19h 6m 24s", "remaining_time": "2d 7h 4m 32s"}
+{"loss": 0.11688372, "token_acc": 0.95646372, "grad_norm": 0.72532809, "learning_rate": 8.45e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245628, "epoch": 1.28820794, "global_step/max_steps": "16900/65595", "percentage": "25.76%", "elapsed_time": "19h 6m 41s", "remaining_time": "2d 7h 4m 0s"}
+{"loss": 0.0718585, "token_acc": 0.96426217, "grad_norm": 0.81499577, "learning_rate": 8.449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245639, "epoch": 1.28858907, "global_step/max_steps": "16905/65595", "percentage": "25.77%", "elapsed_time": "19h 6m 58s", "remaining_time": "2d 7h 3m 31s"}
+{"loss": 0.13652395, "token_acc": 0.95062041, "grad_norm": 0.86362213, "learning_rate": 8.448e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245651, "epoch": 1.2889702, "global_step/max_steps": "16910/65595", "percentage": "25.78%", "elapsed_time": "19h 7m 15s", "remaining_time": "2d 7h 3m 1s"}
+{"loss": 0.09272124, "token_acc": 0.96826923, "grad_norm": 0.78699023, "learning_rate": 8.447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245674, "epoch": 1.28935132, "global_step/max_steps": "16915/65595", "percentage": "25.79%", "elapsed_time": "19h 7m 29s", "remaining_time": "2d 7h 2m 22s"}
+{"loss": 0.13560017, "token_acc": 0.93997271, "grad_norm": 0.9049322, "learning_rate": 8.446e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2457, "epoch": 1.28973245, "global_step/max_steps": "16920/65595", "percentage": "25.79%", "elapsed_time": "19h 7m 42s", "remaining_time": "2d 7h 1m 40s"}
+{"loss": 0.18702115, "token_acc": 0.93351534, "grad_norm": 0.83905661, "learning_rate": 8.445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245712, "epoch": 1.29011358, "global_step/max_steps": "16925/65595", "percentage": "25.80%", "elapsed_time": "19h 7m 59s", "remaining_time": "2d 7h 1m 10s"}
+{"loss": 0.12953123, "token_acc": 0.95585263, "grad_norm": 0.9412629, "learning_rate": 8.444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245718, "epoch": 1.2904947, "global_step/max_steps": "16930/65595", "percentage": "25.81%", "elapsed_time": "19h 8m 17s", "remaining_time": "2d 7h 0m 45s"}
+{"loss": 0.14410166, "token_acc": 0.96079499, "grad_norm": 1.02626896, "learning_rate": 8.444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245737, "epoch": 1.29087583, "global_step/max_steps": "16935/65595", "percentage": "25.82%", "elapsed_time": "19h 8m 32s", "remaining_time": "2d 7h 0m 10s"}
+{"loss": 0.11238854, "token_acc": 0.94249325, "grad_norm": 0.83482236, "learning_rate": 8.443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245762, "epoch": 1.29125696, "global_step/max_steps": "16940/65595", "percentage": "25.83%", "elapsed_time": "19h 8m 46s", "remaining_time": "2d 6h 59m 30s"}
+{"loss": 0.13756406, "token_acc": 0.93573265, "grad_norm": 1.51633096, "learning_rate": 8.442e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245772, "epoch": 1.29163808, "global_step/max_steps": "16945/65595", "percentage": "25.83%", "elapsed_time": "19h 9m 3s", "remaining_time": "2d 6h 59m 1s"}
+{"loss": 0.14319937, "token_acc": 0.93876505, "grad_norm": 1.37783217, "learning_rate": 8.441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245794, "epoch": 1.29201921, "global_step/max_steps": "16950/65595", "percentage": "25.84%", "elapsed_time": "19h 9m 17s", "remaining_time": "2d 6h 58m 22s"}
+{"loss": 0.16279075, "token_acc": 0.93167358, "grad_norm": 0.88783431, "learning_rate": 8.44e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245816, "epoch": 1.29240034, "global_step/max_steps": "16955/65595", "percentage": "25.85%", "elapsed_time": "19h 9m 32s", "remaining_time": "2d 6h 57m 44s"}
+{"loss": 0.17660363, "token_acc": 0.93341489, "grad_norm": 1.2844646, "learning_rate": 8.439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245834, "epoch": 1.29278146, "global_step/max_steps": "16960/65595", "percentage": "25.86%", "elapsed_time": "19h 9m 47s", "remaining_time": "2d 6h 57m 10s"}
+{"loss": 0.15857029, "token_acc": 0.93374741, "grad_norm": 0.54416913, "learning_rate": 8.438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245851, "epoch": 1.29316259, "global_step/max_steps": "16965/65595", "percentage": "25.86%", "elapsed_time": "19h 10m 2s", "remaining_time": "2d 6h 56m 35s"}
+{"loss": 0.12987249, "token_acc": 0.94650543, "grad_norm": 0.93198049, "learning_rate": 8.437e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245873, "epoch": 1.29354372, "global_step/max_steps": "16970/65595", "percentage": "25.87%", "elapsed_time": "19h 10m 17s", "remaining_time": "2d 6h 55m 58s"}
+{"loss": 0.13857545, "token_acc": 0.9466412, "grad_norm": 0.83216429, "learning_rate": 8.437e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245876, "epoch": 1.29392484, "global_step/max_steps": "16975/65595", "percentage": "25.88%", "elapsed_time": "19h 10m 36s", "remaining_time": "2d 6h 55m 35s"}
+{"loss": 0.09951622, "token_acc": 0.95479356, "grad_norm": 0.63143992, "learning_rate": 8.436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24589, "epoch": 1.29430597, "global_step/max_steps": "16980/65595", "percentage": "25.89%", "elapsed_time": "19h 10m 52s", "remaining_time": "2d 6h 55m 3s"}
+{"loss": 0.15711527, "token_acc": 0.93513058, "grad_norm": 0.90563381, "learning_rate": 8.435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245913, "epoch": 1.2946871, "global_step/max_steps": "16985/65595", "percentage": "25.89%", "elapsed_time": "19h 11m 6s", "remaining_time": "2d 6h 54m 25s"}
+{"loss": 0.15649033, "token_acc": 0.9438172, "grad_norm": 1.13964152, "learning_rate": 8.434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245914, "epoch": 1.29506822, "global_step/max_steps": "16990/65595", "percentage": "25.90%", "elapsed_time": "19h 11m 27s", "remaining_time": "2d 6h 54m 4s"}
+{"loss": 0.11169845, "token_acc": 0.94453312, "grad_norm": 0.81227106, "learning_rate": 8.433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245941, "epoch": 1.29544935, "global_step/max_steps": "16995/65595", "percentage": "25.91%", "elapsed_time": "19h 11m 39s", "remaining_time": "2d 6h 53m 22s"}
+{"loss": 0.11734381, "token_acc": 0.95522388, "grad_norm": 0.55383557, "learning_rate": 8.432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245945, "epoch": 1.29583047, "global_step/max_steps": "17000/65595", "percentage": "25.92%", "elapsed_time": "19h 11m 58s", "remaining_time": "2d 6h 52m 58s"}
+{"eval_loss": 0.10688108, "eval_token_acc": 0.9504322, "eval_runtime": 160.107, "eval_samples_per_second": 3.31, "eval_steps_per_second": 3.31, "epoch": 1.29583047, "global_step/max_steps": "17000/65595", "percentage": "25.92%", "elapsed_time": "19h 14m 38s", "remaining_time": "2d 7h 0m 35s"}
+{"loss": 0.17077754, "token_acc": 0.94985275, "grad_norm": 1.06644344, "learning_rate": 8.431e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245398, "epoch": 1.2962116, "global_step/max_steps": "17005/65595", "percentage": "25.92%", "elapsed_time": "19h 14m 53s", "remaining_time": "2d 6h 59m 58s"}
+{"loss": 0.12271435, "token_acc": 0.95682211, "grad_norm": 1.13300109, "learning_rate": 8.431e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245401, "epoch": 1.29659273, "global_step/max_steps": "17010/65595", "percentage": "25.93%", "elapsed_time": "19h 15m 12s", "remaining_time": "2d 6h 59m 35s"}
+{"loss": 0.08081393, "token_acc": 0.96250361, "grad_norm": 0.76404113, "learning_rate": 8.43e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245408, "epoch": 1.29697385, "global_step/max_steps": "17015/65595", "percentage": "25.94%", "elapsed_time": "19h 15m 31s", "remaining_time": "2d 6h 59m 9s"}
+{"loss": 0.1010336, "token_acc": 0.95701541, "grad_norm": 1.00219965, "learning_rate": 8.429e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245431, "epoch": 1.29735498, "global_step/max_steps": "17020/65595", "percentage": "25.95%", "elapsed_time": "19h 15m 45s", "remaining_time": "2d 6h 58m 30s"}
+{"loss": 0.11902736, "token_acc": 0.95659546, "grad_norm": 0.00243371, "learning_rate": 8.428e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245454, "epoch": 1.29773611, "global_step/max_steps": "17025/65595", "percentage": "25.95%", "elapsed_time": "19h 15m 58s", "remaining_time": "2d 6h 57m 51s"}
+{"loss": 0.10979141, "token_acc": 0.95700124, "grad_norm": 0.64734, "learning_rate": 8.427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245459, "epoch": 1.29811723, "global_step/max_steps": "17030/65595", "percentage": "25.96%", "elapsed_time": "19h 16m 18s", "remaining_time": "2d 6h 57m 27s"}
+{"loss": 0.13432486, "token_acc": 0.94871343, "grad_norm": 1.09526265, "learning_rate": 8.426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245475, "epoch": 1.29849836, "global_step/max_steps": "17035/65595", "percentage": "25.97%", "elapsed_time": "19h 16m 33s", "remaining_time": "2d 6h 56m 53s"}
+{"loss": 0.14489022, "token_acc": 0.94953085, "grad_norm": 0.52712613, "learning_rate": 8.425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245491, "epoch": 1.29887949, "global_step/max_steps": "17040/65595", "percentage": "25.98%", "elapsed_time": "19h 16m 49s", "remaining_time": "2d 6h 56m 20s"}
+{"loss": 0.1332347, "token_acc": 0.9385636, "grad_norm": 0.8874191, "learning_rate": 8.424e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245511, "epoch": 1.29926061, "global_step/max_steps": "17045/65595", "percentage": "25.99%", "elapsed_time": "19h 17m 4s", "remaining_time": "2d 6h 55m 44s"}
+{"loss": 0.16623788, "token_acc": 0.93369056, "grad_norm": 1.08497322, "learning_rate": 8.424e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245523, "epoch": 1.29964174, "global_step/max_steps": "17050/65595", "percentage": "25.99%", "elapsed_time": "19h 17m 21s", "remaining_time": "2d 6h 55m 14s"}
+{"loss": 0.11043118, "token_acc": 0.94917638, "grad_norm": 0.21279146, "learning_rate": 8.423e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245538, "epoch": 1.30002287, "global_step/max_steps": "17055/65595", "percentage": "26.00%", "elapsed_time": "19h 17m 37s", "remaining_time": "2d 6h 54m 41s"}
+{"loss": 0.14525764, "token_acc": 0.9443313, "grad_norm": 0.30983791, "learning_rate": 8.422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245561, "epoch": 1.30040399, "global_step/max_steps": "17060/65595", "percentage": "26.01%", "elapsed_time": "19h 17m 51s", "remaining_time": "2d 6h 54m 3s"}
+{"loss": 0.17770606, "token_acc": 0.92844037, "grad_norm": 0.51468986, "learning_rate": 8.421e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24558, "epoch": 1.30078512, "global_step/max_steps": "17065/65595", "percentage": "26.02%", "elapsed_time": "19h 18m 6s", "remaining_time": "2d 6h 53m 27s"}
+{"loss": 0.10023575, "token_acc": 0.95963855, "grad_norm": 0.74062032, "learning_rate": 8.42e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245579, "epoch": 1.30116625, "global_step/max_steps": "17070/65595", "percentage": "26.02%", "elapsed_time": "19h 18m 26s", "remaining_time": "2d 6h 53m 7s"}
+{"loss": 0.1535744, "token_acc": 0.93665919, "grad_norm": 0.62224478, "learning_rate": 8.419e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245608, "epoch": 1.30154737, "global_step/max_steps": "17075/65595", "percentage": "26.03%", "elapsed_time": "19h 18m 39s", "remaining_time": "2d 6h 52m 24s"}
+{"loss": 0.07205913, "token_acc": 0.97481151, "grad_norm": 0.3130849, "learning_rate": 8.418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245616, "epoch": 1.3019285, "global_step/max_steps": "17080/65595", "percentage": "26.04%", "elapsed_time": "19h 18m 57s", "remaining_time": "2d 6h 51m 57s"}
+{"loss": 0.13468056, "token_acc": 0.95174642, "grad_norm": 2.3052547, "learning_rate": 8.417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245634, "epoch": 1.30230963, "global_step/max_steps": "17085/65595", "percentage": "26.05%", "elapsed_time": "19h 19m 12s", "remaining_time": "2d 6h 51m 22s"}
+{"loss": 0.12488923, "token_acc": 0.95467966, "grad_norm": 0.77893102, "learning_rate": 8.417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24564, "epoch": 1.30269075, "global_step/max_steps": "17090/65595", "percentage": "26.05%", "elapsed_time": "19h 19m 31s", "remaining_time": "2d 6h 50m 57s"}
+{"loss": 0.11484126, "token_acc": 0.95127671, "grad_norm": 0.60703927, "learning_rate": 8.416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245661, "epoch": 1.30307188, "global_step/max_steps": "17095/65595", "percentage": "26.06%", "elapsed_time": "19h 19m 45s", "remaining_time": "2d 6h 50m 20s"}
+{"loss": 0.14373077, "token_acc": 0.93955259, "grad_norm": 1.03940833, "learning_rate": 8.415e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245688, "epoch": 1.30345301, "global_step/max_steps": "17100/65595", "percentage": "26.07%", "elapsed_time": "19h 19m 58s", "remaining_time": "2d 6h 49m 38s"}
+{"loss": 0.11865273, "token_acc": 0.95857859, "grad_norm": 0.9584837, "learning_rate": 8.414e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245706, "epoch": 1.30383413, "global_step/max_steps": "17105/65595", "percentage": "26.08%", "elapsed_time": "19h 20m 13s", "remaining_time": "2d 6h 49m 3s"}
+{"loss": 0.1674983, "token_acc": 0.93806078, "grad_norm": 1.07242239, "learning_rate": 8.413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245729, "epoch": 1.30421526, "global_step/max_steps": "17110/65595", "percentage": "26.08%", "elapsed_time": "19h 20m 27s", "remaining_time": "2d 6h 48m 24s"}
+{"loss": 0.12832596, "token_acc": 0.95933061, "grad_norm": 0.41320744, "learning_rate": 8.412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245747, "epoch": 1.30459639, "global_step/max_steps": "17115/65595", "percentage": "26.09%", "elapsed_time": "19h 20m 42s", "remaining_time": "2d 6h 47m 49s"}
+{"loss": 0.15799011, "token_acc": 0.94412516, "grad_norm": 1.07019484, "learning_rate": 8.411e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245771, "epoch": 1.30497751, "global_step/max_steps": "17120/65595", "percentage": "26.10%", "elapsed_time": "19h 20m 56s", "remaining_time": "2d 6h 47m 10s"}
+{"loss": 0.12450881, "token_acc": 0.95341981, "grad_norm": 0.7024647, "learning_rate": 8.41e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245791, "epoch": 1.30535864, "global_step/max_steps": "17125/65595", "percentage": "26.11%", "elapsed_time": "19h 21m 10s", "remaining_time": "2d 6h 46m 33s"}
+{"loss": 0.15855601, "token_acc": 0.93521396, "grad_norm": 0.70158982, "learning_rate": 8.41e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245811, "epoch": 1.30573977, "global_step/max_steps": "17130/65595", "percentage": "26.11%", "elapsed_time": "19h 21m 25s", "remaining_time": "2d 6h 45m 57s"}
+{"loss": 0.11438111, "token_acc": 0.94879752, "grad_norm": 0.78447491, "learning_rate": 8.409e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245828, "epoch": 1.30612089, "global_step/max_steps": "17135/65595", "percentage": "26.12%", "elapsed_time": "19h 21m 40s", "remaining_time": "2d 6h 45m 23s"}
+{"loss": 0.17005477, "token_acc": 0.94371505, "grad_norm": 1.64653718, "learning_rate": 8.408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245833, "epoch": 1.30650202, "global_step/max_steps": "17140/65595", "percentage": "26.13%", "elapsed_time": "19h 21m 59s", "remaining_time": "2d 6h 44m 59s"}
+{"loss": 0.09763527, "token_acc": 0.96128465, "grad_norm": 0.51225591, "learning_rate": 8.407e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245843, "epoch": 1.30688315, "global_step/max_steps": "17145/65595", "percentage": "26.14%", "elapsed_time": "19h 22m 17s", "remaining_time": "2d 6h 44m 30s"}
+{"loss": 0.16987733, "token_acc": 0.93502825, "grad_norm": 1.61160469, "learning_rate": 8.406e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245862, "epoch": 1.30726427, "global_step/max_steps": "17150/65595", "percentage": "26.15%", "elapsed_time": "19h 22m 32s", "remaining_time": "2d 6h 43m 55s"}
+{"loss": 0.10864296, "token_acc": 0.94601542, "grad_norm": 0.87470919, "learning_rate": 8.405e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245881, "epoch": 1.3076454, "global_step/max_steps": "17155/65595", "percentage": "26.15%", "elapsed_time": "19h 22m 47s", "remaining_time": "2d 6h 43m 19s"}
+{"loss": 0.09954868, "token_acc": 0.96253521, "grad_norm": 0.60383862, "learning_rate": 8.404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245903, "epoch": 1.30802653, "global_step/max_steps": "17160/65595", "percentage": "26.16%", "elapsed_time": "19h 23m 1s", "remaining_time": "2d 6h 42m 41s"}
+{"loss": 0.13169537, "token_acc": 0.95607893, "grad_norm": 0.51381296, "learning_rate": 8.403e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245915, "epoch": 1.30840765, "global_step/max_steps": "17165/65595", "percentage": "26.17%", "elapsed_time": "19h 23m 18s", "remaining_time": "2d 6h 42m 11s"}
+{"loss": 0.16813016, "token_acc": 0.93269231, "grad_norm": 0.95021743, "learning_rate": 8.403e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245934, "epoch": 1.30878878, "global_step/max_steps": "17170/65595", "percentage": "26.18%", "elapsed_time": "19h 23m 33s", "remaining_time": "2d 6h 41m 35s"}
+{"loss": 0.13977777, "token_acc": 0.94519741, "grad_norm": 1.13387096, "learning_rate": 8.402e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245956, "epoch": 1.30916991, "global_step/max_steps": "17175/65595", "percentage": "26.18%", "elapsed_time": "19h 23m 47s", "remaining_time": "2d 6h 40m 58s"}
+{"loss": 0.14823205, "token_acc": 0.94279176, "grad_norm": 1.73961556, "learning_rate": 8.401e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24598, "epoch": 1.30955103, "global_step/max_steps": "17180/65595", "percentage": "26.19%", "elapsed_time": "19h 24m 0s", "remaining_time": "2d 6h 40m 19s"}
+{"loss": 0.12828866, "token_acc": 0.9539267, "grad_norm": 0.58038819, "learning_rate": 8.4e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245991, "epoch": 1.30993216, "global_step/max_steps": "17185/65595", "percentage": "26.20%", "elapsed_time": "19h 24m 17s", "remaining_time": "2d 6h 39m 49s"}
+{"loss": 0.11253667, "token_acc": 0.95578088, "grad_norm": 0.67258495, "learning_rate": 8.399e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246003, "epoch": 1.31031329, "global_step/max_steps": "17190/65595", "percentage": "26.21%", "elapsed_time": "19h 24m 34s", "remaining_time": "2d 6h 39m 19s"}
+{"loss": 0.16044635, "token_acc": 0.95143488, "grad_norm": 0.79484469, "learning_rate": 8.398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246015, "epoch": 1.31069441, "global_step/max_steps": "17195/65595", "percentage": "26.21%", "elapsed_time": "19h 24m 51s", "remaining_time": "2d 6h 38m 49s"}
+{"loss": 0.10310243, "token_acc": 0.95965699, "grad_norm": 0.77798021, "learning_rate": 8.397e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246029, "epoch": 1.31107554, "global_step/max_steps": "17200/65595", "percentage": "26.22%", "elapsed_time": "19h 25m 8s", "remaining_time": "2d 6h 38m 18s"}
+{"eval_loss": 0.10746938, "eval_token_acc": 0.95107222, "eval_runtime": 159.9136, "eval_samples_per_second": 3.314, "eval_steps_per_second": 3.314, "epoch": 1.31107554, "global_step/max_steps": "17200/65595", "percentage": "26.22%", "elapsed_time": "19h 27m 48s", "remaining_time": "2d 6h 45m 48s"}
+{"loss": 0.20731382, "token_acc": 0.95053287, "grad_norm": 1.49998271, "learning_rate": 8.396e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245484, "epoch": 1.31145667, "global_step/max_steps": "17205/65595", "percentage": "26.23%", "elapsed_time": "19h 28m 3s", "remaining_time": "2d 6h 45m 14s"}
+{"loss": 0.17043153, "token_acc": 0.94638695, "grad_norm": 1.0059967, "learning_rate": 8.396e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2455, "epoch": 1.31183779, "global_step/max_steps": "17210/65595", "percentage": "26.24%", "elapsed_time": "19h 28m 19s", "remaining_time": "2d 6h 44m 41s"}
+{"loss": 0.13085744, "token_acc": 0.95384019, "grad_norm": 0.72733074, "learning_rate": 8.395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245524, "epoch": 1.31221892, "global_step/max_steps": "17215/65595", "percentage": "26.24%", "elapsed_time": "19h 28m 33s", "remaining_time": "2d 6h 44m 1s"}
+{"loss": 0.10882533, "token_acc": 0.95486111, "grad_norm": 0.78750259, "learning_rate": 8.394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245546, "epoch": 1.31260005, "global_step/max_steps": "17220/65595", "percentage": "26.25%", "elapsed_time": "19h 28m 47s", "remaining_time": "2d 6h 43m 23s"}
+{"loss": 0.13828046, "token_acc": 0.95235792, "grad_norm": 0.87733477, "learning_rate": 8.393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245551, "epoch": 1.31298117, "global_step/max_steps": "17225/65595", "percentage": "26.26%", "elapsed_time": "19h 29m 6s", "remaining_time": "2d 6h 42m 59s"}
+{"loss": 0.13558302, "token_acc": 0.94233441, "grad_norm": 1.0035038, "learning_rate": 8.392e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245558, "epoch": 1.3133623, "global_step/max_steps": "17230/65595", "percentage": "26.27%", "elapsed_time": "19h 29m 24s", "remaining_time": "2d 6h 42m 33s"}
+{"loss": 0.11965916, "token_acc": 0.95612627, "grad_norm": 0.54244745, "learning_rate": 8.391e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245576, "epoch": 1.31374343, "global_step/max_steps": "17235/65595", "percentage": "26.27%", "elapsed_time": "19h 29m 39s", "remaining_time": "2d 6h 41m 58s"}
+{"loss": 0.17380476, "token_acc": 0.93466456, "grad_norm": 1.35328591, "learning_rate": 8.39e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245591, "epoch": 1.31412455, "global_step/max_steps": "17240/65595", "percentage": "26.28%", "elapsed_time": "19h 29m 55s", "remaining_time": "2d 6h 41m 26s"}
+{"loss": 0.13181604, "token_acc": 0.94205794, "grad_norm": 1.08351469, "learning_rate": 8.389e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24561, "epoch": 1.31450568, "global_step/max_steps": "17245/65595", "percentage": "26.29%", "elapsed_time": "19h 30m 10s", "remaining_time": "2d 6h 40m 50s"}
+{"loss": 0.12745644, "token_acc": 0.95079446, "grad_norm": 1.31660438, "learning_rate": 8.388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245624, "epoch": 1.31488681, "global_step/max_steps": "17250/65595", "percentage": "26.30%", "elapsed_time": "19h 30m 27s", "remaining_time": "2d 6h 40m 18s"}
+{"loss": 0.15152516, "token_acc": 0.94655172, "grad_norm": 1.26739621, "learning_rate": 8.388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24565, "epoch": 1.31526793, "global_step/max_steps": "17255/65595", "percentage": "26.31%", "elapsed_time": "19h 30m 39s", "remaining_time": "2d 6h 39m 37s"}
+{"loss": 0.0981693, "token_acc": 0.95801527, "grad_norm": 0.66737759, "learning_rate": 8.387e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245669, "epoch": 1.31564906, "global_step/max_steps": "17260/65595", "percentage": "26.31%", "elapsed_time": "19h 30m 55s", "remaining_time": "2d 6h 39m 2s"}
+{"loss": 0.15317576, "token_acc": 0.94295592, "grad_norm": 0.8394562, "learning_rate": 8.386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245681, "epoch": 1.31603019, "global_step/max_steps": "17265/65595", "percentage": "26.32%", "elapsed_time": "19h 31m 11s", "remaining_time": "2d 6h 38m 32s"}
+{"loss": 0.12643071, "token_acc": 0.94398827, "grad_norm": 0.64885354, "learning_rate": 8.385e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245703, "epoch": 1.31641131, "global_step/max_steps": "17270/65595", "percentage": "26.33%", "elapsed_time": "19h 31m 25s", "remaining_time": "2d 6h 37m 53s"}
+{"loss": 0.11835004, "token_acc": 0.95433322, "grad_norm": 0.45119196, "learning_rate": 8.384e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245706, "epoch": 1.31679244, "global_step/max_steps": "17275/65595", "percentage": "26.34%", "elapsed_time": "19h 31m 45s", "remaining_time": "2d 6h 37m 31s"}
+{"loss": 0.11016023, "token_acc": 0.96029855, "grad_norm": 0.62833142, "learning_rate": 8.383e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24572, "epoch": 1.31717357, "global_step/max_steps": "17280/65595", "percentage": "26.34%", "elapsed_time": "19h 32m 1s", "remaining_time": "2d 6h 36m 59s"}
+{"loss": 0.17345643, "token_acc": 0.93361407, "grad_norm": 0.73293793, "learning_rate": 8.382e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245739, "epoch": 1.31755469, "global_step/max_steps": "17285/65595", "percentage": "26.35%", "elapsed_time": "19h 32m 16s", "remaining_time": "2d 6h 36m 24s"}
+{"loss": 0.11887201, "token_acc": 0.95264207, "grad_norm": 0.94678956, "learning_rate": 8.381e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245765, "epoch": 1.31793582, "global_step/max_steps": "17290/65595", "percentage": "26.36%", "elapsed_time": "19h 32m 29s", "remaining_time": "2d 6h 35m 42s"}
+{"loss": 0.12729694, "token_acc": 0.96063167, "grad_norm": 0.75877911, "learning_rate": 8.381e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245787, "epoch": 1.31831694, "global_step/max_steps": "17295/65595", "percentage": "26.37%", "elapsed_time": "19h 32m 43s", "remaining_time": "2d 6h 35m 5s"}
+{"loss": 0.1721965, "token_acc": 0.93883244, "grad_norm": 2.01778841, "learning_rate": 8.38e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245805, "epoch": 1.31869807, "global_step/max_steps": "17300/65595", "percentage": "26.37%", "elapsed_time": "19h 32m 58s", "remaining_time": "2d 6h 34m 30s"}
+{"loss": 0.12923589, "token_acc": 0.95247258, "grad_norm": 0.72499573, "learning_rate": 8.379e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245822, "epoch": 1.3190792, "global_step/max_steps": "17305/65595", "percentage": "26.38%", "elapsed_time": "19h 33m 14s", "remaining_time": "2d 6h 33m 56s"}
+{"loss": 0.13777539, "token_acc": 0.95169686, "grad_norm": 1.75135672, "learning_rate": 8.378e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245838, "epoch": 1.31946032, "global_step/max_steps": "17310/65595", "percentage": "26.39%", "elapsed_time": "19h 33m 29s", "remaining_time": "2d 6h 33m 23s"}
+{"loss": 0.14032935, "token_acc": 0.94512195, "grad_norm": 1.51026332, "learning_rate": 8.377e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245856, "epoch": 1.31984145, "global_step/max_steps": "17315/65595", "percentage": "26.40%", "elapsed_time": "19h 33m 45s", "remaining_time": "2d 6h 32m 48s"}
+{"loss": 0.16069527, "token_acc": 0.93563766, "grad_norm": 1.85015059, "learning_rate": 8.376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245878, "epoch": 1.32022258, "global_step/max_steps": "17320/65595", "percentage": "26.40%", "elapsed_time": "19h 33m 59s", "remaining_time": "2d 6h 32m 10s"}
+{"loss": 0.14554964, "token_acc": 0.94286326, "grad_norm": 1.10555744, "learning_rate": 8.375e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245895, "epoch": 1.3206037, "global_step/max_steps": "17325/65595", "percentage": "26.41%", "elapsed_time": "19h 34m 14s", "remaining_time": "2d 6h 31m 37s"}
+{"loss": 0.1025512, "token_acc": 0.95284064, "grad_norm": 0.79331297, "learning_rate": 8.374e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245909, "epoch": 1.32098483, "global_step/max_steps": "17330/65595", "percentage": "26.42%", "elapsed_time": "19h 34m 31s", "remaining_time": "2d 6h 31m 5s"}
+{"loss": 0.14162115, "token_acc": 0.95522092, "grad_norm": 1.40139341, "learning_rate": 8.373e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245928, "epoch": 1.32136596, "global_step/max_steps": "17335/65595", "percentage": "26.43%", "elapsed_time": "19h 34m 45s", "remaining_time": "2d 6h 30m 29s"}
+{"loss": 0.11370633, "token_acc": 0.95131265, "grad_norm": 0.93698508, "learning_rate": 8.373e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245943, "epoch": 1.32174708, "global_step/max_steps": "17340/65595", "percentage": "26.43%", "elapsed_time": "19h 35m 2s", "remaining_time": "2d 6h 29m 58s"}
+{"loss": 0.14144572, "token_acc": 0.94591596, "grad_norm": 0.56987959, "learning_rate": 8.372e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245953, "epoch": 1.32212821, "global_step/max_steps": "17345/65595", "percentage": "26.44%", "elapsed_time": "19h 35m 19s", "remaining_time": "2d 6h 29m 29s"}
+{"loss": 0.12035472, "token_acc": 0.95142379, "grad_norm": 1.81465518, "learning_rate": 8.371e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245972, "epoch": 1.32250934, "global_step/max_steps": "17350/65595", "percentage": "26.45%", "elapsed_time": "19h 35m 34s", "remaining_time": "2d 6h 28m 54s"}
+{"loss": 0.20954666, "token_acc": 0.93483871, "grad_norm": 1.54645848, "learning_rate": 8.37e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245985, "epoch": 1.32289046, "global_step/max_steps": "17355/65595", "percentage": "26.46%", "elapsed_time": "19h 35m 50s", "remaining_time": "2d 6h 28m 23s"}
+{"loss": 0.10908983, "token_acc": 0.94774256, "grad_norm": 0.8469153, "learning_rate": 8.369e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246004, "epoch": 1.32327159, "global_step/max_steps": "17360/65595", "percentage": "26.47%", "elapsed_time": "19h 36m 5s", "remaining_time": "2d 6h 27m 47s"}
+{"loss": 0.13885202, "token_acc": 0.94254902, "grad_norm": 1.22158587, "learning_rate": 8.368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246021, "epoch": 1.32365272, "global_step/max_steps": "17365/65595", "percentage": "26.47%", "elapsed_time": "19h 36m 21s", "remaining_time": "2d 6h 27m 14s"}
+{"loss": 0.16453665, "token_acc": 0.93519847, "grad_norm": 1.19792807, "learning_rate": 8.367e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246038, "epoch": 1.32403384, "global_step/max_steps": "17370/65595", "percentage": "26.48%", "elapsed_time": "19h 36m 36s", "remaining_time": "2d 6h 26m 39s"}
+{"loss": 0.18164433, "token_acc": 0.93151914, "grad_norm": 0.83110964, "learning_rate": 8.366e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24606, "epoch": 1.32441497, "global_step/max_steps": "17375/65595", "percentage": "26.49%", "elapsed_time": "19h 36m 50s", "remaining_time": "2d 6h 26m 2s"}
+{"loss": 0.1039747, "token_acc": 0.9628553, "grad_norm": 0.61237305, "learning_rate": 8.366e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246081, "epoch": 1.3247961, "global_step/max_steps": "17380/65595", "percentage": "26.50%", "elapsed_time": "19h 37m 4s", "remaining_time": "2d 6h 25m 24s"}
+{"loss": 0.25822537, "token_acc": 0.90695627, "grad_norm": 0.90714294, "learning_rate": 8.365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246103, "epoch": 1.32517722, "global_step/max_steps": "17385/65595", "percentage": "26.50%", "elapsed_time": "19h 37m 18s", "remaining_time": "2d 6h 24m 47s"}
+{"loss": 0.14134406, "token_acc": 0.95072198, "grad_norm": 1.3395611, "learning_rate": 8.364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246119, "epoch": 1.32555835, "global_step/max_steps": "17390/65595", "percentage": "26.51%", "elapsed_time": "19h 37m 34s", "remaining_time": "2d 6h 24m 14s"}
+{"loss": 0.11098491, "token_acc": 0.95037652, "grad_norm": 1.07090008, "learning_rate": 8.363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246133, "epoch": 1.32593948, "global_step/max_steps": "17395/65595", "percentage": "26.52%", "elapsed_time": "19h 37m 50s", "remaining_time": "2d 6h 23m 42s"}
+{"loss": 0.10013826, "token_acc": 0.95854459, "grad_norm": 0.61549664, "learning_rate": 8.362e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246154, "epoch": 1.3263206, "global_step/max_steps": "17400/65595", "percentage": "26.53%", "elapsed_time": "19h 38m 5s", "remaining_time": "2d 6h 23m 6s"}
+{"eval_loss": 0.10663588, "eval_token_acc": 0.9507108, "eval_runtime": 161.5073, "eval_samples_per_second": 3.282, "eval_steps_per_second": 3.282, "epoch": 1.3263206, "global_step/max_steps": "17400/65595", "percentage": "26.53%", "elapsed_time": "19h 40m 46s", "remaining_time": "2d 6h 30m 33s"}
+{"loss": 0.08831592, "token_acc": 0.95088845, "grad_norm": 1.47768223, "learning_rate": 8.361e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245611, "epoch": 1.32670173, "global_step/max_steps": "17405/65595", "percentage": "26.53%", "elapsed_time": "19h 41m 1s", "remaining_time": "2d 6h 29m 58s"}
+{"loss": 0.11316903, "token_acc": 0.95207864, "grad_norm": 0.7651785, "learning_rate": 8.36e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245625, "epoch": 1.32708286, "global_step/max_steps": "17410/65595", "percentage": "26.54%", "elapsed_time": "19h 41m 18s", "remaining_time": "2d 6h 29m 26s"}
+{"loss": 0.09311433, "token_acc": 0.95209779, "grad_norm": 0.57274222, "learning_rate": 8.359e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245649, "epoch": 1.32746398, "global_step/max_steps": "17415/65595", "percentage": "26.55%", "elapsed_time": "19h 41m 31s", "remaining_time": "2d 6h 28m 47s"}
+{"loss": 0.08502549, "token_acc": 0.9636486, "grad_norm": 1.55212259, "learning_rate": 8.358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245673, "epoch": 1.32784511, "global_step/max_steps": "17420/65595", "percentage": "26.56%", "elapsed_time": "19h 41m 45s", "remaining_time": "2d 6h 28m 7s"}
+{"loss": 0.11562271, "token_acc": 0.95252999, "grad_norm": 1.32623863, "learning_rate": 8.358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2457, "epoch": 1.32822624, "global_step/max_steps": "17425/65595", "percentage": "26.56%", "elapsed_time": "19h 41m 57s", "remaining_time": "2d 6h 27m 25s"}
+{"loss": 0.139402, "token_acc": 0.95489146, "grad_norm": 1.20152509, "learning_rate": 8.357e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245714, "epoch": 1.32860736, "global_step/max_steps": "17430/65595", "percentage": "26.57%", "elapsed_time": "19h 42m 13s", "remaining_time": "2d 6h 26m 54s"}
+{"loss": 0.12636092, "token_acc": 0.95007508, "grad_norm": 0.88510811, "learning_rate": 8.356e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245721, "epoch": 1.32898849, "global_step/max_steps": "17435/65595", "percentage": "26.58%", "elapsed_time": "19h 42m 32s", "remaining_time": "2d 6h 26m 28s"}
+{"loss": 0.09881923, "token_acc": 0.96397334, "grad_norm": 0.53976434, "learning_rate": 8.355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245735, "epoch": 1.32936962, "global_step/max_steps": "17440/65595", "percentage": "26.59%", "elapsed_time": "19h 42m 48s", "remaining_time": "2d 6h 25m 56s"}
+{"loss": 0.12209822, "token_acc": 0.94471283, "grad_norm": 0.83184481, "learning_rate": 8.354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245756, "epoch": 1.32975074, "global_step/max_steps": "17445/65595", "percentage": "26.60%", "elapsed_time": "19h 43m 2s", "remaining_time": "2d 6h 25m 19s"}
+{"loss": 0.08436434, "token_acc": 0.95662748, "grad_norm": 0.16590054, "learning_rate": 8.353e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245781, "epoch": 1.33013187, "global_step/max_steps": "17450/65595", "percentage": "26.60%", "elapsed_time": "19h 43m 15s", "remaining_time": "2d 6h 24m 39s"}
+{"loss": 0.11898228, "token_acc": 0.96102385, "grad_norm": 0.8471396, "learning_rate": 8.352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245799, "epoch": 1.330513, "global_step/max_steps": "17455/65595", "percentage": "26.61%", "elapsed_time": "19h 43m 31s", "remaining_time": "2d 6h 24m 4s"}
+{"loss": 0.13603323, "token_acc": 0.9490609, "grad_norm": 0.81345516, "learning_rate": 8.351e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245818, "epoch": 1.33089412, "global_step/max_steps": "17460/65595", "percentage": "26.62%", "elapsed_time": "19h 43m 45s", "remaining_time": "2d 6h 23m 29s"}
+{"loss": 0.1395695, "token_acc": 0.94622642, "grad_norm": 1.41803849, "learning_rate": 8.35e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245844, "epoch": 1.33127525, "global_step/max_steps": "17465/65595", "percentage": "26.63%", "elapsed_time": "19h 43m 58s", "remaining_time": "2d 6h 22m 48s"}
+{"loss": 0.12034185, "token_acc": 0.96194186, "grad_norm": 0.68522662, "learning_rate": 8.35e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245865, "epoch": 1.33165638, "global_step/max_steps": "17470/65595", "percentage": "26.63%", "elapsed_time": "19h 44m 13s", "remaining_time": "2d 6h 22m 11s"}
+{"loss": 0.10267441, "token_acc": 0.95581669, "grad_norm": 1.33812392, "learning_rate": 8.349e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245885, "epoch": 1.3320375, "global_step/max_steps": "17475/65595", "percentage": "26.64%", "elapsed_time": "19h 44m 27s", "remaining_time": "2d 6h 21m 34s"}
+{"loss": 0.10902952, "token_acc": 0.96218711, "grad_norm": 0.68575233, "learning_rate": 8.348e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245897, "epoch": 1.33241863, "global_step/max_steps": "17480/65595", "percentage": "26.65%", "elapsed_time": "19h 44m 44s", "remaining_time": "2d 6h 21m 5s"}
+{"loss": 0.1461031, "token_acc": 0.94172047, "grad_norm": 0.58209723, "learning_rate": 8.347e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24591, "epoch": 1.33279976, "global_step/max_steps": "17485/65595", "percentage": "26.66%", "elapsed_time": "19h 45m 0s", "remaining_time": "2d 6h 20m 34s"}
+{"loss": 0.17387588, "token_acc": 0.93032622, "grad_norm": 0.58504361, "learning_rate": 8.346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245935, "epoch": 1.33318088, "global_step/max_steps": "17490/65595", "percentage": "26.66%", "elapsed_time": "19h 45m 14s", "remaining_time": "2d 6h 19m 54s"}
+{"loss": 0.15591978, "token_acc": 0.93337317, "grad_norm": 1.52955186, "learning_rate": 8.345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245958, "epoch": 1.33356201, "global_step/max_steps": "17495/65595", "percentage": "26.67%", "elapsed_time": "19h 45m 27s", "remaining_time": "2d 6h 19m 15s"}
+{"loss": 0.11218596, "token_acc": 0.94912924, "grad_norm": 0.68700159, "learning_rate": 8.344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245983, "epoch": 1.33394314, "global_step/max_steps": "17500/65595", "percentage": "26.68%", "elapsed_time": "19h 45m 40s", "remaining_time": "2d 6h 18m 35s"}
+{"loss": 0.09720315, "token_acc": 0.96293396, "grad_norm": 0.97068703, "learning_rate": 8.343e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245981, "epoch": 1.33432426, "global_step/max_steps": "17505/65595", "percentage": "26.69%", "elapsed_time": "19h 46m 1s", "remaining_time": "2d 6h 18m 16s"}
+{"loss": 0.12113805, "token_acc": 0.95360031, "grad_norm": 0.75245136, "learning_rate": 8.342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245995, "epoch": 1.33470539, "global_step/max_steps": "17510/65595", "percentage": "26.69%", "elapsed_time": "19h 46m 18s", "remaining_time": "2d 6h 17m 45s"}
+{"loss": 0.11712092, "token_acc": 0.95703757, "grad_norm": 0.97256792, "learning_rate": 8.342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246009, "epoch": 1.33508652, "global_step/max_steps": "17515/65595", "percentage": "26.70%", "elapsed_time": "19h 46m 34s", "remaining_time": "2d 6h 17m 14s"}
+{"loss": 0.12351453, "token_acc": 0.95508614, "grad_norm": 0.9013449, "learning_rate": 8.341e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246026, "epoch": 1.33546764, "global_step/max_steps": "17520/65595", "percentage": "26.71%", "elapsed_time": "19h 46m 49s", "remaining_time": "2d 6h 16m 39s"}
+{"loss": 0.1364078, "token_acc": 0.94882487, "grad_norm": 0.75932616, "learning_rate": 8.34e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246042, "epoch": 1.33584877, "global_step/max_steps": "17525/65595", "percentage": "26.72%", "elapsed_time": "19h 47m 5s", "remaining_time": "2d 6h 16m 6s"}
+{"loss": 0.09537165, "token_acc": 0.96099162, "grad_norm": 0.82718623, "learning_rate": 8.339e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246064, "epoch": 1.3362299, "global_step/max_steps": "17530/65595", "percentage": "26.72%", "elapsed_time": "19h 47m 19s", "remaining_time": "2d 6h 15m 28s"}
+{"loss": 0.07963026, "token_acc": 0.9762634, "grad_norm": 0.1692538, "learning_rate": 8.338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246088, "epoch": 1.33661102, "global_step/max_steps": "17535/65595", "percentage": "26.73%", "elapsed_time": "19h 47m 32s", "remaining_time": "2d 6h 14m 50s"}
+{"loss": 0.10761261, "token_acc": 0.94790395, "grad_norm": 0.87449425, "learning_rate": 8.337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246112, "epoch": 1.33699215, "global_step/max_steps": "17540/65595", "percentage": "26.74%", "elapsed_time": "19h 47m 45s", "remaining_time": "2d 6h 14m 10s"}
+{"loss": 0.1314212, "token_acc": 0.94433169, "grad_norm": 1.38324142, "learning_rate": 8.336e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246132, "epoch": 1.33737328, "global_step/max_steps": "17545/65595", "percentage": "26.75%", "elapsed_time": "19h 48m 0s", "remaining_time": "2d 6h 13m 34s"}
+{"loss": 0.18262283, "token_acc": 0.93283232, "grad_norm": 0.98093444, "learning_rate": 8.335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246147, "epoch": 1.3377544, "global_step/max_steps": "17550/65595", "percentage": "26.76%", "elapsed_time": "19h 48m 16s", "remaining_time": "2d 6h 13m 1s"}
+{"loss": 0.09845226, "token_acc": 0.9580756, "grad_norm": 0.84876406, "learning_rate": 8.334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246176, "epoch": 1.33813553, "global_step/max_steps": "17555/65595", "percentage": "26.76%", "elapsed_time": "19h 48m 28s", "remaining_time": "2d 6h 12m 18s"}
+{"loss": 0.19865425, "token_acc": 0.91790108, "grad_norm": 1.0003711, "learning_rate": 8.334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246195, "epoch": 1.33851666, "global_step/max_steps": "17560/65595", "percentage": "26.77%", "elapsed_time": "19h 48m 43s", "remaining_time": "2d 6h 11m 43s"}
+{"loss": 0.13931333, "token_acc": 0.95300983, "grad_norm": 0.86889863, "learning_rate": 8.333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24621, "epoch": 1.33889778, "global_step/max_steps": "17565/65595", "percentage": "26.78%", "elapsed_time": "19h 48m 59s", "remaining_time": "2d 6h 11m 11s"}
+{"loss": 0.06464812, "token_acc": 0.96835302, "grad_norm": 0.72049695, "learning_rate": 8.332e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246229, "epoch": 1.33927891, "global_step/max_steps": "17570/65595", "percentage": "26.79%", "elapsed_time": "19h 49m 14s", "remaining_time": "2d 6h 10m 35s"}
+{"loss": 0.18624212, "token_acc": 0.92953795, "grad_norm": 1.32415223, "learning_rate": 8.331e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246241, "epoch": 1.33966004, "global_step/max_steps": "17575/65595", "percentage": "26.79%", "elapsed_time": "19h 49m 31s", "remaining_time": "2d 6h 10m 6s"}
+{"loss": 0.11213642, "token_acc": 0.95365706, "grad_norm": 0.78633857, "learning_rate": 8.33e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246253, "epoch": 1.34004116, "global_step/max_steps": "17580/65595", "percentage": "26.80%", "elapsed_time": "19h 49m 47s", "remaining_time": "2d 6h 9m 36s"}
+{"loss": 0.12429333, "token_acc": 0.95592935, "grad_norm": 1.53889871, "learning_rate": 8.329e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246269, "epoch": 1.34042229, "global_step/max_steps": "17585/65595", "percentage": "26.81%", "elapsed_time": "19h 50m 3s", "remaining_time": "2d 6h 9m 3s"}
+{"loss": 0.15549924, "token_acc": 0.9484193, "grad_norm": 0.89883929, "learning_rate": 8.328e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24629, "epoch": 1.34080341, "global_step/max_steps": "17590/65595", "percentage": "26.82%", "elapsed_time": "19h 50m 17s", "remaining_time": "2d 6h 8m 26s"}
+{"loss": 0.18064498, "token_acc": 0.94096829, "grad_norm": 0.6303218, "learning_rate": 8.327e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246293, "epoch": 1.34118454, "global_step/max_steps": "17595/65595", "percentage": "26.82%", "elapsed_time": "19h 50m 37s", "remaining_time": "2d 6h 8m 3s"}
+{"loss": 0.12485001, "token_acc": 0.95197555, "grad_norm": 0.68143654, "learning_rate": 8.326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246314, "epoch": 1.34156567, "global_step/max_steps": "17600/65595", "percentage": "26.83%", "elapsed_time": "19h 50m 51s", "remaining_time": "2d 6h 7m 26s"}
+{"eval_loss": 0.10737795, "eval_token_acc": 0.95083128, "eval_runtime": 162.55, "eval_samples_per_second": 3.261, "eval_steps_per_second": 3.261, "epoch": 1.34156567, "global_step/max_steps": "17600/65595", "percentage": "26.83%", "elapsed_time": "19h 53m 33s", "remaining_time": "2d 6h 14m 49s"}
+{"loss": 0.13773317, "token_acc": 0.9505811, "grad_norm": 0.5256803, "learning_rate": 8.325e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245772, "epoch": 1.34194679, "global_step/max_steps": "17605/65595", "percentage": "26.84%", "elapsed_time": "19h 53m 49s", "remaining_time": "2d 6h 14m 16s"}
+{"loss": 0.11007116, "token_acc": 0.95966824, "grad_norm": 0.68632281, "learning_rate": 8.325e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245783, "epoch": 1.34232792, "global_step/max_steps": "17610/65595", "percentage": "26.85%", "elapsed_time": "19h 54m 6s", "remaining_time": "2d 6h 13m 47s"}
+{"loss": 0.10439929, "token_acc": 0.95553497, "grad_norm": 0.8901757, "learning_rate": 8.324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245808, "epoch": 1.34270905, "global_step/max_steps": "17615/65595", "percentage": "26.85%", "elapsed_time": "19h 54m 19s", "remaining_time": "2d 6h 13m 6s"}
+{"loss": 0.22305861, "token_acc": 0.92242882, "grad_norm": 1.09861195, "learning_rate": 8.323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245831, "epoch": 1.34309017, "global_step/max_steps": "17620/65595", "percentage": "26.86%", "elapsed_time": "19h 54m 32s", "remaining_time": "2d 6h 12m 28s"}
+{"loss": 0.0966969, "token_acc": 0.95846395, "grad_norm": 0.81884199, "learning_rate": 8.322e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245842, "epoch": 1.3434713, "global_step/max_steps": "17625/65595", "percentage": "26.87%", "elapsed_time": "19h 54m 50s", "remaining_time": "2d 6h 11m 59s"}
+{"loss": 0.09720384, "token_acc": 0.9629571, "grad_norm": 0.54311061, "learning_rate": 8.321e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245854, "epoch": 1.34385243, "global_step/max_steps": "17630/65595", "percentage": "26.88%", "elapsed_time": "19h 55m 6s", "remaining_time": "2d 6h 11m 29s"}
+{"loss": 0.09916615, "token_acc": 0.95485665, "grad_norm": 0.45160845, "learning_rate": 8.32e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245868, "epoch": 1.34423355, "global_step/max_steps": "17635/65595", "percentage": "26.88%", "elapsed_time": "19h 55m 23s", "remaining_time": "2d 6h 10m 57s"}
+{"loss": 0.1558426, "token_acc": 0.93627993, "grad_norm": 0.9227286, "learning_rate": 8.319e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24589, "epoch": 1.34461468, "global_step/max_steps": "17640/65595", "percentage": "26.89%", "elapsed_time": "19h 55m 37s", "remaining_time": "2d 6h 10m 20s"}
+{"loss": 0.14146948, "token_acc": 0.94745084, "grad_norm": 0.75204611, "learning_rate": 8.318e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245901, "epoch": 1.34499581, "global_step/max_steps": "17645/65595", "percentage": "26.90%", "elapsed_time": "19h 55m 54s", "remaining_time": "2d 6h 9m 51s"}
+{"loss": 0.1133011, "token_acc": 0.95045417, "grad_norm": 1.05338764, "learning_rate": 8.317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24592, "epoch": 1.34537693, "global_step/max_steps": "17650/65595", "percentage": "26.91%", "elapsed_time": "19h 56m 9s", "remaining_time": "2d 6h 9m 15s"}
+{"loss": 0.11152706, "token_acc": 0.9616939, "grad_norm": 0.63073915, "learning_rate": 8.317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245934, "epoch": 1.34575806, "global_step/max_steps": "17655/65595", "percentage": "26.92%", "elapsed_time": "19h 56m 25s", "remaining_time": "2d 6h 8m 44s"}
+{"loss": 0.09312688, "token_acc": 0.96717346, "grad_norm": 0.47246093, "learning_rate": 8.316e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245948, "epoch": 1.34613919, "global_step/max_steps": "17660/65595", "percentage": "26.92%", "elapsed_time": "19h 56m 41s", "remaining_time": "2d 6h 8m 13s"}
+{"loss": 0.12769927, "token_acc": 0.95411911, "grad_norm": 1.21116078, "learning_rate": 8.315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245958, "epoch": 1.34652031, "global_step/max_steps": "17665/65595", "percentage": "26.93%", "elapsed_time": "19h 56m 59s", "remaining_time": "2d 6h 7m 44s"}
+{"loss": 0.11056758, "token_acc": 0.95315315, "grad_norm": 0.77361935, "learning_rate": 8.314e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245975, "epoch": 1.34690144, "global_step/max_steps": "17670/65595", "percentage": "26.94%", "elapsed_time": "19h 57m 14s", "remaining_time": "2d 6h 7m 10s"}
+{"loss": 0.15911267, "token_acc": 0.94194428, "grad_norm": 1.0006659, "learning_rate": 8.313e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24599, "epoch": 1.34728257, "global_step/max_steps": "17675/65595", "percentage": "26.95%", "elapsed_time": "19h 57m 30s", "remaining_time": "2d 6h 6m 38s"}
+{"loss": 0.14367567, "token_acc": 0.95012417, "grad_norm": 0.84869975, "learning_rate": 8.312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246001, "epoch": 1.34766369, "global_step/max_steps": "17680/65595", "percentage": "26.95%", "elapsed_time": "19h 57m 47s", "remaining_time": "2d 6h 6m 9s"}
+{"loss": 0.1020164, "token_acc": 0.95661605, "grad_norm": 0.79274631, "learning_rate": 8.311e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246019, "epoch": 1.34804482, "global_step/max_steps": "17685/65595", "percentage": "26.96%", "elapsed_time": "19h 58m 2s", "remaining_time": "2d 6h 5m 34s"}
+{"loss": 0.13350664, "token_acc": 0.95755495, "grad_norm": 0.69266438, "learning_rate": 8.31e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24602, "epoch": 1.34842595, "global_step/max_steps": "17690/65595", "percentage": "26.97%", "elapsed_time": "19h 58m 22s", "remaining_time": "2d 6h 5m 14s"}
+{"loss": 0.16792952, "token_acc": 0.95143691, "grad_norm": 0.52267438, "learning_rate": 8.309e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246025, "epoch": 1.34880707, "global_step/max_steps": "17695/65595", "percentage": "26.98%", "elapsed_time": "19h 58m 41s", "remaining_time": "2d 6h 4m 49s"}
+{"loss": 0.10804102, "token_acc": 0.94773728, "grad_norm": 0.32642353, "learning_rate": 8.308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246042, "epoch": 1.3491882, "global_step/max_steps": "17700/65595", "percentage": "26.98%", "elapsed_time": "19h 58m 56s", "remaining_time": "2d 6h 4m 15s"}
+{"loss": 0.15236583, "token_acc": 0.94042553, "grad_norm": 1.31771612, "learning_rate": 8.308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246056, "epoch": 1.34956933, "global_step/max_steps": "17705/65595", "percentage": "26.99%", "elapsed_time": "19h 59m 12s", "remaining_time": "2d 6h 3m 44s"}
+{"loss": 0.17230364, "token_acc": 0.93542158, "grad_norm": 1.0504632, "learning_rate": 8.307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246072, "epoch": 1.34995045, "global_step/max_steps": "17710/65595", "percentage": "27.00%", "elapsed_time": "19h 59m 28s", "remaining_time": "2d 6h 3m 11s"}
+{"loss": 0.11566168, "token_acc": 0.95177543, "grad_norm": 0.54114193, "learning_rate": 8.306e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246086, "epoch": 1.35033158, "global_step/max_steps": "17715/65595", "percentage": "27.01%", "elapsed_time": "19h 59m 44s", "remaining_time": "2d 6h 2m 40s"}
+{"loss": 0.16416003, "token_acc": 0.94543828, "grad_norm": 0.81010717, "learning_rate": 8.305e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246106, "epoch": 1.35071271, "global_step/max_steps": "17720/65595", "percentage": "27.01%", "elapsed_time": "19h 59m 59s", "remaining_time": "2d 6h 2m 4s"}
+{"loss": 0.11383299, "token_acc": 0.94641731, "grad_norm": 0.69326919, "learning_rate": 8.304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246124, "epoch": 1.35109383, "global_step/max_steps": "17725/65595", "percentage": "27.02%", "elapsed_time": "20h 0m 14s", "remaining_time": "2d 6h 1m 29s"}
+{"loss": 0.12572647, "token_acc": 0.94947422, "grad_norm": 0.7255609, "learning_rate": 8.303e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246144, "epoch": 1.35147496, "global_step/max_steps": "17730/65595", "percentage": "27.03%", "elapsed_time": "20h 0m 28s", "remaining_time": "2d 6h 0m 52s"}
+{"loss": 0.11141109, "token_acc": 0.95187859, "grad_norm": 0.62059844, "learning_rate": 8.302e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246161, "epoch": 1.35185609, "global_step/max_steps": "17735/65595", "percentage": "27.04%", "elapsed_time": "20h 0m 44s", "remaining_time": "2d 6h 0m 19s"}
+{"loss": 0.11060665, "token_acc": 0.95464297, "grad_norm": 0.94450134, "learning_rate": 8.301e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246173, "epoch": 1.35223721, "global_step/max_steps": "17740/65595", "percentage": "27.04%", "elapsed_time": "20h 1m 0s", "remaining_time": "2d 5h 59m 49s"}
+{"loss": 0.09569424, "token_acc": 0.96330935, "grad_norm": 0.96855932, "learning_rate": 8.3e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246191, "epoch": 1.35261834, "global_step/max_steps": "17745/65595", "percentage": "27.05%", "elapsed_time": "20h 1m 16s", "remaining_time": "2d 5h 59m 15s"}
+{"loss": 0.15585972, "token_acc": 0.93124523, "grad_norm": 1.25908411, "learning_rate": 8.299e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246215, "epoch": 1.35299947, "global_step/max_steps": "17750/65595", "percentage": "27.06%", "elapsed_time": "20h 1m 29s", "remaining_time": "2d 5h 58m 35s"}
+{"loss": 0.1089185, "token_acc": 0.93711389, "grad_norm": 1.18396902, "learning_rate": 8.299e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24623, "epoch": 1.35338059, "global_step/max_steps": "17755/65595", "percentage": "27.07%", "elapsed_time": "20h 1m 45s", "remaining_time": "2d 5h 58m 4s"}
+{"loss": 0.0552931, "token_acc": 0.97253391, "grad_norm": 0.39478683, "learning_rate": 8.298e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246244, "epoch": 1.35376172, "global_step/max_steps": "17760/65595", "percentage": "27.08%", "elapsed_time": "20h 2m 1s", "remaining_time": "2d 5h 57m 32s"}
+{"loss": 0.14944162, "token_acc": 0.943143, "grad_norm": 0.81374794, "learning_rate": 8.297e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246261, "epoch": 1.35414285, "global_step/max_steps": "17765/65595", "percentage": "27.08%", "elapsed_time": "20h 2m 16s", "remaining_time": "2d 5h 56m 58s"}
+{"loss": 0.08631409, "token_acc": 0.96535948, "grad_norm": 0.27363199, "learning_rate": 8.296e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246286, "epoch": 1.35452397, "global_step/max_steps": "17770/65595", "percentage": "27.09%", "elapsed_time": "20h 2m 29s", "remaining_time": "2d 5h 56m 19s"}
+{"loss": 0.11396056, "token_acc": 0.95411985, "grad_norm": 0.6915074, "learning_rate": 8.295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246301, "epoch": 1.3549051, "global_step/max_steps": "17775/65595", "percentage": "27.10%", "elapsed_time": "20h 2m 45s", "remaining_time": "2d 5h 55m 46s"}
+{"loss": 0.14401098, "token_acc": 0.94914553, "grad_norm": 1.54556262, "learning_rate": 8.294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246308, "epoch": 1.35528623, "global_step/max_steps": "17780/65595", "percentage": "27.11%", "elapsed_time": "20h 3m 3s", "remaining_time": "2d 5h 55m 20s"}
+{"loss": 0.09390276, "token_acc": 0.9537037, "grad_norm": 1.09480691, "learning_rate": 8.293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246332, "epoch": 1.35566735, "global_step/max_steps": "17785/65595", "percentage": "27.11%", "elapsed_time": "20h 3m 17s", "remaining_time": "2d 5h 54m 41s"}
+{"loss": 0.14545193, "token_acc": 0.9407497, "grad_norm": 1.44088793, "learning_rate": 8.292e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24635, "epoch": 1.35604848, "global_step/max_steps": "17790/65595", "percentage": "27.12%", "elapsed_time": "20h 3m 31s", "remaining_time": "2d 5h 54m 6s"}
+{"loss": 0.16239448, "token_acc": 0.93799058, "grad_norm": 0.598216, "learning_rate": 8.291e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246363, "epoch": 1.35642961, "global_step/max_steps": "17795/65595", "percentage": "27.13%", "elapsed_time": "20h 3m 48s", "remaining_time": "2d 5h 53m 36s"}
+{"loss": 0.16269702, "token_acc": 0.9382475, "grad_norm": 1.44166553, "learning_rate": 8.29e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24638, "epoch": 1.35681073, "global_step/max_steps": "17800/65595", "percentage": "27.14%", "elapsed_time": "20h 4m 3s", "remaining_time": "2d 5h 53m 2s"}
+{"eval_loss": 0.10667568, "eval_token_acc": 0.95133576, "eval_runtime": 163.39, "eval_samples_per_second": 3.244, "eval_steps_per_second": 3.244, "epoch": 1.35681073, "global_step/max_steps": "17800/65595", "percentage": "27.14%", "elapsed_time": "20h 6m 47s", "remaining_time": "2d 6h 0m 21s"}
+{"loss": 0.09886575, "token_acc": 0.95147167, "grad_norm": 2.67774177, "learning_rate": 8.29e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245844, "epoch": 1.35719186, "global_step/max_steps": "17805/65595", "percentage": "27.14%", "elapsed_time": "20h 7m 1s", "remaining_time": "2d 5h 59m 45s"}
+{"loss": 0.08565916, "token_acc": 0.960943, "grad_norm": 1.5536164, "learning_rate": 8.289e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245866, "epoch": 1.35757299, "global_step/max_steps": "17810/65595", "percentage": "27.15%", "elapsed_time": "20h 7m 15s", "remaining_time": "2d 5h 59m 7s"}
+{"loss": 0.14625492, "token_acc": 0.94016252, "grad_norm": 1.26435125, "learning_rate": 8.288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245885, "epoch": 1.35795411, "global_step/max_steps": "17815/65595", "percentage": "27.16%", "elapsed_time": "20h 7m 30s", "remaining_time": "2d 5h 58m 32s"}
+{"loss": 0.10968792, "token_acc": 0.94714362, "grad_norm": 0.07300938, "learning_rate": 8.287e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245906, "epoch": 1.35833524, "global_step/max_steps": "17820/65595", "percentage": "27.17%", "elapsed_time": "20h 7m 44s", "remaining_time": "2d 5h 57m 55s"}
+{"loss": 0.11051519, "token_acc": 0.95412131, "grad_norm": 0.94793552, "learning_rate": 8.286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245929, "epoch": 1.35871637, "global_step/max_steps": "17825/65595", "percentage": "27.17%", "elapsed_time": "20h 7m 57s", "remaining_time": "2d 5h 57m 16s"}
+{"loss": 0.10193665, "token_acc": 0.96408669, "grad_norm": 0.4941057, "learning_rate": 8.285e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245934, "epoch": 1.35909749, "global_step/max_steps": "17830/65595", "percentage": "27.18%", "elapsed_time": "20h 8m 17s", "remaining_time": "2d 5h 56m 53s"}
+{"loss": 0.13559477, "token_acc": 0.94854705, "grad_norm": 0.8482247, "learning_rate": 8.284e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245951, "epoch": 1.35947862, "global_step/max_steps": "17835/65595", "percentage": "27.19%", "elapsed_time": "20h 8m 32s", "remaining_time": "2d 5h 56m 18s"}
+{"loss": 0.13523797, "token_acc": 0.94392741, "grad_norm": 1.25863457, "learning_rate": 8.283e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245969, "epoch": 1.35985975, "global_step/max_steps": "17840/65595", "percentage": "27.20%", "elapsed_time": "20h 8m 47s", "remaining_time": "2d 5h 55m 44s"}
+{"loss": 0.14252423, "token_acc": 0.94967827, "grad_norm": 1.09852457, "learning_rate": 8.282e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245988, "epoch": 1.36024087, "global_step/max_steps": "17845/65595", "percentage": "27.20%", "elapsed_time": "20h 9m 2s", "remaining_time": "2d 5h 55m 9s"}
+{"loss": 0.14382588, "token_acc": 0.94550039, "grad_norm": 1.26014578, "learning_rate": 8.281e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246005, "epoch": 1.360622, "global_step/max_steps": "17850/65595", "percentage": "27.21%", "elapsed_time": "20h 9m 17s", "remaining_time": "2d 5h 54m 35s"}
+{"loss": 0.12325995, "token_acc": 0.95244474, "grad_norm": 1.0263536, "learning_rate": 8.281e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246022, "epoch": 1.36100313, "global_step/max_steps": "17855/65595", "percentage": "27.22%", "elapsed_time": "20h 9m 32s", "remaining_time": "2d 5h 54m 1s"}
+{"loss": 0.14283943, "token_acc": 0.95571759, "grad_norm": 0.52925843, "learning_rate": 8.28e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246034, "epoch": 1.36138425, "global_step/max_steps": "17860/65595", "percentage": "27.23%", "elapsed_time": "20h 9m 49s", "remaining_time": "2d 5h 53m 32s"}
+{"loss": 0.08865986, "token_acc": 0.96125414, "grad_norm": 0.92735153, "learning_rate": 8.279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246052, "epoch": 1.36176538, "global_step/max_steps": "17865/65595", "percentage": "27.24%", "elapsed_time": "20h 10m 4s", "remaining_time": "2d 5h 52m 57s"}
+{"loss": 0.12678136, "token_acc": 0.95254031, "grad_norm": 1.41820502, "learning_rate": 8.278e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246064, "epoch": 1.36214651, "global_step/max_steps": "17870/65595", "percentage": "27.24%", "elapsed_time": "20h 10m 21s", "remaining_time": "2d 5h 52m 27s"}
+{"loss": 0.15808429, "token_acc": 0.94547591, "grad_norm": 1.50383008, "learning_rate": 8.277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246082, "epoch": 1.36252763, "global_step/max_steps": "17875/65595", "percentage": "27.25%", "elapsed_time": "20h 10m 36s", "remaining_time": "2d 5h 51m 53s"}
+{"loss": 0.1172842, "token_acc": 0.95434084, "grad_norm": 1.27638519, "learning_rate": 8.276e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246093, "epoch": 1.36290876, "global_step/max_steps": "17880/65595", "percentage": "27.26%", "elapsed_time": "20h 10m 53s", "remaining_time": "2d 5h 51m 24s"}
+{"loss": 0.13222058, "token_acc": 0.95490347, "grad_norm": 0.77282339, "learning_rate": 8.275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246109, "epoch": 1.36328988, "global_step/max_steps": "17885/65595", "percentage": "27.27%", "elapsed_time": "20h 11m 8s", "remaining_time": "2d 5h 50m 51s"}
+{"loss": 0.12971363, "token_acc": 0.95033482, "grad_norm": 1.38347292, "learning_rate": 8.274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246126, "epoch": 1.36367101, "global_step/max_steps": "17890/65595", "percentage": "27.27%", "elapsed_time": "20h 11m 24s", "remaining_time": "2d 5h 50m 17s"}
+{"loss": 0.13942209, "token_acc": 0.9443159, "grad_norm": 0.80986643, "learning_rate": 8.273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24614, "epoch": 1.36405214, "global_step/max_steps": "17895/65595", "percentage": "27.28%", "elapsed_time": "20h 11m 40s", "remaining_time": "2d 5h 49m 46s"}
+{"loss": 0.16162443, "token_acc": 0.93609729, "grad_norm": 0.87367117, "learning_rate": 8.272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246139, "epoch": 1.36443326, "global_step/max_steps": "17900/65595", "percentage": "27.29%", "elapsed_time": "20h 12m 0s", "remaining_time": "2d 5h 49m 26s"}
+{"loss": 0.16058339, "token_acc": 0.94465504, "grad_norm": 1.28552794, "learning_rate": 8.272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246163, "epoch": 1.36481439, "global_step/max_steps": "17905/65595", "percentage": "27.30%", "elapsed_time": "20h 12m 14s", "remaining_time": "2d 5h 48m 47s"}
+{"loss": 0.09414779, "token_acc": 0.95642084, "grad_norm": 1.17179346, "learning_rate": 8.271e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246181, "epoch": 1.36519552, "global_step/max_steps": "17910/65595", "percentage": "27.30%", "elapsed_time": "20h 12m 29s", "remaining_time": "2d 5h 48m 13s"}
+{"loss": 0.11406404, "token_acc": 0.95803544, "grad_norm": 0.91941404, "learning_rate": 8.27e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246202, "epoch": 1.36557664, "global_step/max_steps": "17915/65595", "percentage": "27.31%", "elapsed_time": "20h 12m 43s", "remaining_time": "2d 5h 47m 35s"}
+{"loss": 0.1611931, "token_acc": 0.92752918, "grad_norm": 0.82684207, "learning_rate": 8.269e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246229, "epoch": 1.36595777, "global_step/max_steps": "17920/65595", "percentage": "27.32%", "elapsed_time": "20h 12m 55s", "remaining_time": "2d 5h 46m 54s"}
+{"loss": 0.1548789, "token_acc": 0.93825589, "grad_norm": 0.96918541, "learning_rate": 8.268e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246241, "epoch": 1.3663389, "global_step/max_steps": "17925/65595", "percentage": "27.33%", "elapsed_time": "20h 13m 12s", "remaining_time": "2d 5h 46m 24s"}
+{"loss": 0.07472391, "token_acc": 0.9679556, "grad_norm": 0.61099148, "learning_rate": 8.267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246253, "epoch": 1.36672002, "global_step/max_steps": "17930/65595", "percentage": "27.33%", "elapsed_time": "20h 13m 29s", "remaining_time": "2d 5h 45m 55s"}
+{"loss": 0.11703864, "token_acc": 0.94563736, "grad_norm": 0.49206144, "learning_rate": 8.266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246267, "epoch": 1.36710115, "global_step/max_steps": "17935/65595", "percentage": "27.34%", "elapsed_time": "20h 13m 45s", "remaining_time": "2d 5h 45m 24s"}
+{"loss": 0.13197627, "token_acc": 0.95419847, "grad_norm": 0.84357148, "learning_rate": 8.265e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246289, "epoch": 1.36748228, "global_step/max_steps": "17940/65595", "percentage": "27.35%", "elapsed_time": "20h 13m 59s", "remaining_time": "2d 5h 44m 46s"}
+{"loss": 0.13275247, "token_acc": 0.95949855, "grad_norm": 0.97449422, "learning_rate": 8.264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24631, "epoch": 1.3678634, "global_step/max_steps": "17945/65595", "percentage": "27.36%", "elapsed_time": "20h 14m 13s", "remaining_time": "2d 5h 44m 9s"}
+{"loss": 0.10422978, "token_acc": 0.96176966, "grad_norm": 0.50845724, "learning_rate": 8.263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246331, "epoch": 1.36824453, "global_step/max_steps": "17950/65595", "percentage": "27.36%", "elapsed_time": "20h 14m 27s", "remaining_time": "2d 5h 43m 32s"}
+{"loss": 0.10666424, "token_acc": 0.95820116, "grad_norm": 0.8850143, "learning_rate": 8.262e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246348, "epoch": 1.36862566, "global_step/max_steps": "17955/65595", "percentage": "27.37%", "elapsed_time": "20h 14m 42s", "remaining_time": "2d 5h 42m 59s"}
+{"loss": 0.12432888, "token_acc": 0.9590655, "grad_norm": 1.02917528, "learning_rate": 8.262e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246365, "epoch": 1.36900678, "global_step/max_steps": "17960/65595", "percentage": "27.38%", "elapsed_time": "20h 14m 57s", "remaining_time": "2d 5h 42m 25s"}
+{"loss": 0.18298995, "token_acc": 0.93630274, "grad_norm": 1.00881422, "learning_rate": 8.261e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246372, "epoch": 1.36938791, "global_step/max_steps": "17965/65595", "percentage": "27.39%", "elapsed_time": "20h 15m 15s", "remaining_time": "2d 5h 41m 59s"}
+{"loss": 0.11073748, "token_acc": 0.96554376, "grad_norm": 0.70817041, "learning_rate": 8.26e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246378, "epoch": 1.36976904, "global_step/max_steps": "17970/65595", "percentage": "27.40%", "elapsed_time": "20h 15m 34s", "remaining_time": "2d 5h 41m 34s"}
+{"loss": 0.09961427, "token_acc": 0.96847168, "grad_norm": 0.80466366, "learning_rate": 8.259e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246392, "epoch": 1.37015016, "global_step/max_steps": "17975/65595", "percentage": "27.40%", "elapsed_time": "20h 15m 50s", "remaining_time": "2d 5h 41m 3s"}
+{"loss": 0.1355776, "token_acc": 0.93532475, "grad_norm": 0.7290324, "learning_rate": 8.258e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246412, "epoch": 1.37053129, "global_step/max_steps": "17980/65595", "percentage": "27.41%", "elapsed_time": "20h 16m 4s", "remaining_time": "2d 5h 40m 27s"}
+{"loss": 0.15046726, "token_acc": 0.95084175, "grad_norm": 0.8848635, "learning_rate": 8.257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246427, "epoch": 1.37091242, "global_step/max_steps": "17985/65595", "percentage": "27.42%", "elapsed_time": "20h 16m 20s", "remaining_time": "2d 5h 39m 54s"}
+{"loss": 0.14887115, "token_acc": 0.93644068, "grad_norm": 1.1351881, "learning_rate": 8.256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246454, "epoch": 1.37129354, "global_step/max_steps": "17990/65595", "percentage": "27.43%", "elapsed_time": "20h 16m 33s", "remaining_time": "2d 5h 39m 13s"}
+{"loss": 0.12195199, "token_acc": 0.94285714, "grad_norm": 0.36422944, "learning_rate": 8.255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24648, "epoch": 1.37167467, "global_step/max_steps": "17995/65595", "percentage": "27.43%", "elapsed_time": "20h 16m 45s", "remaining_time": "2d 5h 38m 33s"}
+{"loss": 0.119768, "token_acc": 0.94876727, "grad_norm": 1.03741789, "learning_rate": 8.254e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246496, "epoch": 1.3720558, "global_step/max_steps": "18000/65595", "percentage": "27.44%", "elapsed_time": "20h 17m 1s", "remaining_time": "2d 5h 38m 0s"}
+{"eval_loss": 0.10556968, "eval_token_acc": 0.95162189, "eval_runtime": 160.9041, "eval_samples_per_second": 3.294, "eval_steps_per_second": 3.294, "epoch": 1.3720558, "global_step/max_steps": "18000/65595", "percentage": "27.44%", "elapsed_time": "20h 19m 42s", "remaining_time": "2d 5h 45m 5s"}
+{"loss": 0.13440069, "token_acc": 0.95091251, "grad_norm": 0.89369172, "learning_rate": 8.253e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245969, "epoch": 1.37243692, "global_step/max_steps": "18005/65595", "percentage": "27.45%", "elapsed_time": "20h 19m 58s", "remaining_time": "2d 5h 44m 33s"}
+{"loss": 0.10691551, "token_acc": 0.96419224, "grad_norm": 0.45324191, "learning_rate": 8.252e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245974, "epoch": 1.37281805, "global_step/max_steps": "18010/65595", "percentage": "27.46%", "elapsed_time": "20h 20m 17s", "remaining_time": "2d 5h 44m 9s"}
+{"loss": 0.12843425, "token_acc": 0.95345133, "grad_norm": 1.34903026, "learning_rate": 8.252e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245983, "epoch": 1.37319918, "global_step/max_steps": "18015/65595", "percentage": "27.46%", "elapsed_time": "20h 20m 34s", "remaining_time": "2d 5h 43m 41s"}
+{"loss": 0.17647043, "token_acc": 0.94488189, "grad_norm": 0.68869758, "learning_rate": 8.251e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246, "epoch": 1.3735803, "global_step/max_steps": "18020/65595", "percentage": "27.47%", "elapsed_time": "20h 20m 49s", "remaining_time": "2d 5h 43m 8s"}
+{"loss": 0.11848916, "token_acc": 0.9555008, "grad_norm": 0.82293576, "learning_rate": 8.25e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246003, "epoch": 1.37396143, "global_step/max_steps": "18025/65595", "percentage": "27.48%", "elapsed_time": "20h 21m 9s", "remaining_time": "2d 5h 42m 45s"}
+{"loss": 0.09479609, "token_acc": 0.96143596, "grad_norm": 0.69412839, "learning_rate": 8.249e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246016, "epoch": 1.37434256, "global_step/max_steps": "18030/65595", "percentage": "27.49%", "elapsed_time": "20h 21m 25s", "remaining_time": "2d 5h 42m 15s"}
+{"loss": 0.15749362, "token_acc": 0.94388169, "grad_norm": 1.28639138, "learning_rate": 8.248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246033, "epoch": 1.37472368, "global_step/max_steps": "18035/65595", "percentage": "27.49%", "elapsed_time": "20h 21m 41s", "remaining_time": "2d 5h 41m 41s"}
+{"loss": 0.12265717, "token_acc": 0.95508587, "grad_norm": 0.52787083, "learning_rate": 8.247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246048, "epoch": 1.37510481, "global_step/max_steps": "18040/65595", "percentage": "27.50%", "elapsed_time": "20h 21m 56s", "remaining_time": "2d 5h 41m 9s"}
+{"loss": 0.16010623, "token_acc": 0.93470927, "grad_norm": 1.58252025, "learning_rate": 8.246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246064, "epoch": 1.37548594, "global_step/max_steps": "18045/65595", "percentage": "27.51%", "elapsed_time": "20h 22m 12s", "remaining_time": "2d 5h 40m 36s"}
+{"loss": 0.20658977, "token_acc": 0.93914989, "grad_norm": 1.08468151, "learning_rate": 8.245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246087, "epoch": 1.37586706, "global_step/max_steps": "18050/65595", "percentage": "27.52%", "elapsed_time": "20h 22m 25s", "remaining_time": "2d 5h 39m 57s"}
+{"loss": 0.16307232, "token_acc": 0.92448081, "grad_norm": 1.10325038, "learning_rate": 8.244e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246114, "epoch": 1.37624819, "global_step/max_steps": "18055/65595", "percentage": "27.52%", "elapsed_time": "20h 22m 38s", "remaining_time": "2d 5h 39m 16s"}
+{"loss": 0.20126929, "token_acc": 0.9333964, "grad_norm": 1.42213929, "learning_rate": 8.243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246132, "epoch": 1.37662932, "global_step/max_steps": "18060/65595", "percentage": "27.53%", "elapsed_time": "20h 22m 53s", "remaining_time": "2d 5h 38m 42s"}
+{"loss": 0.09678897, "token_acc": 0.95446756, "grad_norm": 1.08764756, "learning_rate": 8.242e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246147, "epoch": 1.37701044, "global_step/max_steps": "18065/65595", "percentage": "27.54%", "elapsed_time": "20h 23m 8s", "remaining_time": "2d 5h 38m 10s"}
+{"loss": 0.12846692, "token_acc": 0.96015567, "grad_norm": 0.60080796, "learning_rate": 8.242e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246156, "epoch": 1.37739157, "global_step/max_steps": "18070/65595", "percentage": "27.55%", "elapsed_time": "20h 23m 26s", "remaining_time": "2d 5h 37m 43s"}
+{"loss": 0.10868495, "token_acc": 0.9469147, "grad_norm": 1.25569284, "learning_rate": 8.241e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246182, "epoch": 1.3777727, "global_step/max_steps": "18075/65595", "percentage": "27.56%", "elapsed_time": "20h 23m 39s", "remaining_time": "2d 5h 37m 2s"}
+{"loss": 0.13121746, "token_acc": 0.94608301, "grad_norm": 0.88962185, "learning_rate": 8.24e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246192, "epoch": 1.37815382, "global_step/max_steps": "18080/65595", "percentage": "27.56%", "elapsed_time": "20h 23m 56s", "remaining_time": "2d 5h 36m 33s"}
+{"loss": 0.10223814, "token_acc": 0.95657727, "grad_norm": 0.43685064, "learning_rate": 8.239e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246204, "epoch": 1.37853495, "global_step/max_steps": "18085/65595", "percentage": "27.57%", "elapsed_time": "20h 24m 13s", "remaining_time": "2d 5h 36m 4s"}
+{"loss": 0.12547727, "token_acc": 0.95647443, "grad_norm": 0.7719906, "learning_rate": 8.238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246213, "epoch": 1.37891608, "global_step/max_steps": "18090/65595", "percentage": "27.58%", "elapsed_time": "20h 24m 30s", "remaining_time": "2d 5h 35m 36s"}
+{"loss": 0.12150166, "token_acc": 0.94478908, "grad_norm": 0.80380672, "learning_rate": 8.237e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246237, "epoch": 1.3792972, "global_step/max_steps": "18095/65595", "percentage": "27.59%", "elapsed_time": "20h 24m 43s", "remaining_time": "2d 5h 34m 57s"}
+{"loss": 0.15703346, "token_acc": 0.92440692, "grad_norm": 1.07171428, "learning_rate": 8.236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246259, "epoch": 1.37967833, "global_step/max_steps": "18100/65595", "percentage": "27.59%", "elapsed_time": "20h 24m 57s", "remaining_time": "2d 5h 34m 19s"}
+{"loss": 0.09883412, "token_acc": 0.95195822, "grad_norm": 0.44254732, "learning_rate": 8.235e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24628, "epoch": 1.38005946, "global_step/max_steps": "18105/65595", "percentage": "27.60%", "elapsed_time": "20h 25m 11s", "remaining_time": "2d 5h 33m 43s"}
+{"loss": 0.1167678, "token_acc": 0.95122581, "grad_norm": 0.9548077, "learning_rate": 8.234e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246299, "epoch": 1.38044058, "global_step/max_steps": "18110/65595", "percentage": "27.61%", "elapsed_time": "20h 25m 26s", "remaining_time": "2d 5h 33m 8s"}
+{"loss": 0.11575464, "token_acc": 0.94804932, "grad_norm": 0.69951594, "learning_rate": 8.233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246315, "epoch": 1.38082171, "global_step/max_steps": "18115/65595", "percentage": "27.62%", "elapsed_time": "20h 25m 41s", "remaining_time": "2d 5h 32m 35s"}
+{"loss": 0.12800529, "token_acc": 0.9448345, "grad_norm": 0.44670907, "learning_rate": 8.232e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246338, "epoch": 1.38120284, "global_step/max_steps": "18120/65595", "percentage": "27.62%", "elapsed_time": "20h 25m 55s", "remaining_time": "2d 5h 31m 57s"}
+{"loss": 0.12066983, "token_acc": 0.95573051, "grad_norm": 1.69780099, "learning_rate": 8.231e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246343, "epoch": 1.38158396, "global_step/max_steps": "18125/65595", "percentage": "27.63%", "elapsed_time": "20h 26m 14s", "remaining_time": "2d 5h 31m 33s"}
+{"loss": 0.12117901, "token_acc": 0.96017897, "grad_norm": 0.83193153, "learning_rate": 8.231e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246351, "epoch": 1.38196509, "global_step/max_steps": "18130/65595", "percentage": "27.64%", "elapsed_time": "20h 26m 32s", "remaining_time": "2d 5h 31m 6s"}
+{"loss": 0.18607721, "token_acc": 0.92435703, "grad_norm": 1.24210989, "learning_rate": 8.23e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246364, "epoch": 1.38234622, "global_step/max_steps": "18135/65595", "percentage": "27.65%", "elapsed_time": "20h 26m 48s", "remaining_time": "2d 5h 30m 36s"}
+{"loss": 0.08876883, "token_acc": 0.95987119, "grad_norm": 0.45954227, "learning_rate": 8.229e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246386, "epoch": 1.38272734, "global_step/max_steps": "18140/65595", "percentage": "27.65%", "elapsed_time": "20h 27m 1s", "remaining_time": "2d 5h 29m 58s"}
+{"loss": 0.16405327, "token_acc": 0.93672604, "grad_norm": 0.74417305, "learning_rate": 8.228e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246402, "epoch": 1.38310847, "global_step/max_steps": "18145/65595", "percentage": "27.66%", "elapsed_time": "20h 27m 17s", "remaining_time": "2d 5h 29m 25s"}
+{"loss": 0.09578164, "token_acc": 0.95780591, "grad_norm": 0.88825715, "learning_rate": 8.227e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24642, "epoch": 1.3834896, "global_step/max_steps": "18150/65595", "percentage": "27.67%", "elapsed_time": "20h 27m 32s", "remaining_time": "2d 5h 28m 51s"}
+{"loss": 0.1053255, "token_acc": 0.94472006, "grad_norm": 0.23473679, "learning_rate": 8.226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246444, "epoch": 1.38387072, "global_step/max_steps": "18155/65595", "percentage": "27.68%", "elapsed_time": "20h 27m 45s", "remaining_time": "2d 5h 28m 12s"}
+{"loss": 0.19637296, "token_acc": 0.92466125, "grad_norm": 0.81150234, "learning_rate": 8.225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246451, "epoch": 1.38425185, "global_step/max_steps": "18160/65595", "percentage": "27.69%", "elapsed_time": "20h 28m 3s", "remaining_time": "2d 5h 27m 46s"}
+{"loss": 0.11275132, "token_acc": 0.9499618, "grad_norm": 1.18891859, "learning_rate": 8.224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246475, "epoch": 1.38463298, "global_step/max_steps": "18165/65595", "percentage": "27.69%", "elapsed_time": "20h 28m 16s", "remaining_time": "2d 5h 27m 7s"}
+{"loss": 0.11512764, "token_acc": 0.95643756, "grad_norm": 0.89044523, "learning_rate": 8.223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246472, "epoch": 1.3850141, "global_step/max_steps": "18170/65595", "percentage": "27.70%", "elapsed_time": "20h 28m 38s", "remaining_time": "2d 5h 26m 49s"}
+{"loss": 0.11917814, "token_acc": 0.95515998, "grad_norm": 0.55865425, "learning_rate": 8.222e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246477, "epoch": 1.38539523, "global_step/max_steps": "18175/65595", "percentage": "27.71%", "elapsed_time": "20h 28m 56s", "remaining_time": "2d 5h 26m 25s"}
+{"loss": 0.1173265, "token_acc": 0.95030809, "grad_norm": 0.6444248, "learning_rate": 8.221e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246489, "epoch": 1.38577635, "global_step/max_steps": "18180/65595", "percentage": "27.72%", "elapsed_time": "20h 29m 13s", "remaining_time": "2d 5h 25m 55s"}
+{"loss": 0.1141452, "token_acc": 0.95918124, "grad_norm": 0.95690519, "learning_rate": 8.221e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246498, "epoch": 1.38615748, "global_step/max_steps": "18185/65595", "percentage": "27.72%", "elapsed_time": "20h 29m 31s", "remaining_time": "2d 5h 25m 28s"}
+{"loss": 0.14313658, "token_acc": 0.94521874, "grad_norm": 1.14832819, "learning_rate": 8.22e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246513, "epoch": 1.38653861, "global_step/max_steps": "18190/65595", "percentage": "27.73%", "elapsed_time": "20h 29m 46s", "remaining_time": "2d 5h 24m 56s"}
+{"loss": 0.1579469, "token_acc": 0.94924046, "grad_norm": 0.96927339, "learning_rate": 8.219e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246538, "epoch": 1.38691973, "global_step/max_steps": "18195/65595", "percentage": "27.74%", "elapsed_time": "20h 29m 59s", "remaining_time": "2d 5h 24m 16s"}
+{"loss": 0.154066, "token_acc": 0.93819021, "grad_norm": 0.61200309, "learning_rate": 8.218e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246552, "epoch": 1.38730086, "global_step/max_steps": "18200/65595", "percentage": "27.75%", "elapsed_time": "20h 30m 15s", "remaining_time": "2d 5h 23m 45s"}
+{"eval_loss": 0.10513678, "eval_token_acc": 0.95244262, "eval_runtime": 162.4132, "eval_samples_per_second": 3.263, "eval_steps_per_second": 3.263, "epoch": 1.38730086, "global_step/max_steps": "18200/65595", "percentage": "27.75%", "elapsed_time": "20h 32m 58s", "remaining_time": "2d 5h 30m 48s"}
+{"loss": 0.09991745, "token_acc": 0.95306098, "grad_norm": 1.10225737, "learning_rate": 8.217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246021, "epoch": 1.38768199, "global_step/max_steps": "18205/65595", "percentage": "27.75%", "elapsed_time": "20h 33m 15s", "remaining_time": "2d 5h 30m 19s"}
+{"loss": 0.0931796, "token_acc": 0.96488147, "grad_norm": 0.55835861, "learning_rate": 8.216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246042, "epoch": 1.38806311, "global_step/max_steps": "18210/65595", "percentage": "27.76%", "elapsed_time": "20h 33m 29s", "remaining_time": "2d 5h 29m 43s"}
+{"loss": 0.14808573, "token_acc": 0.94456725, "grad_norm": 0.12464093, "learning_rate": 8.215e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246057, "epoch": 1.38844424, "global_step/max_steps": "18215/65595", "percentage": "27.77%", "elapsed_time": "20h 33m 45s", "remaining_time": "2d 5h 29m 10s"}
+{"loss": 0.11179187, "token_acc": 0.95796104, "grad_norm": 0.67291462, "learning_rate": 8.214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246066, "epoch": 1.38882537, "global_step/max_steps": "18220/65595", "percentage": "27.78%", "elapsed_time": "20h 34m 3s", "remaining_time": "2d 5h 28m 44s"}
+{"loss": 0.09179335, "token_acc": 0.96473118, "grad_norm": 0.51505178, "learning_rate": 8.213e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246079, "epoch": 1.38920649, "global_step/max_steps": "18225/65595", "percentage": "27.78%", "elapsed_time": "20h 34m 19s", "remaining_time": "2d 5h 28m 13s"}
+{"loss": 0.10810696, "token_acc": 0.95706554, "grad_norm": 0.6624912, "learning_rate": 8.212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246085, "epoch": 1.38958762, "global_step/max_steps": "18230/65595", "percentage": "27.79%", "elapsed_time": "20h 34m 37s", "remaining_time": "2d 5h 27m 47s"}
+{"loss": 0.10388194, "token_acc": 0.96894615, "grad_norm": 0.59205902, "learning_rate": 8.211e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246098, "epoch": 1.38996875, "global_step/max_steps": "18235/65595", "percentage": "27.80%", "elapsed_time": "20h 34m 54s", "remaining_time": "2d 5h 27m 17s"}
+{"loss": 0.12476168, "token_acc": 0.95456604, "grad_norm": 1.12576318, "learning_rate": 8.21e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246112, "epoch": 1.39034987, "global_step/max_steps": "18240/65595", "percentage": "27.81%", "elapsed_time": "20h 35m 10s", "remaining_time": "2d 5h 26m 46s"}
+{"loss": 0.0969915, "token_acc": 0.96241658, "grad_norm": 0.70077163, "learning_rate": 8.21e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246119, "epoch": 1.390731, "global_step/max_steps": "18245/65595", "percentage": "27.81%", "elapsed_time": "20h 35m 28s", "remaining_time": "2d 5h 26m 21s"}
+{"loss": 0.13488421, "token_acc": 0.94041755, "grad_norm": 0.92359668, "learning_rate": 8.209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246135, "epoch": 1.39111213, "global_step/max_steps": "18250/65595", "percentage": "27.82%", "elapsed_time": "20h 35m 43s", "remaining_time": "2d 5h 25m 47s"}
+{"loss": 0.08261987, "token_acc": 0.96849044, "grad_norm": 0.59282404, "learning_rate": 8.208e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246148, "epoch": 1.39149325, "global_step/max_steps": "18255/65595", "percentage": "27.83%", "elapsed_time": "20h 36m 0s", "remaining_time": "2d 5h 25m 17s"}
+{"loss": 0.08748425, "token_acc": 0.95109742, "grad_norm": 1.35640228, "learning_rate": 8.207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246171, "epoch": 1.39187438, "global_step/max_steps": "18260/65595", "percentage": "27.84%", "elapsed_time": "20h 36m 13s", "remaining_time": "2d 5h 24m 39s"}
+{"loss": 0.137753, "token_acc": 0.93948891, "grad_norm": 1.15368223, "learning_rate": 8.206e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246192, "epoch": 1.39225551, "global_step/max_steps": "18265/65595", "percentage": "27.85%", "elapsed_time": "20h 36m 27s", "remaining_time": "2d 5h 24m 2s"}
+{"loss": 0.13682946, "token_acc": 0.94119394, "grad_norm": 1.76123333, "learning_rate": 8.205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246213, "epoch": 1.39263663, "global_step/max_steps": "18270/65595", "percentage": "27.85%", "elapsed_time": "20h 36m 41s", "remaining_time": "2d 5h 23m 25s"}
+{"loss": 0.08371631, "token_acc": 0.97438976, "grad_norm": 1.11007261, "learning_rate": 8.204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246237, "epoch": 1.39301776, "global_step/max_steps": "18275/65595", "percentage": "27.86%", "elapsed_time": "20h 36m 54s", "remaining_time": "2d 5h 22m 46s"}
+{"loss": 0.1365604, "token_acc": 0.93654114, "grad_norm": 1.14401937, "learning_rate": 8.203e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246259, "epoch": 1.39339889, "global_step/max_steps": "18280/65595", "percentage": "27.87%", "elapsed_time": "20h 37m 8s", "remaining_time": "2d 5h 22m 9s"}
+{"loss": 0.11065781, "token_acc": 0.9545207, "grad_norm": 0.88071907, "learning_rate": 8.202e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246281, "epoch": 1.39378001, "global_step/max_steps": "18285/65595", "percentage": "27.88%", "elapsed_time": "20h 37m 22s", "remaining_time": "2d 5h 21m 32s"}
+{"loss": 0.10109959, "token_acc": 0.95646704, "grad_norm": 0.85002089, "learning_rate": 8.201e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246302, "epoch": 1.39416114, "global_step/max_steps": "18290/65595", "percentage": "27.88%", "elapsed_time": "20h 37m 36s", "remaining_time": "2d 5h 20m 55s"}
+{"loss": 0.10483141, "token_acc": 0.96145731, "grad_norm": 0.70541227, "learning_rate": 8.2e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246311, "epoch": 1.39454227, "global_step/max_steps": "18295/65595", "percentage": "27.89%", "elapsed_time": "20h 37m 53s", "remaining_time": "2d 5h 20m 27s"}
+{"loss": 0.12618598, "token_acc": 0.95254497, "grad_norm": 1.01326478, "learning_rate": 8.199e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246334, "epoch": 1.39492339, "global_step/max_steps": "18300/65595", "percentage": "27.90%", "elapsed_time": "20h 38m 7s", "remaining_time": "2d 5h 19m 49s"}
+{"loss": 0.1685059, "token_acc": 0.93880126, "grad_norm": 1.1859622, "learning_rate": 8.198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246348, "epoch": 1.39530452, "global_step/max_steps": "18305/65595", "percentage": "27.91%", "elapsed_time": "20h 38m 23s", "remaining_time": "2d 5h 19m 18s"}
+{"loss": 0.12407782, "token_acc": 0.95963402, "grad_norm": 0.99580473, "learning_rate": 8.198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246368, "epoch": 1.39568565, "global_step/max_steps": "18310/65595", "percentage": "27.91%", "elapsed_time": "20h 38m 37s", "remaining_time": "2d 5h 18m 42s"}
+{"loss": 0.14571126, "token_acc": 0.9358015, "grad_norm": 1.05373025, "learning_rate": 8.197e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24639, "epoch": 1.39606677, "global_step/max_steps": "18315/65595", "percentage": "27.92%", "elapsed_time": "20h 38m 51s", "remaining_time": "2d 5h 18m 5s"}
+{"loss": 0.16469679, "token_acc": 0.92916667, "grad_norm": 1.40460002, "learning_rate": 8.196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246411, "epoch": 1.3964479, "global_step/max_steps": "18320/65595", "percentage": "27.93%", "elapsed_time": "20h 39m 5s", "remaining_time": "2d 5h 17m 28s"}
+{"loss": 0.16405644, "token_acc": 0.93956795, "grad_norm": 0.95902419, "learning_rate": 8.195e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246431, "epoch": 1.39682903, "global_step/max_steps": "18325/65595", "percentage": "27.94%", "elapsed_time": "20h 39m 19s", "remaining_time": "2d 5h 16m 52s"}
+{"loss": 0.14841849, "token_acc": 0.93867817, "grad_norm": 0.52698535, "learning_rate": 8.194e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246445, "epoch": 1.39721015, "global_step/max_steps": "18330/65595", "percentage": "27.94%", "elapsed_time": "20h 39m 35s", "remaining_time": "2d 5h 16m 21s"}
+{"loss": 0.09789666, "token_acc": 0.95627208, "grad_norm": 1.10131395, "learning_rate": 8.193e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24647, "epoch": 1.39759128, "global_step/max_steps": "18335/65595", "percentage": "27.95%", "elapsed_time": "20h 39m 48s", "remaining_time": "2d 5h 15m 41s"}
+{"loss": 0.12652568, "token_acc": 0.95339061, "grad_norm": 0.74208391, "learning_rate": 8.192e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246484, "epoch": 1.39797241, "global_step/max_steps": "18340/65595", "percentage": "27.96%", "elapsed_time": "20h 40m 4s", "remaining_time": "2d 5h 15m 10s"}
+{"loss": 0.11934574, "token_acc": 0.95421468, "grad_norm": 1.31147313, "learning_rate": 8.191e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246507, "epoch": 1.39835353, "global_step/max_steps": "18345/65595", "percentage": "27.97%", "elapsed_time": "20h 40m 17s", "remaining_time": "2d 5h 14m 32s"}
+{"loss": 0.09125723, "token_acc": 0.96273127, "grad_norm": 0.71117806, "learning_rate": 8.19e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24651, "epoch": 1.39873466, "global_step/max_steps": "18350/65595", "percentage": "27.97%", "elapsed_time": "20h 40m 37s", "remaining_time": "2d 5h 14m 9s"}
+{"loss": 0.15024205, "token_acc": 0.94589816, "grad_norm": 0.86806953, "learning_rate": 8.189e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246524, "epoch": 1.39911579, "global_step/max_steps": "18355/65595", "percentage": "27.98%", "elapsed_time": "20h 40m 52s", "remaining_time": "2d 5h 13m 38s"}
+{"loss": 0.12381165, "token_acc": 0.95108523, "grad_norm": 0.7217831, "learning_rate": 8.188e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246522, "epoch": 1.39949691, "global_step/max_steps": "18360/65595", "percentage": "27.99%", "elapsed_time": "20h 41m 13s", "remaining_time": "2d 5h 13m 19s"}
+{"loss": 0.12535329, "token_acc": 0.95276255, "grad_norm": 0.67874277, "learning_rate": 8.187e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246535, "epoch": 1.39987804, "global_step/max_steps": "18365/65595", "percentage": "28.00%", "elapsed_time": "20h 41m 30s", "remaining_time": "2d 5h 12m 49s"}
+{"loss": 0.10359304, "token_acc": 0.95521654, "grad_norm": 0.64836788, "learning_rate": 8.186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246553, "epoch": 1.40025917, "global_step/max_steps": "18370/65595", "percentage": "28.01%", "elapsed_time": "20h 41m 45s", "remaining_time": "2d 5h 12m 15s"}
+{"loss": 0.10218817, "token_acc": 0.95341688, "grad_norm": 1.25424683, "learning_rate": 8.186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246574, "epoch": 1.40064029, "global_step/max_steps": "18375/65595", "percentage": "28.01%", "elapsed_time": "20h 41m 59s", "remaining_time": "2d 5h 11m 38s"}
+{"loss": 0.12504873, "token_acc": 0.93654555, "grad_norm": 1.20776737, "learning_rate": 8.185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246595, "epoch": 1.40102142, "global_step/max_steps": "18380/65595", "percentage": "28.02%", "elapsed_time": "20h 42m 12s", "remaining_time": "2d 5h 11m 1s"}
+{"loss": 0.15071766, "token_acc": 0.94840025, "grad_norm": 1.86778879, "learning_rate": 8.184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246607, "epoch": 1.40140255, "global_step/max_steps": "18385/65595", "percentage": "28.03%", "elapsed_time": "20h 42m 29s", "remaining_time": "2d 5h 10m 32s"}
+{"loss": 0.16029274, "token_acc": 0.94408665, "grad_norm": 0.97211671, "learning_rate": 8.183e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246617, "epoch": 1.40178367, "global_step/max_steps": "18390/65595", "percentage": "28.04%", "elapsed_time": "20h 42m 46s", "remaining_time": "2d 5h 10m 4s"}
+{"loss": 0.10199804, "token_acc": 0.95632878, "grad_norm": 0.16145024, "learning_rate": 8.182e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24663, "epoch": 1.4021648, "global_step/max_steps": "18395/65595", "percentage": "28.04%", "elapsed_time": "20h 43m 3s", "remaining_time": "2d 5h 9m 33s"}
+{"loss": 0.14973278, "token_acc": 0.94385817, "grad_norm": 1.87441134, "learning_rate": 8.181e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246646, "epoch": 1.40254593, "global_step/max_steps": "18400/65595", "percentage": "28.05%", "elapsed_time": "20h 43m 18s", "remaining_time": "2d 5h 9m 1s"}
+{"eval_loss": 0.10320473, "eval_token_acc": 0.95270616, "eval_runtime": 160.3622, "eval_samples_per_second": 3.305, "eval_steps_per_second": 3.305, "epoch": 1.40254593, "global_step/max_steps": "18400/65595", "percentage": "28.05%", "elapsed_time": "20h 45m 58s", "remaining_time": "2d 5h 15m 52s"}
+{"loss": 0.08121051, "token_acc": 0.95292492, "grad_norm": 1.21426058, "learning_rate": 8.18e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246134, "epoch": 1.40292705, "global_step/max_steps": "18405/65595", "percentage": "28.06%", "elapsed_time": "20h 46m 13s", "remaining_time": "2d 5h 15m 18s"}
+{"loss": 0.11242273, "token_acc": 0.94789496, "grad_norm": 1.34262156, "learning_rate": 8.179e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246156, "epoch": 1.40330818, "global_step/max_steps": "18410/65595", "percentage": "28.07%", "elapsed_time": "20h 46m 27s", "remaining_time": "2d 5h 14m 41s"}
+{"loss": 0.14818623, "token_acc": 0.92845787, "grad_norm": 0.97628617, "learning_rate": 8.178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246175, "epoch": 1.40368931, "global_step/max_steps": "18415/65595", "percentage": "28.07%", "elapsed_time": "20h 46m 42s", "remaining_time": "2d 5h 14m 6s"}
+{"loss": 0.16130706, "token_acc": 0.94071763, "grad_norm": 0.79438323, "learning_rate": 8.177e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246188, "epoch": 1.40407043, "global_step/max_steps": "18420/65595", "percentage": "28.08%", "elapsed_time": "20h 46m 58s", "remaining_time": "2d 5h 13m 35s"}
+{"loss": 0.13296911, "token_acc": 0.95194669, "grad_norm": 0.49939105, "learning_rate": 8.176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246198, "epoch": 1.40445156, "global_step/max_steps": "18425/65595", "percentage": "28.09%", "elapsed_time": "20h 47m 16s", "remaining_time": "2d 5h 13m 8s"}
+{"loss": 0.1346402, "token_acc": 0.95271585, "grad_norm": 0.64460289, "learning_rate": 8.175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246212, "epoch": 1.40483269, "global_step/max_steps": "18430/65595", "percentage": "28.10%", "elapsed_time": "20h 47m 31s", "remaining_time": "2d 5h 12m 36s"}
+{"loss": 0.14285711, "token_acc": 0.94366197, "grad_norm": 1.8868022, "learning_rate": 8.174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246238, "epoch": 1.40521381, "global_step/max_steps": "18435/65595", "percentage": "28.10%", "elapsed_time": "20h 47m 44s", "remaining_time": "2d 5h 11m 55s"}
+{"loss": 0.12975727, "token_acc": 0.95522906, "grad_norm": 0.64820904, "learning_rate": 8.174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246242, "epoch": 1.40559494, "global_step/max_steps": "18440/65595", "percentage": "28.11%", "elapsed_time": "20h 48m 3s", "remaining_time": "2d 5h 11m 33s"}
+{"loss": 0.13965502, "token_acc": 0.95245062, "grad_norm": 0.72931504, "learning_rate": 8.173e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246256, "epoch": 1.40597607, "global_step/max_steps": "18445/65595", "percentage": "28.12%", "elapsed_time": "20h 48m 19s", "remaining_time": "2d 5h 11m 1s"}
+{"loss": 0.12642989, "token_acc": 0.94822804, "grad_norm": 1.01497829, "learning_rate": 8.172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246275, "epoch": 1.40635719, "global_step/max_steps": "18450/65595", "percentage": "28.13%", "elapsed_time": "20h 48m 34s", "remaining_time": "2d 5h 10m 26s"}
+{"loss": 0.10709239, "token_acc": 0.96525253, "grad_norm": 1.20622158, "learning_rate": 8.171e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246294, "epoch": 1.40673832, "global_step/max_steps": "18455/65595", "percentage": "28.13%", "elapsed_time": "20h 48m 48s", "remaining_time": "2d 5h 9m 51s"}
+{"loss": 0.10309564, "token_acc": 0.95951726, "grad_norm": 0.90430611, "learning_rate": 8.17e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246306, "epoch": 1.40711945, "global_step/max_steps": "18460/65595", "percentage": "28.14%", "elapsed_time": "20h 49m 5s", "remaining_time": "2d 5h 9m 21s"}
+{"loss": 0.11574128, "token_acc": 0.95547854, "grad_norm": 1.0621959, "learning_rate": 8.169e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246328, "epoch": 1.40750057, "global_step/max_steps": "18465/65595", "percentage": "28.15%", "elapsed_time": "20h 49m 18s", "remaining_time": "2d 5h 8m 44s"}
+{"loss": 0.14091129, "token_acc": 0.94867038, "grad_norm": 0.73997158, "learning_rate": 8.168e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246343, "epoch": 1.4078817, "global_step/max_steps": "18470/65595", "percentage": "28.16%", "elapsed_time": "20h 49m 34s", "remaining_time": "2d 5h 8m 12s"}
+{"loss": 0.08318619, "token_acc": 0.95076849, "grad_norm": 0.40641508, "learning_rate": 8.167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24636, "epoch": 1.40826282, "global_step/max_steps": "18475/65595", "percentage": "28.17%", "elapsed_time": "20h 49m 49s", "remaining_time": "2d 5h 7m 39s"}
+{"loss": 0.09168183, "token_acc": 0.9647467, "grad_norm": 0.94338173, "learning_rate": 8.166e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246363, "epoch": 1.40864395, "global_step/max_steps": "18480/65595", "percentage": "28.17%", "elapsed_time": "20h 50m 8s", "remaining_time": "2d 5h 7m 16s"}
+{"loss": 0.17582111, "token_acc": 0.93021175, "grad_norm": 0.90487355, "learning_rate": 8.165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246388, "epoch": 1.40902508, "global_step/max_steps": "18485/65595", "percentage": "28.18%", "elapsed_time": "20h 50m 21s", "remaining_time": "2d 5h 6m 36s"}
+{"loss": 0.07898682, "token_acc": 0.96316391, "grad_norm": 0.60955155, "learning_rate": 8.164e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246407, "epoch": 1.4094062, "global_step/max_steps": "18490/65595", "percentage": "28.19%", "elapsed_time": "20h 50m 36s", "remaining_time": "2d 5h 6m 1s"}
+{"loss": 0.11943141, "token_acc": 0.95265537, "grad_norm": 0.76028216, "learning_rate": 8.163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246402, "epoch": 1.40978733, "global_step/max_steps": "18495/65595", "percentage": "28.20%", "elapsed_time": "20h 50m 57s", "remaining_time": "2d 5h 5m 45s"}
+{"loss": 0.13339111, "token_acc": 0.95042445, "grad_norm": 0.52120489, "learning_rate": 8.162e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246422, "epoch": 1.41016846, "global_step/max_steps": "18500/65595", "percentage": "28.20%", "elapsed_time": "20h 51m 12s", "remaining_time": "2d 5h 5m 9s"}
+{"loss": 0.08556467, "token_acc": 0.96106119, "grad_norm": 0.79156256, "learning_rate": 8.162e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24644, "epoch": 1.41054958, "global_step/max_steps": "18505/65595", "percentage": "28.21%", "elapsed_time": "20h 51m 27s", "remaining_time": "2d 5h 4m 35s"}
+{"loss": 0.17056046, "token_acc": 0.92732078, "grad_norm": 1.13467896, "learning_rate": 8.161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24646, "epoch": 1.41093071, "global_step/max_steps": "18510/65595", "percentage": "28.22%", "elapsed_time": "20h 51m 41s", "remaining_time": "2d 5h 3m 59s"}
+{"loss": 0.11528912, "token_acc": 0.95351926, "grad_norm": 0.71006584, "learning_rate": 8.16e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246478, "epoch": 1.41131184, "global_step/max_steps": "18515/65595", "percentage": "28.23%", "elapsed_time": "20h 51m 56s", "remaining_time": "2d 5h 3m 25s"}
+{"loss": 0.10855063, "token_acc": 0.96008359, "grad_norm": 0.92736113, "learning_rate": 8.159e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246496, "epoch": 1.41169296, "global_step/max_steps": "18520/65595", "percentage": "28.23%", "elapsed_time": "20h 52m 10s", "remaining_time": "2d 5h 2m 51s"}
+{"loss": 0.12325654, "token_acc": 0.95371407, "grad_norm": 0.64184582, "learning_rate": 8.158e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246518, "epoch": 1.41207409, "global_step/max_steps": "18525/65595", "percentage": "28.24%", "elapsed_time": "20h 52m 24s", "remaining_time": "2d 5h 2m 14s"}
+{"loss": 0.10880007, "token_acc": 0.95624136, "grad_norm": 0.85998613, "learning_rate": 8.157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246531, "epoch": 1.41245522, "global_step/max_steps": "18530/65595", "percentage": "28.25%", "elapsed_time": "20h 52m 40s", "remaining_time": "2d 5h 1m 43s"}
+{"loss": 0.12699611, "token_acc": 0.94285714, "grad_norm": 0.77254695, "learning_rate": 8.156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246557, "epoch": 1.41283634, "global_step/max_steps": "18535/65595", "percentage": "28.26%", "elapsed_time": "20h 52m 53s", "remaining_time": "2d 5h 1m 3s"}
+{"loss": 0.13942, "token_acc": 0.95334498, "grad_norm": 0.55192107, "learning_rate": 8.155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246563, "epoch": 1.41321747, "global_step/max_steps": "18540/65595", "percentage": "28.26%", "elapsed_time": "20h 53m 11s", "remaining_time": "2d 5h 0m 38s"}
+{"loss": 0.15139667, "token_acc": 0.95169414, "grad_norm": 0.29357147, "learning_rate": 8.154e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246579, "epoch": 1.4135986, "global_step/max_steps": "18545/65595", "percentage": "28.27%", "elapsed_time": "20h 53m 26s", "remaining_time": "2d 5h 0m 5s"}
+{"loss": 0.12263893, "token_acc": 0.95578231, "grad_norm": 1.74235713, "learning_rate": 8.153e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246602, "epoch": 1.41397972, "global_step/max_steps": "18550/65595", "percentage": "28.28%", "elapsed_time": "20h 53m 40s", "remaining_time": "2d 4h 59m 27s"}
+{"loss": 0.08305849, "token_acc": 0.96360856, "grad_norm": 0.83223325, "learning_rate": 8.152e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246623, "epoch": 1.41436085, "global_step/max_steps": "18555/65595", "percentage": "28.29%", "elapsed_time": "20h 53m 54s", "remaining_time": "2d 4h 58m 51s"}
+{"loss": 0.16248252, "token_acc": 0.9456869, "grad_norm": 0.85216957, "learning_rate": 8.151e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246631, "epoch": 1.41474198, "global_step/max_steps": "18560/65595", "percentage": "28.29%", "elapsed_time": "20h 54m 12s", "remaining_time": "2d 4h 58m 24s"}
+{"loss": 0.08836097, "token_acc": 0.95548654, "grad_norm": 1.09600782, "learning_rate": 8.15e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246652, "epoch": 1.4151231, "global_step/max_steps": "18565/65595", "percentage": "28.30%", "elapsed_time": "20h 54m 25s", "remaining_time": "2d 4h 57m 48s"}
+{"loss": 0.15664027, "token_acc": 0.93090909, "grad_norm": 1.06727207, "learning_rate": 8.149e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246675, "epoch": 1.41550423, "global_step/max_steps": "18570/65595", "percentage": "28.31%", "elapsed_time": "20h 54m 39s", "remaining_time": "2d 4h 57m 9s"}
+{"loss": 0.20674436, "token_acc": 0.92688525, "grad_norm": 1.68823457, "learning_rate": 8.149e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246696, "epoch": 1.41588536, "global_step/max_steps": "18575/65595", "percentage": "28.32%", "elapsed_time": "20h 54m 52s", "remaining_time": "2d 4h 56m 33s"}
+{"loss": 0.16085221, "token_acc": 0.94281973, "grad_norm": 0.5362255, "learning_rate": 8.148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246707, "epoch": 1.41626648, "global_step/max_steps": "18580/65595", "percentage": "28.33%", "elapsed_time": "20h 55m 9s", "remaining_time": "2d 4h 56m 4s"}
+{"loss": 0.14986461, "token_acc": 0.94209703, "grad_norm": 0.5185706, "learning_rate": 8.147e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246719, "epoch": 1.41664761, "global_step/max_steps": "18585/65595", "percentage": "28.33%", "elapsed_time": "20h 55m 26s", "remaining_time": "2d 4h 55m 35s"}
+{"loss": 0.12895435, "token_acc": 0.94962439, "grad_norm": 1.70524585, "learning_rate": 8.146e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246744, "epoch": 1.41702874, "global_step/max_steps": "18590/65595", "percentage": "28.34%", "elapsed_time": "20h 55m 39s", "remaining_time": "2d 4h 54m 55s"}
+{"loss": 0.09701173, "token_acc": 0.94977169, "grad_norm": 0.60999137, "learning_rate": 8.145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246766, "epoch": 1.41740986, "global_step/max_steps": "18595/65595", "percentage": "28.35%", "elapsed_time": "20h 55m 52s", "remaining_time": "2d 4h 54m 18s"}
+{"loss": 0.09798418, "token_acc": 0.94905345, "grad_norm": 1.14429605, "learning_rate": 8.144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246789, "epoch": 1.41779099, "global_step/max_steps": "18600/65595", "percentage": "28.36%", "elapsed_time": "20h 56m 5s", "remaining_time": "2d 4h 53m 40s"}
+{"eval_loss": 0.10525099, "eval_token_acc": 0.9520059, "eval_runtime": 159.3102, "eval_samples_per_second": 3.327, "eval_steps_per_second": 3.327, "epoch": 1.41779099, "global_step/max_steps": "18600/65595", "percentage": "28.36%", "elapsed_time": "20h 58m 45s", "remaining_time": "2d 5h 0m 22s"}
+{"loss": 0.11573319, "token_acc": 0.95145525, "grad_norm": 0.68385285, "learning_rate": 8.143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246288, "epoch": 1.41817212, "global_step/max_steps": "18605/65595", "percentage": "28.36%", "elapsed_time": "20h 58m 59s", "remaining_time": "2d 4h 59m 47s"}
+{"loss": 0.11576132, "token_acc": 0.9599629, "grad_norm": 0.98424512, "learning_rate": 8.142e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246297, "epoch": 1.41855324, "global_step/max_steps": "18610/65595", "percentage": "28.37%", "elapsed_time": "20h 59m 16s", "remaining_time": "2d 4h 59m 19s"}
+{"loss": 0.13617386, "token_acc": 0.95146613, "grad_norm": 1.56663442, "learning_rate": 8.141e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246307, "epoch": 1.41893437, "global_step/max_steps": "18615/65595", "percentage": "28.38%", "elapsed_time": "20h 59m 34s", "remaining_time": "2d 4h 58m 51s"}
+{"loss": 0.11497245, "token_acc": 0.95121328, "grad_norm": 1.37704229, "learning_rate": 8.14e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246326, "epoch": 1.4193155, "global_step/max_steps": "18620/65595", "percentage": "28.39%", "elapsed_time": "20h 59m 48s", "remaining_time": "2d 4h 58m 17s"}
+{"loss": 0.16979781, "token_acc": 0.94000242, "grad_norm": 0.65185583, "learning_rate": 8.139e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246329, "epoch": 1.41969662, "global_step/max_steps": "18625/65595", "percentage": "28.39%", "elapsed_time": "21h 0m 8s", "remaining_time": "2d 4h 57m 54s"}
+{"loss": 0.161607, "token_acc": 0.94336865, "grad_norm": 0.68995142, "learning_rate": 8.138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246353, "epoch": 1.42007775, "global_step/max_steps": "18630/65595", "percentage": "28.40%", "elapsed_time": "21h 0m 20s", "remaining_time": "2d 4h 57m 15s"}
+{"loss": 0.14253788, "token_acc": 0.94729136, "grad_norm": 1.05543959, "learning_rate": 8.137e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246368, "epoch": 1.42045888, "global_step/max_steps": "18635/65595", "percentage": "28.41%", "elapsed_time": "21h 0m 36s", "remaining_time": "2d 4h 56m 43s"}
+{"loss": 0.13989067, "token_acc": 0.94728991, "grad_norm": 1.55819333, "learning_rate": 8.136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246387, "epoch": 1.42084, "global_step/max_steps": "18640/65595", "percentage": "28.42%", "elapsed_time": "21h 0m 51s", "remaining_time": "2d 4h 56m 8s"}
+{"loss": 0.12189822, "token_acc": 0.954749, "grad_norm": 0.6901738, "learning_rate": 8.135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246404, "epoch": 1.42122113, "global_step/max_steps": "18645/65595", "percentage": "28.42%", "elapsed_time": "21h 1m 6s", "remaining_time": "2d 4h 55m 35s"}
+{"loss": 0.10346074, "token_acc": 0.95698467, "grad_norm": 0.95784682, "learning_rate": 8.135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246427, "epoch": 1.42160226, "global_step/max_steps": "18650/65595", "percentage": "28.43%", "elapsed_time": "21h 1m 19s", "remaining_time": "2d 4h 54m 56s"}
+{"loss": 0.1035544, "token_acc": 0.95950246, "grad_norm": 0.78440315, "learning_rate": 8.134e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246432, "epoch": 1.42198338, "global_step/max_steps": "18655/65595", "percentage": "28.44%", "elapsed_time": "21h 1m 38s", "remaining_time": "2d 4h 54m 32s"}
+{"loss": 0.15942969, "token_acc": 0.91340206, "grad_norm": 1.02406037, "learning_rate": 8.133e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246456, "epoch": 1.42236451, "global_step/max_steps": "18660/65595", "percentage": "28.45%", "elapsed_time": "21h 1m 51s", "remaining_time": "2d 4h 53m 54s"}
+{"loss": 0.11618781, "token_acc": 0.95217789, "grad_norm": 0.47735918, "learning_rate": 8.132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246478, "epoch": 1.42274564, "global_step/max_steps": "18665/65595", "percentage": "28.45%", "elapsed_time": "21h 2m 4s", "remaining_time": "2d 4h 53m 17s"}
+{"loss": 0.0723784, "token_acc": 0.96770439, "grad_norm": 0.95379239, "learning_rate": 8.131e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246497, "epoch": 1.42312676, "global_step/max_steps": "18670/65595", "percentage": "28.46%", "elapsed_time": "21h 2m 18s", "remaining_time": "2d 4h 52m 41s"}
+{"loss": 0.13588591, "token_acc": 0.94581555, "grad_norm": 0.88780236, "learning_rate": 8.13e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246513, "epoch": 1.42350789, "global_step/max_steps": "18675/65595", "percentage": "28.47%", "elapsed_time": "21h 2m 34s", "remaining_time": "2d 4h 52m 9s"}
+{"loss": 0.13079199, "token_acc": 0.95383104, "grad_norm": 1.62100017, "learning_rate": 8.129e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246537, "epoch": 1.42388902, "global_step/max_steps": "18680/65595", "percentage": "28.48%", "elapsed_time": "21h 2m 47s", "remaining_time": "2d 4h 51m 30s"}
+{"loss": 0.10710233, "token_acc": 0.95401285, "grad_norm": 0.97448182, "learning_rate": 8.128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24654, "epoch": 1.42427014, "global_step/max_steps": "18685/65595", "percentage": "28.49%", "elapsed_time": "21h 3m 6s", "remaining_time": "2d 4h 51m 7s"}
+{"loss": 0.17551583, "token_acc": 0.9245283, "grad_norm": 1.22909868, "learning_rate": 8.127e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246565, "epoch": 1.42465127, "global_step/max_steps": "18690/65595", "percentage": "28.49%", "elapsed_time": "21h 3m 19s", "remaining_time": "2d 4h 50m 27s"}
+{"loss": 0.15813136, "token_acc": 0.93243848, "grad_norm": 0.68286723, "learning_rate": 8.126e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246584, "epoch": 1.4250324, "global_step/max_steps": "18695/65595", "percentage": "28.50%", "elapsed_time": "21h 3m 33s", "remaining_time": "2d 4h 49m 53s"}
+{"loss": 0.07333602, "token_acc": 0.97935619, "grad_norm": 0.7722671, "learning_rate": 8.125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246606, "epoch": 1.42541352, "global_step/max_steps": "18700/65595", "percentage": "28.51%", "elapsed_time": "21h 3m 47s", "remaining_time": "2d 4h 49m 16s"}
+{"loss": 0.11746157, "token_acc": 0.96202119, "grad_norm": 0.70252275, "learning_rate": 8.124e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246615, "epoch": 1.42579465, "global_step/max_steps": "18705/65595", "percentage": "28.52%", "elapsed_time": "21h 4m 4s", "remaining_time": "2d 4h 48m 49s"}
+{"loss": 0.15710291, "token_acc": 0.93916831, "grad_norm": 1.04868996, "learning_rate": 8.123e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246627, "epoch": 1.42617578, "global_step/max_steps": "18710/65595", "percentage": "28.52%", "elapsed_time": "21h 4m 21s", "remaining_time": "2d 4h 48m 19s"}
+{"loss": 0.16659474, "token_acc": 0.94321639, "grad_norm": 1.35899591, "learning_rate": 8.122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246641, "epoch": 1.4265569, "global_step/max_steps": "18715/65595", "percentage": "28.53%", "elapsed_time": "21h 4m 37s", "remaining_time": "2d 4h 47m 48s"}
+{"loss": 0.11129705, "token_acc": 0.96082725, "grad_norm": 0.92708123, "learning_rate": 8.121e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246658, "epoch": 1.42693803, "global_step/max_steps": "18720/65595", "percentage": "28.54%", "elapsed_time": "21h 4m 52s", "remaining_time": "2d 4h 47m 14s"}
+{"loss": 0.13685863, "token_acc": 0.9308653, "grad_norm": 0.79949498, "learning_rate": 8.121e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246676, "epoch": 1.42731916, "global_step/max_steps": "18725/65595", "percentage": "28.55%", "elapsed_time": "21h 5m 7s", "remaining_time": "2d 4h 46m 40s"}
+{"loss": 0.09754078, "token_acc": 0.96885355, "grad_norm": 1.30210936, "learning_rate": 8.12e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246685, "epoch": 1.42770028, "global_step/max_steps": "18730/65595", "percentage": "28.55%", "elapsed_time": "21h 5m 24s", "remaining_time": "2d 4h 46m 13s"}
+{"loss": 0.11728485, "token_acc": 0.95302889, "grad_norm": 1.25755084, "learning_rate": 8.119e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2467, "epoch": 1.42808141, "global_step/max_steps": "18735/65595", "percentage": "28.56%", "elapsed_time": "21h 5m 40s", "remaining_time": "2d 4h 45m 41s"}
+{"loss": 0.09095392, "token_acc": 0.96293782, "grad_norm": 0.28662527, "learning_rate": 8.118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246711, "epoch": 1.42846254, "global_step/max_steps": "18740/65595", "percentage": "28.57%", "elapsed_time": "21h 5m 57s", "remaining_time": "2d 4h 45m 12s"}
+{"loss": 0.11995611, "token_acc": 0.94520548, "grad_norm": 1.68965256, "learning_rate": 8.117e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246733, "epoch": 1.42884366, "global_step/max_steps": "18745/65595", "percentage": "28.58%", "elapsed_time": "21h 6m 10s", "remaining_time": "2d 4h 44m 35s"}
+{"loss": 0.14085314, "token_acc": 0.95899128, "grad_norm": 0.95329273, "learning_rate": 8.116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246753, "epoch": 1.42922479, "global_step/max_steps": "18750/65595", "percentage": "28.58%", "elapsed_time": "21h 6m 24s", "remaining_time": "2d 4h 44m 0s"}
+{"loss": 0.13542818, "token_acc": 0.94559655, "grad_norm": 1.22497213, "learning_rate": 8.115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246772, "epoch": 1.42960592, "global_step/max_steps": "18755/65595", "percentage": "28.59%", "elapsed_time": "21h 6m 39s", "remaining_time": "2d 4h 43m 25s"}
+{"loss": 0.14549415, "token_acc": 0.95284014, "grad_norm": 1.38246822, "learning_rate": 8.114e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246784, "epoch": 1.42998704, "global_step/max_steps": "18760/65595", "percentage": "28.60%", "elapsed_time": "21h 6m 55s", "remaining_time": "2d 4h 42m 55s"}
+{"loss": 0.10107467, "token_acc": 0.96444444, "grad_norm": 0.73193645, "learning_rate": 8.113e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2468, "epoch": 1.43036817, "global_step/max_steps": "18765/65595", "percentage": "28.61%", "elapsed_time": "21h 7m 10s", "remaining_time": "2d 4h 42m 22s"}
+{"loss": 0.12028862, "token_acc": 0.96593674, "grad_norm": 0.83876389, "learning_rate": 8.112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246819, "epoch": 1.43074929, "global_step/max_steps": "18770/65595", "percentage": "28.61%", "elapsed_time": "21h 7m 25s", "remaining_time": "2d 4h 41m 48s"}
+{"loss": 0.11790206, "token_acc": 0.94759825, "grad_norm": 0.85548675, "learning_rate": 8.111e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246834, "epoch": 1.43113042, "global_step/max_steps": "18775/65595", "percentage": "28.62%", "elapsed_time": "21h 7m 41s", "remaining_time": "2d 4h 41m 16s"}
+{"loss": 0.16302452, "token_acc": 0.94210123, "grad_norm": 1.53907955, "learning_rate": 8.11e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246859, "epoch": 1.43151155, "global_step/max_steps": "18780/65595", "percentage": "28.63%", "elapsed_time": "21h 7m 53s", "remaining_time": "2d 4h 40m 37s"}
+{"loss": 0.18199346, "token_acc": 0.92904656, "grad_norm": 1.70681107, "learning_rate": 8.109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246883, "epoch": 1.43189267, "global_step/max_steps": "18785/65595", "percentage": "28.64%", "elapsed_time": "21h 8m 6s", "remaining_time": "2d 4h 39m 58s"}
+{"loss": 0.11843565, "token_acc": 0.9505618, "grad_norm": 0.93265796, "learning_rate": 8.108e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246897, "epoch": 1.4322738, "global_step/max_steps": "18790/65595", "percentage": "28.65%", "elapsed_time": "21h 8m 22s", "remaining_time": "2d 4h 39m 27s"}
+{"loss": 0.14099422, "token_acc": 0.9606473, "grad_norm": 1.2024771, "learning_rate": 8.107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246906, "epoch": 1.43265493, "global_step/max_steps": "18795/65595", "percentage": "28.65%", "elapsed_time": "21h 8m 39s", "remaining_time": "2d 4h 39m 0s"}
+{"loss": 0.11027974, "token_acc": 0.94705153, "grad_norm": 1.23179662, "learning_rate": 8.106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24692, "epoch": 1.43303605, "global_step/max_steps": "18800/65595", "percentage": "28.66%", "elapsed_time": "21h 8m 55s", "remaining_time": "2d 4h 38m 28s"}
+{"eval_loss": 0.10415905, "eval_token_acc": 0.95242756, "eval_runtime": 158.9709, "eval_samples_per_second": 3.334, "eval_steps_per_second": 3.334, "epoch": 1.43303605, "global_step/max_steps": "18800/65595", "percentage": "28.66%", "elapsed_time": "21h 11m 34s", "remaining_time": "2d 4h 45m 4s"}
+{"loss": 0.18317933, "token_acc": 0.9517214, "grad_norm": 0.6738717, "learning_rate": 8.106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246415, "epoch": 1.43341718, "global_step/max_steps": "18805/65595", "percentage": "28.67%", "elapsed_time": "21h 11m 52s", "remaining_time": "2d 4h 44m 37s"}
+{"loss": 0.12054901, "token_acc": 0.95073375, "grad_norm": 1.12117171, "learning_rate": 8.105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246429, "epoch": 1.43379831, "global_step/max_steps": "18810/65595", "percentage": "28.68%", "elapsed_time": "21h 12m 7s", "remaining_time": "2d 4h 44m 6s"}
+{"loss": 0.12549219, "token_acc": 0.94774347, "grad_norm": 0.71094197, "learning_rate": 8.104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246443, "epoch": 1.43417943, "global_step/max_steps": "18815/65595", "percentage": "28.68%", "elapsed_time": "21h 12m 24s", "remaining_time": "2d 4h 43m 35s"}
+{"loss": 0.12163188, "token_acc": 0.94975092, "grad_norm": 0.63515985, "learning_rate": 8.103e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24646, "epoch": 1.43456056, "global_step/max_steps": "18820/65595", "percentage": "28.69%", "elapsed_time": "21h 12m 38s", "remaining_time": "2d 4h 43m 1s"}
+{"loss": 0.12906454, "token_acc": 0.94759087, "grad_norm": 1.36000395, "learning_rate": 8.102e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246469, "epoch": 1.43494169, "global_step/max_steps": "18825/65595", "percentage": "28.70%", "elapsed_time": "21h 12m 56s", "remaining_time": "2d 4h 42m 34s"}
+{"loss": 0.11569726, "token_acc": 0.95852535, "grad_norm": 0.6743232, "learning_rate": 8.101e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246479, "epoch": 1.43532281, "global_step/max_steps": "18830/65595", "percentage": "28.71%", "elapsed_time": "21h 13m 13s", "remaining_time": "2d 4h 42m 7s"}
+{"loss": 0.12249659, "token_acc": 0.95114838, "grad_norm": 0.52067101, "learning_rate": 8.1e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246498, "epoch": 1.43570394, "global_step/max_steps": "18835/65595", "percentage": "28.71%", "elapsed_time": "21h 13m 28s", "remaining_time": "2d 4h 41m 31s"}
+{"loss": 0.11815062, "token_acc": 0.95498144, "grad_norm": 0.9329952, "learning_rate": 8.099e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246505, "epoch": 1.43608507, "global_step/max_steps": "18840/65595", "percentage": "28.72%", "elapsed_time": "21h 13m 46s", "remaining_time": "2d 4h 41m 5s"}
+{"loss": 0.10759945, "token_acc": 0.95096837, "grad_norm": 0.59145594, "learning_rate": 8.098e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246522, "epoch": 1.43646619, "global_step/max_steps": "18845/65595", "percentage": "28.73%", "elapsed_time": "21h 14m 1s", "remaining_time": "2d 4h 40m 32s"}
+{"loss": 0.1287702, "token_acc": 0.96194503, "grad_norm": 0.65742934, "learning_rate": 8.097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246526, "epoch": 1.43684732, "global_step/max_steps": "18850/65595", "percentage": "28.74%", "elapsed_time": "21h 14m 20s", "remaining_time": "2d 4h 40m 9s"}
+{"loss": 0.15353148, "token_acc": 0.9493519, "grad_norm": 1.22713971, "learning_rate": 8.096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246543, "epoch": 1.43722845, "global_step/max_steps": "18855/65595", "percentage": "28.74%", "elapsed_time": "21h 14m 35s", "remaining_time": "2d 4h 39m 36s"}
+{"loss": 0.09196497, "token_acc": 0.9653055, "grad_norm": 0.82738519, "learning_rate": 8.095e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246555, "epoch": 1.43760957, "global_step/max_steps": "18860/65595", "percentage": "28.75%", "elapsed_time": "21h 14m 51s", "remaining_time": "2d 4h 39m 6s"}
+{"loss": 0.12972169, "token_acc": 0.95151515, "grad_norm": 0.31403011, "learning_rate": 8.094e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246569, "epoch": 1.4379907, "global_step/max_steps": "18865/65595", "percentage": "28.76%", "elapsed_time": "21h 15m 7s", "remaining_time": "2d 4h 38m 35s"}
+{"loss": 0.15748403, "token_acc": 0.94195421, "grad_norm": 1.54760265, "learning_rate": 8.093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246584, "epoch": 1.43837183, "global_step/max_steps": "18870/65595", "percentage": "28.77%", "elapsed_time": "21h 15m 23s", "remaining_time": "2d 4h 38m 3s"}
+{"loss": 0.12394016, "token_acc": 0.95476354, "grad_norm": 0.72550452, "learning_rate": 8.092e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246594, "epoch": 1.43875295, "global_step/max_steps": "18875/65595", "percentage": "28.78%", "elapsed_time": "21h 15m 40s", "remaining_time": "2d 4h 37m 35s"}
+{"loss": 0.17961875, "token_acc": 0.94937905, "grad_norm": 0.58108521, "learning_rate": 8.091e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246601, "epoch": 1.43913408, "global_step/max_steps": "18880/65595", "percentage": "28.78%", "elapsed_time": "21h 15m 58s", "remaining_time": "2d 4h 37m 9s"}
+{"loss": 0.12273042, "token_acc": 0.95780737, "grad_norm": 0.64118838, "learning_rate": 8.09e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246612, "epoch": 1.43951521, "global_step/max_steps": "18885/65595", "percentage": "28.79%", "elapsed_time": "21h 16m 15s", "remaining_time": "2d 4h 36m 41s"}
+{"loss": 0.13889453, "token_acc": 0.95566019, "grad_norm": 1.12886226, "learning_rate": 8.09e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246615, "epoch": 1.43989633, "global_step/max_steps": "18890/65595", "percentage": "28.80%", "elapsed_time": "21h 16m 34s", "remaining_time": "2d 4h 36m 18s"}
+{"loss": 0.1083154, "token_acc": 0.96554307, "grad_norm": 0.60369283, "learning_rate": 8.089e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246631, "epoch": 1.44027746, "global_step/max_steps": "18895/65595", "percentage": "28.81%", "elapsed_time": "21h 16m 50s", "remaining_time": "2d 4h 35m 46s"}
+{"loss": 0.11340766, "token_acc": 0.96067684, "grad_norm": 0.70859367, "learning_rate": 8.088e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24665, "epoch": 1.44065859, "global_step/max_steps": "18900/65595", "percentage": "28.81%", "elapsed_time": "21h 17m 4s", "remaining_time": "2d 4h 35m 11s"}
+{"loss": 0.12060369, "token_acc": 0.95000859, "grad_norm": 0.8926484, "learning_rate": 8.087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246662, "epoch": 1.44103971, "global_step/max_steps": "18905/65595", "percentage": "28.82%", "elapsed_time": "21h 17m 21s", "remaining_time": "2d 4h 34m 42s"}
+{"loss": 0.09916903, "token_acc": 0.95750666, "grad_norm": 0.87519658, "learning_rate": 8.086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246673, "epoch": 1.44142084, "global_step/max_steps": "18910/65595", "percentage": "28.83%", "elapsed_time": "21h 17m 37s", "remaining_time": "2d 4h 34m 13s"}
+{"loss": 0.13124603, "token_acc": 0.95834689, "grad_norm": 1.13645005, "learning_rate": 8.085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246691, "epoch": 1.44180197, "global_step/max_steps": "18915/65595", "percentage": "28.84%", "elapsed_time": "21h 17m 52s", "remaining_time": "2d 4h 33m 38s"}
+{"loss": 0.1558275, "token_acc": 0.93071374, "grad_norm": 1.15384901, "learning_rate": 8.084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246711, "epoch": 1.44218309, "global_step/max_steps": "18920/65595", "percentage": "28.84%", "elapsed_time": "21h 18m 6s", "remaining_time": "2d 4h 33m 3s"}
+{"loss": 0.13207271, "token_acc": 0.95006211, "grad_norm": 0.75746721, "learning_rate": 8.083e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246733, "epoch": 1.44256422, "global_step/max_steps": "18925/65595", "percentage": "28.85%", "elapsed_time": "21h 18m 20s", "remaining_time": "2d 4h 32m 26s"}
+{"loss": 0.10468073, "token_acc": 0.94940152, "grad_norm": 0.7052353, "learning_rate": 8.082e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246749, "epoch": 1.44294535, "global_step/max_steps": "18930/65595", "percentage": "28.86%", "elapsed_time": "21h 18m 35s", "remaining_time": "2d 4h 31m 53s"}
+{"loss": 0.09797732, "token_acc": 0.95920969, "grad_norm": 0.91692781, "learning_rate": 8.081e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24677, "epoch": 1.44332647, "global_step/max_steps": "18935/65595", "percentage": "28.87%", "elapsed_time": "21h 18m 49s", "remaining_time": "2d 4h 31m 17s"}
+{"loss": 0.16652769, "token_acc": 0.9416171, "grad_norm": 1.78073227, "learning_rate": 8.08e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246783, "epoch": 1.4437076, "global_step/max_steps": "18940/65595", "percentage": "28.87%", "elapsed_time": "21h 19m 5s", "remaining_time": "2d 4h 30m 47s"}
+{"loss": 0.1859385, "token_acc": 0.91367908, "grad_norm": 0.70235586, "learning_rate": 8.079e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246803, "epoch": 1.44408873, "global_step/max_steps": "18945/65595", "percentage": "28.88%", "elapsed_time": "21h 19m 19s", "remaining_time": "2d 4h 30m 11s"}
+{"loss": 0.13992748, "token_acc": 0.95251345, "grad_norm": 1.96058798, "learning_rate": 8.078e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246814, "epoch": 1.44446985, "global_step/max_steps": "18950/65595", "percentage": "28.89%", "elapsed_time": "21h 19m 36s", "remaining_time": "2d 4h 29m 43s"}
+{"loss": 0.15598549, "token_acc": 0.94365139, "grad_norm": 1.02971637, "learning_rate": 8.077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246825, "epoch": 1.44485098, "global_step/max_steps": "18955/65595", "percentage": "28.90%", "elapsed_time": "21h 19m 53s", "remaining_time": "2d 4h 29m 14s"}
+{"loss": 0.10381536, "token_acc": 0.95881609, "grad_norm": 0.6106841, "learning_rate": 8.076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24683, "epoch": 1.44523211, "global_step/max_steps": "18960/65595", "percentage": "28.90%", "elapsed_time": "21h 20m 11s", "remaining_time": "2d 4h 28m 50s"}
+{"loss": 0.17083434, "token_acc": 0.93087558, "grad_norm": 2.68115973, "learning_rate": 8.075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246849, "epoch": 1.44561323, "global_step/max_steps": "18965/65595", "percentage": "28.91%", "elapsed_time": "21h 20m 26s", "remaining_time": "2d 4h 28m 15s"}
+{"loss": 0.14015732, "token_acc": 0.94742451, "grad_norm": 0.65296149, "learning_rate": 8.074e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246861, "epoch": 1.44599436, "global_step/max_steps": "18970/65595", "percentage": "28.92%", "elapsed_time": "21h 20m 42s", "remaining_time": "2d 4h 27m 46s"}
+{"loss": 0.13044567, "token_acc": 0.95258056, "grad_norm": 0.81631452, "learning_rate": 8.074e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246879, "epoch": 1.44637549, "global_step/max_steps": "18975/65595", "percentage": "28.93%", "elapsed_time": "21h 20m 57s", "remaining_time": "2d 4h 27m 12s"}
+{"loss": 0.15981061, "token_acc": 0.94377186, "grad_norm": 0.54196984, "learning_rate": 8.073e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2469, "epoch": 1.44675661, "global_step/max_steps": "18980/65595", "percentage": "28.94%", "elapsed_time": "21h 21m 10s", "remaining_time": "2d 4h 26m 35s"}
+{"loss": 0.1065437, "token_acc": 0.96343509, "grad_norm": 1.50644171, "learning_rate": 8.072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24692, "epoch": 1.44713774, "global_step/max_steps": "18985/65595", "percentage": "28.94%", "elapsed_time": "21h 21m 24s", "remaining_time": "2d 4h 25m 59s"}
+{"loss": 0.14349917, "token_acc": 0.94275967, "grad_norm": 1.34960544, "learning_rate": 8.071e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246943, "epoch": 1.44751887, "global_step/max_steps": "18990/65595", "percentage": "28.95%", "elapsed_time": "21h 21m 38s", "remaining_time": "2d 4h 25m 22s"}
+{"loss": 0.12301587, "token_acc": 0.95703704, "grad_norm": 0.68153811, "learning_rate": 8.07e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246962, "epoch": 1.44789999, "global_step/max_steps": "18995/65595", "percentage": "28.96%", "elapsed_time": "21h 21m 52s", "remaining_time": "2d 4h 24m 47s"}
+{"loss": 0.07955302, "token_acc": 0.95982423, "grad_norm": 0.69607115, "learning_rate": 8.069e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246981, "epoch": 1.44828112, "global_step/max_steps": "19000/65595", "percentage": "28.97%", "elapsed_time": "21h 22m 6s", "remaining_time": "2d 4h 24m 12s"}
+{"eval_loss": 0.10236882, "eval_token_acc": 0.95286429, "eval_runtime": 158.6226, "eval_samples_per_second": 3.341, "eval_steps_per_second": 3.341, "epoch": 1.44828112, "global_step/max_steps": "19000/65595", "percentage": "28.97%", "elapsed_time": "21h 24m 45s", "remaining_time": "2d 4h 30m 41s"}
+{"loss": 0.1116616, "token_acc": 0.95312175, "grad_norm": 0.938932, "learning_rate": 8.068e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246481, "epoch": 1.44866225, "global_step/max_steps": "19005/65595", "percentage": "28.97%", "elapsed_time": "21h 25m 3s", "remaining_time": "2d 4h 30m 14s"}
+{"loss": 0.12198756, "token_acc": 0.95350109, "grad_norm": 1.48026061, "learning_rate": 8.067e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246497, "epoch": 1.44904337, "global_step/max_steps": "19010/65595", "percentage": "28.98%", "elapsed_time": "21h 25m 18s", "remaining_time": "2d 4h 29m 42s"}
+{"loss": 0.13377373, "token_acc": 0.94656489, "grad_norm": 1.17120683, "learning_rate": 8.066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246517, "epoch": 1.4494245, "global_step/max_steps": "19015/65595", "percentage": "28.99%", "elapsed_time": "21h 25m 32s", "remaining_time": "2d 4h 29m 7s"}
+{"loss": 0.10509794, "token_acc": 0.95995967, "grad_norm": 0.74303257, "learning_rate": 8.065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246525, "epoch": 1.44980563, "global_step/max_steps": "19020/65595", "percentage": "29.00%", "elapsed_time": "21h 25m 50s", "remaining_time": "2d 4h 28m 40s"}
+{"loss": 0.17982987, "token_acc": 0.93959125, "grad_norm": 1.166677, "learning_rate": 8.064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246539, "epoch": 1.45018675, "global_step/max_steps": "19025/65595", "percentage": "29.00%", "elapsed_time": "21h 26m 6s", "remaining_time": "2d 4h 28m 9s"}
+{"loss": 0.1053254, "token_acc": 0.96122449, "grad_norm": 1.19445157, "learning_rate": 8.063e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246564, "epoch": 1.45056788, "global_step/max_steps": "19030/65595", "percentage": "29.01%", "elapsed_time": "21h 26m 18s", "remaining_time": "2d 4h 27m 30s"}
+{"loss": 0.09269208, "token_acc": 0.96473401, "grad_norm": 1.36346316, "learning_rate": 8.062e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246589, "epoch": 1.45094901, "global_step/max_steps": "19035/65595", "percentage": "29.02%", "elapsed_time": "21h 26m 31s", "remaining_time": "2d 4h 26m 51s"}
+{"loss": 0.12403786, "token_acc": 0.95348369, "grad_norm": 1.13109744, "learning_rate": 8.061e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246592, "epoch": 1.45133013, "global_step/max_steps": "19040/65595", "percentage": "29.03%", "elapsed_time": "21h 26m 50s", "remaining_time": "2d 4h 26m 27s"}
+{"loss": 0.0766547, "token_acc": 0.9620098, "grad_norm": 0.06138042, "learning_rate": 8.06e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246614, "epoch": 1.45171126, "global_step/max_steps": "19045/65595", "percentage": "29.03%", "elapsed_time": "21h 27m 3s", "remaining_time": "2d 4h 25m 51s"}
+{"loss": 0.16266299, "token_acc": 0.95229244, "grad_norm": 0.48154578, "learning_rate": 8.059e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246626, "epoch": 1.45209239, "global_step/max_steps": "19050/65595", "percentage": "29.04%", "elapsed_time": "21h 27m 20s", "remaining_time": "2d 4h 25m 21s"}
+{"loss": 0.16177576, "token_acc": 0.93271079, "grad_norm": 1.06865954, "learning_rate": 8.058e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246648, "epoch": 1.45247351, "global_step/max_steps": "19055/65595", "percentage": "29.05%", "elapsed_time": "21h 27m 33s", "remaining_time": "2d 4h 24m 44s"}
+{"loss": 0.08406713, "token_acc": 0.96436239, "grad_norm": 0.58872354, "learning_rate": 8.057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246658, "epoch": 1.45285464, "global_step/max_steps": "19060/65595", "percentage": "29.06%", "elapsed_time": "21h 27m 50s", "remaining_time": "2d 4h 24m 16s"}
+{"loss": 0.12369676, "token_acc": 0.9601707, "grad_norm": 0.8079704, "learning_rate": 8.056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246678, "epoch": 1.45323576, "global_step/max_steps": "19065/65595", "percentage": "29.06%", "elapsed_time": "21h 28m 4s", "remaining_time": "2d 4h 23m 40s"}
+{"loss": 0.11172273, "token_acc": 0.95842565, "grad_norm": 0.64196068, "learning_rate": 8.056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246682, "epoch": 1.45361689, "global_step/max_steps": "19070/65595", "percentage": "29.07%", "elapsed_time": "21h 28m 23s", "remaining_time": "2d 4h 23m 17s"}
+{"loss": 0.16299207, "token_acc": 0.94395988, "grad_norm": 1.18314517, "learning_rate": 8.055e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246697, "epoch": 1.45399802, "global_step/max_steps": "19075/65595", "percentage": "29.08%", "elapsed_time": "21h 28m 39s", "remaining_time": "2d 4h 22m 46s"}
+{"loss": 0.13252385, "token_acc": 0.95414771, "grad_norm": 2.04421782, "learning_rate": 8.054e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246717, "epoch": 1.45437914, "global_step/max_steps": "19080/65595", "percentage": "29.09%", "elapsed_time": "21h 28m 53s", "remaining_time": "2d 4h 22m 10s"}
+{"loss": 0.10227638, "token_acc": 0.95748462, "grad_norm": 1.10424936, "learning_rate": 8.053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246724, "epoch": 1.45476027, "global_step/max_steps": "19085/65595", "percentage": "29.10%", "elapsed_time": "21h 29m 11s", "remaining_time": "2d 4h 21m 44s"}
+{"loss": 0.15592866, "token_acc": 0.95113122, "grad_norm": 0.98229957, "learning_rate": 8.052e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246741, "epoch": 1.4551414, "global_step/max_steps": "19090/65595", "percentage": "29.10%", "elapsed_time": "21h 29m 26s", "remaining_time": "2d 4h 21m 11s"}
+{"loss": 0.1487817, "token_acc": 0.94532374, "grad_norm": 1.4082253, "learning_rate": 8.051e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246766, "epoch": 1.45552252, "global_step/max_steps": "19095/65595", "percentage": "29.11%", "elapsed_time": "21h 29m 38s", "remaining_time": "2d 4h 20m 32s"}
+{"loss": 0.09336472, "token_acc": 0.96168079, "grad_norm": 0.96682733, "learning_rate": 8.05e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246778, "epoch": 1.45590365, "global_step/max_steps": "19100/65595", "percentage": "29.12%", "elapsed_time": "21h 29m 55s", "remaining_time": "2d 4h 20m 2s"}
+{"loss": 0.10755786, "token_acc": 0.94905822, "grad_norm": 0.80768591, "learning_rate": 8.049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246796, "epoch": 1.45628478, "global_step/max_steps": "19105/65595", "percentage": "29.13%", "elapsed_time": "21h 30m 9s", "remaining_time": "2d 4h 19m 28s"}
+{"loss": 0.12040451, "token_acc": 0.95187625, "grad_norm": 0.93149447, "learning_rate": 8.048e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246807, "epoch": 1.4566659, "global_step/max_steps": "19110/65595", "percentage": "29.13%", "elapsed_time": "21h 30m 26s", "remaining_time": "2d 4h 18m 59s"}
+{"loss": 0.13592073, "token_acc": 0.9604946, "grad_norm": 0.49602664, "learning_rate": 8.047e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246816, "epoch": 1.45704703, "global_step/max_steps": "19115/65595", "percentage": "29.14%", "elapsed_time": "21h 30m 43s", "remaining_time": "2d 4h 18m 32s"}
+{"loss": 0.16500072, "token_acc": 0.94427283, "grad_norm": 1.03634143, "learning_rate": 8.046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246817, "epoch": 1.45742816, "global_step/max_steps": "19120/65595", "percentage": "29.15%", "elapsed_time": "21h 31m 4s", "remaining_time": "2d 4h 18m 12s"}
+{"loss": 0.15310912, "token_acc": 0.93732318, "grad_norm": 0.88021076, "learning_rate": 8.045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246833, "epoch": 1.45780928, "global_step/max_steps": "19125/65595", "percentage": "29.16%", "elapsed_time": "21h 31m 19s", "remaining_time": "2d 4h 17m 39s"}
+{"loss": 0.11162164, "token_acc": 0.95932203, "grad_norm": 0.99178982, "learning_rate": 8.044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246853, "epoch": 1.45819041, "global_step/max_steps": "19130/65595", "percentage": "29.16%", "elapsed_time": "21h 31m 33s", "remaining_time": "2d 4h 17m 4s"}
+{"loss": 0.11770514, "token_acc": 0.95344388, "grad_norm": 0.94745815, "learning_rate": 8.043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246875, "epoch": 1.45857154, "global_step/max_steps": "19135/65595", "percentage": "29.17%", "elapsed_time": "21h 31m 46s", "remaining_time": "2d 4h 16m 26s"}
+{"loss": 0.09289879, "token_acc": 0.9572769, "grad_norm": 0.57587546, "learning_rate": 8.042e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246886, "epoch": 1.45895266, "global_step/max_steps": "19140/65595", "percentage": "29.18%", "elapsed_time": "21h 32m 3s", "remaining_time": "2d 4h 15m 58s"}
+{"loss": 0.13641533, "token_acc": 0.94730718, "grad_norm": 0.73543674, "learning_rate": 8.041e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246905, "epoch": 1.45933379, "global_step/max_steps": "19145/65595", "percentage": "29.19%", "elapsed_time": "21h 32m 17s", "remaining_time": "2d 4h 15m 23s"}
+{"loss": 0.16957076, "token_acc": 0.93265854, "grad_norm": 0.83815414, "learning_rate": 8.04e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246918, "epoch": 1.45971492, "global_step/max_steps": "19150/65595", "percentage": "29.19%", "elapsed_time": "21h 32m 33s", "remaining_time": "2d 4h 14m 53s"}
+{"loss": 0.1039547, "token_acc": 0.96621109, "grad_norm": 1.33654904, "learning_rate": 8.039e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24694, "epoch": 1.46009604, "global_step/max_steps": "19155/65595", "percentage": "29.20%", "elapsed_time": "21h 32m 47s", "remaining_time": "2d 4h 14m 16s"}
+{"loss": 0.17304646, "token_acc": 0.9246988, "grad_norm": 1.463063, "learning_rate": 8.038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246961, "epoch": 1.46047717, "global_step/max_steps": "19160/65595", "percentage": "29.21%", "elapsed_time": "21h 33m 0s", "remaining_time": "2d 4h 13m 40s"}
+{"loss": 0.09160124, "token_acc": 0.96113744, "grad_norm": 1.15280592, "learning_rate": 8.038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246979, "epoch": 1.4608583, "global_step/max_steps": "19165/65595", "percentage": "29.22%", "elapsed_time": "21h 33m 15s", "remaining_time": "2d 4h 13m 6s"}
+{"loss": 0.13365966, "token_acc": 0.94340444, "grad_norm": 1.75676525, "learning_rate": 8.037e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246996, "epoch": 1.46123942, "global_step/max_steps": "19170/65595", "percentage": "29.22%", "elapsed_time": "21h 33m 30s", "remaining_time": "2d 4h 12m 33s"}
+{"loss": 0.07561657, "token_acc": 0.96214424, "grad_norm": 0.71646267, "learning_rate": 8.036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247013, "epoch": 1.46162055, "global_step/max_steps": "19175/65595", "percentage": "29.23%", "elapsed_time": "21h 33m 45s", "remaining_time": "2d 4h 11m 59s"}
+{"loss": 0.13058926, "token_acc": 0.95558459, "grad_norm": 1.13665903, "learning_rate": 8.035e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24702, "epoch": 1.46200168, "global_step/max_steps": "19180/65595", "percentage": "29.24%", "elapsed_time": "21h 34m 3s", "remaining_time": "2d 4h 11m 34s"}
+{"loss": 0.17148168, "token_acc": 0.94019832, "grad_norm": 2.72126865, "learning_rate": 8.034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247034, "epoch": 1.4623828, "global_step/max_steps": "19185/65595", "percentage": "29.25%", "elapsed_time": "21h 34m 19s", "remaining_time": "2d 4h 11m 3s"}
+{"loss": 0.12247102, "token_acc": 0.9504008, "grad_norm": 0.57797211, "learning_rate": 8.033e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247058, "epoch": 1.46276393, "global_step/max_steps": "19190/65595", "percentage": "29.26%", "elapsed_time": "21h 34m 31s", "remaining_time": "2d 4h 10m 24s"}
+{"loss": 0.1343133, "token_acc": 0.95084439, "grad_norm": 5.59716272, "learning_rate": 8.032e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24708, "epoch": 1.46314506, "global_step/max_steps": "19195/65595", "percentage": "29.26%", "elapsed_time": "21h 34m 45s", "remaining_time": "2d 4h 9m 47s"}
+{"loss": 0.12604997, "token_acc": 0.95096994, "grad_norm": 0.92969489, "learning_rate": 8.031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247095, "epoch": 1.46352618, "global_step/max_steps": "19200/65595", "percentage": "29.27%", "elapsed_time": "21h 35m 0s", "remaining_time": "2d 4h 9m 16s"}
+{"eval_loss": 0.10428344, "eval_token_acc": 0.95238992, "eval_runtime": 157.0812, "eval_samples_per_second": 3.374, "eval_steps_per_second": 3.374, "epoch": 1.46352618, "global_step/max_steps": "19200/65595", "percentage": "29.27%", "elapsed_time": "21h 37m 37s", "remaining_time": "2d 4h 15m 36s"}
+{"loss": 0.10673586, "token_acc": 0.95263985, "grad_norm": 1.60033953, "learning_rate": 8.03e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246615, "epoch": 1.46390731, "global_step/max_steps": "19205/65595", "percentage": "29.28%", "elapsed_time": "21h 37m 52s", "remaining_time": "2d 4h 15m 1s"}
+{"loss": 0.11520364, "token_acc": 0.94250253, "grad_norm": 2.26895666, "learning_rate": 8.029e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246635, "epoch": 1.46428844, "global_step/max_steps": "19210/65595", "percentage": "29.29%", "elapsed_time": "21h 38m 6s", "remaining_time": "2d 4h 14m 25s"}
+{"loss": 0.11118817, "token_acc": 0.95244134, "grad_norm": 0.61504513, "learning_rate": 8.028e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24664, "epoch": 1.46466956, "global_step/max_steps": "19215/65595", "percentage": "29.29%", "elapsed_time": "21h 38m 24s", "remaining_time": "2d 4h 14m 1s"}
+{"loss": 0.14630752, "token_acc": 0.94914539, "grad_norm": 0.9661538, "learning_rate": 8.027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246655, "epoch": 1.46505069, "global_step/max_steps": "19220/65595", "percentage": "29.30%", "elapsed_time": "21h 38m 40s", "remaining_time": "2d 4h 13m 30s"}
+{"loss": 0.12909676, "token_acc": 0.95395894, "grad_norm": 0.80245203, "learning_rate": 8.026e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246662, "epoch": 1.46543182, "global_step/max_steps": "19225/65595", "percentage": "29.31%", "elapsed_time": "21h 38m 58s", "remaining_time": "2d 4h 13m 4s"}
+{"loss": 0.13470554, "token_acc": 0.95017052, "grad_norm": 1.38214791, "learning_rate": 8.025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246674, "epoch": 1.46581294, "global_step/max_steps": "19230/65595", "percentage": "29.32%", "elapsed_time": "21h 39m 14s", "remaining_time": "2d 4h 12m 34s"}
+{"loss": 0.12436169, "token_acc": 0.93887839, "grad_norm": 0.64323729, "learning_rate": 8.024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246695, "epoch": 1.46619407, "global_step/max_steps": "19235/65595", "percentage": "29.32%", "elapsed_time": "21h 39m 28s", "remaining_time": "2d 4h 11m 58s"}
+{"loss": 0.11001471, "token_acc": 0.95972222, "grad_norm": 1.01248336, "learning_rate": 8.023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246713, "epoch": 1.4665752, "global_step/max_steps": "19240/65595", "percentage": "29.33%", "elapsed_time": "21h 39m 43s", "remaining_time": "2d 4h 11m 25s"}
+{"loss": 0.1274561, "token_acc": 0.94670487, "grad_norm": 1.19958091, "learning_rate": 8.022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246736, "epoch": 1.46695632, "global_step/max_steps": "19245/65595", "percentage": "29.34%", "elapsed_time": "21h 39m 56s", "remaining_time": "2d 4h 10m 47s"}
+{"loss": 0.10835488, "token_acc": 0.95955656, "grad_norm": 0.57786232, "learning_rate": 8.021e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24675, "epoch": 1.46733745, "global_step/max_steps": "19250/65595", "percentage": "29.35%", "elapsed_time": "21h 40m 12s", "remaining_time": "2d 4h 10m 16s"}
+{"loss": 0.0982685, "token_acc": 0.95009089, "grad_norm": 0.67373061, "learning_rate": 8.02e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246764, "epoch": 1.46771858, "global_step/max_steps": "19255/65595", "percentage": "29.35%", "elapsed_time": "21h 40m 27s", "remaining_time": "2d 4h 9m 45s"}
+{"loss": 0.10311009, "token_acc": 0.96012052, "grad_norm": 1.23761427, "learning_rate": 8.019e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246773, "epoch": 1.4680997, "global_step/max_steps": "19260/65595", "percentage": "29.36%", "elapsed_time": "21h 40m 45s", "remaining_time": "2d 4h 9m 17s"}
+{"loss": 0.06892385, "token_acc": 0.96700396, "grad_norm": 0.92930764, "learning_rate": 8.018e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246799, "epoch": 1.46848083, "global_step/max_steps": "19265/65595", "percentage": "29.37%", "elapsed_time": "21h 40m 57s", "remaining_time": "2d 4h 8m 38s"}
+{"loss": 0.17390531, "token_acc": 0.92444606, "grad_norm": 1.1473496, "learning_rate": 8.017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246819, "epoch": 1.46886196, "global_step/max_steps": "19270/65595", "percentage": "29.38%", "elapsed_time": "21h 41m 11s", "remaining_time": "2d 4h 8m 2s"}
+{"loss": 0.12031754, "token_acc": 0.94506476, "grad_norm": 0.74952322, "learning_rate": 8.017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246842, "epoch": 1.46924308, "global_step/max_steps": "19275/65595", "percentage": "29.38%", "elapsed_time": "21h 41m 24s", "remaining_time": "2d 4h 7m 24s"}
+{"loss": 0.16225169, "token_acc": 0.93063849, "grad_norm": 1.30209851, "learning_rate": 8.016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246866, "epoch": 1.46962421, "global_step/max_steps": "19280/65595", "percentage": "29.39%", "elapsed_time": "21h 41m 36s", "remaining_time": "2d 4h 6m 46s"}
+{"loss": 0.09617698, "token_acc": 0.95743893, "grad_norm": 0.75581121, "learning_rate": 8.015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246888, "epoch": 1.47000534, "global_step/max_steps": "19285/65595", "percentage": "29.40%", "elapsed_time": "21h 41m 50s", "remaining_time": "2d 4h 6m 9s"}
+{"loss": 0.13217276, "token_acc": 0.93780849, "grad_norm": 1.03059483, "learning_rate": 8.014e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246911, "epoch": 1.47038646, "global_step/max_steps": "19290/65595", "percentage": "29.41%", "elapsed_time": "21h 42m 3s", "remaining_time": "2d 4h 5m 31s"}
+{"loss": 0.1666446, "token_acc": 0.94665907, "grad_norm": 0.72624785, "learning_rate": 8.013e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246929, "epoch": 1.47076759, "global_step/max_steps": "19295/65595", "percentage": "29.42%", "elapsed_time": "21h 42m 17s", "remaining_time": "2d 4h 4m 58s"}
+{"loss": 0.10207644, "token_acc": 0.94897695, "grad_norm": 1.25932419, "learning_rate": 8.012e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246949, "epoch": 1.47114872, "global_step/max_steps": "19300/65595", "percentage": "29.42%", "elapsed_time": "21h 42m 31s", "remaining_time": "2d 4h 4m 22s"}
+{"loss": 0.15673841, "token_acc": 0.93270366, "grad_norm": 0.97879255, "learning_rate": 8.011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246969, "epoch": 1.47152984, "global_step/max_steps": "19305/65595", "percentage": "29.43%", "elapsed_time": "21h 42m 45s", "remaining_time": "2d 4h 3m 47s"}
+{"loss": 0.1879025, "token_acc": 0.90622336, "grad_norm": 1.54756844, "learning_rate": 8.01e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246989, "epoch": 1.47191097, "global_step/max_steps": "19310/65595", "percentage": "29.44%", "elapsed_time": "21h 42m 59s", "remaining_time": "2d 4h 3m 11s"}
+{"loss": 0.10033727, "token_acc": 0.95890411, "grad_norm": 0.87407511, "learning_rate": 8.009e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247009, "epoch": 1.4722921, "global_step/max_steps": "19315/65595", "percentage": "29.45%", "elapsed_time": "21h 43m 13s", "remaining_time": "2d 4h 2m 36s"}
+{"loss": 0.13317535, "token_acc": 0.94794999, "grad_norm": 0.88299596, "learning_rate": 8.008e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247028, "epoch": 1.47267322, "global_step/max_steps": "19320/65595", "percentage": "29.45%", "elapsed_time": "21h 43m 27s", "remaining_time": "2d 4h 2m 1s"}
+{"loss": 0.11681763, "token_acc": 0.95541066, "grad_norm": 2.48032141, "learning_rate": 8.007e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247031, "epoch": 1.47305435, "global_step/max_steps": "19325/65595", "percentage": "29.46%", "elapsed_time": "21h 43m 46s", "remaining_time": "2d 4h 1m 39s"}
+{"loss": 0.12166772, "token_acc": 0.9430137, "grad_norm": 0.43049285, "learning_rate": 8.006e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247051, "epoch": 1.47343548, "global_step/max_steps": "19330/65595", "percentage": "29.47%", "elapsed_time": "21h 44m 0s", "remaining_time": "2d 4h 1m 3s"}
+{"loss": 0.13487184, "token_acc": 0.9475793, "grad_norm": 1.05276322, "learning_rate": 8.005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247072, "epoch": 1.4738166, "global_step/max_steps": "19335/65595", "percentage": "29.48%", "elapsed_time": "21h 44m 14s", "remaining_time": "2d 4h 0m 27s"}
+{"loss": 0.11813083, "token_acc": 0.95197842, "grad_norm": 0.56139827, "learning_rate": 8.004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247087, "epoch": 1.47419773, "global_step/max_steps": "19340/65595", "percentage": "29.48%", "elapsed_time": "21h 44m 29s", "remaining_time": "2d 3h 59m 55s"}
+{"loss": 0.09012986, "token_acc": 0.9627907, "grad_norm": 0.95354903, "learning_rate": 8.003e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247113, "epoch": 1.47457886, "global_step/max_steps": "19345/65595", "percentage": "29.49%", "elapsed_time": "21h 44m 41s", "remaining_time": "2d 3h 59m 15s"}
+{"loss": 0.2295476, "token_acc": 0.90703065, "grad_norm": 0.98370188, "learning_rate": 8.002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247132, "epoch": 1.47495998, "global_step/max_steps": "19350/65595", "percentage": "29.50%", "elapsed_time": "21h 44m 55s", "remaining_time": "2d 3h 58m 41s"}
+{"loss": 0.13050658, "token_acc": 0.95292525, "grad_norm": 0.73167956, "learning_rate": 8.001e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247144, "epoch": 1.47534111, "global_step/max_steps": "19355/65595", "percentage": "29.51%", "elapsed_time": "21h 45m 12s", "remaining_time": "2d 3h 58m 12s"}
+{"loss": 0.12510656, "token_acc": 0.95479778, "grad_norm": 1.48176491, "learning_rate": 8e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247166, "epoch": 1.47572223, "global_step/max_steps": "19360/65595", "percentage": "29.51%", "elapsed_time": "21h 45m 25s", "remaining_time": "2d 3h 57m 35s"}
+{"loss": 0.11473931, "token_acc": 0.95580964, "grad_norm": 0.93119097, "learning_rate": 7.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247187, "epoch": 1.47610336, "global_step/max_steps": "19365/65595", "percentage": "29.52%", "elapsed_time": "21h 45m 39s", "remaining_time": "2d 3h 56m 58s"}
+{"loss": 0.09254549, "token_acc": 0.95530303, "grad_norm": 0.68095976, "learning_rate": 7.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247206, "epoch": 1.47648449, "global_step/max_steps": "19370/65595", "percentage": "29.53%", "elapsed_time": "21h 45m 53s", "remaining_time": "2d 3h 56m 24s"}
+{"loss": 0.19234459, "token_acc": 0.92739274, "grad_norm": 1.01890767, "learning_rate": 7.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247223, "epoch": 1.47686561, "global_step/max_steps": "19375/65595", "percentage": "29.54%", "elapsed_time": "21h 46m 8s", "remaining_time": "2d 3h 55m 51s"}
+{"loss": 0.12496333, "token_acc": 0.9535562, "grad_norm": 1.02044833, "learning_rate": 7.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247237, "epoch": 1.47724674, "global_step/max_steps": "19380/65595", "percentage": "29.54%", "elapsed_time": "21h 46m 24s", "remaining_time": "2d 3h 55m 20s"}
+{"loss": 0.1400435, "token_acc": 0.93825441, "grad_norm": 0.71517783, "learning_rate": 7.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247249, "epoch": 1.47762787, "global_step/max_steps": "19385/65595", "percentage": "29.55%", "elapsed_time": "21h 46m 40s", "remaining_time": "2d 3h 54m 51s"}
+{"loss": 0.14464078, "token_acc": 0.94296407, "grad_norm": 0.61301732, "learning_rate": 7.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24726, "epoch": 1.47800899, "global_step/max_steps": "19390/65595", "percentage": "29.56%", "elapsed_time": "21h 46m 57s", "remaining_time": "2d 3h 54m 22s"}
+{"loss": 0.11020043, "token_acc": 0.96391939, "grad_norm": 0.70567364, "learning_rate": 7.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247272, "epoch": 1.47839012, "global_step/max_steps": "19395/65595", "percentage": "29.57%", "elapsed_time": "21h 47m 13s", "remaining_time": "2d 3h 53m 53s"}
+{"loss": 0.10821546, "token_acc": 0.95524885, "grad_norm": 1.61379278, "learning_rate": 7.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247295, "epoch": 1.47877125, "global_step/max_steps": "19400/65595", "percentage": "29.58%", "elapsed_time": "21h 47m 26s", "remaining_time": "2d 3h 53m 15s"}
+{"eval_loss": 0.1035687, "eval_token_acc": 0.95272122, "eval_runtime": 159.8795, "eval_samples_per_second": 3.315, "eval_steps_per_second": 3.315, "epoch": 1.47877125, "global_step/max_steps": "19400/65595", "percentage": "29.58%", "elapsed_time": "21h 50m 6s", "remaining_time": "2d 3h 59m 36s"}
+{"loss": 0.1110692, "token_acc": 0.95349104, "grad_norm": 1.03435075, "learning_rate": 7.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246803, "epoch": 1.47915237, "global_step/max_steps": "19405/65595", "percentage": "29.58%", "elapsed_time": "21h 50m 23s", "remaining_time": "2d 3h 59m 8s"}
+{"loss": 0.16004748, "token_acc": 0.93875839, "grad_norm": 0.80050772, "learning_rate": 7.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246823, "epoch": 1.4795335, "global_step/max_steps": "19410/65595", "percentage": "29.59%", "elapsed_time": "21h 50m 37s", "remaining_time": "2d 3h 58m 32s"}
+{"loss": 0.13003225, "token_acc": 0.95077933, "grad_norm": 1.12911773, "learning_rate": 7.99e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246834, "epoch": 1.47991463, "global_step/max_steps": "19415/65595", "percentage": "29.60%", "elapsed_time": "21h 50m 53s", "remaining_time": "2d 3h 58m 3s"}
+{"loss": 0.13248187, "token_acc": 0.95190287, "grad_norm": 0.60035354, "learning_rate": 7.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246844, "epoch": 1.48029575, "global_step/max_steps": "19420/65595", "percentage": "29.61%", "elapsed_time": "21h 51m 11s", "remaining_time": "2d 3h 57m 36s"}
+{"loss": 0.12949412, "token_acc": 0.95543754, "grad_norm": 0.59591144, "learning_rate": 7.988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246856, "epoch": 1.48067688, "global_step/max_steps": "19425/65595", "percentage": "29.61%", "elapsed_time": "21h 51m 27s", "remaining_time": "2d 3h 57m 7s"}
+{"loss": 0.14869287, "token_acc": 0.94918776, "grad_norm": 2.49597073, "learning_rate": 7.987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246868, "epoch": 1.48105801, "global_step/max_steps": "19430/65595", "percentage": "29.62%", "elapsed_time": "21h 51m 43s", "remaining_time": "2d 3h 56m 37s"}
+{"loss": 0.12696577, "token_acc": 0.94687915, "grad_norm": 0.81266773, "learning_rate": 7.986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246881, "epoch": 1.48143913, "global_step/max_steps": "19435/65595", "percentage": "29.63%", "elapsed_time": "21h 51m 59s", "remaining_time": "2d 3h 56m 7s"}
+{"loss": 0.1023352, "token_acc": 0.95350189, "grad_norm": 0.5335561, "learning_rate": 7.985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246902, "epoch": 1.48182026, "global_step/max_steps": "19440/65595", "percentage": "29.64%", "elapsed_time": "21h 52m 13s", "remaining_time": "2d 3h 55m 31s"}
+{"loss": 0.08428755, "token_acc": 0.96996275, "grad_norm": 0.60890615, "learning_rate": 7.984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246908, "epoch": 1.48220139, "global_step/max_steps": "19445/65595", "percentage": "29.64%", "elapsed_time": "21h 52m 31s", "remaining_time": "2d 3h 55m 6s"}
+{"loss": 0.10936612, "token_acc": 0.95565623, "grad_norm": 0.89388847, "learning_rate": 7.983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24692, "epoch": 1.48258251, "global_step/max_steps": "19450/65595", "percentage": "29.65%", "elapsed_time": "21h 52m 48s", "remaining_time": "2d 3h 54m 36s"}
+{"loss": 0.11943564, "token_acc": 0.94870147, "grad_norm": 1.22185731, "learning_rate": 7.982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246927, "epoch": 1.48296364, "global_step/max_steps": "19455/65595", "percentage": "29.66%", "elapsed_time": "21h 53m 6s", "remaining_time": "2d 3h 54m 11s"}
+{"loss": 0.16267464, "token_acc": 0.9345141, "grad_norm": 0.77868021, "learning_rate": 7.981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246946, "epoch": 1.48334477, "global_step/max_steps": "19460/65595", "percentage": "29.67%", "elapsed_time": "21h 53m 20s", "remaining_time": "2d 3h 53m 36s"}
+{"loss": 0.14463427, "token_acc": 0.94857263, "grad_norm": 0.19790065, "learning_rate": 7.98e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246959, "epoch": 1.48372589, "global_step/max_steps": "19465/65595", "percentage": "29.67%", "elapsed_time": "21h 53m 36s", "remaining_time": "2d 3h 53m 7s"}
+{"loss": 0.18794222, "token_acc": 0.92953707, "grad_norm": 0.80005932, "learning_rate": 7.979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246973, "epoch": 1.48410702, "global_step/max_steps": "19470/65595", "percentage": "29.68%", "elapsed_time": "21h 53m 52s", "remaining_time": "2d 3h 52m 35s"}
+{"loss": 0.11854656, "token_acc": 0.95486783, "grad_norm": 0.03760445, "learning_rate": 7.978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246993, "epoch": 1.48448815, "global_step/max_steps": "19475/65595", "percentage": "29.69%", "elapsed_time": "21h 54m 6s", "remaining_time": "2d 3h 52m 0s"}
+{"loss": 0.16251242, "token_acc": 0.94671983, "grad_norm": 0.94235218, "learning_rate": 7.977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247012, "epoch": 1.48486927, "global_step/max_steps": "19480/65595", "percentage": "29.70%", "elapsed_time": "21h 54m 20s", "remaining_time": "2d 3h 51m 25s"}
+{"loss": 0.10783277, "token_acc": 0.95746606, "grad_norm": 0.61656976, "learning_rate": 7.976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247022, "epoch": 1.4852504, "global_step/max_steps": "19485/65595", "percentage": "29.71%", "elapsed_time": "21h 54m 37s", "remaining_time": "2d 3h 50m 58s"}
+{"loss": 0.10678927, "token_acc": 0.95949095, "grad_norm": 0.76778591, "learning_rate": 7.975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247032, "epoch": 1.48563153, "global_step/max_steps": "19490/65595", "percentage": "29.71%", "elapsed_time": "21h 54m 54s", "remaining_time": "2d 3h 50m 30s"}
+{"loss": 0.11128337, "token_acc": 0.94716776, "grad_norm": 0.88058245, "learning_rate": 7.974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24704, "epoch": 1.48601265, "global_step/max_steps": "19495/65595", "percentage": "29.72%", "elapsed_time": "21h 55m 12s", "remaining_time": "2d 3h 50m 4s"}
+{"loss": 0.15685967, "token_acc": 0.93568087, "grad_norm": 1.28727853, "learning_rate": 7.973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247051, "epoch": 1.48639378, "global_step/max_steps": "19500/65595", "percentage": "29.73%", "elapsed_time": "21h 55m 28s", "remaining_time": "2d 3h 49m 35s"}
+{"loss": 0.14190741, "token_acc": 0.94312327, "grad_norm": 0.92992067, "learning_rate": 7.972e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24706, "epoch": 1.48677491, "global_step/max_steps": "19505/65595", "percentage": "29.74%", "elapsed_time": "21h 55m 46s", "remaining_time": "2d 3h 49m 8s"}
+{"loss": 0.1126927, "token_acc": 0.95455168, "grad_norm": 1.07244313, "learning_rate": 7.971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247075, "epoch": 1.48715603, "global_step/max_steps": "19510/65595", "percentage": "29.74%", "elapsed_time": "21h 56m 1s", "remaining_time": "2d 3h 48m 37s"}
+{"loss": 0.09447119, "token_acc": 0.96359854, "grad_norm": 0.38177609, "learning_rate": 7.971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247085, "epoch": 1.48753716, "global_step/max_steps": "19515/65595", "percentage": "29.75%", "elapsed_time": "21h 56m 18s", "remaining_time": "2d 3h 48m 8s"}
+{"loss": 0.11578338, "token_acc": 0.95229983, "grad_norm": 1.4868747, "learning_rate": 7.97e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247099, "epoch": 1.48791829, "global_step/max_steps": "19520/65595", "percentage": "29.76%", "elapsed_time": "21h 56m 34s", "remaining_time": "2d 3h 47m 38s"}
+{"loss": 0.12062607, "token_acc": 0.95375242, "grad_norm": 0.68678975, "learning_rate": 7.969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247118, "epoch": 1.48829941, "global_step/max_steps": "19525/65595", "percentage": "29.77%", "elapsed_time": "21h 56m 48s", "remaining_time": "2d 3h 47m 4s"}
+{"loss": 0.11990485, "token_acc": 0.95796362, "grad_norm": 0.87853122, "learning_rate": 7.968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247115, "epoch": 1.48868054, "global_step/max_steps": "19530/65595", "percentage": "29.77%", "elapsed_time": "21h 57m 9s", "remaining_time": "2d 3h 46m 45s"}
+{"loss": 0.13346171, "token_acc": 0.95601023, "grad_norm": 1.0094583, "learning_rate": 7.967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247136, "epoch": 1.48906167, "global_step/max_steps": "19535/65595", "percentage": "29.78%", "elapsed_time": "21h 57m 23s", "remaining_time": "2d 3h 46m 9s"}
+{"loss": 0.16977048, "token_acc": 0.93313953, "grad_norm": 1.67639494, "learning_rate": 7.966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247147, "epoch": 1.48944279, "global_step/max_steps": "19540/65595", "percentage": "29.79%", "elapsed_time": "21h 57m 39s", "remaining_time": "2d 3h 45m 41s"}
+{"loss": 0.16126746, "token_acc": 0.94031699, "grad_norm": 1.01820278, "learning_rate": 7.965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247157, "epoch": 1.48982392, "global_step/max_steps": "19545/65595", "percentage": "29.80%", "elapsed_time": "21h 57m 56s", "remaining_time": "2d 3h 45m 13s"}
+{"loss": 0.05081661, "token_acc": 0.97512343, "grad_norm": 0.56180137, "learning_rate": 7.964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247167, "epoch": 1.49020505, "global_step/max_steps": "19550/65595", "percentage": "29.80%", "elapsed_time": "21h 58m 14s", "remaining_time": "2d 3h 44m 46s"}
+{"loss": 0.19733174, "token_acc": 0.93624868, "grad_norm": 0.86010581, "learning_rate": 7.963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24718, "epoch": 1.49058617, "global_step/max_steps": "19555/65595", "percentage": "29.81%", "elapsed_time": "21h 58m 30s", "remaining_time": "2d 3h 44m 15s"}
+{"loss": 0.10446784, "token_acc": 0.96279666, "grad_norm": 1.85217047, "learning_rate": 7.962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247194, "epoch": 1.4909673, "global_step/max_steps": "19560/65595", "percentage": "29.82%", "elapsed_time": "21h 58m 46s", "remaining_time": "2d 3h 43m 45s"}
+{"loss": 0.1055668, "token_acc": 0.95591133, "grad_norm": 0.80125874, "learning_rate": 7.961e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247204, "epoch": 1.49134843, "global_step/max_steps": "19565/65595", "percentage": "29.83%", "elapsed_time": "21h 59m 2s", "remaining_time": "2d 3h 43m 17s"}
+{"loss": 0.10351088, "token_acc": 0.96658824, "grad_norm": 0.5750258, "learning_rate": 7.96e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247222, "epoch": 1.49172955, "global_step/max_steps": "19570/65595", "percentage": "29.83%", "elapsed_time": "21h 59m 17s", "remaining_time": "2d 3h 42m 43s"}
+{"loss": 0.13039583, "token_acc": 0.93610698, "grad_norm": 0.78765434, "learning_rate": 7.959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247235, "epoch": 1.49211068, "global_step/max_steps": "19575/65595", "percentage": "29.84%", "elapsed_time": "21h 59m 33s", "remaining_time": "2d 3h 42m 13s"}
+{"loss": 0.10810225, "token_acc": 0.96210235, "grad_norm": 0.54717284, "learning_rate": 7.958e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247249, "epoch": 1.49249181, "global_step/max_steps": "19580/65595", "percentage": "29.85%", "elapsed_time": "21h 59m 49s", "remaining_time": "2d 3h 41m 42s"}
+{"loss": 0.14671926, "token_acc": 0.95088258, "grad_norm": 0.9433921, "learning_rate": 7.957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247258, "epoch": 1.49287293, "global_step/max_steps": "19585/65595", "percentage": "29.86%", "elapsed_time": "22h 0m 6s", "remaining_time": "2d 3h 41m 15s"}
+{"loss": 0.07650552, "token_acc": 0.96862745, "grad_norm": 0.90870374, "learning_rate": 7.956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247271, "epoch": 1.49325406, "global_step/max_steps": "19590/65595", "percentage": "29.87%", "elapsed_time": "22h 0m 22s", "remaining_time": "2d 3h 40m 45s"}
+{"loss": 0.13198179, "token_acc": 0.95115575, "grad_norm": 0.72512716, "learning_rate": 7.955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247272, "epoch": 1.49363519, "global_step/max_steps": "19595/65595", "percentage": "29.87%", "elapsed_time": "22h 0m 42s", "remaining_time": "2d 3h 40m 24s"}
+{"loss": 0.14341285, "token_acc": 0.94595876, "grad_norm": 0.94239891, "learning_rate": 7.954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247283, "epoch": 1.49401631, "global_step/max_steps": "19600/65595", "percentage": "29.88%", "elapsed_time": "22h 0m 59s", "remaining_time": "2d 3h 39m 55s"}
+{"eval_loss": 0.10263448, "eval_token_acc": 0.95305253, "eval_runtime": 214.9155, "eval_samples_per_second": 2.466, "eval_steps_per_second": 2.466, "epoch": 1.49401631, "global_step/max_steps": "19600/65595", "percentage": "29.88%", "elapsed_time": "22h 4m 33s", "remaining_time": "2d 3h 48m 20s"}
+{"loss": 0.11973569, "token_acc": 0.95305061, "grad_norm": 0.55328923, "learning_rate": 7.953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246631, "epoch": 1.49439744, "global_step/max_steps": "19605/65595", "percentage": "29.89%", "elapsed_time": "22h 4m 49s", "remaining_time": "2d 3h 47m 47s"}
+{"loss": 0.13328335, "token_acc": 0.94896958, "grad_norm": 0.73637241, "learning_rate": 7.952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246636, "epoch": 1.49477857, "global_step/max_steps": "19610/65595", "percentage": "29.90%", "elapsed_time": "22h 5m 7s", "remaining_time": "2d 3h 47m 23s"}
+{"loss": 0.14898956, "token_acc": 0.92459499, "grad_norm": 1.2684294, "learning_rate": 7.951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246653, "epoch": 1.49515969, "global_step/max_steps": "19615/65595", "percentage": "29.90%", "elapsed_time": "22h 5m 22s", "remaining_time": "2d 3h 46m 50s"}
+{"loss": 0.11479883, "token_acc": 0.95694543, "grad_norm": 2.08936334, "learning_rate": 7.95e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246661, "epoch": 1.49554082, "global_step/max_steps": "19620/65595", "percentage": "29.91%", "elapsed_time": "22h 5m 40s", "remaining_time": "2d 3h 46m 24s"}
+{"loss": 0.14143116, "token_acc": 0.94681812, "grad_norm": 1.06402564, "learning_rate": 7.949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246669, "epoch": 1.49592195, "global_step/max_steps": "19625/65595", "percentage": "29.92%", "elapsed_time": "22h 5m 57s", "remaining_time": "2d 3h 45m 57s"}
+{"loss": 0.1041809, "token_acc": 0.95969909, "grad_norm": 0.97341138, "learning_rate": 7.948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246688, "epoch": 1.49630307, "global_step/max_steps": "19630/65595", "percentage": "29.93%", "elapsed_time": "22h 6m 11s", "remaining_time": "2d 3h 45m 23s"}
+{"loss": 0.13902422, "token_acc": 0.93879668, "grad_norm": 0.71730661, "learning_rate": 7.947e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246703, "epoch": 1.4966842, "global_step/max_steps": "19635/65595", "percentage": "29.93%", "elapsed_time": "22h 6m 27s", "remaining_time": "2d 3h 44m 51s"}
+{"loss": 0.1380343, "token_acc": 0.9442446, "grad_norm": 0.91438466, "learning_rate": 7.946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246722, "epoch": 1.49706533, "global_step/max_steps": "19640/65595", "percentage": "29.94%", "elapsed_time": "22h 6m 41s", "remaining_time": "2d 3h 44m 17s"}
+{"loss": 0.1299403, "token_acc": 0.95833333, "grad_norm": 0.98523277, "learning_rate": 7.945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24673, "epoch": 1.49744645, "global_step/max_steps": "19645/65595", "percentage": "29.95%", "elapsed_time": "22h 6m 59s", "remaining_time": "2d 3h 43m 50s"}
+{"loss": 0.06821727, "token_acc": 0.96210449, "grad_norm": 0.66826606, "learning_rate": 7.944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246746, "epoch": 1.49782758, "global_step/max_steps": "19650/65595", "percentage": "29.96%", "elapsed_time": "22h 7m 14s", "remaining_time": "2d 3h 43m 18s"}
+{"loss": 0.14103513, "token_acc": 0.94310686, "grad_norm": 1.03759491, "learning_rate": 7.943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24676, "epoch": 1.4982087, "global_step/max_steps": "19655/65595", "percentage": "29.96%", "elapsed_time": "22h 7m 30s", "remaining_time": "2d 3h 42m 47s"}
+{"loss": 0.10949827, "token_acc": 0.96223355, "grad_norm": 0.83903843, "learning_rate": 7.943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246774, "epoch": 1.49858983, "global_step/max_steps": "19660/65595", "percentage": "29.97%", "elapsed_time": "22h 7m 45s", "remaining_time": "2d 3h 42m 16s"}
+{"loss": 0.15448164, "token_acc": 0.93313725, "grad_norm": 0.68385643, "learning_rate": 7.942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246783, "epoch": 1.49897096, "global_step/max_steps": "19665/65595", "percentage": "29.98%", "elapsed_time": "22h 8m 3s", "remaining_time": "2d 3h 41m 49s"}
+{"loss": 0.12280182, "token_acc": 0.95674157, "grad_norm": 1.25033736, "learning_rate": 7.941e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246789, "epoch": 1.49935208, "global_step/max_steps": "19670/65595", "percentage": "29.99%", "elapsed_time": "22h 8m 21s", "remaining_time": "2d 3h 41m 24s"}
+{"loss": 0.14259565, "token_acc": 0.95382586, "grad_norm": 1.27874506, "learning_rate": 7.94e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2468, "epoch": 1.49973321, "global_step/max_steps": "19675/65595", "percentage": "29.99%", "elapsed_time": "22h 8m 38s", "remaining_time": "2d 3h 40m 56s"}
+{"loss": 0.14326308, "token_acc": 0.94777806, "grad_norm": 1.02891862, "learning_rate": 7.939e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246812, "epoch": 1.50011434, "global_step/max_steps": "19680/65595", "percentage": "30.00%", "elapsed_time": "22h 8m 54s", "remaining_time": "2d 3h 40m 26s"}
+{"loss": 0.11905788, "token_acc": 0.95308887, "grad_norm": 1.04002726, "learning_rate": 7.938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246816, "epoch": 1.50049546, "global_step/max_steps": "19685/65595", "percentage": "30.01%", "elapsed_time": "22h 9m 13s", "remaining_time": "2d 3h 40m 3s"}
+{"loss": 0.07677346, "token_acc": 0.95758468, "grad_norm": 0.57194293, "learning_rate": 7.937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246832, "epoch": 1.50087659, "global_step/max_steps": "19690/65595", "percentage": "30.02%", "elapsed_time": "22h 9m 28s", "remaining_time": "2d 3h 39m 31s"}
+{"loss": 0.13357781, "token_acc": 0.94883457, "grad_norm": 0.98924214, "learning_rate": 7.936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246843, "epoch": 1.50125772, "global_step/max_steps": "19695/65595", "percentage": "30.03%", "elapsed_time": "22h 9m 45s", "remaining_time": "2d 3h 39m 2s"}
+{"loss": 0.14054995, "token_acc": 0.9533503, "grad_norm": 1.02988195, "learning_rate": 7.935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246857, "epoch": 1.50163884, "global_step/max_steps": "19700/65595", "percentage": "30.03%", "elapsed_time": "22h 10m 0s", "remaining_time": "2d 3h 38m 32s"}
+{"loss": 0.15960517, "token_acc": 0.94096988, "grad_norm": 0.99118936, "learning_rate": 7.934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246865, "epoch": 1.50201997, "global_step/max_steps": "19705/65595", "percentage": "30.04%", "elapsed_time": "22h 10m 18s", "remaining_time": "2d 3h 38m 6s"}
+{"loss": 0.13781036, "token_acc": 0.95372671, "grad_norm": 0.5609777, "learning_rate": 7.933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246879, "epoch": 1.5024011, "global_step/max_steps": "19710/65595", "percentage": "30.05%", "elapsed_time": "22h 10m 34s", "remaining_time": "2d 3h 37m 35s"}
+{"loss": 0.15487857, "token_acc": 0.94137679, "grad_norm": 1.68844271, "learning_rate": 7.932e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24689, "epoch": 1.50278222, "global_step/max_steps": "19715/65595", "percentage": "30.06%", "elapsed_time": "22h 10m 51s", "remaining_time": "2d 3h 37m 6s"}
+{"loss": 0.10867469, "token_acc": 0.96286656, "grad_norm": 0.68005216, "learning_rate": 7.931e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246898, "epoch": 1.50316335, "global_step/max_steps": "19720/65595", "percentage": "30.06%", "elapsed_time": "22h 11m 8s", "remaining_time": "2d 3h 36m 40s"}
+{"loss": 0.15240431, "token_acc": 0.95100503, "grad_norm": 1.1414752, "learning_rate": 7.93e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246912, "epoch": 1.50354448, "global_step/max_steps": "19725/65595", "percentage": "30.07%", "elapsed_time": "22h 11m 24s", "remaining_time": "2d 3h 36m 9s"}
+{"loss": 0.1131372, "token_acc": 0.95568487, "grad_norm": 0.47298473, "learning_rate": 7.929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24693, "epoch": 1.5039256, "global_step/max_steps": "19730/65595", "percentage": "30.08%", "elapsed_time": "22h 11m 39s", "remaining_time": "2d 3h 35m 35s"}
+{"loss": 0.09074309, "token_acc": 0.96627108, "grad_norm": 0.93261641, "learning_rate": 7.928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246935, "epoch": 1.50430673, "global_step/max_steps": "19735/65595", "percentage": "30.09%", "elapsed_time": "22h 11m 57s", "remaining_time": "2d 3h 35m 11s"}
+{"loss": 0.17222476, "token_acc": 0.92566681, "grad_norm": 0.64766222, "learning_rate": 7.927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246949, "epoch": 1.50468786, "global_step/max_steps": "19740/65595", "percentage": "30.09%", "elapsed_time": "22h 12m 13s", "remaining_time": "2d 3h 34m 41s"}
+{"loss": 0.13455065, "token_acc": 0.94321149, "grad_norm": 0.57002342, "learning_rate": 7.926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246947, "epoch": 1.50506898, "global_step/max_steps": "19745/65595", "percentage": "30.10%", "elapsed_time": "22h 12m 34s", "remaining_time": "2d 3h 34m 21s"}
+{"loss": 0.16650443, "token_acc": 0.9259962, "grad_norm": 1.61519063, "learning_rate": 7.925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246967, "epoch": 1.50545011, "global_step/max_steps": "19750/65595", "percentage": "30.11%", "elapsed_time": "22h 12m 47s", "remaining_time": "2d 3h 33m 46s"}
+{"loss": 0.1108377, "token_acc": 0.95942584, "grad_norm": 0.71646553, "learning_rate": 7.924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246977, "epoch": 1.50583124, "global_step/max_steps": "19755/65595", "percentage": "30.12%", "elapsed_time": "22h 13m 4s", "remaining_time": "2d 3h 33m 18s"}
+{"loss": 0.12819703, "token_acc": 0.95921653, "grad_norm": 0.86353821, "learning_rate": 7.923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246992, "epoch": 1.50621236, "global_step/max_steps": "19760/65595", "percentage": "30.12%", "elapsed_time": "22h 13m 20s", "remaining_time": "2d 3h 32m 47s"}
+{"loss": 0.16386263, "token_acc": 0.94849691, "grad_norm": 1.36109924, "learning_rate": 7.922e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247002, "epoch": 1.50659349, "global_step/max_steps": "19765/65595", "percentage": "30.13%", "elapsed_time": "22h 13m 37s", "remaining_time": "2d 3h 32m 20s"}
+{"loss": 0.1787478, "token_acc": 0.93041151, "grad_norm": 1.41020393, "learning_rate": 7.921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247018, "epoch": 1.50697462, "global_step/max_steps": "19770/65595", "percentage": "30.14%", "elapsed_time": "22h 13m 52s", "remaining_time": "2d 3h 31m 47s"}
+{"loss": 0.17460866, "token_acc": 0.95409587, "grad_norm": 1.09972358, "learning_rate": 7.92e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247029, "epoch": 1.50735574, "global_step/max_steps": "19775/65595", "percentage": "30.15%", "elapsed_time": "22h 14m 8s", "remaining_time": "2d 3h 31m 18s"}
+{"loss": 0.11254098, "token_acc": 0.95475531, "grad_norm": 1.0602175, "learning_rate": 7.919e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247045, "epoch": 1.50773687, "global_step/max_steps": "19780/65595", "percentage": "30.15%", "elapsed_time": "22h 14m 24s", "remaining_time": "2d 3h 30m 46s"}
+{"loss": 0.12972047, "token_acc": 0.95751854, "grad_norm": 0.67588508, "learning_rate": 7.918e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247058, "epoch": 1.508118, "global_step/max_steps": "19785/65595", "percentage": "30.16%", "elapsed_time": "22h 14m 40s", "remaining_time": "2d 3h 30m 16s"}
+{"loss": 0.10074751, "token_acc": 0.95505618, "grad_norm": 0.51715124, "learning_rate": 7.917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247073, "epoch": 1.50849912, "global_step/max_steps": "19790/65595", "percentage": "30.17%", "elapsed_time": "22h 14m 55s", "remaining_time": "2d 3h 29m 45s"}
+{"loss": 0.17800108, "token_acc": 0.92641906, "grad_norm": 0.94841927, "learning_rate": 7.916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247087, "epoch": 1.50888025, "global_step/max_steps": "19795/65595", "percentage": "30.18%", "elapsed_time": "22h 15m 11s", "remaining_time": "2d 3h 29m 14s"}
+{"loss": 0.12665515, "token_acc": 0.95395898, "grad_norm": 1.10675347, "learning_rate": 7.915e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247089, "epoch": 1.50926138, "global_step/max_steps": "19800/65595", "percentage": "30.19%", "elapsed_time": "22h 15m 30s", "remaining_time": "2d 3h 28m 52s"}
+{"eval_loss": 0.10344883, "eval_token_acc": 0.95264592, "eval_runtime": 221.3235, "eval_samples_per_second": 2.395, "eval_steps_per_second": 2.395, "epoch": 1.50926138, "global_step/max_steps": "19800/65595", "percentage": "30.19%", "elapsed_time": "22h 19m 12s", "remaining_time": "2d 3h 37m 24s"}
+{"loss": 0.06470957, "token_acc": 0.95315988, "grad_norm": 1.76298594, "learning_rate": 7.914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246421, "epoch": 1.5096425, "global_step/max_steps": "19805/65595", "percentage": "30.19%", "elapsed_time": "22h 19m 28s", "remaining_time": "2d 3h 36m 55s"}
+{"loss": 0.10130875, "token_acc": 0.96120348, "grad_norm": 0.55530012, "learning_rate": 7.913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246429, "epoch": 1.51002363, "global_step/max_steps": "19810/65595", "percentage": "30.20%", "elapsed_time": "22h 19m 45s", "remaining_time": "2d 3h 36m 28s"}
+{"loss": 0.1212931, "token_acc": 0.95843455, "grad_norm": 0.59533, "learning_rate": 7.912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246443, "epoch": 1.51040476, "global_step/max_steps": "19815/65595", "percentage": "30.21%", "elapsed_time": "22h 20m 1s", "remaining_time": "2d 3h 35m 58s"}
+{"loss": 0.08824927, "token_acc": 0.96419702, "grad_norm": 0.59895647, "learning_rate": 7.911e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246452, "epoch": 1.51078588, "global_step/max_steps": "19820/65595", "percentage": "30.22%", "elapsed_time": "22h 20m 19s", "remaining_time": "2d 3h 35m 31s"}
+{"loss": 0.15130663, "token_acc": 0.94439446, "grad_norm": 0.69071531, "learning_rate": 7.91e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246456, "epoch": 1.51116701, "global_step/max_steps": "19825/65595", "percentage": "30.22%", "elapsed_time": "22h 20m 37s", "remaining_time": "2d 3h 35m 7s"}
+{"loss": 0.12620602, "token_acc": 0.95339381, "grad_norm": 0.70424587, "learning_rate": 7.909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24647, "epoch": 1.51154814, "global_step/max_steps": "19830/65595", "percentage": "30.23%", "elapsed_time": "22h 20m 53s", "remaining_time": "2d 3h 34m 36s"}
+{"loss": 0.14071329, "token_acc": 0.94023324, "grad_norm": 1.30950713, "learning_rate": 7.909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246487, "epoch": 1.51192926, "global_step/max_steps": "19835/65595", "percentage": "30.24%", "elapsed_time": "22h 21m 8s", "remaining_time": "2d 3h 34m 3s"}
+{"loss": 0.11528304, "token_acc": 0.95873016, "grad_norm": 0.42026466, "learning_rate": 7.908e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246493, "epoch": 1.51231039, "global_step/max_steps": "19840/65595", "percentage": "30.25%", "elapsed_time": "22h 21m 26s", "remaining_time": "2d 3h 33m 38s"}
+{"loss": 0.08393782, "token_acc": 0.96766246, "grad_norm": 1.00847876, "learning_rate": 7.907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246511, "epoch": 1.51269152, "global_step/max_steps": "19845/65595", "percentage": "30.25%", "elapsed_time": "22h 21m 41s", "remaining_time": "2d 3h 33m 5s"}
+{"loss": 0.11951132, "token_acc": 0.93642746, "grad_norm": 0.87553144, "learning_rate": 7.906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246526, "epoch": 1.51307264, "global_step/max_steps": "19850/65595", "percentage": "30.26%", "elapsed_time": "22h 21m 56s", "remaining_time": "2d 3h 32m 33s"}
+{"loss": 0.08846685, "token_acc": 0.95641743, "grad_norm": 0.40371144, "learning_rate": 7.905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246544, "epoch": 1.51345377, "global_step/max_steps": "19855/65595", "percentage": "30.27%", "elapsed_time": "22h 22m 11s", "remaining_time": "2d 3h 31m 59s"}
+{"loss": 0.14535334, "token_acc": 0.9477557, "grad_norm": 0.80697864, "learning_rate": 7.904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246553, "epoch": 1.5138349, "global_step/max_steps": "19860/65595", "percentage": "30.28%", "elapsed_time": "22h 22m 28s", "remaining_time": "2d 3h 31m 32s"}
+{"loss": 0.15717616, "token_acc": 0.9295173, "grad_norm": 1.28968382, "learning_rate": 7.903e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24657, "epoch": 1.51421602, "global_step/max_steps": "19865/65595", "percentage": "30.28%", "elapsed_time": "22h 22m 43s", "remaining_time": "2d 3h 30m 59s"}
+{"loss": 0.08251655, "token_acc": 0.96357735, "grad_norm": 0.82198977, "learning_rate": 7.902e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246586, "epoch": 1.51459715, "global_step/max_steps": "19870/65595", "percentage": "30.29%", "elapsed_time": "22h 22m 58s", "remaining_time": "2d 3h 30m 26s"}
+{"loss": 0.14219316, "token_acc": 0.93465422, "grad_norm": 1.09650302, "learning_rate": 7.901e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246597, "epoch": 1.51497828, "global_step/max_steps": "19875/65595", "percentage": "30.30%", "elapsed_time": "22h 23m 14s", "remaining_time": "2d 3h 29m 58s"}
+{"loss": 0.14786453, "token_acc": 0.94528875, "grad_norm": 1.55984044, "learning_rate": 7.9e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246617, "epoch": 1.5153594, "global_step/max_steps": "19880/65595", "percentage": "30.31%", "elapsed_time": "22h 23m 28s", "remaining_time": "2d 3h 29m 23s"}
+{"loss": 0.06071994, "token_acc": 0.96628217, "grad_norm": 0.60144889, "learning_rate": 7.899e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246639, "epoch": 1.51574053, "global_step/max_steps": "19885/65595", "percentage": "30.31%", "elapsed_time": "22h 23m 41s", "remaining_time": "2d 3h 28m 46s"}
+{"loss": 0.12213495, "token_acc": 0.96019007, "grad_norm": 0.66593558, "learning_rate": 7.898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246641, "epoch": 1.51612166, "global_step/max_steps": "19890/65595", "percentage": "30.32%", "elapsed_time": "22h 24m 1s", "remaining_time": "2d 3h 28m 24s"}
+{"loss": 0.17732418, "token_acc": 0.94284243, "grad_norm": 1.91812718, "learning_rate": 7.897e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246647, "epoch": 1.51650278, "global_step/max_steps": "19895/65595", "percentage": "30.33%", "elapsed_time": "22h 24m 19s", "remaining_time": "2d 3h 27m 59s"}
+{"loss": 0.12009958, "token_acc": 0.95625, "grad_norm": 0.74226308, "learning_rate": 7.896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246652, "epoch": 1.51688391, "global_step/max_steps": "19900/65595", "percentage": "30.34%", "elapsed_time": "22h 24m 38s", "remaining_time": "2d 3h 27m 35s"}
+{"loss": 0.10871067, "token_acc": 0.9470392, "grad_norm": 0.89392328, "learning_rate": 7.895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246671, "epoch": 1.51726504, "global_step/max_steps": "19905/65595", "percentage": "30.35%", "elapsed_time": "22h 24m 52s", "remaining_time": "2d 3h 27m 1s"}
+{"loss": 0.11578839, "token_acc": 0.9536608, "grad_norm": 0.79629087, "learning_rate": 7.894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246677, "epoch": 1.51764616, "global_step/max_steps": "19910/65595", "percentage": "30.35%", "elapsed_time": "22h 25m 10s", "remaining_time": "2d 3h 26m 36s"}
+{"loss": 0.13793869, "token_acc": 0.95097824, "grad_norm": 0.8339529, "learning_rate": 7.893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246679, "epoch": 1.51802729, "global_step/max_steps": "19915/65595", "percentage": "30.36%", "elapsed_time": "22h 25m 30s", "remaining_time": "2d 3h 26m 15s"}
+{"loss": 0.10501707, "token_acc": 0.95633423, "grad_norm": 0.57542396, "learning_rate": 7.892e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246684, "epoch": 1.51840842, "global_step/max_steps": "19920/65595", "percentage": "30.37%", "elapsed_time": "22h 25m 48s", "remaining_time": "2d 3h 25m 50s"}
+{"loss": 0.09556471, "token_acc": 0.9557596, "grad_norm": 1.14400899, "learning_rate": 7.891e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246702, "epoch": 1.51878954, "global_step/max_steps": "19925/65595", "percentage": "30.38%", "elapsed_time": "22h 26m 3s", "remaining_time": "2d 3h 25m 16s"}
+{"loss": 0.12240055, "token_acc": 0.9648704, "grad_norm": 0.79385674, "learning_rate": 7.89e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246717, "epoch": 1.51917067, "global_step/max_steps": "19930/65595", "percentage": "30.38%", "elapsed_time": "22h 26m 18s", "remaining_time": "2d 3h 24m 45s"}
+{"loss": 0.14045389, "token_acc": 0.94727744, "grad_norm": 0.88058424, "learning_rate": 7.889e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246729, "epoch": 1.5195518, "global_step/max_steps": "19935/65595", "percentage": "30.39%", "elapsed_time": "22h 26m 34s", "remaining_time": "2d 3h 24m 16s"}
+{"loss": 0.12152796, "token_acc": 0.95951779, "grad_norm": 0.53689927, "learning_rate": 7.888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246733, "epoch": 1.51993292, "global_step/max_steps": "19940/65595", "percentage": "30.40%", "elapsed_time": "22h 26m 53s", "remaining_time": "2d 3h 23m 52s"}
+{"loss": 0.13807678, "token_acc": 0.95180906, "grad_norm": 0.76313281, "learning_rate": 7.887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246738, "epoch": 1.52031405, "global_step/max_steps": "19945/65595", "percentage": "30.41%", "elapsed_time": "22h 27m 12s", "remaining_time": "2d 3h 23m 28s"}
+{"loss": 0.1061003, "token_acc": 0.94182692, "grad_norm": 0.44433546, "learning_rate": 7.886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246756, "epoch": 1.52069517, "global_step/max_steps": "19950/65595", "percentage": "30.41%", "elapsed_time": "22h 27m 26s", "remaining_time": "2d 3h 22m 54s"}
+{"loss": 0.16015877, "token_acc": 0.93161232, "grad_norm": 0.89304858, "learning_rate": 7.885e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246767, "epoch": 1.5210763, "global_step/max_steps": "19955/65595", "percentage": "30.42%", "elapsed_time": "22h 27m 43s", "remaining_time": "2d 3h 22m 26s"}
+{"loss": 0.1723639, "token_acc": 0.93545611, "grad_norm": 1.22570193, "learning_rate": 7.884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246784, "epoch": 1.52145743, "global_step/max_steps": "19960/65595", "percentage": "30.43%", "elapsed_time": "22h 27m 58s", "remaining_time": "2d 3h 21m 53s"}
+{"loss": 0.12917862, "token_acc": 0.9461122, "grad_norm": 0.66481072, "learning_rate": 7.883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246797, "epoch": 1.52183855, "global_step/max_steps": "19965/65595", "percentage": "30.44%", "elapsed_time": "22h 28m 14s", "remaining_time": "2d 3h 21m 23s"}
+{"loss": 0.13182383, "token_acc": 0.95166505, "grad_norm": 1.53260469, "learning_rate": 7.882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246803, "epoch": 1.52221968, "global_step/max_steps": "19970/65595", "percentage": "30.44%", "elapsed_time": "22h 28m 32s", "remaining_time": "2d 3h 20m 58s"}
+{"loss": 0.11065941, "token_acc": 0.95898647, "grad_norm": 0.59796506, "learning_rate": 7.881e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246817, "epoch": 1.52260081, "global_step/max_steps": "19975/65595", "percentage": "30.45%", "elapsed_time": "22h 28m 48s", "remaining_time": "2d 3h 20m 28s"}
+{"loss": 0.07949136, "token_acc": 0.9605446, "grad_norm": 1.00750506, "learning_rate": 7.88e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24683, "epoch": 1.52298193, "global_step/max_steps": "19980/65595", "percentage": "30.46%", "elapsed_time": "22h 29m 4s", "remaining_time": "2d 3h 19m 57s"}
+{"loss": 0.12599412, "token_acc": 0.94914687, "grad_norm": 1.31209219, "learning_rate": 7.879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246834, "epoch": 1.52336306, "global_step/max_steps": "19985/65595", "percentage": "30.47%", "elapsed_time": "22h 29m 23s", "remaining_time": "2d 3h 19m 35s"}
+{"loss": 0.14369892, "token_acc": 0.95598374, "grad_norm": 1.39300382, "learning_rate": 7.878e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246845, "epoch": 1.52374419, "global_step/max_steps": "19990/65595", "percentage": "30.47%", "elapsed_time": "22h 29m 39s", "remaining_time": "2d 3h 19m 6s"}
+{"loss": 0.09963649, "token_acc": 0.96629213, "grad_norm": 0.67791718, "learning_rate": 7.877e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246855, "epoch": 1.52412531, "global_step/max_steps": "19995/65595", "percentage": "30.48%", "elapsed_time": "22h 29m 56s", "remaining_time": "2d 3h 18m 38s"}
+{"loss": 0.13486528, "token_acc": 0.95747471, "grad_norm": 1.52867997, "learning_rate": 7.876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246865, "epoch": 1.52450644, "global_step/max_steps": "20000/65595", "percentage": "30.49%", "elapsed_time": "22h 30m 13s", "remaining_time": "2d 3h 18m 10s"}
+{"eval_loss": 0.09980521, "eval_token_acc": 0.95359466, "eval_runtime": 218.895, "eval_samples_per_second": 2.421, "eval_steps_per_second": 2.421, "epoch": 1.52450644, "global_step/max_steps": "20000/65595", "percentage": "30.49%", "elapsed_time": "22h 33m 52s", "remaining_time": "2d 3h 26m 29s"}
+{"loss": 0.16351817, "token_acc": 0.95342043, "grad_norm": 1.04275835, "learning_rate": 7.875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246202, "epoch": 1.52488757, "global_step/max_steps": "20005/65595", "percentage": "30.50%", "elapsed_time": "22h 34m 12s", "remaining_time": "2d 3h 26m 8s"}
+{"loss": 0.13509723, "token_acc": 0.94460191, "grad_norm": 0.92796224, "learning_rate": 7.874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246208, "epoch": 1.52526869, "global_step/max_steps": "20010/65595", "percentage": "30.51%", "elapsed_time": "22h 34m 30s", "remaining_time": "2d 3h 25m 43s"}
+{"loss": 0.13941579, "token_acc": 0.93346285, "grad_norm": 1.35055614, "learning_rate": 7.873e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246226, "epoch": 1.52564982, "global_step/max_steps": "20015/65595", "percentage": "30.51%", "elapsed_time": "22h 34m 44s", "remaining_time": "2d 3h 25m 9s"}
+{"loss": 0.1205197, "token_acc": 0.96162047, "grad_norm": 0.63365465, "learning_rate": 7.872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246238, "epoch": 1.52603095, "global_step/max_steps": "20020/65595", "percentage": "30.52%", "elapsed_time": "22h 35m 1s", "remaining_time": "2d 3h 24m 39s"}
+{"loss": 0.09127167, "token_acc": 0.95335451, "grad_norm": 0.71599567, "learning_rate": 7.871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24625, "epoch": 1.52641207, "global_step/max_steps": "20025/65595", "percentage": "30.53%", "elapsed_time": "22h 35m 17s", "remaining_time": "2d 3h 24m 11s"}
+{"loss": 0.0965726, "token_acc": 0.95865019, "grad_norm": 0.37505332, "learning_rate": 7.87e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246265, "epoch": 1.5267932, "global_step/max_steps": "20030/65595", "percentage": "30.54%", "elapsed_time": "22h 35m 32s", "remaining_time": "2d 3h 23m 38s"}
+{"loss": 0.13254839, "token_acc": 0.95522133, "grad_norm": 1.0353111, "learning_rate": 7.869e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246279, "epoch": 1.52717433, "global_step/max_steps": "20035/65595", "percentage": "30.54%", "elapsed_time": "22h 35m 48s", "remaining_time": "2d 3h 23m 8s"}
+{"loss": 0.13081048, "token_acc": 0.94476744, "grad_norm": 1.01339197, "learning_rate": 7.868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246284, "epoch": 1.52755545, "global_step/max_steps": "20040/65595", "percentage": "30.55%", "elapsed_time": "22h 36m 7s", "remaining_time": "2d 3h 22m 44s"}
+{"loss": 0.10467118, "token_acc": 0.96021904, "grad_norm": 0.52471191, "learning_rate": 7.867e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246288, "epoch": 1.52793658, "global_step/max_steps": "20045/65595", "percentage": "30.56%", "elapsed_time": "22h 36m 26s", "remaining_time": "2d 3h 22m 21s"}
+{"loss": 0.11597826, "token_acc": 0.96308725, "grad_norm": 1.01293516, "learning_rate": 7.866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246302, "epoch": 1.52831771, "global_step/max_steps": "20050/65595", "percentage": "30.57%", "elapsed_time": "22h 36m 41s", "remaining_time": "2d 3h 21m 49s"}
+{"loss": 0.09858404, "token_acc": 0.94976557, "grad_norm": 0.47850099, "learning_rate": 7.866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24631, "epoch": 1.52869883, "global_step/max_steps": "20055/65595", "percentage": "30.57%", "elapsed_time": "22h 36m 59s", "remaining_time": "2d 3h 21m 23s"}
+{"loss": 0.13287406, "token_acc": 0.94609123, "grad_norm": 0.71650571, "learning_rate": 7.865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246318, "epoch": 1.52907996, "global_step/max_steps": "20060/65595", "percentage": "30.58%", "elapsed_time": "22h 37m 17s", "remaining_time": "2d 3h 20m 57s"}
+{"loss": 0.11425788, "token_acc": 0.96250852, "grad_norm": 1.00394022, "learning_rate": 7.864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246329, "epoch": 1.52946109, "global_step/max_steps": "20065/65595", "percentage": "30.59%", "elapsed_time": "22h 37m 33s", "remaining_time": "2d 3h 20m 29s"}
+{"loss": 0.11797839, "token_acc": 0.94897681, "grad_norm": 0.94725883, "learning_rate": 7.863e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246343, "epoch": 1.52984221, "global_step/max_steps": "20070/65595", "percentage": "30.60%", "elapsed_time": "22h 37m 49s", "remaining_time": "2d 3h 19m 58s"}
+{"loss": 0.10134296, "token_acc": 0.95950704, "grad_norm": 0.73164451, "learning_rate": 7.862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246343, "epoch": 1.53022334, "global_step/max_steps": "20075/65595", "percentage": "30.60%", "elapsed_time": "22h 38m 9s", "remaining_time": "2d 3h 19m 37s"}
+{"loss": 0.11671497, "token_acc": 0.95312038, "grad_norm": 0.81365484, "learning_rate": 7.861e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246349, "epoch": 1.53060447, "global_step/max_steps": "20080/65595", "percentage": "30.61%", "elapsed_time": "22h 38m 28s", "remaining_time": "2d 3h 19m 13s"}
+{"loss": 0.14007635, "token_acc": 0.95297575, "grad_norm": 1.52285719, "learning_rate": 7.86e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246346, "epoch": 1.53098559, "global_step/max_steps": "20085/65595", "percentage": "30.62%", "elapsed_time": "22h 38m 49s", "remaining_time": "2d 3h 18m 55s"}
+{"loss": 0.1666934, "token_acc": 0.93720096, "grad_norm": 1.68313527, "learning_rate": 7.859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24636, "epoch": 1.53136672, "global_step/max_steps": "20090/65595", "percentage": "30.63%", "elapsed_time": "22h 39m 4s", "remaining_time": "2d 3h 18m 23s"}
+{"loss": 0.05035556, "token_acc": 0.97958192, "grad_norm": 0.8023923, "learning_rate": 7.858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24638, "epoch": 1.53174785, "global_step/max_steps": "20095/65595", "percentage": "30.63%", "elapsed_time": "22h 39m 18s", "remaining_time": "2d 3h 17m 49s"}
+{"loss": 0.11495417, "token_acc": 0.95634665, "grad_norm": 1.0943054, "learning_rate": 7.857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246388, "epoch": 1.53212897, "global_step/max_steps": "20100/65595", "percentage": "30.64%", "elapsed_time": "22h 39m 36s", "remaining_time": "2d 3h 17m 22s"}
+{"loss": 0.14258018, "token_acc": 0.94698386, "grad_norm": 0.72231883, "learning_rate": 7.856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246396, "epoch": 1.5325101, "global_step/max_steps": "20105/65595", "percentage": "30.65%", "elapsed_time": "22h 39m 53s", "remaining_time": "2d 3h 16m 56s"}
+{"loss": 0.12313452, "token_acc": 0.94946809, "grad_norm": 0.95847791, "learning_rate": 7.855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246412, "epoch": 1.53289123, "global_step/max_steps": "20110/65595", "percentage": "30.66%", "elapsed_time": "22h 40m 9s", "remaining_time": "2d 3h 16m 24s"}
+{"loss": 0.11974887, "token_acc": 0.95824204, "grad_norm": 0.69721812, "learning_rate": 7.854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246417, "epoch": 1.53327235, "global_step/max_steps": "20115/65595", "percentage": "30.67%", "elapsed_time": "22h 40m 27s", "remaining_time": "2d 3h 16m 0s"}
+{"loss": 0.10541115, "token_acc": 0.96750207, "grad_norm": 1.04084623, "learning_rate": 7.853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246428, "epoch": 1.53365348, "global_step/max_steps": "20120/65595", "percentage": "30.67%", "elapsed_time": "22h 40m 44s", "remaining_time": "2d 3h 15m 31s"}
+{"loss": 0.09472081, "token_acc": 0.96102846, "grad_norm": 0.61896771, "learning_rate": 7.852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246437, "epoch": 1.53403461, "global_step/max_steps": "20125/65595", "percentage": "30.68%", "elapsed_time": "22h 41m 1s", "remaining_time": "2d 3h 15m 4s"}
+{"loss": 0.14480381, "token_acc": 0.95328218, "grad_norm": 1.26606429, "learning_rate": 7.851e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246445, "epoch": 1.53441573, "global_step/max_steps": "20130/65595", "percentage": "30.69%", "elapsed_time": "22h 41m 19s", "remaining_time": "2d 3h 14m 38s"}
+{"loss": 0.09584032, "token_acc": 0.96557445, "grad_norm": 1.30508971, "learning_rate": 7.85e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246455, "epoch": 1.53479686, "global_step/max_steps": "20135/65595", "percentage": "30.70%", "elapsed_time": "22h 41m 36s", "remaining_time": "2d 3h 14m 10s"}
+{"loss": 0.11860479, "token_acc": 0.96192188, "grad_norm": 1.06091285, "learning_rate": 7.849e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246458, "epoch": 1.53517799, "global_step/max_steps": "20140/65595", "percentage": "30.70%", "elapsed_time": "22h 41m 55s", "remaining_time": "2d 3h 13m 48s"}
+{"loss": 0.13371775, "token_acc": 0.93912411, "grad_norm": 0.29924488, "learning_rate": 7.848e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246465, "epoch": 1.53555911, "global_step/max_steps": "20145/65595", "percentage": "30.71%", "elapsed_time": "22h 42m 13s", "remaining_time": "2d 3h 13m 22s"}
+{"loss": 0.15010018, "token_acc": 0.95364078, "grad_norm": 0.638933, "learning_rate": 7.847e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246476, "epoch": 1.53594024, "global_step/max_steps": "20150/65595", "percentage": "30.72%", "elapsed_time": "22h 42m 30s", "remaining_time": "2d 3h 12m 53s"}
+{"loss": 0.12085072, "token_acc": 0.95360025, "grad_norm": 0.92395121, "learning_rate": 7.846e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246482, "epoch": 1.53632137, "global_step/max_steps": "20155/65595", "percentage": "30.73%", "elapsed_time": "22h 42m 48s", "remaining_time": "2d 3h 12m 29s"}
+{"loss": 0.08245946, "token_acc": 0.96933116, "grad_norm": 0.74603665, "learning_rate": 7.845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246487, "epoch": 1.53670249, "global_step/max_steps": "20160/65595", "percentage": "30.73%", "elapsed_time": "22h 43m 7s", "remaining_time": "2d 3h 12m 5s"}
+{"loss": 0.13522356, "token_acc": 0.94349801, "grad_norm": 0.31895033, "learning_rate": 7.844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246501, "epoch": 1.53708362, "global_step/max_steps": "20165/65595", "percentage": "30.74%", "elapsed_time": "22h 43m 22s", "remaining_time": "2d 3h 11m 34s"}
+{"loss": 0.15454059, "token_acc": 0.94424874, "grad_norm": 0.73838353, "learning_rate": 7.843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246509, "epoch": 1.53746475, "global_step/max_steps": "20170/65595", "percentage": "30.75%", "elapsed_time": "22h 43m 40s", "remaining_time": "2d 3h 11m 7s"}
+{"loss": 0.10371521, "token_acc": 0.95594895, "grad_norm": 1.20515621, "learning_rate": 7.842e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246527, "epoch": 1.53784587, "global_step/max_steps": "20175/65595", "percentage": "30.76%", "elapsed_time": "22h 43m 54s", "remaining_time": "2d 3h 10m 34s"}
+{"loss": 0.14800444, "token_acc": 0.94899536, "grad_norm": 1.14443016, "learning_rate": 7.841e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246541, "epoch": 1.538227, "global_step/max_steps": "20180/65595", "percentage": "30.76%", "elapsed_time": "22h 44m 10s", "remaining_time": "2d 3h 10m 3s"}
+{"loss": 0.10440422, "token_acc": 0.95841393, "grad_norm": 0.61020696, "learning_rate": 7.84e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246538, "epoch": 1.53860813, "global_step/max_steps": "20185/65595", "percentage": "30.77%", "elapsed_time": "22h 44m 31s", "remaining_time": "2d 3h 9m 45s"}
+{"loss": 0.10544029, "token_acc": 0.95340909, "grad_norm": 1.07730317, "learning_rate": 7.839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246557, "epoch": 1.53898925, "global_step/max_steps": "20190/65595", "percentage": "30.78%", "elapsed_time": "22h 44m 45s", "remaining_time": "2d 3h 9m 10s"}
+{"loss": 0.09800501, "token_acc": 0.96620894, "grad_norm": 0.64797372, "learning_rate": 7.838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246563, "epoch": 1.53937038, "global_step/max_steps": "20195/65595", "percentage": "30.79%", "elapsed_time": "22h 45m 3s", "remaining_time": "2d 3h 8m 46s"}
+{"loss": 0.10362192, "token_acc": 0.96003331, "grad_norm": 0.89462918, "learning_rate": 7.837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246576, "epoch": 1.53975151, "global_step/max_steps": "20200/65595", "percentage": "30.80%", "elapsed_time": "22h 45m 19s", "remaining_time": "2d 3h 8m 16s"}
+{"eval_loss": 0.09949084, "eval_token_acc": 0.95367749, "eval_runtime": 220.2188, "eval_samples_per_second": 2.407, "eval_steps_per_second": 2.407, "epoch": 1.53975151, "global_step/max_steps": "20200/65595", "percentage": "30.80%", "elapsed_time": "22h 48m 59s", "remaining_time": "2d 3h 16m 31s"}
+{"loss": 0.07862884, "token_acc": 0.95440747, "grad_norm": 0.33518249, "learning_rate": 7.836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245921, "epoch": 1.54013263, "global_step/max_steps": "20205/65595", "percentage": "30.80%", "elapsed_time": "22h 49m 18s", "remaining_time": "2d 3h 16m 6s"}
+{"loss": 0.10955633, "token_acc": 0.96006968, "grad_norm": 1.11063206, "learning_rate": 7.835e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245927, "epoch": 1.54051376, "global_step/max_steps": "20210/65595", "percentage": "30.81%", "elapsed_time": "22h 49m 36s", "remaining_time": "2d 3h 15m 41s"}
+{"loss": 0.11455215, "token_acc": 0.94187898, "grad_norm": 0.86648571, "learning_rate": 7.834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245942, "epoch": 1.54089489, "global_step/max_steps": "20215/65595", "percentage": "30.82%", "elapsed_time": "22h 49m 51s", "remaining_time": "2d 3h 15m 10s"}
+{"loss": 0.14046541, "token_acc": 0.94198047, "grad_norm": 0.87532938, "learning_rate": 7.833e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245955, "epoch": 1.54127601, "global_step/max_steps": "20220/65595", "percentage": "30.83%", "elapsed_time": "22h 50m 7s", "remaining_time": "2d 3h 14m 39s"}
+{"loss": 0.15805554, "token_acc": 0.95121951, "grad_norm": 0.98606747, "learning_rate": 7.832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245963, "epoch": 1.54165714, "global_step/max_steps": "20225/65595", "percentage": "30.83%", "elapsed_time": "22h 50m 25s", "remaining_time": "2d 3h 14m 13s"}
+{"loss": 0.14654064, "token_acc": 0.9422557, "grad_norm": 1.10868335, "learning_rate": 7.831e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245975, "epoch": 1.54203827, "global_step/max_steps": "20230/65595", "percentage": "30.84%", "elapsed_time": "22h 50m 41s", "remaining_time": "2d 3h 13m 44s"}
+{"loss": 0.11448989, "token_acc": 0.96636657, "grad_norm": 1.49267054, "learning_rate": 7.83e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245983, "epoch": 1.54241939, "global_step/max_steps": "20235/65595", "percentage": "30.85%", "elapsed_time": "22h 50m 59s", "remaining_time": "2d 3h 13m 18s"}
+{"loss": 0.1256072, "token_acc": 0.95781414, "grad_norm": 0.67905247, "learning_rate": 7.829e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245986, "epoch": 1.54280052, "global_step/max_steps": "20240/65595", "percentage": "30.86%", "elapsed_time": "22h 51m 18s", "remaining_time": "2d 3h 12m 55s"}
+{"loss": 0.13093364, "token_acc": 0.95028681, "grad_norm": 0.69881868, "learning_rate": 7.828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246001, "epoch": 1.54318164, "global_step/max_steps": "20245/65595", "percentage": "30.86%", "elapsed_time": "22h 51m 34s", "remaining_time": "2d 3h 12m 23s"}
+{"loss": 0.08330309, "token_acc": 0.96700958, "grad_norm": 0.66240948, "learning_rate": 7.827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246006, "epoch": 1.54356277, "global_step/max_steps": "20250/65595", "percentage": "30.87%", "elapsed_time": "22h 51m 52s", "remaining_time": "2d 3h 11m 59s"}
+{"loss": 0.15886261, "token_acc": 0.95081347, "grad_norm": 1.52974117, "learning_rate": 7.826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246012, "epoch": 1.5439439, "global_step/max_steps": "20255/65595", "percentage": "30.88%", "elapsed_time": "22h 52m 11s", "remaining_time": "2d 3h 11m 35s"}
+{"loss": 0.14241271, "token_acc": 0.95251479, "grad_norm": 1.08637559, "learning_rate": 7.825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246023, "epoch": 1.54432502, "global_step/max_steps": "20260/65595", "percentage": "30.89%", "elapsed_time": "22h 52m 27s", "remaining_time": "2d 3h 11m 6s"}
+{"loss": 0.13128538, "token_acc": 0.94829483, "grad_norm": 0.80254161, "learning_rate": 7.824e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246024, "epoch": 1.54470615, "global_step/max_steps": "20265/65595", "percentage": "30.89%", "elapsed_time": "22h 52m 47s", "remaining_time": "2d 3h 10m 45s"}
+{"loss": 0.14459774, "token_acc": 0.93733154, "grad_norm": 0.75883633, "learning_rate": 7.823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246041, "epoch": 1.54508728, "global_step/max_steps": "20270/65595", "percentage": "30.90%", "elapsed_time": "22h 53m 2s", "remaining_time": "2d 3h 10m 11s"}
+{"loss": 0.14615097, "token_acc": 0.94182692, "grad_norm": 0.98584837, "learning_rate": 7.822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246057, "epoch": 1.5454684, "global_step/max_steps": "20275/65595", "percentage": "30.91%", "elapsed_time": "22h 53m 17s", "remaining_time": "2d 3h 9m 39s"}
+{"loss": 0.12661248, "token_acc": 0.94459166, "grad_norm": 0.76944184, "learning_rate": 7.821e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246068, "epoch": 1.54584953, "global_step/max_steps": "20280/65595", "percentage": "30.92%", "elapsed_time": "22h 53m 34s", "remaining_time": "2d 3h 9m 11s"}
+{"loss": 0.11800554, "token_acc": 0.95795116, "grad_norm": 0.66710091, "learning_rate": 7.82e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246073, "epoch": 1.54623066, "global_step/max_steps": "20285/65595", "percentage": "30.92%", "elapsed_time": "22h 53m 52s", "remaining_time": "2d 3h 8m 47s"}
+{"loss": 0.1176363, "token_acc": 0.95551994, "grad_norm": 1.6451329, "learning_rate": 7.819e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246081, "epoch": 1.54661178, "global_step/max_steps": "20290/65595", "percentage": "30.93%", "elapsed_time": "22h 54m 10s", "remaining_time": "2d 3h 8m 21s"}
+{"loss": 0.07144529, "token_acc": 0.97288722, "grad_norm": 0.88755935, "learning_rate": 7.818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246096, "epoch": 1.54699291, "global_step/max_steps": "20295/65595", "percentage": "30.94%", "elapsed_time": "22h 54m 25s", "remaining_time": "2d 3h 7m 49s"}
+{"loss": 0.09304338, "token_acc": 0.95610425, "grad_norm": 1.11395371, "learning_rate": 7.817e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246113, "epoch": 1.54737404, "global_step/max_steps": "20300/65595", "percentage": "30.95%", "elapsed_time": "22h 54m 40s", "remaining_time": "2d 3h 7m 16s"}
+{"loss": 0.11942956, "token_acc": 0.94835329, "grad_norm": 0.75049967, "learning_rate": 7.816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246127, "epoch": 1.54775516, "global_step/max_steps": "20305/65595", "percentage": "30.96%", "elapsed_time": "22h 54m 55s", "remaining_time": "2d 3h 6m 45s"}
+{"loss": 0.11602596, "token_acc": 0.95132522, "grad_norm": 0.86456877, "learning_rate": 7.815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246137, "epoch": 1.54813629, "global_step/max_steps": "20310/65595", "percentage": "30.96%", "elapsed_time": "22h 55m 12s", "remaining_time": "2d 3h 6m 17s"}
+{"loss": 0.12744874, "token_acc": 0.94942358, "grad_norm": 0.58597332, "learning_rate": 7.814e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246147, "epoch": 1.54851742, "global_step/max_steps": "20315/65595", "percentage": "30.97%", "elapsed_time": "22h 55m 29s", "remaining_time": "2d 3h 5m 50s"}
+{"loss": 0.1302004, "token_acc": 0.94972147, "grad_norm": 0.52035773, "learning_rate": 7.813e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246149, "epoch": 1.54889854, "global_step/max_steps": "20320/65595", "percentage": "30.98%", "elapsed_time": "22h 55m 49s", "remaining_time": "2d 3h 5m 28s"}
+{"loss": 0.15892856, "token_acc": 0.95571622, "grad_norm": 1.33168888, "learning_rate": 7.812e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246158, "epoch": 1.54927967, "global_step/max_steps": "20325/65595", "percentage": "30.99%", "elapsed_time": "22h 56m 6s", "remaining_time": "2d 3h 5m 1s"}
+{"loss": 0.13084545, "token_acc": 0.94825019, "grad_norm": 0.65580243, "learning_rate": 7.811e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246171, "epoch": 1.5496608, "global_step/max_steps": "20330/65595", "percentage": "30.99%", "elapsed_time": "22h 56m 22s", "remaining_time": "2d 3h 4m 31s"}
+{"loss": 0.14036908, "token_acc": 0.93916842, "grad_norm": 0.77208781, "learning_rate": 7.81e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246181, "epoch": 1.55004192, "global_step/max_steps": "20335/65595", "percentage": "31.00%", "elapsed_time": "22h 56m 39s", "remaining_time": "2d 3h 4m 3s"}
+{"loss": 0.1289796, "token_acc": 0.946851, "grad_norm": 1.03177059, "learning_rate": 7.809e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246197, "epoch": 1.55042305, "global_step/max_steps": "20340/65595", "percentage": "31.01%", "elapsed_time": "22h 56m 54s", "remaining_time": "2d 3h 3m 31s"}
+{"loss": 0.14463034, "token_acc": 0.95125348, "grad_norm": 1.31437457, "learning_rate": 7.808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246209, "epoch": 1.55080418, "global_step/max_steps": "20345/65595", "percentage": "31.02%", "elapsed_time": "22h 57m 10s", "remaining_time": "2d 3h 3m 1s"}
+{"loss": 0.11615155, "token_acc": 0.93904395, "grad_norm": 0.81485558, "learning_rate": 7.807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24622, "epoch": 1.5511853, "global_step/max_steps": "20350/65595", "percentage": "31.02%", "elapsed_time": "22h 57m 27s", "remaining_time": "2d 3h 2m 33s"}
+{"loss": 0.2050885, "token_acc": 0.9269554, "grad_norm": 0.77109402, "learning_rate": 7.806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246232, "epoch": 1.55156643, "global_step/max_steps": "20355/65595", "percentage": "31.03%", "elapsed_time": "22h 57m 43s", "remaining_time": "2d 3h 2m 4s"}
+{"loss": 0.12329316, "token_acc": 0.95916582, "grad_norm": 0.68420917, "learning_rate": 7.805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24624, "epoch": 1.55194756, "global_step/max_steps": "20360/65595", "percentage": "31.04%", "elapsed_time": "22h 58m 1s", "remaining_time": "2d 3h 1m 38s"}
+{"loss": 0.09223067, "token_acc": 0.95756127, "grad_norm": 0.74242574, "learning_rate": 7.804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24625, "epoch": 1.55232868, "global_step/max_steps": "20365/65595", "percentage": "31.05%", "elapsed_time": "22h 58m 18s", "remaining_time": "2d 3h 1m 9s"}
+{"loss": 0.13055853, "token_acc": 0.95413356, "grad_norm": 0.61141473, "learning_rate": 7.803e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246252, "epoch": 1.55270981, "global_step/max_steps": "20370/65595", "percentage": "31.05%", "elapsed_time": "22h 58m 37s", "remaining_time": "2d 3h 0m 48s"}
+{"loss": 0.13010406, "token_acc": 0.9583004, "grad_norm": 0.86359042, "learning_rate": 7.802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246256, "epoch": 1.55309094, "global_step/max_steps": "20375/65595", "percentage": "31.06%", "elapsed_time": "22h 58m 56s", "remaining_time": "2d 3h 0m 25s"}
+{"loss": 0.10984261, "token_acc": 0.96145949, "grad_norm": 0.44651139, "learning_rate": 7.801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246264, "epoch": 1.55347206, "global_step/max_steps": "20380/65595", "percentage": "31.07%", "elapsed_time": "22h 59m 14s", "remaining_time": "2d 2h 59m 58s"}
+{"loss": 0.14129832, "token_acc": 0.93751097, "grad_norm": 1.33233905, "learning_rate": 7.8e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246273, "epoch": 1.55385319, "global_step/max_steps": "20385/65595", "percentage": "31.08%", "elapsed_time": "22h 59m 31s", "remaining_time": "2d 2h 59m 31s"}
+{"loss": 0.12628444, "token_acc": 0.94438783, "grad_norm": 1.01944602, "learning_rate": 7.799e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246276, "epoch": 1.55423432, "global_step/max_steps": "20390/65595", "percentage": "31.08%", "elapsed_time": "22h 59m 50s", "remaining_time": "2d 2h 59m 8s"}
+{"loss": 0.17530068, "token_acc": 0.93739771, "grad_norm": 1.17006469, "learning_rate": 7.798e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246284, "epoch": 1.55461544, "global_step/max_steps": "20395/65595", "percentage": "31.09%", "elapsed_time": "23h 0m 8s", "remaining_time": "2d 2h 58m 42s"}
+{"loss": 0.11403472, "token_acc": 0.94865018, "grad_norm": 0.68306363, "learning_rate": 7.797e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246295, "epoch": 1.55499657, "global_step/max_steps": "20400/65595", "percentage": "31.10%", "elapsed_time": "23h 0m 25s", "remaining_time": "2d 2h 58m 14s"}
+{"eval_loss": 0.09771151, "eval_token_acc": 0.95396362, "eval_runtime": 221.6361, "eval_samples_per_second": 2.391, "eval_steps_per_second": 2.391, "epoch": 1.55499657, "global_step/max_steps": "20400/65595", "percentage": "31.10%", "elapsed_time": "23h 4m 6s", "remaining_time": "2d 3h 6m 25s"}
+{"loss": 0.14692559, "token_acc": 0.95349759, "grad_norm": 1.56721306, "learning_rate": 7.796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245644, "epoch": 1.5553777, "global_step/max_steps": "20405/65595", "percentage": "31.11%", "elapsed_time": "23h 4m 24s", "remaining_time": "2d 3h 6m 0s"}
+{"loss": 0.09436937, "token_acc": 0.95142857, "grad_norm": 0.96362245, "learning_rate": 7.795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245658, "epoch": 1.55575882, "global_step/max_steps": "20410/65595", "percentage": "31.12%", "elapsed_time": "23h 4m 40s", "remaining_time": "2d 3h 5m 29s"}
+{"loss": 0.10201632, "token_acc": 0.96032303, "grad_norm": 0.92709953, "learning_rate": 7.794e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245664, "epoch": 1.55613995, "global_step/max_steps": "20415/65595", "percentage": "31.12%", "elapsed_time": "23h 4m 59s", "remaining_time": "2d 3h 5m 4s"}
+{"loss": 0.09668782, "token_acc": 0.96252567, "grad_norm": 1.01103437, "learning_rate": 7.793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245677, "epoch": 1.55652108, "global_step/max_steps": "20420/65595", "percentage": "31.13%", "elapsed_time": "23h 5m 15s", "remaining_time": "2d 3h 4m 34s"}
+{"loss": 0.09334667, "token_acc": 0.96047687, "grad_norm": 1.71958351, "learning_rate": 7.792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245676, "epoch": 1.5569022, "global_step/max_steps": "20425/65595", "percentage": "31.14%", "elapsed_time": "23h 5m 35s", "remaining_time": "2d 3h 4m 14s"}
+{"loss": 0.10918975, "token_acc": 0.95182057, "grad_norm": 0.67989939, "learning_rate": 7.791e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245686, "epoch": 1.55728333, "global_step/max_steps": "20430/65595", "percentage": "31.15%", "elapsed_time": "23h 5m 52s", "remaining_time": "2d 3h 3m 47s"}
+{"loss": 0.12821565, "token_acc": 0.94553952, "grad_norm": 0.65071827, "learning_rate": 7.79e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245685, "epoch": 1.55766446, "global_step/max_steps": "20435/65595", "percentage": "31.15%", "elapsed_time": "23h 6m 13s", "remaining_time": "2d 3h 3m 27s"}
+{"loss": 0.10457488, "token_acc": 0.95028409, "grad_norm": 0.71287596, "learning_rate": 7.789e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245701, "epoch": 1.55804558, "global_step/max_steps": "20440/65595", "percentage": "31.16%", "elapsed_time": "23h 6m 28s", "remaining_time": "2d 3h 2m 55s"}
+{"loss": 0.08106827, "token_acc": 0.96346801, "grad_norm": 0.23801111, "learning_rate": 7.788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24571, "epoch": 1.55842671, "global_step/max_steps": "20445/65595", "percentage": "31.17%", "elapsed_time": "23h 6m 45s", "remaining_time": "2d 3h 2m 28s"}
+{"loss": 0.09499533, "token_acc": 0.96255144, "grad_norm": 0.75291711, "learning_rate": 7.787e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245718, "epoch": 1.55880784, "global_step/max_steps": "20450/65595", "percentage": "31.18%", "elapsed_time": "23h 7m 3s", "remaining_time": "2d 3h 2m 2s"}
+{"loss": 0.16096495, "token_acc": 0.95021439, "grad_norm": 0.6019001, "learning_rate": 7.786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245729, "epoch": 1.55918896, "global_step/max_steps": "20455/65595", "percentage": "31.18%", "elapsed_time": "23h 7m 19s", "remaining_time": "2d 3h 1m 33s"}
+{"loss": 0.1386827, "token_acc": 0.94775311, "grad_norm": 0.70617306, "learning_rate": 7.785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245744, "epoch": 1.55957009, "global_step/max_steps": "20460/65595", "percentage": "31.19%", "elapsed_time": "23h 7m 35s", "remaining_time": "2d 3h 1m 1s"}
+{"loss": 0.13204165, "token_acc": 0.95710342, "grad_norm": 0.7070148, "learning_rate": 7.785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245735, "epoch": 1.55995122, "global_step/max_steps": "20465/65595", "percentage": "31.20%", "elapsed_time": "23h 7m 58s", "remaining_time": "2d 3h 0m 47s"}
+{"loss": 0.13544276, "token_acc": 0.94527363, "grad_norm": 0.90851343, "learning_rate": 7.784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245747, "epoch": 1.56033234, "global_step/max_steps": "20470/65595", "percentage": "31.21%", "elapsed_time": "23h 8m 14s", "remaining_time": "2d 3h 0m 18s"}
+{"loss": 0.14249166, "token_acc": 0.94889893, "grad_norm": 2.05438161, "learning_rate": 7.783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245753, "epoch": 1.56071347, "global_step/max_steps": "20475/65595", "percentage": "31.21%", "elapsed_time": "23h 8m 33s", "remaining_time": "2d 2h 59m 54s"}
+{"loss": 0.11884559, "token_acc": 0.94386694, "grad_norm": 1.08580709, "learning_rate": 7.782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245771, "epoch": 1.5610946, "global_step/max_steps": "20480/65595", "percentage": "31.22%", "elapsed_time": "23h 8m 47s", "remaining_time": "2d 2h 59m 20s"}
+{"loss": 0.1239956, "token_acc": 0.94270423, "grad_norm": 0.75811315, "learning_rate": 7.781e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245779, "epoch": 1.56147572, "global_step/max_steps": "20485/65595", "percentage": "31.23%", "elapsed_time": "23h 9m 5s", "remaining_time": "2d 2h 58m 54s"}
+{"loss": 0.09838157, "token_acc": 0.96521981, "grad_norm": 1.13008666, "learning_rate": 7.78e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245793, "epoch": 1.56185685, "global_step/max_steps": "20490/65595", "percentage": "31.24%", "elapsed_time": "23h 9m 20s", "remaining_time": "2d 2h 58m 23s"}
+{"loss": 0.16609674, "token_acc": 0.93505007, "grad_norm": 0.79257435, "learning_rate": 7.779e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245808, "epoch": 1.56223798, "global_step/max_steps": "20495/65595", "percentage": "31.24%", "elapsed_time": "23h 9m 35s", "remaining_time": "2d 2h 57m 51s"}
+{"loss": 0.1499427, "token_acc": 0.92577488, "grad_norm": 0.79459459, "learning_rate": 7.778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245821, "epoch": 1.5626191, "global_step/max_steps": "20500/65595", "percentage": "31.25%", "elapsed_time": "23h 9m 51s", "remaining_time": "2d 2h 57m 21s"}
+{"loss": 0.1546209, "token_acc": 0.94165749, "grad_norm": 0.8224628, "learning_rate": 7.777e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245822, "epoch": 1.56300023, "global_step/max_steps": "20505/65595", "percentage": "31.26%", "elapsed_time": "23h 10m 11s", "remaining_time": "2d 2h 57m 0s"}
+{"loss": 0.11827499, "token_acc": 0.95523279, "grad_norm": 0.75407374, "learning_rate": 7.776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245831, "epoch": 1.56338136, "global_step/max_steps": "20510/65595", "percentage": "31.27%", "elapsed_time": "23h 10m 29s", "remaining_time": "2d 2h 56m 33s"}
+{"loss": 0.12014776, "token_acc": 0.95508827, "grad_norm": 0.64833617, "learning_rate": 7.775e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245845, "epoch": 1.56376248, "global_step/max_steps": "20515/65595", "percentage": "31.28%", "elapsed_time": "23h 10m 44s", "remaining_time": "2d 2h 56m 2s"}
+{"loss": 0.11107646, "token_acc": 0.95001922, "grad_norm": 0.51034826, "learning_rate": 7.774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245854, "epoch": 1.56414361, "global_step/max_steps": "20520/65595", "percentage": "31.28%", "elapsed_time": "23h 11m 2s", "remaining_time": "2d 2h 55m 35s"}
+{"loss": 0.0979679, "token_acc": 0.96944319, "grad_norm": 0.66340882, "learning_rate": 7.773e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245863, "epoch": 1.56452474, "global_step/max_steps": "20525/65595", "percentage": "31.29%", "elapsed_time": "23h 11m 19s", "remaining_time": "2d 2h 55m 8s"}
+{"loss": 0.12131747, "token_acc": 0.95579383, "grad_norm": 1.88656902, "learning_rate": 7.772e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245874, "epoch": 1.56490586, "global_step/max_steps": "20530/65595", "percentage": "31.30%", "elapsed_time": "23h 11m 35s", "remaining_time": "2d 2h 54m 40s"}
+{"loss": 0.09879389, "token_acc": 0.96332863, "grad_norm": 0.45412654, "learning_rate": 7.771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24588, "epoch": 1.56528699, "global_step/max_steps": "20535/65595", "percentage": "31.31%", "elapsed_time": "23h 11m 54s", "remaining_time": "2d 2h 54m 15s"}
+{"loss": 0.10751773, "token_acc": 0.96488103, "grad_norm": 0.82000798, "learning_rate": 7.77e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245883, "epoch": 1.56566811, "global_step/max_steps": "20540/65595", "percentage": "31.31%", "elapsed_time": "23h 12m 13s", "remaining_time": "2d 2h 53m 52s"}
+{"loss": 0.117984, "token_acc": 0.95256735, "grad_norm": 0.83972496, "learning_rate": 7.769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245896, "epoch": 1.56604924, "global_step/max_steps": "20545/65595", "percentage": "31.32%", "elapsed_time": "23h 12m 29s", "remaining_time": "2d 2h 53m 22s"}
+{"loss": 0.11577843, "token_acc": 0.96172353, "grad_norm": 0.92975283, "learning_rate": 7.768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245908, "epoch": 1.56643037, "global_step/max_steps": "20550/65595", "percentage": "31.33%", "elapsed_time": "23h 12m 45s", "remaining_time": "2d 2h 52m 53s"}
+{"loss": 0.18470335, "token_acc": 0.92505064, "grad_norm": 1.93333542, "learning_rate": 7.767e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245926, "epoch": 1.56681149, "global_step/max_steps": "20555/65595", "percentage": "31.34%", "elapsed_time": "23h 12m 59s", "remaining_time": "2d 2h 52m 19s"}
+{"loss": 0.15248109, "token_acc": 0.9378453, "grad_norm": 1.21327996, "learning_rate": 7.766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245938, "epoch": 1.56719262, "global_step/max_steps": "20560/65595", "percentage": "31.34%", "elapsed_time": "23h 13m 16s", "remaining_time": "2d 2h 51m 50s"}
+{"loss": 0.11216705, "token_acc": 0.95540897, "grad_norm": 0.75558496, "learning_rate": 7.765e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245951, "epoch": 1.56757375, "global_step/max_steps": "20565/65595", "percentage": "31.35%", "elapsed_time": "23h 13m 31s", "remaining_time": "2d 2h 51m 20s"}
+{"loss": 0.11462402, "token_acc": 0.95975232, "grad_norm": 0.70119303, "learning_rate": 7.764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245957, "epoch": 1.56795487, "global_step/max_steps": "20570/65595", "percentage": "31.36%", "elapsed_time": "23h 13m 50s", "remaining_time": "2d 2h 50m 55s"}
+{"loss": 0.07913059, "token_acc": 0.96155989, "grad_norm": 0.39839315, "learning_rate": 7.763e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24597, "epoch": 1.568336, "global_step/max_steps": "20575/65595", "percentage": "31.37%", "elapsed_time": "23h 14m 6s", "remaining_time": "2d 2h 50m 25s"}
+{"loss": 0.13419476, "token_acc": 0.94330357, "grad_norm": 1.61007035, "learning_rate": 7.762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245986, "epoch": 1.56871713, "global_step/max_steps": "20580/65595", "percentage": "31.37%", "elapsed_time": "23h 14m 21s", "remaining_time": "2d 2h 49m 53s"}
+{"loss": 0.13031192, "token_acc": 0.94073039, "grad_norm": 1.77654505, "learning_rate": 7.761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245998, "epoch": 1.56909825, "global_step/max_steps": "20585/65595", "percentage": "31.38%", "elapsed_time": "23h 14m 37s", "remaining_time": "2d 2h 49m 24s"}
+{"loss": 0.083702, "token_acc": 0.95218855, "grad_norm": 0.81725532, "learning_rate": 7.76e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24601, "epoch": 1.56947938, "global_step/max_steps": "20590/65595", "percentage": "31.39%", "elapsed_time": "23h 14m 53s", "remaining_time": "2d 2h 48m 55s"}
+{"loss": 0.14865377, "token_acc": 0.9477255, "grad_norm": 1.36571097, "learning_rate": 7.759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246013, "epoch": 1.56986051, "global_step/max_steps": "20595/65595", "percentage": "31.40%", "elapsed_time": "23h 15m 12s", "remaining_time": "2d 2h 48m 32s"}
+{"loss": 0.1328064, "token_acc": 0.94969574, "grad_norm": 1.48035443, "learning_rate": 7.758e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246024, "epoch": 1.57024163, "global_step/max_steps": "20600/65595", "percentage": "31.40%", "elapsed_time": "23h 15m 29s", "remaining_time": "2d 2h 48m 3s"}
+{"eval_loss": 0.10002548, "eval_token_acc": 0.95458858, "eval_runtime": 220.3654, "eval_samples_per_second": 2.405, "eval_steps_per_second": 2.405, "epoch": 1.57024163, "global_step/max_steps": "20600/65595", "percentage": "31.40%", "elapsed_time": "23h 19m 9s", "remaining_time": "2d 2h 56m 4s"}
+{"loss": 0.08317769, "token_acc": 0.95513939, "grad_norm": 0.57833642, "learning_rate": 7.757e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245389, "epoch": 1.57062276, "global_step/max_steps": "20605/65595", "percentage": "31.41%", "elapsed_time": "23h 19m 26s", "remaining_time": "2d 2h 55m 36s"}
+{"loss": 0.15190065, "token_acc": 0.94979253, "grad_norm": 1.22146463, "learning_rate": 7.756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245406, "epoch": 1.57100389, "global_step/max_steps": "20610/65595", "percentage": "31.42%", "elapsed_time": "23h 19m 41s", "remaining_time": "2d 2h 55m 3s"}
+{"loss": 0.16756923, "token_acc": 0.92726242, "grad_norm": 0.90622646, "learning_rate": 7.755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245418, "epoch": 1.57138501, "global_step/max_steps": "20615/65595", "percentage": "31.43%", "elapsed_time": "23h 19m 57s", "remaining_time": "2d 2h 54m 34s"}
+{"loss": 0.1059358, "token_acc": 0.94754977, "grad_norm": 0.124397, "learning_rate": 7.754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245438, "epoch": 1.57176614, "global_step/max_steps": "20620/65595", "percentage": "31.44%", "elapsed_time": "23h 20m 10s", "remaining_time": "2d 2h 53m 59s"}
+{"loss": 0.15638244, "token_acc": 0.92826705, "grad_norm": 0.85014981, "learning_rate": 7.753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245447, "epoch": 1.57214727, "global_step/max_steps": "20625/65595", "percentage": "31.44%", "elapsed_time": "23h 20m 28s", "remaining_time": "2d 2h 53m 31s"}
+{"loss": 0.12386004, "token_acc": 0.95842851, "grad_norm": 0.67167741, "learning_rate": 7.752e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245458, "epoch": 1.57252839, "global_step/max_steps": "20630/65595", "percentage": "31.45%", "elapsed_time": "23h 20m 44s", "remaining_time": "2d 2h 53m 3s"}
+{"loss": 0.13842649, "token_acc": 0.94656888, "grad_norm": 0.91337252, "learning_rate": 7.751e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245471, "epoch": 1.57290952, "global_step/max_steps": "20635/65595", "percentage": "31.46%", "elapsed_time": "23h 21m 0s", "remaining_time": "2d 2h 52m 32s"}
+{"loss": 0.12650714, "token_acc": 0.93885733, "grad_norm": 1.28538036, "learning_rate": 7.75e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245489, "epoch": 1.57329065, "global_step/max_steps": "20640/65595", "percentage": "31.47%", "elapsed_time": "23h 21m 14s", "remaining_time": "2d 2h 51m 59s"}
+{"loss": 0.11206098, "token_acc": 0.95289855, "grad_norm": 0.91529536, "learning_rate": 7.749e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245492, "epoch": 1.57367177, "global_step/max_steps": "20645/65595", "percentage": "31.47%", "elapsed_time": "23h 21m 34s", "remaining_time": "2d 2h 51m 36s"}
+{"loss": 0.11714317, "token_acc": 0.94782102, "grad_norm": 1.81435561, "learning_rate": 7.748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245501, "epoch": 1.5740529, "global_step/max_steps": "20650/65595", "percentage": "31.48%", "elapsed_time": "23h 21m 51s", "remaining_time": "2d 2h 51m 9s"}
+{"loss": 0.1151545, "token_acc": 0.95542747, "grad_norm": 0.50159079, "learning_rate": 7.747e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245512, "epoch": 1.57443403, "global_step/max_steps": "20655/65595", "percentage": "31.49%", "elapsed_time": "23h 22m 8s", "remaining_time": "2d 2h 50m 41s"}
+{"loss": 0.13441752, "token_acc": 0.94565404, "grad_norm": 0.84598404, "learning_rate": 7.746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245516, "epoch": 1.57481515, "global_step/max_steps": "20660/65595", "percentage": "31.50%", "elapsed_time": "23h 22m 27s", "remaining_time": "2d 2h 50m 17s"}
+{"loss": 0.10819185, "token_acc": 0.96049241, "grad_norm": 1.68298852, "learning_rate": 7.745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245528, "epoch": 1.57519628, "global_step/max_steps": "20665/65595", "percentage": "31.50%", "elapsed_time": "23h 22m 43s", "remaining_time": "2d 2h 49m 48s"}
+{"loss": 0.09591987, "token_acc": 0.9625374, "grad_norm": 0.69189578, "learning_rate": 7.744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245525, "epoch": 1.57557741, "global_step/max_steps": "20670/65595", "percentage": "31.51%", "elapsed_time": "23h 23m 4s", "remaining_time": "2d 2h 49m 30s"}
+{"loss": 0.11996984, "token_acc": 0.95528183, "grad_norm": 0.46924269, "learning_rate": 7.743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245527, "epoch": 1.57595853, "global_step/max_steps": "20675/65595", "percentage": "31.52%", "elapsed_time": "23h 23m 24s", "remaining_time": "2d 2h 49m 8s"}
+{"loss": 0.09089621, "token_acc": 0.9595135, "grad_norm": 0.65079021, "learning_rate": 7.742e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245534, "epoch": 1.57633966, "global_step/max_steps": "20680/65595", "percentage": "31.53%", "elapsed_time": "23h 23m 42s", "remaining_time": "2d 2h 48m 43s"}
+{"loss": 0.1145736, "token_acc": 0.9593359, "grad_norm": 0.67267072, "learning_rate": 7.741e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245546, "epoch": 1.57672079, "global_step/max_steps": "20685/65595", "percentage": "31.53%", "elapsed_time": "23h 23m 58s", "remaining_time": "2d 2h 48m 13s"}
+{"loss": 0.09378604, "token_acc": 0.96822107, "grad_norm": 0.77496386, "learning_rate": 7.74e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245548, "epoch": 1.57710191, "global_step/max_steps": "20690/65595", "percentage": "31.54%", "elapsed_time": "23h 24m 18s", "remaining_time": "2d 2h 47m 51s"}
+{"loss": 0.07211804, "token_acc": 0.96383266, "grad_norm": 0.50797057, "learning_rate": 7.739e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245562, "epoch": 1.57748304, "global_step/max_steps": "20695/65595", "percentage": "31.55%", "elapsed_time": "23h 24m 33s", "remaining_time": "2d 2h 47m 21s"}
+{"loss": 0.10836167, "token_acc": 0.96274718, "grad_norm": 1.09491181, "learning_rate": 7.738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245568, "epoch": 1.57786417, "global_step/max_steps": "20700/65595", "percentage": "31.56%", "elapsed_time": "23h 24m 52s", "remaining_time": "2d 2h 46m 55s"}
+{"loss": 0.10340862, "token_acc": 0.95419847, "grad_norm": 0.70477706, "learning_rate": 7.737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245583, "epoch": 1.57824529, "global_step/max_steps": "20705/65595", "percentage": "31.56%", "elapsed_time": "23h 25m 7s", "remaining_time": "2d 2h 46m 24s"}
+{"loss": 0.09742295, "token_acc": 0.95780162, "grad_norm": 0.55774021, "learning_rate": 7.736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245593, "epoch": 1.57862642, "global_step/max_steps": "20710/65595", "percentage": "31.57%", "elapsed_time": "23h 25m 24s", "remaining_time": "2d 2h 45m 57s"}
+{"loss": 0.17803074, "token_acc": 0.94535316, "grad_norm": 1.1945008, "learning_rate": 7.735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245602, "epoch": 1.57900755, "global_step/max_steps": "20715/65595", "percentage": "31.58%", "elapsed_time": "23h 25m 41s", "remaining_time": "2d 2h 45m 30s"}
+{"loss": 0.11831211, "token_acc": 0.94941016, "grad_norm": 1.10934579, "learning_rate": 7.734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245615, "epoch": 1.57938867, "global_step/max_steps": "20720/65595", "percentage": "31.59%", "elapsed_time": "23h 25m 57s", "remaining_time": "2d 2h 44m 59s"}
+{"loss": 0.08159686, "token_acc": 0.96537087, "grad_norm": 0.99878871, "learning_rate": 7.733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245627, "epoch": 1.5797698, "global_step/max_steps": "20725/65595", "percentage": "31.60%", "elapsed_time": "23h 26m 13s", "remaining_time": "2d 2h 44m 30s"}
+{"loss": 0.09722353, "token_acc": 0.95392491, "grad_norm": 1.22023404, "learning_rate": 7.732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245637, "epoch": 1.58015093, "global_step/max_steps": "20730/65595", "percentage": "31.60%", "elapsed_time": "23h 26m 30s", "remaining_time": "2d 2h 44m 2s"}
+{"loss": 0.13770185, "token_acc": 0.94645811, "grad_norm": 0.84714353, "learning_rate": 7.731e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245644, "epoch": 1.58053205, "global_step/max_steps": "20735/65595", "percentage": "31.61%", "elapsed_time": "23h 26m 48s", "remaining_time": "2d 2h 43m 37s"}
+{"loss": 0.13249989, "token_acc": 0.95073967, "grad_norm": 0.73741424, "learning_rate": 7.73e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245653, "epoch": 1.58091318, "global_step/max_steps": "20740/65595", "percentage": "31.62%", "elapsed_time": "23h 27m 5s", "remaining_time": "2d 2h 43m 10s"}
+{"loss": 0.1009147, "token_acc": 0.95872033, "grad_norm": 0.80348533, "learning_rate": 7.729e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245654, "epoch": 1.58129431, "global_step/max_steps": "20745/65595", "percentage": "31.63%", "elapsed_time": "23h 27m 25s", "remaining_time": "2d 2h 42m 49s"}
+{"loss": 0.09572316, "token_acc": 0.96286472, "grad_norm": 0.81925768, "learning_rate": 7.728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245673, "epoch": 1.58167543, "global_step/max_steps": "20750/65595", "percentage": "31.63%", "elapsed_time": "23h 27m 39s", "remaining_time": "2d 2h 42m 14s"}
+{"loss": 0.14186528, "token_acc": 0.93978265, "grad_norm": 1.05758977, "learning_rate": 7.727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245679, "epoch": 1.58205656, "global_step/max_steps": "20755/65595", "percentage": "31.64%", "elapsed_time": "23h 27m 57s", "remaining_time": "2d 2h 41m 49s"}
+{"loss": 0.18795115, "token_acc": 0.93363925, "grad_norm": 1.19248426, "learning_rate": 7.726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24569, "epoch": 1.58243769, "global_step/max_steps": "20760/65595", "percentage": "31.65%", "elapsed_time": "23h 28m 14s", "remaining_time": "2d 2h 41m 20s"}
+{"loss": 0.19045873, "token_acc": 0.93217344, "grad_norm": 0.72786999, "learning_rate": 7.725e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245694, "epoch": 1.58281881, "global_step/max_steps": "20765/65595", "percentage": "31.66%", "elapsed_time": "23h 28m 33s", "remaining_time": "2d 2h 40m 57s"}
+{"loss": 0.09919785, "token_acc": 0.95960155, "grad_norm": 0.27436495, "learning_rate": 7.724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245697, "epoch": 1.58319994, "global_step/max_steps": "20770/65595", "percentage": "31.66%", "elapsed_time": "23h 28m 52s", "remaining_time": "2d 2h 40m 35s"}
+{"loss": 0.1049794, "token_acc": 0.95313086, "grad_norm": 1.09754896, "learning_rate": 7.723e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245712, "epoch": 1.58358107, "global_step/max_steps": "20775/65595", "percentage": "31.67%", "elapsed_time": "23h 29m 7s", "remaining_time": "2d 2h 40m 3s"}
+{"loss": 0.16957426, "token_acc": 0.93701914, "grad_norm": 1.31967819, "learning_rate": 7.722e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24572, "epoch": 1.58396219, "global_step/max_steps": "20780/65595", "percentage": "31.68%", "elapsed_time": "23h 29m 25s", "remaining_time": "2d 2h 39m 37s"}
+{"loss": 0.11295986, "token_acc": 0.94554147, "grad_norm": 0.99641067, "learning_rate": 7.721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245733, "epoch": 1.58434332, "global_step/max_steps": "20785/65595", "percentage": "31.69%", "elapsed_time": "23h 29m 41s", "remaining_time": "2d 2h 39m 7s"}
+{"loss": 0.08703321, "token_acc": 0.96780532, "grad_norm": 0.51338941, "learning_rate": 7.72e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245736, "epoch": 1.58472445, "global_step/max_steps": "20790/65595", "percentage": "31.69%", "elapsed_time": "23h 30m 0s", "remaining_time": "2d 2h 38m 45s"}
+{"loss": 0.13606298, "token_acc": 0.94058448, "grad_norm": 1.01794434, "learning_rate": 7.719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245748, "epoch": 1.58510557, "global_step/max_steps": "20795/65595", "percentage": "31.70%", "elapsed_time": "23h 30m 17s", "remaining_time": "2d 2h 38m 15s"}
+{"loss": 0.1287564, "token_acc": 0.94538433, "grad_norm": 0.54803461, "learning_rate": 7.718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245757, "epoch": 1.5854867, "global_step/max_steps": "20800/65595", "percentage": "31.71%", "elapsed_time": "23h 30m 34s", "remaining_time": "2d 2h 37m 48s"}
+{"eval_loss": 0.09927195, "eval_token_acc": 0.95437022, "eval_runtime": 221.4724, "eval_samples_per_second": 2.393, "eval_steps_per_second": 2.393, "epoch": 1.5854867, "global_step/max_steps": "20800/65595", "percentage": "31.71%", "elapsed_time": "23h 34m 15s", "remaining_time": "2d 2h 45m 45s"}
+{"loss": 0.13165523, "token_acc": 0.95423254, "grad_norm": 1.02725446, "learning_rate": 7.717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245124, "epoch": 1.58586783, "global_step/max_steps": "20805/65595", "percentage": "31.72%", "elapsed_time": "23h 34m 33s", "remaining_time": "2d 2h 45m 19s"}
+{"loss": 0.22343884, "token_acc": 0.90918948, "grad_norm": 1.20030844, "learning_rate": 7.716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245137, "epoch": 1.58624895, "global_step/max_steps": "20810/65595", "percentage": "31.72%", "elapsed_time": "23h 34m 48s", "remaining_time": "2d 2h 44m 48s"}
+{"loss": 0.16920464, "token_acc": 0.94180201, "grad_norm": 1.20034564, "learning_rate": 7.715e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245148, "epoch": 1.58663008, "global_step/max_steps": "20815/65595", "percentage": "31.73%", "elapsed_time": "23h 35m 5s", "remaining_time": "2d 2h 44m 20s"}
+{"loss": 0.14751339, "token_acc": 0.94399863, "grad_norm": 1.63641369, "learning_rate": 7.713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245159, "epoch": 1.58701121, "global_step/max_steps": "20820/65595", "percentage": "31.74%", "elapsed_time": "23h 35m 22s", "remaining_time": "2d 2h 43m 51s"}
+{"loss": 0.10106512, "token_acc": 0.95556543, "grad_norm": 1.28554881, "learning_rate": 7.712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245173, "epoch": 1.58739233, "global_step/max_steps": "20825/65595", "percentage": "31.75%", "elapsed_time": "23h 35m 37s", "remaining_time": "2d 2h 43m 20s"}
+{"loss": 0.14033394, "token_acc": 0.95024105, "grad_norm": 1.13493705, "learning_rate": 7.711e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245179, "epoch": 1.58777346, "global_step/max_steps": "20830/65595", "percentage": "31.76%", "elapsed_time": "23h 35m 55s", "remaining_time": "2d 2h 42m 55s"}
+{"loss": 0.11871969, "token_acc": 0.95393353, "grad_norm": 0.7597388, "learning_rate": 7.71e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245189, "epoch": 1.58815458, "global_step/max_steps": "20835/65595", "percentage": "31.76%", "elapsed_time": "23h 36m 12s", "remaining_time": "2d 2h 42m 28s"}
+{"loss": 0.08914567, "token_acc": 0.95836977, "grad_norm": 0.70013672, "learning_rate": 7.709e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245197, "epoch": 1.58853571, "global_step/max_steps": "20840/65595", "percentage": "31.77%", "elapsed_time": "23h 36m 30s", "remaining_time": "2d 2h 42m 2s"}
+{"loss": 0.10207723, "token_acc": 0.96293656, "grad_norm": 0.81922746, "learning_rate": 7.708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24521, "epoch": 1.58891684, "global_step/max_steps": "20845/65595", "percentage": "31.78%", "elapsed_time": "23h 36m 46s", "remaining_time": "2d 2h 41m 31s"}
+{"loss": 0.11911356, "token_acc": 0.95327245, "grad_norm": 0.49139786, "learning_rate": 7.707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245218, "epoch": 1.58929796, "global_step/max_steps": "20850/65595", "percentage": "31.79%", "elapsed_time": "23h 37m 4s", "remaining_time": "2d 2h 41m 5s"}
+{"loss": 0.13822083, "token_acc": 0.95090978, "grad_norm": 0.52632838, "learning_rate": 7.706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245225, "epoch": 1.58967909, "global_step/max_steps": "20855/65595", "percentage": "31.79%", "elapsed_time": "23h 37m 22s", "remaining_time": "2d 2h 40m 40s"}
+{"loss": 0.09559542, "token_acc": 0.95866388, "grad_norm": 0.64413947, "learning_rate": 7.705e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245237, "epoch": 1.59006022, "global_step/max_steps": "20860/65595", "percentage": "31.80%", "elapsed_time": "23h 37m 38s", "remaining_time": "2d 2h 40m 10s"}
+{"loss": 0.08366692, "token_acc": 0.96926714, "grad_norm": 1.03565955, "learning_rate": 7.704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245255, "epoch": 1.59044134, "global_step/max_steps": "20865/65595", "percentage": "31.81%", "elapsed_time": "23h 37m 52s", "remaining_time": "2d 2h 39m 36s"}
+{"loss": 0.13917274, "token_acc": 0.94618713, "grad_norm": 0.69047475, "learning_rate": 7.703e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245258, "epoch": 1.59082247, "global_step/max_steps": "20870/65595", "percentage": "31.82%", "elapsed_time": "23h 38m 11s", "remaining_time": "2d 2h 39m 14s"}
+{"loss": 0.0932772, "token_acc": 0.96653112, "grad_norm": 0.84368187, "learning_rate": 7.702e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245273, "epoch": 1.5912036, "global_step/max_steps": "20875/65595", "percentage": "31.82%", "elapsed_time": "23h 38m 27s", "remaining_time": "2d 2h 38m 42s"}
+{"loss": 0.09700792, "token_acc": 0.95826248, "grad_norm": 0.55421054, "learning_rate": 7.701e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245276, "epoch": 1.59158472, "global_step/max_steps": "20880/65595", "percentage": "31.83%", "elapsed_time": "23h 38m 46s", "remaining_time": "2d 2h 38m 20s"}
+{"loss": 0.1456775, "token_acc": 0.95121951, "grad_norm": 1.12421024, "learning_rate": 7.7e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24529, "epoch": 1.59196585, "global_step/max_steps": "20885/65595", "percentage": "31.84%", "elapsed_time": "23h 39m 1s", "remaining_time": "2d 2h 37m 49s"}
+{"loss": 0.12584343, "token_acc": 0.94865116, "grad_norm": 0.97759604, "learning_rate": 7.699e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245298, "epoch": 1.59234698, "global_step/max_steps": "20890/65595", "percentage": "31.85%", "elapsed_time": "23h 39m 19s", "remaining_time": "2d 2h 37m 23s"}
+{"loss": 0.09772168, "token_acc": 0.94824077, "grad_norm": 0.47661611, "learning_rate": 7.698e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245312, "epoch": 1.5927281, "global_step/max_steps": "20895/65595", "percentage": "31.85%", "elapsed_time": "23h 39m 35s", "remaining_time": "2d 2h 36m 52s"}
+{"loss": 0.09949523, "token_acc": 0.95356738, "grad_norm": 0.94242394, "learning_rate": 7.697e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24532, "epoch": 1.59310923, "global_step/max_steps": "20900/65595", "percentage": "31.86%", "elapsed_time": "23h 39m 52s", "remaining_time": "2d 2h 36m 26s"}
+{"loss": 0.12186434, "token_acc": 0.95647012, "grad_norm": 1.02626312, "learning_rate": 7.696e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245329, "epoch": 1.59349036, "global_step/max_steps": "20905/65595", "percentage": "31.87%", "elapsed_time": "23h 40m 10s", "remaining_time": "2d 2h 35m 59s"}
+{"loss": 0.14736166, "token_acc": 0.94682499, "grad_norm": 0.94969028, "learning_rate": 7.695e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245339, "epoch": 1.59387148, "global_step/max_steps": "20910/65595", "percentage": "31.88%", "elapsed_time": "23h 40m 26s", "remaining_time": "2d 2h 35m 30s"}
+{"loss": 0.13541456, "token_acc": 0.94221475, "grad_norm": 1.10068059, "learning_rate": 7.694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245349, "epoch": 1.59425261, "global_step/max_steps": "20915/65595", "percentage": "31.89%", "elapsed_time": "23h 40m 43s", "remaining_time": "2d 2h 35m 2s"}
+{"loss": 0.10025631, "token_acc": 0.93503567, "grad_norm": 0.78594166, "learning_rate": 7.693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245365, "epoch": 1.59463374, "global_step/max_steps": "20920/65595", "percentage": "31.89%", "elapsed_time": "23h 40m 58s", "remaining_time": "2d 2h 34m 30s"}
+{"loss": 0.13025113, "token_acc": 0.95377049, "grad_norm": 0.84492487, "learning_rate": 7.692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245375, "epoch": 1.59501486, "global_step/max_steps": "20925/65595", "percentage": "31.90%", "elapsed_time": "23h 41m 15s", "remaining_time": "2d 2h 34m 2s"}
+{"loss": 0.11162058, "token_acc": 0.96541075, "grad_norm": 1.17833257, "learning_rate": 7.691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245382, "epoch": 1.59539599, "global_step/max_steps": "20930/65595", "percentage": "31.91%", "elapsed_time": "23h 41m 33s", "remaining_time": "2d 2h 33m 37s"}
+{"loss": 0.12972507, "token_acc": 0.95306859, "grad_norm": 0.66565841, "learning_rate": 7.69e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24538, "epoch": 1.59577712, "global_step/max_steps": "20935/65595", "percentage": "31.92%", "elapsed_time": "23h 41m 54s", "remaining_time": "2d 2h 33m 18s"}
+{"loss": 0.13031409, "token_acc": 0.94636429, "grad_norm": 1.31542182, "learning_rate": 7.689e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245396, "epoch": 1.59615824, "global_step/max_steps": "20940/65595", "percentage": "31.92%", "elapsed_time": "23h 42m 9s", "remaining_time": "2d 2h 32m 46s"}
+{"loss": 0.08854465, "token_acc": 0.96264039, "grad_norm": 1.03002656, "learning_rate": 7.688e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245407, "epoch": 1.59653937, "global_step/max_steps": "20945/65595", "percentage": "31.93%", "elapsed_time": "23h 42m 25s", "remaining_time": "2d 2h 32m 18s"}
+{"loss": 0.12869787, "token_acc": 0.95972532, "grad_norm": 0.49149308, "learning_rate": 7.687e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245418, "epoch": 1.5969205, "global_step/max_steps": "20950/65595", "percentage": "31.94%", "elapsed_time": "23h 42m 42s", "remaining_time": "2d 2h 31m 49s"}
+{"loss": 0.11275973, "token_acc": 0.94557235, "grad_norm": 0.81840563, "learning_rate": 7.686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245435, "epoch": 1.59730162, "global_step/max_steps": "20955/65595", "percentage": "31.95%", "elapsed_time": "23h 42m 56s", "remaining_time": "2d 2h 31m 16s"}
+{"loss": 0.17386572, "token_acc": 0.92758621, "grad_norm": 0.71821457, "learning_rate": 7.685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245449, "epoch": 1.59768275, "global_step/max_steps": "20960/65595", "percentage": "31.95%", "elapsed_time": "23h 43m 12s", "remaining_time": "2d 2h 30m 45s"}
+{"loss": 0.13016615, "token_acc": 0.96028689, "grad_norm": 1.16007888, "learning_rate": 7.684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245453, "epoch": 1.59806388, "global_step/max_steps": "20965/65595", "percentage": "31.96%", "elapsed_time": "23h 43m 31s", "remaining_time": "2d 2h 30m 22s"}
+{"loss": 0.10327139, "token_acc": 0.96443323, "grad_norm": 1.7993288, "learning_rate": 7.683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245467, "epoch": 1.598445, "global_step/max_steps": "20970/65595", "percentage": "31.97%", "elapsed_time": "23h 43m 46s", "remaining_time": "2d 2h 29m 51s"}
+{"loss": 0.13669487, "token_acc": 0.93611794, "grad_norm": 0.60497385, "learning_rate": 7.682e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245486, "epoch": 1.59882613, "global_step/max_steps": "20975/65595", "percentage": "31.98%", "elapsed_time": "23h 44m 0s", "remaining_time": "2d 2h 29m 17s"}
+{"loss": 0.14166605, "token_acc": 0.94476116, "grad_norm": 0.98015881, "learning_rate": 7.681e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2455, "epoch": 1.59920726, "global_step/max_steps": "20980/65595", "percentage": "31.98%", "elapsed_time": "23h 44m 16s", "remaining_time": "2d 2h 28m 46s"}
+{"loss": 0.1360662, "token_acc": 0.93900233, "grad_norm": 1.55807376, "learning_rate": 7.68e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245513, "epoch": 1.59958838, "global_step/max_steps": "20985/65595", "percentage": "31.99%", "elapsed_time": "23h 44m 31s", "remaining_time": "2d 2h 28m 16s"}
+{"loss": 0.1084111, "token_acc": 0.95726718, "grad_norm": 0.99778885, "learning_rate": 7.679e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245516, "epoch": 1.59996951, "global_step/max_steps": "20990/65595", "percentage": "32.00%", "elapsed_time": "23h 44m 51s", "remaining_time": "2d 2h 27m 54s"}
+{"loss": 0.1565414, "token_acc": 0.92875989, "grad_norm": 1.0153631, "learning_rate": 7.678e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245532, "epoch": 1.60035064, "global_step/max_steps": "20995/65595", "percentage": "32.01%", "elapsed_time": "23h 45m 5s", "remaining_time": "2d 2h 27m 21s"}
+{"loss": 0.13278649, "token_acc": 0.95050847, "grad_norm": 1.21071899, "learning_rate": 7.677e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245544, "epoch": 1.60073176, "global_step/max_steps": "21000/65595", "percentage": "32.01%", "elapsed_time": "23h 45m 22s", "remaining_time": "2d 2h 26m 52s"}
+{"eval_loss": 0.10052027, "eval_token_acc": 0.95473164, "eval_runtime": 223.829, "eval_samples_per_second": 2.368, "eval_steps_per_second": 2.368, "epoch": 1.60073176, "global_step/max_steps": "21000/65595", "percentage": "32.01%", "elapsed_time": "23h 49m 6s", "remaining_time": "2d 2h 34m 47s"}
+{"loss": 0.14723406, "token_acc": 0.95423689, "grad_norm": 1.12233675, "learning_rate": 7.676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244907, "epoch": 1.60111289, "global_step/max_steps": "21005/65595", "percentage": "32.02%", "elapsed_time": "23h 49m 24s", "remaining_time": "2d 2h 34m 24s"}
+{"loss": 0.16861165, "token_acc": 0.94388703, "grad_norm": 0.75435334, "learning_rate": 7.675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244917, "epoch": 1.60149402, "global_step/max_steps": "21010/65595", "percentage": "32.03%", "elapsed_time": "23h 49m 41s", "remaining_time": "2d 2h 33m 56s"}
+{"loss": 0.1372962, "token_acc": 0.94356748, "grad_norm": 0.7721653, "learning_rate": 7.674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244926, "epoch": 1.60187514, "global_step/max_steps": "21015/65595", "percentage": "32.04%", "elapsed_time": "23h 49m 59s", "remaining_time": "2d 2h 33m 29s"}
+{"loss": 0.15076132, "token_acc": 0.94146127, "grad_norm": 1.13258028, "learning_rate": 7.673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244936, "epoch": 1.60225627, "global_step/max_steps": "21020/65595", "percentage": "32.05%", "elapsed_time": "23h 50m 16s", "remaining_time": "2d 2h 33m 1s"}
+{"loss": 0.14036764, "token_acc": 0.94680471, "grad_norm": 0.99136752, "learning_rate": 7.672e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24494, "epoch": 1.6026374, "global_step/max_steps": "21025/65595", "percentage": "32.05%", "elapsed_time": "23h 50m 35s", "remaining_time": "2d 2h 32m 38s"}
+{"loss": 0.0978962, "token_acc": 0.96012356, "grad_norm": 0.44073299, "learning_rate": 7.671e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244946, "epoch": 1.60301852, "global_step/max_steps": "21030/65595", "percentage": "32.06%", "elapsed_time": "23h 50m 53s", "remaining_time": "2d 2h 32m 13s"}
+{"loss": 0.11151365, "token_acc": 0.94931009, "grad_norm": 0.62901795, "learning_rate": 7.67e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24495, "epoch": 1.60339965, "global_step/max_steps": "21035/65595", "percentage": "32.07%", "elapsed_time": "23h 51m 12s", "remaining_time": "2d 2h 31m 49s"}
+{"loss": 0.11002825, "token_acc": 0.95340642, "grad_norm": 1.03701901, "learning_rate": 7.669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244958, "epoch": 1.60378078, "global_step/max_steps": "21040/65595", "percentage": "32.08%", "elapsed_time": "23h 51m 29s", "remaining_time": "2d 2h 31m 23s"}
+{"loss": 0.1240643, "token_acc": 0.95235995, "grad_norm": 0.71129769, "learning_rate": 7.668e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244965, "epoch": 1.6041619, "global_step/max_steps": "21045/65595", "percentage": "32.08%", "elapsed_time": "23h 51m 47s", "remaining_time": "2d 2h 30m 57s"}
+{"loss": 0.12746643, "token_acc": 0.95085432, "grad_norm": 0.5956043, "learning_rate": 7.667e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244975, "epoch": 1.60454303, "global_step/max_steps": "21050/65595", "percentage": "32.09%", "elapsed_time": "23h 52m 4s", "remaining_time": "2d 2h 30m 30s"}
+{"loss": 0.12154607, "token_acc": 0.9459707, "grad_norm": 0.85442829, "learning_rate": 7.666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244977, "epoch": 1.60492416, "global_step/max_steps": "21055/65595", "percentage": "32.10%", "elapsed_time": "23h 52m 24s", "remaining_time": "2d 2h 30m 8s"}
+{"loss": 0.11159723, "token_acc": 0.94914156, "grad_norm": 0.56051803, "learning_rate": 7.665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244987, "epoch": 1.60530528, "global_step/max_steps": "21060/65595", "percentage": "32.11%", "elapsed_time": "23h 52m 41s", "remaining_time": "2d 2h 29m 40s"}
+{"loss": 0.11699114, "token_acc": 0.95761359, "grad_norm": 0.9872449, "learning_rate": 7.664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244992, "epoch": 1.60568641, "global_step/max_steps": "21065/65595", "percentage": "32.11%", "elapsed_time": "23h 53m 0s", "remaining_time": "2d 2h 29m 16s"}
+{"loss": 0.14478111, "token_acc": 0.94299635, "grad_norm": 0.49230552, "learning_rate": 7.663e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245007, "epoch": 1.60606754, "global_step/max_steps": "21070/65595", "percentage": "32.12%", "elapsed_time": "23h 53m 15s", "remaining_time": "2d 2h 28m 44s"}
+{"loss": 0.11040792, "token_acc": 0.95216741, "grad_norm": 1.11271679, "learning_rate": 7.662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245016, "epoch": 1.60644866, "global_step/max_steps": "21075/65595", "percentage": "32.13%", "elapsed_time": "23h 53m 32s", "remaining_time": "2d 2h 28m 17s"}
+{"loss": 0.15012605, "token_acc": 0.94287834, "grad_norm": 0.57777244, "learning_rate": 7.661e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245021, "epoch": 1.60682979, "global_step/max_steps": "21080/65595", "percentage": "32.14%", "elapsed_time": "23h 53m 51s", "remaining_time": "2d 2h 27m 53s"}
+{"loss": 0.11430568, "token_acc": 0.94760368, "grad_norm": 0.96724987, "learning_rate": 7.66e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245036, "epoch": 1.60721092, "global_step/max_steps": "21085/65595", "percentage": "32.14%", "elapsed_time": "23h 54m 6s", "remaining_time": "2d 2h 27m 21s"}
+{"loss": 0.15256858, "token_acc": 0.94397607, "grad_norm": 1.22344995, "learning_rate": 7.659e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245051, "epoch": 1.60759204, "global_step/max_steps": "21090/65595", "percentage": "32.15%", "elapsed_time": "23h 54m 21s", "remaining_time": "2d 2h 26m 50s"}
+{"loss": 0.16777536, "token_acc": 0.93155051, "grad_norm": 1.2616905, "learning_rate": 7.658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245049, "epoch": 1.60797317, "global_step/max_steps": "21095/65595", "percentage": "32.16%", "elapsed_time": "23h 54m 42s", "remaining_time": "2d 2h 26m 31s"}
+{"loss": 0.15341413, "token_acc": 0.96088374, "grad_norm": 1.09312141, "learning_rate": 7.657e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245055, "epoch": 1.6083543, "global_step/max_steps": "21100/65595", "percentage": "32.17%", "elapsed_time": "23h 55m 0s", "remaining_time": "2d 2h 26m 6s"}
+{"loss": 0.09863582, "token_acc": 0.95520747, "grad_norm": 1.54413295, "learning_rate": 7.656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245071, "epoch": 1.60873542, "global_step/max_steps": "21105/65595", "percentage": "32.17%", "elapsed_time": "23h 55m 15s", "remaining_time": "2d 2h 25m 34s"}
+{"loss": 0.12964113, "token_acc": 0.96240349, "grad_norm": 0.91674703, "learning_rate": 7.655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245084, "epoch": 1.60911655, "global_step/max_steps": "21110/65595", "percentage": "32.18%", "elapsed_time": "23h 55m 31s", "remaining_time": "2d 2h 25m 4s"}
+{"loss": 0.14738547, "token_acc": 0.94729445, "grad_norm": 1.90550208, "learning_rate": 7.654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245097, "epoch": 1.60949768, "global_step/max_steps": "21115/65595", "percentage": "32.19%", "elapsed_time": "23h 55m 47s", "remaining_time": "2d 2h 24m 34s"}
+{"loss": 0.14407828, "token_acc": 0.94695737, "grad_norm": 1.15016103, "learning_rate": 7.653e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245103, "epoch": 1.6098788, "global_step/max_steps": "21120/65595", "percentage": "32.20%", "elapsed_time": "23h 56m 5s", "remaining_time": "2d 2h 24m 9s"}
+{"loss": 0.10268464, "token_acc": 0.96545598, "grad_norm": 0.43110827, "learning_rate": 7.652e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245112, "epoch": 1.61025993, "global_step/max_steps": "21125/65595", "percentage": "32.21%", "elapsed_time": "23h 56m 22s", "remaining_time": "2d 2h 23m 42s"}
+{"loss": 0.13145983, "token_acc": 0.94930093, "grad_norm": 0.80452853, "learning_rate": 7.651e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245117, "epoch": 1.61064105, "global_step/max_steps": "21130/65595", "percentage": "32.21%", "elapsed_time": "23h 56m 41s", "remaining_time": "2d 2h 23m 18s"}
+{"loss": 0.13181719, "token_acc": 0.96202963, "grad_norm": 0.57022232, "learning_rate": 7.65e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245124, "epoch": 1.61102218, "global_step/max_steps": "21135/65595", "percentage": "32.22%", "elapsed_time": "23h 56m 59s", "remaining_time": "2d 2h 22m 53s"}
+{"loss": 0.13570324, "token_acc": 0.95955056, "grad_norm": 0.83352774, "learning_rate": 7.649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245133, "epoch": 1.61140331, "global_step/max_steps": "21140/65595", "percentage": "32.23%", "elapsed_time": "23h 57m 16s", "remaining_time": "2d 2h 22m 25s"}
+{"loss": 0.12880214, "token_acc": 0.95262975, "grad_norm": 0.76730508, "learning_rate": 7.648e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245147, "epoch": 1.61178443, "global_step/max_steps": "21145/65595", "percentage": "32.24%", "elapsed_time": "23h 57m 32s", "remaining_time": "2d 2h 21m 55s"}
+{"loss": 0.14881077, "token_acc": 0.94313638, "grad_norm": 1.23970747, "learning_rate": 7.647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245165, "epoch": 1.61216556, "global_step/max_steps": "21150/65595", "percentage": "32.24%", "elapsed_time": "23h 57m 46s", "remaining_time": "2d 2h 21m 21s"}
+{"loss": 0.10398996, "token_acc": 0.95600291, "grad_norm": 0.63712221, "learning_rate": 7.646e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245159, "epoch": 1.61254669, "global_step/max_steps": "21155/65595", "percentage": "32.25%", "elapsed_time": "23h 58m 8s", "remaining_time": "2d 2h 21m 5s"}
+{"loss": 0.14142325, "token_acc": 0.94771829, "grad_norm": 0.7567845, "learning_rate": 7.645e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24517, "epoch": 1.61292781, "global_step/max_steps": "21160/65595", "percentage": "32.26%", "elapsed_time": "23h 58m 25s", "remaining_time": "2d 2h 20m 37s"}
+{"loss": 0.13432736, "token_acc": 0.9485326, "grad_norm": 0.57506526, "learning_rate": 7.644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245172, "epoch": 1.61330894, "global_step/max_steps": "21165/65595", "percentage": "32.27%", "elapsed_time": "23h 58m 44s", "remaining_time": "2d 2h 20m 14s"}
+{"loss": 0.11795874, "token_acc": 0.95544486, "grad_norm": 0.78442764, "learning_rate": 7.643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245175, "epoch": 1.61369007, "global_step/max_steps": "21170/65595", "percentage": "32.27%", "elapsed_time": "23h 59m 4s", "remaining_time": "2d 2h 19m 52s"}
+{"loss": 0.13315728, "token_acc": 0.94430119, "grad_norm": 0.51346403, "learning_rate": 7.642e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245183, "epoch": 1.61407119, "global_step/max_steps": "21175/65595", "percentage": "32.28%", "elapsed_time": "23h 59m 21s", "remaining_time": "2d 2h 19m 25s"}
+{"loss": 0.07707971, "token_acc": 0.96814796, "grad_norm": 0.87940711, "learning_rate": 7.641e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245197, "epoch": 1.61445232, "global_step/max_steps": "21180/65595", "percentage": "32.29%", "elapsed_time": "23h 59m 37s", "remaining_time": "2d 2h 18m 55s"}
+{"loss": 0.14568167, "token_acc": 0.94734797, "grad_norm": 1.70587456, "learning_rate": 7.64e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245206, "epoch": 1.61483345, "global_step/max_steps": "21185/65595", "percentage": "32.30%", "elapsed_time": "23h 59m 54s", "remaining_time": "2d 2h 18m 28s"}
+{"loss": 0.11351219, "token_acc": 0.94923229, "grad_norm": 0.96092731, "learning_rate": 7.639e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245217, "epoch": 1.61521457, "global_step/max_steps": "21190/65595", "percentage": "32.30%", "elapsed_time": "1d 0h 0m 11s", "remaining_time": "2d 2h 18m 0s"}
+{"loss": 0.16005042, "token_acc": 0.94438947, "grad_norm": 1.1888634, "learning_rate": 7.638e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245225, "epoch": 1.6155957, "global_step/max_steps": "21195/65595", "percentage": "32.31%", "elapsed_time": "1d 0h 0m 28s", "remaining_time": "2d 2h 17m 33s"}
+{"loss": 0.09423257, "token_acc": 0.96241497, "grad_norm": 0.73896837, "learning_rate": 7.637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245232, "epoch": 1.61597683, "global_step/max_steps": "21200/65595", "percentage": "32.32%", "elapsed_time": "1d 0h 0m 46s", "remaining_time": "2d 2h 17m 8s"}
+{"eval_loss": 0.099006, "eval_token_acc": 0.95475423, "eval_runtime": 220.2684, "eval_samples_per_second": 2.406, "eval_steps_per_second": 2.406, "epoch": 1.61597683, "global_step/max_steps": "21200/65595", "percentage": "32.32%", "elapsed_time": "1d 0h 4m 26s", "remaining_time": "2d 2h 24m 49s"}
+{"loss": 0.12860978, "token_acc": 0.95464321, "grad_norm": 1.36290777, "learning_rate": 7.636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244627, "epoch": 1.61635795, "global_step/max_steps": "21205/65595", "percentage": "32.33%", "elapsed_time": "1d 0h 4m 40s", "remaining_time": "2d 2h 24m 15s"}
+{"loss": 0.112965, "token_acc": 0.95271164, "grad_norm": 1.04192626, "learning_rate": 7.635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244632, "epoch": 1.61673908, "global_step/max_steps": "21210/65595", "percentage": "32.33%", "elapsed_time": "1d 0h 4m 59s", "remaining_time": "2d 2h 23m 51s"}
+{"loss": 0.10281253, "token_acc": 0.96983977, "grad_norm": 0.4977527, "learning_rate": 7.634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244642, "epoch": 1.61712021, "global_step/max_steps": "21215/65595", "percentage": "32.34%", "elapsed_time": "1d 0h 5m 16s", "remaining_time": "2d 2h 23m 23s"}
+{"loss": 0.09547774, "token_acc": 0.96166134, "grad_norm": 0.5361588, "learning_rate": 7.633e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244645, "epoch": 1.61750133, "global_step/max_steps": "21220/65595", "percentage": "32.35%", "elapsed_time": "1d 0h 5m 35s", "remaining_time": "2d 2h 23m 0s"}
+{"loss": 0.12309856, "token_acc": 0.95998391, "grad_norm": 0.85898006, "learning_rate": 7.632e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244656, "epoch": 1.61788246, "global_step/max_steps": "21225/65595", "percentage": "32.36%", "elapsed_time": "1d 0h 5m 52s", "remaining_time": "2d 2h 22m 32s"}
+{"loss": 0.11287986, "token_acc": 0.9579906, "grad_norm": 0.89871383, "learning_rate": 7.631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244658, "epoch": 1.61826359, "global_step/max_steps": "21230/65595", "percentage": "32.37%", "elapsed_time": "1d 0h 6m 12s", "remaining_time": "2d 2h 22m 10s"}
+{"loss": 0.09903316, "token_acc": 0.95718654, "grad_norm": 0.57751417, "learning_rate": 7.629e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244667, "epoch": 1.61864471, "global_step/max_steps": "21235/65595", "percentage": "32.37%", "elapsed_time": "1d 0h 6m 29s", "remaining_time": "2d 2h 21m 43s"}
+{"loss": 0.0957225, "token_acc": 0.95840868, "grad_norm": 0.79588765, "learning_rate": 7.628e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244684, "epoch": 1.61902584, "global_step/max_steps": "21240/65595", "percentage": "32.38%", "elapsed_time": "1d 0h 6m 43s", "remaining_time": "2d 2h 21m 9s"}
+{"loss": 0.07642971, "token_acc": 0.96658774, "grad_norm": 1.75698817, "learning_rate": 7.627e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244701, "epoch": 1.61940697, "global_step/max_steps": "21245/65595", "percentage": "32.39%", "elapsed_time": "1d 0h 6m 57s", "remaining_time": "2d 2h 20m 36s"}
+{"loss": 0.12150869, "token_acc": 0.95415308, "grad_norm": 1.42206645, "learning_rate": 7.626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24471, "epoch": 1.61978809, "global_step/max_steps": "21250/65595", "percentage": "32.40%", "elapsed_time": "1d 0h 7m 15s", "remaining_time": "2d 2h 20m 9s"}
+{"loss": 0.14630979, "token_acc": 0.93360476, "grad_norm": 1.12062705, "learning_rate": 7.625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244727, "epoch": 1.62016922, "global_step/max_steps": "21255/65595", "percentage": "32.40%", "elapsed_time": "1d 0h 7m 29s", "remaining_time": "2d 2h 19m 36s"}
+{"loss": 0.11858011, "token_acc": 0.95689166, "grad_norm": 0.76494747, "learning_rate": 7.624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24474, "epoch": 1.62055035, "global_step/max_steps": "21260/65595", "percentage": "32.41%", "elapsed_time": "1d 0h 7m 45s", "remaining_time": "2d 2h 19m 6s"}
+{"loss": 0.14061179, "token_acc": 0.9502455, "grad_norm": 0.64530629, "learning_rate": 7.623e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244755, "epoch": 1.62093147, "global_step/max_steps": "21265/65595", "percentage": "32.42%", "elapsed_time": "1d 0h 8m 0s", "remaining_time": "2d 2h 18m 35s"}
+{"loss": 0.07057216, "token_acc": 0.96765146, "grad_norm": 0.58560085, "learning_rate": 7.622e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244761, "epoch": 1.6213126, "global_step/max_steps": "21270/65595", "percentage": "32.43%", "elapsed_time": "1d 0h 8m 18s", "remaining_time": "2d 2h 18m 10s"}
+{"loss": 0.13694563, "token_acc": 0.95426576, "grad_norm": 0.81958002, "learning_rate": 7.621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24477, "epoch": 1.62169373, "global_step/max_steps": "21275/65595", "percentage": "32.43%", "elapsed_time": "1d 0h 8m 35s", "remaining_time": "2d 2h 17m 42s"}
+{"loss": 0.17227634, "token_acc": 0.94285153, "grad_norm": 1.15517616, "learning_rate": 7.62e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244781, "epoch": 1.62207485, "global_step/max_steps": "21280/65595", "percentage": "32.44%", "elapsed_time": "1d 0h 8m 52s", "remaining_time": "2d 2h 17m 14s"}
+{"loss": 0.1274815, "token_acc": 0.95463634, "grad_norm": 0.61819434, "learning_rate": 7.619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244779, "epoch": 1.62245598, "global_step/max_steps": "21285/65595", "percentage": "32.45%", "elapsed_time": "1d 0h 9m 13s", "remaining_time": "2d 2h 16m 55s"}
+{"loss": 0.13015434, "token_acc": 0.95245684, "grad_norm": 0.76846772, "learning_rate": 7.618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244777, "epoch": 1.62283711, "global_step/max_steps": "21290/65595", "percentage": "32.46%", "elapsed_time": "1d 0h 9m 34s", "remaining_time": "2d 2h 16m 37s"}
+{"loss": 0.10601391, "token_acc": 0.95844995, "grad_norm": 0.8061924, "learning_rate": 7.617e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244789, "epoch": 1.62321823, "global_step/max_steps": "21295/65595", "percentage": "32.46%", "elapsed_time": "1d 0h 9m 50s", "remaining_time": "2d 2h 16m 7s"}
+{"loss": 0.10014997, "token_acc": 0.96499788, "grad_norm": 0.9281866, "learning_rate": 7.616e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244799, "epoch": 1.62359936, "global_step/max_steps": "21300/65595", "percentage": "32.47%", "elapsed_time": "1d 0h 10m 7s", "remaining_time": "2d 2h 15m 39s"}
+{"loss": 0.10963995, "token_acc": 0.94834848, "grad_norm": 0.74927896, "learning_rate": 7.615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244811, "epoch": 1.62398049, "global_step/max_steps": "21305/65595", "percentage": "32.48%", "elapsed_time": "1d 0h 10m 24s", "remaining_time": "2d 2h 15m 10s"}
+{"loss": 0.14610195, "token_acc": 0.95379823, "grad_norm": 1.15770936, "learning_rate": 7.614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244816, "epoch": 1.62436161, "global_step/max_steps": "21310/65595", "percentage": "32.49%", "elapsed_time": "1d 0h 10m 42s", "remaining_time": "2d 2h 14m 46s"}
+{"loss": 0.16041843, "token_acc": 0.93656032, "grad_norm": 1.37020802, "learning_rate": 7.613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244826, "epoch": 1.62474274, "global_step/max_steps": "21315/65595", "percentage": "32.49%", "elapsed_time": "1d 0h 10m 59s", "remaining_time": "2d 2h 14m 18s"}
+{"loss": 0.1253064, "token_acc": 0.95555556, "grad_norm": 0.68090814, "learning_rate": 7.612e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244838, "epoch": 1.62512387, "global_step/max_steps": "21320/65595", "percentage": "32.50%", "elapsed_time": "1d 0h 11m 15s", "remaining_time": "2d 2h 13m 49s"}
+{"loss": 0.11356705, "token_acc": 0.94795399, "grad_norm": 0.99846101, "learning_rate": 7.611e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244847, "epoch": 1.62550499, "global_step/max_steps": "21325/65595", "percentage": "32.51%", "elapsed_time": "1d 0h 11m 33s", "remaining_time": "2d 2h 13m 22s"}
+{"loss": 0.11254376, "token_acc": 0.95861702, "grad_norm": 3.0776031, "learning_rate": 7.61e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244844, "epoch": 1.62588612, "global_step/max_steps": "21330/65595", "percentage": "32.52%", "elapsed_time": "1d 0h 11m 54s", "remaining_time": "2d 2h 13m 3s"}
+{"loss": 0.10457343, "token_acc": 0.9453387, "grad_norm": 1.12021101, "learning_rate": 7.609e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244851, "epoch": 1.62626725, "global_step/max_steps": "21335/65595", "percentage": "32.53%", "elapsed_time": "1d 0h 12m 12s", "remaining_time": "2d 2h 12m 38s"}
+{"loss": 0.14262826, "token_acc": 0.94184094, "grad_norm": 1.02350712, "learning_rate": 7.608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244858, "epoch": 1.62664837, "global_step/max_steps": "21340/65595", "percentage": "32.53%", "elapsed_time": "1d 0h 12m 30s", "remaining_time": "2d 2h 12m 12s"}
+{"loss": 0.12768438, "token_acc": 0.96076666, "grad_norm": 0.72618788, "learning_rate": 7.607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244865, "epoch": 1.6270295, "global_step/max_steps": "21345/65595", "percentage": "32.54%", "elapsed_time": "1d 0h 12m 48s", "remaining_time": "2d 2h 11m 47s"}
+{"loss": 0.08540889, "token_acc": 0.96704658, "grad_norm": 0.9381395, "learning_rate": 7.606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244879, "epoch": 1.62741063, "global_step/max_steps": "21350/65595", "percentage": "32.55%", "elapsed_time": "1d 0h 13m 3s", "remaining_time": "2d 2h 11m 16s"}
+{"loss": 0.10020071, "token_acc": 0.95132743, "grad_norm": 1.24094367, "learning_rate": 7.605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244889, "epoch": 1.62779175, "global_step/max_steps": "21355/65595", "percentage": "32.56%", "elapsed_time": "1d 0h 13m 20s", "remaining_time": "2d 2h 10m 48s"}
+{"loss": 0.16432667, "token_acc": 0.93722279, "grad_norm": 0.80865628, "learning_rate": 7.604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244904, "epoch": 1.62817288, "global_step/max_steps": "21360/65595", "percentage": "32.56%", "elapsed_time": "1d 0h 13m 35s", "remaining_time": "2d 2h 10m 16s"}
+{"loss": 0.1711731, "token_acc": 0.92934111, "grad_norm": 1.02287745, "learning_rate": 7.603e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244913, "epoch": 1.62855401, "global_step/max_steps": "21365/65595", "percentage": "32.57%", "elapsed_time": "1d 0h 13m 52s", "remaining_time": "2d 2h 9m 50s"}
+{"loss": 0.10213819, "token_acc": 0.96091371, "grad_norm": 0.88383442, "learning_rate": 7.602e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244922, "epoch": 1.62893513, "global_step/max_steps": "21370/65595", "percentage": "32.58%", "elapsed_time": "1d 0h 14m 10s", "remaining_time": "2d 2h 9m 23s"}
+{"loss": 0.11761379, "token_acc": 0.95232029, "grad_norm": 0.98521447, "learning_rate": 7.601e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244931, "epoch": 1.62931626, "global_step/max_steps": "21375/65595", "percentage": "32.59%", "elapsed_time": "1d 0h 14m 27s", "remaining_time": "2d 2h 8m 55s"}
+{"loss": 0.1293774, "token_acc": 0.95249152, "grad_norm": 1.0813421, "learning_rate": 7.6e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244939, "epoch": 1.62969739, "global_step/max_steps": "21380/65595", "percentage": "32.59%", "elapsed_time": "1d 0h 14m 44s", "remaining_time": "2d 2h 8m 29s"}
+{"loss": 0.13756983, "token_acc": 0.94503435, "grad_norm": 1.38740265, "learning_rate": 7.599e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244953, "epoch": 1.63007851, "global_step/max_steps": "21385/65595", "percentage": "32.60%", "elapsed_time": "1d 0h 15m 0s", "remaining_time": "2d 2h 7m 59s"}
+{"loss": 0.13523531, "token_acc": 0.95744681, "grad_norm": 0.475559, "learning_rate": 7.598e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244956, "epoch": 1.63045964, "global_step/max_steps": "21390/65595", "percentage": "32.61%", "elapsed_time": "1d 0h 15m 19s", "remaining_time": "2d 2h 7m 36s"}
+{"loss": 0.14328678, "token_acc": 0.94754653, "grad_norm": 0.87068492, "learning_rate": 7.597e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244968, "epoch": 1.63084077, "global_step/max_steps": "21395/65595", "percentage": "32.62%", "elapsed_time": "1d 0h 15m 35s", "remaining_time": "2d 2h 7m 7s"}
+{"loss": 0.12998691, "token_acc": 0.94170137, "grad_norm": 0.77762288, "learning_rate": 7.596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244982, "epoch": 1.63122189, "global_step/max_steps": "21400/65595", "percentage": "32.62%", "elapsed_time": "1d 0h 15m 51s", "remaining_time": "2d 2h 6m 36s"}
+{"eval_loss": 0.10011614, "eval_token_acc": 0.9545434, "eval_runtime": 182.1958, "eval_samples_per_second": 2.909, "eval_steps_per_second": 2.909, "epoch": 1.63122189, "global_step/max_steps": "21400/65595", "percentage": "32.62%", "elapsed_time": "1d 0h 18m 53s", "remaining_time": "2d 2h 12m 52s"}
+{"loss": 0.16309923, "token_acc": 0.95426508, "grad_norm": 0.80670702, "learning_rate": 7.595e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244477, "epoch": 1.63160302, "global_step/max_steps": "21405/65595", "percentage": "32.63%", "elapsed_time": "1d 0h 19m 11s", "remaining_time": "2d 2h 12m 28s"}
+{"loss": 0.12093263, "token_acc": 0.94931362, "grad_norm": 0.85280859, "learning_rate": 7.594e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244493, "epoch": 1.63198415, "global_step/max_steps": "21410/65595", "percentage": "32.64%", "elapsed_time": "1d 0h 19m 26s", "remaining_time": "2d 2h 11m 56s"}
+{"loss": 0.14022598, "token_acc": 0.94228504, "grad_norm": 1.3266654, "learning_rate": 7.593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244509, "epoch": 1.63236527, "global_step/max_steps": "21415/65595", "percentage": "32.65%", "elapsed_time": "1d 0h 19m 41s", "remaining_time": "2d 2h 11m 24s"}
+{"loss": 0.11454126, "token_acc": 0.94662748, "grad_norm": 0.69502473, "learning_rate": 7.592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244517, "epoch": 1.6327464, "global_step/max_steps": "21420/65595", "percentage": "32.65%", "elapsed_time": "1d 0h 19m 59s", "remaining_time": "2d 2h 10m 57s"}
+{"loss": 0.1062153, "token_acc": 0.95221066, "grad_norm": 0.5531618, "learning_rate": 7.591e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244522, "epoch": 1.63312752, "global_step/max_steps": "21425/65595", "percentage": "32.66%", "elapsed_time": "1d 0h 20m 17s", "remaining_time": "2d 2h 10m 33s"}
+{"loss": 0.154049, "token_acc": 0.94021739, "grad_norm": 0.81010586, "learning_rate": 7.59e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244529, "epoch": 1.63350865, "global_step/max_steps": "21430/65595", "percentage": "32.67%", "elapsed_time": "1d 0h 20m 35s", "remaining_time": "2d 2h 10m 7s"}
+{"loss": 0.17058294, "token_acc": 0.93098064, "grad_norm": 1.55369079, "learning_rate": 7.589e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244542, "epoch": 1.63388978, "global_step/max_steps": "21435/65595", "percentage": "32.68%", "elapsed_time": "1d 0h 20m 51s", "remaining_time": "2d 2h 9m 37s"}
+{"loss": 0.0901265, "token_acc": 0.96945379, "grad_norm": 0.71139824, "learning_rate": 7.588e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244554, "epoch": 1.6342709, "global_step/max_steps": "21440/65595", "percentage": "32.69%", "elapsed_time": "1d 0h 21m 7s", "remaining_time": "2d 2h 9m 8s"}
+{"loss": 0.16844895, "token_acc": 0.93983592, "grad_norm": 0.97564971, "learning_rate": 7.587e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244562, "epoch": 1.63465203, "global_step/max_steps": "21445/65595", "percentage": "32.69%", "elapsed_time": "1d 0h 21m 25s", "remaining_time": "2d 2h 8m 42s"}
+{"loss": 0.15703319, "token_acc": 0.93851762, "grad_norm": 1.07659197, "learning_rate": 7.586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244573, "epoch": 1.63503316, "global_step/max_steps": "21450/65595", "percentage": "32.70%", "elapsed_time": "1d 0h 21m 41s", "remaining_time": "2d 2h 8m 13s"}
+{"loss": 0.1174579, "token_acc": 0.95553169, "grad_norm": 0.65994596, "learning_rate": 7.585e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244584, "epoch": 1.63541428, "global_step/max_steps": "21455/65595", "percentage": "32.71%", "elapsed_time": "1d 0h 21m 58s", "remaining_time": "2d 2h 7m 45s"}
+{"loss": 0.14805114, "token_acc": 0.93555046, "grad_norm": 0.62989825, "learning_rate": 7.584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244594, "epoch": 1.63579541, "global_step/max_steps": "21460/65595", "percentage": "32.72%", "elapsed_time": "1d 0h 22m 14s", "remaining_time": "2d 2h 7m 17s"}
+{"loss": 0.07657911, "token_acc": 0.95847287, "grad_norm": 0.81385088, "learning_rate": 7.582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244603, "epoch": 1.63617654, "global_step/max_steps": "21465/65595", "percentage": "32.72%", "elapsed_time": "1d 0h 22m 32s", "remaining_time": "2d 2h 6m 50s"}
+{"loss": 0.13010582, "token_acc": 0.95653749, "grad_norm": 1.07015443, "learning_rate": 7.581e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244612, "epoch": 1.63655766, "global_step/max_steps": "21470/65595", "percentage": "32.73%", "elapsed_time": "1d 0h 22m 49s", "remaining_time": "2d 2h 6m 23s"}
+{"loss": 0.11193018, "token_acc": 0.95556282, "grad_norm": 0.73323977, "learning_rate": 7.58e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244615, "epoch": 1.63693879, "global_step/max_steps": "21475/65595", "percentage": "32.74%", "elapsed_time": "1d 0h 23m 8s", "remaining_time": "2d 2h 6m 0s"}
+{"loss": 0.13390135, "token_acc": 0.94890065, "grad_norm": 0.88012439, "learning_rate": 7.579e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244624, "epoch": 1.63731992, "global_step/max_steps": "21480/65595", "percentage": "32.75%", "elapsed_time": "1d 0h 23m 25s", "remaining_time": "2d 2h 5m 33s"}
+{"loss": 0.17211555, "token_acc": 0.93950178, "grad_norm": 1.54979312, "learning_rate": 7.578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244632, "epoch": 1.63770104, "global_step/max_steps": "21485/65595", "percentage": "32.75%", "elapsed_time": "1d 0h 23m 43s", "remaining_time": "2d 2h 5m 7s"}
+{"loss": 0.08758811, "token_acc": 0.96549587, "grad_norm": 0.57975274, "learning_rate": 7.577e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244636, "epoch": 1.63808217, "global_step/max_steps": "21490/65595", "percentage": "32.76%", "elapsed_time": "1d 0h 24m 2s", "remaining_time": "2d 2h 4m 43s"}
+{"loss": 0.21560616, "token_acc": 0.93042472, "grad_norm": 1.14346039, "learning_rate": 7.576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244643, "epoch": 1.6384633, "global_step/max_steps": "21495/65595", "percentage": "32.77%", "elapsed_time": "1d 0h 24m 20s", "remaining_time": "2d 2h 4m 18s"}
+{"loss": 0.1450747, "token_acc": 0.95010115, "grad_norm": 0.74958402, "learning_rate": 7.575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244649, "epoch": 1.63884442, "global_step/max_steps": "21500/65595", "percentage": "32.78%", "elapsed_time": "1d 0h 24m 38s", "remaining_time": "2d 2h 3m 52s"}
+{"loss": 0.12653601, "token_acc": 0.95439739, "grad_norm": 0.3513881, "learning_rate": 7.574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244659, "epoch": 1.63922555, "global_step/max_steps": "21505/65595", "percentage": "32.78%", "elapsed_time": "1d 0h 24m 55s", "remaining_time": "2d 2h 3m 25s"}
+{"loss": 0.1012458, "token_acc": 0.9590662, "grad_norm": 0.64887339, "learning_rate": 7.573e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244674, "epoch": 1.63960668, "global_step/max_steps": "21510/65595", "percentage": "32.79%", "elapsed_time": "1d 0h 25m 10s", "remaining_time": "2d 2h 2m 53s"}
+{"loss": 0.10848413, "token_acc": 0.96166789, "grad_norm": 1.20958865, "learning_rate": 7.572e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244676, "epoch": 1.6399878, "global_step/max_steps": "21515/65595", "percentage": "32.80%", "elapsed_time": "1d 0h 25m 30s", "remaining_time": "2d 2h 2m 32s"}
+{"loss": 0.14244494, "token_acc": 0.95061957, "grad_norm": 1.63417673, "learning_rate": 7.571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244685, "epoch": 1.64036893, "global_step/max_steps": "21520/65595", "percentage": "32.81%", "elapsed_time": "1d 0h 25m 47s", "remaining_time": "2d 2h 2m 5s"}
+{"loss": 0.14231445, "token_acc": 0.95884393, "grad_norm": 1.30608904, "learning_rate": 7.57e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244685, "epoch": 1.64075006, "global_step/max_steps": "21525/65595", "percentage": "32.82%", "elapsed_time": "1d 0h 26m 7s", "remaining_time": "2d 2h 1m 44s"}
+{"loss": 0.12864037, "token_acc": 0.95344507, "grad_norm": 1.21172547, "learning_rate": 7.569e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2447, "epoch": 1.64113118, "global_step/max_steps": "21530/65595", "percentage": "32.82%", "elapsed_time": "1d 0h 26m 23s", "remaining_time": "2d 2h 1m 13s"}
+{"loss": 0.11292275, "token_acc": 0.96551724, "grad_norm": 0.83298481, "learning_rate": 7.568e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244711, "epoch": 1.64151231, "global_step/max_steps": "21535/65595", "percentage": "32.83%", "elapsed_time": "1d 0h 26m 39s", "remaining_time": "2d 2h 0m 44s"}
+{"loss": 0.10160844, "token_acc": 0.95398773, "grad_norm": 0.86422968, "learning_rate": 7.567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244727, "epoch": 1.64189344, "global_step/max_steps": "21540/65595", "percentage": "32.84%", "elapsed_time": "1d 0h 26m 54s", "remaining_time": "2d 2h 0m 12s"}
+{"loss": 0.14728923, "token_acc": 0.94966076, "grad_norm": 1.91405857, "learning_rate": 7.566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24474, "epoch": 1.64227456, "global_step/max_steps": "21545/65595", "percentage": "32.85%", "elapsed_time": "1d 0h 27m 10s", "remaining_time": "2d 1h 59m 42s"}
+{"loss": 0.1452719, "token_acc": 0.95376197, "grad_norm": 1.53665435, "learning_rate": 7.565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244753, "epoch": 1.64265569, "global_step/max_steps": "21550/65595", "percentage": "32.85%", "elapsed_time": "1d 0h 27m 25s", "remaining_time": "2d 1h 59m 12s"}
+{"loss": 0.09180663, "token_acc": 0.96683466, "grad_norm": 0.67456329, "learning_rate": 7.564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244763, "epoch": 1.64303682, "global_step/max_steps": "21555/65595", "percentage": "32.86%", "elapsed_time": "1d 0h 27m 42s", "remaining_time": "2d 1h 58m 44s"}
+{"loss": 0.09430302, "token_acc": 0.96637103, "grad_norm": 0.6236698, "learning_rate": 7.563e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244766, "epoch": 1.64341794, "global_step/max_steps": "21560/65595", "percentage": "32.87%", "elapsed_time": "1d 0h 28m 1s", "remaining_time": "2d 1h 58m 21s"}
+{"loss": 0.17546656, "token_acc": 0.94760357, "grad_norm": 1.2128706, "learning_rate": 7.562e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244784, "epoch": 1.64379907, "global_step/max_steps": "21565/65595", "percentage": "32.88%", "elapsed_time": "1d 0h 28m 16s", "remaining_time": "2d 1h 57m 48s"}
+{"loss": 0.11155133, "token_acc": 0.95906586, "grad_norm": 0.90310556, "learning_rate": 7.561e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244795, "epoch": 1.6441802, "global_step/max_steps": "21570/65595", "percentage": "32.88%", "elapsed_time": "1d 0h 28m 32s", "remaining_time": "2d 1h 57m 20s"}
+{"loss": 0.09753895, "token_acc": 0.95371703, "grad_norm": 1.66557503, "learning_rate": 7.56e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244807, "epoch": 1.64456132, "global_step/max_steps": "21575/65595", "percentage": "32.89%", "elapsed_time": "1d 0h 28m 48s", "remaining_time": "2d 1h 56m 50s"}
+{"loss": 0.09476051, "token_acc": 0.96320663, "grad_norm": 1.4685961, "learning_rate": 7.559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244819, "epoch": 1.64494245, "global_step/max_steps": "21580/65595", "percentage": "32.90%", "elapsed_time": "1d 0h 29m 4s", "remaining_time": "2d 1h 56m 21s"}
+{"loss": 0.13042519, "token_acc": 0.95289344, "grad_norm": 0.911304, "learning_rate": 7.558e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244826, "epoch": 1.64532358, "global_step/max_steps": "21585/65595", "percentage": "32.91%", "elapsed_time": "1d 0h 29m 22s", "remaining_time": "2d 1h 55m 55s"}
+{"loss": 0.12430645, "token_acc": 0.95598125, "grad_norm": 1.08989966, "learning_rate": 7.557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244838, "epoch": 1.6457047, "global_step/max_steps": "21590/65595", "percentage": "32.91%", "elapsed_time": "1d 0h 29m 38s", "remaining_time": "2d 1h 55m 26s"}
+{"loss": 0.12870982, "token_acc": 0.94970162, "grad_norm": 0.72548109, "learning_rate": 7.556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244848, "epoch": 1.64608583, "global_step/max_steps": "21595/65595", "percentage": "32.92%", "elapsed_time": "1d 0h 29m 55s", "remaining_time": "2d 1h 54m 58s"}
+{"loss": 0.13001459, "token_acc": 0.95695553, "grad_norm": 0.93291068, "learning_rate": 7.555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244863, "epoch": 1.64646696, "global_step/max_steps": "21600/65595", "percentage": "32.93%", "elapsed_time": "1d 0h 30m 10s", "remaining_time": "2d 1h 54m 27s"}
+{"eval_loss": 0.09887096, "eval_token_acc": 0.95458858, "eval_runtime": 207.0601, "eval_samples_per_second": 2.56, "eval_steps_per_second": 2.56, "epoch": 1.64646696, "global_step/max_steps": "21600/65595", "percentage": "32.93%", "elapsed_time": "1d 0h 33m 37s", "remaining_time": "2d 2h 1m 28s"}
+{"loss": 0.1243838, "token_acc": 0.95433408, "grad_norm": 1.10838687, "learning_rate": 7.554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244302, "epoch": 1.64684808, "global_step/max_steps": "21605/65595", "percentage": "32.94%", "elapsed_time": "1d 0h 33m 53s", "remaining_time": "2d 2h 0m 59s"}
+{"loss": 0.1377341, "token_acc": 0.9521018, "grad_norm": 0.57685643, "learning_rate": 7.553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244309, "epoch": 1.64722921, "global_step/max_steps": "21610/65595", "percentage": "32.94%", "elapsed_time": "1d 0h 34m 11s", "remaining_time": "2d 2h 0m 33s"}
+{"loss": 0.09801958, "token_acc": 0.9567879, "grad_norm": 0.3870337, "learning_rate": 7.552e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244325, "epoch": 1.64761034, "global_step/max_steps": "21615/65595", "percentage": "32.95%", "elapsed_time": "1d 0h 34m 26s", "remaining_time": "2d 2h 0m 1s"}
+{"loss": 0.13844905, "token_acc": 0.95508587, "grad_norm": 0.62393522, "learning_rate": 7.551e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244333, "epoch": 1.64799146, "global_step/max_steps": "21620/65595", "percentage": "32.96%", "elapsed_time": "1d 0h 34m 43s", "remaining_time": "2d 1h 59m 34s"}
+{"loss": 0.19556482, "token_acc": 0.92812269, "grad_norm": 1.12976909, "learning_rate": 7.55e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244343, "epoch": 1.64837259, "global_step/max_steps": "21625/65595", "percentage": "32.97%", "elapsed_time": "1d 0h 35m 0s", "remaining_time": "2d 1h 59m 7s"}
+{"loss": 0.12583799, "token_acc": 0.9550173, "grad_norm": 0.50572187, "learning_rate": 7.549e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24435, "epoch": 1.64875372, "global_step/max_steps": "21630/65595", "percentage": "32.98%", "elapsed_time": "1d 0h 35m 18s", "remaining_time": "2d 1h 58m 41s"}
+{"loss": 0.13033166, "token_acc": 0.94727859, "grad_norm": 0.74230611, "learning_rate": 7.548e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244356, "epoch": 1.64913484, "global_step/max_steps": "21635/65595", "percentage": "32.98%", "elapsed_time": "1d 0h 35m 36s", "remaining_time": "2d 1h 58m 16s"}
+{"loss": 0.12348311, "token_acc": 0.95365717, "grad_norm": 0.73565799, "learning_rate": 7.547e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244363, "epoch": 1.64951597, "global_step/max_steps": "21640/65595", "percentage": "32.99%", "elapsed_time": "1d 0h 35m 54s", "remaining_time": "2d 1h 57m 51s"}
+{"loss": 0.11486593, "token_acc": 0.95901639, "grad_norm": 1.10507929, "learning_rate": 7.545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244377, "epoch": 1.6498971, "global_step/max_steps": "21645/65595", "percentage": "33.00%", "elapsed_time": "1d 0h 36m 9s", "remaining_time": "2d 1h 57m 20s"}
+{"loss": 0.15727694, "token_acc": 0.94533703, "grad_norm": 1.55833292, "learning_rate": 7.544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244383, "epoch": 1.65027822, "global_step/max_steps": "21650/65595", "percentage": "33.01%", "elapsed_time": "1d 0h 36m 28s", "remaining_time": "2d 1h 56m 55s"}
+{"loss": 0.12738709, "token_acc": 0.95262749, "grad_norm": 1.29637289, "learning_rate": 7.543e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244397, "epoch": 1.65065935, "global_step/max_steps": "21655/65595", "percentage": "33.01%", "elapsed_time": "1d 0h 36m 43s", "remaining_time": "2d 1h 56m 24s"}
+{"loss": 0.13183544, "token_acc": 0.96412737, "grad_norm": 1.26938868, "learning_rate": 7.542e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244405, "epoch": 1.65104048, "global_step/max_steps": "21660/65595", "percentage": "33.02%", "elapsed_time": "1d 0h 37m 1s", "remaining_time": "2d 1h 55m 58s"}
+{"loss": 0.13069435, "token_acc": 0.95295025, "grad_norm": 0.54091358, "learning_rate": 7.541e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244413, "epoch": 1.6514216, "global_step/max_steps": "21665/65595", "percentage": "33.03%", "elapsed_time": "1d 0h 37m 18s", "remaining_time": "2d 1h 55m 32s"}
+{"loss": 0.12148026, "token_acc": 0.9369455, "grad_norm": 1.32576191, "learning_rate": 7.54e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244427, "epoch": 1.65180273, "global_step/max_steps": "21670/65595", "percentage": "33.04%", "elapsed_time": "1d 0h 37m 34s", "remaining_time": "2d 1h 55m 1s"}
+{"loss": 0.106546, "token_acc": 0.96187234, "grad_norm": 0.9389928, "learning_rate": 7.539e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244432, "epoch": 1.65218386, "global_step/max_steps": "21675/65595", "percentage": "33.04%", "elapsed_time": "1d 0h 37m 52s", "remaining_time": "2d 1h 54m 37s"}
+{"loss": 0.11157718, "token_acc": 0.95177305, "grad_norm": 0.71050549, "learning_rate": 7.538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244438, "epoch": 1.65256498, "global_step/max_steps": "21680/65595", "percentage": "33.05%", "elapsed_time": "1d 0h 38m 11s", "remaining_time": "2d 1h 54m 12s"}
+{"loss": 0.09394599, "token_acc": 0.96695096, "grad_norm": 0.68495196, "learning_rate": 7.537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244447, "epoch": 1.65294611, "global_step/max_steps": "21685/65595", "percentage": "33.06%", "elapsed_time": "1d 0h 38m 28s", "remaining_time": "2d 1h 53m 45s"}
+{"loss": 0.12443407, "token_acc": 0.9564117, "grad_norm": 0.74407136, "learning_rate": 7.536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244463, "epoch": 1.65332724, "global_step/max_steps": "21690/65595", "percentage": "33.07%", "elapsed_time": "1d 0h 38m 42s", "remaining_time": "2d 1h 53m 13s"}
+{"loss": 0.18266754, "token_acc": 0.93259339, "grad_norm": 1.45711577, "learning_rate": 7.535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244476, "epoch": 1.65370836, "global_step/max_steps": "21695/65595", "percentage": "33.07%", "elapsed_time": "1d 0h 38m 58s", "remaining_time": "2d 1h 52m 43s"}
+{"loss": 0.12759272, "token_acc": 0.93728019, "grad_norm": 0.63034475, "learning_rate": 7.534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244491, "epoch": 1.65408949, "global_step/max_steps": "21700/65595", "percentage": "33.08%", "elapsed_time": "1d 0h 39m 13s", "remaining_time": "2d 1h 52m 11s"}
+{"loss": 0.15408783, "token_acc": 0.93011679, "grad_norm": 1.04977858, "learning_rate": 7.533e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244503, "epoch": 1.65447062, "global_step/max_steps": "21705/65595", "percentage": "33.09%", "elapsed_time": "1d 0h 39m 29s", "remaining_time": "2d 1h 51m 42s"}
+{"loss": 0.14043618, "token_acc": 0.94755715, "grad_norm": 0.69268781, "learning_rate": 7.532e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244518, "epoch": 1.65485174, "global_step/max_steps": "21710/65595", "percentage": "33.10%", "elapsed_time": "1d 0h 39m 44s", "remaining_time": "2d 1h 51m 11s"}
+{"loss": 0.11736968, "token_acc": 0.95514682, "grad_norm": 1.85211277, "learning_rate": 7.531e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244538, "epoch": 1.65523287, "global_step/max_steps": "21715/65595", "percentage": "33.10%", "elapsed_time": "1d 0h 39m 57s", "remaining_time": "2d 1h 50m 35s"}
+{"loss": 0.11866803, "token_acc": 0.95362246, "grad_norm": 1.18977487, "learning_rate": 7.53e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244552, "epoch": 1.65561399, "global_step/max_steps": "21720/65595", "percentage": "33.11%", "elapsed_time": "1d 0h 40m 13s", "remaining_time": "2d 1h 50m 4s"}
+{"loss": 0.12303717, "token_acc": 0.9437604, "grad_norm": 1.22910142, "learning_rate": 7.529e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244571, "epoch": 1.65599512, "global_step/max_steps": "21725/65595", "percentage": "33.12%", "elapsed_time": "1d 0h 40m 26s", "remaining_time": "2d 1h 49m 30s"}
+{"loss": 0.12780106, "token_acc": 0.9410017, "grad_norm": 0.83218241, "learning_rate": 7.528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244587, "epoch": 1.65637625, "global_step/max_steps": "21730/65595", "percentage": "33.13%", "elapsed_time": "1d 0h 40m 41s", "remaining_time": "2d 1h 48m 58s"}
+{"loss": 0.10078652, "token_acc": 0.95755357, "grad_norm": 0.81992978, "learning_rate": 7.527e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244591, "epoch": 1.65675737, "global_step/max_steps": "21735/65595", "percentage": "33.14%", "elapsed_time": "1d 0h 41m 0s", "remaining_time": "2d 1h 48m 35s"}
+{"loss": 0.12386289, "token_acc": 0.94832162, "grad_norm": 0.83432275, "learning_rate": 7.526e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244603, "epoch": 1.6571385, "global_step/max_steps": "21740/65595", "percentage": "33.14%", "elapsed_time": "1d 0h 41m 16s", "remaining_time": "2d 1h 48m 6s"}
+{"loss": 0.15853463, "token_acc": 0.94302385, "grad_norm": 0.55375999, "learning_rate": 7.525e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244617, "epoch": 1.65751963, "global_step/max_steps": "21745/65595", "percentage": "33.15%", "elapsed_time": "1d 0h 41m 31s", "remaining_time": "2d 1h 47m 35s"}
+{"loss": 0.12011671, "token_acc": 0.95231846, "grad_norm": 0.81226969, "learning_rate": 7.524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244626, "epoch": 1.65790075, "global_step/max_steps": "21750/65595", "percentage": "33.16%", "elapsed_time": "1d 0h 41m 48s", "remaining_time": "2d 1h 47m 8s"}
+{"loss": 0.10144906, "token_acc": 0.95899835, "grad_norm": 1.56240046, "learning_rate": 7.523e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244642, "epoch": 1.65828188, "global_step/max_steps": "21755/65595", "percentage": "33.17%", "elapsed_time": "1d 0h 42m 3s", "remaining_time": "2d 1h 46m 36s"}
+{"loss": 0.16420718, "token_acc": 0.95282258, "grad_norm": 1.21852589, "learning_rate": 7.522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244652, "epoch": 1.65866301, "global_step/max_steps": "21760/65595", "percentage": "33.17%", "elapsed_time": "1d 0h 42m 20s", "remaining_time": "2d 1h 46m 8s"}
+{"loss": 0.10363712, "token_acc": 0.96040933, "grad_norm": 0.58320862, "learning_rate": 7.521e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244665, "epoch": 1.65904413, "global_step/max_steps": "21765/65595", "percentage": "33.18%", "elapsed_time": "1d 0h 42m 36s", "remaining_time": "2d 1h 45m 38s"}
+{"loss": 0.15683286, "token_acc": 0.94702137, "grad_norm": 0.89780581, "learning_rate": 7.52e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244678, "epoch": 1.65942526, "global_step/max_steps": "21770/65595", "percentage": "33.19%", "elapsed_time": "1d 0h 42m 51s", "remaining_time": "2d 1h 45m 8s"}
+{"loss": 0.11647899, "token_acc": 0.96011522, "grad_norm": 0.72171336, "learning_rate": 7.519e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244692, "epoch": 1.65980639, "global_step/max_steps": "21775/65595", "percentage": "33.20%", "elapsed_time": "1d 0h 43m 7s", "remaining_time": "2d 1h 44m 37s"}
+{"loss": 0.11535542, "token_acc": 0.94392019, "grad_norm": 1.98323309, "learning_rate": 7.518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24471, "epoch": 1.66018751, "global_step/max_steps": "21780/65595", "percentage": "33.20%", "elapsed_time": "1d 0h 43m 20s", "remaining_time": "2d 1h 44m 3s"}
+{"loss": 0.11390684, "token_acc": 0.9641757, "grad_norm": 0.70779973, "learning_rate": 7.517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244714, "epoch": 1.66056864, "global_step/max_steps": "21785/65595", "percentage": "33.21%", "elapsed_time": "1d 0h 43m 39s", "remaining_time": "2d 1h 43m 40s"}
+{"loss": 0.12087781, "token_acc": 0.95483871, "grad_norm": 1.2410059, "learning_rate": 7.516e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244733, "epoch": 1.66094977, "global_step/max_steps": "21790/65595", "percentage": "33.22%", "elapsed_time": "1d 0h 43m 53s", "remaining_time": "2d 1h 43m 6s"}
+{"loss": 0.08704096, "token_acc": 0.95259545, "grad_norm": 0.70731801, "learning_rate": 7.515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244747, "epoch": 1.66133089, "global_step/max_steps": "21795/65595", "percentage": "33.23%", "elapsed_time": "1d 0h 44m 8s", "remaining_time": "2d 1h 42m 35s"}
+{"loss": 0.06582088, "token_acc": 0.9633738, "grad_norm": 0.86222035, "learning_rate": 7.513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244758, "epoch": 1.66171202, "global_step/max_steps": "21800/65595", "percentage": "33.23%", "elapsed_time": "1d 0h 44m 25s", "remaining_time": "2d 1h 42m 7s"}
+{"eval_loss": 0.09743324, "eval_token_acc": 0.95566532, "eval_runtime": 214.5864, "eval_samples_per_second": 2.47, "eval_steps_per_second": 2.47, "epoch": 1.66171202, "global_step/max_steps": "21800/65595", "percentage": "33.23%", "elapsed_time": "1d 0h 47m 59s", "remaining_time": "2d 1h 49m 18s"}
+{"loss": 0.13882643, "token_acc": 0.95550042, "grad_norm": 0.94508463, "learning_rate": 7.512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244184, "epoch": 1.66209315, "global_step/max_steps": "21805/65595", "percentage": "33.24%", "elapsed_time": "1d 0h 48m 15s", "remaining_time": "2d 1h 48m 47s"}
+{"loss": 0.15622088, "token_acc": 0.92371925, "grad_norm": 1.29319096, "learning_rate": 7.511e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244198, "epoch": 1.66247427, "global_step/max_steps": "21810/65595", "percentage": "33.25%", "elapsed_time": "1d 0h 48m 30s", "remaining_time": "2d 1h 48m 16s"}
+{"loss": 0.10870131, "token_acc": 0.96027714, "grad_norm": 1.28398299, "learning_rate": 7.51e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244207, "epoch": 1.6628554, "global_step/max_steps": "21815/65595", "percentage": "33.26%", "elapsed_time": "1d 0h 48m 47s", "remaining_time": "2d 1h 47m 49s"}
+{"loss": 0.12651749, "token_acc": 0.95464332, "grad_norm": 0.72143388, "learning_rate": 7.509e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244211, "epoch": 1.66323653, "global_step/max_steps": "21820/65595", "percentage": "33.26%", "elapsed_time": "1d 0h 49m 6s", "remaining_time": "2d 1h 47m 26s"}
+{"loss": 0.11749675, "token_acc": 0.94194001, "grad_norm": 0.82145065, "learning_rate": 7.508e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244224, "epoch": 1.66361765, "global_step/max_steps": "21825/65595", "percentage": "33.27%", "elapsed_time": "1d 0h 49m 22s", "remaining_time": "2d 1h 46m 56s"}
+{"loss": 0.1402243, "token_acc": 0.94633838, "grad_norm": 0.72312778, "learning_rate": 7.507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244239, "epoch": 1.66399878, "global_step/max_steps": "21830/65595", "percentage": "33.28%", "elapsed_time": "1d 0h 49m 37s", "remaining_time": "2d 1h 46m 24s"}
+{"loss": 0.09152722, "token_acc": 0.95096322, "grad_norm": 0.43401518, "learning_rate": 7.506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244254, "epoch": 1.66437991, "global_step/max_steps": "21835/65595", "percentage": "33.29%", "elapsed_time": "1d 0h 49m 52s", "remaining_time": "2d 1h 45m 53s"}
+{"loss": 0.13155028, "token_acc": 0.95177778, "grad_norm": 1.80215454, "learning_rate": 7.505e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244265, "epoch": 1.66476103, "global_step/max_steps": "21840/65595", "percentage": "33.30%", "elapsed_time": "1d 0h 50m 8s", "remaining_time": "2d 1h 45m 24s"}
+{"loss": 0.09170043, "token_acc": 0.96517763, "grad_norm": 0.70614326, "learning_rate": 7.504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244274, "epoch": 1.66514216, "global_step/max_steps": "21845/65595", "percentage": "33.30%", "elapsed_time": "1d 0h 50m 26s", "remaining_time": "2d 1h 44m 57s"}
+{"loss": 0.1260947, "token_acc": 0.94669282, "grad_norm": 0.97037607, "learning_rate": 7.503e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244282, "epoch": 1.66552329, "global_step/max_steps": "21850/65595", "percentage": "33.31%", "elapsed_time": "1d 0h 50m 43s", "remaining_time": "2d 1h 44m 31s"}
+{"loss": 0.11363066, "token_acc": 0.95212894, "grad_norm": 0.63667625, "learning_rate": 7.502e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244294, "epoch": 1.66590441, "global_step/max_steps": "21855/65595", "percentage": "33.32%", "elapsed_time": "1d 0h 50m 59s", "remaining_time": "2d 1h 44m 2s"}
+{"loss": 0.11495914, "token_acc": 0.96119809, "grad_norm": 0.75808316, "learning_rate": 7.501e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244296, "epoch": 1.66628554, "global_step/max_steps": "21860/65595", "percentage": "33.33%", "elapsed_time": "1d 0h 51m 19s", "remaining_time": "2d 1h 43m 40s"}
+{"loss": 0.13823394, "token_acc": 0.94830438, "grad_norm": 0.64506149, "learning_rate": 7.5e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244305, "epoch": 1.66666667, "global_step/max_steps": "21865/65595", "percentage": "33.33%", "elapsed_time": "1d 0h 51m 36s", "remaining_time": "2d 1h 43m 13s"}
+{"loss": 0.13445047, "token_acc": 0.96418605, "grad_norm": 0.62103504, "learning_rate": 7.499e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244313, "epoch": 1.66704779, "global_step/max_steps": "21870/65595", "percentage": "33.34%", "elapsed_time": "1d 0h 51m 53s", "remaining_time": "2d 1h 42m 46s"}
+{"loss": 0.11739833, "token_acc": 0.9525641, "grad_norm": 1.37305987, "learning_rate": 7.498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24432, "epoch": 1.66742892, "global_step/max_steps": "21875/65595", "percentage": "33.35%", "elapsed_time": "1d 0h 52m 11s", "remaining_time": "2d 1h 42m 21s"}
+{"loss": 0.1373126, "token_acc": 0.94673215, "grad_norm": 1.43378913, "learning_rate": 7.497e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244336, "epoch": 1.66781005, "global_step/max_steps": "21880/65595", "percentage": "33.36%", "elapsed_time": "1d 0h 52m 26s", "remaining_time": "2d 1h 41m 48s"}
+{"loss": 0.1272002, "token_acc": 0.95077668, "grad_norm": 0.66014892, "learning_rate": 7.496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244344, "epoch": 1.66819117, "global_step/max_steps": "21885/65595", "percentage": "33.36%", "elapsed_time": "1d 0h 52m 44s", "remaining_time": "2d 1h 41m 22s"}
+{"loss": 0.11445858, "token_acc": 0.95016077, "grad_norm": 1.28522456, "learning_rate": 7.495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244356, "epoch": 1.6685723, "global_step/max_steps": "21890/65595", "percentage": "33.37%", "elapsed_time": "1d 0h 52m 59s", "remaining_time": "2d 1h 40m 53s"}
+{"loss": 0.1125169, "token_acc": 0.96166282, "grad_norm": 1.20620251, "learning_rate": 7.494e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244369, "epoch": 1.66895343, "global_step/max_steps": "21895/65595", "percentage": "33.38%", "elapsed_time": "1d 0h 53m 15s", "remaining_time": "2d 1h 40m 23s"}
+{"loss": 0.11994736, "token_acc": 0.9527466, "grad_norm": 0.7558403, "learning_rate": 7.493e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244377, "epoch": 1.66933455, "global_step/max_steps": "21900/65595", "percentage": "33.39%", "elapsed_time": "1d 0h 53m 33s", "remaining_time": "2d 1h 39m 57s"}
+{"loss": 0.14391658, "token_acc": 0.94784846, "grad_norm": 0.64526117, "learning_rate": 7.492e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244375, "epoch": 1.66971568, "global_step/max_steps": "21905/65595", "percentage": "33.39%", "elapsed_time": "1d 0h 53m 54s", "remaining_time": "2d 1h 39m 37s"}
+{"loss": 0.16561947, "token_acc": 0.94101616, "grad_norm": 1.31842422, "learning_rate": 7.491e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244382, "epoch": 1.67009681, "global_step/max_steps": "21910/65595", "percentage": "33.40%", "elapsed_time": "1d 0h 54m 12s", "remaining_time": "2d 1h 39m 12s"}
+{"loss": 0.10155523, "token_acc": 0.96268141, "grad_norm": 1.05475068, "learning_rate": 7.49e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244398, "epoch": 1.67047793, "global_step/max_steps": "21915/65595", "percentage": "33.41%", "elapsed_time": "1d 0h 54m 27s", "remaining_time": "2d 1h 38m 40s"}
+{"loss": 0.07151716, "token_acc": 0.96168936, "grad_norm": 0.62839091, "learning_rate": 7.489e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244411, "epoch": 1.67085906, "global_step/max_steps": "21920/65595", "percentage": "33.42%", "elapsed_time": "1d 0h 54m 42s", "remaining_time": "2d 1h 38m 10s"}
+{"loss": 0.12222126, "token_acc": 0.95656505, "grad_norm": 0.99306959, "learning_rate": 7.488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244423, "epoch": 1.67124019, "global_step/max_steps": "21925/65595", "percentage": "33.42%", "elapsed_time": "1d 0h 54m 58s", "remaining_time": "2d 1h 37m 40s"}
+{"loss": 0.13150326, "token_acc": 0.94980404, "grad_norm": 0.69413638, "learning_rate": 7.487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244433, "epoch": 1.67162131, "global_step/max_steps": "21930/65595", "percentage": "33.43%", "elapsed_time": "1d 0h 55m 15s", "remaining_time": "2d 1h 37m 13s"}
+{"loss": 0.1529047, "token_acc": 0.93525931, "grad_norm": 1.41490877, "learning_rate": 7.485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244448, "epoch": 1.67200244, "global_step/max_steps": "21935/65595", "percentage": "33.44%", "elapsed_time": "1d 0h 55m 30s", "remaining_time": "2d 1h 36m 41s"}
+{"loss": 0.14979669, "token_acc": 0.94064081, "grad_norm": 1.20814562, "learning_rate": 7.484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244464, "epoch": 1.67238357, "global_step/max_steps": "21940/65595", "percentage": "33.45%", "elapsed_time": "1d 0h 55m 45s", "remaining_time": "2d 1h 36m 9s"}
+{"loss": 0.14366953, "token_acc": 0.952012, "grad_norm": 0.81292403, "learning_rate": 7.483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244474, "epoch": 1.67276469, "global_step/max_steps": "21945/65595", "percentage": "33.46%", "elapsed_time": "1d 0h 56m 1s", "remaining_time": "2d 1h 35m 42s"}
+{"loss": 0.14666352, "token_acc": 0.95451549, "grad_norm": 0.80094701, "learning_rate": 7.482e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244489, "epoch": 1.67314582, "global_step/max_steps": "21950/65595", "percentage": "33.46%", "elapsed_time": "1d 0h 56m 16s", "remaining_time": "2d 1h 35m 10s"}
+{"loss": 0.09005358, "token_acc": 0.96070727, "grad_norm": 0.8659575, "learning_rate": 7.481e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244502, "epoch": 1.67352695, "global_step/max_steps": "21955/65595", "percentage": "33.47%", "elapsed_time": "1d 0h 56m 32s", "remaining_time": "2d 1h 34m 41s"}
+{"loss": 0.07678576, "token_acc": 0.96444249, "grad_norm": 0.89283723, "learning_rate": 7.48e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244514, "epoch": 1.67390807, "global_step/max_steps": "21960/65595", "percentage": "33.48%", "elapsed_time": "1d 0h 56m 48s", "remaining_time": "2d 1h 34m 11s"}
+{"loss": 0.10805299, "token_acc": 0.94781312, "grad_norm": 1.01309848, "learning_rate": 7.479e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244531, "epoch": 1.6742892, "global_step/max_steps": "21965/65595", "percentage": "33.49%", "elapsed_time": "1d 0h 57m 2s", "remaining_time": "2d 1h 33m 38s"}
+{"loss": 0.09124444, "token_acc": 0.96312004, "grad_norm": 0.86404186, "learning_rate": 7.478e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244544, "epoch": 1.67467033, "global_step/max_steps": "21970/65595", "percentage": "33.49%", "elapsed_time": "1d 0h 57m 18s", "remaining_time": "2d 1h 33m 9s"}
+{"loss": 0.13813778, "token_acc": 0.94392315, "grad_norm": 0.98736405, "learning_rate": 7.477e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244555, "epoch": 1.67505145, "global_step/max_steps": "21975/65595", "percentage": "33.50%", "elapsed_time": "1d 0h 57m 34s", "remaining_time": "2d 1h 32m 40s"}
+{"loss": 0.179248, "token_acc": 0.92368525, "grad_norm": 2.87918115, "learning_rate": 7.476e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244572, "epoch": 1.67543258, "global_step/max_steps": "21980/65595", "percentage": "33.51%", "elapsed_time": "1d 0h 57m 49s", "remaining_time": "2d 1h 32m 7s"}
+{"loss": 0.10894836, "token_acc": 0.95836947, "grad_norm": 0.76909703, "learning_rate": 7.475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244578, "epoch": 1.67581371, "global_step/max_steps": "21985/65595", "percentage": "33.52%", "elapsed_time": "1d 0h 58m 7s", "remaining_time": "2d 1h 31m 42s"}
+{"loss": 0.11820618, "token_acc": 0.9556701, "grad_norm": 0.83965898, "learning_rate": 7.474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244583, "epoch": 1.67619483, "global_step/max_steps": "21990/65595", "percentage": "33.52%", "elapsed_time": "1d 0h 58m 25s", "remaining_time": "2d 1h 31m 18s"}
+{"loss": 0.13067274, "token_acc": 0.95230263, "grad_norm": 0.7920475, "learning_rate": 7.473e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24459, "epoch": 1.67657596, "global_step/max_steps": "21995/65595", "percentage": "33.53%", "elapsed_time": "1d 0h 58m 43s", "remaining_time": "2d 1h 30m 52s"}
+{"loss": 0.10622811, "token_acc": 0.95485404, "grad_norm": 0.65950465, "learning_rate": 7.472e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244601, "epoch": 1.67695709, "global_step/max_steps": "22000/65595", "percentage": "33.54%", "elapsed_time": "1d 0h 59m 0s", "remaining_time": "2d 1h 30m 24s"}
+{"eval_loss": 0.09792107, "eval_token_acc": 0.95561261, "eval_runtime": 215.4706, "eval_samples_per_second": 2.46, "eval_steps_per_second": 2.46, "epoch": 1.67695709, "global_step/max_steps": "22000/65595", "percentage": "33.54%", "elapsed_time": "1d 1h 2m 35s", "remaining_time": "2d 1h 37m 31s"}
+{"loss": 0.11626861, "token_acc": 0.95550864, "grad_norm": 0.89870691, "learning_rate": 7.471e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244024, "epoch": 1.67733821, "global_step/max_steps": "22005/65595", "percentage": "33.55%", "elapsed_time": "1d 1h 2m 53s", "remaining_time": "2d 1h 37m 5s"}
+{"loss": 0.09300388, "token_acc": 0.96520597, "grad_norm": 0.89819413, "learning_rate": 7.47e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24403, "epoch": 1.67771934, "global_step/max_steps": "22010/65595", "percentage": "33.55%", "elapsed_time": "1d 1h 3m 11s", "remaining_time": "2d 1h 36m 40s"}
+{"loss": 0.12619239, "token_acc": 0.95775394, "grad_norm": 1.17203009, "learning_rate": 7.469e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244034, "epoch": 1.67810046, "global_step/max_steps": "22015/65595", "percentage": "33.56%", "elapsed_time": "1d 1h 3m 30s", "remaining_time": "2d 1h 36m 17s"}
+{"loss": 0.09317306, "token_acc": 0.96388343, "grad_norm": 0.63935494, "learning_rate": 7.468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244043, "epoch": 1.67848159, "global_step/max_steps": "22020/65595", "percentage": "33.57%", "elapsed_time": "1d 1h 3m 47s", "remaining_time": "2d 1h 35m 49s"}
+{"loss": 0.11817565, "token_acc": 0.95337995, "grad_norm": 0.87162817, "learning_rate": 7.467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244053, "epoch": 1.67886272, "global_step/max_steps": "22025/65595", "percentage": "33.58%", "elapsed_time": "1d 1h 4m 4s", "remaining_time": "2d 1h 35m 22s"}
+{"loss": 0.12231551, "token_acc": 0.95380627, "grad_norm": 0.86750525, "learning_rate": 7.466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244066, "epoch": 1.67924384, "global_step/max_steps": "22030/65595", "percentage": "33.58%", "elapsed_time": "1d 1h 4m 20s", "remaining_time": "2d 1h 34m 52s"}
+{"loss": 0.16214259, "token_acc": 0.93671796, "grad_norm": 0.0795363, "learning_rate": 7.465e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244073, "epoch": 1.67962497, "global_step/max_steps": "22035/65595", "percentage": "33.59%", "elapsed_time": "1d 1h 4m 37s", "remaining_time": "2d 1h 34m 26s"}
+{"loss": 0.09691035, "token_acc": 0.95132056, "grad_norm": 1.22074926, "learning_rate": 7.464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244092, "epoch": 1.6800061, "global_step/max_steps": "22040/65595", "percentage": "33.60%", "elapsed_time": "1d 1h 4m 51s", "remaining_time": "2d 1h 33m 52s"}
+{"loss": 0.09470806, "token_acc": 0.96145553, "grad_norm": 0.9237349, "learning_rate": 7.463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244106, "epoch": 1.68038722, "global_step/max_steps": "22045/65595", "percentage": "33.61%", "elapsed_time": "1d 1h 5m 6s", "remaining_time": "2d 1h 33m 21s"}
+{"loss": 0.14014572, "token_acc": 0.95867085, "grad_norm": 1.10108304, "learning_rate": 7.462e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244114, "epoch": 1.68076835, "global_step/max_steps": "22050/65595", "percentage": "33.62%", "elapsed_time": "1d 1h 5m 24s", "remaining_time": "2d 1h 32m 55s"}
+{"loss": 0.12591168, "token_acc": 0.95240444, "grad_norm": 0.66278899, "learning_rate": 7.46e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244125, "epoch": 1.68114948, "global_step/max_steps": "22055/65595", "percentage": "33.62%", "elapsed_time": "1d 1h 5m 40s", "remaining_time": "2d 1h 32m 26s"}
+{"loss": 0.0910973, "token_acc": 0.96415597, "grad_norm": 0.54225415, "learning_rate": 7.459e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24414, "epoch": 1.6815306, "global_step/max_steps": "22060/65595", "percentage": "33.63%", "elapsed_time": "1d 1h 5m 55s", "remaining_time": "2d 1h 31m 55s"}
+{"loss": 0.11628429, "token_acc": 0.97139544, "grad_norm": 1.31597698, "learning_rate": 7.458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244154, "epoch": 1.68191173, "global_step/max_steps": "22065/65595", "percentage": "33.64%", "elapsed_time": "1d 1h 6m 11s", "remaining_time": "2d 1h 31m 24s"}
+{"loss": 0.12165601, "token_acc": 0.95641562, "grad_norm": 2.4538641, "learning_rate": 7.457e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24416, "epoch": 1.68229286, "global_step/max_steps": "22070/65595", "percentage": "33.65%", "elapsed_time": "1d 1h 6m 29s", "remaining_time": "2d 1h 30m 59s"}
+{"loss": 0.12992022, "token_acc": 0.94134615, "grad_norm": 1.76153445, "learning_rate": 7.456e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244179, "epoch": 1.68267398, "global_step/max_steps": "22075/65595", "percentage": "33.65%", "elapsed_time": "1d 1h 6m 42s", "remaining_time": "2d 1h 30m 25s"}
+{"loss": 0.10277032, "token_acc": 0.95381166, "grad_norm": 1.11039102, "learning_rate": 7.455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244192, "epoch": 1.68305511, "global_step/max_steps": "22080/65595", "percentage": "33.66%", "elapsed_time": "1d 1h 6m 58s", "remaining_time": "2d 1h 29m 55s"}
+{"loss": 0.13763663, "token_acc": 0.94675399, "grad_norm": 1.1069876, "learning_rate": 7.454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244205, "epoch": 1.68343624, "global_step/max_steps": "22085/65595", "percentage": "33.67%", "elapsed_time": "1d 1h 7m 13s", "remaining_time": "2d 1h 29m 25s"}
+{"loss": 0.136257, "token_acc": 0.94498382, "grad_norm": 1.16608274, "learning_rate": 7.453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244211, "epoch": 1.68381736, "global_step/max_steps": "22090/65595", "percentage": "33.68%", "elapsed_time": "1d 1h 7m 32s", "remaining_time": "2d 1h 29m 0s"}
+{"loss": 0.11636195, "token_acc": 0.94385552, "grad_norm": 0.70588887, "learning_rate": 7.452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244227, "epoch": 1.68419849, "global_step/max_steps": "22095/65595", "percentage": "33.68%", "elapsed_time": "1d 1h 7m 46s", "remaining_time": "2d 1h 28m 28s"}
+{"loss": 0.12472261, "token_acc": 0.93219578, "grad_norm": 0.6302141, "learning_rate": 7.451e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244245, "epoch": 1.68457962, "global_step/max_steps": "22100/65595", "percentage": "33.69%", "elapsed_time": "1d 1h 8m 0s", "remaining_time": "2d 1h 27m 55s"}
+{"loss": 0.1278509, "token_acc": 0.95015296, "grad_norm": 0.7425611, "learning_rate": 7.45e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244252, "epoch": 1.68496074, "global_step/max_steps": "22105/65595", "percentage": "33.70%", "elapsed_time": "1d 1h 8m 18s", "remaining_time": "2d 1h 27m 29s"}
+{"loss": 0.10229157, "token_acc": 0.95364675, "grad_norm": 0.50872755, "learning_rate": 7.449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244264, "epoch": 1.68534187, "global_step/max_steps": "22110/65595", "percentage": "33.71%", "elapsed_time": "1d 1h 8m 34s", "remaining_time": "2d 1h 26m 59s"}
+{"loss": 0.1297811, "token_acc": 0.9477138, "grad_norm": 0.93939948, "learning_rate": 7.448e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244272, "epoch": 1.685723, "global_step/max_steps": "22115/65595", "percentage": "33.71%", "elapsed_time": "1d 1h 8m 52s", "remaining_time": "2d 1h 26m 34s"}
+{"loss": 0.10269048, "token_acc": 0.9628866, "grad_norm": 0.95809072, "learning_rate": 7.447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244288, "epoch": 1.68610412, "global_step/max_steps": "22120/65595", "percentage": "33.72%", "elapsed_time": "1d 1h 9m 6s", "remaining_time": "2d 1h 26m 2s"}
+{"loss": 0.15389454, "token_acc": 0.95281068, "grad_norm": 1.69435227, "learning_rate": 7.446e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244291, "epoch": 1.68648525, "global_step/max_steps": "22125/65595", "percentage": "33.73%", "elapsed_time": "1d 1h 9m 25s", "remaining_time": "2d 1h 25m 38s"}
+{"loss": 0.11455568, "token_acc": 0.95685418, "grad_norm": 0.53520948, "learning_rate": 7.445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244305, "epoch": 1.68686638, "global_step/max_steps": "22130/65595", "percentage": "33.74%", "elapsed_time": "1d 1h 9m 41s", "remaining_time": "2d 1h 25m 8s"}
+{"loss": 0.20240288, "token_acc": 0.92967451, "grad_norm": 1.74792647, "learning_rate": 7.444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244316, "epoch": 1.6872475, "global_step/max_steps": "22135/65595", "percentage": "33.74%", "elapsed_time": "1d 1h 9m 57s", "remaining_time": "2d 1h 24m 39s"}
+{"loss": 0.09306295, "token_acc": 0.96134316, "grad_norm": 0.85873246, "learning_rate": 7.443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244324, "epoch": 1.68762863, "global_step/max_steps": "22140/65595", "percentage": "33.75%", "elapsed_time": "1d 1h 10m 14s", "remaining_time": "2d 1h 24m 13s"}
+{"loss": 0.12130888, "token_acc": 0.95053655, "grad_norm": 0.79596788, "learning_rate": 7.442e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244334, "epoch": 1.68800976, "global_step/max_steps": "22145/65595", "percentage": "33.76%", "elapsed_time": "1d 1h 10m 31s", "remaining_time": "2d 1h 23m 45s"}
+{"loss": 0.10801413, "token_acc": 0.96498569, "grad_norm": 0.37279853, "learning_rate": 7.441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244345, "epoch": 1.68839088, "global_step/max_steps": "22150/65595", "percentage": "33.77%", "elapsed_time": "1d 1h 10m 48s", "remaining_time": "2d 1h 23m 17s"}
+{"loss": 0.14450723, "token_acc": 0.94887526, "grad_norm": 0.85365635, "learning_rate": 7.44e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244356, "epoch": 1.68877201, "global_step/max_steps": "22155/65595", "percentage": "33.78%", "elapsed_time": "1d 1h 11m 4s", "remaining_time": "2d 1h 22m 49s"}
+{"loss": 0.09918757, "token_acc": 0.95649502, "grad_norm": 0.59399921, "learning_rate": 7.439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24436, "epoch": 1.68915314, "global_step/max_steps": "22160/65595", "percentage": "33.78%", "elapsed_time": "1d 1h 11m 23s", "remaining_time": "2d 1h 22m 25s"}
+{"loss": 0.12114462, "token_acc": 0.95278597, "grad_norm": 0.71510816, "learning_rate": 7.438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24437, "epoch": 1.68953426, "global_step/max_steps": "22165/65595", "percentage": "33.79%", "elapsed_time": "1d 1h 11m 40s", "remaining_time": "2d 1h 21m 57s"}
+{"loss": 0.12722304, "token_acc": 0.95849057, "grad_norm": 1.2903564, "learning_rate": 7.436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244379, "epoch": 1.68991539, "global_step/max_steps": "22170/65595", "percentage": "33.80%", "elapsed_time": "1d 1h 11m 57s", "remaining_time": "2d 1h 21m 31s"}
+{"loss": 0.11991429, "token_acc": 0.95404875, "grad_norm": 0.65692681, "learning_rate": 7.435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244385, "epoch": 1.69029652, "global_step/max_steps": "22175/65595", "percentage": "33.81%", "elapsed_time": "1d 1h 12m 15s", "remaining_time": "2d 1h 21m 5s"}
+{"loss": 0.07817199, "token_acc": 0.967827, "grad_norm": 0.80359459, "learning_rate": 7.434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2444, "epoch": 1.69067764, "global_step/max_steps": "22180/65595", "percentage": "33.81%", "elapsed_time": "1d 1h 12m 30s", "remaining_time": "2d 1h 20m 35s"}
+{"loss": 0.12436278, "token_acc": 0.95181159, "grad_norm": 0.84820241, "learning_rate": 7.433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244409, "epoch": 1.69105877, "global_step/max_steps": "22185/65595", "percentage": "33.82%", "elapsed_time": "1d 1h 12m 47s", "remaining_time": "2d 1h 20m 7s"}
+{"loss": 0.15048841, "token_acc": 0.94700049, "grad_norm": 1.57133007, "learning_rate": 7.432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244418, "epoch": 1.6914399, "global_step/max_steps": "22190/65595", "percentage": "33.83%", "elapsed_time": "1d 1h 13m 4s", "remaining_time": "2d 1h 19m 40s"}
+{"loss": 0.11961193, "token_acc": 0.94150418, "grad_norm": 0.15686502, "learning_rate": 7.431e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244432, "epoch": 1.69182102, "global_step/max_steps": "22195/65595", "percentage": "33.84%", "elapsed_time": "1d 1h 13m 20s", "remaining_time": "2d 1h 19m 10s"}
+{"loss": 0.13513613, "token_acc": 0.94718082, "grad_norm": 1.13465929, "learning_rate": 7.43e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244446, "epoch": 1.69220215, "global_step/max_steps": "22200/65595", "percentage": "33.84%", "elapsed_time": "1d 1h 13m 35s", "remaining_time": "2d 1h 18m 39s"}
+{"eval_loss": 0.09610839, "eval_token_acc": 0.9557105, "eval_runtime": 211.4938, "eval_samples_per_second": 2.506, "eval_steps_per_second": 2.506, "epoch": 1.69220215, "global_step/max_steps": "22200/65595", "percentage": "33.84%", "elapsed_time": "1d 1h 17m 6s", "remaining_time": "2d 1h 25m 32s"}
+{"loss": 0.15954294, "token_acc": 0.95514001, "grad_norm": 0.90128148, "learning_rate": 7.429e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243894, "epoch": 1.69258328, "global_step/max_steps": "22205/65595", "percentage": "33.85%", "elapsed_time": "1d 1h 17m 21s", "remaining_time": "2d 1h 25m 1s"}
+{"loss": 0.10224639, "token_acc": 0.95719031, "grad_norm": 0.83495069, "learning_rate": 7.428e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243892, "epoch": 1.6929644, "global_step/max_steps": "22210/65595", "percentage": "33.86%", "elapsed_time": "1d 1h 17m 42s", "remaining_time": "2d 1h 24m 41s"}
+{"loss": 0.11800258, "token_acc": 0.95054417, "grad_norm": 0.31291085, "learning_rate": 7.427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243899, "epoch": 1.69334553, "global_step/max_steps": "22215/65595", "percentage": "33.87%", "elapsed_time": "1d 1h 18m 0s", "remaining_time": "2d 1h 24m 15s"}
+{"loss": 0.15416754, "token_acc": 0.95289989, "grad_norm": 1.37451565, "learning_rate": 7.426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243904, "epoch": 1.69372666, "global_step/max_steps": "22220/65595", "percentage": "33.87%", "elapsed_time": "1d 1h 18m 19s", "remaining_time": "2d 1h 23m 52s"}
+{"loss": 0.11397719, "token_acc": 0.9486166, "grad_norm": 1.55387962, "learning_rate": 7.425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243917, "epoch": 1.69410778, "global_step/max_steps": "22225/65595", "percentage": "33.88%", "elapsed_time": "1d 1h 18m 34s", "remaining_time": "2d 1h 23m 21s"}
+{"loss": 0.11091267, "token_acc": 0.95567412, "grad_norm": 0.93249053, "learning_rate": 7.424e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243927, "epoch": 1.69448891, "global_step/max_steps": "22230/65595", "percentage": "33.89%", "elapsed_time": "1d 1h 18m 51s", "remaining_time": "2d 1h 22m 54s"}
+{"loss": 0.09732442, "token_acc": 0.96487805, "grad_norm": 1.00779629, "learning_rate": 7.423e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243942, "epoch": 1.69487004, "global_step/max_steps": "22235/65595", "percentage": "33.90%", "elapsed_time": "1d 1h 19m 6s", "remaining_time": "2d 1h 22m 22s"}
+{"loss": 0.13282552, "token_acc": 0.94964172, "grad_norm": 0.79657757, "learning_rate": 7.422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243951, "epoch": 1.69525116, "global_step/max_steps": "22240/65595", "percentage": "33.91%", "elapsed_time": "1d 1h 19m 23s", "remaining_time": "2d 1h 21m 55s"}
+{"loss": 0.08190255, "token_acc": 0.9705414, "grad_norm": 0.69718742, "learning_rate": 7.421e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243958, "epoch": 1.69563229, "global_step/max_steps": "22245/65595", "percentage": "33.91%", "elapsed_time": "1d 1h 19m 41s", "remaining_time": "2d 1h 21m 30s"}
+{"loss": 0.15140119, "token_acc": 0.92670157, "grad_norm": 0.22044554, "learning_rate": 7.42e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243975, "epoch": 1.69601342, "global_step/max_steps": "22250/65595", "percentage": "33.92%", "elapsed_time": "1d 1h 19m 55s", "remaining_time": "2d 1h 20m 57s"}
+{"loss": 0.12273629, "token_acc": 0.95507657, "grad_norm": 0.81875134, "learning_rate": 7.419e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243975, "epoch": 1.69639454, "global_step/max_steps": "22255/65595", "percentage": "33.93%", "elapsed_time": "1d 1h 20m 16s", "remaining_time": "2d 1h 20m 36s"}
+{"loss": 0.10792572, "token_acc": 0.95820529, "grad_norm": 0.6140573, "learning_rate": 7.418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243994, "epoch": 1.69677567, "global_step/max_steps": "22260/65595", "percentage": "33.94%", "elapsed_time": "1d 1h 20m 29s", "remaining_time": "2d 1h 20m 2s"}
+{"loss": 0.13172705, "token_acc": 0.94839338, "grad_norm": 0.85614532, "learning_rate": 7.417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244002, "epoch": 1.6971568, "global_step/max_steps": "22265/65595", "percentage": "33.94%", "elapsed_time": "1d 1h 20m 46s", "remaining_time": "2d 1h 19m 36s"}
+{"loss": 0.10585938, "token_acc": 0.96113696, "grad_norm": 0.59160811, "learning_rate": 7.416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244007, "epoch": 1.69753792, "global_step/max_steps": "22270/65595", "percentage": "33.95%", "elapsed_time": "1d 1h 21m 5s", "remaining_time": "2d 1h 19m 12s"}
+{"loss": 0.09797279, "token_acc": 0.96239016, "grad_norm": 0.62424648, "learning_rate": 7.414e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244013, "epoch": 1.69791905, "global_step/max_steps": "22275/65595", "percentage": "33.96%", "elapsed_time": "1d 1h 21m 23s", "remaining_time": "2d 1h 18m 47s"}
+{"loss": 0.13598492, "token_acc": 0.95334718, "grad_norm": 0.47176397, "learning_rate": 7.413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244021, "epoch": 1.69830018, "global_step/max_steps": "22280/65595", "percentage": "33.97%", "elapsed_time": "1d 1h 21m 41s", "remaining_time": "2d 1h 18m 20s"}
+{"loss": 0.16668588, "token_acc": 0.92851107, "grad_norm": 1.04440629, "learning_rate": 7.412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244031, "epoch": 1.6986813, "global_step/max_steps": "22285/65595", "percentage": "33.97%", "elapsed_time": "1d 1h 21m 58s", "remaining_time": "2d 1h 17m 52s"}
+{"loss": 0.11280015, "token_acc": 0.95419714, "grad_norm": 1.48652065, "learning_rate": 7.411e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244036, "epoch": 1.69906243, "global_step/max_steps": "22290/65595", "percentage": "33.98%", "elapsed_time": "1d 1h 22m 16s", "remaining_time": "2d 1h 17m 28s"}
+{"loss": 0.1068345, "token_acc": 0.96249772, "grad_norm": 1.86221588, "learning_rate": 7.41e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244046, "epoch": 1.69944356, "global_step/max_steps": "22295/65595", "percentage": "33.99%", "elapsed_time": "1d 1h 22m 33s", "remaining_time": "2d 1h 17m 1s"}
+{"loss": 0.08318931, "token_acc": 0.96674058, "grad_norm": 0.98158187, "learning_rate": 7.409e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244056, "epoch": 1.69982468, "global_step/max_steps": "22300/65595", "percentage": "34.00%", "elapsed_time": "1d 1h 22m 50s", "remaining_time": "2d 1h 16m 33s"}
+{"loss": 0.0808197, "token_acc": 0.96539406, "grad_norm": 0.23504581, "learning_rate": 7.408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244063, "epoch": 1.70020581, "global_step/max_steps": "22305/65595", "percentage": "34.00%", "elapsed_time": "1d 1h 23m 7s", "remaining_time": "2d 1h 16m 7s"}
+{"loss": 0.14219189, "token_acc": 0.96258816, "grad_norm": 1.76737726, "learning_rate": 7.407e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244066, "epoch": 1.70058693, "global_step/max_steps": "22310/65595", "percentage": "34.01%", "elapsed_time": "1d 1h 23m 27s", "remaining_time": "2d 1h 15m 45s"}
+{"loss": 0.1414624, "token_acc": 0.94343, "grad_norm": 0.20735037, "learning_rate": 7.406e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244079, "epoch": 1.70096806, "global_step/max_steps": "22315/65595", "percentage": "34.02%", "elapsed_time": "1d 1h 23m 43s", "remaining_time": "2d 1h 15m 15s"}
+{"loss": 0.13352242, "token_acc": 0.96150855, "grad_norm": 1.16902888, "learning_rate": 7.405e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244087, "epoch": 1.70134919, "global_step/max_steps": "22320/65595", "percentage": "34.03%", "elapsed_time": "1d 1h 24m 0s", "remaining_time": "2d 1h 14m 49s"}
+{"loss": 0.07110447, "token_acc": 0.97150259, "grad_norm": 0.76839167, "learning_rate": 7.404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24409, "epoch": 1.70173031, "global_step/max_steps": "22325/65595", "percentage": "34.03%", "elapsed_time": "1d 1h 24m 20s", "remaining_time": "2d 1h 14m 26s"}
+{"loss": 0.12271498, "token_acc": 0.95239969, "grad_norm": 0.71152139, "learning_rate": 7.403e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244106, "epoch": 1.70211144, "global_step/max_steps": "22330/65595", "percentage": "34.04%", "elapsed_time": "1d 1h 24m 34s", "remaining_time": "2d 1h 13m 54s"}
+{"loss": 0.11673428, "token_acc": 0.9465035, "grad_norm": 1.10257196, "learning_rate": 7.402e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244115, "epoch": 1.70249257, "global_step/max_steps": "22335/65595", "percentage": "34.05%", "elapsed_time": "1d 1h 24m 51s", "remaining_time": "2d 1h 13m 27s"}
+{"loss": 0.12114725, "token_acc": 0.95360959, "grad_norm": 0.96596944, "learning_rate": 7.401e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244127, "epoch": 1.70287369, "global_step/max_steps": "22340/65595", "percentage": "34.06%", "elapsed_time": "1d 1h 25m 7s", "remaining_time": "2d 1h 12m 58s"}
+{"loss": 0.1117151, "token_acc": 0.96083292, "grad_norm": 0.54719573, "learning_rate": 7.4e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24413, "epoch": 1.70325482, "global_step/max_steps": "22345/65595", "percentage": "34.07%", "elapsed_time": "1d 1h 25m 27s", "remaining_time": "2d 1h 12m 35s"}
+{"loss": 0.19800196, "token_acc": 0.94830965, "grad_norm": 0.70113045, "learning_rate": 7.399e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244136, "epoch": 1.70363595, "global_step/max_steps": "22350/65595", "percentage": "34.07%", "elapsed_time": "1d 1h 25m 45s", "remaining_time": "2d 1h 12m 10s"}
+{"loss": 0.10736375, "token_acc": 0.95698925, "grad_norm": 0.7659359, "learning_rate": 7.398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244145, "epoch": 1.70401707, "global_step/max_steps": "22355/65595", "percentage": "34.08%", "elapsed_time": "1d 1h 26m 2s", "remaining_time": "2d 1h 11m 43s"}
+{"loss": 0.10072449, "token_acc": 0.94662868, "grad_norm": 1.08651364, "learning_rate": 7.397e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244156, "epoch": 1.7043982, "global_step/max_steps": "22360/65595", "percentage": "34.09%", "elapsed_time": "1d 1h 26m 18s", "remaining_time": "2d 1h 11m 15s"}
+{"loss": 0.14515092, "token_acc": 0.94676724, "grad_norm": 1.04569077, "learning_rate": 7.396e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244167, "epoch": 1.70477933, "global_step/max_steps": "22365/65595", "percentage": "34.10%", "elapsed_time": "1d 1h 26m 34s", "remaining_time": "2d 1h 10m 46s"}
+{"loss": 0.09802674, "token_acc": 0.96537815, "grad_norm": 0.58955932, "learning_rate": 7.395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24418, "epoch": 1.70516045, "global_step/max_steps": "22370/65595", "percentage": "34.10%", "elapsed_time": "1d 1h 26m 50s", "remaining_time": "2d 1h 10m 16s"}
+{"loss": 0.11079619, "token_acc": 0.95915091, "grad_norm": 0.43304557, "learning_rate": 7.393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244184, "epoch": 1.70554158, "global_step/max_steps": "22375/65595", "percentage": "34.11%", "elapsed_time": "1d 1h 27m 9s", "remaining_time": "2d 1h 9m 53s"}
+{"loss": 0.11029367, "token_acc": 0.95270054, "grad_norm": 0.6907081, "learning_rate": 7.392e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244198, "epoch": 1.70592271, "global_step/max_steps": "22380/65595", "percentage": "34.12%", "elapsed_time": "1d 1h 27m 24s", "remaining_time": "2d 1h 9m 22s"}
+{"loss": 0.13040144, "token_acc": 0.94755987, "grad_norm": 0.79335827, "learning_rate": 7.391e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244212, "epoch": 1.70630383, "global_step/max_steps": "22385/65595", "percentage": "34.13%", "elapsed_time": "1d 1h 27m 39s", "remaining_time": "2d 1h 8m 52s"}
+{"loss": 0.11156732, "token_acc": 0.96082272, "grad_norm": 1.18735504, "learning_rate": 7.39e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244224, "epoch": 1.70668496, "global_step/max_steps": "22390/65595", "percentage": "34.13%", "elapsed_time": "1d 1h 27m 55s", "remaining_time": "2d 1h 8m 22s"}
+{"loss": 0.11877339, "token_acc": 0.95458167, "grad_norm": 1.13395905, "learning_rate": 7.389e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244237, "epoch": 1.70706609, "global_step/max_steps": "22395/65595", "percentage": "34.14%", "elapsed_time": "1d 1h 28m 11s", "remaining_time": "2d 1h 7m 53s"}
+{"loss": 0.1170524, "token_acc": 0.94822363, "grad_norm": 1.31355011, "learning_rate": 7.388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244251, "epoch": 1.70744721, "global_step/max_steps": "22400/65595", "percentage": "34.15%", "elapsed_time": "1d 1h 28m 26s", "remaining_time": "2d 1h 7m 22s"}
+{"eval_loss": 0.09982047, "eval_token_acc": 0.95607192, "eval_runtime": 215.3445, "eval_samples_per_second": 2.461, "eval_steps_per_second": 2.461, "epoch": 1.70744721, "global_step/max_steps": "22400/65595", "percentage": "34.15%", "elapsed_time": "1d 1h 32m 1s", "remaining_time": "2d 1h 14m 17s"}
+{"loss": 0.15495536, "token_acc": 0.95556583, "grad_norm": 0.85513616, "learning_rate": 7.387e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243693, "epoch": 1.70782834, "global_step/max_steps": "22405/65595", "percentage": "34.16%", "elapsed_time": "1d 1h 32m 17s", "remaining_time": "2d 1h 13m 46s"}
+{"loss": 0.13076606, "token_acc": 0.94982831, "grad_norm": 0.65013933, "learning_rate": 7.386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243703, "epoch": 1.70820947, "global_step/max_steps": "22410/65595", "percentage": "34.16%", "elapsed_time": "1d 1h 32m 33s", "remaining_time": "2d 1h 13m 18s"}
+{"loss": 0.10523022, "token_acc": 0.96154633, "grad_norm": 1.43201756, "learning_rate": 7.385e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243712, "epoch": 1.70859059, "global_step/max_steps": "22415/65595", "percentage": "34.17%", "elapsed_time": "1d 1h 32m 51s", "remaining_time": "2d 1h 12m 52s"}
+{"loss": 0.15813516, "token_acc": 0.93349344, "grad_norm": 1.00352108, "learning_rate": 7.384e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243718, "epoch": 1.70897172, "global_step/max_steps": "22420/65595", "percentage": "34.18%", "elapsed_time": "1d 1h 33m 9s", "remaining_time": "2d 1h 12m 27s"}
+{"loss": 0.08971483, "token_acc": 0.96724262, "grad_norm": 0.5308612, "learning_rate": 7.383e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243722, "epoch": 1.70935285, "global_step/max_steps": "22425/65595", "percentage": "34.19%", "elapsed_time": "1d 1h 33m 28s", "remaining_time": "2d 1h 12m 4s"}
+{"loss": 0.15503025, "token_acc": 0.93593899, "grad_norm": 0.6965825, "learning_rate": 7.382e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243731, "epoch": 1.70973397, "global_step/max_steps": "22430/65595", "percentage": "34.19%", "elapsed_time": "1d 1h 33m 45s", "remaining_time": "2d 1h 11m 36s"}
+{"loss": 0.10501193, "token_acc": 0.9604811, "grad_norm": 0.81847942, "learning_rate": 7.381e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243747, "epoch": 1.7101151, "global_step/max_steps": "22435/65595", "percentage": "34.20%", "elapsed_time": "1d 1h 34m 0s", "remaining_time": "2d 1h 11m 4s"}
+{"loss": 0.10234865, "token_acc": 0.96036397, "grad_norm": 0.94426304, "learning_rate": 7.38e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243752, "epoch": 1.71049623, "global_step/max_steps": "22440/65595", "percentage": "34.21%", "elapsed_time": "1d 1h 34m 18s", "remaining_time": "2d 1h 10m 40s"}
+{"loss": 0.13648336, "token_acc": 0.94893302, "grad_norm": 0.76738894, "learning_rate": 7.379e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243758, "epoch": 1.71087735, "global_step/max_steps": "22445/65595", "percentage": "34.22%", "elapsed_time": "1d 1h 34m 36s", "remaining_time": "2d 1h 10m 15s"}
+{"loss": 0.09668587, "token_acc": 0.95776478, "grad_norm": 0.95591855, "learning_rate": 7.378e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243777, "epoch": 1.71125848, "global_step/max_steps": "22450/65595", "percentage": "34.23%", "elapsed_time": "1d 1h 34m 50s", "remaining_time": "2d 1h 9m 41s"}
+{"loss": 0.19155271, "token_acc": 0.94597458, "grad_norm": 1.09284902, "learning_rate": 7.377e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243784, "epoch": 1.71163961, "global_step/max_steps": "22455/65595", "percentage": "34.23%", "elapsed_time": "1d 1h 35m 8s", "remaining_time": "2d 1h 9m 15s"}
+{"loss": 0.11463273, "token_acc": 0.96133872, "grad_norm": 0.72159785, "learning_rate": 7.376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243787, "epoch": 1.71202073, "global_step/max_steps": "22460/65595", "percentage": "34.24%", "elapsed_time": "1d 1h 35m 27s", "remaining_time": "2d 1h 8m 53s"}
+{"loss": 0.10513442, "token_acc": 0.93866424, "grad_norm": 0.97570735, "learning_rate": 7.375e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243803, "epoch": 1.71240186, "global_step/max_steps": "22465/65595", "percentage": "34.25%", "elapsed_time": "1d 1h 35m 41s", "remaining_time": "2d 1h 8m 21s"}
+{"loss": 0.12731606, "token_acc": 0.94780546, "grad_norm": 0.39613706, "learning_rate": 7.373e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243807, "epoch": 1.71278299, "global_step/max_steps": "22470/65595", "percentage": "34.26%", "elapsed_time": "1d 1h 36m 0s", "remaining_time": "2d 1h 7m 57s"}
+{"loss": 0.16317073, "token_acc": 0.94472908, "grad_norm": 1.12099123, "learning_rate": 7.372e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243816, "epoch": 1.71316411, "global_step/max_steps": "22475/65595", "percentage": "34.26%", "elapsed_time": "1d 1h 36m 17s", "remaining_time": "2d 1h 7m 30s"}
+{"loss": 0.10938284, "token_acc": 0.95232252, "grad_norm": 0.91641861, "learning_rate": 7.371e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243825, "epoch": 1.71354524, "global_step/max_steps": "22480/65595", "percentage": "34.27%", "elapsed_time": "1d 1h 36m 35s", "remaining_time": "2d 1h 7m 3s"}
+{"loss": 0.10844938, "token_acc": 0.96368468, "grad_norm": 0.55118293, "learning_rate": 7.37e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243828, "epoch": 1.71392637, "global_step/max_steps": "22485/65595", "percentage": "34.28%", "elapsed_time": "1d 1h 36m 54s", "remaining_time": "2d 1h 6m 40s"}
+{"loss": 0.10638013, "token_acc": 0.96145749, "grad_norm": 0.52767402, "learning_rate": 7.369e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243835, "epoch": 1.71430749, "global_step/max_steps": "22490/65595", "percentage": "34.29%", "elapsed_time": "1d 1h 37m 12s", "remaining_time": "2d 1h 6m 15s"}
+{"loss": 0.12493609, "token_acc": 0.95327852, "grad_norm": 0.55467618, "learning_rate": 7.368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243847, "epoch": 1.71468862, "global_step/max_steps": "22495/65595", "percentage": "34.29%", "elapsed_time": "1d 1h 37m 28s", "remaining_time": "2d 1h 5m 46s"}
+{"loss": 0.12249395, "token_acc": 0.94786058, "grad_norm": 1.47549415, "learning_rate": 7.367e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243859, "epoch": 1.71506975, "global_step/max_steps": "22500/65595", "percentage": "34.30%", "elapsed_time": "1d 1h 37m 44s", "remaining_time": "2d 1h 5m 16s"}
+{"loss": 0.13880496, "token_acc": 0.94824121, "grad_norm": 0.75120753, "learning_rate": 7.366e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243864, "epoch": 1.71545087, "global_step/max_steps": "22505/65595", "percentage": "34.31%", "elapsed_time": "1d 1h 38m 2s", "remaining_time": "2d 1h 4m 52s"}
+{"loss": 0.14416225, "token_acc": 0.94707347, "grad_norm": 2.18373227, "learning_rate": 7.365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24388, "epoch": 1.715832, "global_step/max_steps": "22510/65595", "percentage": "34.32%", "elapsed_time": "1d 1h 38m 17s", "remaining_time": "2d 1h 4m 20s"}
+{"loss": 0.13086936, "token_acc": 0.94567063, "grad_norm": 1.05018222, "learning_rate": 7.364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243892, "epoch": 1.71621313, "global_step/max_steps": "22515/65595", "percentage": "34.32%", "elapsed_time": "1d 1h 38m 33s", "remaining_time": "2d 1h 3m 51s"}
+{"loss": 0.12604082, "token_acc": 0.94859985, "grad_norm": 1.25559092, "learning_rate": 7.363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243902, "epoch": 1.71659425, "global_step/max_steps": "22520/65595", "percentage": "34.33%", "elapsed_time": "1d 1h 38m 49s", "remaining_time": "2d 1h 3m 23s"}
+{"loss": 0.10930536, "token_acc": 0.95627666, "grad_norm": 0.6557461, "learning_rate": 7.362e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243906, "epoch": 1.71697538, "global_step/max_steps": "22525/65595", "percentage": "34.34%", "elapsed_time": "1d 1h 39m 8s", "remaining_time": "2d 1h 2m 59s"}
+{"loss": 0.12574012, "token_acc": 0.96255804, "grad_norm": 1.1487515, "learning_rate": 7.361e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243913, "epoch": 1.71735651, "global_step/max_steps": "22530/65595", "percentage": "34.35%", "elapsed_time": "1d 1h 39m 26s", "remaining_time": "2d 1h 2m 34s"}
+{"loss": 0.13984443, "token_acc": 0.94225903, "grad_norm": 0.63643563, "learning_rate": 7.36e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243925, "epoch": 1.71773763, "global_step/max_steps": "22535/65595", "percentage": "34.35%", "elapsed_time": "1d 1h 39m 42s", "remaining_time": "2d 1h 2m 5s"}
+{"loss": 0.12949551, "token_acc": 0.95054484, "grad_norm": 1.00868142, "learning_rate": 7.359e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243936, "epoch": 1.71811876, "global_step/max_steps": "22540/65595", "percentage": "34.36%", "elapsed_time": "1d 1h 39m 59s", "remaining_time": "2d 1h 1m 37s"}
+{"loss": 0.08846315, "token_acc": 0.96878613, "grad_norm": 0.53439242, "learning_rate": 7.358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243937, "epoch": 1.71849989, "global_step/max_steps": "22545/65595", "percentage": "34.37%", "elapsed_time": "1d 1h 40m 19s", "remaining_time": "2d 1h 1m 15s"}
+{"loss": 0.17456143, "token_acc": 0.95127566, "grad_norm": 1.63441575, "learning_rate": 7.357e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243943, "epoch": 1.71888101, "global_step/max_steps": "22550/65595", "percentage": "34.38%", "elapsed_time": "1d 1h 40m 37s", "remaining_time": "2d 1h 0m 51s"}
+{"loss": 0.1169292, "token_acc": 0.94421289, "grad_norm": 0.4527787, "learning_rate": 7.356e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243957, "epoch": 1.71926214, "global_step/max_steps": "22555/65595", "percentage": "34.39%", "elapsed_time": "1d 1h 40m 52s", "remaining_time": "2d 1h 0m 20s"}
+{"loss": 0.14423227, "token_acc": 0.94682565, "grad_norm": 0.74732172, "learning_rate": 7.355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24397, "epoch": 1.71964327, "global_step/max_steps": "22560/65595", "percentage": "34.39%", "elapsed_time": "1d 1h 41m 8s", "remaining_time": "2d 0h 59m 50s"}
+{"loss": 0.11053716, "token_acc": 0.94768612, "grad_norm": 0.149469, "learning_rate": 7.353e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243979, "epoch": 1.72002439, "global_step/max_steps": "22565/65595", "percentage": "34.40%", "elapsed_time": "1d 1h 41m 25s", "remaining_time": "2d 0h 59m 23s"}
+{"loss": 0.09059802, "token_acc": 0.95889453, "grad_norm": 0.65666419, "learning_rate": 7.352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243989, "epoch": 1.72040552, "global_step/max_steps": "22570/65595", "percentage": "34.41%", "elapsed_time": "1d 1h 41m 42s", "remaining_time": "2d 0h 58m 55s"}
+{"loss": 0.12408562, "token_acc": 0.95460024, "grad_norm": 0.70045769, "learning_rate": 7.351e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243991, "epoch": 1.72078665, "global_step/max_steps": "22575/65595", "percentage": "34.42%", "elapsed_time": "1d 1h 42m 1s", "remaining_time": "2d 0h 58m 33s"}
+{"loss": 0.07770584, "token_acc": 0.96282214, "grad_norm": 0.35455689, "learning_rate": 7.35e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244009, "epoch": 1.72116777, "global_step/max_steps": "22580/65595", "percentage": "34.42%", "elapsed_time": "1d 1h 42m 15s", "remaining_time": "2d 0h 58m 0s"}
+{"loss": 0.13299513, "token_acc": 0.94964552, "grad_norm": 0.64081508, "learning_rate": 7.349e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244017, "epoch": 1.7215489, "global_step/max_steps": "22585/65595", "percentage": "34.43%", "elapsed_time": "1d 1h 42m 32s", "remaining_time": "2d 0h 57m 33s"}
+{"loss": 0.09994818, "token_acc": 0.94285714, "grad_norm": 0.33633319, "learning_rate": 7.348e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244034, "epoch": 1.72193003, "global_step/max_steps": "22590/65595", "percentage": "34.44%", "elapsed_time": "1d 1h 42m 46s", "remaining_time": "2d 0h 57m 1s"}
+{"loss": 0.13830339, "token_acc": 0.93620415, "grad_norm": 0.94324774, "learning_rate": 7.347e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244049, "epoch": 1.72231115, "global_step/max_steps": "22595/65595", "percentage": "34.45%", "elapsed_time": "1d 1h 43m 1s", "remaining_time": "2d 0h 56m 30s"}
+{"loss": 0.13516937, "token_acc": 0.94169041, "grad_norm": 0.87725759, "learning_rate": 7.346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244059, "epoch": 1.72269228, "global_step/max_steps": "22600/65595", "percentage": "34.45%", "elapsed_time": "1d 1h 43m 18s", "remaining_time": "2d 0h 56m 2s"}
+{"eval_loss": 0.09773041, "eval_token_acc": 0.95643335, "eval_runtime": 214.8438, "eval_samples_per_second": 2.467, "eval_steps_per_second": 2.467, "epoch": 1.72269228, "global_step/max_steps": "22600/65595", "percentage": "34.45%", "elapsed_time": "1d 1h 46m 53s", "remaining_time": "2d 1h 2m 51s"}
+{"loss": 0.11407146, "token_acc": 0.95623768, "grad_norm": 1.12862563, "learning_rate": 7.345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243509, "epoch": 1.7230734, "global_step/max_steps": "22605/65595", "percentage": "34.46%", "elapsed_time": "1d 1h 47m 8s", "remaining_time": "2d 1h 2m 19s"}
+{"loss": 0.16036681, "token_acc": 0.95322355, "grad_norm": 0.57001215, "learning_rate": 7.344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243515, "epoch": 1.72345453, "global_step/max_steps": "22610/65595", "percentage": "34.47%", "elapsed_time": "1d 1h 47m 26s", "remaining_time": "2d 1h 1m 54s"}
+{"loss": 0.09160689, "token_acc": 0.9585881, "grad_norm": 1.74504662, "learning_rate": 7.343e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243531, "epoch": 1.72383566, "global_step/max_steps": "22615/65595", "percentage": "34.48%", "elapsed_time": "1d 1h 47m 40s", "remaining_time": "2d 1h 1m 22s"}
+{"loss": 0.08871397, "token_acc": 0.96256587, "grad_norm": 0.65434653, "learning_rate": 7.342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243538, "epoch": 1.72421678, "global_step/max_steps": "22620/65595", "percentage": "34.48%", "elapsed_time": "1d 1h 47m 58s", "remaining_time": "2d 1h 0m 56s"}
+{"loss": 0.08861008, "token_acc": 0.96059672, "grad_norm": 0.78792816, "learning_rate": 7.341e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243543, "epoch": 1.72459791, "global_step/max_steps": "22625/65595", "percentage": "34.49%", "elapsed_time": "1d 1h 48m 17s", "remaining_time": "2d 1h 0m 32s"}
+{"loss": 0.13329391, "token_acc": 0.94579288, "grad_norm": 1.01280534, "learning_rate": 7.34e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24356, "epoch": 1.72497904, "global_step/max_steps": "22630/65595", "percentage": "34.50%", "elapsed_time": "1d 1h 48m 31s", "remaining_time": "2d 0h 59m 59s"}
+{"loss": 0.15672677, "token_acc": 0.94569847, "grad_norm": 0.75279129, "learning_rate": 7.339e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243571, "epoch": 1.72536016, "global_step/max_steps": "22635/65595", "percentage": "34.51%", "elapsed_time": "1d 1h 48m 47s", "remaining_time": "2d 0h 59m 31s"}
+{"loss": 0.15307869, "token_acc": 0.93675889, "grad_norm": 0.89826035, "learning_rate": 7.338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243584, "epoch": 1.72574129, "global_step/max_steps": "22640/65595", "percentage": "34.51%", "elapsed_time": "1d 1h 49m 2s", "remaining_time": "2d 0h 59m 1s"}
+{"loss": 0.13341116, "token_acc": 0.9388532, "grad_norm": 0.66502362, "learning_rate": 7.337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243594, "epoch": 1.72612242, "global_step/max_steps": "22645/65595", "percentage": "34.52%", "elapsed_time": "1d 1h 49m 19s", "remaining_time": "2d 0h 58m 34s"}
+{"loss": 0.10499167, "token_acc": 0.96725651, "grad_norm": 0.90035254, "learning_rate": 7.335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243595, "epoch": 1.72650354, "global_step/max_steps": "22650/65595", "percentage": "34.53%", "elapsed_time": "1d 1h 49m 39s", "remaining_time": "2d 0h 58m 12s"}
+{"loss": 0.11812108, "token_acc": 0.95743835, "grad_norm": 1.13419962, "learning_rate": 7.334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243612, "epoch": 1.72688467, "global_step/max_steps": "22655/65595", "percentage": "34.54%", "elapsed_time": "1d 1h 49m 53s", "remaining_time": "2d 0h 57m 39s"}
+{"loss": 0.10398601, "token_acc": 0.96350964, "grad_norm": 0.93327147, "learning_rate": 7.333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243613, "epoch": 1.7272658, "global_step/max_steps": "22660/65595", "percentage": "34.55%", "elapsed_time": "1d 1h 50m 14s", "remaining_time": "2d 0h 57m 18s"}
+{"loss": 0.08426344, "token_acc": 0.96036387, "grad_norm": 1.96891308, "learning_rate": 7.332e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243629, "epoch": 1.72764692, "global_step/max_steps": "22665/65595", "percentage": "34.55%", "elapsed_time": "1d 1h 50m 28s", "remaining_time": "2d 0h 56m 46s"}
+{"loss": 0.10528166, "token_acc": 0.95655254, "grad_norm": 1.20487607, "learning_rate": 7.331e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24364, "epoch": 1.72802805, "global_step/max_steps": "22670/65595", "percentage": "34.56%", "elapsed_time": "1d 1h 50m 44s", "remaining_time": "2d 0h 56m 17s"}
+{"loss": 0.13224349, "token_acc": 0.95081417, "grad_norm": 1.09692872, "learning_rate": 7.33e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243646, "epoch": 1.72840918, "global_step/max_steps": "22675/65595", "percentage": "34.57%", "elapsed_time": "1d 1h 51m 3s", "remaining_time": "2d 0h 55m 52s"}
+{"loss": 0.11445481, "token_acc": 0.9559214, "grad_norm": 0.66751039, "learning_rate": 7.329e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243654, "epoch": 1.7287903, "global_step/max_steps": "22680/65595", "percentage": "34.58%", "elapsed_time": "1d 1h 51m 20s", "remaining_time": "2d 0h 55m 26s"}
+{"loss": 0.09671254, "token_acc": 0.95661466, "grad_norm": 1.07701516, "learning_rate": 7.328e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243664, "epoch": 1.72917143, "global_step/max_steps": "22685/65595", "percentage": "34.58%", "elapsed_time": "1d 1h 51m 37s", "remaining_time": "2d 0h 54m 59s"}
+{"loss": 0.09649316, "token_acc": 0.95905138, "grad_norm": 0.63463688, "learning_rate": 7.327e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24367, "epoch": 1.72955256, "global_step/max_steps": "22690/65595", "percentage": "34.59%", "elapsed_time": "1d 1h 51m 55s", "remaining_time": "2d 0h 54m 33s"}
+{"loss": 0.13338064, "token_acc": 0.95005291, "grad_norm": 1.2033484, "learning_rate": 7.326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243682, "epoch": 1.72993368, "global_step/max_steps": "22695/65595", "percentage": "34.60%", "elapsed_time": "1d 1h 52m 11s", "remaining_time": "2d 0h 54m 5s"}
+{"loss": 0.10261319, "token_acc": 0.96769691, "grad_norm": 0.56232458, "learning_rate": 7.325e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243689, "epoch": 1.73031481, "global_step/max_steps": "22700/65595", "percentage": "34.61%", "elapsed_time": "1d 1h 52m 29s", "remaining_time": "2d 0h 53m 39s"}
+{"loss": 0.11691511, "token_acc": 0.95558036, "grad_norm": 0.88849062, "learning_rate": 7.324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243702, "epoch": 1.73069594, "global_step/max_steps": "22705/65595", "percentage": "34.61%", "elapsed_time": "1d 1h 52m 44s", "remaining_time": "2d 0h 53m 9s"}
+{"loss": 0.10857984, "token_acc": 0.95358322, "grad_norm": 0.8532058, "learning_rate": 7.323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243713, "epoch": 1.73107706, "global_step/max_steps": "22710/65595", "percentage": "34.62%", "elapsed_time": "1d 1h 53m 1s", "remaining_time": "2d 0h 52m 41s"}
+{"loss": 0.08248805, "token_acc": 0.96709083, "grad_norm": 0.81696039, "learning_rate": 7.322e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243723, "epoch": 1.73145819, "global_step/max_steps": "22715/65595", "percentage": "34.63%", "elapsed_time": "1d 1h 53m 17s", "remaining_time": "2d 0h 52m 13s"}
+{"loss": 0.11732049, "token_acc": 0.95907473, "grad_norm": 0.68344808, "learning_rate": 7.321e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24373, "epoch": 1.73183932, "global_step/max_steps": "22720/65595", "percentage": "34.64%", "elapsed_time": "1d 1h 53m 35s", "remaining_time": "2d 0h 51m 47s"}
+{"loss": 0.17483807, "token_acc": 0.927157, "grad_norm": 0.82652634, "learning_rate": 7.32e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243743, "epoch": 1.73222044, "global_step/max_steps": "22725/65595", "percentage": "34.64%", "elapsed_time": "1d 1h 53m 51s", "remaining_time": "2d 0h 51m 17s"}
+{"loss": 0.12077196, "token_acc": 0.95489757, "grad_norm": 0.68703401, "learning_rate": 7.319e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243752, "epoch": 1.73260157, "global_step/max_steps": "22730/65595", "percentage": "34.65%", "elapsed_time": "1d 1h 54m 8s", "remaining_time": "2d 0h 50m 50s"}
+{"loss": 0.13604586, "token_acc": 0.94458281, "grad_norm": 0.6395902, "learning_rate": 7.317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243762, "epoch": 1.7329827, "global_step/max_steps": "22735/65595", "percentage": "34.66%", "elapsed_time": "1d 1h 54m 25s", "remaining_time": "2d 0h 50m 23s"}
+{"loss": 0.10479742, "token_acc": 0.96322489, "grad_norm": 0.85751748, "learning_rate": 7.316e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243774, "epoch": 1.73336382, "global_step/max_steps": "22740/65595", "percentage": "34.67%", "elapsed_time": "1d 1h 54m 41s", "remaining_time": "2d 0h 49m 54s"}
+{"loss": 0.10418203, "token_acc": 0.95910138, "grad_norm": 1.40030396, "learning_rate": 7.315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243779, "epoch": 1.73374495, "global_step/max_steps": "22745/65595", "percentage": "34.67%", "elapsed_time": "1d 1h 54m 59s", "remaining_time": "2d 0h 49m 29s"}
+{"loss": 0.11316346, "token_acc": 0.94914765, "grad_norm": 0.53815717, "learning_rate": 7.314e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24379, "epoch": 1.73412608, "global_step/max_steps": "22750/65595", "percentage": "34.68%", "elapsed_time": "1d 1h 55m 15s", "remaining_time": "2d 0h 49m 1s"}
+{"loss": 0.07108051, "token_acc": 0.97456109, "grad_norm": 1.19637108, "learning_rate": 7.313e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243804, "epoch": 1.7345072, "global_step/max_steps": "22755/65595", "percentage": "34.69%", "elapsed_time": "1d 1h 55m 30s", "remaining_time": "2d 0h 48m 30s"}
+{"loss": 0.14112883, "token_acc": 0.95701673, "grad_norm": 1.55708194, "learning_rate": 7.312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243812, "epoch": 1.73488833, "global_step/max_steps": "22760/65595", "percentage": "34.70%", "elapsed_time": "1d 1h 55m 48s", "remaining_time": "2d 0h 48m 4s"}
+{"loss": 0.11124507, "token_acc": 0.96303105, "grad_norm": 0.78872138, "learning_rate": 7.311e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243819, "epoch": 1.73526946, "global_step/max_steps": "22765/65595", "percentage": "34.71%", "elapsed_time": "1d 1h 56m 6s", "remaining_time": "2d 0h 47m 39s"}
+{"loss": 0.16476042, "token_acc": 0.93653922, "grad_norm": 0.95972478, "learning_rate": 7.31e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243827, "epoch": 1.73565058, "global_step/max_steps": "22770/65595", "percentage": "34.71%", "elapsed_time": "1d 1h 56m 23s", "remaining_time": "2d 0h 47m 12s"}
+{"loss": 0.15317448, "token_acc": 0.95294484, "grad_norm": 0.45800883, "learning_rate": 7.309e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243836, "epoch": 1.73603171, "global_step/max_steps": "22775/65595", "percentage": "34.72%", "elapsed_time": "1d 1h 56m 40s", "remaining_time": "2d 0h 46m 45s"}
+{"loss": 0.07210761, "token_acc": 0.96912219, "grad_norm": 0.60576642, "learning_rate": 7.308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243849, "epoch": 1.73641284, "global_step/max_steps": "22780/65595", "percentage": "34.73%", "elapsed_time": "1d 1h 56m 56s", "remaining_time": "2d 0h 46m 15s"}
+{"loss": 0.1030144, "token_acc": 0.95796329, "grad_norm": 0.4495571, "learning_rate": 7.307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243863, "epoch": 1.73679396, "global_step/max_steps": "22785/65595", "percentage": "34.74%", "elapsed_time": "1d 1h 57m 11s", "remaining_time": "2d 0h 45m 45s"}
+{"loss": 0.14858873, "token_acc": 0.95055475, "grad_norm": 0.91553915, "learning_rate": 7.306e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243874, "epoch": 1.73717509, "global_step/max_steps": "22790/65595", "percentage": "34.74%", "elapsed_time": "1d 1h 57m 27s", "remaining_time": "2d 0h 45m 16s"}
+{"loss": 0.11410509, "token_acc": 0.95020996, "grad_norm": 0.75080103, "learning_rate": 7.305e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243889, "epoch": 1.73755622, "global_step/max_steps": "22795/65595", "percentage": "34.75%", "elapsed_time": "1d 1h 57m 42s", "remaining_time": "2d 0h 44m 45s"}
+{"loss": 0.09204411, "token_acc": 0.95930949, "grad_norm": 1.02224422, "learning_rate": 7.304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243904, "epoch": 1.73793734, "global_step/max_steps": "22800/65595", "percentage": "34.76%", "elapsed_time": "1d 1h 57m 56s", "remaining_time": "2d 0h 44m 13s"}
+{"eval_loss": 0.09835573, "eval_token_acc": 0.95572556, "eval_runtime": 218.5864, "eval_samples_per_second": 2.425, "eval_steps_per_second": 2.425, "epoch": 1.73793734, "global_step/max_steps": "22800/65595", "percentage": "34.76%", "elapsed_time": "1d 2h 1m 35s", "remaining_time": "2d 0h 51m 4s"}
+{"loss": 0.11628262, "token_acc": 0.95595031, "grad_norm": 0.71803439, "learning_rate": 7.303e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243338, "epoch": 1.73831847, "global_step/max_steps": "22805/65595", "percentage": "34.77%", "elapsed_time": "1d 2h 1m 54s", "remaining_time": "2d 0h 50m 41s"}
+{"loss": 0.11225895, "token_acc": 0.94785128, "grad_norm": 0.77047378, "learning_rate": 7.302e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243352, "epoch": 1.7386996, "global_step/max_steps": "22810/65595", "percentage": "34.77%", "elapsed_time": "1d 2h 2m 10s", "remaining_time": "2d 0h 50m 11s"}
+{"loss": 0.16565721, "token_acc": 0.94102035, "grad_norm": 0.80619746, "learning_rate": 7.3e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243357, "epoch": 1.73908072, "global_step/max_steps": "22815/65595", "percentage": "34.78%", "elapsed_time": "1d 2h 2m 29s", "remaining_time": "2d 0h 49m 47s"}
+{"loss": 0.14788055, "token_acc": 0.94295397, "grad_norm": 1.26155329, "learning_rate": 7.299e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24337, "epoch": 1.73946185, "global_step/max_steps": "22820/65595", "percentage": "34.79%", "elapsed_time": "1d 2h 2m 44s", "remaining_time": "2d 0h 49m 16s"}
+{"loss": 0.10777961, "token_acc": 0.95397083, "grad_norm": 1.19284916, "learning_rate": 7.298e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243385, "epoch": 1.73984298, "global_step/max_steps": "22825/65595", "percentage": "34.80%", "elapsed_time": "1d 2h 2m 59s", "remaining_time": "2d 0h 48m 45s"}
+{"loss": 0.1005832, "token_acc": 0.96592516, "grad_norm": 0.8378008, "learning_rate": 7.297e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243385, "epoch": 1.7402241, "global_step/max_steps": "22830/65595", "percentage": "34.80%", "elapsed_time": "1d 2h 3m 19s", "remaining_time": "2d 0h 48m 24s"}
+{"loss": 0.13904276, "token_acc": 0.94815915, "grad_norm": 0.88756496, "learning_rate": 7.296e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243391, "epoch": 1.74060523, "global_step/max_steps": "22835/65595", "percentage": "34.81%", "elapsed_time": "1d 2h 3m 37s", "remaining_time": "2d 0h 48m 0s"}
+{"loss": 0.12762663, "token_acc": 0.94669175, "grad_norm": 0.83456922, "learning_rate": 7.295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243398, "epoch": 1.74098636, "global_step/max_steps": "22840/65595", "percentage": "34.82%", "elapsed_time": "1d 2h 3m 55s", "remaining_time": "2d 0h 47m 34s"}
+{"loss": 0.16688673, "token_acc": 0.93202358, "grad_norm": 1.26230955, "learning_rate": 7.294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243413, "epoch": 1.74136748, "global_step/max_steps": "22845/65595", "percentage": "34.83%", "elapsed_time": "1d 2h 4m 10s", "remaining_time": "2d 0h 47m 3s"}
+{"loss": 0.10168817, "token_acc": 0.95939266, "grad_norm": 1.19116473, "learning_rate": 7.293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243428, "epoch": 1.74174861, "global_step/max_steps": "22850/65595", "percentage": "34.83%", "elapsed_time": "1d 2h 4m 25s", "remaining_time": "2d 0h 46m 32s"}
+{"loss": 0.08263661, "token_acc": 0.96080321, "grad_norm": 0.66546065, "learning_rate": 7.292e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243434, "epoch": 1.74212974, "global_step/max_steps": "22855/65595", "percentage": "34.84%", "elapsed_time": "1d 2h 4m 43s", "remaining_time": "2d 0h 46m 7s"}
+{"loss": 0.14152718, "token_acc": 0.93864849, "grad_norm": 1.35016894, "learning_rate": 7.291e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243447, "epoch": 1.74251086, "global_step/max_steps": "22860/65595", "percentage": "34.85%", "elapsed_time": "1d 2h 4m 59s", "remaining_time": "2d 0h 45m 37s"}
+{"loss": 0.09292723, "token_acc": 0.96056338, "grad_norm": 1.86624348, "learning_rate": 7.29e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243453, "epoch": 1.74289199, "global_step/max_steps": "22865/65595", "percentage": "34.86%", "elapsed_time": "1d 2h 5m 17s", "remaining_time": "2d 0h 45m 12s"}
+{"loss": 0.12798954, "token_acc": 0.94626073, "grad_norm": 1.04066432, "learning_rate": 7.289e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243464, "epoch": 1.74327312, "global_step/max_steps": "22870/65595", "percentage": "34.87%", "elapsed_time": "1d 2h 5m 33s", "remaining_time": "2d 0h 44m 43s"}
+{"loss": 0.112396, "token_acc": 0.95665148, "grad_norm": 0.99094081, "learning_rate": 7.288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243467, "epoch": 1.74365424, "global_step/max_steps": "22875/65595", "percentage": "34.87%", "elapsed_time": "1d 2h 5m 53s", "remaining_time": "2d 0h 44m 21s"}
+{"loss": 0.12252837, "token_acc": 0.95073751, "grad_norm": 0.91269356, "learning_rate": 7.287e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243475, "epoch": 1.74403537, "global_step/max_steps": "22880/65595", "percentage": "34.88%", "elapsed_time": "1d 2h 6m 10s", "remaining_time": "2d 0h 43m 54s"}
+{"loss": 0.09498708, "token_acc": 0.96108875, "grad_norm": 1.25284159, "learning_rate": 7.286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243484, "epoch": 1.7444165, "global_step/max_steps": "22885/65595", "percentage": "34.89%", "elapsed_time": "1d 2h 6m 27s", "remaining_time": "2d 0h 43m 28s"}
+{"loss": 0.13110565, "token_acc": 0.9596258, "grad_norm": 0.70437884, "learning_rate": 7.285e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243493, "epoch": 1.74479762, "global_step/max_steps": "22890/65595", "percentage": "34.90%", "elapsed_time": "1d 2h 6m 44s", "remaining_time": "2d 0h 43m 0s"}
+{"loss": 0.08800378, "token_acc": 0.96937698, "grad_norm": 0.62101525, "learning_rate": 7.283e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243501, "epoch": 1.74517875, "global_step/max_steps": "22895/65595", "percentage": "34.90%", "elapsed_time": "1d 2h 7m 2s", "remaining_time": "2d 0h 42m 34s"}
+{"loss": 0.11742783, "token_acc": 0.95199459, "grad_norm": 1.2591511, "learning_rate": 7.282e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243512, "epoch": 1.74555987, "global_step/max_steps": "22900/65595", "percentage": "34.91%", "elapsed_time": "1d 2h 7m 18s", "remaining_time": "2d 0h 42m 5s"}
+{"loss": 0.15707681, "token_acc": 0.93810369, "grad_norm": 1.08497477, "learning_rate": 7.281e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24352, "epoch": 1.745941, "global_step/max_steps": "22905/65595", "percentage": "34.92%", "elapsed_time": "1d 2h 7m 35s", "remaining_time": "2d 0h 41m 39s"}
+{"loss": 0.14084085, "token_acc": 0.95663845, "grad_norm": 0.97545093, "learning_rate": 7.28e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243527, "epoch": 1.74632213, "global_step/max_steps": "22910/65595", "percentage": "34.93%", "elapsed_time": "1d 2h 7m 53s", "remaining_time": "2d 0h 41m 14s"}
+{"loss": 0.11025206, "token_acc": 0.95232075, "grad_norm": 1.42603827, "learning_rate": 7.279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243534, "epoch": 1.74670325, "global_step/max_steps": "22915/65595", "percentage": "34.93%", "elapsed_time": "1d 2h 8m 11s", "remaining_time": "2d 0h 40m 48s"}
+{"loss": 0.10179713, "token_acc": 0.96247169, "grad_norm": 0.81597906, "learning_rate": 7.278e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243546, "epoch": 1.74708438, "global_step/max_steps": "22920/65595", "percentage": "34.94%", "elapsed_time": "1d 2h 8m 27s", "remaining_time": "2d 0h 40m 19s"}
+{"loss": 0.16485157, "token_acc": 0.93515982, "grad_norm": 1.66943264, "learning_rate": 7.277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243559, "epoch": 1.74746551, "global_step/max_steps": "22925/65595", "percentage": "34.95%", "elapsed_time": "1d 2h 8m 42s", "remaining_time": "2d 0h 39m 49s"}
+{"loss": 0.17536185, "token_acc": 0.92303595, "grad_norm": 1.16106188, "learning_rate": 7.276e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243573, "epoch": 1.74784663, "global_step/max_steps": "22930/65595", "percentage": "34.96%", "elapsed_time": "1d 2h 8m 57s", "remaining_time": "2d 0h 39m 19s"}
+{"loss": 0.13886448, "token_acc": 0.95126631, "grad_norm": 1.07274652, "learning_rate": 7.275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243583, "epoch": 1.74822776, "global_step/max_steps": "22935/65595", "percentage": "34.96%", "elapsed_time": "1d 2h 9m 14s", "remaining_time": "2d 0h 38m 51s"}
+{"loss": 0.10299207, "token_acc": 0.95797645, "grad_norm": 0.87942535, "learning_rate": 7.274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243596, "epoch": 1.74860889, "global_step/max_steps": "22940/65595", "percentage": "34.97%", "elapsed_time": "1d 2h 9m 29s", "remaining_time": "2d 0h 38m 21s"}
+{"loss": 0.11765453, "token_acc": 0.95590858, "grad_norm": 0.5958268, "learning_rate": 7.273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243599, "epoch": 1.74899001, "global_step/max_steps": "22945/65595", "percentage": "34.98%", "elapsed_time": "1d 2h 9m 49s", "remaining_time": "2d 0h 37m 58s"}
+{"loss": 0.15339465, "token_acc": 0.93606983, "grad_norm": 1.11481965, "learning_rate": 7.272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24361, "epoch": 1.74937114, "global_step/max_steps": "22950/65595", "percentage": "34.99%", "elapsed_time": "1d 2h 10m 5s", "remaining_time": "2d 0h 37m 30s"}
+{"loss": 0.10864997, "token_acc": 0.95653915, "grad_norm": 1.29909325, "learning_rate": 7.271e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24362, "epoch": 1.74975227, "global_step/max_steps": "22955/65595", "percentage": "35.00%", "elapsed_time": "1d 2h 10m 22s", "remaining_time": "2d 0h 37m 2s"}
+{"loss": 0.1237, "token_acc": 0.95776135, "grad_norm": 1.50570369, "learning_rate": 7.27e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243632, "epoch": 1.75013339, "global_step/max_steps": "22960/65595", "percentage": "35.00%", "elapsed_time": "1d 2h 10m 38s", "remaining_time": "2d 0h 36m 33s"}
+{"loss": 0.08364887, "token_acc": 0.95321147, "grad_norm": 0.82728183, "learning_rate": 7.269e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243644, "epoch": 1.75051452, "global_step/max_steps": "22965/65595", "percentage": "35.01%", "elapsed_time": "1d 2h 10m 54s", "remaining_time": "2d 0h 36m 4s"}
+{"loss": 0.1200717, "token_acc": 0.95670308, "grad_norm": 0.72230315, "learning_rate": 7.267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243656, "epoch": 1.75089565, "global_step/max_steps": "22970/65595", "percentage": "35.02%", "elapsed_time": "1d 2h 11m 9s", "remaining_time": "2d 0h 35m 34s"}
+{"loss": 0.11781548, "token_acc": 0.95775862, "grad_norm": 1.28884602, "learning_rate": 7.266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243672, "epoch": 1.75127677, "global_step/max_steps": "22975/65595", "percentage": "35.03%", "elapsed_time": "1d 2h 11m 24s", "remaining_time": "2d 0h 35m 2s"}
+{"loss": 0.12833159, "token_acc": 0.94733935, "grad_norm": 0.95921284, "learning_rate": 7.265e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24368, "epoch": 1.7516579, "global_step/max_steps": "22980/65595", "percentage": "35.03%", "elapsed_time": "1d 2h 11m 41s", "remaining_time": "2d 0h 34m 37s"}
+{"loss": 0.10888078, "token_acc": 0.96115953, "grad_norm": 0.61624944, "learning_rate": 7.264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24369, "epoch": 1.75203903, "global_step/max_steps": "22985/65595", "percentage": "35.04%", "elapsed_time": "1d 2h 11m 58s", "remaining_time": "2d 0h 34m 8s"}
+{"loss": 0.11367861, "token_acc": 0.95676329, "grad_norm": 0.75387496, "learning_rate": 7.263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243699, "epoch": 1.75242015, "global_step/max_steps": "22990/65595", "percentage": "35.05%", "elapsed_time": "1d 2h 12m 15s", "remaining_time": "2d 0h 33m 41s"}
+{"loss": 0.14430721, "token_acc": 0.94644167, "grad_norm": 0.88006967, "learning_rate": 7.262e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243712, "epoch": 1.75280128, "global_step/max_steps": "22995/65595", "percentage": "35.06%", "elapsed_time": "1d 2h 12m 30s", "remaining_time": "2d 0h 33m 12s"}
+{"loss": 0.10905044, "token_acc": 0.96019135, "grad_norm": 0.60202342, "learning_rate": 7.261e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243723, "epoch": 1.75318241, "global_step/max_steps": "23000/65595", "percentage": "35.06%", "elapsed_time": "1d 2h 12m 47s", "remaining_time": "2d 0h 32m 44s"}
+{"eval_loss": 0.09414472, "eval_token_acc": 0.95726161, "eval_runtime": 217.1729, "eval_samples_per_second": 2.44, "eval_steps_per_second": 2.44, "epoch": 1.75318241, "global_step/max_steps": "23000/65595", "percentage": "35.06%", "elapsed_time": "1d 2h 16m 24s", "remaining_time": "2d 0h 39m 26s"}
+{"loss": 0.0867744, "token_acc": 0.95808547, "grad_norm": 0.56819659, "learning_rate": 7.26e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243167, "epoch": 1.75356353, "global_step/max_steps": "23005/65595", "percentage": "35.07%", "elapsed_time": "1d 2h 16m 43s", "remaining_time": "2d 0h 39m 3s"}
+{"loss": 0.12059934, "token_acc": 0.9505719, "grad_norm": 0.83150512, "learning_rate": 7.259e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243182, "epoch": 1.75394466, "global_step/max_steps": "23010/65595", "percentage": "35.08%", "elapsed_time": "1d 2h 16m 58s", "remaining_time": "2d 0h 38m 31s"}
+{"loss": 0.10595241, "token_acc": 0.95647873, "grad_norm": 1.53553593, "learning_rate": 7.258e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243202, "epoch": 1.75432579, "global_step/max_steps": "23015/65595", "percentage": "35.09%", "elapsed_time": "1d 2h 17m 11s", "remaining_time": "2d 0h 37m 57s"}
+{"loss": 0.17497696, "token_acc": 0.93595041, "grad_norm": 0.6026448, "learning_rate": 7.257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243208, "epoch": 1.75470691, "global_step/max_steps": "23020/65595", "percentage": "35.09%", "elapsed_time": "1d 2h 17m 29s", "remaining_time": "2d 0h 37m 32s"}
+{"loss": 0.08585066, "token_acc": 0.95867769, "grad_norm": 0.85044956, "learning_rate": 7.256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243217, "epoch": 1.75508804, "global_step/max_steps": "23025/65595", "percentage": "35.10%", "elapsed_time": "1d 2h 17m 46s", "remaining_time": "2d 0h 37m 4s"}
+{"loss": 0.12331409, "token_acc": 0.96165613, "grad_norm": 0.91495025, "learning_rate": 7.255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243227, "epoch": 1.75546917, "global_step/max_steps": "23030/65595", "percentage": "35.11%", "elapsed_time": "1d 2h 18m 2s", "remaining_time": "2d 0h 36m 36s"}
+{"loss": 0.13077438, "token_acc": 0.95938567, "grad_norm": 1.22122288, "learning_rate": 7.254e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243232, "epoch": 1.75585029, "global_step/max_steps": "23035/65595", "percentage": "35.12%", "elapsed_time": "1d 2h 18m 21s", "remaining_time": "2d 0h 36m 12s"}
+{"loss": 0.11745294, "token_acc": 0.95141491, "grad_norm": 0.54493076, "learning_rate": 7.252e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243239, "epoch": 1.75623142, "global_step/max_steps": "23040/65595", "percentage": "35.12%", "elapsed_time": "1d 2h 18m 39s", "remaining_time": "2d 0h 35m 47s"}
+{"loss": 0.12032512, "token_acc": 0.95353195, "grad_norm": 0.78340769, "learning_rate": 7.251e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243249, "epoch": 1.75661255, "global_step/max_steps": "23045/65595", "percentage": "35.13%", "elapsed_time": "1d 2h 18m 56s", "remaining_time": "2d 0h 35m 19s"}
+{"loss": 0.12421556, "token_acc": 0.96111277, "grad_norm": 1.25631249, "learning_rate": 7.25e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243261, "epoch": 1.75699367, "global_step/max_steps": "23050/65595", "percentage": "35.14%", "elapsed_time": "1d 2h 19m 11s", "remaining_time": "2d 0h 34m 50s"}
+{"loss": 0.10142577, "token_acc": 0.95641876, "grad_norm": 0.77943987, "learning_rate": 7.249e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24327, "epoch": 1.7573748, "global_step/max_steps": "23055/65595", "percentage": "35.15%", "elapsed_time": "1d 2h 19m 29s", "remaining_time": "2d 0h 34m 23s"}
+{"loss": 0.11984881, "token_acc": 0.95333973, "grad_norm": 1.37740302, "learning_rate": 7.248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243281, "epoch": 1.75775593, "global_step/max_steps": "23060/65595", "percentage": "35.16%", "elapsed_time": "1d 2h 19m 45s", "remaining_time": "2d 0h 33m 54s"}
+{"loss": 0.14329617, "token_acc": 0.94718793, "grad_norm": 1.60787237, "learning_rate": 7.247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243286, "epoch": 1.75813705, "global_step/max_steps": "23065/65595", "percentage": "35.16%", "elapsed_time": "1d 2h 20m 3s", "remaining_time": "2d 0h 33m 30s"}
+{"loss": 0.11465667, "token_acc": 0.94947949, "grad_norm": 1.74431801, "learning_rate": 7.246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243302, "epoch": 1.75851818, "global_step/max_steps": "23070/65595", "percentage": "35.17%", "elapsed_time": "1d 2h 20m 18s", "remaining_time": "2d 0h 32m 59s"}
+{"loss": 0.10880122, "token_acc": 0.96440343, "grad_norm": 0.81203401, "learning_rate": 7.245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243306, "epoch": 1.75889931, "global_step/max_steps": "23075/65595", "percentage": "35.18%", "elapsed_time": "1d 2h 20m 37s", "remaining_time": "2d 0h 32m 35s"}
+{"loss": 0.12735351, "token_acc": 0.94678261, "grad_norm": 0.91063046, "learning_rate": 7.244e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243321, "epoch": 1.75928043, "global_step/max_steps": "23080/65595", "percentage": "35.19%", "elapsed_time": "1d 2h 20m 51s", "remaining_time": "2d 0h 32m 4s"}
+{"loss": 0.06961271, "token_acc": 0.97057569, "grad_norm": 0.97257298, "learning_rate": 7.243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243327, "epoch": 1.75966156, "global_step/max_steps": "23085/65595", "percentage": "35.19%", "elapsed_time": "1d 2h 21m 10s", "remaining_time": "2d 0h 31m 38s"}
+{"loss": 0.12175641, "token_acc": 0.96112663, "grad_norm": 1.07741392, "learning_rate": 7.242e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243336, "epoch": 1.76004269, "global_step/max_steps": "23090/65595", "percentage": "35.20%", "elapsed_time": "1d 2h 21m 27s", "remaining_time": "2d 0h 31m 12s"}
+{"loss": 0.12707732, "token_acc": 0.95156695, "grad_norm": 1.44558942, "learning_rate": 7.241e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243348, "epoch": 1.76042381, "global_step/max_steps": "23095/65595", "percentage": "35.21%", "elapsed_time": "1d 2h 21m 42s", "remaining_time": "2d 0h 30m 42s"}
+{"loss": 0.12384323, "token_acc": 0.95030358, "grad_norm": 0.6113494, "learning_rate": 7.24e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243358, "epoch": 1.76080494, "global_step/max_steps": "23100/65595", "percentage": "35.22%", "elapsed_time": "1d 2h 21m 59s", "remaining_time": "2d 0h 30m 15s"}
+{"loss": 0.07339001, "token_acc": 0.97076681, "grad_norm": 0.58901918, "learning_rate": 7.239e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243367, "epoch": 1.76118607, "global_step/max_steps": "23105/65595", "percentage": "35.22%", "elapsed_time": "1d 2h 22m 16s", "remaining_time": "2d 0h 29m 48s"}
+{"loss": 0.10564058, "token_acc": 0.95438811, "grad_norm": 0.66037732, "learning_rate": 7.238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24337, "epoch": 1.76156719, "global_step/max_steps": "23110/65595", "percentage": "35.23%", "elapsed_time": "1d 2h 22m 36s", "remaining_time": "2d 0h 29m 25s"}
+{"loss": 0.099029, "token_acc": 0.95379338, "grad_norm": 0.91810423, "learning_rate": 7.236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24338, "epoch": 1.76194832, "global_step/max_steps": "23115/65595", "percentage": "35.24%", "elapsed_time": "1d 2h 22m 52s", "remaining_time": "2d 0h 28m 57s"}
+{"loss": 0.15747384, "token_acc": 0.94086665, "grad_norm": 0.83030462, "learning_rate": 7.235e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243392, "epoch": 1.76232945, "global_step/max_steps": "23120/65595", "percentage": "35.25%", "elapsed_time": "1d 2h 23m 8s", "remaining_time": "2d 0h 28m 28s"}
+{"loss": 0.19199511, "token_acc": 0.93443844, "grad_norm": 0.94776642, "learning_rate": 7.234e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243403, "epoch": 1.76271057, "global_step/max_steps": "23125/65595", "percentage": "35.25%", "elapsed_time": "1d 2h 23m 24s", "remaining_time": "2d 0h 28m 0s"}
+{"loss": 0.10680943, "token_acc": 0.95946991, "grad_norm": 1.04700422, "learning_rate": 7.233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243406, "epoch": 1.7630917, "global_step/max_steps": "23130/65595", "percentage": "35.26%", "elapsed_time": "1d 2h 23m 44s", "remaining_time": "2d 0h 27m 37s"}
+{"loss": 0.05996257, "token_acc": 0.96496212, "grad_norm": 0.95768815, "learning_rate": 7.232e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243423, "epoch": 1.76347283, "global_step/max_steps": "23135/65595", "percentage": "35.27%", "elapsed_time": "1d 2h 23m 58s", "remaining_time": "2d 0h 27m 5s"}
+{"loss": 0.11216645, "token_acc": 0.95848126, "grad_norm": 0.99165839, "learning_rate": 7.231e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243421, "epoch": 1.76385395, "global_step/max_steps": "23140/65595", "percentage": "35.28%", "elapsed_time": "1d 2h 24m 19s", "remaining_time": "2d 0h 26m 45s"}
+{"loss": 0.11570451, "token_acc": 0.95148096, "grad_norm": 0.87965924, "learning_rate": 7.23e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243434, "epoch": 1.76423508, "global_step/max_steps": "23145/65595", "percentage": "35.28%", "elapsed_time": "1d 2h 24m 34s", "remaining_time": "2d 0h 26m 15s"}
+{"loss": 0.08872859, "token_acc": 0.95275311, "grad_norm": 1.08570361, "learning_rate": 7.229e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243449, "epoch": 1.76461621, "global_step/max_steps": "23150/65595", "percentage": "35.29%", "elapsed_time": "1d 2h 24m 49s", "remaining_time": "2d 0h 25m 44s"}
+{"loss": 0.11091676, "token_acc": 0.95463979, "grad_norm": 0.82742429, "learning_rate": 7.228e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243453, "epoch": 1.76499733, "global_step/max_steps": "23155/65595", "percentage": "35.30%", "elapsed_time": "1d 2h 25m 8s", "remaining_time": "2d 0h 25m 21s"}
+{"loss": 0.12477505, "token_acc": 0.94747605, "grad_norm": 0.88797772, "learning_rate": 7.227e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24345, "epoch": 1.76537846, "global_step/max_steps": "23160/65595", "percentage": "35.31%", "elapsed_time": "1d 2h 25m 30s", "remaining_time": "2d 0h 25m 2s"}
+{"loss": 0.12279443, "token_acc": 0.95390782, "grad_norm": 0.65710974, "learning_rate": 7.226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24346, "epoch": 1.76575959, "global_step/max_steps": "23165/65595", "percentage": "35.32%", "elapsed_time": "1d 2h 25m 46s", "remaining_time": "2d 0h 24m 35s"}
+{"loss": 0.15820497, "token_acc": 0.95559006, "grad_norm": 0.41265792, "learning_rate": 7.225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243467, "epoch": 1.76614071, "global_step/max_steps": "23170/65595", "percentage": "35.32%", "elapsed_time": "1d 2h 26m 4s", "remaining_time": "2d 0h 24m 9s"}
+{"loss": 0.10529749, "token_acc": 0.96278598, "grad_norm": 0.70367587, "learning_rate": 7.224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24347, "epoch": 1.76652184, "global_step/max_steps": "23175/65595", "percentage": "35.33%", "elapsed_time": "1d 2h 26m 24s", "remaining_time": "2d 0h 23m 47s"}
+{"loss": 0.08192024, "token_acc": 0.96451247, "grad_norm": 0.52700269, "learning_rate": 7.223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243474, "epoch": 1.76690297, "global_step/max_steps": "23180/65595", "percentage": "35.34%", "elapsed_time": "1d 2h 26m 43s", "remaining_time": "2d 0h 23m 23s"}
+{"loss": 0.11344775, "token_acc": 0.94974469, "grad_norm": 0.96478808, "learning_rate": 7.221e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243488, "epoch": 1.76728409, "global_step/max_steps": "23185/65595", "percentage": "35.35%", "elapsed_time": "1d 2h 26m 58s", "remaining_time": "2d 0h 22m 52s"}
+{"loss": 0.13512379, "token_acc": 0.95531401, "grad_norm": 0.69183427, "learning_rate": 7.22e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243492, "epoch": 1.76766522, "global_step/max_steps": "23190/65595", "percentage": "35.35%", "elapsed_time": "1d 2h 27m 17s", "remaining_time": "2d 0h 22m 29s"}
+{"loss": 0.11224376, "token_acc": 0.95086898, "grad_norm": 0.81900209, "learning_rate": 7.219e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2435, "epoch": 1.76804634, "global_step/max_steps": "23195/65595", "percentage": "35.36%", "elapsed_time": "1d 2h 27m 34s", "remaining_time": "2d 0h 22m 3s"}
+{"loss": 0.08016596, "token_acc": 0.96635169, "grad_norm": 0.79337275, "learning_rate": 7.218e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243512, "epoch": 1.76842747, "global_step/max_steps": "23200/65595", "percentage": "35.37%", "elapsed_time": "1d 2h 27m 50s", "remaining_time": "2d 0h 21m 34s"}
+{"eval_loss": 0.09565918, "eval_token_acc": 0.9568023, "eval_runtime": 219.1798, "eval_samples_per_second": 2.418, "eval_steps_per_second": 2.418, "epoch": 1.76842747, "global_step/max_steps": "23200/65595", "percentage": "35.37%", "elapsed_time": "1d 2h 31m 29s", "remaining_time": "2d 0h 28m 14s"}
+{"loss": 0.08698221, "token_acc": 0.95698909, "grad_norm": 0.59524584, "learning_rate": 7.217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242969, "epoch": 1.7688086, "global_step/max_steps": "23205/65595", "percentage": "35.38%", "elapsed_time": "1d 2h 31m 43s", "remaining_time": "2d 0h 27m 42s"}
+{"loss": 0.09245144, "token_acc": 0.95633528, "grad_norm": 0.40517449, "learning_rate": 7.216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242978, "epoch": 1.76918972, "global_step/max_steps": "23210/65595", "percentage": "35.38%", "elapsed_time": "1d 2h 32m 0s", "remaining_time": "2d 0h 27m 15s"}
+{"loss": 0.08079149, "token_acc": 0.96593002, "grad_norm": 0.04934884, "learning_rate": 7.215e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242985, "epoch": 1.76957085, "global_step/max_steps": "23215/65595", "percentage": "35.39%", "elapsed_time": "1d 2h 32m 18s", "remaining_time": "2d 0h 26m 49s"}
+{"loss": 0.11921542, "token_acc": 0.95275392, "grad_norm": 0.72413528, "learning_rate": 7.214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242998, "epoch": 1.76995198, "global_step/max_steps": "23220/65595", "percentage": "35.40%", "elapsed_time": "1d 2h 32m 34s", "remaining_time": "2d 0h 26m 20s"}
+{"loss": 0.11828763, "token_acc": 0.95779601, "grad_norm": 0.65199041, "learning_rate": 7.213e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243004, "epoch": 1.7703331, "global_step/max_steps": "23225/65595", "percentage": "35.41%", "elapsed_time": "1d 2h 32m 52s", "remaining_time": "2d 0h 25m 55s"}
+{"loss": 0.13674209, "token_acc": 0.94957386, "grad_norm": 1.00552428, "learning_rate": 7.212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243014, "epoch": 1.77071423, "global_step/max_steps": "23230/65595", "percentage": "35.41%", "elapsed_time": "1d 2h 33m 8s", "remaining_time": "2d 0h 25m 27s"}
+{"loss": 0.15468508, "token_acc": 0.9463649, "grad_norm": 0.55492294, "learning_rate": 7.211e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24302, "epoch": 1.77109536, "global_step/max_steps": "23235/65595", "percentage": "35.42%", "elapsed_time": "1d 2h 33m 27s", "remaining_time": "2d 0h 25m 2s"}
+{"loss": 0.13295701, "token_acc": 0.9537456, "grad_norm": 1.57408011, "learning_rate": 7.21e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243026, "epoch": 1.77147648, "global_step/max_steps": "23240/65595", "percentage": "35.43%", "elapsed_time": "1d 2h 33m 45s", "remaining_time": "2d 0h 24m 37s"}
+{"loss": 0.12772548, "token_acc": 0.94588791, "grad_norm": 1.02709019, "learning_rate": 7.209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243038, "epoch": 1.77185761, "global_step/max_steps": "23245/65595", "percentage": "35.44%", "elapsed_time": "1d 2h 34m 1s", "remaining_time": "2d 0h 24m 8s"}
+{"loss": 0.09956609, "token_acc": 0.95433496, "grad_norm": 1.04980648, "learning_rate": 7.207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243044, "epoch": 1.77223874, "global_step/max_steps": "23250/65595", "percentage": "35.44%", "elapsed_time": "1d 2h 34m 19s", "remaining_time": "2d 0h 23m 43s"}
+{"loss": 0.14460324, "token_acc": 0.94831308, "grad_norm": 0.73023164, "learning_rate": 7.206e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243038, "epoch": 1.77261986, "global_step/max_steps": "23255/65595", "percentage": "35.45%", "elapsed_time": "1d 2h 34m 42s", "remaining_time": "2d 0h 23m 27s"}
+{"loss": 0.13976681, "token_acc": 0.95279172, "grad_norm": 0.74472165, "learning_rate": 7.205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243043, "epoch": 1.77300099, "global_step/max_steps": "23260/65595", "percentage": "35.46%", "elapsed_time": "1d 2h 35m 1s", "remaining_time": "2d 0h 23m 3s"}
+{"loss": 0.12363839, "token_acc": 0.95777398, "grad_norm": 0.5818156, "learning_rate": 7.204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243053, "epoch": 1.77338212, "global_step/max_steps": "23265/65595", "percentage": "35.47%", "elapsed_time": "1d 2h 35m 17s", "remaining_time": "2d 0h 22m 35s"}
+{"loss": 0.07917478, "token_acc": 0.96760911, "grad_norm": 0.64361149, "learning_rate": 7.203e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243064, "epoch": 1.77376324, "global_step/max_steps": "23270/65595", "percentage": "35.48%", "elapsed_time": "1d 2h 35m 33s", "remaining_time": "2d 0h 22m 6s"}
+{"loss": 0.10141604, "token_acc": 0.96053802, "grad_norm": 0.70101231, "learning_rate": 7.202e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243061, "epoch": 1.77414437, "global_step/max_steps": "23275/65595", "percentage": "35.48%", "elapsed_time": "1d 2h 35m 55s", "remaining_time": "2d 0h 21m 48s"}
+{"loss": 0.11140587, "token_acc": 0.96288933, "grad_norm": 0.82040209, "learning_rate": 7.201e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243075, "epoch": 1.7745255, "global_step/max_steps": "23280/65595", "percentage": "35.49%", "elapsed_time": "1d 2h 36m 10s", "remaining_time": "2d 0h 21m 18s"}
+{"loss": 0.09179417, "token_acc": 0.96266073, "grad_norm": 0.42175946, "learning_rate": 7.2e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243083, "epoch": 1.77490662, "global_step/max_steps": "23285/65595", "percentage": "35.50%", "elapsed_time": "1d 2h 36m 27s", "remaining_time": "2d 0h 20m 51s"}
+{"loss": 0.10547811, "token_acc": 0.95816464, "grad_norm": 1.4727509, "learning_rate": 7.199e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24309, "epoch": 1.77528775, "global_step/max_steps": "23290/65595", "percentage": "35.51%", "elapsed_time": "1d 2h 36m 46s", "remaining_time": "2d 0h 20m 26s"}
+{"loss": 0.1064399, "token_acc": 0.96391195, "grad_norm": 0.79030436, "learning_rate": 7.198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243104, "epoch": 1.77566888, "global_step/max_steps": "23295/65595", "percentage": "35.51%", "elapsed_time": "1d 2h 37m 0s", "remaining_time": "2d 0h 19m 55s"}
+{"loss": 0.10060264, "token_acc": 0.95898339, "grad_norm": 0.57198942, "learning_rate": 7.197e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243103, "epoch": 1.77605, "global_step/max_steps": "23300/65595", "percentage": "35.52%", "elapsed_time": "1d 2h 37m 21s", "remaining_time": "2d 0h 19m 35s"}
+{"loss": 0.09506223, "token_acc": 0.95623216, "grad_norm": 0.77877843, "learning_rate": 7.196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243117, "epoch": 1.77643113, "global_step/max_steps": "23305/65595", "percentage": "35.53%", "elapsed_time": "1d 2h 37m 37s", "remaining_time": "2d 0h 19m 5s"}
+{"loss": 0.09597482, "token_acc": 0.96387121, "grad_norm": 2.13336444, "learning_rate": 7.195e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243121, "epoch": 1.77681226, "global_step/max_steps": "23310/65595", "percentage": "35.54%", "elapsed_time": "1d 2h 37m 55s", "remaining_time": "2d 0h 18m 41s"}
+{"loss": 0.13365068, "token_acc": 0.94460432, "grad_norm": 0.57843024, "learning_rate": 7.194e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243134, "epoch": 1.77719338, "global_step/max_steps": "23315/65595", "percentage": "35.54%", "elapsed_time": "1d 2h 38m 11s", "remaining_time": "2d 0h 18m 12s"}
+{"loss": 0.12638185, "token_acc": 0.96347274, "grad_norm": 0.17264353, "learning_rate": 7.192e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243144, "epoch": 1.77757451, "global_step/max_steps": "23320/65595", "percentage": "35.55%", "elapsed_time": "1d 2h 38m 27s", "remaining_time": "2d 0h 17m 43s"}
+{"loss": 0.10031935, "token_acc": 0.9567064, "grad_norm": 0.6785112, "learning_rate": 7.191e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243144, "epoch": 1.77795564, "global_step/max_steps": "23325/65595", "percentage": "35.56%", "elapsed_time": "1d 2h 38m 48s", "remaining_time": "2d 0h 17m 23s"}
+{"loss": 0.10378314, "token_acc": 0.96072607, "grad_norm": 0.81256038, "learning_rate": 7.19e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243156, "epoch": 1.77833676, "global_step/max_steps": "23330/65595", "percentage": "35.57%", "elapsed_time": "1d 2h 39m 4s", "remaining_time": "2d 0h 16m 54s"}
+{"loss": 0.08221934, "token_acc": 0.96667258, "grad_norm": 0.53629702, "learning_rate": 7.189e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243162, "epoch": 1.77871789, "global_step/max_steps": "23335/65595", "percentage": "35.57%", "elapsed_time": "1d 2h 39m 22s", "remaining_time": "2d 0h 16m 29s"}
+{"loss": 0.08355308, "token_acc": 0.96830144, "grad_norm": 1.10729802, "learning_rate": 7.188e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243169, "epoch": 1.77909902, "global_step/max_steps": "23340/65595", "percentage": "35.58%", "elapsed_time": "1d 2h 39m 40s", "remaining_time": "2d 0h 16m 4s"}
+{"loss": 0.05584652, "token_acc": 0.97514996, "grad_norm": 0.11157569, "learning_rate": 7.187e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24318, "epoch": 1.77948014, "global_step/max_steps": "23345/65595", "percentage": "35.59%", "elapsed_time": "1d 2h 39m 56s", "remaining_time": "2d 0h 15m 35s"}
+{"loss": 0.09777765, "token_acc": 0.95721925, "grad_norm": 0.55016536, "learning_rate": 7.186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24319, "epoch": 1.77986127, "global_step/max_steps": "23350/65595", "percentage": "35.60%", "elapsed_time": "1d 2h 40m 13s", "remaining_time": "2d 0h 15m 7s"}
+{"loss": 0.16942486, "token_acc": 0.9228249, "grad_norm": 1.5019244, "learning_rate": 7.185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243203, "epoch": 1.7802424, "global_step/max_steps": "23355/65595", "percentage": "35.60%", "elapsed_time": "1d 2h 40m 28s", "remaining_time": "2d 0h 14m 37s"}
+{"loss": 0.09031523, "token_acc": 0.96570659, "grad_norm": 1.09517753, "learning_rate": 7.184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243204, "epoch": 1.78062352, "global_step/max_steps": "23360/65595", "percentage": "35.61%", "elapsed_time": "1d 2h 40m 48s", "remaining_time": "2d 0h 14m 16s"}
+{"loss": 0.1373579, "token_acc": 0.94516775, "grad_norm": 1.09679866, "learning_rate": 7.183e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243206, "epoch": 1.78100465, "global_step/max_steps": "23365/65595", "percentage": "35.62%", "elapsed_time": "1d 2h 41m 8s", "remaining_time": "2d 0h 13m 54s"}
+{"loss": 0.10652425, "token_acc": 0.94818653, "grad_norm": 0.70947087, "learning_rate": 7.182e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243222, "epoch": 1.78138578, "global_step/max_steps": "23370/65595", "percentage": "35.63%", "elapsed_time": "1d 2h 41m 22s", "remaining_time": "2d 0h 13m 22s"}
+{"loss": 0.15779188, "token_acc": 0.94044044, "grad_norm": 1.0670284, "learning_rate": 7.181e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24323, "epoch": 1.7817669, "global_step/max_steps": "23375/65595", "percentage": "35.64%", "elapsed_time": "1d 2h 41m 40s", "remaining_time": "2d 0h 12m 56s"}
+{"loss": 0.08598158, "token_acc": 0.96778584, "grad_norm": 0.56550437, "learning_rate": 7.18e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24324, "epoch": 1.78214803, "global_step/max_steps": "23380/65595", "percentage": "35.64%", "elapsed_time": "1d 2h 41m 56s", "remaining_time": "2d 0h 12m 28s"}
+{"loss": 0.12107913, "token_acc": 0.9538491, "grad_norm": 0.73307598, "learning_rate": 7.178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243248, "epoch": 1.78252916, "global_step/max_steps": "23385/65595", "percentage": "35.65%", "elapsed_time": "1d 2h 42m 14s", "remaining_time": "2d 0h 12m 2s"}
+{"loss": 0.10400419, "token_acc": 0.96400058, "grad_norm": 0.91210139, "learning_rate": 7.177e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24325, "epoch": 1.78291028, "global_step/max_steps": "23390/65595", "percentage": "35.66%", "elapsed_time": "1d 2h 42m 34s", "remaining_time": "2d 0h 11m 40s"}
+{"loss": 0.08179396, "token_acc": 0.9664981, "grad_norm": 2.06502557, "learning_rate": 7.176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243255, "epoch": 1.78329141, "global_step/max_steps": "23395/65595", "percentage": "35.67%", "elapsed_time": "1d 2h 42m 52s", "remaining_time": "2d 0h 11m 16s"}
+{"loss": 0.12859308, "token_acc": 0.93996024, "grad_norm": 1.07469726, "learning_rate": 7.175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243266, "epoch": 1.78367254, "global_step/max_steps": "23400/65595", "percentage": "35.67%", "elapsed_time": "1d 2h 43m 8s", "remaining_time": "2d 0h 10m 47s"}
+{"eval_loss": 0.09479209, "eval_token_acc": 0.95737456, "eval_runtime": 217.8913, "eval_samples_per_second": 2.432, "eval_steps_per_second": 2.432, "epoch": 1.78367254, "global_step/max_steps": "23400/65595", "percentage": "35.67%", "elapsed_time": "1d 2h 46m 46s", "remaining_time": "2d 0h 17m 20s"}
+{"loss": 0.10693862, "token_acc": 0.95758892, "grad_norm": 0.60068846, "learning_rate": 7.174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242724, "epoch": 1.78405366, "global_step/max_steps": "23405/65595", "percentage": "35.68%", "elapsed_time": "1d 2h 47m 4s", "remaining_time": "2d 0h 16m 54s"}
+{"loss": 0.17684112, "token_acc": 0.94168591, "grad_norm": 1.53535879, "learning_rate": 7.173e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242736, "epoch": 1.78443479, "global_step/max_steps": "23410/65595", "percentage": "35.69%", "elapsed_time": "1d 2h 47m 19s", "remaining_time": "2d 0h 16m 25s"}
+{"loss": 0.07659239, "token_acc": 0.96303181, "grad_norm": 0.79484046, "learning_rate": 7.172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242748, "epoch": 1.78481592, "global_step/max_steps": "23415/65595", "percentage": "35.70%", "elapsed_time": "1d 2h 47m 35s", "remaining_time": "2d 0h 15m 56s"}
+{"loss": 0.09676731, "token_acc": 0.97101921, "grad_norm": 1.38154626, "learning_rate": 7.171e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242762, "epoch": 1.78519704, "global_step/max_steps": "23420/65595", "percentage": "35.70%", "elapsed_time": "1d 2h 47m 50s", "remaining_time": "2d 0h 15m 25s"}
+{"loss": 0.12441442, "token_acc": 0.94995532, "grad_norm": 0.71175951, "learning_rate": 7.17e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24277, "epoch": 1.78557817, "global_step/max_steps": "23425/65595", "percentage": "35.71%", "elapsed_time": "1d 2h 48m 8s", "remaining_time": "2d 0h 14m 59s"}
+{"loss": 0.09868788, "token_acc": 0.95238095, "grad_norm": 0.85529149, "learning_rate": 7.169e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242787, "epoch": 1.7859593, "global_step/max_steps": "23430/65595", "percentage": "35.72%", "elapsed_time": "1d 2h 48m 22s", "remaining_time": "2d 0h 14m 26s"}
+{"loss": 0.08391751, "token_acc": 0.96524428, "grad_norm": 0.68354529, "learning_rate": 7.168e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242785, "epoch": 1.78634042, "global_step/max_steps": "23435/65595", "percentage": "35.73%", "elapsed_time": "1d 2h 48m 43s", "remaining_time": "2d 0h 14m 7s"}
+{"loss": 0.11715716, "token_acc": 0.93984742, "grad_norm": 0.81859082, "learning_rate": 7.167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242797, "epoch": 1.78672155, "global_step/max_steps": "23440/65595", "percentage": "35.73%", "elapsed_time": "1d 2h 48m 59s", "remaining_time": "2d 0h 13m 38s"}
+{"loss": 0.13731251, "token_acc": 0.93878931, "grad_norm": 0.79568422, "learning_rate": 7.165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242812, "epoch": 1.78710268, "global_step/max_steps": "23445/65595", "percentage": "35.74%", "elapsed_time": "1d 2h 49m 14s", "remaining_time": "2d 0h 13m 7s"}
+{"loss": 0.18375785, "token_acc": 0.94847269, "grad_norm": 0.77581728, "learning_rate": 7.164e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242823, "epoch": 1.7874838, "global_step/max_steps": "23450/65595", "percentage": "35.75%", "elapsed_time": "1d 2h 49m 30s", "remaining_time": "2d 0h 12m 38s"}
+{"loss": 0.13761688, "token_acc": 0.95151515, "grad_norm": 0.62435192, "learning_rate": 7.163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242837, "epoch": 1.78786493, "global_step/max_steps": "23455/65595", "percentage": "35.76%", "elapsed_time": "1d 2h 49m 45s", "remaining_time": "2d 0h 12m 8s"}
+{"loss": 0.08399779, "token_acc": 0.96488294, "grad_norm": 0.93243384, "learning_rate": 7.162e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242846, "epoch": 1.78824606, "global_step/max_steps": "23460/65595", "percentage": "35.76%", "elapsed_time": "1d 2h 50m 2s", "remaining_time": "2d 0h 11m 40s"}
+{"loss": 0.1078642, "token_acc": 0.96557971, "grad_norm": 0.60197973, "learning_rate": 7.161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24285, "epoch": 1.78862718, "global_step/max_steps": "23465/65595", "percentage": "35.77%", "elapsed_time": "1d 2h 50m 21s", "remaining_time": "2d 0h 11m 17s"}
+{"loss": 0.07087836, "token_acc": 0.96668276, "grad_norm": 0.63380003, "learning_rate": 7.16e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242861, "epoch": 1.78900831, "global_step/max_steps": "23470/65595", "percentage": "35.78%", "elapsed_time": "1d 2h 50m 37s", "remaining_time": "2d 0h 10m 48s"}
+{"loss": 0.15308601, "token_acc": 0.9308789, "grad_norm": 0.81834358, "learning_rate": 7.159e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242872, "epoch": 1.78938944, "global_step/max_steps": "23475/65595", "percentage": "35.79%", "elapsed_time": "1d 2h 50m 53s", "remaining_time": "2d 0h 10m 20s"}
+{"loss": 0.13148143, "token_acc": 0.95115188, "grad_norm": 0.80986261, "learning_rate": 7.158e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242883, "epoch": 1.78977056, "global_step/max_steps": "23480/65595", "percentage": "35.80%", "elapsed_time": "1d 2h 51m 9s", "remaining_time": "2d 0h 9m 52s"}
+{"loss": 0.09728869, "token_acc": 0.96216716, "grad_norm": 0.44494465, "learning_rate": 7.157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242878, "epoch": 1.79015169, "global_step/max_steps": "23485/65595", "percentage": "35.80%", "elapsed_time": "1d 2h 51m 32s", "remaining_time": "2d 0h 9m 35s"}
+{"loss": 0.0948029, "token_acc": 0.95730671, "grad_norm": 0.74268663, "learning_rate": 7.156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242889, "epoch": 1.79053282, "global_step/max_steps": "23490/65595", "percentage": "35.81%", "elapsed_time": "1d 2h 51m 48s", "remaining_time": "2d 0h 9m 6s"}
+{"loss": 0.14140409, "token_acc": 0.9329955, "grad_norm": 0.71899205, "learning_rate": 7.155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242905, "epoch": 1.79091394, "global_step/max_steps": "23495/65595", "percentage": "35.82%", "elapsed_time": "1d 2h 52m 2s", "remaining_time": "2d 0h 8m 34s"}
+{"loss": 0.12610199, "token_acc": 0.94392123, "grad_norm": 0.90565151, "learning_rate": 7.154e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24292, "epoch": 1.79129507, "global_step/max_steps": "23500/65595", "percentage": "35.83%", "elapsed_time": "1d 2h 52m 17s", "remaining_time": "2d 0h 8m 3s"}
+{"loss": 0.16044986, "token_acc": 0.93683274, "grad_norm": 0.82750678, "learning_rate": 7.153e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242931, "epoch": 1.79167619, "global_step/max_steps": "23505/65595", "percentage": "35.83%", "elapsed_time": "1d 2h 52m 33s", "remaining_time": "2d 0h 7m 35s"}
+{"loss": 0.0961006, "token_acc": 0.96094409, "grad_norm": 0.71235412, "learning_rate": 7.151e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242943, "epoch": 1.79205732, "global_step/max_steps": "23510/65595", "percentage": "35.84%", "elapsed_time": "1d 2h 52m 49s", "remaining_time": "2d 0h 7m 5s"}
+{"loss": 0.12009237, "token_acc": 0.95654545, "grad_norm": 1.04114485, "learning_rate": 7.15e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242948, "epoch": 1.79243845, "global_step/max_steps": "23515/65595", "percentage": "35.85%", "elapsed_time": "1d 2h 53m 8s", "remaining_time": "2d 0h 6m 42s"}
+{"loss": 0.12980776, "token_acc": 0.96069246, "grad_norm": 0.64075279, "learning_rate": 7.149e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242955, "epoch": 1.79281957, "global_step/max_steps": "23520/65595", "percentage": "35.86%", "elapsed_time": "1d 2h 53m 25s", "remaining_time": "2d 0h 6m 15s"}
+{"loss": 0.10800183, "token_acc": 0.95530393, "grad_norm": 0.90467352, "learning_rate": 7.148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242964, "epoch": 1.7932007, "global_step/max_steps": "23525/65595", "percentage": "35.86%", "elapsed_time": "1d 2h 53m 42s", "remaining_time": "2d 0h 5m 49s"}
+{"loss": 0.10586364, "token_acc": 0.96211828, "grad_norm": 0.55776161, "learning_rate": 7.147e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242972, "epoch": 1.79358183, "global_step/max_steps": "23530/65595", "percentage": "35.87%", "elapsed_time": "1d 2h 54m 0s", "remaining_time": "2d 0h 5m 23s"}
+{"loss": 0.08933535, "token_acc": 0.94655963, "grad_norm": 0.67708051, "learning_rate": 7.146e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242985, "epoch": 1.79396295, "global_step/max_steps": "23535/65595", "percentage": "35.88%", "elapsed_time": "1d 2h 54m 15s", "remaining_time": "2d 0h 4m 53s"}
+{"loss": 0.11652226, "token_acc": 0.96353124, "grad_norm": 1.23923516, "learning_rate": 7.145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242996, "epoch": 1.79434408, "global_step/max_steps": "23540/65595", "percentage": "35.89%", "elapsed_time": "1d 2h 54m 31s", "remaining_time": "2d 0h 4m 24s"}
+{"loss": 0.12025707, "token_acc": 0.94950071, "grad_norm": 0.67110974, "learning_rate": 7.144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24301, "epoch": 1.79472521, "global_step/max_steps": "23545/65595", "percentage": "35.89%", "elapsed_time": "1d 2h 54m 46s", "remaining_time": "2d 0h 3m 54s"}
+{"loss": 0.08176945, "token_acc": 0.95956587, "grad_norm": 0.81276792, "learning_rate": 7.143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243019, "epoch": 1.79510633, "global_step/max_steps": "23550/65595", "percentage": "35.90%", "elapsed_time": "1d 2h 55m 3s", "remaining_time": "2d 0h 3m 27s"}
+{"loss": 0.09789879, "token_acc": 0.96156926, "grad_norm": 0.6724152, "learning_rate": 7.142e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24303, "epoch": 1.79548746, "global_step/max_steps": "23555/65595", "percentage": "35.91%", "elapsed_time": "1d 2h 55m 19s", "remaining_time": "2d 0h 2m 58s"}
+{"loss": 0.09813203, "token_acc": 0.95465636, "grad_norm": 0.83458495, "learning_rate": 7.141e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243038, "epoch": 1.79586859, "global_step/max_steps": "23560/65595", "percentage": "35.92%", "elapsed_time": "1d 2h 55m 37s", "remaining_time": "2d 0h 2m 32s"}
+{"loss": 0.12336745, "token_acc": 0.94349564, "grad_norm": 1.13704979, "learning_rate": 7.14e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243048, "epoch": 1.79624971, "global_step/max_steps": "23565/65595", "percentage": "35.92%", "elapsed_time": "1d 2h 55m 53s", "remaining_time": "2d 0h 2m 4s"}
+{"loss": 0.10761334, "token_acc": 0.95242196, "grad_norm": 0.70212454, "learning_rate": 7.138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24306, "epoch": 1.79663084, "global_step/max_steps": "23570/65595", "percentage": "35.93%", "elapsed_time": "1d 2h 56m 9s", "remaining_time": "2d 0h 1m 35s"}
+{"loss": 0.09179342, "token_acc": 0.95836894, "grad_norm": 0.91173977, "learning_rate": 7.137e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243058, "epoch": 1.79701197, "global_step/max_steps": "23575/65595", "percentage": "35.94%", "elapsed_time": "1d 2h 56m 31s", "remaining_time": "2d 0h 1m 16s"}
+{"loss": 0.1269471, "token_acc": 0.95588002, "grad_norm": 1.61456943, "learning_rate": 7.136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243065, "epoch": 1.79739309, "global_step/max_steps": "23580/65595", "percentage": "35.95%", "elapsed_time": "1d 2h 56m 49s", "remaining_time": "2d 0h 0m 51s"}
+{"loss": 0.17786081, "token_acc": 0.93890135, "grad_norm": 1.82638717, "learning_rate": 7.135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243076, "epoch": 1.79777422, "global_step/max_steps": "23585/65595", "percentage": "35.96%", "elapsed_time": "1d 2h 57m 4s", "remaining_time": "2d 0h 0m 22s"}
+{"loss": 0.09682374, "token_acc": 0.95613048, "grad_norm": 1.15873909, "learning_rate": 7.134e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243081, "epoch": 1.79815535, "global_step/max_steps": "23590/65595", "percentage": "35.96%", "elapsed_time": "1d 2h 57m 23s", "remaining_time": "1d 23h 59m 58s"}
+{"loss": 0.12832413, "token_acc": 0.95676203, "grad_norm": 0.59983569, "learning_rate": 7.133e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243094, "epoch": 1.79853647, "global_step/max_steps": "23595/65595", "percentage": "35.97%", "elapsed_time": "1d 2h 57m 39s", "remaining_time": "1d 23h 59m 28s"}
+{"loss": 0.10970693, "token_acc": 0.95121951, "grad_norm": 0.93089503, "learning_rate": 7.132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243105, "epoch": 1.7989176, "global_step/max_steps": "23600/65595", "percentage": "35.98%", "elapsed_time": "1d 2h 57m 55s", "remaining_time": "1d 23h 59m 0s"}
+{"eval_loss": 0.0937003, "eval_token_acc": 0.95746491, "eval_runtime": 219.2979, "eval_samples_per_second": 2.417, "eval_steps_per_second": 2.417, "epoch": 1.7989176, "global_step/max_steps": "23600/65595", "percentage": "35.98%", "elapsed_time": "1d 3h 1m 34s", "remaining_time": "2d 0h 5m 30s"}
+{"loss": 0.11003423, "token_acc": 0.95724359, "grad_norm": 0.82364988, "learning_rate": 7.131e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24256, "epoch": 1.79929873, "global_step/max_steps": "23605/65595", "percentage": "35.99%", "elapsed_time": "1d 3h 1m 54s", "remaining_time": "2d 0h 5m 8s"}
+{"loss": 0.10837595, "token_acc": 0.95616059, "grad_norm": 0.63212419, "learning_rate": 7.13e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24257, "epoch": 1.79967985, "global_step/max_steps": "23610/65595", "percentage": "35.99%", "elapsed_time": "1d 3h 2m 10s", "remaining_time": "2d 0h 4m 39s"}
+{"loss": 0.10675998, "token_acc": 0.95416079, "grad_norm": 1.18684995, "learning_rate": 7.129e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24258, "epoch": 1.80006098, "global_step/max_steps": "23615/65595", "percentage": "36.00%", "elapsed_time": "1d 3h 2m 27s", "remaining_time": "2d 0h 4m 12s"}
+{"loss": 0.12343091, "token_acc": 0.95878265, "grad_norm": 0.38341644, "learning_rate": 7.128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24258, "epoch": 1.80044211, "global_step/max_steps": "23620/65595", "percentage": "36.01%", "elapsed_time": "1d 3h 2m 47s", "remaining_time": "2d 0h 3m 52s"}
+{"loss": 0.10805461, "token_acc": 0.95825147, "grad_norm": 1.03237832, "learning_rate": 7.127e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242584, "epoch": 1.80082323, "global_step/max_steps": "23625/65595", "percentage": "36.02%", "elapsed_time": "1d 3h 3m 6s", "remaining_time": "2d 0h 3m 28s"}
+{"loss": 0.1227993, "token_acc": 0.96576265, "grad_norm": 1.2695955, "learning_rate": 7.125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24259, "epoch": 1.80120436, "global_step/max_steps": "23630/65595", "percentage": "36.02%", "elapsed_time": "1d 3h 3m 25s", "remaining_time": "2d 0h 3m 3s"}
+{"loss": 0.08190087, "token_acc": 0.96800921, "grad_norm": 0.93865299, "learning_rate": 7.124e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242602, "epoch": 1.80158549, "global_step/max_steps": "23635/65595", "percentage": "36.03%", "elapsed_time": "1d 3h 3m 40s", "remaining_time": "2d 0h 2m 34s"}
+{"loss": 0.11005869, "token_acc": 0.95571956, "grad_norm": 0.2688942, "learning_rate": 7.123e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242612, "epoch": 1.80196661, "global_step/max_steps": "23640/65595", "percentage": "36.04%", "elapsed_time": "1d 3h 3m 57s", "remaining_time": "2d 0h 2m 6s"}
+{"loss": 0.13060875, "token_acc": 0.95206637, "grad_norm": 1.37659121, "learning_rate": 7.122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242617, "epoch": 1.80234774, "global_step/max_steps": "23645/65595", "percentage": "36.05%", "elapsed_time": "1d 3h 4m 16s", "remaining_time": "2d 0h 1m 42s"}
+{"loss": 0.10037866, "token_acc": 0.96140419, "grad_norm": 2.12737703, "learning_rate": 7.121e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242624, "epoch": 1.80272887, "global_step/max_steps": "23650/65595", "percentage": "36.05%", "elapsed_time": "1d 3h 4m 33s", "remaining_time": "2d 0h 1m 16s"}
+{"loss": 0.09521732, "token_acc": 0.95020121, "grad_norm": 0.59869349, "learning_rate": 7.12e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242633, "epoch": 1.80310999, "global_step/max_steps": "23655/65595", "percentage": "36.06%", "elapsed_time": "1d 3h 4m 50s", "remaining_time": "2d 0h 0m 49s"}
+{"loss": 0.13615487, "token_acc": 0.93895234, "grad_norm": 0.74418491, "learning_rate": 7.119e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242645, "epoch": 1.80349112, "global_step/max_steps": "23660/65595", "percentage": "36.07%", "elapsed_time": "1d 3h 5m 6s", "remaining_time": "2d 0h 0m 20s"}
+{"loss": 0.1288764, "token_acc": 0.95304322, "grad_norm": 0.68739909, "learning_rate": 7.118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24265, "epoch": 1.80387225, "global_step/max_steps": "23665/65595", "percentage": "36.08%", "elapsed_time": "1d 3h 5m 24s", "remaining_time": "1d 23h 59m 56s"}
+{"loss": 0.11310838, "token_acc": 0.95177459, "grad_norm": 1.44135368, "learning_rate": 7.117e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242663, "epoch": 1.80425337, "global_step/max_steps": "23670/65595", "percentage": "36.09%", "elapsed_time": "1d 3h 5m 40s", "remaining_time": "1d 23h 59m 26s"}
+{"loss": 0.1074899, "token_acc": 0.95690959, "grad_norm": 0.81421995, "learning_rate": 7.116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242671, "epoch": 1.8046345, "global_step/max_steps": "23675/65595", "percentage": "36.09%", "elapsed_time": "1d 3h 5m 57s", "remaining_time": "1d 23h 59m 0s"}
+{"loss": 0.12438159, "token_acc": 0.95004205, "grad_norm": 0.66860175, "learning_rate": 7.115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242679, "epoch": 1.80501563, "global_step/max_steps": "23680/65595", "percentage": "36.10%", "elapsed_time": "1d 3h 6m 15s", "remaining_time": "1d 23h 58m 33s"}
+{"loss": 0.08197991, "token_acc": 0.95549562, "grad_norm": 1.28302622, "learning_rate": 7.114e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242695, "epoch": 1.80539675, "global_step/max_steps": "23685/65595", "percentage": "36.11%", "elapsed_time": "1d 3h 6m 29s", "remaining_time": "1d 23h 58m 1s"}
+{"loss": 0.1226493, "token_acc": 0.9433315, "grad_norm": 0.79948008, "learning_rate": 7.112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242703, "epoch": 1.80577788, "global_step/max_steps": "23690/65595", "percentage": "36.12%", "elapsed_time": "1d 3h 6m 46s", "remaining_time": "1d 23h 57m 35s"}
+{"loss": 0.10996311, "token_acc": 0.95680473, "grad_norm": 1.15793312, "learning_rate": 7.111e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24272, "epoch": 1.80615901, "global_step/max_steps": "23695/65595", "percentage": "36.12%", "elapsed_time": "1d 3h 7m 0s", "remaining_time": "1d 23h 57m 3s"}
+{"loss": 0.07946839, "token_acc": 0.96756307, "grad_norm": 0.70256937, "learning_rate": 7.11e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242734, "epoch": 1.80654013, "global_step/max_steps": "23700/65595", "percentage": "36.13%", "elapsed_time": "1d 3h 7m 15s", "remaining_time": "1d 23h 56m 32s"}
+{"loss": 0.08604158, "token_acc": 0.97494922, "grad_norm": 0.68593466, "learning_rate": 7.109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242747, "epoch": 1.80692126, "global_step/max_steps": "23705/65595", "percentage": "36.14%", "elapsed_time": "1d 3h 7m 30s", "remaining_time": "1d 23h 56m 2s"}
+{"loss": 0.08363773, "token_acc": 0.97356322, "grad_norm": 0.86649728, "learning_rate": 7.108e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24276, "epoch": 1.80730239, "global_step/max_steps": "23710/65595", "percentage": "36.15%", "elapsed_time": "1d 3h 7m 46s", "remaining_time": "1d 23h 55m 32s"}
+{"loss": 0.13259265, "token_acc": 0.95577479, "grad_norm": 1.3545655, "learning_rate": 7.107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242765, "epoch": 1.80768351, "global_step/max_steps": "23715/65595", "percentage": "36.15%", "elapsed_time": "1d 3h 8m 4s", "remaining_time": "1d 23h 55m 8s"}
+{"loss": 0.09402598, "token_acc": 0.95419134, "grad_norm": 0.19057348, "learning_rate": 7.106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242779, "epoch": 1.80806464, "global_step/max_steps": "23720/65595", "percentage": "36.16%", "elapsed_time": "1d 3h 8m 19s", "remaining_time": "1d 23h 54m 38s"}
+{"loss": 0.14055645, "token_acc": 0.94829369, "grad_norm": 1.50176847, "learning_rate": 7.105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24279, "epoch": 1.80844577, "global_step/max_steps": "23725/65595", "percentage": "36.17%", "elapsed_time": "1d 3h 8m 36s", "remaining_time": "1d 23h 54m 9s"}
+{"loss": 0.1142433, "token_acc": 0.95882701, "grad_norm": 0.62561893, "learning_rate": 7.104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242795, "epoch": 1.80882689, "global_step/max_steps": "23730/65595", "percentage": "36.18%", "elapsed_time": "1d 3h 8m 54s", "remaining_time": "1d 23h 53m 45s"}
+{"loss": 0.0973219, "token_acc": 0.96397721, "grad_norm": 0.42148346, "learning_rate": 7.103e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2428, "epoch": 1.80920802, "global_step/max_steps": "23735/65595", "percentage": "36.18%", "elapsed_time": "1d 3h 9m 13s", "remaining_time": "1d 23h 53m 21s"}
+{"loss": 0.1119146, "token_acc": 0.9570011, "grad_norm": 0.87219155, "learning_rate": 7.102e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242807, "epoch": 1.80958915, "global_step/max_steps": "23740/65595", "percentage": "36.19%", "elapsed_time": "1d 3h 9m 30s", "remaining_time": "1d 23h 52m 55s"}
+{"loss": 0.09905914, "token_acc": 0.95384615, "grad_norm": 0.77642083, "learning_rate": 7.101e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242821, "epoch": 1.80997027, "global_step/max_steps": "23745/65595", "percentage": "36.20%", "elapsed_time": "1d 3h 9m 45s", "remaining_time": "1d 23h 52m 25s"}
+{"loss": 0.09862114, "token_acc": 0.95440415, "grad_norm": 0.31056094, "learning_rate": 7.099e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242835, "epoch": 1.8103514, "global_step/max_steps": "23750/65595", "percentage": "36.21%", "elapsed_time": "1d 3h 10m 0s", "remaining_time": "1d 23h 51m 54s"}
+{"loss": 0.13991617, "token_acc": 0.94388289, "grad_norm": 0.70878154, "learning_rate": 7.098e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242849, "epoch": 1.81073253, "global_step/max_steps": "23755/65595", "percentage": "36.21%", "elapsed_time": "1d 3h 10m 15s", "remaining_time": "1d 23h 51m 24s"}
+{"loss": 0.10878216, "token_acc": 0.96137946, "grad_norm": 0.44283456, "learning_rate": 7.097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242852, "epoch": 1.81111365, "global_step/max_steps": "23760/65595", "percentage": "36.22%", "elapsed_time": "1d 3h 10m 35s", "remaining_time": "1d 23h 51m 1s"}
+{"loss": 0.12076716, "token_acc": 0.95969423, "grad_norm": 1.99423468, "learning_rate": 7.096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242864, "epoch": 1.81149478, "global_step/max_steps": "23765/65595", "percentage": "36.23%", "elapsed_time": "1d 3h 10m 50s", "remaining_time": "1d 23h 50m 32s"}
+{"loss": 0.11307594, "token_acc": 0.95724004, "grad_norm": 0.88898826, "learning_rate": 7.095e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242874, "epoch": 1.81187591, "global_step/max_steps": "23770/65595", "percentage": "36.24%", "elapsed_time": "1d 3h 11m 7s", "remaining_time": "1d 23h 50m 4s"}
+{"loss": 0.06535945, "token_acc": 0.96908363, "grad_norm": 0.58690208, "learning_rate": 7.094e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242884, "epoch": 1.81225703, "global_step/max_steps": "23775/65595", "percentage": "36.25%", "elapsed_time": "1d 3h 11m 23s", "remaining_time": "1d 23h 49m 36s"}
+{"loss": 0.0911248, "token_acc": 0.96139802, "grad_norm": 1.20154643, "learning_rate": 7.093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2429, "epoch": 1.81263816, "global_step/max_steps": "23780/65595", "percentage": "36.25%", "elapsed_time": "1d 3h 11m 38s", "remaining_time": "1d 23h 49m 4s"}
+{"loss": 0.11794076, "token_acc": 0.95346833, "grad_norm": 0.57328212, "learning_rate": 7.092e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242916, "epoch": 1.81301929, "global_step/max_steps": "23785/65595", "percentage": "36.26%", "elapsed_time": "1d 3h 11m 52s", "remaining_time": "1d 23h 48m 32s"}
+{"loss": 0.08853086, "token_acc": 0.97099365, "grad_norm": 1.00055778, "learning_rate": 7.091e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242914, "epoch": 1.81340041, "global_step/max_steps": "23790/65595", "percentage": "36.27%", "elapsed_time": "1d 3h 12m 13s", "remaining_time": "1d 23h 48m 14s"}
+{"loss": 0.14691173, "token_acc": 0.94237783, "grad_norm": 1.9943794, "learning_rate": 7.09e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242931, "epoch": 1.81378154, "global_step/max_steps": "23795/65595", "percentage": "36.28%", "elapsed_time": "1d 3h 12m 27s", "remaining_time": "1d 23h 47m 41s"}
+{"loss": 0.07711422, "token_acc": 0.97098302, "grad_norm": 0.69597203, "learning_rate": 7.089e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242937, "epoch": 1.81416266, "global_step/max_steps": "23800/65595", "percentage": "36.28%", "elapsed_time": "1d 3h 12m 45s", "remaining_time": "1d 23h 47m 16s"}
+{"eval_loss": 0.09537703, "eval_token_acc": 0.95702819, "eval_runtime": 219.7952, "eval_samples_per_second": 2.411, "eval_steps_per_second": 2.411, "epoch": 1.81416266, "global_step/max_steps": "23800/65595", "percentage": "36.28%", "elapsed_time": "1d 3h 16m 25s", "remaining_time": "1d 23h 53m 42s"}
+{"loss": 0.15348839, "token_acc": 0.95634813, "grad_norm": 0.70778251, "learning_rate": 7.087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242397, "epoch": 1.81454379, "global_step/max_steps": "23805/65595", "percentage": "36.29%", "elapsed_time": "1d 3h 16m 44s", "remaining_time": "1d 23h 53m 19s"}
+{"loss": 0.15817937, "token_acc": 0.93573753, "grad_norm": 1.53862774, "learning_rate": 7.086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242409, "epoch": 1.81492492, "global_step/max_steps": "23810/65595", "percentage": "36.30%", "elapsed_time": "1d 3h 17m 0s", "remaining_time": "1d 23h 52m 49s"}
+{"loss": 0.09366993, "token_acc": 0.95557737, "grad_norm": 0.64608508, "learning_rate": 7.085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242414, "epoch": 1.81530604, "global_step/max_steps": "23815/65595", "percentage": "36.31%", "elapsed_time": "1d 3h 17m 18s", "remaining_time": "1d 23h 52m 25s"}
+{"loss": 0.05697924, "token_acc": 0.98029197, "grad_norm": 0.51966423, "learning_rate": 7.084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242419, "epoch": 1.81568717, "global_step/max_steps": "23820/65595", "percentage": "36.31%", "elapsed_time": "1d 3h 17m 37s", "remaining_time": "1d 23h 52m 1s"}
+{"loss": 0.09653044, "token_acc": 0.95597776, "grad_norm": 0.92747253, "learning_rate": 7.083e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242435, "epoch": 1.8160683, "global_step/max_steps": "23825/65595", "percentage": "36.32%", "elapsed_time": "1d 3h 17m 51s", "remaining_time": "1d 23h 51m 29s"}
+{"loss": 0.10552045, "token_acc": 0.96034616, "grad_norm": 1.15223765, "learning_rate": 7.082e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242436, "epoch": 1.81644942, "global_step/max_steps": "23830/65595", "percentage": "36.33%", "elapsed_time": "1d 3h 18m 11s", "remaining_time": "1d 23h 51m 8s"}
+{"loss": 0.12028855, "token_acc": 0.95702241, "grad_norm": 1.20661771, "learning_rate": 7.081e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242444, "epoch": 1.81683055, "global_step/max_steps": "23835/65595", "percentage": "36.34%", "elapsed_time": "1d 3h 18m 28s", "remaining_time": "1d 23h 50m 41s"}
+{"loss": 0.07249342, "token_acc": 0.96727002, "grad_norm": 1.13472998, "learning_rate": 7.08e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242452, "epoch": 1.81721168, "global_step/max_steps": "23840/65595", "percentage": "36.34%", "elapsed_time": "1d 3h 18m 46s", "remaining_time": "1d 23h 50m 15s"}
+{"loss": 0.11605042, "token_acc": 0.95451358, "grad_norm": 0.48961863, "learning_rate": 7.079e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24245, "epoch": 1.8175928, "global_step/max_steps": "23845/65595", "percentage": "36.35%", "elapsed_time": "1d 3h 19m 7s", "remaining_time": "1d 23h 49m 56s"}
+{"loss": 0.11876695, "token_acc": 0.95918833, "grad_norm": 1.10509014, "learning_rate": 7.078e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242451, "epoch": 1.81797393, "global_step/max_steps": "23850/65595", "percentage": "36.36%", "elapsed_time": "1d 3h 19m 27s", "remaining_time": "1d 23h 49m 34s"}
+{"loss": 0.10033572, "token_acc": 0.96939171, "grad_norm": 1.59570861, "learning_rate": 7.077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242466, "epoch": 1.81835506, "global_step/max_steps": "23855/65595", "percentage": "36.37%", "elapsed_time": "1d 3h 19m 42s", "remaining_time": "1d 23h 49m 4s"}
+{"loss": 0.1290856, "token_acc": 0.95437988, "grad_norm": 0.7457512, "learning_rate": 7.075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242472, "epoch": 1.81873618, "global_step/max_steps": "23860/65595", "percentage": "36.37%", "elapsed_time": "1d 3h 20m 0s", "remaining_time": "1d 23h 48m 38s"}
+{"loss": 0.11617534, "token_acc": 0.94580032, "grad_norm": 0.71573144, "learning_rate": 7.074e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242478, "epoch": 1.81911731, "global_step/max_steps": "23865/65595", "percentage": "36.38%", "elapsed_time": "1d 3h 20m 18s", "remaining_time": "1d 23h 48m 13s"}
+{"loss": 0.10282867, "token_acc": 0.96116709, "grad_norm": 0.90544641, "learning_rate": 7.073e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242488, "epoch": 1.81949844, "global_step/max_steps": "23870/65595", "percentage": "36.39%", "elapsed_time": "1d 3h 20m 35s", "remaining_time": "1d 23h 47m 46s"}
+{"loss": 0.1035027, "token_acc": 0.95932945, "grad_norm": 0.69332218, "learning_rate": 7.072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24249, "epoch": 1.81987956, "global_step/max_steps": "23875/65595", "percentage": "36.40%", "elapsed_time": "1d 3h 20m 55s", "remaining_time": "1d 23h 47m 24s"}
+{"loss": 0.09137698, "token_acc": 0.96401869, "grad_norm": 0.36104378, "learning_rate": 7.071e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242505, "epoch": 1.82026069, "global_step/max_steps": "23880/65595", "percentage": "36.41%", "elapsed_time": "1d 3h 21m 9s", "remaining_time": "1d 23h 46m 52s"}
+{"loss": 0.0940958, "token_acc": 0.96131148, "grad_norm": 1.39813566, "learning_rate": 7.07e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24251, "epoch": 1.82064182, "global_step/max_steps": "23885/65595", "percentage": "36.41%", "elapsed_time": "1d 3h 21m 28s", "remaining_time": "1d 23h 46m 28s"}
+{"loss": 0.10956627, "token_acc": 0.95457823, "grad_norm": 0.79948586, "learning_rate": 7.069e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242525, "epoch": 1.82102294, "global_step/max_steps": "23890/65595", "percentage": "36.42%", "elapsed_time": "1d 3h 21m 43s", "remaining_time": "1d 23h 45m 57s"}
+{"loss": 0.16230069, "token_acc": 0.94119403, "grad_norm": 1.53808415, "learning_rate": 7.068e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242535, "epoch": 1.82140407, "global_step/max_steps": "23895/65595", "percentage": "36.43%", "elapsed_time": "1d 3h 21m 59s", "remaining_time": "1d 23h 45m 30s"}
+{"loss": 0.07268703, "token_acc": 0.96897995, "grad_norm": 0.62995619, "learning_rate": 7.067e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242536, "epoch": 1.8217852, "global_step/max_steps": "23900/65595", "percentage": "36.44%", "elapsed_time": "1d 3h 22m 20s", "remaining_time": "1d 23h 45m 9s"}
+{"loss": 0.09860905, "token_acc": 0.96277953, "grad_norm": 0.62406331, "learning_rate": 7.066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24254, "epoch": 1.82216632, "global_step/max_steps": "23905/65595", "percentage": "36.44%", "elapsed_time": "1d 3h 22m 38s", "remaining_time": "1d 23h 44m 45s"}
+{"loss": 0.09446958, "token_acc": 0.96200387, "grad_norm": 0.8685872, "learning_rate": 7.065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242551, "epoch": 1.82254745, "global_step/max_steps": "23910/65595", "percentage": "36.45%", "elapsed_time": "1d 3h 22m 54s", "remaining_time": "1d 23h 44m 16s"}
+{"loss": 0.11215211, "token_acc": 0.94169224, "grad_norm": 1.22309971, "learning_rate": 7.064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242567, "epoch": 1.82292858, "global_step/max_steps": "23915/65595", "percentage": "36.46%", "elapsed_time": "1d 3h 23m 9s", "remaining_time": "1d 23h 43m 45s"}
+{"loss": 0.1377414, "token_acc": 0.94544956, "grad_norm": 0.65106034, "learning_rate": 7.062e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242579, "epoch": 1.8233097, "global_step/max_steps": "23920/65595", "percentage": "36.47%", "elapsed_time": "1d 3h 23m 24s", "remaining_time": "1d 23h 43m 15s"}
+{"loss": 0.0867577, "token_acc": 0.9633489, "grad_norm": 1.07844365, "learning_rate": 7.061e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242586, "epoch": 1.82369083, "global_step/max_steps": "23925/65595", "percentage": "36.47%", "elapsed_time": "1d 3h 23m 42s", "remaining_time": "1d 23h 42m 50s"}
+{"loss": 0.11386844, "token_acc": 0.9595679, "grad_norm": 1.24635315, "learning_rate": 7.06e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242602, "epoch": 1.82407196, "global_step/max_steps": "23930/65595", "percentage": "36.48%", "elapsed_time": "1d 3h 23m 56s", "remaining_time": "1d 23h 42m 18s"}
+{"loss": 0.12461512, "token_acc": 0.9544997, "grad_norm": 2.93995118, "learning_rate": 7.059e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242609, "epoch": 1.82445308, "global_step/max_steps": "23935/65595", "percentage": "36.49%", "elapsed_time": "1d 3h 24m 14s", "remaining_time": "1d 23h 41m 52s"}
+{"loss": 0.06819335, "token_acc": 0.97738749, "grad_norm": 0.70303756, "learning_rate": 7.058e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242621, "epoch": 1.82483421, "global_step/max_steps": "23940/65595", "percentage": "36.50%", "elapsed_time": "1d 3h 24m 30s", "remaining_time": "1d 23h 41m 23s"}
+{"loss": 0.0902079, "token_acc": 0.96069032, "grad_norm": 0.84688252, "learning_rate": 7.057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242632, "epoch": 1.82521534, "global_step/max_steps": "23945/65595", "percentage": "36.50%", "elapsed_time": "1d 3h 24m 46s", "remaining_time": "1d 23h 40m 54s"}
+{"loss": 0.12331934, "token_acc": 0.94957983, "grad_norm": 1.01450133, "learning_rate": 7.056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242644, "epoch": 1.82559646, "global_step/max_steps": "23950/65595", "percentage": "36.51%", "elapsed_time": "1d 3h 25m 1s", "remaining_time": "1d 23h 40m 25s"}
+{"loss": 0.08797368, "token_acc": 0.96475017, "grad_norm": 1.27956212, "learning_rate": 7.055e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242653, "epoch": 1.82597759, "global_step/max_steps": "23955/65595", "percentage": "36.52%", "elapsed_time": "1d 3h 25m 19s", "remaining_time": "1d 23h 39m 59s"}
+{"loss": 0.14262077, "token_acc": 0.93572287, "grad_norm": 0.80586475, "learning_rate": 7.054e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242661, "epoch": 1.82635872, "global_step/max_steps": "23960/65595", "percentage": "36.53%", "elapsed_time": "1d 3h 25m 36s", "remaining_time": "1d 23h 39m 32s"}
+{"loss": 0.12072994, "token_acc": 0.96539461, "grad_norm": 0.47051904, "learning_rate": 7.053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24266, "epoch": 1.82673984, "global_step/max_steps": "23965/65595", "percentage": "36.53%", "elapsed_time": "1d 3h 25m 57s", "remaining_time": "1d 23h 39m 13s"}
+{"loss": 0.11095502, "token_acc": 0.94573643, "grad_norm": 0.15032418, "learning_rate": 7.051e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242676, "epoch": 1.82712097, "global_step/max_steps": "23970/65595", "percentage": "36.54%", "elapsed_time": "1d 3h 26m 11s", "remaining_time": "1d 23h 38m 41s"}
+{"loss": 0.05666136, "token_acc": 0.96778711, "grad_norm": 0.17093879, "learning_rate": 7.05e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242693, "epoch": 1.8275021, "global_step/max_steps": "23975/65595", "percentage": "36.55%", "elapsed_time": "1d 3h 26m 25s", "remaining_time": "1d 23h 38m 8s"}
+{"loss": 0.10714296, "token_acc": 0.95808576, "grad_norm": 0.6247077, "learning_rate": 7.049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242702, "epoch": 1.82788322, "global_step/max_steps": "23980/65595", "percentage": "36.56%", "elapsed_time": "1d 3h 26m 42s", "remaining_time": "1d 23h 37m 41s"}
+{"loss": 0.13617091, "token_acc": 0.95042679, "grad_norm": 1.47209644, "learning_rate": 7.048e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242709, "epoch": 1.82826435, "global_step/max_steps": "23985/65595", "percentage": "36.57%", "elapsed_time": "1d 3h 26m 59s", "remaining_time": "1d 23h 37m 16s"}
+{"loss": 0.07928122, "token_acc": 0.97395243, "grad_norm": 0.69300824, "learning_rate": 7.047e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242723, "epoch": 1.82864548, "global_step/max_steps": "23990/65595", "percentage": "36.57%", "elapsed_time": "1d 3h 27m 14s", "remaining_time": "1d 23h 36m 45s"}
+{"loss": 0.11257362, "token_acc": 0.9516441, "grad_norm": 0.79040158, "learning_rate": 7.046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242734, "epoch": 1.8290266, "global_step/max_steps": "23995/65595", "percentage": "36.58%", "elapsed_time": "1d 3h 27m 30s", "remaining_time": "1d 23h 36m 16s"}
+{"loss": 0.1277178, "token_acc": 0.956926, "grad_norm": 1.04896784, "learning_rate": 7.045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242744, "epoch": 1.82940773, "global_step/max_steps": "24000/65595", "percentage": "36.59%", "elapsed_time": "1d 3h 27m 47s", "remaining_time": "1d 23h 35m 49s"}
+{"eval_loss": 0.0947783, "eval_token_acc": 0.95658394, "eval_runtime": 218.3206, "eval_samples_per_second": 2.428, "eval_steps_per_second": 2.428, "epoch": 1.82940773, "global_step/max_steps": "24000/65595", "percentage": "36.59%", "elapsed_time": "1d 3h 31m 25s", "remaining_time": "1d 23h 42m 7s"}
+{"loss": 0.13401349, "token_acc": 0.9564755, "grad_norm": 0.79092443, "learning_rate": 7.044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242216, "epoch": 1.82978886, "global_step/max_steps": "24005/65595", "percentage": "36.60%", "elapsed_time": "1d 3h 31m 43s", "remaining_time": "1d 23h 41m 42s"}
+{"loss": 0.0761796, "token_acc": 0.97167822, "grad_norm": 0.67789769, "learning_rate": 7.043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242229, "epoch": 1.83016998, "global_step/max_steps": "24010/65595", "percentage": "36.60%", "elapsed_time": "1d 3h 31m 58s", "remaining_time": "1d 23h 41m 12s"}
+{"loss": 0.18746773, "token_acc": 0.91729323, "grad_norm": 0.74580181, "learning_rate": 7.042e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242242, "epoch": 1.83055111, "global_step/max_steps": "24015/65595", "percentage": "36.61%", "elapsed_time": "1d 3h 32m 14s", "remaining_time": "1d 23h 40m 42s"}
+{"loss": 0.1196563, "token_acc": 0.95552425, "grad_norm": 1.54597807, "learning_rate": 7.041e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242251, "epoch": 1.83093224, "global_step/max_steps": "24020/65595", "percentage": "36.62%", "elapsed_time": "1d 3h 32m 31s", "remaining_time": "1d 23h 40m 15s"}
+{"loss": 0.0905026, "token_acc": 0.96279832, "grad_norm": 0.7182014, "learning_rate": 7.039e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242262, "epoch": 1.83131336, "global_step/max_steps": "24025/65595", "percentage": "36.63%", "elapsed_time": "1d 3h 32m 47s", "remaining_time": "1d 23h 39m 47s"}
+{"loss": 0.09869426, "token_acc": 0.95578947, "grad_norm": 0.92599481, "learning_rate": 7.038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242278, "epoch": 1.83169449, "global_step/max_steps": "24030/65595", "percentage": "36.63%", "elapsed_time": "1d 3h 33m 1s", "remaining_time": "1d 23h 39m 15s"}
+{"loss": 0.12362514, "token_acc": 0.96365127, "grad_norm": 0.52763641, "learning_rate": 7.037e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242281, "epoch": 1.83207562, "global_step/max_steps": "24035/65595", "percentage": "36.64%", "elapsed_time": "1d 3h 33m 20s", "remaining_time": "1d 23h 38m 52s"}
+{"loss": 0.08715925, "token_acc": 0.97219619, "grad_norm": 0.53055316, "learning_rate": 7.036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242289, "epoch": 1.83245674, "global_step/max_steps": "24040/65595", "percentage": "36.65%", "elapsed_time": "1d 3h 33m 38s", "remaining_time": "1d 23h 38m 26s"}
+{"loss": 0.0824657, "token_acc": 0.96417312, "grad_norm": 0.77876508, "learning_rate": 7.035e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242301, "epoch": 1.83283787, "global_step/max_steps": "24045/65595", "percentage": "36.66%", "elapsed_time": "1d 3h 33m 53s", "remaining_time": "1d 23h 37m 57s"}
+{"loss": 0.11924052, "token_acc": 0.94883242, "grad_norm": 0.8682102, "learning_rate": 7.034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242314, "epoch": 1.833219, "global_step/max_steps": "24050/65595", "percentage": "36.66%", "elapsed_time": "1d 3h 34m 9s", "remaining_time": "1d 23h 37m 27s"}
+{"loss": 0.14194571, "token_acc": 0.94764262, "grad_norm": 1.13562775, "learning_rate": 7.033e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242324, "epoch": 1.83360012, "global_step/max_steps": "24055/65595", "percentage": "36.67%", "elapsed_time": "1d 3h 34m 25s", "remaining_time": "1d 23h 36m 59s"}
+{"loss": 0.11022782, "token_acc": 0.95670174, "grad_norm": 0.74130946, "learning_rate": 7.032e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242334, "epoch": 1.83398125, "global_step/max_steps": "24060/65595", "percentage": "36.68%", "elapsed_time": "1d 3h 34m 42s", "remaining_time": "1d 23h 36m 32s"}
+{"loss": 0.15316052, "token_acc": 0.94465568, "grad_norm": 1.02745092, "learning_rate": 7.031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242344, "epoch": 1.83436238, "global_step/max_steps": "24065/65595", "percentage": "36.69%", "elapsed_time": "1d 3h 34m 58s", "remaining_time": "1d 23h 36m 4s"}
+{"loss": 0.1196831, "token_acc": 0.95552955, "grad_norm": 0.6163711, "learning_rate": 7.03e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242351, "epoch": 1.8347435, "global_step/max_steps": "24070/65595", "percentage": "36.69%", "elapsed_time": "1d 3h 35m 16s", "remaining_time": "1d 23h 35m 38s"}
+{"loss": 0.0945904, "token_acc": 0.96257833, "grad_norm": 0.95685261, "learning_rate": 7.029e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242355, "epoch": 1.83512463, "global_step/max_steps": "24075/65595", "percentage": "36.70%", "elapsed_time": "1d 3h 35m 35s", "remaining_time": "1d 23h 35m 15s"}
+{"loss": 0.160114, "token_acc": 0.95795455, "grad_norm": 0.61567461, "learning_rate": 7.027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242366, "epoch": 1.83550576, "global_step/max_steps": "24080/65595", "percentage": "36.71%", "elapsed_time": "1d 3h 35m 51s", "remaining_time": "1d 23h 34m 46s"}
+{"loss": 0.13497151, "token_acc": 0.94630266, "grad_norm": 1.07662201, "learning_rate": 7.026e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242375, "epoch": 1.83588688, "global_step/max_steps": "24085/65595", "percentage": "36.72%", "elapsed_time": "1d 3h 36m 8s", "remaining_time": "1d 23h 34m 20s"}
+{"loss": 0.09734437, "token_acc": 0.96165791, "grad_norm": 1.04389381, "learning_rate": 7.025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242379, "epoch": 1.83626801, "global_step/max_steps": "24090/65595", "percentage": "36.73%", "elapsed_time": "1d 3h 36m 27s", "remaining_time": "1d 23h 33m 56s"}
+{"loss": 0.08951289, "token_acc": 0.96794673, "grad_norm": 0.87279087, "learning_rate": 7.024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242386, "epoch": 1.83664913, "global_step/max_steps": "24095/65595", "percentage": "36.73%", "elapsed_time": "1d 3h 36m 45s", "remaining_time": "1d 23h 33m 30s"}
+{"loss": 0.1196058, "token_acc": 0.96053625, "grad_norm": 0.54101777, "learning_rate": 7.023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242393, "epoch": 1.83703026, "global_step/max_steps": "24100/65595", "percentage": "36.74%", "elapsed_time": "1d 3h 37m 3s", "remaining_time": "1d 23h 33m 5s"}
+{"loss": 0.12149892, "token_acc": 0.94817504, "grad_norm": 0.72466063, "learning_rate": 7.022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242404, "epoch": 1.83741139, "global_step/max_steps": "24105/65595", "percentage": "36.75%", "elapsed_time": "1d 3h 37m 19s", "remaining_time": "1d 23h 32m 37s"}
+{"loss": 0.10455283, "token_acc": 0.96026139, "grad_norm": 0.93647343, "learning_rate": 7.021e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242413, "epoch": 1.83779251, "global_step/max_steps": "24110/65595", "percentage": "36.76%", "elapsed_time": "1d 3h 37m 35s", "remaining_time": "1d 23h 32m 9s"}
+{"loss": 0.10434361, "token_acc": 0.95761335, "grad_norm": 0.63313073, "learning_rate": 7.02e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242419, "epoch": 1.83817364, "global_step/max_steps": "24115/65595", "percentage": "36.76%", "elapsed_time": "1d 3h 37m 54s", "remaining_time": "1d 23h 31m 45s"}
+{"loss": 0.12290434, "token_acc": 0.95107103, "grad_norm": 1.45810521, "learning_rate": 7.019e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242426, "epoch": 1.83855477, "global_step/max_steps": "24120/65595", "percentage": "36.77%", "elapsed_time": "1d 3h 38m 12s", "remaining_time": "1d 23h 31m 19s"}
+{"loss": 0.11749523, "token_acc": 0.96606546, "grad_norm": 0.45775434, "learning_rate": 7.018e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242428, "epoch": 1.83893589, "global_step/max_steps": "24125/65595", "percentage": "36.78%", "elapsed_time": "1d 3h 38m 31s", "remaining_time": "1d 23h 30m 57s"}
+{"loss": 0.13099316, "token_acc": 0.95703006, "grad_norm": 1.09613287, "learning_rate": 7.016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242431, "epoch": 1.83931702, "global_step/max_steps": "24130/65595", "percentage": "36.79%", "elapsed_time": "1d 3h 38m 51s", "remaining_time": "1d 23h 30m 34s"}
+{"loss": 0.11261797, "token_acc": 0.95363766, "grad_norm": 1.057531, "learning_rate": 7.015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242445, "epoch": 1.83969815, "global_step/max_steps": "24135/65595", "percentage": "36.79%", "elapsed_time": "1d 3h 39m 6s", "remaining_time": "1d 23h 30m 4s"}
+{"loss": 0.18221073, "token_acc": 0.94258287, "grad_norm": 2.04843998, "learning_rate": 7.014e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242454, "epoch": 1.84007927, "global_step/max_steps": "24140/65595", "percentage": "36.80%", "elapsed_time": "1d 3h 39m 23s", "remaining_time": "1d 23h 29m 37s"}
+{"loss": 0.08256648, "token_acc": 0.96028244, "grad_norm": 0.30930337, "learning_rate": 7.013e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242464, "epoch": 1.8404604, "global_step/max_steps": "24145/65595", "percentage": "36.81%", "elapsed_time": "1d 3h 39m 39s", "remaining_time": "1d 23h 29m 9s"}
+{"loss": 0.08140488, "token_acc": 0.97047062, "grad_norm": 1.11247396, "learning_rate": 7.012e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242478, "epoch": 1.84084153, "global_step/max_steps": "24150/65595", "percentage": "36.82%", "elapsed_time": "1d 3h 39m 54s", "remaining_time": "1d 23h 28m 38s"}
+{"loss": 0.12812352, "token_acc": 0.95640496, "grad_norm": 1.10521412, "learning_rate": 7.011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24249, "epoch": 1.84122265, "global_step/max_steps": "24155/65595", "percentage": "36.82%", "elapsed_time": "1d 3h 40m 10s", "remaining_time": "1d 23h 28m 10s"}
+{"loss": 0.10450875, "token_acc": 0.9621231, "grad_norm": 0.75794417, "learning_rate": 7.01e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2425, "epoch": 1.84160378, "global_step/max_steps": "24160/65595", "percentage": "36.83%", "elapsed_time": "1d 3h 40m 26s", "remaining_time": "1d 23h 27m 42s"}
+{"loss": 0.123277, "token_acc": 0.94703336, "grad_norm": 0.89867151, "learning_rate": 7.009e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242511, "epoch": 1.84198491, "global_step/max_steps": "24165/65595", "percentage": "36.84%", "elapsed_time": "1d 3h 40m 42s", "remaining_time": "1d 23h 27m 13s"}
+{"loss": 0.12309163, "token_acc": 0.95510326, "grad_norm": 0.65948951, "learning_rate": 7.008e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242526, "epoch": 1.84236603, "global_step/max_steps": "24170/65595", "percentage": "36.85%", "elapsed_time": "1d 3h 40m 57s", "remaining_time": "1d 23h 26m 42s"}
+{"loss": 0.12092062, "token_acc": 0.95488949, "grad_norm": 0.79766208, "learning_rate": 7.007e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24254, "epoch": 1.84274716, "global_step/max_steps": "24175/65595", "percentage": "36.85%", "elapsed_time": "1d 3h 41m 12s", "remaining_time": "1d 23h 26m 12s"}
+{"loss": 0.10141689, "token_acc": 0.950409, "grad_norm": 1.05222464, "learning_rate": 7.006e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242557, "epoch": 1.84312829, "global_step/max_steps": "24180/65595", "percentage": "36.86%", "elapsed_time": "1d 3h 41m 25s", "remaining_time": "1d 23h 25m 39s"}
+{"loss": 0.13487068, "token_acc": 0.95295674, "grad_norm": 0.6671927, "learning_rate": 7.004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242567, "epoch": 1.84350941, "global_step/max_steps": "24185/65595", "percentage": "36.87%", "elapsed_time": "1d 3h 41m 42s", "remaining_time": "1d 23h 25m 12s"}
+{"loss": 0.08687095, "token_acc": 0.97033774, "grad_norm": 0.71140718, "learning_rate": 7.003e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242571, "epoch": 1.84389054, "global_step/max_steps": "24190/65595", "percentage": "36.88%", "elapsed_time": "1d 3h 42m 1s", "remaining_time": "1d 23h 24m 48s"}
+{"loss": 0.13677236, "token_acc": 0.95112016, "grad_norm": 0.83660311, "learning_rate": 7.002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242588, "epoch": 1.84427167, "global_step/max_steps": "24195/65595", "percentage": "36.89%", "elapsed_time": "1d 3h 42m 14s", "remaining_time": "1d 23h 24m 16s"}
+{"loss": 0.12690947, "token_acc": 0.93574635, "grad_norm": 1.51805341, "learning_rate": 7.001e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242601, "epoch": 1.84465279, "global_step/max_steps": "24200/65595", "percentage": "36.89%", "elapsed_time": "1d 3h 42m 30s", "remaining_time": "1d 23h 23m 46s"}
+{"eval_loss": 0.09680986, "eval_token_acc": 0.95718631, "eval_runtime": 220.0931, "eval_samples_per_second": 2.408, "eval_steps_per_second": 2.408, "epoch": 1.84465279, "global_step/max_steps": "24200/65595", "percentage": "36.89%", "elapsed_time": "1d 3h 46m 10s", "remaining_time": "1d 23h 30m 2s"}
+{"loss": 0.12280231, "token_acc": 0.95710986, "grad_norm": 0.66379887, "learning_rate": 7e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24208, "epoch": 1.84503392, "global_step/max_steps": "24205/65595", "percentage": "36.90%", "elapsed_time": "1d 3h 46m 25s", "remaining_time": "1d 23h 29m 32s"}
+{"loss": 0.09117832, "token_acc": 0.97130435, "grad_norm": 1.86727166, "learning_rate": 6.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24209, "epoch": 1.84541505, "global_step/max_steps": "24210/65595", "percentage": "36.91%", "elapsed_time": "1d 3h 46m 41s", "remaining_time": "1d 23h 29m 5s"}
+{"loss": 0.12137345, "token_acc": 0.95609579, "grad_norm": 0.81964028, "learning_rate": 6.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242102, "epoch": 1.84579617, "global_step/max_steps": "24215/65595", "percentage": "36.92%", "elapsed_time": "1d 3h 46m 57s", "remaining_time": "1d 23h 28m 35s"}
+{"loss": 0.13129385, "token_acc": 0.95, "grad_norm": 1.02480567, "learning_rate": 6.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242111, "epoch": 1.8461773, "global_step/max_steps": "24220/65595", "percentage": "36.92%", "elapsed_time": "1d 3h 47m 14s", "remaining_time": "1d 23h 28m 8s"}
+{"loss": 0.12555835, "token_acc": 0.9632584, "grad_norm": 0.71333081, "learning_rate": 6.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242121, "epoch": 1.84655843, "global_step/max_steps": "24225/65595", "percentage": "36.93%", "elapsed_time": "1d 3h 47m 30s", "remaining_time": "1d 23h 27m 40s"}
+{"loss": 0.14558084, "token_acc": 0.94330169, "grad_norm": 1.95263124, "learning_rate": 6.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242134, "epoch": 1.84693955, "global_step/max_steps": "24230/65595", "percentage": "36.94%", "elapsed_time": "1d 3h 47m 46s", "remaining_time": "1d 23h 27m 11s"}
+{"loss": 0.07016668, "token_acc": 0.97019974, "grad_norm": 0.58333522, "learning_rate": 6.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242143, "epoch": 1.84732068, "global_step/max_steps": "24235/65595", "percentage": "36.95%", "elapsed_time": "1d 3h 48m 3s", "remaining_time": "1d 23h 26m 44s"}
+{"loss": 0.10175872, "token_acc": 0.96393382, "grad_norm": 1.19686067, "learning_rate": 6.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242151, "epoch": 1.84770181, "global_step/max_steps": "24240/65595", "percentage": "36.95%", "elapsed_time": "1d 3h 48m 20s", "remaining_time": "1d 23h 26m 17s"}
+{"loss": 0.119464, "token_acc": 0.95150881, "grad_norm": 0.75658596, "learning_rate": 6.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24216, "epoch": 1.84808293, "global_step/max_steps": "24245/65595", "percentage": "36.96%", "elapsed_time": "1d 3h 48m 37s", "remaining_time": "1d 23h 25m 50s"}
+{"loss": 0.16689668, "token_acc": 0.93896006, "grad_norm": 1.62815678, "learning_rate": 6.99e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242172, "epoch": 1.84846406, "global_step/max_steps": "24250/65595", "percentage": "36.97%", "elapsed_time": "1d 3h 48m 53s", "remaining_time": "1d 23h 25m 21s"}
+{"loss": 0.1409121, "token_acc": 0.95679012, "grad_norm": 1.01179528, "learning_rate": 6.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24218, "epoch": 1.84884519, "global_step/max_steps": "24255/65595", "percentage": "36.98%", "elapsed_time": "1d 3h 49m 10s", "remaining_time": "1d 23h 24m 55s"}
+{"loss": 0.12149341, "token_acc": 0.95585653, "grad_norm": 1.31139398, "learning_rate": 6.988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242193, "epoch": 1.84922631, "global_step/max_steps": "24260/65595", "percentage": "36.98%", "elapsed_time": "1d 3h 49m 25s", "remaining_time": "1d 23h 24m 26s"}
+{"loss": 0.13618088, "token_acc": 0.94187346, "grad_norm": 1.35572004, "learning_rate": 6.987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242207, "epoch": 1.84960744, "global_step/max_steps": "24265/65595", "percentage": "36.99%", "elapsed_time": "1d 3h 49m 40s", "remaining_time": "1d 23h 23m 55s"}
+{"loss": 0.09680225, "token_acc": 0.96225615, "grad_norm": 0.9270972, "learning_rate": 6.986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242221, "epoch": 1.84998857, "global_step/max_steps": "24270/65595", "percentage": "37.00%", "elapsed_time": "1d 3h 49m 55s", "remaining_time": "1d 23h 23m 24s"}
+{"loss": 0.10834849, "token_acc": 0.95938486, "grad_norm": 0.68669623, "learning_rate": 6.985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242229, "epoch": 1.85036969, "global_step/max_steps": "24275/65595", "percentage": "37.01%", "elapsed_time": "1d 3h 50m 12s", "remaining_time": "1d 23h 22m 58s"}
+{"loss": 0.11221251, "token_acc": 0.96098203, "grad_norm": 1.08402455, "learning_rate": 6.984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242241, "epoch": 1.85075082, "global_step/max_steps": "24280/65595", "percentage": "37.02%", "elapsed_time": "1d 3h 50m 28s", "remaining_time": "1d 23h 22m 29s"}
+{"loss": 0.12590178, "token_acc": 0.95150286, "grad_norm": 1.2692883, "learning_rate": 6.982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242249, "epoch": 1.85113195, "global_step/max_steps": "24285/65595", "percentage": "37.02%", "elapsed_time": "1d 3h 50m 45s", "remaining_time": "1d 23h 22m 3s"}
+{"loss": 0.13265383, "token_acc": 0.95695696, "grad_norm": 1.01283538, "learning_rate": 6.981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242253, "epoch": 1.85151307, "global_step/max_steps": "24290/65595", "percentage": "37.03%", "elapsed_time": "1d 3h 51m 4s", "remaining_time": "1d 23h 21m 39s"}
+{"loss": 0.12101655, "token_acc": 0.95069904, "grad_norm": 0.55042499, "learning_rate": 6.98e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242258, "epoch": 1.8518942, "global_step/max_steps": "24295/65595", "percentage": "37.04%", "elapsed_time": "1d 3h 51m 23s", "remaining_time": "1d 23h 21m 15s"}
+{"loss": 0.12048131, "token_acc": 0.95249887, "grad_norm": 0.68953073, "learning_rate": 6.979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242267, "epoch": 1.85227533, "global_step/max_steps": "24300/65595", "percentage": "37.05%", "elapsed_time": "1d 3h 51m 40s", "remaining_time": "1d 23h 20m 48s"}
+{"loss": 0.08318831, "token_acc": 0.96321962, "grad_norm": 0.83153993, "learning_rate": 6.978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242283, "epoch": 1.85265645, "global_step/max_steps": "24305/65595", "percentage": "37.05%", "elapsed_time": "1d 3h 51m 54s", "remaining_time": "1d 23h 20m 16s"}
+{"loss": 0.16275684, "token_acc": 0.93732112, "grad_norm": 1.36495697, "learning_rate": 6.977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242289, "epoch": 1.85303758, "global_step/max_steps": "24310/65595", "percentage": "37.06%", "elapsed_time": "1d 3h 52m 12s", "remaining_time": "1d 23h 19m 51s"}
+{"loss": 0.16675661, "token_acc": 0.95224465, "grad_norm": 1.58596146, "learning_rate": 6.976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242292, "epoch": 1.85341871, "global_step/max_steps": "24315/65595", "percentage": "37.07%", "elapsed_time": "1d 3h 52m 31s", "remaining_time": "1d 23h 19m 29s"}
+{"loss": 0.07742984, "token_acc": 0.9739369, "grad_norm": 0.92964631, "learning_rate": 6.975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242308, "epoch": 1.85379983, "global_step/max_steps": "24320/65595", "percentage": "37.08%", "elapsed_time": "1d 3h 52m 45s", "remaining_time": "1d 23h 18m 57s"}
+{"loss": 0.10728009, "token_acc": 0.95383436, "grad_norm": 0.53076798, "learning_rate": 6.974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242314, "epoch": 1.85418096, "global_step/max_steps": "24325/65595", "percentage": "37.08%", "elapsed_time": "1d 3h 53m 4s", "remaining_time": "1d 23h 18m 32s"}
+{"loss": 0.09193305, "token_acc": 0.96004334, "grad_norm": 0.82643151, "learning_rate": 6.973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242319, "epoch": 1.85456209, "global_step/max_steps": "24330/65595", "percentage": "37.09%", "elapsed_time": "1d 3h 53m 22s", "remaining_time": "1d 23h 18m 8s"}
+{"loss": 0.1127215, "token_acc": 0.95853589, "grad_norm": 0.63372082, "learning_rate": 6.971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242331, "epoch": 1.85494321, "global_step/max_steps": "24335/65595", "percentage": "37.10%", "elapsed_time": "1d 3h 53m 38s", "remaining_time": "1d 23h 17m 38s"}
+{"loss": 0.11298858, "token_acc": 0.96025206, "grad_norm": 0.8458091, "learning_rate": 6.97e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242347, "epoch": 1.85532434, "global_step/max_steps": "24340/65595", "percentage": "37.11%", "elapsed_time": "1d 3h 53m 52s", "remaining_time": "1d 23h 17m 7s"}
+{"loss": 0.12852179, "token_acc": 0.95223384, "grad_norm": 1.97472095, "learning_rate": 6.969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242357, "epoch": 1.85570547, "global_step/max_steps": "24345/65595", "percentage": "37.11%", "elapsed_time": "1d 3h 54m 8s", "remaining_time": "1d 23h 16m 39s"}
+{"loss": 0.1097657, "token_acc": 0.95891996, "grad_norm": 0.72111022, "learning_rate": 6.968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242364, "epoch": 1.85608659, "global_step/max_steps": "24350/65595", "percentage": "37.12%", "elapsed_time": "1d 3h 54m 26s", "remaining_time": "1d 23h 16m 13s"}
+{"loss": 0.10706478, "token_acc": 0.95070123, "grad_norm": 1.11087441, "learning_rate": 6.967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242381, "epoch": 1.85646772, "global_step/max_steps": "24355/65595", "percentage": "37.13%", "elapsed_time": "1d 3h 54m 40s", "remaining_time": "1d 23h 15m 41s"}
+{"loss": 0.09136489, "token_acc": 0.97120419, "grad_norm": 0.64666998, "learning_rate": 6.966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242395, "epoch": 1.85684885, "global_step/max_steps": "24360/65595", "percentage": "37.14%", "elapsed_time": "1d 3h 54m 54s", "remaining_time": "1d 23h 15m 11s"}
+{"loss": 0.07822232, "token_acc": 0.97333333, "grad_norm": 0.77431875, "learning_rate": 6.965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242407, "epoch": 1.85722997, "global_step/max_steps": "24365/65595", "percentage": "37.14%", "elapsed_time": "1d 3h 55m 10s", "remaining_time": "1d 23h 14m 42s"}
+{"loss": 0.10211275, "token_acc": 0.96626634, "grad_norm": 0.70465124, "learning_rate": 6.964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242414, "epoch": 1.8576111, "global_step/max_steps": "24370/65595", "percentage": "37.15%", "elapsed_time": "1d 3h 55m 28s", "remaining_time": "1d 23h 14m 16s"}
+{"loss": 0.14555213, "token_acc": 0.93850353, "grad_norm": 0.74982738, "learning_rate": 6.963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242421, "epoch": 1.85799223, "global_step/max_steps": "24375/65595", "percentage": "37.16%", "elapsed_time": "1d 3h 55m 46s", "remaining_time": "1d 23h 13m 51s"}
+{"loss": 0.14541279, "token_acc": 0.9452381, "grad_norm": 1.21413183, "learning_rate": 6.962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242431, "epoch": 1.85837335, "global_step/max_steps": "24380/65595", "percentage": "37.17%", "elapsed_time": "1d 3h 56m 2s", "remaining_time": "1d 23h 13m 23s"}
+{"loss": 0.07278544, "token_acc": 0.97198041, "grad_norm": 0.49553671, "learning_rate": 6.96e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242436, "epoch": 1.85875448, "global_step/max_steps": "24385/65595", "percentage": "37.18%", "elapsed_time": "1d 3h 56m 21s", "remaining_time": "1d 23h 12m 59s"}
+{"loss": 0.10836031, "token_acc": 0.9523349, "grad_norm": 1.19222319, "learning_rate": 6.959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242438, "epoch": 1.8591356, "global_step/max_steps": "24390/65595", "percentage": "37.18%", "elapsed_time": "1d 3h 56m 40s", "remaining_time": "1d 23h 12m 37s"}
+{"loss": 0.07103281, "token_acc": 0.96484848, "grad_norm": 0.33628318, "learning_rate": 6.958e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242448, "epoch": 1.85951673, "global_step/max_steps": "24395/65595", "percentage": "37.19%", "elapsed_time": "1d 3h 56m 57s", "remaining_time": "1d 23h 12m 9s"}
+{"loss": 0.14549344, "token_acc": 0.92926045, "grad_norm": 0.47790736, "learning_rate": 6.957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242462, "epoch": 1.85989786, "global_step/max_steps": "24400/65595", "percentage": "37.20%", "elapsed_time": "1d 3h 57m 12s", "remaining_time": "1d 23h 11m 39s"}
+{"eval_loss": 0.09444306, "eval_token_acc": 0.95760798, "eval_runtime": 218.0557, "eval_samples_per_second": 2.431, "eval_steps_per_second": 2.431, "epoch": 1.85989786, "global_step/max_steps": "24400/65595", "percentage": "37.20%", "elapsed_time": "1d 4h 0m 50s", "remaining_time": "1d 23h 17m 47s"}
+{"loss": 0.10079268, "token_acc": 0.9578116, "grad_norm": 0.70187801, "learning_rate": 6.956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24195, "epoch": 1.86027898, "global_step/max_steps": "24405/65595", "percentage": "37.21%", "elapsed_time": "1d 4h 1m 5s", "remaining_time": "1d 23h 17m 17s"}
+{"loss": 0.11574506, "token_acc": 0.95263274, "grad_norm": 1.11581767, "learning_rate": 6.955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24196, "epoch": 1.86066011, "global_step/max_steps": "24410/65595", "percentage": "37.21%", "elapsed_time": "1d 4h 1m 22s", "remaining_time": "1d 23h 16m 50s"}
+{"loss": 0.13295496, "token_acc": 0.945321, "grad_norm": 0.86568844, "learning_rate": 6.954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241963, "epoch": 1.86104124, "global_step/max_steps": "24415/65595", "percentage": "37.22%", "elapsed_time": "1d 4h 1m 41s", "remaining_time": "1d 23h 16m 27s"}
+{"loss": 0.07397289, "token_acc": 0.96919127, "grad_norm": 0.70639926, "learning_rate": 6.953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241971, "epoch": 1.86142236, "global_step/max_steps": "24420/65595", "percentage": "37.23%", "elapsed_time": "1d 4h 1m 58s", "remaining_time": "1d 23h 16m 1s"}
+{"loss": 0.11191864, "token_acc": 0.94527079, "grad_norm": 0.73902088, "learning_rate": 6.952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24198, "epoch": 1.86180349, "global_step/max_steps": "24425/65595", "percentage": "37.24%", "elapsed_time": "1d 4h 2m 15s", "remaining_time": "1d 23h 15m 34s"}
+{"loss": 0.11717027, "token_acc": 0.96374285, "grad_norm": 0.34938625, "learning_rate": 6.951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241987, "epoch": 1.86218462, "global_step/max_steps": "24430/65595", "percentage": "37.24%", "elapsed_time": "1d 4h 2m 33s", "remaining_time": "1d 23h 15m 8s"}
+{"loss": 0.10039945, "token_acc": 0.95080984, "grad_norm": 0.86901182, "learning_rate": 6.949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242, "epoch": 1.86256574, "global_step/max_steps": "24435/65595", "percentage": "37.25%", "elapsed_time": "1d 4h 2m 48s", "remaining_time": "1d 23h 14m 38s"}
+{"loss": 0.15723568, "token_acc": 0.9375, "grad_norm": 0.73513669, "learning_rate": 6.948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24201, "epoch": 1.86294687, "global_step/max_steps": "24440/65595", "percentage": "37.26%", "elapsed_time": "1d 4h 3m 5s", "remaining_time": "1d 23h 14m 11s"}
+{"loss": 0.08503319, "token_acc": 0.96696881, "grad_norm": 0.60399556, "learning_rate": 6.947e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242017, "epoch": 1.863328, "global_step/max_steps": "24445/65595", "percentage": "37.27%", "elapsed_time": "1d 4h 3m 23s", "remaining_time": "1d 23h 13m 45s"}
+{"loss": 0.15095856, "token_acc": 0.9251844, "grad_norm": 0.84274727, "learning_rate": 6.946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242031, "epoch": 1.86370912, "global_step/max_steps": "24450/65595", "percentage": "37.27%", "elapsed_time": "1d 4h 3m 38s", "remaining_time": "1d 23h 13m 15s"}
+{"loss": 0.1045558, "token_acc": 0.95841889, "grad_norm": 1.12509573, "learning_rate": 6.945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242044, "epoch": 1.86409025, "global_step/max_steps": "24455/65595", "percentage": "37.28%", "elapsed_time": "1d 4h 3m 53s", "remaining_time": "1d 23h 12m 45s"}
+{"loss": 0.11666032, "token_acc": 0.95548512, "grad_norm": 0.44480854, "learning_rate": 6.944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242047, "epoch": 1.86447138, "global_step/max_steps": "24460/65595", "percentage": "37.29%", "elapsed_time": "1d 4h 4m 12s", "remaining_time": "1d 23h 12m 22s"}
+{"loss": 0.10442522, "token_acc": 0.95825826, "grad_norm": 0.98195273, "learning_rate": 6.943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24206, "epoch": 1.8648525, "global_step/max_steps": "24465/65595", "percentage": "37.30%", "elapsed_time": "1d 4h 4m 27s", "remaining_time": "1d 23h 11m 52s"}
+{"loss": 0.12271168, "token_acc": 0.96000434, "grad_norm": 1.36712384, "learning_rate": 6.942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24206, "epoch": 1.86523363, "global_step/max_steps": "24470/65595", "percentage": "37.30%", "elapsed_time": "1d 4h 4m 48s", "remaining_time": "1d 23h 11m 32s"}
+{"loss": 0.11500542, "token_acc": 0.95603355, "grad_norm": 0.55279225, "learning_rate": 6.941e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242067, "epoch": 1.86561476, "global_step/max_steps": "24475/65595", "percentage": "37.31%", "elapsed_time": "1d 4h 5m 6s", "remaining_time": "1d 23h 11m 6s"}
+{"loss": 0.11093574, "token_acc": 0.95047619, "grad_norm": 0.78136629, "learning_rate": 6.94e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24208, "epoch": 1.86599588, "global_step/max_steps": "24480/65595", "percentage": "37.32%", "elapsed_time": "1d 4h 5m 21s", "remaining_time": "1d 23h 10m 36s"}
+{"loss": 0.12271552, "token_acc": 0.94904625, "grad_norm": 0.38587922, "learning_rate": 6.938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242091, "epoch": 1.86637701, "global_step/max_steps": "24485/65595", "percentage": "37.33%", "elapsed_time": "1d 4h 5m 37s", "remaining_time": "1d 23h 10m 8s"}
+{"loss": 0.09541603, "token_acc": 0.96695558, "grad_norm": 0.58083749, "learning_rate": 6.937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242092, "epoch": 1.86675814, "global_step/max_steps": "24490/65595", "percentage": "37.34%", "elapsed_time": "1d 4h 5m 57s", "remaining_time": "1d 23h 9m 46s"}
+{"loss": 0.10509436, "token_acc": 0.9594176, "grad_norm": 0.50661093, "learning_rate": 6.936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242098, "epoch": 1.86713926, "global_step/max_steps": "24495/65595", "percentage": "37.34%", "elapsed_time": "1d 4h 6m 15s", "remaining_time": "1d 23h 9m 21s"}
+{"loss": 0.11410161, "token_acc": 0.94698322, "grad_norm": 0.81233424, "learning_rate": 6.935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242106, "epoch": 1.86752039, "global_step/max_steps": "24500/65595", "percentage": "37.35%", "elapsed_time": "1d 4h 6m 32s", "remaining_time": "1d 23h 8m 55s"}
+{"loss": 0.13229896, "token_acc": 0.94970845, "grad_norm": 1.08533776, "learning_rate": 6.934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242111, "epoch": 1.86790152, "global_step/max_steps": "24505/65595", "percentage": "37.36%", "elapsed_time": "1d 4h 6m 51s", "remaining_time": "1d 23h 8m 31s"}
+{"loss": 0.09298047, "token_acc": 0.96258503, "grad_norm": 0.6388191, "learning_rate": 6.933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242121, "epoch": 1.86828264, "global_step/max_steps": "24510/65595", "percentage": "37.37%", "elapsed_time": "1d 4h 7m 8s", "remaining_time": "1d 23h 8m 4s"}
+{"loss": 0.16057366, "token_acc": 0.94955289, "grad_norm": 0.63907832, "learning_rate": 6.932e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242124, "epoch": 1.86866377, "global_step/max_steps": "24515/65595", "percentage": "37.37%", "elapsed_time": "1d 4h 7m 27s", "remaining_time": "1d 23h 7m 41s"}
+{"loss": 0.0823379, "token_acc": 0.96362515, "grad_norm": 0.85629535, "learning_rate": 6.931e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242138, "epoch": 1.8690449, "global_step/max_steps": "24520/65595", "percentage": "37.38%", "elapsed_time": "1d 4h 7m 42s", "remaining_time": "1d 23h 7m 10s"}
+{"loss": 0.0883226, "token_acc": 0.95316416, "grad_norm": 0.4365229, "learning_rate": 6.93e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242144, "epoch": 1.86942602, "global_step/max_steps": "24525/65595", "percentage": "37.39%", "elapsed_time": "1d 4h 8m 0s", "remaining_time": "1d 23h 6m 46s"}
+{"loss": 0.09574619, "token_acc": 0.95251446, "grad_norm": 1.44728684, "learning_rate": 6.928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242152, "epoch": 1.86980715, "global_step/max_steps": "24530/65595", "percentage": "37.40%", "elapsed_time": "1d 4h 8m 17s", "remaining_time": "1d 23h 6m 19s"}
+{"loss": 0.11955997, "token_acc": 0.95797338, "grad_norm": 0.83627492, "learning_rate": 6.927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242163, "epoch": 1.87018828, "global_step/max_steps": "24535/65595", "percentage": "37.40%", "elapsed_time": "1d 4h 8m 33s", "remaining_time": "1d 23h 5m 51s"}
+{"loss": 0.17180653, "token_acc": 0.93925501, "grad_norm": 0.70344996, "learning_rate": 6.926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242171, "epoch": 1.8705694, "global_step/max_steps": "24540/65595", "percentage": "37.41%", "elapsed_time": "1d 4h 8m 51s", "remaining_time": "1d 23h 5m 25s"}
+{"loss": 0.12489678, "token_acc": 0.95326882, "grad_norm": 1.56916368, "learning_rate": 6.925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24218, "epoch": 1.87095053, "global_step/max_steps": "24545/65595", "percentage": "37.42%", "elapsed_time": "1d 4h 9m 8s", "remaining_time": "1d 23h 4m 58s"}
+{"loss": 0.10648032, "token_acc": 0.96592138, "grad_norm": 0.66246736, "learning_rate": 6.924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242184, "epoch": 1.87133166, "global_step/max_steps": "24550/65595", "percentage": "37.43%", "elapsed_time": "1d 4h 9m 26s", "remaining_time": "1d 23h 4m 34s"}
+{"loss": 0.12637424, "token_acc": 0.94394125, "grad_norm": 1.1288538, "learning_rate": 6.923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242196, "epoch": 1.87171278, "global_step/max_steps": "24555/65595", "percentage": "37.43%", "elapsed_time": "1d 4h 9m 42s", "remaining_time": "1d 23h 4m 6s"}
+{"loss": 0.10396477, "token_acc": 0.96287491, "grad_norm": 0.80755657, "learning_rate": 6.922e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2422, "epoch": 1.87209391, "global_step/max_steps": "24560/65595", "percentage": "37.44%", "elapsed_time": "1d 4h 10m 1s", "remaining_time": "1d 23h 3m 42s"}
+{"loss": 0.13803101, "token_acc": 0.95132867, "grad_norm": 0.64153111, "learning_rate": 6.921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242212, "epoch": 1.87247504, "global_step/max_steps": "24565/65595", "percentage": "37.45%", "elapsed_time": "1d 4h 10m 17s", "remaining_time": "1d 23h 3m 13s"}
+{"loss": 0.12752517, "token_acc": 0.95239617, "grad_norm": 2.16001678, "learning_rate": 6.92e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242226, "epoch": 1.87285616, "global_step/max_steps": "24570/65595", "percentage": "37.46%", "elapsed_time": "1d 4h 10m 32s", "remaining_time": "1d 23h 2m 43s"}
+{"loss": 0.13950118, "token_acc": 0.94956627, "grad_norm": 0.55110025, "learning_rate": 6.919e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242236, "epoch": 1.87323729, "global_step/max_steps": "24575/65595", "percentage": "37.46%", "elapsed_time": "1d 4h 10m 48s", "remaining_time": "1d 23h 2m 15s"}
+{"loss": 0.14834712, "token_acc": 0.93284778, "grad_norm": 1.14637756, "learning_rate": 6.917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242247, "epoch": 1.87361842, "global_step/max_steps": "24580/65595", "percentage": "37.47%", "elapsed_time": "1d 4h 11m 4s", "remaining_time": "1d 23h 1m 47s"}
+{"loss": 0.13202528, "token_acc": 0.93384321, "grad_norm": 0.94315946, "learning_rate": 6.916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242262, "epoch": 1.87399954, "global_step/max_steps": "24585/65595", "percentage": "37.48%", "elapsed_time": "1d 4h 11m 18s", "remaining_time": "1d 23h 1m 15s"}
+{"loss": 0.12095585, "token_acc": 0.93839314, "grad_norm": 1.35508358, "learning_rate": 6.915e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242276, "epoch": 1.87438067, "global_step/max_steps": "24590/65595", "percentage": "37.49%", "elapsed_time": "1d 4h 11m 33s", "remaining_time": "1d 23h 0m 45s"}
+{"loss": 0.07665133, "token_acc": 0.97259387, "grad_norm": 0.72632265, "learning_rate": 6.914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242283, "epoch": 1.8747618, "global_step/max_steps": "24595/65595", "percentage": "37.50%", "elapsed_time": "1d 4h 11m 51s", "remaining_time": "1d 23h 0m 20s"}
+{"loss": 0.10699925, "token_acc": 0.95388688, "grad_norm": 0.94054627, "learning_rate": 6.913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242288, "epoch": 1.87514292, "global_step/max_steps": "24600/65595", "percentage": "37.50%", "elapsed_time": "1d 4h 12m 10s", "remaining_time": "1d 22h 59m 56s"}
+{"eval_loss": 0.09408386, "eval_token_acc": 0.95757033, "eval_runtime": 220.1997, "eval_samples_per_second": 2.407, "eval_steps_per_second": 2.407, "epoch": 1.87514292, "global_step/max_steps": "24600/65595", "percentage": "37.50%", "elapsed_time": "1d 4h 15m 50s", "remaining_time": "1d 23h 6m 3s"}
+{"loss": 0.08387257, "token_acc": 0.95811776, "grad_norm": 0.27212667, "learning_rate": 6.912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241772, "epoch": 1.87552405, "global_step/max_steps": "24605/65595", "percentage": "37.51%", "elapsed_time": "1d 4h 16m 7s", "remaining_time": "1d 23h 5m 36s"}
+{"loss": 0.15408978, "token_acc": 0.94040921, "grad_norm": 0.69074821, "learning_rate": 6.911e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241784, "epoch": 1.87590518, "global_step/max_steps": "24610/65595", "percentage": "37.52%", "elapsed_time": "1d 4h 16m 22s", "remaining_time": "1d 23h 5m 7s"}
+{"loss": 0.06822126, "token_acc": 0.97238316, "grad_norm": 0.91400295, "learning_rate": 6.91e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241792, "epoch": 1.8762863, "global_step/max_steps": "24615/65595", "percentage": "37.53%", "elapsed_time": "1d 4h 16m 40s", "remaining_time": "1d 23h 4m 40s"}
+{"loss": 0.15809124, "token_acc": 0.94757058, "grad_norm": 1.50865614, "learning_rate": 6.909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241801, "epoch": 1.87666743, "global_step/max_steps": "24620/65595", "percentage": "37.53%", "elapsed_time": "1d 4h 16m 56s", "remaining_time": "1d 23h 4m 13s"}
+{"loss": 0.10386934, "token_acc": 0.96747435, "grad_norm": 0.68050337, "learning_rate": 6.907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241812, "epoch": 1.87704856, "global_step/max_steps": "24625/65595", "percentage": "37.54%", "elapsed_time": "1d 4h 17m 13s", "remaining_time": "1d 23h 3m 45s"}
+{"loss": 0.0682125, "token_acc": 0.9744389, "grad_norm": 1.12622547, "learning_rate": 6.906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24183, "epoch": 1.87742968, "global_step/max_steps": "24630/65595", "percentage": "37.55%", "elapsed_time": "1d 4h 17m 26s", "remaining_time": "1d 23h 3m 12s"}
+{"loss": 0.08460434, "token_acc": 0.96811531, "grad_norm": 0.59926474, "learning_rate": 6.905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241838, "epoch": 1.87781081, "global_step/max_steps": "24635/65595", "percentage": "37.56%", "elapsed_time": "1d 4h 17m 43s", "remaining_time": "1d 23h 2m 45s"}
+{"loss": 0.12335502, "token_acc": 0.95078534, "grad_norm": 1.02993679, "learning_rate": 6.904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241849, "epoch": 1.87819194, "global_step/max_steps": "24640/65595", "percentage": "37.56%", "elapsed_time": "1d 4h 17m 59s", "remaining_time": "1d 23h 2m 17s"}
+{"loss": 0.09122146, "token_acc": 0.95884116, "grad_norm": 0.81659818, "learning_rate": 6.903e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241858, "epoch": 1.87857306, "global_step/max_steps": "24645/65595", "percentage": "37.57%", "elapsed_time": "1d 4h 18m 16s", "remaining_time": "1d 23h 1m 50s"}
+{"loss": 0.17843336, "token_acc": 0.93430182, "grad_norm": 0.88259691, "learning_rate": 6.902e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241868, "epoch": 1.87895419, "global_step/max_steps": "24650/65595", "percentage": "37.58%", "elapsed_time": "1d 4h 18m 32s", "remaining_time": "1d 23h 1m 22s"}
+{"loss": 0.12123171, "token_acc": 0.95720101, "grad_norm": 0.78322494, "learning_rate": 6.901e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241872, "epoch": 1.87933532, "global_step/max_steps": "24655/65595", "percentage": "37.59%", "elapsed_time": "1d 4h 18m 51s", "remaining_time": "1d 23h 0m 59s"}
+{"loss": 0.14991664, "token_acc": 0.93821088, "grad_norm": 1.19111848, "learning_rate": 6.9e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241884, "epoch": 1.87971644, "global_step/max_steps": "24660/65595", "percentage": "37.59%", "elapsed_time": "1d 4h 19m 7s", "remaining_time": "1d 23h 0m 30s"}
+{"loss": 0.11970072, "token_acc": 0.94647013, "grad_norm": 0.67343336, "learning_rate": 6.899e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241898, "epoch": 1.88009757, "global_step/max_steps": "24665/65595", "percentage": "37.60%", "elapsed_time": "1d 4h 19m 22s", "remaining_time": "1d 22h 59m 59s"}
+{"loss": 0.09889944, "token_acc": 0.961585, "grad_norm": 1.00477123, "learning_rate": 6.898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241907, "epoch": 1.8804787, "global_step/max_steps": "24670/65595", "percentage": "37.61%", "elapsed_time": "1d 4h 19m 39s", "remaining_time": "1d 22h 59m 33s"}
+{"loss": 0.13568401, "token_acc": 0.9417914, "grad_norm": 1.09106982, "learning_rate": 6.896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241918, "epoch": 1.88085982, "global_step/max_steps": "24675/65595", "percentage": "37.62%", "elapsed_time": "1d 4h 19m 55s", "remaining_time": "1d 22h 59m 4s"}
+{"loss": 0.096494, "token_acc": 0.95871129, "grad_norm": 0.93336535, "learning_rate": 6.895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241932, "epoch": 1.88124095, "global_step/max_steps": "24680/65595", "percentage": "37.62%", "elapsed_time": "1d 4h 20m 9s", "remaining_time": "1d 22h 58m 33s"}
+{"loss": 0.1260106, "token_acc": 0.95487096, "grad_norm": 0.78434139, "learning_rate": 6.894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241935, "epoch": 1.88162207, "global_step/max_steps": "24685/65595", "percentage": "37.63%", "elapsed_time": "1d 4h 20m 29s", "remaining_time": "1d 22h 58m 11s"}
+{"loss": 0.11230252, "token_acc": 0.95460705, "grad_norm": 0.98005992, "learning_rate": 6.893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241949, "epoch": 1.8820032, "global_step/max_steps": "24690/65595", "percentage": "37.64%", "elapsed_time": "1d 4h 20m 43s", "remaining_time": "1d 22h 57m 40s"}
+{"loss": 0.10395592, "token_acc": 0.96209588, "grad_norm": 1.36369848, "learning_rate": 6.892e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241956, "epoch": 1.88238433, "global_step/max_steps": "24695/65595", "percentage": "37.65%", "elapsed_time": "1d 4h 21m 1s", "remaining_time": "1d 22h 57m 15s"}
+{"loss": 0.09789492, "token_acc": 0.96153042, "grad_norm": 0.58143651, "learning_rate": 6.891e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241963, "epoch": 1.88276545, "global_step/max_steps": "24700/65595", "percentage": "37.66%", "elapsed_time": "1d 4h 21m 19s", "remaining_time": "1d 22h 56m 49s"}
+{"loss": 0.10605259, "token_acc": 0.95839151, "grad_norm": 0.48000234, "learning_rate": 6.89e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241966, "epoch": 1.88314658, "global_step/max_steps": "24705/65595", "percentage": "37.66%", "elapsed_time": "1d 4h 21m 38s", "remaining_time": "1d 22h 56m 27s"}
+{"loss": 0.10130752, "token_acc": 0.95469899, "grad_norm": 0.84372926, "learning_rate": 6.889e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241976, "epoch": 1.88352771, "global_step/max_steps": "24710/65595", "percentage": "37.67%", "elapsed_time": "1d 4h 21m 55s", "remaining_time": "1d 22h 55m 59s"}
+{"loss": 0.12806695, "token_acc": 0.9521947, "grad_norm": 0.8598159, "learning_rate": 6.888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241979, "epoch": 1.88390883, "global_step/max_steps": "24715/65595", "percentage": "37.68%", "elapsed_time": "1d 4h 22m 14s", "remaining_time": "1d 22h 55m 36s"}
+{"loss": 0.15813402, "token_acc": 0.9534067, "grad_norm": 0.67287511, "learning_rate": 6.886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24199, "epoch": 1.88428996, "global_step/max_steps": "24720/65595", "percentage": "37.69%", "elapsed_time": "1d 4h 22m 30s", "remaining_time": "1d 22h 55m 8s"}
+{"loss": 0.12329228, "token_acc": 0.95880005, "grad_norm": 0.55972081, "learning_rate": 6.885e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241996, "epoch": 1.88467109, "global_step/max_steps": "24725/65595", "percentage": "37.69%", "elapsed_time": "1d 4h 22m 48s", "remaining_time": "1d 22h 54m 43s"}
+{"loss": 0.08641157, "token_acc": 0.96899911, "grad_norm": 1.75622773, "learning_rate": 6.884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242006, "epoch": 1.88505221, "global_step/max_steps": "24730/65595", "percentage": "37.70%", "elapsed_time": "1d 4h 23m 5s", "remaining_time": "1d 22h 54m 15s"}
+{"loss": 0.1324872, "token_acc": 0.93846154, "grad_norm": 1.40807652, "learning_rate": 6.883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242021, "epoch": 1.88543334, "global_step/max_steps": "24735/65595", "percentage": "37.71%", "elapsed_time": "1d 4h 23m 19s", "remaining_time": "1d 22h 53m 44s"}
+{"loss": 0.11326239, "token_acc": 0.9534225, "grad_norm": 1.23764324, "learning_rate": 6.882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242026, "epoch": 1.88581447, "global_step/max_steps": "24740/65595", "percentage": "37.72%", "elapsed_time": "1d 4h 23m 38s", "remaining_time": "1d 22h 53m 20s"}
+{"loss": 0.12068611, "token_acc": 0.96551724, "grad_norm": 0.37118331, "learning_rate": 6.881e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242033, "epoch": 1.88619559, "global_step/max_steps": "24745/65595", "percentage": "37.72%", "elapsed_time": "1d 4h 23m 55s", "remaining_time": "1d 22h 52m 54s"}
+{"loss": 0.11145109, "token_acc": 0.97406225, "grad_norm": 1.10301948, "learning_rate": 6.88e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24204, "epoch": 1.88657672, "global_step/max_steps": "24750/65595", "percentage": "37.73%", "elapsed_time": "1d 4h 24m 13s", "remaining_time": "1d 22h 52m 29s"}
+{"loss": 0.10398711, "token_acc": 0.95630038, "grad_norm": 0.76898086, "learning_rate": 6.879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242048, "epoch": 1.88695785, "global_step/max_steps": "24755/65595", "percentage": "37.74%", "elapsed_time": "1d 4h 24m 30s", "remaining_time": "1d 22h 52m 3s"}
+{"loss": 0.13592372, "token_acc": 0.94260964, "grad_norm": 0.65960157, "learning_rate": 6.878e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242058, "epoch": 1.88733897, "global_step/max_steps": "24760/65595", "percentage": "37.75%", "elapsed_time": "1d 4h 24m 47s", "remaining_time": "1d 22h 51m 35s"}
+{"loss": 0.12784691, "token_acc": 0.94973647, "grad_norm": 0.83368939, "learning_rate": 6.876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242058, "epoch": 1.8877201, "global_step/max_steps": "24765/65595", "percentage": "37.75%", "elapsed_time": "1d 4h 25m 8s", "remaining_time": "1d 22h 51m 15s"}
+{"loss": 0.14585952, "token_acc": 0.9446729, "grad_norm": 0.96241784, "learning_rate": 6.875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242073, "epoch": 1.88810123, "global_step/max_steps": "24770/65595", "percentage": "37.76%", "elapsed_time": "1d 4h 25m 22s", "remaining_time": "1d 22h 50m 43s"}
+{"loss": 0.11231428, "token_acc": 0.94978962, "grad_norm": 0.80797529, "learning_rate": 6.874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242083, "epoch": 1.88848235, "global_step/max_steps": "24775/65595", "percentage": "37.77%", "elapsed_time": "1d 4h 25m 38s", "remaining_time": "1d 22h 50m 15s"}
+{"loss": 0.13621091, "token_acc": 0.94620111, "grad_norm": 0.63298833, "learning_rate": 6.873e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242086, "epoch": 1.88886348, "global_step/max_steps": "24780/65595", "percentage": "37.78%", "elapsed_time": "1d 4h 25m 58s", "remaining_time": "1d 22h 49m 53s"}
+{"loss": 0.12386873, "token_acc": 0.94205971, "grad_norm": 0.71401703, "learning_rate": 6.872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242093, "epoch": 1.88924461, "global_step/max_steps": "24785/65595", "percentage": "37.78%", "elapsed_time": "1d 4h 26m 15s", "remaining_time": "1d 22h 49m 27s"}
+{"loss": 0.12950983, "token_acc": 0.95598904, "grad_norm": 0.94325137, "learning_rate": 6.871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242097, "epoch": 1.88962573, "global_step/max_steps": "24790/65595", "percentage": "37.79%", "elapsed_time": "1d 4h 26m 34s", "remaining_time": "1d 22h 49m 4s"}
+{"loss": 0.10732794, "token_acc": 0.95669291, "grad_norm": 0.35329765, "learning_rate": 6.87e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242109, "epoch": 1.89000686, "global_step/max_steps": "24795/65595", "percentage": "37.80%", "elapsed_time": "1d 4h 26m 50s", "remaining_time": "1d 22h 48m 35s"}
+{"loss": 0.13241233, "token_acc": 0.94946974, "grad_norm": 1.2943809, "learning_rate": 6.869e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24212, "epoch": 1.89038799, "global_step/max_steps": "24800/65595", "percentage": "37.81%", "elapsed_time": "1d 4h 27m 6s", "remaining_time": "1d 22h 48m 7s"}
+{"eval_loss": 0.0931272, "eval_token_acc": 0.95803717, "eval_runtime": 220.7128, "eval_samples_per_second": 2.401, "eval_steps_per_second": 2.401, "epoch": 1.89038799, "global_step/max_steps": "24800/65595", "percentage": "37.81%", "elapsed_time": "1d 4h 30m 47s", "remaining_time": "1d 22h 54m 10s"}
+{"loss": 0.14004428, "token_acc": 0.95767269, "grad_norm": 1.60547435, "learning_rate": 6.868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241612, "epoch": 1.89076911, "global_step/max_steps": "24805/65595", "percentage": "37.82%", "elapsed_time": "1d 4h 31m 2s", "remaining_time": "1d 22h 53m 41s"}
+{"loss": 0.09533854, "token_acc": 0.96463932, "grad_norm": 0.61451077, "learning_rate": 6.866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241618, "epoch": 1.89115024, "global_step/max_steps": "24810/65595", "percentage": "37.82%", "elapsed_time": "1d 4h 31m 20s", "remaining_time": "1d 22h 53m 15s"}
+{"loss": 0.10994658, "token_acc": 0.96551724, "grad_norm": 0.85725343, "learning_rate": 6.865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241624, "epoch": 1.89153137, "global_step/max_steps": "24815/65595", "percentage": "37.83%", "elapsed_time": "1d 4h 31m 38s", "remaining_time": "1d 22h 52m 50s"}
+{"loss": 0.0838261, "token_acc": 0.96382494, "grad_norm": 0.41848367, "learning_rate": 6.864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241624, "epoch": 1.89191249, "global_step/max_steps": "24820/65595", "percentage": "37.84%", "elapsed_time": "1d 4h 31m 59s", "remaining_time": "1d 22h 52m 30s"}
+{"loss": 0.11338602, "token_acc": 0.95017301, "grad_norm": 1.07433033, "learning_rate": 6.863e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241637, "epoch": 1.89229362, "global_step/max_steps": "24825/65595", "percentage": "37.85%", "elapsed_time": "1d 4h 32m 14s", "remaining_time": "1d 22h 52m 0s"}
+{"loss": 0.12385056, "token_acc": 0.95090909, "grad_norm": 1.12194598, "learning_rate": 6.862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241651, "epoch": 1.89267475, "global_step/max_steps": "24830/65595", "percentage": "37.85%", "elapsed_time": "1d 4h 32m 29s", "remaining_time": "1d 22h 51m 30s"}
+{"loss": 0.11414768, "token_acc": 0.95185695, "grad_norm": 1.09677076, "learning_rate": 6.861e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241661, "epoch": 1.89305587, "global_step/max_steps": "24835/65595", "percentage": "37.86%", "elapsed_time": "1d 4h 32m 45s", "remaining_time": "1d 22h 51m 2s"}
+{"loss": 0.12160285, "token_acc": 0.95365006, "grad_norm": 2.30007362, "learning_rate": 6.86e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241675, "epoch": 1.893437, "global_step/max_steps": "24840/65595", "percentage": "37.87%", "elapsed_time": "1d 4h 33m 0s", "remaining_time": "1d 22h 50m 31s"}
+{"loss": 0.10412548, "token_acc": 0.95745527, "grad_norm": 0.73510218, "learning_rate": 6.859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24169, "epoch": 1.89381813, "global_step/max_steps": "24845/65595", "percentage": "37.88%", "elapsed_time": "1d 4h 33m 14s", "remaining_time": "1d 22h 50m 0s"}
+{"loss": 0.15285082, "token_acc": 0.94264588, "grad_norm": 0.71449351, "learning_rate": 6.858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241701, "epoch": 1.89419925, "global_step/max_steps": "24850/65595", "percentage": "37.88%", "elapsed_time": "1d 4h 33m 30s", "remaining_time": "1d 22h 49m 32s"}
+{"loss": 0.08265103, "token_acc": 0.96009758, "grad_norm": 0.95455515, "learning_rate": 6.856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241707, "epoch": 1.89458038, "global_step/max_steps": "24855/65595", "percentage": "37.89%", "elapsed_time": "1d 4h 33m 48s", "remaining_time": "1d 22h 49m 7s"}
+{"loss": 0.08170258, "token_acc": 0.95742416, "grad_norm": 0.80784696, "learning_rate": 6.855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241716, "epoch": 1.89496151, "global_step/max_steps": "24860/65595", "percentage": "37.90%", "elapsed_time": "1d 4h 34m 5s", "remaining_time": "1d 22h 48m 40s"}
+{"loss": 0.09920209, "token_acc": 0.96487603, "grad_norm": 0.81476152, "learning_rate": 6.854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241724, "epoch": 1.89534263, "global_step/max_steps": "24865/65595", "percentage": "37.91%", "elapsed_time": "1d 4h 34m 23s", "remaining_time": "1d 22h 48m 14s"}
+{"loss": 0.10400916, "token_acc": 0.94562725, "grad_norm": 0.29824039, "learning_rate": 6.853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241739, "epoch": 1.89572376, "global_step/max_steps": "24870/65595", "percentage": "37.91%", "elapsed_time": "1d 4h 34m 37s", "remaining_time": "1d 22h 47m 43s"}
+{"loss": 0.14934438, "token_acc": 0.93581616, "grad_norm": 2.3162291, "learning_rate": 6.852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241748, "epoch": 1.89610489, "global_step/max_steps": "24875/65595", "percentage": "37.92%", "elapsed_time": "1d 4h 34m 54s", "remaining_time": "1d 22h 47m 16s"}
+{"loss": 0.06940491, "token_acc": 0.97871913, "grad_norm": 0.88431484, "learning_rate": 6.851e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241758, "epoch": 1.89648601, "global_step/max_steps": "24880/65595", "percentage": "37.93%", "elapsed_time": "1d 4h 35m 10s", "remaining_time": "1d 22h 46m 48s"}
+{"loss": 0.12149347, "token_acc": 0.9564765, "grad_norm": 0.90685725, "learning_rate": 6.85e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241764, "epoch": 1.89686714, "global_step/max_steps": "24885/65595", "percentage": "37.94%", "elapsed_time": "1d 4h 35m 28s", "remaining_time": "1d 22h 46m 23s"}
+{"loss": 0.11975309, "token_acc": 0.9539989, "grad_norm": 0.68747205, "learning_rate": 6.849e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241764, "epoch": 1.89724827, "global_step/max_steps": "24890/65595", "percentage": "37.94%", "elapsed_time": "1d 4h 35m 49s", "remaining_time": "1d 22h 46m 3s"}
+{"loss": 0.09546295, "token_acc": 0.96066838, "grad_norm": 0.83227074, "learning_rate": 6.848e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241765, "epoch": 1.89762939, "global_step/max_steps": "24895/65595", "percentage": "37.95%", "elapsed_time": "1d 4h 36m 9s", "remaining_time": "1d 22h 45m 41s"}
+{"loss": 0.1331285, "token_acc": 0.9412867, "grad_norm": 1.41847289, "learning_rate": 6.846e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241781, "epoch": 1.89801052, "global_step/max_steps": "24900/65595", "percentage": "37.96%", "elapsed_time": "1d 4h 36m 23s", "remaining_time": "1d 22h 45m 9s"}
+{"loss": 0.14603393, "token_acc": 0.95312088, "grad_norm": 1.18374908, "learning_rate": 6.845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241793, "epoch": 1.89839165, "global_step/max_steps": "24905/65595", "percentage": "37.97%", "elapsed_time": "1d 4h 36m 38s", "remaining_time": "1d 22h 44m 40s"}
+{"loss": 0.12729363, "token_acc": 0.94080505, "grad_norm": 0.72058326, "learning_rate": 6.844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241805, "epoch": 1.89877277, "global_step/max_steps": "24910/65595", "percentage": "37.98%", "elapsed_time": "1d 4h 36m 54s", "remaining_time": "1d 22h 44m 11s"}
+{"loss": 0.08935364, "token_acc": 0.96624156, "grad_norm": 0.79020971, "learning_rate": 6.843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241814, "epoch": 1.8991539, "global_step/max_steps": "24915/65595", "percentage": "37.98%", "elapsed_time": "1d 4h 37m 11s", "remaining_time": "1d 22h 43m 45s"}
+{"loss": 0.10045365, "token_acc": 0.95374285, "grad_norm": 0.47735798, "learning_rate": 6.842e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241825, "epoch": 1.89953503, "global_step/max_steps": "24920/65595", "percentage": "37.99%", "elapsed_time": "1d 4h 37m 27s", "remaining_time": "1d 22h 43m 16s"}
+{"loss": 0.13194306, "token_acc": 0.93406314, "grad_norm": 1.27337801, "learning_rate": 6.841e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241837, "epoch": 1.89991615, "global_step/max_steps": "24925/65595", "percentage": "38.00%", "elapsed_time": "1d 4h 37m 43s", "remaining_time": "1d 22h 42m 47s"}
+{"loss": 0.13195319, "token_acc": 0.9499502, "grad_norm": 1.58353412, "learning_rate": 6.84e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241847, "epoch": 1.90029728, "global_step/max_steps": "24930/65595", "percentage": "38.01%", "elapsed_time": "1d 4h 37m 59s", "remaining_time": "1d 22h 42m 19s"}
+{"loss": 0.11669928, "token_acc": 0.95519836, "grad_norm": 1.09482825, "learning_rate": 6.839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24186, "epoch": 1.90067841, "global_step/max_steps": "24935/65595", "percentage": "38.01%", "elapsed_time": "1d 4h 38m 14s", "remaining_time": "1d 22h 41m 49s"}
+{"loss": 0.10433109, "token_acc": 0.96133094, "grad_norm": 0.63317871, "learning_rate": 6.838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241877, "epoch": 1.90105953, "global_step/max_steps": "24940/65595", "percentage": "38.02%", "elapsed_time": "1d 4h 38m 28s", "remaining_time": "1d 22h 41m 17s"}
+{"loss": 0.1547531, "token_acc": 0.9385052, "grad_norm": 1.57005453, "learning_rate": 6.836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241891, "epoch": 1.90144066, "global_step/max_steps": "24945/65595", "percentage": "38.03%", "elapsed_time": "1d 4h 38m 42s", "remaining_time": "1d 22h 40m 46s"}
+{"loss": 0.08830673, "token_acc": 0.96321321, "grad_norm": 0.93787342, "learning_rate": 6.835e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241904, "epoch": 1.90182179, "global_step/max_steps": "24950/65595", "percentage": "38.04%", "elapsed_time": "1d 4h 38m 58s", "remaining_time": "1d 22h 40m 17s"}
+{"loss": 0.08771901, "token_acc": 0.95871782, "grad_norm": 0.79571307, "learning_rate": 6.834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241913, "epoch": 1.90220291, "global_step/max_steps": "24955/65595", "percentage": "38.04%", "elapsed_time": "1d 4h 39m 14s", "remaining_time": "1d 22h 39m 50s"}
+{"loss": 0.09075245, "token_acc": 0.96868767, "grad_norm": 1.69331419, "learning_rate": 6.833e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241921, "epoch": 1.90258404, "global_step/max_steps": "24960/65595", "percentage": "38.05%", "elapsed_time": "1d 4h 39m 31s", "remaining_time": "1d 22h 39m 24s"}
+{"loss": 0.08738378, "token_acc": 0.96590581, "grad_norm": 0.58009523, "learning_rate": 6.832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241924, "epoch": 1.90296517, "global_step/max_steps": "24965/65595", "percentage": "38.06%", "elapsed_time": "1d 4h 39m 51s", "remaining_time": "1d 22h 39m 1s"}
+{"loss": 0.11157079, "token_acc": 0.95956806, "grad_norm": 0.83495438, "learning_rate": 6.831e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241933, "epoch": 1.90334629, "global_step/max_steps": "24970/65595", "percentage": "38.07%", "elapsed_time": "1d 4h 40m 8s", "remaining_time": "1d 22h 38m 34s"}
+{"loss": 0.12514601, "token_acc": 0.9507479, "grad_norm": 1.21315718, "learning_rate": 6.83e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241948, "epoch": 1.90372742, "global_step/max_steps": "24975/65595", "percentage": "38.07%", "elapsed_time": "1d 4h 40m 22s", "remaining_time": "1d 22h 38m 3s"}
+{"loss": 0.07409883, "token_acc": 0.95884146, "grad_norm": 0.59842163, "learning_rate": 6.829e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241959, "epoch": 1.90410854, "global_step/max_steps": "24980/65595", "percentage": "38.08%", "elapsed_time": "1d 4h 40m 38s", "remaining_time": "1d 22h 37m 35s"}
+{"loss": 0.14525492, "token_acc": 0.95111353, "grad_norm": 0.57645017, "learning_rate": 6.828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241965, "epoch": 1.90448967, "global_step/max_steps": "24985/65595", "percentage": "38.09%", "elapsed_time": "1d 4h 40m 56s", "remaining_time": "1d 22h 37m 10s"}
+{"loss": 0.10321082, "token_acc": 0.95648627, "grad_norm": 1.47669721, "learning_rate": 6.826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241977, "epoch": 1.9048708, "global_step/max_steps": "24990/65595", "percentage": "38.10%", "elapsed_time": "1d 4h 41m 12s", "remaining_time": "1d 22h 36m 41s"}
+{"loss": 0.18155087, "token_acc": 0.93368237, "grad_norm": 1.68812406, "learning_rate": 6.825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241986, "epoch": 1.90525192, "global_step/max_steps": "24995/65595", "percentage": "38.11%", "elapsed_time": "1d 4h 41m 28s", "remaining_time": "1d 22h 36m 14s"}
+{"loss": 0.05370697, "token_acc": 0.96277429, "grad_norm": 0.91480076, "learning_rate": 6.824e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242001, "epoch": 1.90563305, "global_step/max_steps": "25000/65595", "percentage": "38.11%", "elapsed_time": "1d 4h 41m 43s", "remaining_time": "1d 22h 35m 43s"}
+{"eval_loss": 0.0933475, "eval_token_acc": 0.95811999, "eval_runtime": 221.3733, "eval_samples_per_second": 2.394, "eval_steps_per_second": 2.394, "epoch": 1.90563305, "global_step/max_steps": "25000/65595", "percentage": "38.11%", "elapsed_time": "1d 4h 45m 24s", "remaining_time": "1d 22h 41m 43s"}
+{"loss": 0.10644853, "token_acc": 0.95811888, "grad_norm": 1.02586663, "learning_rate": 6.823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241487, "epoch": 1.90601418, "global_step/max_steps": "25005/65595", "percentage": "38.12%", "elapsed_time": "1d 4h 45m 43s", "remaining_time": "1d 22h 41m 19s"}
+{"loss": 0.1395824, "token_acc": 0.94681081, "grad_norm": 2.18765998, "learning_rate": 6.822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241497, "epoch": 1.9063953, "global_step/max_steps": "25010/65595", "percentage": "38.13%", "elapsed_time": "1d 4h 46m 0s", "remaining_time": "1d 22h 40m 52s"}
+{"loss": 0.14543284, "token_acc": 0.9469429, "grad_norm": 0.88597125, "learning_rate": 6.821e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241507, "epoch": 1.90677643, "global_step/max_steps": "25015/65595", "percentage": "38.14%", "elapsed_time": "1d 4h 46m 16s", "remaining_time": "1d 22h 40m 24s"}
+{"loss": 0.12560364, "token_acc": 0.95375915, "grad_norm": 1.83827615, "learning_rate": 6.82e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241518, "epoch": 1.90715756, "global_step/max_steps": "25020/65595", "percentage": "38.14%", "elapsed_time": "1d 4h 46m 32s", "remaining_time": "1d 22h 39m 56s"}
+{"loss": 0.09895566, "token_acc": 0.9447601, "grad_norm": 0.26369274, "learning_rate": 6.819e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241531, "epoch": 1.90753868, "global_step/max_steps": "25025/65595", "percentage": "38.15%", "elapsed_time": "1d 4h 46m 47s", "remaining_time": "1d 22h 39m 26s"}
+{"loss": 0.13244802, "token_acc": 0.95109861, "grad_norm": 0.71167862, "learning_rate": 6.817e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241539, "epoch": 1.90791981, "global_step/max_steps": "25030/65595", "percentage": "38.16%", "elapsed_time": "1d 4h 47m 4s", "remaining_time": "1d 22h 38m 59s"}
+{"loss": 0.10451628, "token_acc": 0.96517713, "grad_norm": 0.66158497, "learning_rate": 6.816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241548, "epoch": 1.90830094, "global_step/max_steps": "25035/65595", "percentage": "38.17%", "elapsed_time": "1d 4h 47m 21s", "remaining_time": "1d 22h 38m 33s"}
+{"loss": 0.13472012, "token_acc": 0.94852309, "grad_norm": 1.15733278, "learning_rate": 6.815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241553, "epoch": 1.90868206, "global_step/max_steps": "25040/65595", "percentage": "38.17%", "elapsed_time": "1d 4h 47m 40s", "remaining_time": "1d 22h 38m 9s"}
+{"loss": 0.1649231, "token_acc": 0.93619583, "grad_norm": 0.9183116, "learning_rate": 6.814e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241561, "epoch": 1.90906319, "global_step/max_steps": "25045/65595", "percentage": "38.18%", "elapsed_time": "1d 4h 47m 57s", "remaining_time": "1d 22h 37m 42s"}
+{"loss": 0.1107185, "token_acc": 0.95638629, "grad_norm": 1.2527796, "learning_rate": 6.813e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241578, "epoch": 1.90944432, "global_step/max_steps": "25050/65595", "percentage": "38.19%", "elapsed_time": "1d 4h 48m 11s", "remaining_time": "1d 22h 37m 10s"}
+{"loss": 0.14210659, "token_acc": 0.96112261, "grad_norm": 0.89840561, "learning_rate": 6.812e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241587, "epoch": 1.90982544, "global_step/max_steps": "25055/65595", "percentage": "38.20%", "elapsed_time": "1d 4h 48m 27s", "remaining_time": "1d 22h 36m 43s"}
+{"loss": 0.11079088, "token_acc": 0.95567652, "grad_norm": 0.71499288, "learning_rate": 6.811e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241601, "epoch": 1.91020657, "global_step/max_steps": "25060/65595", "percentage": "38.20%", "elapsed_time": "1d 4h 48m 42s", "remaining_time": "1d 22h 36m 12s"}
+{"loss": 0.09667259, "token_acc": 0.95773897, "grad_norm": 0.18337213, "learning_rate": 6.81e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241606, "epoch": 1.9105877, "global_step/max_steps": "25065/65595", "percentage": "38.21%", "elapsed_time": "1d 4h 49m 0s", "remaining_time": "1d 22h 35m 48s"}
+{"loss": 0.07939456, "token_acc": 0.96988278, "grad_norm": 0.49883929, "learning_rate": 6.809e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241612, "epoch": 1.91096882, "global_step/max_steps": "25070/65595", "percentage": "38.22%", "elapsed_time": "1d 4h 49m 19s", "remaining_time": "1d 22h 35m 23s"}
+{"loss": 0.10428711, "token_acc": 0.95892377, "grad_norm": 1.41641784, "learning_rate": 6.807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241617, "epoch": 1.91134995, "global_step/max_steps": "25075/65595", "percentage": "38.23%", "elapsed_time": "1d 4h 49m 37s", "remaining_time": "1d 22h 35m 0s"}
+{"loss": 0.10776156, "token_acc": 0.96224846, "grad_norm": 0.48240796, "learning_rate": 6.806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241618, "epoch": 1.91173108, "global_step/max_steps": "25080/65595", "percentage": "38.23%", "elapsed_time": "1d 4h 49m 57s", "remaining_time": "1d 22h 34m 38s"}
+{"loss": 0.11361923, "token_acc": 0.95801396, "grad_norm": 1.32091391, "learning_rate": 6.805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241623, "epoch": 1.9121122, "global_step/max_steps": "25085/65595", "percentage": "38.24%", "elapsed_time": "1d 4h 50m 16s", "remaining_time": "1d 22h 34m 14s"}
+{"loss": 0.08617077, "token_acc": 0.95660848, "grad_norm": 0.83581221, "learning_rate": 6.804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241638, "epoch": 1.91249333, "global_step/max_steps": "25090/65595", "percentage": "38.25%", "elapsed_time": "1d 4h 50m 30s", "remaining_time": "1d 22h 33m 42s"}
+{"loss": 0.13708739, "token_acc": 0.94570538, "grad_norm": 0.98527884, "learning_rate": 6.803e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241649, "epoch": 1.91287446, "global_step/max_steps": "25095/65595", "percentage": "38.26%", "elapsed_time": "1d 4h 50m 46s", "remaining_time": "1d 22h 33m 15s"}
+{"loss": 0.10410542, "token_acc": 0.96420306, "grad_norm": 1.32009196, "learning_rate": 6.802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241655, "epoch": 1.91325558, "global_step/max_steps": "25100/65595", "percentage": "38.27%", "elapsed_time": "1d 4h 51m 4s", "remaining_time": "1d 22h 32m 49s"}
+{"loss": 0.07836113, "token_acc": 0.966861, "grad_norm": 1.1884346, "learning_rate": 6.801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241658, "epoch": 1.91363671, "global_step/max_steps": "25105/65595", "percentage": "38.27%", "elapsed_time": "1d 4h 51m 24s", "remaining_time": "1d 22h 32m 27s"}
+{"loss": 0.16335049, "token_acc": 0.94120699, "grad_norm": 1.04200733, "learning_rate": 6.8e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241667, "epoch": 1.91401784, "global_step/max_steps": "25110/65595", "percentage": "38.28%", "elapsed_time": "1d 4h 51m 41s", "remaining_time": "1d 22h 32m 0s"}
+{"loss": 0.1176975, "token_acc": 0.94593367, "grad_norm": 0.76610106, "learning_rate": 6.798e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241677, "epoch": 1.91439896, "global_step/max_steps": "25115/65595", "percentage": "38.29%", "elapsed_time": "1d 4h 51m 57s", "remaining_time": "1d 22h 31m 32s"}
+{"loss": 0.15326889, "token_acc": 0.93731343, "grad_norm": 1.87845707, "learning_rate": 6.797e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241682, "epoch": 1.91478009, "global_step/max_steps": "25120/65595", "percentage": "38.30%", "elapsed_time": "1d 4h 52m 15s", "remaining_time": "1d 22h 31m 8s"}
+{"loss": 0.16622772, "token_acc": 0.94940476, "grad_norm": 0.43710601, "learning_rate": 6.796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241693, "epoch": 1.91516122, "global_step/max_steps": "25125/65595", "percentage": "38.30%", "elapsed_time": "1d 4h 52m 32s", "remaining_time": "1d 22h 30m 40s"}
+{"loss": 0.1195515, "token_acc": 0.95507856, "grad_norm": 1.30381525, "learning_rate": 6.795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241704, "epoch": 1.91554234, "global_step/max_steps": "25130/65595", "percentage": "38.31%", "elapsed_time": "1d 4h 52m 47s", "remaining_time": "1d 22h 30m 11s"}
+{"loss": 0.06864555, "token_acc": 0.96838131, "grad_norm": 0.80387378, "learning_rate": 6.794e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241705, "epoch": 1.91592347, "global_step/max_steps": "25135/65595", "percentage": "38.32%", "elapsed_time": "1d 4h 53m 8s", "remaining_time": "1d 22h 29m 50s"}
+{"loss": 0.14914439, "token_acc": 0.94295642, "grad_norm": 0.96644908, "learning_rate": 6.793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241712, "epoch": 1.9163046, "global_step/max_steps": "25140/65595", "percentage": "38.33%", "elapsed_time": "1d 4h 53m 25s", "remaining_time": "1d 22h 29m 24s"}
+{"loss": 0.15206883, "token_acc": 0.93870105, "grad_norm": 1.01693058, "learning_rate": 6.792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241723, "epoch": 1.91668572, "global_step/max_steps": "25145/65595", "percentage": "38.33%", "elapsed_time": "1d 4h 53m 41s", "remaining_time": "1d 22h 28m 56s"}
+{"loss": 0.09028019, "token_acc": 0.97237668, "grad_norm": 0.99455237, "learning_rate": 6.791e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241731, "epoch": 1.91706685, "global_step/max_steps": "25150/65595", "percentage": "38.34%", "elapsed_time": "1d 4h 53m 58s", "remaining_time": "1d 22h 28m 30s"}
+{"loss": 0.11729158, "token_acc": 0.94698744, "grad_norm": 1.48637176, "learning_rate": 6.79e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241743, "epoch": 1.91744798, "global_step/max_steps": "25155/65595", "percentage": "38.35%", "elapsed_time": "1d 4h 54m 14s", "remaining_time": "1d 22h 28m 1s"}
+{"loss": 0.08882753, "token_acc": 0.96491705, "grad_norm": 0.29543984, "learning_rate": 6.788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241744, "epoch": 1.9178291, "global_step/max_steps": "25160/65595", "percentage": "38.36%", "elapsed_time": "1d 4h 54m 34s", "remaining_time": "1d 22h 27m 39s"}
+{"loss": 0.07724519, "token_acc": 0.9603823, "grad_norm": 0.60962796, "learning_rate": 6.787e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24175, "epoch": 1.91821023, "global_step/max_steps": "25165/65595", "percentage": "38.36%", "elapsed_time": "1d 4h 54m 52s", "remaining_time": "1d 22h 27m 15s"}
+{"loss": 0.13917296, "token_acc": 0.9521992, "grad_norm": 0.88055605, "learning_rate": 6.786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241754, "epoch": 1.91859136, "global_step/max_steps": "25170/65595", "percentage": "38.37%", "elapsed_time": "1d 4h 55m 11s", "remaining_time": "1d 22h 26m 51s"}
+{"loss": 0.14596512, "token_acc": 0.95939802, "grad_norm": 0.54171914, "learning_rate": 6.785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241762, "epoch": 1.91897248, "global_step/max_steps": "25175/65595", "percentage": "38.38%", "elapsed_time": "1d 4h 55m 29s", "remaining_time": "1d 22h 26m 25s"}
+{"loss": 0.12119769, "token_acc": 0.95345215, "grad_norm": 0.89698952, "learning_rate": 6.784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241771, "epoch": 1.91935361, "global_step/max_steps": "25180/65595", "percentage": "38.39%", "elapsed_time": "1d 4h 55m 45s", "remaining_time": "1d 22h 25m 58s"}
+{"loss": 0.11175961, "token_acc": 0.95495495, "grad_norm": 0.76065457, "learning_rate": 6.783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24178, "epoch": 1.91973474, "global_step/max_steps": "25185/65595", "percentage": "38.39%", "elapsed_time": "1d 4h 56m 2s", "remaining_time": "1d 22h 25m 31s"}
+{"loss": 0.07344452, "token_acc": 0.96862745, "grad_norm": 1.20794272, "learning_rate": 6.782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241783, "epoch": 1.92011586, "global_step/max_steps": "25190/65595", "percentage": "38.40%", "elapsed_time": "1d 4h 56m 22s", "remaining_time": "1d 22h 25m 9s"}
+{"loss": 0.1682992, "token_acc": 0.9376413, "grad_norm": 1.07611322, "learning_rate": 6.781e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241791, "epoch": 1.92049699, "global_step/max_steps": "25195/65595", "percentage": "38.41%", "elapsed_time": "1d 4h 56m 39s", "remaining_time": "1d 22h 24m 43s"}
+{"loss": 0.10033813, "token_acc": 0.96282583, "grad_norm": 0.67375159, "learning_rate": 6.779e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241798, "epoch": 1.92087812, "global_step/max_steps": "25200/65595", "percentage": "38.42%", "elapsed_time": "1d 4h 56m 56s", "remaining_time": "1d 22h 24m 17s"}
+{"eval_loss": 0.09176785, "eval_token_acc": 0.95937745, "eval_runtime": 220.2928, "eval_samples_per_second": 2.406, "eval_steps_per_second": 2.406, "epoch": 1.92087812, "global_step/max_steps": "25200/65595", "percentage": "38.42%", "elapsed_time": "1d 5h 0m 37s", "remaining_time": "1d 22h 30m 10s"}
+{"loss": 0.09918409, "token_acc": 0.95939094, "grad_norm": 0.76642948, "learning_rate": 6.778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241297, "epoch": 1.92125924, "global_step/max_steps": "25205/65595", "percentage": "38.43%", "elapsed_time": "1d 5h 0m 54s", "remaining_time": "1d 22h 29m 43s"}
+{"loss": 0.09370363, "token_acc": 0.96614282, "grad_norm": 1.24692523, "learning_rate": 6.777e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241298, "epoch": 1.92164037, "global_step/max_steps": "25210/65595", "percentage": "38.43%", "elapsed_time": "1d 5h 1m 14s", "remaining_time": "1d 22h 29m 22s"}
+{"loss": 0.10333333, "token_acc": 0.9550077, "grad_norm": 0.8442803, "learning_rate": 6.776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241311, "epoch": 1.9220215, "global_step/max_steps": "25215/65595", "percentage": "38.44%", "elapsed_time": "1d 5h 1m 29s", "remaining_time": "1d 22h 28m 52s"}
+{"loss": 0.15733399, "token_acc": 0.93377675, "grad_norm": 0.43513584, "learning_rate": 6.775e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241324, "epoch": 1.92240262, "global_step/max_steps": "25220/65595", "percentage": "38.45%", "elapsed_time": "1d 5h 1m 44s", "remaining_time": "1d 22h 28m 22s"}
+{"loss": 0.08440717, "token_acc": 0.96270677, "grad_norm": 1.04870856, "learning_rate": 6.774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241335, "epoch": 1.92278375, "global_step/max_steps": "25225/65595", "percentage": "38.46%", "elapsed_time": "1d 5h 2m 0s", "remaining_time": "1d 22h 27m 54s"}
+{"loss": 0.1023828, "token_acc": 0.96694087, "grad_norm": 0.71060193, "learning_rate": 6.773e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241342, "epoch": 1.92316488, "global_step/max_steps": "25230/65595", "percentage": "38.46%", "elapsed_time": "1d 5h 2m 18s", "remaining_time": "1d 22h 27m 28s"}
+{"loss": 0.11631821, "token_acc": 0.94487761, "grad_norm": 1.11591768, "learning_rate": 6.772e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24135, "epoch": 1.923546, "global_step/max_steps": "25235/65595", "percentage": "38.47%", "elapsed_time": "1d 5h 2m 35s", "remaining_time": "1d 22h 27m 2s"}
+{"loss": 0.14865119, "token_acc": 0.94906445, "grad_norm": 0.92205137, "learning_rate": 6.771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241363, "epoch": 1.92392713, "global_step/max_steps": "25240/65595", "percentage": "38.48%", "elapsed_time": "1d 5h 2m 50s", "remaining_time": "1d 22h 26m 32s"}
+{"loss": 0.0805307, "token_acc": 0.96383363, "grad_norm": 0.00169414, "learning_rate": 6.769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241373, "epoch": 1.92430826, "global_step/max_steps": "25245/65595", "percentage": "38.49%", "elapsed_time": "1d 5h 3m 6s", "remaining_time": "1d 22h 26m 4s"}
+{"loss": 0.10468261, "token_acc": 0.96241747, "grad_norm": 2.37100101, "learning_rate": 6.768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241389, "epoch": 1.92468938, "global_step/max_steps": "25250/65595", "percentage": "38.49%", "elapsed_time": "1d 5h 3m 20s", "remaining_time": "1d 22h 25m 33s"}
+{"loss": 0.10870152, "token_acc": 0.95088195, "grad_norm": 0.13613176, "learning_rate": 6.767e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241398, "epoch": 1.92507051, "global_step/max_steps": "25255/65595", "percentage": "38.50%", "elapsed_time": "1d 5h 3m 37s", "remaining_time": "1d 22h 25m 6s"}
+{"loss": 0.12578211, "token_acc": 0.95391131, "grad_norm": 1.71100736, "learning_rate": 6.766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241409, "epoch": 1.92545164, "global_step/max_steps": "25260/65595", "percentage": "38.51%", "elapsed_time": "1d 5h 3m 53s", "remaining_time": "1d 22h 24m 37s"}
+{"loss": 0.14221387, "token_acc": 0.94739811, "grad_norm": 0.9698332, "learning_rate": 6.765e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241412, "epoch": 1.92583276, "global_step/max_steps": "25265/65595", "percentage": "38.52%", "elapsed_time": "1d 5h 4m 12s", "remaining_time": "1d 22h 24m 15s"}
+{"loss": 0.12062526, "token_acc": 0.95678191, "grad_norm": 1.05669773, "learning_rate": 6.764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24142, "epoch": 1.92621389, "global_step/max_steps": "25270/65595", "percentage": "38.52%", "elapsed_time": "1d 5h 4m 30s", "remaining_time": "1d 22h 23m 48s"}
+{"loss": 0.09047984, "token_acc": 0.9670358, "grad_norm": 0.66266191, "learning_rate": 6.763e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241431, "epoch": 1.92659501, "global_step/max_steps": "25275/65595", "percentage": "38.53%", "elapsed_time": "1d 5h 4m 46s", "remaining_time": "1d 22h 23m 20s"}
+{"loss": 0.12996337, "token_acc": 0.95121413, "grad_norm": 0.78703558, "learning_rate": 6.762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24144, "epoch": 1.92697614, "global_step/max_steps": "25280/65595", "percentage": "38.54%", "elapsed_time": "1d 5h 5m 2s", "remaining_time": "1d 22h 22m 53s"}
+{"loss": 0.09792162, "token_acc": 0.96692825, "grad_norm": 0.75806236, "learning_rate": 6.76e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241455, "epoch": 1.92735727, "global_step/max_steps": "25285/65595", "percentage": "38.55%", "elapsed_time": "1d 5h 5m 17s", "remaining_time": "1d 22h 22m 22s"}
+{"loss": 0.10272096, "token_acc": 0.952, "grad_norm": 1.93482125, "learning_rate": 6.759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241465, "epoch": 1.92773839, "global_step/max_steps": "25290/65595", "percentage": "38.55%", "elapsed_time": "1d 5h 5m 33s", "remaining_time": "1d 22h 21m 54s"}
+{"loss": 0.10224843, "token_acc": 0.95507028, "grad_norm": 0.08082934, "learning_rate": 6.758e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241476, "epoch": 1.92811952, "global_step/max_steps": "25295/65595", "percentage": "38.56%", "elapsed_time": "1d 5h 5m 49s", "remaining_time": "1d 22h 21m 26s"}
+{"loss": 0.15305899, "token_acc": 0.94515723, "grad_norm": 0.66008496, "learning_rate": 6.757e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24149, "epoch": 1.92850065, "global_step/max_steps": "25300/65595", "percentage": "38.57%", "elapsed_time": "1d 5h 6m 4s", "remaining_time": "1d 22h 20m 56s"}
+{"loss": 0.1158884, "token_acc": 0.95259993, "grad_norm": 0.9358092, "learning_rate": 6.756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241503, "epoch": 1.92888177, "global_step/max_steps": "25305/65595", "percentage": "38.58%", "elapsed_time": "1d 5h 6m 19s", "remaining_time": "1d 22h 20m 26s"}
+{"loss": 0.1520439, "token_acc": 0.93947525, "grad_norm": 0.94854313, "learning_rate": 6.755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241515, "epoch": 1.9292629, "global_step/max_steps": "25310/65595", "percentage": "38.59%", "elapsed_time": "1d 5h 6m 34s", "remaining_time": "1d 22h 19m 57s"}
+{"loss": 0.09997476, "token_acc": 0.96733436, "grad_norm": 0.4390727, "learning_rate": 6.754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241527, "epoch": 1.92964403, "global_step/max_steps": "25315/65595", "percentage": "38.59%", "elapsed_time": "1d 5h 6m 50s", "remaining_time": "1d 22h 19m 28s"}
+{"loss": 0.12752728, "token_acc": 0.95180085, "grad_norm": 1.53584826, "learning_rate": 6.753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241538, "epoch": 1.93002515, "global_step/max_steps": "25320/65595", "percentage": "38.60%", "elapsed_time": "1d 5h 7m 6s", "remaining_time": "1d 22h 19m 0s"}
+{"loss": 0.09251789, "token_acc": 0.95942603, "grad_norm": 1.03660369, "learning_rate": 6.751e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241548, "epoch": 1.93040628, "global_step/max_steps": "25325/65595", "percentage": "38.61%", "elapsed_time": "1d 5h 7m 22s", "remaining_time": "1d 22h 18m 32s"}
+{"loss": 0.08221244, "token_acc": 0.96957746, "grad_norm": 0.99868077, "learning_rate": 6.75e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241556, "epoch": 1.93078741, "global_step/max_steps": "25330/65595", "percentage": "38.62%", "elapsed_time": "1d 5h 7m 39s", "remaining_time": "1d 22h 18m 6s"}
+{"loss": 0.11665013, "token_acc": 0.95545546, "grad_norm": 0.93779361, "learning_rate": 6.749e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241566, "epoch": 1.93116853, "global_step/max_steps": "25335/65595", "percentage": "38.62%", "elapsed_time": "1d 5h 7m 55s", "remaining_time": "1d 22h 17m 38s"}
+{"loss": 0.12441972, "token_acc": 0.96339114, "grad_norm": 0.8646099, "learning_rate": 6.748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241576, "epoch": 1.93154966, "global_step/max_steps": "25340/65595", "percentage": "38.63%", "elapsed_time": "1d 5h 8m 12s", "remaining_time": "1d 22h 17m 11s"}
+{"loss": 0.12351742, "token_acc": 0.94589372, "grad_norm": 0.7443369, "learning_rate": 6.747e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241587, "epoch": 1.93193079, "global_step/max_steps": "25345/65595", "percentage": "38.64%", "elapsed_time": "1d 5h 8m 28s", "remaining_time": "1d 22h 16m 43s"}
+{"loss": 0.05291313, "token_acc": 0.97306901, "grad_norm": 0.48862711, "learning_rate": 6.746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241593, "epoch": 1.93231191, "global_step/max_steps": "25350/65595", "percentage": "38.65%", "elapsed_time": "1d 5h 8m 46s", "remaining_time": "1d 22h 16m 18s"}
+{"loss": 0.11649852, "token_acc": 0.95742276, "grad_norm": 0.63598633, "learning_rate": 6.745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241606, "epoch": 1.93269304, "global_step/max_steps": "25355/65595", "percentage": "38.65%", "elapsed_time": "1d 5h 9m 1s", "remaining_time": "1d 22h 15m 48s"}
+{"loss": 0.10125173, "token_acc": 0.95962787, "grad_norm": 0.86712849, "learning_rate": 6.744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241612, "epoch": 1.93307417, "global_step/max_steps": "25360/65595", "percentage": "38.66%", "elapsed_time": "1d 5h 9m 19s", "remaining_time": "1d 22h 15m 23s"}
+{"loss": 0.11291808, "token_acc": 0.95081967, "grad_norm": 0.64927989, "learning_rate": 6.743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241628, "epoch": 1.93345529, "global_step/max_steps": "25365/65595", "percentage": "38.67%", "elapsed_time": "1d 5h 9m 33s", "remaining_time": "1d 22h 14m 52s"}
+{"loss": 0.10060656, "token_acc": 0.95924663, "grad_norm": 1.14814329, "learning_rate": 6.741e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241632, "epoch": 1.93383642, "global_step/max_steps": "25370/65595", "percentage": "38.68%", "elapsed_time": "1d 5h 9m 52s", "remaining_time": "1d 22h 14m 28s"}
+{"loss": 0.11030816, "token_acc": 0.96007715, "grad_norm": 0.55941951, "learning_rate": 6.74e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241641, "epoch": 1.93421755, "global_step/max_steps": "25375/65595", "percentage": "38.68%", "elapsed_time": "1d 5h 10m 8s", "remaining_time": "1d 22h 14m 1s"}
+{"loss": 0.09129925, "token_acc": 0.96239854, "grad_norm": 0.56838155, "learning_rate": 6.739e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241649, "epoch": 1.93459867, "global_step/max_steps": "25380/65595", "percentage": "38.69%", "elapsed_time": "1d 5h 10m 26s", "remaining_time": "1d 22h 13m 35s"}
+{"loss": 0.1121524, "token_acc": 0.95630429, "grad_norm": 1.0507828, "learning_rate": 6.738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241662, "epoch": 1.9349798, "global_step/max_steps": "25385/65595", "percentage": "38.70%", "elapsed_time": "1d 5h 10m 41s", "remaining_time": "1d 22h 13m 6s"}
+{"loss": 0.12267133, "token_acc": 0.9458578, "grad_norm": 1.28693593, "learning_rate": 6.737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241675, "epoch": 1.93536093, "global_step/max_steps": "25390/65595", "percentage": "38.71%", "elapsed_time": "1d 5h 10m 56s", "remaining_time": "1d 22h 12m 36s"}
+{"loss": 0.11095183, "token_acc": 0.96319145, "grad_norm": 1.31837356, "learning_rate": 6.736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241686, "epoch": 1.93574205, "global_step/max_steps": "25395/65595", "percentage": "38.71%", "elapsed_time": "1d 5h 11m 12s", "remaining_time": "1d 22h 12m 8s"}
+{"loss": 0.04065674, "token_acc": 0.97701149, "grad_norm": 0.56014901, "learning_rate": 6.735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241693, "epoch": 1.93612318, "global_step/max_steps": "25400/65595", "percentage": "38.72%", "elapsed_time": "1d 5h 11m 29s", "remaining_time": "1d 22h 11m 42s"}
+{"eval_loss": 0.09472565, "eval_token_acc": 0.95851154, "eval_runtime": 220.1762, "eval_samples_per_second": 2.407, "eval_steps_per_second": 2.407, "epoch": 1.93612318, "global_step/max_steps": "25400/65595", "percentage": "38.72%", "elapsed_time": "1d 5h 15m 10s", "remaining_time": "1d 22h 17m 31s"}
+{"loss": 0.07228308, "token_acc": 0.95905207, "grad_norm": 1.06508863, "learning_rate": 6.734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241196, "epoch": 1.93650431, "global_step/max_steps": "25405/65595", "percentage": "38.73%", "elapsed_time": "1d 5h 15m 26s", "remaining_time": "1d 22h 17m 4s"}
+{"loss": 0.10173147, "token_acc": 0.95344355, "grad_norm": 0.73881578, "learning_rate": 6.732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241199, "epoch": 1.93688543, "global_step/max_steps": "25410/65595", "percentage": "38.74%", "elapsed_time": "1d 5h 15m 46s", "remaining_time": "1d 22h 16m 41s"}
+{"loss": 0.11366973, "token_acc": 0.95753065, "grad_norm": 1.13105059, "learning_rate": 6.731e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241209, "epoch": 1.93726656, "global_step/max_steps": "25415/65595", "percentage": "38.75%", "elapsed_time": "1d 5h 16m 2s", "remaining_time": "1d 22h 16m 13s"}
+{"loss": 0.10917258, "token_acc": 0.95604123, "grad_norm": 0.70302808, "learning_rate": 6.73e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241213, "epoch": 1.93764769, "global_step/max_steps": "25420/65595", "percentage": "38.75%", "elapsed_time": "1d 5h 16m 21s", "remaining_time": "1d 22h 15m 50s"}
+{"loss": 0.08775396, "token_acc": 0.96198254, "grad_norm": 0.87715411, "learning_rate": 6.729e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241224, "epoch": 1.93802881, "global_step/max_steps": "25425/65595", "percentage": "38.76%", "elapsed_time": "1d 5h 16m 37s", "remaining_time": "1d 22h 15m 22s"}
+{"loss": 0.12893236, "token_acc": 0.95687823, "grad_norm": 1.57017183, "learning_rate": 6.728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241235, "epoch": 1.93840994, "global_step/max_steps": "25430/65595", "percentage": "38.77%", "elapsed_time": "1d 5h 16m 53s", "remaining_time": "1d 22h 14m 54s"}
+{"loss": 0.12148727, "token_acc": 0.94883485, "grad_norm": 0.77228451, "learning_rate": 6.727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241244, "epoch": 1.93879107, "global_step/max_steps": "25435/65595", "percentage": "38.78%", "elapsed_time": "1d 5h 17m 10s", "remaining_time": "1d 22h 14m 27s"}
+{"loss": 0.12846885, "token_acc": 0.95142684, "grad_norm": 1.36219585, "learning_rate": 6.726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241254, "epoch": 1.93917219, "global_step/max_steps": "25440/65595", "percentage": "38.78%", "elapsed_time": "1d 5h 17m 26s", "remaining_time": "1d 22h 13m 59s"}
+{"loss": 0.12911727, "token_acc": 0.95467356, "grad_norm": 0.67060286, "learning_rate": 6.725e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241261, "epoch": 1.93955332, "global_step/max_steps": "25445/65595", "percentage": "38.79%", "elapsed_time": "1d 5h 17m 44s", "remaining_time": "1d 22h 13m 33s"}
+{"loss": 0.09779456, "token_acc": 0.96538124, "grad_norm": 0.62368172, "learning_rate": 6.723e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241263, "epoch": 1.93993445, "global_step/max_steps": "25450/65595", "percentage": "38.80%", "elapsed_time": "1d 5h 18m 4s", "remaining_time": "1d 22h 13m 11s"}
+{"loss": 0.1315165, "token_acc": 0.95245796, "grad_norm": 1.39298856, "learning_rate": 6.722e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241274, "epoch": 1.94031557, "global_step/max_steps": "25455/65595", "percentage": "38.81%", "elapsed_time": "1d 5h 18m 20s", "remaining_time": "1d 22h 12m 43s"}
+{"loss": 0.10368912, "token_acc": 0.96631879, "grad_norm": 1.00763512, "learning_rate": 6.721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241283, "epoch": 1.9406967, "global_step/max_steps": "25460/65595", "percentage": "38.81%", "elapsed_time": "1d 5h 18m 37s", "remaining_time": "1d 22h 12m 16s"}
+{"loss": 0.08904298, "token_acc": 0.96111111, "grad_norm": 1.31459641, "learning_rate": 6.72e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241293, "epoch": 1.94107783, "global_step/max_steps": "25465/65595", "percentage": "38.82%", "elapsed_time": "1d 5h 18m 53s", "remaining_time": "1d 22h 11m 48s"}
+{"loss": 0.09698197, "token_acc": 0.96240989, "grad_norm": 1.14274812, "learning_rate": 6.719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241302, "epoch": 1.94145895, "global_step/max_steps": "25470/65595", "percentage": "38.83%", "elapsed_time": "1d 5h 19m 10s", "remaining_time": "1d 22h 11m 21s"}
+{"loss": 0.13590757, "token_acc": 0.94222301, "grad_norm": 0.87676889, "learning_rate": 6.718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24131, "epoch": 1.94184008, "global_step/max_steps": "25475/65595", "percentage": "38.84%", "elapsed_time": "1d 5h 19m 27s", "remaining_time": "1d 22h 10m 55s"}
+{"loss": 0.09809097, "token_acc": 0.96055197, "grad_norm": 0.96659005, "learning_rate": 6.717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241317, "epoch": 1.94222121, "global_step/max_steps": "25480/65595", "percentage": "38.84%", "elapsed_time": "1d 5h 19m 45s", "remaining_time": "1d 22h 10m 30s"}
+{"loss": 0.13839808, "token_acc": 0.95575448, "grad_norm": 1.3745023, "learning_rate": 6.716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241328, "epoch": 1.94260233, "global_step/max_steps": "25485/65595", "percentage": "38.85%", "elapsed_time": "1d 5h 20m 0s", "remaining_time": "1d 22h 10m 1s"}
+{"loss": 0.11799775, "token_acc": 0.96106195, "grad_norm": 0.72567612, "learning_rate": 6.714e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24134, "epoch": 1.94298346, "global_step/max_steps": "25490/65595", "percentage": "38.86%", "elapsed_time": "1d 5h 20m 16s", "remaining_time": "1d 22h 9m 32s"}
+{"loss": 0.1099589, "token_acc": 0.95591323, "grad_norm": 0.89395297, "learning_rate": 6.713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241354, "epoch": 1.94336459, "global_step/max_steps": "25495/65595", "percentage": "38.87%", "elapsed_time": "1d 5h 20m 30s", "remaining_time": "1d 22h 9m 2s"}
+{"loss": 0.10507406, "token_acc": 0.96609493, "grad_norm": 0.71906644, "learning_rate": 6.712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241367, "epoch": 1.94374571, "global_step/max_steps": "25500/65595", "percentage": "38.87%", "elapsed_time": "1d 5h 20m 46s", "remaining_time": "1d 22h 8m 33s"}
+{"loss": 0.0604161, "token_acc": 0.97875569, "grad_norm": 0.5132302, "learning_rate": 6.711e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241366, "epoch": 1.94412684, "global_step/max_steps": "25505/65595", "percentage": "38.88%", "elapsed_time": "1d 5h 21m 7s", "remaining_time": "1d 22h 8m 12s"}
+{"loss": 0.08416474, "token_acc": 0.96595436, "grad_norm": 0.60954177, "learning_rate": 6.71e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241374, "epoch": 1.94450797, "global_step/max_steps": "25510/65595", "percentage": "38.89%", "elapsed_time": "1d 5h 21m 24s", "remaining_time": "1d 22h 7m 46s"}
+{"loss": 0.11599817, "token_acc": 0.95121217, "grad_norm": 0.87644106, "learning_rate": 6.709e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241381, "epoch": 1.94488909, "global_step/max_steps": "25515/65595", "percentage": "38.90%", "elapsed_time": "1d 5h 21m 42s", "remaining_time": "1d 22h 7m 21s"}
+{"loss": 0.09775007, "token_acc": 0.96333159, "grad_norm": 0.70547354, "learning_rate": 6.708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241388, "epoch": 1.94527022, "global_step/max_steps": "25520/65595", "percentage": "38.91%", "elapsed_time": "1d 5h 21m 59s", "remaining_time": "1d 22h 6m 55s"}
+{"loss": 0.1029966, "token_acc": 0.96252129, "grad_norm": 1.19790637, "learning_rate": 6.707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241402, "epoch": 1.94565135, "global_step/max_steps": "25525/65595", "percentage": "38.91%", "elapsed_time": "1d 5h 22m 14s", "remaining_time": "1d 22h 6m 24s"}
+{"loss": 0.09154881, "token_acc": 0.96856626, "grad_norm": 1.20930946, "learning_rate": 6.705e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241411, "epoch": 1.94603247, "global_step/max_steps": "25530/65595", "percentage": "38.92%", "elapsed_time": "1d 5h 22m 30s", "remaining_time": "1d 22h 5m 58s"}
+{"loss": 0.0877448, "token_acc": 0.96971376, "grad_norm": 0.8875466, "learning_rate": 6.704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241421, "epoch": 1.9464136, "global_step/max_steps": "25535/65595", "percentage": "38.93%", "elapsed_time": "1d 5h 22m 47s", "remaining_time": "1d 22h 5m 30s"}
+{"loss": 0.1355154, "token_acc": 0.94998618, "grad_norm": 0.86280543, "learning_rate": 6.703e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241432, "epoch": 1.94679473, "global_step/max_steps": "25540/65595", "percentage": "38.94%", "elapsed_time": "1d 5h 23m 3s", "remaining_time": "1d 22h 5m 2s"}
+{"loss": 0.11317618, "token_acc": 0.96518106, "grad_norm": 1.83493364, "learning_rate": 6.702e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241439, "epoch": 1.94717585, "global_step/max_steps": "25545/65595", "percentage": "38.94%", "elapsed_time": "1d 5h 23m 21s", "remaining_time": "1d 22h 4m 37s"}
+{"loss": 0.09008875, "token_acc": 0.95688015, "grad_norm": 0.58999324, "learning_rate": 6.701e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241451, "epoch": 1.94755698, "global_step/max_steps": "25550/65595", "percentage": "38.95%", "elapsed_time": "1d 5h 23m 36s", "remaining_time": "1d 22h 4m 7s"}
+{"loss": 0.15021509, "token_acc": 0.94304099, "grad_norm": 1.18657851, "learning_rate": 6.7e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241449, "epoch": 1.94793811, "global_step/max_steps": "25555/65595", "percentage": "38.96%", "elapsed_time": "1d 5h 23m 58s", "remaining_time": "1d 22h 3m 48s"}
+{"loss": 0.06183077, "token_acc": 0.96785185, "grad_norm": 0.58016211, "learning_rate": 6.699e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241452, "epoch": 1.94831923, "global_step/max_steps": "25560/65595", "percentage": "38.97%", "elapsed_time": "1d 5h 24m 17s", "remaining_time": "1d 22h 3m 25s"}
+{"loss": 0.08466415, "token_acc": 0.96332759, "grad_norm": 0.88598275, "learning_rate": 6.698e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241462, "epoch": 1.94870036, "global_step/max_steps": "25565/65595", "percentage": "38.97%", "elapsed_time": "1d 5h 24m 33s", "remaining_time": "1d 22h 2m 58s"}
+{"loss": 0.11362834, "token_acc": 0.96135266, "grad_norm": 0.78992498, "learning_rate": 6.696e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241473, "epoch": 1.94908148, "global_step/max_steps": "25570/65595", "percentage": "38.98%", "elapsed_time": "1d 5h 24m 49s", "remaining_time": "1d 22h 2m 29s"}
+{"loss": 0.09864281, "token_acc": 0.95106383, "grad_norm": 0.97847176, "learning_rate": 6.695e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241482, "epoch": 1.94946261, "global_step/max_steps": "25575/65595", "percentage": "38.99%", "elapsed_time": "1d 5h 25m 6s", "remaining_time": "1d 22h 2m 2s"}
+{"loss": 0.11802574, "token_acc": 0.95911024, "grad_norm": 0.70105839, "learning_rate": 6.694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241484, "epoch": 1.94984374, "global_step/max_steps": "25580/65595", "percentage": "39.00%", "elapsed_time": "1d 5h 25m 26s", "remaining_time": "1d 22h 1m 41s"}
+{"loss": 0.13576021, "token_acc": 0.95179015, "grad_norm": 0.69666094, "learning_rate": 6.693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24149, "epoch": 1.95022486, "global_step/max_steps": "25585/65595", "percentage": "39.00%", "elapsed_time": "1d 5h 25m 44s", "remaining_time": "1d 22h 1m 16s"}
+{"loss": 0.08475622, "token_acc": 0.95744302, "grad_norm": 0.77251625, "learning_rate": 6.692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241498, "epoch": 1.95060599, "global_step/max_steps": "25590/65595", "percentage": "39.01%", "elapsed_time": "1d 5h 26m 1s", "remaining_time": "1d 22h 0m 49s"}
+{"loss": 0.09059439, "token_acc": 0.96134393, "grad_norm": 0.54842591, "learning_rate": 6.691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241511, "epoch": 1.95098712, "global_step/max_steps": "25595/65595", "percentage": "39.02%", "elapsed_time": "1d 5h 26m 16s", "remaining_time": "1d 22h 0m 20s"}
+{"loss": 0.10038015, "token_acc": 0.96157036, "grad_norm": 1.1703639, "learning_rate": 6.69e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241521, "epoch": 1.95136824, "global_step/max_steps": "25600/65595", "percentage": "39.03%", "elapsed_time": "1d 5h 26m 32s", "remaining_time": "1d 21h 59m 52s"}
+{"eval_loss": 0.09341057, "eval_token_acc": 0.95902355, "eval_runtime": 221.9371, "eval_samples_per_second": 2.388, "eval_steps_per_second": 2.388, "epoch": 1.95136824, "global_step/max_steps": "25600/65595", "percentage": "39.03%", "elapsed_time": "1d 5h 30m 14s", "remaining_time": "1d 22h 5m 39s"}
+{"loss": 0.07046686, "token_acc": 0.95952573, "grad_norm": 0.73812491, "learning_rate": 6.689e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241023, "epoch": 1.95174937, "global_step/max_steps": "25605/65595", "percentage": "39.03%", "elapsed_time": "1d 5h 30m 32s", "remaining_time": "1d 22h 5m 14s"}
+{"loss": 0.13180497, "token_acc": 0.93467819, "grad_norm": 1.02713144, "learning_rate": 6.687e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241036, "epoch": 1.9521305, "global_step/max_steps": "25610/65595", "percentage": "39.04%", "elapsed_time": "1d 5h 30m 47s", "remaining_time": "1d 22h 4m 44s"}
+{"loss": 0.07630914, "token_acc": 0.96641719, "grad_norm": 0.9179073, "learning_rate": 6.686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241046, "epoch": 1.95251162, "global_step/max_steps": "25615/65595", "percentage": "39.05%", "elapsed_time": "1d 5h 31m 3s", "remaining_time": "1d 22h 4m 17s"}
+{"loss": 0.08883668, "token_acc": 0.9594715, "grad_norm": 0.902924, "learning_rate": 6.685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24105, "epoch": 1.95289275, "global_step/max_steps": "25620/65595", "percentage": "39.06%", "elapsed_time": "1d 5h 31m 22s", "remaining_time": "1d 22h 3m 53s"}
+{"loss": 0.12069019, "token_acc": 0.95362631, "grad_norm": 0.91363013, "learning_rate": 6.684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241063, "epoch": 1.95327388, "global_step/max_steps": "25625/65595", "percentage": "39.07%", "elapsed_time": "1d 5h 31m 37s", "remaining_time": "1d 22h 3m 23s"}
+{"loss": 0.11324213, "token_acc": 0.94105894, "grad_norm": 1.11426997, "learning_rate": 6.683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241076, "epoch": 1.953655, "global_step/max_steps": "25630/65595", "percentage": "39.07%", "elapsed_time": "1d 5h 31m 52s", "remaining_time": "1d 22h 2m 54s"}
+{"loss": 0.10161672, "token_acc": 0.95465331, "grad_norm": 0.60137475, "learning_rate": 6.682e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241082, "epoch": 1.95403613, "global_step/max_steps": "25635/65595", "percentage": "39.08%", "elapsed_time": "1d 5h 32m 10s", "remaining_time": "1d 22h 2m 29s"}
+{"loss": 0.12658778, "token_acc": 0.95361182, "grad_norm": 0.60057747, "learning_rate": 6.681e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241092, "epoch": 1.95441726, "global_step/max_steps": "25640/65595", "percentage": "39.09%", "elapsed_time": "1d 5h 32m 27s", "remaining_time": "1d 22h 2m 1s"}
+{"loss": 0.04936954, "token_acc": 0.97023933, "grad_norm": 0.65890265, "learning_rate": 6.679e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241102, "epoch": 1.95479838, "global_step/max_steps": "25645/65595", "percentage": "39.10%", "elapsed_time": "1d 5h 32m 43s", "remaining_time": "1d 22h 1m 34s"}
+{"loss": 0.12246394, "token_acc": 0.94894785, "grad_norm": 0.86966437, "learning_rate": 6.678e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241108, "epoch": 1.95517951, "global_step/max_steps": "25650/65595", "percentage": "39.10%", "elapsed_time": "1d 5h 33m 1s", "remaining_time": "1d 22h 1m 9s"}
+{"loss": 0.11863362, "token_acc": 0.95178399, "grad_norm": 1.07362795, "learning_rate": 6.677e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241118, "epoch": 1.95556064, "global_step/max_steps": "25655/65595", "percentage": "39.11%", "elapsed_time": "1d 5h 33m 17s", "remaining_time": "1d 22h 0m 41s"}
+{"loss": 0.12168626, "token_acc": 0.95908408, "grad_norm": 0.75021064, "learning_rate": 6.676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241132, "epoch": 1.95594176, "global_step/max_steps": "25660/65595", "percentage": "39.12%", "elapsed_time": "1d 5h 33m 32s", "remaining_time": "1d 22h 0m 11s"}
+{"loss": 0.13337973, "token_acc": 0.95053815, "grad_norm": 0.91327322, "learning_rate": 6.675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241138, "epoch": 1.95632289, "global_step/max_steps": "25665/65595", "percentage": "39.13%", "elapsed_time": "1d 5h 33m 50s", "remaining_time": "1d 21h 59m 46s"}
+{"loss": 0.1292989, "token_acc": 0.95154472, "grad_norm": 0.65664852, "learning_rate": 6.674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241149, "epoch": 1.95670402, "global_step/max_steps": "25670/65595", "percentage": "39.13%", "elapsed_time": "1d 5h 34m 6s", "remaining_time": "1d 21h 59m 18s"}
+{"loss": 0.07238308, "token_acc": 0.96964856, "grad_norm": 0.59406513, "learning_rate": 6.673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24116, "epoch": 1.95708514, "global_step/max_steps": "25675/65595", "percentage": "39.14%", "elapsed_time": "1d 5h 34m 22s", "remaining_time": "1d 21h 58m 49s"}
+{"loss": 0.10333422, "token_acc": 0.9662048, "grad_norm": 1.44033158, "learning_rate": 6.672e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241172, "epoch": 1.95746627, "global_step/max_steps": "25680/65595", "percentage": "39.15%", "elapsed_time": "1d 5h 34m 37s", "remaining_time": "1d 21h 58m 20s"}
+{"loss": 0.06644163, "token_acc": 0.97231752, "grad_norm": 0.12983751, "learning_rate": 6.67e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241172, "epoch": 1.9578474, "global_step/max_steps": "25685/65595", "percentage": "39.16%", "elapsed_time": "1d 5h 34m 58s", "remaining_time": "1d 21h 57m 59s"}
+{"loss": 0.15387394, "token_acc": 0.9348693, "grad_norm": 1.33850241, "learning_rate": 6.669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241187, "epoch": 1.95822852, "global_step/max_steps": "25690/65595", "percentage": "39.16%", "elapsed_time": "1d 5h 35m 12s", "remaining_time": "1d 21h 57m 29s"}
+{"loss": 0.14216789, "token_acc": 0.94909955, "grad_norm": 1.41278887, "learning_rate": 6.668e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241188, "epoch": 1.95860965, "global_step/max_steps": "25695/65595", "percentage": "39.17%", "elapsed_time": "1d 5h 35m 33s", "remaining_time": "1d 21h 57m 7s"}
+{"loss": 0.0971613, "token_acc": 0.96790736, "grad_norm": 0.82966375, "learning_rate": 6.667e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241194, "epoch": 1.95899078, "global_step/max_steps": "25700/65595", "percentage": "39.18%", "elapsed_time": "1d 5h 35m 50s", "remaining_time": "1d 21h 56m 42s"}
+{"loss": 0.12091451, "token_acc": 0.96049256, "grad_norm": 0.54068947, "learning_rate": 6.666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241199, "epoch": 1.9593719, "global_step/max_steps": "25705/65595", "percentage": "39.19%", "elapsed_time": "1d 5h 36m 9s", "remaining_time": "1d 21h 56m 18s"}
+{"loss": 0.09301093, "token_acc": 0.96127168, "grad_norm": 0.8709231, "learning_rate": 6.665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241207, "epoch": 1.95975303, "global_step/max_steps": "25710/65595", "percentage": "39.20%", "elapsed_time": "1d 5h 36m 26s", "remaining_time": "1d 21h 55m 52s"}
+{"loss": 0.14764016, "token_acc": 0.94076655, "grad_norm": 2.54874086, "learning_rate": 6.664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241221, "epoch": 1.96013416, "global_step/max_steps": "25715/65595", "percentage": "39.20%", "elapsed_time": "1d 5h 36m 41s", "remaining_time": "1d 21h 55m 21s"}
+{"loss": 0.10981954, "token_acc": 0.9504635, "grad_norm": 1.35000551, "learning_rate": 6.663e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241235, "epoch": 1.96051528, "global_step/max_steps": "25720/65595", "percentage": "39.21%", "elapsed_time": "1d 5h 36m 55s", "remaining_time": "1d 21h 54m 51s"}
+{"loss": 0.10976629, "token_acc": 0.95973496, "grad_norm": 0.91500884, "learning_rate": 6.661e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24125, "epoch": 1.96089641, "global_step/max_steps": "25725/65595", "percentage": "39.22%", "elapsed_time": "1d 5h 37m 9s", "remaining_time": "1d 21h 54m 20s"}
+{"loss": 0.15172751, "token_acc": 0.93782199, "grad_norm": 0.82385504, "learning_rate": 6.66e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241261, "epoch": 1.96127754, "global_step/max_steps": "25730/65595", "percentage": "39.23%", "elapsed_time": "1d 5h 37m 25s", "remaining_time": "1d 21h 53m 52s"}
+{"loss": 0.12827933, "token_acc": 0.94188596, "grad_norm": 0.85924697, "learning_rate": 6.659e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241275, "epoch": 1.96165866, "global_step/max_steps": "25735/65595", "percentage": "39.23%", "elapsed_time": "1d 5h 37m 40s", "remaining_time": "1d 21h 53m 22s"}
+{"loss": 0.1013903, "token_acc": 0.96461276, "grad_norm": 0.7015056, "learning_rate": 6.658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241282, "epoch": 1.96203979, "global_step/max_steps": "25740/65595", "percentage": "39.24%", "elapsed_time": "1d 5h 37m 58s", "remaining_time": "1d 21h 52m 56s"}
+{"loss": 0.13102164, "token_acc": 0.95214106, "grad_norm": 0.68497646, "learning_rate": 6.657e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241289, "epoch": 1.96242092, "global_step/max_steps": "25745/65595", "percentage": "39.25%", "elapsed_time": "1d 5h 38m 15s", "remaining_time": "1d 21h 52m 30s"}
+{"loss": 0.13424447, "token_acc": 0.9534384, "grad_norm": 1.4717474, "learning_rate": 6.656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241299, "epoch": 1.96280204, "global_step/max_steps": "25750/65595", "percentage": "39.26%", "elapsed_time": "1d 5h 38m 31s", "remaining_time": "1d 21h 52m 3s"}
+{"loss": 0.0668524, "token_acc": 0.96908013, "grad_norm": 0.55644631, "learning_rate": 6.655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241309, "epoch": 1.96318317, "global_step/max_steps": "25755/65595", "percentage": "39.26%", "elapsed_time": "1d 5h 38m 47s", "remaining_time": "1d 21h 51m 35s"}
+{"loss": 0.10643432, "token_acc": 0.95910448, "grad_norm": 1.28806317, "learning_rate": 6.654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241319, "epoch": 1.9635643, "global_step/max_steps": "25760/65595", "percentage": "39.27%", "elapsed_time": "1d 5h 39m 4s", "remaining_time": "1d 21h 51m 8s"}
+{"loss": 0.10490973, "token_acc": 0.9683352, "grad_norm": 0.53336722, "learning_rate": 6.652e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241325, "epoch": 1.96394542, "global_step/max_steps": "25765/65595", "percentage": "39.28%", "elapsed_time": "1d 5h 39m 22s", "remaining_time": "1d 21h 50m 43s"}
+{"loss": 0.10806643, "token_acc": 0.95629642, "grad_norm": 0.76757479, "learning_rate": 6.651e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241332, "epoch": 1.96432655, "global_step/max_steps": "25770/65595", "percentage": "39.29%", "elapsed_time": "1d 5h 39m 40s", "remaining_time": "1d 21h 50m 18s"}
+{"loss": 0.09376006, "token_acc": 0.96197148, "grad_norm": 0.82320458, "learning_rate": 6.65e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241341, "epoch": 1.96470768, "global_step/max_steps": "25775/65595", "percentage": "39.29%", "elapsed_time": "1d 5h 39m 56s", "remaining_time": "1d 21h 49m 50s"}
+{"loss": 0.06518565, "token_acc": 0.97215295, "grad_norm": 0.80463523, "learning_rate": 6.649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241343, "epoch": 1.9650888, "global_step/max_steps": "25780/65595", "percentage": "39.30%", "elapsed_time": "1d 5h 40m 16s", "remaining_time": "1d 21h 49m 29s"}
+{"loss": 0.09170769, "token_acc": 0.96183533, "grad_norm": 0.99371064, "learning_rate": 6.648e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241356, "epoch": 1.96546993, "global_step/max_steps": "25785/65595", "percentage": "39.31%", "elapsed_time": "1d 5h 40m 31s", "remaining_time": "1d 21h 48m 59s"}
+{"loss": 0.16496696, "token_acc": 0.93109586, "grad_norm": 1.18897378, "learning_rate": 6.647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241366, "epoch": 1.96585106, "global_step/max_steps": "25790/65595", "percentage": "39.32%", "elapsed_time": "1d 5h 40m 47s", "remaining_time": "1d 21h 48m 31s"}
+{"loss": 0.15510368, "token_acc": 0.94434952, "grad_norm": 1.70840895, "learning_rate": 6.646e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241376, "epoch": 1.96623218, "global_step/max_steps": "25795/65595", "percentage": "39.32%", "elapsed_time": "1d 5h 41m 4s", "remaining_time": "1d 21h 48m 4s"}
+{"loss": 0.11817776, "token_acc": 0.95290048, "grad_norm": 1.65772784, "learning_rate": 6.644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241387, "epoch": 1.96661331, "global_step/max_steps": "25800/65595", "percentage": "39.33%", "elapsed_time": "1d 5h 41m 20s", "remaining_time": "1d 21h 47m 36s"}
+{"eval_loss": 0.09299157, "eval_token_acc": 0.95944521, "eval_runtime": 219.9905, "eval_samples_per_second": 2.409, "eval_steps_per_second": 2.409, "epoch": 1.96661331, "global_step/max_steps": "25800/65595", "percentage": "39.33%", "elapsed_time": "1d 5h 45m 0s", "remaining_time": "1d 21h 53m 15s"}
+{"loss": 0.08172635, "token_acc": 0.95955202, "grad_norm": 1.29477167, "learning_rate": 6.643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240897, "epoch": 1.96699444, "global_step/max_steps": "25805/65595", "percentage": "39.34%", "elapsed_time": "1d 5h 45m 18s", "remaining_time": "1d 21h 52m 50s"}
+{"loss": 0.11432948, "token_acc": 0.96519871, "grad_norm": 0.63864416, "learning_rate": 6.642e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240905, "epoch": 1.96737556, "global_step/max_steps": "25810/65595", "percentage": "39.35%", "elapsed_time": "1d 5h 45m 35s", "remaining_time": "1d 21h 52m 24s"}
+{"loss": 0.13426809, "token_acc": 0.95442052, "grad_norm": 0.79289687, "learning_rate": 6.641e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240906, "epoch": 1.96775669, "global_step/max_steps": "25815/65595", "percentage": "39.36%", "elapsed_time": "1d 5h 45m 55s", "remaining_time": "1d 21h 52m 3s"}
+{"loss": 0.07573256, "token_acc": 0.96480105, "grad_norm": 0.93150425, "learning_rate": 6.64e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240916, "epoch": 1.96813782, "global_step/max_steps": "25820/65595", "percentage": "39.36%", "elapsed_time": "1d 5h 46m 12s", "remaining_time": "1d 21h 51m 35s"}
+{"loss": 0.09939045, "token_acc": 0.96232915, "grad_norm": 0.51957995, "learning_rate": 6.639e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240914, "epoch": 1.96851894, "global_step/max_steps": "25825/65595", "percentage": "39.37%", "elapsed_time": "1d 5h 46m 33s", "remaining_time": "1d 21h 51m 16s"}
+{"loss": 0.09861473, "token_acc": 0.95447694, "grad_norm": 0.35618016, "learning_rate": 6.638e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240924, "epoch": 1.96890007, "global_step/max_steps": "25830/65595", "percentage": "39.38%", "elapsed_time": "1d 5h 46m 49s", "remaining_time": "1d 21h 50m 48s"}
+{"loss": 0.11386867, "token_acc": 0.95421447, "grad_norm": 0.64253551, "learning_rate": 6.637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240926, "epoch": 1.9692812, "global_step/max_steps": "25835/65595", "percentage": "39.39%", "elapsed_time": "1d 5h 47m 10s", "remaining_time": "1d 21h 50m 26s"}
+{"loss": 0.09547186, "token_acc": 0.95132128, "grad_norm": 0.63133729, "learning_rate": 6.635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240936, "epoch": 1.96966232, "global_step/max_steps": "25840/65595", "percentage": "39.39%", "elapsed_time": "1d 5h 47m 26s", "remaining_time": "1d 21h 49m 58s"}
+{"loss": 0.10024648, "token_acc": 0.97107692, "grad_norm": 1.44878531, "learning_rate": 6.634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240943, "epoch": 1.97004345, "global_step/max_steps": "25845/65595", "percentage": "39.40%", "elapsed_time": "1d 5h 47m 44s", "remaining_time": "1d 21h 49m 33s"}
+{"loss": 0.13840704, "token_acc": 0.94643466, "grad_norm": 2.49455714, "learning_rate": 6.633e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240954, "epoch": 1.97042458, "global_step/max_steps": "25850/65595", "percentage": "39.41%", "elapsed_time": "1d 5h 47m 59s", "remaining_time": "1d 21h 49m 4s"}
+{"loss": 0.12849892, "token_acc": 0.95913869, "grad_norm": 1.74371862, "learning_rate": 6.632e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240964, "epoch": 1.9708057, "global_step/max_steps": "25855/65595", "percentage": "39.42%", "elapsed_time": "1d 5h 48m 15s", "remaining_time": "1d 21h 48m 37s"}
+{"loss": 0.09771298, "token_acc": 0.95130238, "grad_norm": 0.8548665, "learning_rate": 6.631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240968, "epoch": 1.97118683, "global_step/max_steps": "25860/65595", "percentage": "39.42%", "elapsed_time": "1d 5h 48m 35s", "remaining_time": "1d 21h 48m 14s"}
+{"loss": 0.11660987, "token_acc": 0.96317322, "grad_norm": 0.62234128, "learning_rate": 6.63e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240971, "epoch": 1.97156795, "global_step/max_steps": "25865/65595", "percentage": "39.43%", "elapsed_time": "1d 5h 48m 54s", "remaining_time": "1d 21h 47m 50s"}
+{"loss": 0.13441105, "token_acc": 0.9424683, "grad_norm": 1.34831214, "learning_rate": 6.629e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240984, "epoch": 1.97194908, "global_step/max_steps": "25870/65595", "percentage": "39.44%", "elapsed_time": "1d 5h 49m 9s", "remaining_time": "1d 21h 47m 21s"}
+{"loss": 0.10430133, "token_acc": 0.96558124, "grad_norm": 0.88168836, "learning_rate": 6.628e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240991, "epoch": 1.97233021, "global_step/max_steps": "25875/65595", "percentage": "39.45%", "elapsed_time": "1d 5h 49m 26s", "remaining_time": "1d 21h 46m 55s"}
+{"loss": 0.09282464, "token_acc": 0.96483783, "grad_norm": 0.98808867, "learning_rate": 6.626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241004, "epoch": 1.97271133, "global_step/max_steps": "25880/65595", "percentage": "39.45%", "elapsed_time": "1d 5h 49m 42s", "remaining_time": "1d 21h 46m 26s"}
+{"loss": 0.07190306, "token_acc": 0.9673681, "grad_norm": 0.64718604, "learning_rate": 6.625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241016, "epoch": 1.97309246, "global_step/max_steps": "25885/65595", "percentage": "39.46%", "elapsed_time": "1d 5h 49m 57s", "remaining_time": "1d 21h 45m 57s"}
+{"loss": 0.17652335, "token_acc": 0.92486772, "grad_norm": 1.32656932, "learning_rate": 6.624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241031, "epoch": 1.97347359, "global_step/max_steps": "25890/65595", "percentage": "39.47%", "elapsed_time": "1d 5h 50m 11s", "remaining_time": "1d 21h 45m 26s"}
+{"loss": 0.11000319, "token_acc": 0.94945111, "grad_norm": 1.52887976, "learning_rate": 6.623e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241041, "epoch": 1.97385471, "global_step/max_steps": "25895/65595", "percentage": "39.48%", "elapsed_time": "1d 5h 50m 27s", "remaining_time": "1d 21h 44m 58s"}
+{"loss": 0.10152785, "token_acc": 0.96727691, "grad_norm": 0.4328298, "learning_rate": 6.622e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241036, "epoch": 1.97423584, "global_step/max_steps": "25900/65595", "percentage": "39.48%", "elapsed_time": "1d 5h 50m 50s", "remaining_time": "1d 21h 44m 41s"}
+{"loss": 0.10842351, "token_acc": 0.96218575, "grad_norm": 0.65306306, "learning_rate": 6.621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241045, "epoch": 1.97461697, "global_step/max_steps": "25905/65595", "percentage": "39.49%", "elapsed_time": "1d 5h 51m 7s", "remaining_time": "1d 21h 44m 14s"}
+{"loss": 0.11299914, "token_acc": 0.95355191, "grad_norm": 1.23122036, "learning_rate": 6.62e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241056, "epoch": 1.97499809, "global_step/max_steps": "25910/65595", "percentage": "39.50%", "elapsed_time": "1d 5h 51m 22s", "remaining_time": "1d 21h 43m 46s"}
+{"loss": 0.0872028, "token_acc": 0.9589143, "grad_norm": 0.66417319, "learning_rate": 6.618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241064, "epoch": 1.97537922, "global_step/max_steps": "25915/65595", "percentage": "39.51%", "elapsed_time": "1d 5h 51m 40s", "remaining_time": "1d 21h 43m 20s"}
+{"loss": 0.12663038, "token_acc": 0.95491924, "grad_norm": 0.51126277, "learning_rate": 6.617e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241068, "epoch": 1.97576035, "global_step/max_steps": "25920/65595", "percentage": "39.52%", "elapsed_time": "1d 5h 51m 59s", "remaining_time": "1d 21h 42m 56s"}
+{"loss": 0.09054121, "token_acc": 0.96634615, "grad_norm": 0.61824358, "learning_rate": 6.616e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241082, "epoch": 1.97614147, "global_step/max_steps": "25925/65595", "percentage": "39.52%", "elapsed_time": "1d 5h 52m 13s", "remaining_time": "1d 21h 42m 26s"}
+{"loss": 0.07046051, "token_acc": 0.96756256, "grad_norm": 0.82825142, "learning_rate": 6.615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241092, "epoch": 1.9765226, "global_step/max_steps": "25930/65595", "percentage": "39.53%", "elapsed_time": "1d 5h 52m 29s", "remaining_time": "1d 21h 41m 58s"}
+{"loss": 0.09891224, "token_acc": 0.96022074, "grad_norm": 0.88121879, "learning_rate": 6.614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241103, "epoch": 1.97690373, "global_step/max_steps": "25935/65595", "percentage": "39.54%", "elapsed_time": "1d 5h 52m 45s", "remaining_time": "1d 21h 41m 30s"}
+{"loss": 0.1221104, "token_acc": 0.96309802, "grad_norm": 0.92344397, "learning_rate": 6.613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241104, "epoch": 1.97728485, "global_step/max_steps": "25940/65595", "percentage": "39.55%", "elapsed_time": "1d 5h 53m 6s", "remaining_time": "1d 21h 41m 9s"}
+{"loss": 0.09554875, "token_acc": 0.95660821, "grad_norm": 1.02674103, "learning_rate": 6.612e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241111, "epoch": 1.97766598, "global_step/max_steps": "25945/65595", "percentage": "39.55%", "elapsed_time": "1d 5h 53m 23s", "remaining_time": "1d 21h 40m 43s"}
+{"loss": 0.09236326, "token_acc": 0.96215967, "grad_norm": 0.95047259, "learning_rate": 6.611e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241122, "epoch": 1.97804711, "global_step/max_steps": "25950/65595", "percentage": "39.56%", "elapsed_time": "1d 5h 53m 39s", "remaining_time": "1d 21h 40m 15s"}
+{"loss": 0.11468203, "token_acc": 0.94337146, "grad_norm": 1.00980532, "learning_rate": 6.609e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24113, "epoch": 1.97842823, "global_step/max_steps": "25955/65595", "percentage": "39.57%", "elapsed_time": "1d 5h 53m 56s", "remaining_time": "1d 21h 39m 49s"}
+{"loss": 0.12111028, "token_acc": 0.95184687, "grad_norm": 0.96784937, "learning_rate": 6.608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241133, "epoch": 1.97880936, "global_step/max_steps": "25960/65595", "percentage": "39.58%", "elapsed_time": "1d 5h 54m 16s", "remaining_time": "1d 21h 39m 26s"}
+{"loss": 0.08237898, "token_acc": 0.96574813, "grad_norm": 0.87349188, "learning_rate": 6.607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241137, "epoch": 1.97919049, "global_step/max_steps": "25965/65595", "percentage": "39.58%", "elapsed_time": "1d 5h 54m 35s", "remaining_time": "1d 21h 39m 3s"}
+{"loss": 0.09220286, "token_acc": 0.95667178, "grad_norm": 0.51507777, "learning_rate": 6.606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241146, "epoch": 1.97957161, "global_step/max_steps": "25970/65595", "percentage": "39.59%", "elapsed_time": "1d 5h 54m 51s", "remaining_time": "1d 21h 38m 35s"}
+{"loss": 0.13282779, "token_acc": 0.94501226, "grad_norm": 0.86189938, "learning_rate": 6.605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241153, "epoch": 1.97995274, "global_step/max_steps": "25975/65595", "percentage": "39.60%", "elapsed_time": "1d 5h 55m 9s", "remaining_time": "1d 21h 38m 10s"}
+{"loss": 0.12599936, "token_acc": 0.95442966, "grad_norm": 1.96748507, "learning_rate": 6.604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241165, "epoch": 1.98033387, "global_step/max_steps": "25980/65595", "percentage": "39.61%", "elapsed_time": "1d 5h 55m 24s", "remaining_time": "1d 21h 37m 41s"}
+{"loss": 0.11042228, "token_acc": 0.95741262, "grad_norm": 0.86976951, "learning_rate": 6.603e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241172, "epoch": 1.98071499, "global_step/max_steps": "25985/65595", "percentage": "39.61%", "elapsed_time": "1d 5h 55m 42s", "remaining_time": "1d 21h 37m 16s"}
+{"loss": 0.13682952, "token_acc": 0.94246236, "grad_norm": 0.68234289, "learning_rate": 6.601e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241181, "epoch": 1.98109612, "global_step/max_steps": "25990/65595", "percentage": "39.62%", "elapsed_time": "1d 5h 55m 59s", "remaining_time": "1d 21h 36m 49s"}
+{"loss": 0.09563739, "token_acc": 0.9650494, "grad_norm": 0.74887747, "learning_rate": 6.6e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241187, "epoch": 1.98147725, "global_step/max_steps": "25995/65595", "percentage": "39.63%", "elapsed_time": "1d 5h 56m 17s", "remaining_time": "1d 21h 36m 24s"}
+{"loss": 0.14637744, "token_acc": 0.92582781, "grad_norm": 0.98821557, "learning_rate": 6.599e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241203, "epoch": 1.98185837, "global_step/max_steps": "26000/65595", "percentage": "39.64%", "elapsed_time": "1d 5h 56m 30s", "remaining_time": "1d 21h 35m 52s"}
+{"eval_loss": 0.08902327, "eval_token_acc": 0.95985935, "eval_runtime": 219.0777, "eval_samples_per_second": 2.419, "eval_steps_per_second": 2.419, "epoch": 1.98185837, "global_step/max_steps": "26000/65595", "percentage": "39.64%", "elapsed_time": "1d 6h 0m 9s", "remaining_time": "1d 21h 41m 26s"}
+{"loss": 0.14229519, "token_acc": 0.95975592, "grad_norm": 1.56659889, "learning_rate": 6.598e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240717, "epoch": 1.9822395, "global_step/max_steps": "26005/65595", "percentage": "39.64%", "elapsed_time": "1d 6h 0m 29s", "remaining_time": "1d 21h 41m 3s"}
+{"loss": 0.09192508, "token_acc": 0.96633593, "grad_norm": 0.53872579, "learning_rate": 6.597e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240723, "epoch": 1.98262063, "global_step/max_steps": "26010/65595", "percentage": "39.65%", "elapsed_time": "1d 6h 0m 47s", "remaining_time": "1d 21h 40m 38s"}
+{"loss": 0.12191235, "token_acc": 0.94671403, "grad_norm": 1.58539271, "learning_rate": 6.596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240735, "epoch": 1.98300175, "global_step/max_steps": "26015/65595", "percentage": "39.66%", "elapsed_time": "1d 6h 1m 2s", "remaining_time": "1d 21h 40m 9s"}
+{"loss": 0.15710715, "token_acc": 0.94195469, "grad_norm": 0.93637508, "learning_rate": 6.595e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240739, "epoch": 1.98338288, "global_step/max_steps": "26020/65595", "percentage": "39.67%", "elapsed_time": "1d 6h 1m 21s", "remaining_time": "1d 21h 39m 46s"}
+{"loss": 0.10039744, "token_acc": 0.96209465, "grad_norm": 0.66556436, "learning_rate": 6.594e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240749, "epoch": 1.98376401, "global_step/max_steps": "26025/65595", "percentage": "39.68%", "elapsed_time": "1d 6h 1m 37s", "remaining_time": "1d 21h 39m 18s"}
+{"loss": 0.11313589, "token_acc": 0.95308141, "grad_norm": 0.54253876, "learning_rate": 6.592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240761, "epoch": 1.98414513, "global_step/max_steps": "26030/65595", "percentage": "39.68%", "elapsed_time": "1d 6h 1m 53s", "remaining_time": "1d 21h 38m 49s"}
+{"loss": 0.11707714, "token_acc": 0.95483628, "grad_norm": 0.59040737, "learning_rate": 6.591e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240768, "epoch": 1.98452626, "global_step/max_steps": "26035/65595", "percentage": "39.69%", "elapsed_time": "1d 6h 2m 11s", "remaining_time": "1d 21h 38m 24s"}
+{"loss": 0.08734502, "token_acc": 0.95645646, "grad_norm": 0.45416844, "learning_rate": 6.59e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24078, "epoch": 1.98490739, "global_step/max_steps": "26040/65595", "percentage": "39.70%", "elapsed_time": "1d 6h 2m 26s", "remaining_time": "1d 21h 37m 55s"}
+{"loss": 0.08911625, "token_acc": 0.96498699, "grad_norm": 0.84479946, "learning_rate": 6.589e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240789, "epoch": 1.98528851, "global_step/max_steps": "26045/65595", "percentage": "39.71%", "elapsed_time": "1d 6h 2m 43s", "remaining_time": "1d 21h 37m 28s"}
+{"loss": 0.09370273, "token_acc": 0.94708995, "grad_norm": 0.83100164, "learning_rate": 6.588e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240803, "epoch": 1.98566964, "global_step/max_steps": "26050/65595", "percentage": "39.71%", "elapsed_time": "1d 6h 2m 57s", "remaining_time": "1d 21h 36m 58s"}
+{"loss": 0.11950793, "token_acc": 0.95641219, "grad_norm": 0.66989332, "learning_rate": 6.587e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240814, "epoch": 1.98605077, "global_step/max_steps": "26055/65595", "percentage": "39.72%", "elapsed_time": "1d 6h 3m 13s", "remaining_time": "1d 21h 36m 29s"}
+{"loss": 0.09391063, "token_acc": 0.97304928, "grad_norm": 1.8027004, "learning_rate": 6.586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240825, "epoch": 1.98643189, "global_step/max_steps": "26060/65595", "percentage": "39.73%", "elapsed_time": "1d 6h 3m 29s", "remaining_time": "1d 21h 36m 1s"}
+{"loss": 0.06451412, "token_acc": 0.96119897, "grad_norm": 0.59943867, "learning_rate": 6.584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240832, "epoch": 1.98681302, "global_step/max_steps": "26065/65595", "percentage": "39.74%", "elapsed_time": "1d 6h 3m 46s", "remaining_time": "1d 21h 35m 36s"}
+{"loss": 0.08553424, "token_acc": 0.9619191, "grad_norm": 1.92380047, "learning_rate": 6.583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240841, "epoch": 1.98719415, "global_step/max_steps": "26070/65595", "percentage": "39.74%", "elapsed_time": "1d 6h 4m 3s", "remaining_time": "1d 21h 35m 8s"}
+{"loss": 0.06180179, "token_acc": 0.97136038, "grad_norm": 1.22801578, "learning_rate": 6.582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240857, "epoch": 1.98757527, "global_step/max_steps": "26075/65595", "percentage": "39.75%", "elapsed_time": "1d 6h 4m 17s", "remaining_time": "1d 21h 34m 37s"}
+{"loss": 0.10722067, "token_acc": 0.949292, "grad_norm": 0.58662277, "learning_rate": 6.581e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240866, "epoch": 1.9879564, "global_step/max_steps": "26080/65595", "percentage": "39.76%", "elapsed_time": "1d 6h 4m 33s", "remaining_time": "1d 21h 34m 10s"}
+{"loss": 0.09664007, "token_acc": 0.97128432, "grad_norm": 0.46047011, "learning_rate": 6.58e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240873, "epoch": 1.98833753, "global_step/max_steps": "26085/65595", "percentage": "39.77%", "elapsed_time": "1d 6h 4m 51s", "remaining_time": "1d 21h 33m 45s"}
+{"loss": 0.11330109, "token_acc": 0.95514128, "grad_norm": 0.75975883, "learning_rate": 6.579e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240883, "epoch": 1.98871865, "global_step/max_steps": "26090/65595", "percentage": "39.77%", "elapsed_time": "1d 6h 5m 7s", "remaining_time": "1d 21h 33m 17s"}
+{"loss": 0.120072, "token_acc": 0.94825299, "grad_norm": 0.59997106, "learning_rate": 6.578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240894, "epoch": 1.98909978, "global_step/max_steps": "26095/65595", "percentage": "39.78%", "elapsed_time": "1d 6h 5m 23s", "remaining_time": "1d 21h 32m 48s"}
+{"loss": 0.15762188, "token_acc": 0.93965263, "grad_norm": 1.40999269, "learning_rate": 6.576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240906, "epoch": 1.98948091, "global_step/max_steps": "26100/65595", "percentage": "39.79%", "elapsed_time": "1d 6h 5m 38s", "remaining_time": "1d 21h 32m 19s"}
+{"loss": 0.10392158, "token_acc": 0.9620497, "grad_norm": 0.78931278, "learning_rate": 6.575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240917, "epoch": 1.98986203, "global_step/max_steps": "26105/65595", "percentage": "39.80%", "elapsed_time": "1d 6h 5m 54s", "remaining_time": "1d 21h 31m 52s"}
+{"loss": 0.08679304, "token_acc": 0.95501902, "grad_norm": 0.72165996, "learning_rate": 6.574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24092, "epoch": 1.99024316, "global_step/max_steps": "26110/65595", "percentage": "39.80%", "elapsed_time": "1d 6h 6m 14s", "remaining_time": "1d 21h 31m 29s"}
+{"loss": 0.08989114, "token_acc": 0.96345356, "grad_norm": 0.68087804, "learning_rate": 6.573e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240927, "epoch": 1.99062429, "global_step/max_steps": "26115/65595", "percentage": "39.81%", "elapsed_time": "1d 6h 6m 31s", "remaining_time": "1d 21h 31m 3s"}
+{"loss": 0.09862396, "token_acc": 0.96336884, "grad_norm": 1.29444492, "learning_rate": 6.572e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240921, "epoch": 1.99100541, "global_step/max_steps": "26120/65595", "percentage": "39.82%", "elapsed_time": "1d 6h 6m 55s", "remaining_time": "1d 21h 30m 47s"}
+{"loss": 0.0800386, "token_acc": 0.96347339, "grad_norm": 0.5983178, "learning_rate": 6.571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240922, "epoch": 1.99138654, "global_step/max_steps": "26125/65595", "percentage": "39.83%", "elapsed_time": "1d 6h 7m 15s", "remaining_time": "1d 21h 30m 25s"}
+{"loss": 0.13768817, "token_acc": 0.93868922, "grad_norm": 1.78745008, "learning_rate": 6.57e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240939, "epoch": 1.99176767, "global_step/max_steps": "26130/65595", "percentage": "39.84%", "elapsed_time": "1d 6h 7m 28s", "remaining_time": "1d 21h 29m 53s"}
+{"loss": 0.06939211, "token_acc": 0.97377218, "grad_norm": 0.49891907, "learning_rate": 6.569e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24095, "epoch": 1.99214879, "global_step/max_steps": "26135/65595", "percentage": "39.84%", "elapsed_time": "1d 6h 7m 44s", "remaining_time": "1d 21h 29m 25s"}
+{"loss": 0.11524866, "token_acc": 0.95374231, "grad_norm": 0.81220359, "learning_rate": 6.567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240958, "epoch": 1.99252992, "global_step/max_steps": "26140/65595", "percentage": "39.85%", "elapsed_time": "1d 6h 8m 1s", "remaining_time": "1d 21h 28m 59s"}
+{"loss": 0.13886806, "token_acc": 0.96067995, "grad_norm": 1.03842664, "learning_rate": 6.566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240963, "epoch": 1.99291105, "global_step/max_steps": "26145/65595", "percentage": "39.86%", "elapsed_time": "1d 6h 8m 19s", "remaining_time": "1d 21h 28m 34s"}
+{"loss": 0.11722746, "token_acc": 0.9544459, "grad_norm": 0.87862211, "learning_rate": 6.565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240972, "epoch": 1.99329217, "global_step/max_steps": "26150/65595", "percentage": "39.87%", "elapsed_time": "1d 6h 8m 36s", "remaining_time": "1d 21h 28m 7s"}
+{"loss": 0.12772353, "token_acc": 0.95562001, "grad_norm": 0.96184415, "learning_rate": 6.564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240975, "epoch": 1.9936733, "global_step/max_steps": "26155/65595", "percentage": "39.87%", "elapsed_time": "1d 6h 8m 55s", "remaining_time": "1d 21h 27m 44s"}
+{"loss": 0.08251736, "token_acc": 0.96351731, "grad_norm": 0.85793757, "learning_rate": 6.563e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240988, "epoch": 1.99405442, "global_step/max_steps": "26160/65595", "percentage": "39.88%", "elapsed_time": "1d 6h 9m 10s", "remaining_time": "1d 21h 27m 15s"}
+{"loss": 0.17754407, "token_acc": 0.9329363, "grad_norm": 0.78289717, "learning_rate": 6.562e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240998, "epoch": 1.99443555, "global_step/max_steps": "26165/65595", "percentage": "39.89%", "elapsed_time": "1d 6h 9m 27s", "remaining_time": "1d 21h 26m 47s"}
+{"loss": 0.09512693, "token_acc": 0.95953383, "grad_norm": 0.99787712, "learning_rate": 6.561e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241011, "epoch": 1.99481668, "global_step/max_steps": "26170/65595", "percentage": "39.90%", "elapsed_time": "1d 6h 9m 42s", "remaining_time": "1d 21h 26m 18s"}
+{"loss": 0.15674927, "token_acc": 0.93140407, "grad_norm": 1.32420087, "learning_rate": 6.559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241017, "epoch": 1.9951978, "global_step/max_steps": "26175/65595", "percentage": "39.90%", "elapsed_time": "1d 6h 9m 59s", "remaining_time": "1d 21h 25m 53s"}
+{"loss": 0.07994809, "token_acc": 0.96863742, "grad_norm": 1.06947351, "learning_rate": 6.558e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241027, "epoch": 1.99557893, "global_step/max_steps": "26180/65595", "percentage": "39.91%", "elapsed_time": "1d 6h 10m 16s", "remaining_time": "1d 21h 25m 25s"}
+{"loss": 0.09720447, "token_acc": 0.95878525, "grad_norm": 1.06804883, "learning_rate": 6.557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24104, "epoch": 1.99596006, "global_step/max_steps": "26185/65595", "percentage": "39.92%", "elapsed_time": "1d 6h 10m 31s", "remaining_time": "1d 21h 24m 56s"}
+{"loss": 0.11324897, "token_acc": 0.95856, "grad_norm": 1.4117043, "learning_rate": 6.556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241044, "epoch": 1.99634118, "global_step/max_steps": "26190/65595", "percentage": "39.93%", "elapsed_time": "1d 6h 10m 50s", "remaining_time": "1d 21h 24m 33s"}
+{"loss": 0.12777948, "token_acc": 0.94583333, "grad_norm": 1.94865513, "learning_rate": 6.555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241055, "epoch": 1.99672231, "global_step/max_steps": "26195/65595", "percentage": "39.93%", "elapsed_time": "1d 6h 11m 5s", "remaining_time": "1d 21h 24m 4s"}
+{"loss": 0.11586674, "token_acc": 0.95549339, "grad_norm": 0.88017344, "learning_rate": 6.554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241066, "epoch": 1.99710344, "global_step/max_steps": "26200/65595", "percentage": "39.94%", "elapsed_time": "1d 6h 11m 21s", "remaining_time": "1d 21h 23m 36s"}
+{"eval_loss": 0.09197056, "eval_token_acc": 0.95951298, "eval_runtime": 219.9195, "eval_samples_per_second": 2.41, "eval_steps_per_second": 2.41, "epoch": 1.99710344, "global_step/max_steps": "26200/65595", "percentage": "39.94%", "elapsed_time": "1d 6h 15m 1s", "remaining_time": "1d 21h 29m 7s"}
+{"loss": 0.10808561, "token_acc": 0.95936322, "grad_norm": 0.85840571, "learning_rate": 6.553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240586, "epoch": 1.99748456, "global_step/max_steps": "26205/65595", "percentage": "39.95%", "elapsed_time": "1d 6h 15m 19s", "remaining_time": "1d 21h 28m 41s"}
+{"loss": 0.09256477, "token_acc": 0.96215221, "grad_norm": 0.10203911, "learning_rate": 6.551e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240594, "epoch": 1.99786569, "global_step/max_steps": "26210/65595", "percentage": "39.96%", "elapsed_time": "1d 6h 15m 36s", "remaining_time": "1d 21h 28m 15s"}
+{"loss": 0.0972414, "token_acc": 0.95857378, "grad_norm": 0.85760641, "learning_rate": 6.55e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240606, "epoch": 1.99824682, "global_step/max_steps": "26215/65595", "percentage": "39.96%", "elapsed_time": "1d 6h 15m 51s", "remaining_time": "1d 21h 27m 46s"}
+{"loss": 0.10329778, "token_acc": 0.96180167, "grad_norm": 0.75989151, "learning_rate": 6.549e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240605, "epoch": 1.99862794, "global_step/max_steps": "26220/65595", "percentage": "39.97%", "elapsed_time": "1d 6h 16m 13s", "remaining_time": "1d 21h 27m 26s"}
+{"loss": 0.1572217, "token_acc": 0.93927028, "grad_norm": 1.38117802, "learning_rate": 6.548e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240613, "epoch": 1.99900907, "global_step/max_steps": "26225/65595", "percentage": "39.98%", "elapsed_time": "1d 6h 16m 30s", "remaining_time": "1d 21h 27m 0s"}
+{"loss": 0.06413479, "token_acc": 0.97474747, "grad_norm": 0.4917115, "learning_rate": 6.547e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240619, "epoch": 1.9993902, "global_step/max_steps": "26230/65595", "percentage": "39.99%", "elapsed_time": "1d 6h 16m 48s", "remaining_time": "1d 21h 26m 35s"}
+{"loss": 0.08560182, "token_acc": 0.96172393, "grad_norm": 0.74318558, "learning_rate": 6.546e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240631, "epoch": 1.99977132, "global_step/max_steps": "26235/65595", "percentage": "40.00%", "elapsed_time": "1d 6h 17m 3s", "remaining_time": "1d 21h 26m 6s"}
+{"loss": 0.10114695, "token_acc": 0.95765472, "grad_norm": 0.60615939, "learning_rate": 6.545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240641, "epoch": 2.00015245, "global_step/max_steps": "26240/65595", "percentage": "40.00%", "elapsed_time": "1d 6h 17m 20s", "remaining_time": "1d 21h 25m 39s"}
+{"loss": 0.08493696, "token_acc": 0.96725754, "grad_norm": 0.85982853, "learning_rate": 6.543e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240641, "epoch": 2.00053358, "global_step/max_steps": "26245/65595", "percentage": "40.01%", "elapsed_time": "1d 6h 17m 40s", "remaining_time": "1d 21h 25m 18s"}
+{"loss": 0.08561855, "token_acc": 0.96707573, "grad_norm": 0.41759139, "learning_rate": 6.542e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240647, "epoch": 2.0009147, "global_step/max_steps": "26250/65595", "percentage": "40.02%", "elapsed_time": "1d 6h 17m 58s", "remaining_time": "1d 21h 24m 53s"}
+{"loss": 0.07369549, "token_acc": 0.97207137, "grad_norm": 1.15566134, "learning_rate": 6.541e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240654, "epoch": 2.00129583, "global_step/max_steps": "26255/65595", "percentage": "40.03%", "elapsed_time": "1d 6h 18m 16s", "remaining_time": "1d 21h 24m 27s"}
+{"loss": 0.08097391, "token_acc": 0.96303657, "grad_norm": 0.90571743, "learning_rate": 6.54e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240669, "epoch": 2.00167696, "global_step/max_steps": "26260/65595", "percentage": "40.03%", "elapsed_time": "1d 6h 18m 30s", "remaining_time": "1d 21h 23m 57s"}
+{"loss": 0.10142668, "token_acc": 0.95707071, "grad_norm": 0.85962743, "learning_rate": 6.539e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240673, "epoch": 2.00205808, "global_step/max_steps": "26265/65595", "percentage": "40.04%", "elapsed_time": "1d 6h 18m 49s", "remaining_time": "1d 21h 23m 33s"}
+{"loss": 0.12128397, "token_acc": 0.95609637, "grad_norm": 1.51723683, "learning_rate": 6.538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240681, "epoch": 2.00243921, "global_step/max_steps": "26270/65595", "percentage": "40.05%", "elapsed_time": "1d 6h 19m 6s", "remaining_time": "1d 21h 23m 7s"}
+{"loss": 0.10887274, "token_acc": 0.9625498, "grad_norm": 1.20234919, "learning_rate": 6.537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240687, "epoch": 2.00282034, "global_step/max_steps": "26275/65595", "percentage": "40.06%", "elapsed_time": "1d 6h 19m 24s", "remaining_time": "1d 21h 22m 42s"}
+{"loss": 0.10067344, "token_acc": 0.96340173, "grad_norm": 1.5285548, "learning_rate": 6.536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240695, "epoch": 2.00320146, "global_step/max_steps": "26280/65595", "percentage": "40.06%", "elapsed_time": "1d 6h 19m 41s", "remaining_time": "1d 21h 22m 15s"}
+{"loss": 0.0660128, "token_acc": 0.96864794, "grad_norm": 0.97144318, "learning_rate": 6.534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240697, "epoch": 2.00358259, "global_step/max_steps": "26285/65595", "percentage": "40.07%", "elapsed_time": "1d 6h 20m 1s", "remaining_time": "1d 21h 21m 53s"}
+{"loss": 0.11279026, "token_acc": 0.95270833, "grad_norm": 0.96817702, "learning_rate": 6.533e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240705, "epoch": 2.00396372, "global_step/max_steps": "26290/65595", "percentage": "40.08%", "elapsed_time": "1d 6h 20m 18s", "remaining_time": "1d 21h 21m 27s"}
+{"loss": 0.10433038, "token_acc": 0.95873016, "grad_norm": 0.84740371, "learning_rate": 6.532e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240713, "epoch": 2.00434484, "global_step/max_steps": "26295/65595", "percentage": "40.09%", "elapsed_time": "1d 6h 20m 35s", "remaining_time": "1d 21h 21m 1s"}
+{"loss": 0.10840727, "token_acc": 0.95739781, "grad_norm": 0.70444381, "learning_rate": 6.531e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240724, "epoch": 2.00472597, "global_step/max_steps": "26300/65595", "percentage": "40.09%", "elapsed_time": "1d 6h 20m 51s", "remaining_time": "1d 21h 20m 33s"}
+{"loss": 0.12008181, "token_acc": 0.95443465, "grad_norm": 1.09020782, "learning_rate": 6.53e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240733, "epoch": 2.0051071, "global_step/max_steps": "26305/65595", "percentage": "40.10%", "elapsed_time": "1d 6h 21m 8s", "remaining_time": "1d 21h 20m 6s"}
+{"loss": 0.10662018, "token_acc": 0.95860207, "grad_norm": 0.739443, "learning_rate": 6.529e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240736, "epoch": 2.00548822, "global_step/max_steps": "26310/65595", "percentage": "40.11%", "elapsed_time": "1d 6h 21m 27s", "remaining_time": "1d 21h 19m 43s"}
+{"loss": 0.08400207, "token_acc": 0.96571003, "grad_norm": 1.05482626, "learning_rate": 6.528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240751, "epoch": 2.00586935, "global_step/max_steps": "26315/65595", "percentage": "40.12%", "elapsed_time": "1d 6h 21m 41s", "remaining_time": "1d 21h 19m 13s"}
+{"loss": 0.09502209, "token_acc": 0.96828934, "grad_norm": 1.46864736, "learning_rate": 6.526e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240757, "epoch": 2.00625048, "global_step/max_steps": "26320/65595", "percentage": "40.13%", "elapsed_time": "1d 6h 21m 59s", "remaining_time": "1d 21h 18m 48s"}
+{"loss": 0.09492987, "token_acc": 0.96765155, "grad_norm": 0.91681141, "learning_rate": 6.525e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240767, "epoch": 2.0066316, "global_step/max_steps": "26325/65595", "percentage": "40.13%", "elapsed_time": "1d 6h 22m 15s", "remaining_time": "1d 21h 18m 20s"}
+{"loss": 0.0546688, "token_acc": 0.96713866, "grad_norm": 0.89148372, "learning_rate": 6.524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240779, "epoch": 2.00701273, "global_step/max_steps": "26330/65595", "percentage": "40.14%", "elapsed_time": "1d 6h 22m 31s", "remaining_time": "1d 21h 17m 51s"}
+{"loss": 0.15330554, "token_acc": 0.94643175, "grad_norm": 0.73090172, "learning_rate": 6.523e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240786, "epoch": 2.00739386, "global_step/max_steps": "26335/65595", "percentage": "40.15%", "elapsed_time": "1d 6h 22m 48s", "remaining_time": "1d 21h 17m 26s"}
+{"loss": 0.08996122, "token_acc": 0.96414566, "grad_norm": 0.51754653, "learning_rate": 6.522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240796, "epoch": 2.00777498, "global_step/max_steps": "26340/65595", "percentage": "40.16%", "elapsed_time": "1d 6h 23m 5s", "remaining_time": "1d 21h 16m 58s"}
+{"loss": 0.12563037, "token_acc": 0.95961567, "grad_norm": 0.72835416, "learning_rate": 6.521e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240798, "epoch": 2.00815611, "global_step/max_steps": "26345/65595", "percentage": "40.16%", "elapsed_time": "1d 6h 23m 24s", "remaining_time": "1d 21h 16m 36s"}
+{"loss": 0.16642476, "token_acc": 0.93286604, "grad_norm": 1.09795725, "learning_rate": 6.52e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240803, "epoch": 2.00853724, "global_step/max_steps": "26350/65595", "percentage": "40.17%", "elapsed_time": "1d 6h 23m 43s", "remaining_time": "1d 21h 16m 12s"}
+{"loss": 0.10846614, "token_acc": 0.95626577, "grad_norm": 1.38950109, "learning_rate": 6.518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240815, "epoch": 2.00891836, "global_step/max_steps": "26355/65595", "percentage": "40.18%", "elapsed_time": "1d 6h 23m 58s", "remaining_time": "1d 21h 15m 43s"}
+{"loss": 0.10181917, "token_acc": 0.96339479, "grad_norm": 1.00413823, "learning_rate": 6.517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240824, "epoch": 2.00929949, "global_step/max_steps": "26360/65595", "percentage": "40.19%", "elapsed_time": "1d 6h 24m 15s", "remaining_time": "1d 21h 15m 16s"}
+{"loss": 0.06302172, "token_acc": 0.96425281, "grad_norm": 0.95712537, "learning_rate": 6.516e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240829, "epoch": 2.00968062, "global_step/max_steps": "26365/65595", "percentage": "40.19%", "elapsed_time": "1d 6h 24m 34s", "remaining_time": "1d 21h 14m 52s"}
+{"loss": 0.09386663, "token_acc": 0.97256858, "grad_norm": 0.85642254, "learning_rate": 6.515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240844, "epoch": 2.01006174, "global_step/max_steps": "26370/65595", "percentage": "40.20%", "elapsed_time": "1d 6h 24m 47s", "remaining_time": "1d 21h 14m 21s"}
+{"loss": 0.10186459, "token_acc": 0.96053584, "grad_norm": 1.49740195, "learning_rate": 6.514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240858, "epoch": 2.01044287, "global_step/max_steps": "26375/65595", "percentage": "40.21%", "elapsed_time": "1d 6h 25m 2s", "remaining_time": "1d 21h 13m 51s"}
+{"loss": 0.10906683, "token_acc": 0.96546352, "grad_norm": 1.0393095, "learning_rate": 6.513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24087, "epoch": 2.010824, "global_step/max_steps": "26380/65595", "percentage": "40.22%", "elapsed_time": "1d 6h 25m 17s", "remaining_time": "1d 21h 13m 22s"}
+{"loss": 0.09424676, "token_acc": 0.95721292, "grad_norm": 0.9685722, "learning_rate": 6.512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240879, "epoch": 2.01120512, "global_step/max_steps": "26385/65595", "percentage": "40.22%", "elapsed_time": "1d 6h 25m 33s", "remaining_time": "1d 21h 12m 55s"}
+{"loss": 0.12020929, "token_acc": 0.95006821, "grad_norm": 0.79022419, "learning_rate": 6.51e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24089, "epoch": 2.01158625, "global_step/max_steps": "26390/65595", "percentage": "40.23%", "elapsed_time": "1d 6h 25m 49s", "remaining_time": "1d 21h 12m 26s"}
+{"loss": 0.11630077, "token_acc": 0.94770158, "grad_norm": 1.10194659, "learning_rate": 6.509e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240896, "epoch": 2.01196738, "global_step/max_steps": "26395/65595", "percentage": "40.24%", "elapsed_time": "1d 6h 26m 7s", "remaining_time": "1d 21h 12m 2s"}
+{"loss": 0.09044397, "token_acc": 0.9590728, "grad_norm": 1.90626347, "learning_rate": 6.508e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240907, "epoch": 2.0123485, "global_step/max_steps": "26400/65595", "percentage": "40.25%", "elapsed_time": "1d 6h 26m 23s", "remaining_time": "1d 21h 11m 34s"}
+{"eval_loss": 0.09217918, "eval_token_acc": 0.9599497, "eval_runtime": 218.1394, "eval_samples_per_second": 2.43, "eval_steps_per_second": 2.43, "epoch": 2.0123485, "global_step/max_steps": "26400/65595", "percentage": "40.25%", "elapsed_time": "1d 6h 30m 1s", "remaining_time": "1d 21h 16m 58s"}
+{"loss": 0.11915383, "token_acc": 0.95951618, "grad_norm": 0.7773627, "learning_rate": 6.507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240441, "epoch": 2.01272963, "global_step/max_steps": "26405/65595", "percentage": "40.25%", "elapsed_time": "1d 6h 30m 16s", "remaining_time": "1d 21h 16m 28s"}
+{"loss": 0.15290581, "token_acc": 0.94231738, "grad_norm": 1.28065133, "learning_rate": 6.506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240453, "epoch": 2.01311076, "global_step/max_steps": "26410/65595", "percentage": "40.26%", "elapsed_time": "1d 6h 30m 32s", "remaining_time": "1d 21h 16m 0s"}
+{"loss": 0.09577568, "token_acc": 0.96453322, "grad_norm": 0.78599709, "learning_rate": 6.505e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240462, "epoch": 2.01349188, "global_step/max_steps": "26415/65595", "percentage": "40.27%", "elapsed_time": "1d 6h 30m 48s", "remaining_time": "1d 21h 15m 33s"}
+{"loss": 0.0631345, "token_acc": 0.97139085, "grad_norm": 0.96670318, "learning_rate": 6.504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240472, "epoch": 2.01387301, "global_step/max_steps": "26420/65595", "percentage": "40.28%", "elapsed_time": "1d 6h 31m 4s", "remaining_time": "1d 21h 15m 5s"}
+{"loss": 0.099526, "token_acc": 0.96021776, "grad_norm": 1.00649607, "learning_rate": 6.502e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240486, "epoch": 2.01425414, "global_step/max_steps": "26425/65595", "percentage": "40.29%", "elapsed_time": "1d 6h 31m 19s", "remaining_time": "1d 21h 14m 35s"}
+{"loss": 0.08019761, "token_acc": 0.96289386, "grad_norm": 0.80501914, "learning_rate": 6.501e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240494, "epoch": 2.01463526, "global_step/max_steps": "26430/65595", "percentage": "40.29%", "elapsed_time": "1d 6h 31m 36s", "remaining_time": "1d 21h 14m 8s"}
+{"loss": 0.122263, "token_acc": 0.95418381, "grad_norm": 1.15009344, "learning_rate": 6.5e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240506, "epoch": 2.01501639, "global_step/max_steps": "26435/65595", "percentage": "40.30%", "elapsed_time": "1d 6h 31m 51s", "remaining_time": "1d 21h 13m 39s"}
+{"loss": 0.05846807, "token_acc": 0.97883212, "grad_norm": 1.06846547, "learning_rate": 6.499e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240523, "epoch": 2.01539752, "global_step/max_steps": "26440/65595", "percentage": "40.31%", "elapsed_time": "1d 6h 32m 5s", "remaining_time": "1d 21h 13m 8s"}
+{"loss": 0.0688289, "token_acc": 0.97780224, "grad_norm": 0.69973278, "learning_rate": 6.498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240528, "epoch": 2.01577864, "global_step/max_steps": "26445/65595", "percentage": "40.32%", "elapsed_time": "1d 6h 32m 23s", "remaining_time": "1d 21h 12m 43s"}
+{"loss": 0.1207455, "token_acc": 0.95632468, "grad_norm": 1.226565, "learning_rate": 6.497e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240535, "epoch": 2.01615977, "global_step/max_steps": "26450/65595", "percentage": "40.32%", "elapsed_time": "1d 6h 32m 40s", "remaining_time": "1d 21h 12m 18s"}
+{"loss": 0.09053522, "token_acc": 0.96521739, "grad_norm": 0.76589525, "learning_rate": 6.496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240541, "epoch": 2.01654089, "global_step/max_steps": "26455/65595", "percentage": "40.33%", "elapsed_time": "1d 6h 32m 58s", "remaining_time": "1d 21h 11m 53s"}
+{"loss": 0.10243554, "token_acc": 0.96567997, "grad_norm": 0.74666709, "learning_rate": 6.494e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240555, "epoch": 2.01692202, "global_step/max_steps": "26460/65595", "percentage": "40.34%", "elapsed_time": "1d 6h 33m 13s", "remaining_time": "1d 21h 11m 22s"}
+{"loss": 0.13462665, "token_acc": 0.94758395, "grad_norm": 1.99804592, "learning_rate": 6.493e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240566, "epoch": 2.01730315, "global_step/max_steps": "26465/65595", "percentage": "40.35%", "elapsed_time": "1d 6h 33m 28s", "remaining_time": "1d 21h 10m 54s"}
+{"loss": 0.17365706, "token_acc": 0.92752637, "grad_norm": 1.09138751, "learning_rate": 6.492e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240579, "epoch": 2.01768427, "global_step/max_steps": "26470/65595", "percentage": "40.35%", "elapsed_time": "1d 6h 33m 43s", "remaining_time": "1d 21h 10m 25s"}
+{"loss": 0.07164055, "token_acc": 0.97284275, "grad_norm": 0.54313314, "learning_rate": 6.491e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240587, "epoch": 2.0180654, "global_step/max_steps": "26475/65595", "percentage": "40.36%", "elapsed_time": "1d 6h 34m 0s", "remaining_time": "1d 21h 9m 58s"}
+{"loss": 0.1237617, "token_acc": 0.95290252, "grad_norm": 1.87227297, "learning_rate": 6.49e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240597, "epoch": 2.01844653, "global_step/max_steps": "26480/65595", "percentage": "40.37%", "elapsed_time": "1d 6h 34m 17s", "remaining_time": "1d 21h 9m 31s"}
+{"loss": 0.06191643, "token_acc": 0.97436653, "grad_norm": 0.64654177, "learning_rate": 6.489e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240608, "epoch": 2.01882765, "global_step/max_steps": "26485/65595", "percentage": "40.38%", "elapsed_time": "1d 6h 34m 32s", "remaining_time": "1d 21h 9m 2s"}
+{"loss": 0.13101585, "token_acc": 0.94014536, "grad_norm": 0.94897598, "learning_rate": 6.488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240624, "epoch": 2.01920878, "global_step/max_steps": "26490/65595", "percentage": "40.38%", "elapsed_time": "1d 6h 34m 46s", "remaining_time": "1d 21h 8m 31s"}
+{"loss": 0.14782765, "token_acc": 0.93686057, "grad_norm": 0.41995612, "learning_rate": 6.486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240637, "epoch": 2.01958991, "global_step/max_steps": "26495/65595", "percentage": "40.39%", "elapsed_time": "1d 6h 35m 1s", "remaining_time": "1d 21h 8m 1s"}
+{"loss": 0.05752885, "token_acc": 0.97315436, "grad_norm": 0.31186566, "learning_rate": 6.485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240652, "epoch": 2.01997103, "global_step/max_steps": "26500/65595", "percentage": "40.40%", "elapsed_time": "1d 6h 35m 15s", "remaining_time": "1d 21h 7m 31s"}
+{"loss": 0.11755052, "token_acc": 0.95374849, "grad_norm": 0.77796209, "learning_rate": 6.484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240658, "epoch": 2.02035216, "global_step/max_steps": "26505/65595", "percentage": "40.41%", "elapsed_time": "1d 6h 35m 33s", "remaining_time": "1d 21h 7m 6s"}
+{"loss": 0.11739327, "token_acc": 0.94760148, "grad_norm": 1.61428618, "learning_rate": 6.483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240674, "epoch": 2.02073329, "global_step/max_steps": "26510/65595", "percentage": "40.41%", "elapsed_time": "1d 6h 35m 46s", "remaining_time": "1d 21h 6m 34s"}
+{"loss": 0.09817641, "token_acc": 0.96331878, "grad_norm": 0.84545672, "learning_rate": 6.482e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240682, "epoch": 2.02111441, "global_step/max_steps": "26515/65595", "percentage": "40.42%", "elapsed_time": "1d 6h 36m 3s", "remaining_time": "1d 21h 6m 8s"}
+{"loss": 0.12766919, "token_acc": 0.95657809, "grad_norm": 0.84412402, "learning_rate": 6.481e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240691, "epoch": 2.02149554, "global_step/max_steps": "26520/65595", "percentage": "40.43%", "elapsed_time": "1d 6h 36m 20s", "remaining_time": "1d 21h 5m 41s"}
+{"loss": 0.14280791, "token_acc": 0.94895344, "grad_norm": 0.76545197, "learning_rate": 6.48e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240703, "epoch": 2.02187667, "global_step/max_steps": "26525/65595", "percentage": "40.44%", "elapsed_time": "1d 6h 36m 35s", "remaining_time": "1d 21h 5m 12s"}
+{"loss": 0.07109529, "token_acc": 0.96763982, "grad_norm": 0.68392611, "learning_rate": 6.478e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240716, "epoch": 2.02225779, "global_step/max_steps": "26530/65595", "percentage": "40.45%", "elapsed_time": "1d 6h 36m 50s", "remaining_time": "1d 21h 4m 43s"}
+{"loss": 0.11097639, "token_acc": 0.95930081, "grad_norm": 0.54877186, "learning_rate": 6.477e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240727, "epoch": 2.02263892, "global_step/max_steps": "26535/65595", "percentage": "40.45%", "elapsed_time": "1d 6h 37m 6s", "remaining_time": "1d 21h 4m 15s"}
+{"loss": 0.08356081, "token_acc": 0.95482728, "grad_norm": 0.10899921, "learning_rate": 6.476e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240737, "epoch": 2.02302005, "global_step/max_steps": "26540/65595", "percentage": "40.46%", "elapsed_time": "1d 6h 37m 22s", "remaining_time": "1d 21h 3m 47s"}
+{"loss": 0.10546542, "token_acc": 0.9615566, "grad_norm": 0.60643691, "learning_rate": 6.475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240747, "epoch": 2.02340117, "global_step/max_steps": "26545/65595", "percentage": "40.47%", "elapsed_time": "1d 6h 37m 38s", "remaining_time": "1d 21h 3m 20s"}
+{"loss": 0.11532257, "token_acc": 0.95101138, "grad_norm": 1.37367785, "learning_rate": 6.474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240758, "epoch": 2.0237823, "global_step/max_steps": "26550/65595", "percentage": "40.48%", "elapsed_time": "1d 6h 37m 54s", "remaining_time": "1d 21h 2m 51s"}
+{"loss": 0.09139159, "token_acc": 0.95793337, "grad_norm": 0.85419226, "learning_rate": 6.473e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24077, "epoch": 2.02416343, "global_step/max_steps": "26555/65595", "percentage": "40.48%", "elapsed_time": "1d 6h 38m 9s", "remaining_time": "1d 21h 2m 23s"}
+{"loss": 0.10490204, "token_acc": 0.95323246, "grad_norm": 1.20880032, "learning_rate": 6.472e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240782, "epoch": 2.02454455, "global_step/max_steps": "26560/65595", "percentage": "40.49%", "elapsed_time": "1d 6h 38m 25s", "remaining_time": "1d 21h 1m 54s"}
+{"loss": 0.12608013, "token_acc": 0.95151152, "grad_norm": 0.86930925, "learning_rate": 6.47e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240793, "epoch": 2.02492568, "global_step/max_steps": "26565/65595", "percentage": "40.50%", "elapsed_time": "1d 6h 38m 40s", "remaining_time": "1d 21h 1m 26s"}
+{"loss": 0.11140515, "token_acc": 0.954375, "grad_norm": 0.76883489, "learning_rate": 6.469e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240805, "epoch": 2.02530681, "global_step/max_steps": "26570/65595", "percentage": "40.51%", "elapsed_time": "1d 6h 38m 56s", "remaining_time": "1d 21h 0m 57s"}
+{"loss": 0.08680574, "token_acc": 0.96210925, "grad_norm": 0.38122293, "learning_rate": 6.468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240817, "epoch": 2.02568793, "global_step/max_steps": "26575/65595", "percentage": "40.51%", "elapsed_time": "1d 6h 39m 11s", "remaining_time": "1d 21h 0m 28s"}
+{"loss": 0.084935, "token_acc": 0.96683286, "grad_norm": 0.80907702, "learning_rate": 6.467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240828, "epoch": 2.02606906, "global_step/max_steps": "26580/65595", "percentage": "40.52%", "elapsed_time": "1d 6h 39m 26s", "remaining_time": "1d 21h 0m 0s"}
+{"loss": 0.16696086, "token_acc": 0.91721133, "grad_norm": 0.72775602, "learning_rate": 6.466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240842, "epoch": 2.02645019, "global_step/max_steps": "26585/65595", "percentage": "40.53%", "elapsed_time": "1d 6h 39m 41s", "remaining_time": "1d 20h 59m 29s"}
+{"loss": 0.11890441, "token_acc": 0.95653951, "grad_norm": 0.5755955, "learning_rate": 6.465e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240843, "epoch": 2.02683131, "global_step/max_steps": "26590/65595", "percentage": "40.54%", "elapsed_time": "1d 6h 40m 1s", "remaining_time": "1d 20h 59m 8s"}
+{"loss": 0.07395695, "token_acc": 0.9650053, "grad_norm": 1.01394737, "learning_rate": 6.464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240858, "epoch": 2.02721244, "global_step/max_steps": "26595/65595", "percentage": "40.54%", "elapsed_time": "1d 6h 40m 15s", "remaining_time": "1d 20h 58m 38s"}
+{"loss": 0.12388834, "token_acc": 0.95173861, "grad_norm": 1.34752274, "learning_rate": 6.462e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24087, "epoch": 2.02759357, "global_step/max_steps": "26600/65595", "percentage": "40.55%", "elapsed_time": "1d 6h 40m 30s", "remaining_time": "1d 20h 58m 8s"}
+{"eval_loss": 0.09551187, "eval_token_acc": 0.95916662, "eval_runtime": 218.2412, "eval_samples_per_second": 2.429, "eval_steps_per_second": 2.429, "epoch": 2.02759357, "global_step/max_steps": "26600/65595", "percentage": "40.55%", "elapsed_time": "1d 6h 44m 8s", "remaining_time": "1d 21h 3m 28s"}
+{"loss": 0.09251853, "token_acc": 0.9593675, "grad_norm": 0.84703481, "learning_rate": 6.461e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240404, "epoch": 2.02797469, "global_step/max_steps": "26605/65595", "percentage": "40.56%", "elapsed_time": "1d 6h 44m 25s", "remaining_time": "1d 21h 3m 2s"}
+{"loss": 0.09349023, "token_acc": 0.95534629, "grad_norm": 1.31945527, "learning_rate": 6.46e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240417, "epoch": 2.02835582, "global_step/max_steps": "26610/65595", "percentage": "40.57%", "elapsed_time": "1d 6h 44m 40s", "remaining_time": "1d 21h 2m 32s"}
+{"loss": 0.05935249, "token_acc": 0.97114625, "grad_norm": 0.54190296, "learning_rate": 6.459e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240421, "epoch": 2.02873695, "global_step/max_steps": "26615/65595", "percentage": "40.57%", "elapsed_time": "1d 6h 44m 59s", "remaining_time": "1d 21h 2m 8s"}
+{"loss": 0.17204283, "token_acc": 0.94869976, "grad_norm": 1.44190907, "learning_rate": 6.458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240432, "epoch": 2.02911807, "global_step/max_steps": "26620/65595", "percentage": "40.58%", "elapsed_time": "1d 6h 45m 15s", "remaining_time": "1d 21h 1m 40s"}
+{"loss": 0.11818337, "token_acc": 0.95773652, "grad_norm": 1.04863369, "learning_rate": 6.457e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240437, "epoch": 2.0294992, "global_step/max_steps": "26625/65595", "percentage": "40.59%", "elapsed_time": "1d 6h 45m 33s", "remaining_time": "1d 21h 1m 16s"}
+{"loss": 0.09560263, "token_acc": 0.96656107, "grad_norm": 0.17662245, "learning_rate": 6.456e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240448, "epoch": 2.02988033, "global_step/max_steps": "26630/65595", "percentage": "40.60%", "elapsed_time": "1d 6h 45m 49s", "remaining_time": "1d 21h 0m 48s"}
+{"loss": 0.13426157, "token_acc": 0.94535359, "grad_norm": 1.22833741, "learning_rate": 6.454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240461, "epoch": 2.03026145, "global_step/max_steps": "26635/65595", "percentage": "40.61%", "elapsed_time": "1d 6h 46m 3s", "remaining_time": "1d 21h 0m 18s"}
+{"loss": 0.07588891, "token_acc": 0.96225502, "grad_norm": 0.44152439, "learning_rate": 6.453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240475, "epoch": 2.03064258, "global_step/max_steps": "26640/65595", "percentage": "40.61%", "elapsed_time": "1d 6h 46m 18s", "remaining_time": "1d 20h 59m 48s"}
+{"loss": 0.10659695, "token_acc": 0.95200436, "grad_norm": 0.93145514, "learning_rate": 6.452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240485, "epoch": 2.03102371, "global_step/max_steps": "26645/65595", "percentage": "40.62%", "elapsed_time": "1d 6h 46m 34s", "remaining_time": "1d 20h 59m 21s"}
+{"loss": 0.1022754, "token_acc": 0.96145326, "grad_norm": 1.73913527, "learning_rate": 6.451e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2405, "epoch": 2.03140483, "global_step/max_steps": "26650/65595", "percentage": "40.63%", "elapsed_time": "1d 6h 46m 48s", "remaining_time": "1d 20h 58m 50s"}
+{"loss": 0.08699577, "token_acc": 0.96568502, "grad_norm": 0.81418675, "learning_rate": 6.45e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240513, "epoch": 2.03178596, "global_step/max_steps": "26655/65595", "percentage": "40.64%", "elapsed_time": "1d 6h 47m 3s", "remaining_time": "1d 20h 58m 20s"}
+{"loss": 0.09306571, "token_acc": 0.96755906, "grad_norm": 1.12305248, "learning_rate": 6.449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240517, "epoch": 2.03216709, "global_step/max_steps": "26660/65595", "percentage": "40.64%", "elapsed_time": "1d 6h 47m 22s", "remaining_time": "1d 20h 57m 57s"}
+{"loss": 0.07012152, "token_acc": 0.96449247, "grad_norm": 0.62555951, "learning_rate": 6.448e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24053, "epoch": 2.03254821, "global_step/max_steps": "26665/65595", "percentage": "40.65%", "elapsed_time": "1d 6h 47m 37s", "remaining_time": "1d 20h 57m 27s"}
+{"loss": 0.06670078, "token_acc": 0.97456232, "grad_norm": 0.52688992, "learning_rate": 6.446e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240534, "epoch": 2.03292934, "global_step/max_steps": "26670/65595", "percentage": "40.66%", "elapsed_time": "1d 6h 47m 55s", "remaining_time": "1d 20h 57m 4s"}
+{"loss": 0.08003365, "token_acc": 0.96325554, "grad_norm": 0.92933464, "learning_rate": 6.445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240536, "epoch": 2.03331047, "global_step/max_steps": "26675/65595", "percentage": "40.67%", "elapsed_time": "1d 6h 48m 16s", "remaining_time": "1d 20h 56m 42s"}
+{"loss": 0.0974877, "token_acc": 0.96129495, "grad_norm": 0.99934667, "learning_rate": 6.444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240535, "epoch": 2.03369159, "global_step/max_steps": "26680/65595", "percentage": "40.67%", "elapsed_time": "1d 6h 48m 37s", "remaining_time": "1d 20h 56m 22s"}
+{"loss": 0.10227405, "token_acc": 0.9624518, "grad_norm": 0.54004794, "learning_rate": 6.443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240541, "epoch": 2.03407272, "global_step/max_steps": "26685/65595", "percentage": "40.68%", "elapsed_time": "1d 6h 48m 55s", "remaining_time": "1d 20h 55m 57s"}
+{"loss": 0.10041752, "token_acc": 0.96287649, "grad_norm": 0.63073325, "learning_rate": 6.442e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240544, "epoch": 2.03445385, "global_step/max_steps": "26690/65595", "percentage": "40.69%", "elapsed_time": "1d 6h 49m 14s", "remaining_time": "1d 20h 55m 34s"}
+{"loss": 0.09032497, "token_acc": 0.96510577, "grad_norm": 1.122648, "learning_rate": 6.441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240551, "epoch": 2.03483497, "global_step/max_steps": "26695/65595", "percentage": "40.70%", "elapsed_time": "1d 6h 49m 32s", "remaining_time": "1d 20h 55m 8s"}
+{"loss": 0.09585032, "token_acc": 0.96238438, "grad_norm": 0.71740466, "learning_rate": 6.439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240558, "epoch": 2.0352161, "global_step/max_steps": "26700/65595", "percentage": "40.70%", "elapsed_time": "1d 6h 49m 49s", "remaining_time": "1d 20h 54m 43s"}
+{"loss": 0.10657339, "token_acc": 0.95718069, "grad_norm": 0.63955313, "learning_rate": 6.438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240562, "epoch": 2.03559723, "global_step/max_steps": "26705/65595", "percentage": "40.71%", "elapsed_time": "1d 6h 50m 8s", "remaining_time": "1d 20h 54m 19s"}
+{"loss": 0.06949906, "token_acc": 0.97250599, "grad_norm": 0.64300472, "learning_rate": 6.437e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240564, "epoch": 2.03597835, "global_step/max_steps": "26710/65595", "percentage": "40.72%", "elapsed_time": "1d 6h 50m 28s", "remaining_time": "1d 20h 53m 57s"}
+{"loss": 0.07076041, "token_acc": 0.96934147, "grad_norm": 0.59111232, "learning_rate": 6.436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24057, "epoch": 2.03635948, "global_step/max_steps": "26715/65595", "percentage": "40.73%", "elapsed_time": "1d 6h 50m 46s", "remaining_time": "1d 20h 53m 32s"}
+{"loss": 0.09599714, "token_acc": 0.95660299, "grad_norm": 1.02952576, "learning_rate": 6.435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240578, "epoch": 2.03674061, "global_step/max_steps": "26720/65595", "percentage": "40.73%", "elapsed_time": "1d 6h 51m 3s", "remaining_time": "1d 20h 53m 6s"}
+{"loss": 0.09896995, "token_acc": 0.96429322, "grad_norm": 1.07138288, "learning_rate": 6.434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240588, "epoch": 2.03712173, "global_step/max_steps": "26725/65595", "percentage": "40.74%", "elapsed_time": "1d 6h 51m 19s", "remaining_time": "1d 20h 52m 39s"}
+{"loss": 0.15164027, "token_acc": 0.95197385, "grad_norm": 2.39620376, "learning_rate": 6.433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240597, "epoch": 2.03750286, "global_step/max_steps": "26730/65595", "percentage": "40.75%", "elapsed_time": "1d 6h 51m 36s", "remaining_time": "1d 20h 52m 12s"}
+{"loss": 0.10237769, "token_acc": 0.95843829, "grad_norm": 0.56053269, "learning_rate": 6.431e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2406, "epoch": 2.03788399, "global_step/max_steps": "26735/65595", "percentage": "40.76%", "elapsed_time": "1d 6h 51m 55s", "remaining_time": "1d 20h 51m 49s"}
+{"loss": 0.13025961, "token_acc": 0.94828842, "grad_norm": 0.7966944, "learning_rate": 6.43e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240604, "epoch": 2.03826511, "global_step/max_steps": "26740/65595", "percentage": "40.77%", "elapsed_time": "1d 6h 52m 14s", "remaining_time": "1d 20h 51m 26s"}
+{"loss": 0.0946833, "token_acc": 0.96575518, "grad_norm": 0.83926582, "learning_rate": 6.429e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240613, "epoch": 2.03864624, "global_step/max_steps": "26745/65595", "percentage": "40.77%", "elapsed_time": "1d 6h 52m 31s", "remaining_time": "1d 20h 50m 59s"}
+{"loss": 0.14644001, "token_acc": 0.94197153, "grad_norm": 0.91874534, "learning_rate": 6.428e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240623, "epoch": 2.03902736, "global_step/max_steps": "26750/65595", "percentage": "40.78%", "elapsed_time": "1d 6h 52m 47s", "remaining_time": "1d 20h 50m 31s"}
+{"loss": 0.07116319, "token_acc": 0.96576211, "grad_norm": 0.73605186, "learning_rate": 6.427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240635, "epoch": 2.03940849, "global_step/max_steps": "26755/65595", "percentage": "40.79%", "elapsed_time": "1d 6h 53m 2s", "remaining_time": "1d 20h 50m 3s"}
+{"loss": 0.06796539, "token_acc": 0.97788915, "grad_norm": 0.64703095, "learning_rate": 6.426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240646, "epoch": 2.03978962, "global_step/max_steps": "26760/65595", "percentage": "40.80%", "elapsed_time": "1d 6h 53m 18s", "remaining_time": "1d 20h 49m 34s"}
+{"loss": 0.06214249, "token_acc": 0.97198276, "grad_norm": 0.20103265, "learning_rate": 6.425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240659, "epoch": 2.04017074, "global_step/max_steps": "26765/65595", "percentage": "40.80%", "elapsed_time": "1d 6h 53m 33s", "remaining_time": "1d 20h 49m 5s"}
+{"loss": 0.05592099, "token_acc": 0.9727616, "grad_norm": 0.62469459, "learning_rate": 6.423e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240671, "epoch": 2.04055187, "global_step/max_steps": "26770/65595", "percentage": "40.81%", "elapsed_time": "1d 6h 53m 48s", "remaining_time": "1d 20h 48m 36s"}
+{"loss": 0.09110467, "token_acc": 0.95941752, "grad_norm": 0.98612213, "learning_rate": 6.422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240681, "epoch": 2.040933, "global_step/max_steps": "26775/65595", "percentage": "40.82%", "elapsed_time": "1d 6h 54m 4s", "remaining_time": "1d 20h 48m 8s"}
+{"loss": 0.09530458, "token_acc": 0.97122833, "grad_norm": 0.85268188, "learning_rate": 6.421e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240694, "epoch": 2.04131412, "global_step/max_steps": "26780/65595", "percentage": "40.83%", "elapsed_time": "1d 6h 54m 19s", "remaining_time": "1d 20h 47m 39s"}
+{"loss": 0.15079551, "token_acc": 0.94436943, "grad_norm": 1.23673081, "learning_rate": 6.42e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240704, "epoch": 2.04169525, "global_step/max_steps": "26785/65595", "percentage": "40.83%", "elapsed_time": "1d 6h 54m 35s", "remaining_time": "1d 20h 47m 12s"}
+{"loss": 0.08630894, "token_acc": 0.96884042, "grad_norm": 1.46411312, "learning_rate": 6.419e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240713, "epoch": 2.04207638, "global_step/max_steps": "26790/65595", "percentage": "40.84%", "elapsed_time": "1d 6h 54m 52s", "remaining_time": "1d 20h 46m 45s"}
+{"loss": 0.12274694, "token_acc": 0.95651199, "grad_norm": 1.44587886, "learning_rate": 6.418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240723, "epoch": 2.0424575, "global_step/max_steps": "26795/65595", "percentage": "40.85%", "elapsed_time": "1d 6h 55m 8s", "remaining_time": "1d 20h 46m 18s"}
+{"loss": 0.14106045, "token_acc": 0.946676, "grad_norm": 1.33321071, "learning_rate": 6.417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240728, "epoch": 2.04283863, "global_step/max_steps": "26800/65595", "percentage": "40.86%", "elapsed_time": "1d 6h 55m 26s", "remaining_time": "1d 20h 45m 54s"}
+{"eval_loss": 0.09183174, "eval_token_acc": 0.95972381, "eval_runtime": 217.8685, "eval_samples_per_second": 2.433, "eval_steps_per_second": 2.433, "epoch": 2.04283863, "global_step/max_steps": "26800/65595", "percentage": "40.86%", "elapsed_time": "1d 6h 59m 4s", "remaining_time": "1d 20h 51m 9s"}
+{"loss": 0.14014953, "token_acc": 0.95937944, "grad_norm": 1.40901697, "learning_rate": 6.415e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240267, "epoch": 2.04321976, "global_step/max_steps": "26805/65595", "percentage": "40.86%", "elapsed_time": "1d 6h 59m 20s", "remaining_time": "1d 20h 50m 41s"}
+{"loss": 0.08828036, "token_acc": 0.96494709, "grad_norm": 0.45876136, "learning_rate": 6.414e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240272, "epoch": 2.04360088, "global_step/max_steps": "26810/65595", "percentage": "40.87%", "elapsed_time": "1d 6h 59m 39s", "remaining_time": "1d 20h 50m 18s"}
+{"loss": 0.1084336, "token_acc": 0.96170678, "grad_norm": 1.09644163, "learning_rate": 6.413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240287, "epoch": 2.04398201, "global_step/max_steps": "26815/65595", "percentage": "40.88%", "elapsed_time": "1d 6h 59m 53s", "remaining_time": "1d 20h 49m 46s"}
+{"loss": 0.1000506, "token_acc": 0.95432856, "grad_norm": 0.82108843, "learning_rate": 6.412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240301, "epoch": 2.04436314, "global_step/max_steps": "26820/65595", "percentage": "40.89%", "elapsed_time": "1d 7h 0m 7s", "remaining_time": "1d 20h 49m 16s"}
+{"loss": 0.09331328, "token_acc": 0.9620047, "grad_norm": 0.18083836, "learning_rate": 6.411e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240306, "epoch": 2.04474426, "global_step/max_steps": "26825/65595", "percentage": "40.89%", "elapsed_time": "1d 7h 0m 26s", "remaining_time": "1d 20h 48m 52s"}
+{"loss": 0.0989053, "token_acc": 0.96035985, "grad_norm": 0.67646241, "learning_rate": 6.41e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240309, "epoch": 2.04512539, "global_step/max_steps": "26830/65595", "percentage": "40.90%", "elapsed_time": "1d 7h 0m 45s", "remaining_time": "1d 20h 48m 29s"}
+{"loss": 0.07678888, "token_acc": 0.96444754, "grad_norm": 0.09515106, "learning_rate": 6.409e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240322, "epoch": 2.04550652, "global_step/max_steps": "26835/65595", "percentage": "40.91%", "elapsed_time": "1d 7h 1m 0s", "remaining_time": "1d 20h 48m 0s"}
+{"loss": 0.12432832, "token_acc": 0.95163399, "grad_norm": 0.41140139, "learning_rate": 6.407e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240333, "epoch": 2.04588764, "global_step/max_steps": "26840/65595", "percentage": "40.92%", "elapsed_time": "1d 7h 1m 16s", "remaining_time": "1d 20h 47m 32s"}
+{"loss": 0.10539657, "token_acc": 0.9655131, "grad_norm": 0.69785577, "learning_rate": 6.406e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240335, "epoch": 2.04626877, "global_step/max_steps": "26845/65595", "percentage": "40.93%", "elapsed_time": "1d 7h 1m 36s", "remaining_time": "1d 20h 47m 10s"}
+{"loss": 0.11441205, "token_acc": 0.94917788, "grad_norm": 0.60791761, "learning_rate": 6.405e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240343, "epoch": 2.0466499, "global_step/max_steps": "26850/65595", "percentage": "40.93%", "elapsed_time": "1d 7h 1m 53s", "remaining_time": "1d 20h 46m 44s"}
+{"loss": 0.14189405, "token_acc": 0.95072051, "grad_norm": 0.82464689, "learning_rate": 6.404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240345, "epoch": 2.04703102, "global_step/max_steps": "26855/65595", "percentage": "40.94%", "elapsed_time": "1d 7h 2m 12s", "remaining_time": "1d 20h 46m 21s"}
+{"loss": 0.09540516, "token_acc": 0.95821394, "grad_norm": 1.00034368, "learning_rate": 6.403e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240354, "epoch": 2.04741215, "global_step/max_steps": "26860/65595", "percentage": "40.95%", "elapsed_time": "1d 7h 2m 29s", "remaining_time": "1d 20h 45m 55s"}
+{"loss": 0.10979395, "token_acc": 0.96178977, "grad_norm": 1.10810006, "learning_rate": 6.402e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240355, "epoch": 2.04779328, "global_step/max_steps": "26865/65595", "percentage": "40.96%", "elapsed_time": "1d 7h 2m 49s", "remaining_time": "1d 20h 45m 33s"}
+{"loss": 0.07766852, "token_acc": 0.96597392, "grad_norm": 0.52142066, "learning_rate": 6.4e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240362, "epoch": 2.0481744, "global_step/max_steps": "26870/65595", "percentage": "40.96%", "elapsed_time": "1d 7h 3m 7s", "remaining_time": "1d 20h 45m 7s"}
+{"loss": 0.09318844, "token_acc": 0.96070025, "grad_norm": 0.31989968, "learning_rate": 6.399e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240366, "epoch": 2.04855553, "global_step/max_steps": "26875/65595", "percentage": "40.97%", "elapsed_time": "1d 7h 3m 26s", "remaining_time": "1d 20h 44m 44s"}
+{"loss": 0.14333814, "token_acc": 0.94844358, "grad_norm": 1.0048672, "learning_rate": 6.398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240376, "epoch": 2.04893666, "global_step/max_steps": "26880/65595", "percentage": "40.98%", "elapsed_time": "1d 7h 3m 42s", "remaining_time": "1d 20h 44m 17s"}
+{"loss": 0.14447057, "token_acc": 0.96020761, "grad_norm": 0.79474688, "learning_rate": 6.397e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240376, "epoch": 2.04931778, "global_step/max_steps": "26885/65595", "percentage": "40.99%", "elapsed_time": "1d 7h 4m 3s", "remaining_time": "1d 20h 43m 55s"}
+{"loss": 0.13176399, "token_acc": 0.9526335, "grad_norm": 0.63862395, "learning_rate": 6.396e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240383, "epoch": 2.04969891, "global_step/max_steps": "26890/65595", "percentage": "40.99%", "elapsed_time": "1d 7h 4m 20s", "remaining_time": "1d 20h 43m 30s"}
+{"loss": 0.09763222, "token_acc": 0.9621536, "grad_norm": 0.53963637, "learning_rate": 6.395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240389, "epoch": 2.05008004, "global_step/max_steps": "26895/65595", "percentage": "41.00%", "elapsed_time": "1d 7h 4m 38s", "remaining_time": "1d 20h 43m 5s"}
+{"loss": 0.06803132, "token_acc": 0.96814535, "grad_norm": 0.80523008, "learning_rate": 6.394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240401, "epoch": 2.05046116, "global_step/max_steps": "26900/65595", "percentage": "41.01%", "elapsed_time": "1d 7h 4m 54s", "remaining_time": "1d 20h 42m 37s"}
+{"loss": 0.10935252, "token_acc": 0.96268344, "grad_norm": 0.64141738, "learning_rate": 6.392e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240408, "epoch": 2.05084229, "global_step/max_steps": "26905/65595", "percentage": "41.02%", "elapsed_time": "1d 7h 5m 11s", "remaining_time": "1d 20h 42m 11s"}
+{"loss": 0.10590396, "token_acc": 0.96176471, "grad_norm": 0.72879189, "learning_rate": 6.391e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240412, "epoch": 2.05122342, "global_step/max_steps": "26910/65595", "percentage": "41.02%", "elapsed_time": "1d 7h 5m 30s", "remaining_time": "1d 20h 41m 48s"}
+{"loss": 0.07489492, "token_acc": 0.96938151, "grad_norm": 0.54222089, "learning_rate": 6.39e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240418, "epoch": 2.05160454, "global_step/max_steps": "26915/65595", "percentage": "41.03%", "elapsed_time": "1d 7h 5m 48s", "remaining_time": "1d 20h 41m 23s"}
+{"loss": 0.09598803, "token_acc": 0.95796553, "grad_norm": 1.16316855, "learning_rate": 6.389e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240432, "epoch": 2.05198567, "global_step/max_steps": "26920/65595", "percentage": "41.04%", "elapsed_time": "1d 7h 6m 2s", "remaining_time": "1d 20h 40m 52s"}
+{"loss": 0.12486727, "token_acc": 0.94610535, "grad_norm": 1.10390699, "learning_rate": 6.388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240439, "epoch": 2.0523668, "global_step/max_steps": "26925/65595", "percentage": "41.05%", "elapsed_time": "1d 7h 6m 20s", "remaining_time": "1d 20h 40m 27s"}
+{"loss": 0.10176309, "token_acc": 0.96017611, "grad_norm": 1.44831991, "learning_rate": 6.387e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240446, "epoch": 2.05274792, "global_step/max_steps": "26930/65595", "percentage": "41.05%", "elapsed_time": "1d 7h 6m 37s", "remaining_time": "1d 20h 40m 2s"}
+{"loss": 0.13845172, "token_acc": 0.95992853, "grad_norm": 1.54985023, "learning_rate": 6.386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240456, "epoch": 2.05312905, "global_step/max_steps": "26935/65595", "percentage": "41.06%", "elapsed_time": "1d 7h 6m 54s", "remaining_time": "1d 20h 39m 34s"}
+{"loss": 0.12466484, "token_acc": 0.95249952, "grad_norm": 0.83166188, "learning_rate": 6.384e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240463, "epoch": 2.05351018, "global_step/max_steps": "26940/65595", "percentage": "41.07%", "elapsed_time": "1d 7h 7m 11s", "remaining_time": "1d 20h 39m 9s"}
+{"loss": 0.09037742, "token_acc": 0.94133772, "grad_norm": 1.32002079, "learning_rate": 6.383e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240478, "epoch": 2.0538913, "global_step/max_steps": "26945/65595", "percentage": "41.08%", "elapsed_time": "1d 7h 7m 25s", "remaining_time": "1d 20h 38m 38s"}
+{"loss": 0.07299981, "token_acc": 0.96882319, "grad_norm": 0.77240855, "learning_rate": 6.382e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240485, "epoch": 2.05427243, "global_step/max_steps": "26950/65595", "percentage": "41.09%", "elapsed_time": "1d 7h 7m 42s", "remaining_time": "1d 20h 38m 12s"}
+{"loss": 0.0805131, "token_acc": 0.96837876, "grad_norm": 1.10124683, "learning_rate": 6.381e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240491, "epoch": 2.05465356, "global_step/max_steps": "26955/65595", "percentage": "41.09%", "elapsed_time": "1d 7h 8m 1s", "remaining_time": "1d 20h 37m 48s"}
+{"loss": 0.12897799, "token_acc": 0.95431472, "grad_norm": 0.72437751, "learning_rate": 6.38e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240503, "epoch": 2.05503468, "global_step/max_steps": "26960/65595", "percentage": "41.10%", "elapsed_time": "1d 7h 8m 16s", "remaining_time": "1d 20h 37m 19s"}
+{"loss": 0.12828867, "token_acc": 0.94760115, "grad_norm": 1.07716787, "learning_rate": 6.379e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240511, "epoch": 2.05541581, "global_step/max_steps": "26965/65595", "percentage": "41.11%", "elapsed_time": "1d 7h 8m 33s", "remaining_time": "1d 20h 36m 53s"}
+{"loss": 0.11191044, "token_acc": 0.95934664, "grad_norm": 0.9604677, "learning_rate": 6.377e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240518, "epoch": 2.05579694, "global_step/max_steps": "26970/65595", "percentage": "41.12%", "elapsed_time": "1d 7h 8m 50s", "remaining_time": "1d 20h 36m 27s"}
+{"loss": 0.07474471, "token_acc": 0.96017117, "grad_norm": 0.46029437, "learning_rate": 6.376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24053, "epoch": 2.05617806, "global_step/max_steps": "26975/65595", "percentage": "41.12%", "elapsed_time": "1d 7h 9m 5s", "remaining_time": "1d 20h 35m 58s"}
+{"loss": 0.09392923, "token_acc": 0.96726487, "grad_norm": 0.82218939, "learning_rate": 6.375e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240537, "epoch": 2.05655919, "global_step/max_steps": "26980/65595", "percentage": "41.13%", "elapsed_time": "1d 7h 9m 23s", "remaining_time": "1d 20h 35m 33s"}
+{"loss": 0.09526991, "token_acc": 0.96664093, "grad_norm": 0.82267141, "learning_rate": 6.374e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240547, "epoch": 2.05694032, "global_step/max_steps": "26985/65595", "percentage": "41.14%", "elapsed_time": "1d 7h 9m 39s", "remaining_time": "1d 20h 35m 5s"}
+{"loss": 0.0838484, "token_acc": 0.96483516, "grad_norm": 0.08478694, "learning_rate": 6.373e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240546, "epoch": 2.05732144, "global_step/max_steps": "26990/65595", "percentage": "41.15%", "elapsed_time": "1d 7h 10m 0s", "remaining_time": "1d 20h 34m 45s"}
+{"loss": 0.08975454, "token_acc": 0.96080382, "grad_norm": 0.77275723, "learning_rate": 6.372e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240558, "epoch": 2.05770257, "global_step/max_steps": "26995/65595", "percentage": "41.15%", "elapsed_time": "1d 7h 10m 16s", "remaining_time": "1d 20h 34m 17s"}
+{"loss": 0.12549466, "token_acc": 0.9558774, "grad_norm": 1.16273606, "learning_rate": 6.371e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240562, "epoch": 2.0580837, "global_step/max_steps": "27000/65595", "percentage": "41.16%", "elapsed_time": "1d 7h 10m 34s", "remaining_time": "1d 20h 33m 53s"}
+{"eval_loss": 0.08914484, "eval_token_acc": 0.960153, "eval_runtime": 215.6991, "eval_samples_per_second": 2.457, "eval_steps_per_second": 2.457, "epoch": 2.0580837, "global_step/max_steps": "27000/65595", "percentage": "41.16%", "elapsed_time": "1d 7h 14m 10s", "remaining_time": "1d 20h 39m 1s"}
+{"loss": 0.12553085, "token_acc": 0.95962014, "grad_norm": 1.05649519, "learning_rate": 6.369e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240105, "epoch": 2.05846482, "global_step/max_steps": "27005/65595", "percentage": "41.17%", "elapsed_time": "1d 7h 14m 29s", "remaining_time": "1d 20h 38m 38s"}
+{"loss": 0.10526978, "token_acc": 0.96797038, "grad_norm": 0.84817564, "learning_rate": 6.368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24011, "epoch": 2.05884595, "global_step/max_steps": "27010/65595", "percentage": "41.18%", "elapsed_time": "1d 7h 14m 47s", "remaining_time": "1d 20h 38m 14s"}
+{"loss": 0.14658159, "token_acc": 0.95446022, "grad_norm": 1.71560907, "learning_rate": 6.367e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240121, "epoch": 2.05922708, "global_step/max_steps": "27015/65595", "percentage": "41.18%", "elapsed_time": "1d 7h 15m 3s", "remaining_time": "1d 20h 37m 45s"}
+{"loss": 0.16356544, "token_acc": 0.94089347, "grad_norm": 2.16883278, "learning_rate": 6.366e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240131, "epoch": 2.0596082, "global_step/max_steps": "27020/65595", "percentage": "41.19%", "elapsed_time": "1d 7h 15m 19s", "remaining_time": "1d 20h 37m 18s"}
+{"loss": 0.09318563, "token_acc": 0.95588522, "grad_norm": 0.52678519, "learning_rate": 6.365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240139, "epoch": 2.05998933, "global_step/max_steps": "27025/65595", "percentage": "41.20%", "elapsed_time": "1d 7h 15m 36s", "remaining_time": "1d 20h 36m 52s"}
+{"loss": 0.09206044, "token_acc": 0.96635368, "grad_norm": 0.28233257, "learning_rate": 6.364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24015, "epoch": 2.06037046, "global_step/max_steps": "27030/65595", "percentage": "41.21%", "elapsed_time": "1d 7h 15m 52s", "remaining_time": "1d 20h 36m 23s"}
+{"loss": 0.08805954, "token_acc": 0.96862745, "grad_norm": 1.20451331, "learning_rate": 6.362e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240163, "epoch": 2.06075158, "global_step/max_steps": "27035/65595", "percentage": "41.22%", "elapsed_time": "1d 7h 16m 7s", "remaining_time": "1d 20h 35m 54s"}
+{"loss": 0.14710952, "token_acc": 0.93414347, "grad_norm": 1.20099854, "learning_rate": 6.361e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240175, "epoch": 2.06113271, "global_step/max_steps": "27040/65595", "percentage": "41.22%", "elapsed_time": "1d 7h 16m 22s", "remaining_time": "1d 20h 35m 25s"}
+{"loss": 0.07160587, "token_acc": 0.9716143, "grad_norm": 0.96674359, "learning_rate": 6.36e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240183, "epoch": 2.06151383, "global_step/max_steps": "27045/65595", "percentage": "41.23%", "elapsed_time": "1d 7h 16m 39s", "remaining_time": "1d 20h 34m 59s"}
+{"loss": 0.07269713, "token_acc": 0.97003181, "grad_norm": 0.52325416, "learning_rate": 6.359e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240187, "epoch": 2.06189496, "global_step/max_steps": "27050/65595", "percentage": "41.24%", "elapsed_time": "1d 7h 16m 58s", "remaining_time": "1d 20h 34m 35s"}
+{"loss": 0.09179597, "token_acc": 0.96387233, "grad_norm": 1.22922099, "learning_rate": 6.358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240201, "epoch": 2.06227609, "global_step/max_steps": "27055/65595", "percentage": "41.25%", "elapsed_time": "1d 7h 17m 12s", "remaining_time": "1d 20h 34m 6s"}
+{"loss": 0.06252117, "token_acc": 0.97401108, "grad_norm": 0.71362853, "learning_rate": 6.357e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240206, "epoch": 2.06265721, "global_step/max_steps": "27060/65595", "percentage": "41.25%", "elapsed_time": "1d 7h 17m 31s", "remaining_time": "1d 20h 33m 41s"}
+{"loss": 0.09664552, "token_acc": 0.96235747, "grad_norm": 1.15987408, "learning_rate": 6.356e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240209, "epoch": 2.06303834, "global_step/max_steps": "27065/65595", "percentage": "41.26%", "elapsed_time": "1d 7h 17m 50s", "remaining_time": "1d 20h 33m 18s"}
+{"loss": 0.12123783, "token_acc": 0.94740545, "grad_norm": 1.37860286, "learning_rate": 6.354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240216, "epoch": 2.06341947, "global_step/max_steps": "27070/65595", "percentage": "41.27%", "elapsed_time": "1d 7h 18m 7s", "remaining_time": "1d 20h 32m 53s"}
+{"loss": 0.13816662, "token_acc": 0.93754941, "grad_norm": 1.06761003, "learning_rate": 6.353e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240228, "epoch": 2.06380059, "global_step/max_steps": "27075/65595", "percentage": "41.28%", "elapsed_time": "1d 7h 18m 23s", "remaining_time": "1d 20h 32m 24s"}
+{"loss": 0.13149847, "token_acc": 0.95086891, "grad_norm": 0.78666615, "learning_rate": 6.352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240238, "epoch": 2.06418172, "global_step/max_steps": "27080/65595", "percentage": "41.28%", "elapsed_time": "1d 7h 18m 39s", "remaining_time": "1d 20h 31m 56s"}
+{"loss": 0.10533781, "token_acc": 0.96310755, "grad_norm": 2.37612224, "learning_rate": 6.351e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240244, "epoch": 2.06456285, "global_step/max_steps": "27085/65595", "percentage": "41.29%", "elapsed_time": "1d 7h 18m 57s", "remaining_time": "1d 20h 31m 32s"}
+{"loss": 0.07771116, "token_acc": 0.97003957, "grad_norm": 0.44144678, "learning_rate": 6.35e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240255, "epoch": 2.06494397, "global_step/max_steps": "27090/65595", "percentage": "41.30%", "elapsed_time": "1d 7h 19m 12s", "remaining_time": "1d 20h 31m 3s"}
+{"loss": 0.08977038, "token_acc": 0.96450482, "grad_norm": 3.09641075, "learning_rate": 6.349e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240266, "epoch": 2.0653251, "global_step/max_steps": "27095/65595", "percentage": "41.31%", "elapsed_time": "1d 7h 19m 28s", "remaining_time": "1d 20h 30m 35s"}
+{"loss": 0.10292158, "token_acc": 0.95287107, "grad_norm": 1.92380941, "learning_rate": 6.348e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240282, "epoch": 2.06570623, "global_step/max_steps": "27100/65595", "percentage": "41.31%", "elapsed_time": "1d 7h 19m 42s", "remaining_time": "1d 20h 30m 4s"}
+{"loss": 0.08587865, "token_acc": 0.95902439, "grad_norm": 1.24373281, "learning_rate": 6.346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240291, "epoch": 2.06608735, "global_step/max_steps": "27105/65595", "percentage": "41.32%", "elapsed_time": "1d 7h 19m 58s", "remaining_time": "1d 20h 29m 37s"}
+{"loss": 0.0862072, "token_acc": 0.9599455, "grad_norm": 0.43044826, "learning_rate": 6.345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240302, "epoch": 2.06646848, "global_step/max_steps": "27110/65595", "percentage": "41.33%", "elapsed_time": "1d 7h 20m 14s", "remaining_time": "1d 20h 29m 9s"}
+{"loss": 0.09557816, "token_acc": 0.96430861, "grad_norm": 0.54467362, "learning_rate": 6.344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240312, "epoch": 2.06684961, "global_step/max_steps": "27115/65595", "percentage": "41.34%", "elapsed_time": "1d 7h 20m 30s", "remaining_time": "1d 20h 28m 42s"}
+{"loss": 0.10722673, "token_acc": 0.95893002, "grad_norm": 1.7266289, "learning_rate": 6.343e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240318, "epoch": 2.06723073, "global_step/max_steps": "27120/65595", "percentage": "41.34%", "elapsed_time": "1d 7h 20m 48s", "remaining_time": "1d 20h 28m 17s"}
+{"loss": 0.09324288, "token_acc": 0.96450713, "grad_norm": 1.02658129, "learning_rate": 6.342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240325, "epoch": 2.06761186, "global_step/max_steps": "27125/65595", "percentage": "41.35%", "elapsed_time": "1d 7h 21m 5s", "remaining_time": "1d 20h 27m 51s"}
+{"loss": 0.13621948, "token_acc": 0.9497619, "grad_norm": 1.67649245, "learning_rate": 6.341e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240335, "epoch": 2.06799299, "global_step/max_steps": "27130/65595", "percentage": "41.36%", "elapsed_time": "1d 7h 21m 21s", "remaining_time": "1d 20h 27m 24s"}
+{"loss": 0.07382301, "token_acc": 0.97296173, "grad_norm": 0.7165817, "learning_rate": 6.339e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240347, "epoch": 2.06837411, "global_step/max_steps": "27135/65595", "percentage": "41.37%", "elapsed_time": "1d 7h 21m 36s", "remaining_time": "1d 20h 26m 55s"}
+{"loss": 0.11724995, "token_acc": 0.95506343, "grad_norm": 0.88002491, "learning_rate": 6.338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240358, "epoch": 2.06875524, "global_step/max_steps": "27140/65595", "percentage": "41.38%", "elapsed_time": "1d 7h 21m 52s", "remaining_time": "1d 20h 26m 27s"}
+{"loss": 0.10026087, "token_acc": 0.96883014, "grad_norm": 0.50257552, "learning_rate": 6.337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240365, "epoch": 2.06913637, "global_step/max_steps": "27145/65595", "percentage": "41.38%", "elapsed_time": "1d 7h 22m 10s", "remaining_time": "1d 20h 26m 2s"}
+{"loss": 0.10567987, "token_acc": 0.96119196, "grad_norm": 0.75227213, "learning_rate": 6.336e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240372, "epoch": 2.06951749, "global_step/max_steps": "27150/65595", "percentage": "41.39%", "elapsed_time": "1d 7h 22m 27s", "remaining_time": "1d 20h 25m 36s"}
+{"loss": 0.10995859, "token_acc": 0.9524534, "grad_norm": 1.54013073, "learning_rate": 6.335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240385, "epoch": 2.06989862, "global_step/max_steps": "27155/65595", "percentage": "41.40%", "elapsed_time": "1d 7h 22m 42s", "remaining_time": "1d 20h 25m 6s"}
+{"loss": 0.08846146, "token_acc": 0.96759259, "grad_norm": 1.27148855, "learning_rate": 6.334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2404, "epoch": 2.07027975, "global_step/max_steps": "27160/65595", "percentage": "41.41%", "elapsed_time": "1d 7h 22m 56s", "remaining_time": "1d 20h 24m 36s"}
+{"loss": 0.06848826, "token_acc": 0.96941795, "grad_norm": 0.92184973, "learning_rate": 6.333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240413, "epoch": 2.07066087, "global_step/max_steps": "27165/65595", "percentage": "41.41%", "elapsed_time": "1d 7h 23m 10s", "remaining_time": "1d 20h 24m 6s"}
+{"loss": 0.10499305, "token_acc": 0.96151985, "grad_norm": 1.63807237, "learning_rate": 6.331e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240423, "epoch": 2.071042, "global_step/max_steps": "27170/65595", "percentage": "41.42%", "elapsed_time": "1d 7h 23m 27s", "remaining_time": "1d 20h 23m 39s"}
+{"loss": 0.08890421, "token_acc": 0.96077452, "grad_norm": 0.65595436, "learning_rate": 6.33e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240429, "epoch": 2.07142313, "global_step/max_steps": "27175/65595", "percentage": "41.43%", "elapsed_time": "1d 7h 23m 45s", "remaining_time": "1d 20h 23m 14s"}
+{"loss": 0.09030272, "token_acc": 0.96445818, "grad_norm": 0.85374528, "learning_rate": 6.329e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240436, "epoch": 2.07180425, "global_step/max_steps": "27180/65595", "percentage": "41.44%", "elapsed_time": "1d 7h 24m 2s", "remaining_time": "1d 20h 22m 49s"}
+{"loss": 0.12254019, "token_acc": 0.95070423, "grad_norm": 1.82690454, "learning_rate": 6.328e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240445, "epoch": 2.07218538, "global_step/max_steps": "27185/65595", "percentage": "41.44%", "elapsed_time": "1d 7h 24m 18s", "remaining_time": "1d 20h 22m 22s"}
+{"loss": 0.08373213, "token_acc": 0.96442874, "grad_norm": 0.75643575, "learning_rate": 6.327e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240449, "epoch": 2.07256651, "global_step/max_steps": "27190/65595", "percentage": "41.45%", "elapsed_time": "1d 7h 24m 38s", "remaining_time": "1d 20h 21m 59s"}
+{"loss": 0.0826353, "token_acc": 0.96447292, "grad_norm": 0.64161557, "learning_rate": 6.326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240458, "epoch": 2.07294763, "global_step/max_steps": "27195/65595", "percentage": "41.46%", "elapsed_time": "1d 7h 24m 54s", "remaining_time": "1d 20h 21m 31s"}
+{"loss": 0.10952297, "token_acc": 0.9580574, "grad_norm": 0.88633353, "learning_rate": 6.324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240463, "epoch": 2.07332876, "global_step/max_steps": "27200/65595", "percentage": "41.47%", "elapsed_time": "1d 7h 25m 13s", "remaining_time": "1d 20h 21m 8s"}
+{"eval_loss": 0.0911615, "eval_token_acc": 0.95973134, "eval_runtime": 217.8586, "eval_samples_per_second": 2.433, "eval_steps_per_second": 2.433, "epoch": 2.07332876, "global_step/max_steps": "27200/65595", "percentage": "41.47%", "elapsed_time": "1d 7h 28m 50s", "remaining_time": "1d 20h 26m 15s"}
+{"loss": 0.07261169, "token_acc": 0.96006767, "grad_norm": 0.78352076, "learning_rate": 6.323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240011, "epoch": 2.07370989, "global_step/max_steps": "27205/65595", "percentage": "41.47%", "elapsed_time": "1d 7h 29m 6s", "remaining_time": "1d 20h 25m 48s"}
+{"loss": 0.06022198, "token_acc": 0.97275204, "grad_norm": 0.5070051, "learning_rate": 6.322e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240013, "epoch": 2.07409101, "global_step/max_steps": "27210/65595", "percentage": "41.48%", "elapsed_time": "1d 7h 29m 26s", "remaining_time": "1d 20h 25m 25s"}
+{"loss": 0.12444254, "token_acc": 0.95502646, "grad_norm": 1.06406939, "learning_rate": 6.321e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240023, "epoch": 2.07447214, "global_step/max_steps": "27215/65595", "percentage": "41.49%", "elapsed_time": "1d 7h 29m 42s", "remaining_time": "1d 20h 24m 58s"}
+{"loss": 0.08999449, "token_acc": 0.97299244, "grad_norm": 0.76246983, "learning_rate": 6.32e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240028, "epoch": 2.07485327, "global_step/max_steps": "27220/65595", "percentage": "41.50%", "elapsed_time": "1d 7h 30m 1s", "remaining_time": "1d 20h 24m 33s"}
+{"loss": 0.07878842, "token_acc": 0.96782259, "grad_norm": 0.59225279, "learning_rate": 6.319e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24003, "epoch": 2.07523439, "global_step/max_steps": "27225/65595", "percentage": "41.50%", "elapsed_time": "1d 7h 30m 21s", "remaining_time": "1d 20h 24m 11s"}
+{"loss": 0.10422115, "token_acc": 0.96912521, "grad_norm": 0.46717906, "learning_rate": 6.317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240034, "epoch": 2.07561552, "global_step/max_steps": "27230/65595", "percentage": "41.51%", "elapsed_time": "1d 7h 30m 39s", "remaining_time": "1d 20h 23m 48s"}
+{"loss": 0.0780295, "token_acc": 0.96335878, "grad_norm": 0.70904297, "learning_rate": 6.316e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240048, "epoch": 2.07599665, "global_step/max_steps": "27235/65595", "percentage": "41.52%", "elapsed_time": "1d 7h 30m 54s", "remaining_time": "1d 20h 23m 18s"}
+{"loss": 0.0722102, "token_acc": 0.96218487, "grad_norm": 0.83490449, "learning_rate": 6.315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240061, "epoch": 2.07637777, "global_step/max_steps": "27240/65595", "percentage": "41.53%", "elapsed_time": "1d 7h 31m 9s", "remaining_time": "1d 20h 22m 48s"}
+{"loss": 0.10632894, "token_acc": 0.95781893, "grad_norm": 0.96936595, "learning_rate": 6.314e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24007, "epoch": 2.0767589, "global_step/max_steps": "27245/65595", "percentage": "41.54%", "elapsed_time": "1d 7h 31m 25s", "remaining_time": "1d 20h 22m 21s"}
+{"loss": 0.07895512, "token_acc": 0.97004006, "grad_norm": 0.43815377, "learning_rate": 6.313e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240077, "epoch": 2.07714003, "global_step/max_steps": "27250/65595", "percentage": "41.54%", "elapsed_time": "1d 7h 31m 43s", "remaining_time": "1d 20h 21m 56s"}
+{"loss": 0.10346498, "token_acc": 0.95748199, "grad_norm": 0.49315295, "learning_rate": 6.312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240079, "epoch": 2.07752115, "global_step/max_steps": "27255/65595", "percentage": "41.55%", "elapsed_time": "1d 7h 32m 3s", "remaining_time": "1d 20h 21m 34s"}
+{"loss": 0.13021314, "token_acc": 0.9375492, "grad_norm": 1.48318338, "learning_rate": 6.311e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240088, "epoch": 2.07790228, "global_step/max_steps": "27260/65595", "percentage": "41.56%", "elapsed_time": "1d 7h 32m 19s", "remaining_time": "1d 20h 21m 7s"}
+{"loss": 0.07989855, "token_acc": 0.96245875, "grad_norm": 0.61856276, "learning_rate": 6.309e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240096, "epoch": 2.07828341, "global_step/max_steps": "27265/65595", "percentage": "41.57%", "elapsed_time": "1d 7h 32m 36s", "remaining_time": "1d 20h 20m 41s"}
+{"loss": 0.13919001, "token_acc": 0.95609097, "grad_norm": 1.00835741, "learning_rate": 6.308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240104, "epoch": 2.07866453, "global_step/max_steps": "27270/65595", "percentage": "41.57%", "elapsed_time": "1d 7h 32m 53s", "remaining_time": "1d 20h 20m 14s"}
+{"loss": 0.1020072, "token_acc": 0.95952879, "grad_norm": 0.6064719, "learning_rate": 6.307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24011, "epoch": 2.07904566, "global_step/max_steps": "27275/65595", "percentage": "41.58%", "elapsed_time": "1d 7h 33m 11s", "remaining_time": "1d 20h 19m 50s"}
+{"loss": 0.12151408, "token_acc": 0.95592898, "grad_norm": 1.19324195, "learning_rate": 6.306e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240121, "epoch": 2.07942679, "global_step/max_steps": "27280/65595", "percentage": "41.59%", "elapsed_time": "1d 7h 33m 26s", "remaining_time": "1d 20h 19m 22s"}
+{"loss": 0.12491326, "token_acc": 0.9430802, "grad_norm": 1.60181427, "learning_rate": 6.305e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24013, "epoch": 2.07980791, "global_step/max_steps": "27285/65595", "percentage": "41.60%", "elapsed_time": "1d 7h 33m 43s", "remaining_time": "1d 20h 18m 55s"}
+{"loss": 0.08824539, "token_acc": 0.96345618, "grad_norm": 0.95880419, "learning_rate": 6.304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240141, "epoch": 2.08018904, "global_step/max_steps": "27290/65595", "percentage": "41.60%", "elapsed_time": "1d 7h 33m 59s", "remaining_time": "1d 20h 18m 27s"}
+{"loss": 0.10456247, "token_acc": 0.96911503, "grad_norm": 0.86398119, "learning_rate": 6.302e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240149, "epoch": 2.08057017, "global_step/max_steps": "27295/65595", "percentage": "41.61%", "elapsed_time": "1d 7h 34m 16s", "remaining_time": "1d 20h 18m 0s"}
+{"loss": 0.07610681, "token_acc": 0.97266693, "grad_norm": 0.93707615, "learning_rate": 6.301e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240156, "epoch": 2.08095129, "global_step/max_steps": "27300/65595", "percentage": "41.62%", "elapsed_time": "1d 7h 34m 34s", "remaining_time": "1d 20h 17m 36s"}
+{"loss": 0.09241738, "token_acc": 0.95495265, "grad_norm": 0.63024426, "learning_rate": 6.3e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240166, "epoch": 2.08133242, "global_step/max_steps": "27305/65595", "percentage": "41.63%", "elapsed_time": "1d 7h 34m 49s", "remaining_time": "1d 20h 17m 8s"}
+{"loss": 0.08493274, "token_acc": 0.96206707, "grad_norm": 2.70741129, "learning_rate": 6.299e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240181, "epoch": 2.08171355, "global_step/max_steps": "27310/65595", "percentage": "41.63%", "elapsed_time": "1d 7h 35m 3s", "remaining_time": "1d 20h 16m 37s"}
+{"loss": 0.10434817, "token_acc": 0.95674387, "grad_norm": 0.73903847, "learning_rate": 6.298e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240193, "epoch": 2.08209467, "global_step/max_steps": "27315/65595", "percentage": "41.64%", "elapsed_time": "1d 7h 35m 18s", "remaining_time": "1d 20h 16m 8s"}
+{"loss": 0.11317067, "token_acc": 0.95957395, "grad_norm": 0.8174656, "learning_rate": 6.297e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240205, "epoch": 2.0824758, "global_step/max_steps": "27320/65595", "percentage": "41.65%", "elapsed_time": "1d 7h 35m 34s", "remaining_time": "1d 20h 15m 40s"}
+{"loss": 0.08308249, "token_acc": 0.96721311, "grad_norm": 0.76819032, "learning_rate": 6.296e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240208, "epoch": 2.08285693, "global_step/max_steps": "27325/65595", "percentage": "41.66%", "elapsed_time": "1d 7h 35m 53s", "remaining_time": "1d 20h 15m 17s"}
+{"loss": 0.07333186, "token_acc": 0.97196463, "grad_norm": 0.68929058, "learning_rate": 6.294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240218, "epoch": 2.08323805, "global_step/max_steps": "27330/65595", "percentage": "41.66%", "elapsed_time": "1d 7h 36m 9s", "remaining_time": "1d 20h 14m 49s"}
+{"loss": 0.10476322, "token_acc": 0.95134152, "grad_norm": 0.97747451, "learning_rate": 6.293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240227, "epoch": 2.08361918, "global_step/max_steps": "27335/65595", "percentage": "41.67%", "elapsed_time": "1d 7h 36m 25s", "remaining_time": "1d 20h 14m 22s"}
+{"loss": 0.08289227, "token_acc": 0.96757983, "grad_norm": 0.59339839, "learning_rate": 6.292e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240233, "epoch": 2.0840003, "global_step/max_steps": "27340/65595", "percentage": "41.68%", "elapsed_time": "1d 7h 36m 43s", "remaining_time": "1d 20h 13m 58s"}
+{"loss": 0.08499487, "token_acc": 0.96826385, "grad_norm": 0.48423311, "learning_rate": 6.291e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240237, "epoch": 2.08438143, "global_step/max_steps": "27345/65595", "percentage": "41.69%", "elapsed_time": "1d 7h 37m 2s", "remaining_time": "1d 20h 13m 34s"}
+{"loss": 0.10949696, "token_acc": 0.96833648, "grad_norm": 1.64462149, "learning_rate": 6.29e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240251, "epoch": 2.08476256, "global_step/max_steps": "27350/65595", "percentage": "41.70%", "elapsed_time": "1d 7h 37m 17s", "remaining_time": "1d 20h 13m 4s"}
+{"loss": 0.05425162, "token_acc": 0.97785311, "grad_norm": 1.03045976, "learning_rate": 6.289e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240259, "epoch": 2.08514368, "global_step/max_steps": "27355/65595", "percentage": "41.70%", "elapsed_time": "1d 7h 37m 34s", "remaining_time": "1d 20h 12m 38s"}
+{"loss": 0.10501565, "token_acc": 0.95729039, "grad_norm": 0.82272232, "learning_rate": 6.287e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240266, "epoch": 2.08552481, "global_step/max_steps": "27360/65595", "percentage": "41.71%", "elapsed_time": "1d 7h 37m 51s", "remaining_time": "1d 20h 12m 12s"}
+{"loss": 0.1105013, "token_acc": 0.96131023, "grad_norm": 0.88016754, "learning_rate": 6.286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240275, "epoch": 2.08590594, "global_step/max_steps": "27365/65595", "percentage": "41.72%", "elapsed_time": "1d 7h 38m 8s", "remaining_time": "1d 20h 11m 46s"}
+{"loss": 0.09736736, "token_acc": 0.96076861, "grad_norm": 0.75695014, "learning_rate": 6.285e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240289, "epoch": 2.08628706, "global_step/max_steps": "27370/65595", "percentage": "41.73%", "elapsed_time": "1d 7h 38m 22s", "remaining_time": "1d 20h 11m 16s"}
+{"loss": 0.1023052, "token_acc": 0.96411401, "grad_norm": 0.84935993, "learning_rate": 6.284e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240295, "epoch": 2.08666819, "global_step/max_steps": "27375/65595", "percentage": "41.73%", "elapsed_time": "1d 7h 38m 40s", "remaining_time": "1d 20h 10m 51s"}
+{"loss": 0.09945678, "token_acc": 0.97134203, "grad_norm": 1.00431597, "learning_rate": 6.283e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240304, "epoch": 2.08704932, "global_step/max_steps": "27380/65595", "percentage": "41.74%", "elapsed_time": "1d 7h 38m 56s", "remaining_time": "1d 20h 10m 24s"}
+{"loss": 0.0709949, "token_acc": 0.96586716, "grad_norm": 0.41830364, "learning_rate": 6.282e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240311, "epoch": 2.08743044, "global_step/max_steps": "27385/65595", "percentage": "41.75%", "elapsed_time": "1d 7h 39m 14s", "remaining_time": "1d 20h 9m 58s"}
+{"loss": 0.08008715, "token_acc": 0.96618439, "grad_norm": 0.68336135, "learning_rate": 6.281e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240314, "epoch": 2.08781157, "global_step/max_steps": "27390/65595", "percentage": "41.76%", "elapsed_time": "1d 7h 39m 33s", "remaining_time": "1d 20h 9m 36s"}
+{"loss": 0.09524341, "token_acc": 0.96273546, "grad_norm": 0.5011915, "learning_rate": 6.279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240323, "epoch": 2.0881927, "global_step/max_steps": "27395/65595", "percentage": "41.76%", "elapsed_time": "1d 7h 39m 50s", "remaining_time": "1d 20h 9m 9s"}
+{"loss": 0.07801448, "token_acc": 0.97054535, "grad_norm": 1.55272305, "learning_rate": 6.278e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240329, "epoch": 2.08857382, "global_step/max_steps": "27400/65595", "percentage": "41.77%", "elapsed_time": "1d 7h 40m 8s", "remaining_time": "1d 20h 8m 44s"}
+{"eval_loss": 0.09103234, "eval_token_acc": 0.96043913, "eval_runtime": 219.3587, "eval_samples_per_second": 2.416, "eval_steps_per_second": 2.416, "epoch": 2.08857382, "global_step/max_steps": "27400/65595", "percentage": "41.77%", "elapsed_time": "1d 7h 43m 47s", "remaining_time": "1d 20h 13m 50s"}
+{"loss": 0.10184295, "token_acc": 0.96031711, "grad_norm": 0.78978556, "learning_rate": 6.277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239874, "epoch": 2.08895495, "global_step/max_steps": "27405/65595", "percentage": "41.78%", "elapsed_time": "1d 7h 44m 5s", "remaining_time": "1d 20h 13m 25s"}
+{"loss": 0.09539179, "token_acc": 0.96060192, "grad_norm": 1.21693873, "learning_rate": 6.276e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239885, "epoch": 2.08933608, "global_step/max_steps": "27410/65595", "percentage": "41.79%", "elapsed_time": "1d 7h 44m 20s", "remaining_time": "1d 20h 12m 57s"}
+{"loss": 0.12181758, "token_acc": 0.95365486, "grad_norm": 0.86208397, "learning_rate": 6.275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239894, "epoch": 2.0897172, "global_step/max_steps": "27415/65595", "percentage": "41.79%", "elapsed_time": "1d 7h 44m 37s", "remaining_time": "1d 20h 12m 30s"}
+{"loss": 0.09877347, "token_acc": 0.96530446, "grad_norm": 2.10082865, "learning_rate": 6.274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239894, "epoch": 2.09009833, "global_step/max_steps": "27420/65595", "percentage": "41.80%", "elapsed_time": "1d 7h 44m 58s", "remaining_time": "1d 20h 12m 9s"}
+{"loss": 0.15242698, "token_acc": 0.954749, "grad_norm": 0.62574917, "learning_rate": 6.272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239905, "epoch": 2.09047946, "global_step/max_steps": "27425/65595", "percentage": "41.81%", "elapsed_time": "1d 7h 45m 13s", "remaining_time": "1d 20h 11m 41s"}
+{"loss": 0.11227019, "token_acc": 0.96127367, "grad_norm": 1.00990236, "learning_rate": 6.271e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239911, "epoch": 2.09086058, "global_step/max_steps": "27430/65595", "percentage": "41.82%", "elapsed_time": "1d 7h 45m 31s", "remaining_time": "1d 20h 11m 16s"}
+{"loss": 0.12702096, "token_acc": 0.94240196, "grad_norm": 3.63415742, "learning_rate": 6.27e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239922, "epoch": 2.09124171, "global_step/max_steps": "27435/65595", "percentage": "41.82%", "elapsed_time": "1d 7h 45m 47s", "remaining_time": "1d 20h 10m 48s"}
+{"loss": 0.07883673, "token_acc": 0.96728485, "grad_norm": 0.16782269, "learning_rate": 6.269e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23993, "epoch": 2.09162284, "global_step/max_steps": "27440/65595", "percentage": "41.83%", "elapsed_time": "1d 7h 46m 4s", "remaining_time": "1d 20h 10m 22s"}
+{"loss": 0.06967081, "token_acc": 0.96832579, "grad_norm": 0.7551071, "learning_rate": 6.268e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23994, "epoch": 2.09200396, "global_step/max_steps": "27445/65595", "percentage": "41.84%", "elapsed_time": "1d 7h 46m 20s", "remaining_time": "1d 20h 9m 54s"}
+{"loss": 0.0804904, "token_acc": 0.96747565, "grad_norm": 0.7371071, "learning_rate": 6.267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239946, "epoch": 2.09238509, "global_step/max_steps": "27450/65595", "percentage": "41.85%", "elapsed_time": "1d 7h 46m 38s", "remaining_time": "1d 20h 9m 30s"}
+{"loss": 0.12148128, "token_acc": 0.94533663, "grad_norm": 1.29512751, "learning_rate": 6.265e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239959, "epoch": 2.09276622, "global_step/max_steps": "27455/65595", "percentage": "41.86%", "elapsed_time": "1d 7h 46m 53s", "remaining_time": "1d 20h 9m 0s"}
+{"loss": 0.14644326, "token_acc": 0.94501134, "grad_norm": 1.07315159, "learning_rate": 6.264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239969, "epoch": 2.09314734, "global_step/max_steps": "27460/65595", "percentage": "41.86%", "elapsed_time": "1d 7h 47m 9s", "remaining_time": "1d 20h 8m 33s"}
+{"loss": 0.09337407, "token_acc": 0.97098164, "grad_norm": 0.99596506, "learning_rate": 6.263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23997, "epoch": 2.09352847, "global_step/max_steps": "27465/65595", "percentage": "41.87%", "elapsed_time": "1d 7h 47m 29s", "remaining_time": "1d 20h 8m 11s"}
+{"loss": 0.10333985, "token_acc": 0.97325861, "grad_norm": 1.27956116, "learning_rate": 6.262e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239973, "epoch": 2.0939096, "global_step/max_steps": "27470/65595", "percentage": "41.88%", "elapsed_time": "1d 7h 47m 48s", "remaining_time": "1d 20h 7m 48s"}
+{"loss": 0.07909554, "token_acc": 0.96700275, "grad_norm": 0.97687793, "learning_rate": 6.261e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239985, "epoch": 2.09429072, "global_step/max_steps": "27475/65595", "percentage": "41.89%", "elapsed_time": "1d 7h 48m 4s", "remaining_time": "1d 20h 7m 20s"}
+{"loss": 0.11093892, "token_acc": 0.9598631, "grad_norm": 1.43070769, "learning_rate": 6.26e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239997, "epoch": 2.09467185, "global_step/max_steps": "27480/65595", "percentage": "41.89%", "elapsed_time": "1d 7h 48m 19s", "remaining_time": "1d 20h 6m 51s"}
+{"loss": 0.10938501, "token_acc": 0.95987574, "grad_norm": 0.91472417, "learning_rate": 6.258e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240006, "epoch": 2.09505298, "global_step/max_steps": "27485/65595", "percentage": "41.90%", "elapsed_time": "1d 7h 48m 35s", "remaining_time": "1d 20h 6m 24s"}
+{"loss": 0.11372298, "token_acc": 0.95677068, "grad_norm": 0.73225886, "learning_rate": 6.257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240015, "epoch": 2.0954341, "global_step/max_steps": "27490/65595", "percentage": "41.91%", "elapsed_time": "1d 7h 48m 52s", "remaining_time": "1d 20h 5m 57s"}
+{"loss": 0.09905536, "token_acc": 0.96335079, "grad_norm": 0.72253728, "learning_rate": 6.256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240025, "epoch": 2.09581523, "global_step/max_steps": "27495/65595", "percentage": "41.92%", "elapsed_time": "1d 7h 49m 8s", "remaining_time": "1d 20h 5m 30s"}
+{"loss": 0.08449925, "token_acc": 0.9657206, "grad_norm": 0.83049142, "learning_rate": 6.255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240039, "epoch": 2.09619636, "global_step/max_steps": "27500/65595", "percentage": "41.92%", "elapsed_time": "1d 7h 49m 22s", "remaining_time": "1d 20h 5m 0s"}
+{"loss": 0.10392622, "token_acc": 0.9551316, "grad_norm": 0.69019693, "learning_rate": 6.254e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240046, "epoch": 2.09657748, "global_step/max_steps": "27505/65595", "percentage": "41.93%", "elapsed_time": "1d 7h 49m 40s", "remaining_time": "1d 20h 4m 35s"}
+{"loss": 0.09051996, "token_acc": 0.96774194, "grad_norm": 1.34398389, "learning_rate": 6.253e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240058, "epoch": 2.09695861, "global_step/max_steps": "27510/65595", "percentage": "41.94%", "elapsed_time": "1d 7h 49m 55s", "remaining_time": "1d 20h 4m 6s"}
+{"loss": 0.10548669, "token_acc": 0.96587873, "grad_norm": 0.67925948, "learning_rate": 6.252e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240066, "epoch": 2.09733974, "global_step/max_steps": "27515/65595", "percentage": "41.95%", "elapsed_time": "1d 7h 50m 12s", "remaining_time": "1d 20h 3m 40s"}
+{"loss": 0.12976969, "token_acc": 0.95500757, "grad_norm": 0.87550741, "learning_rate": 6.25e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240074, "epoch": 2.09772086, "global_step/max_steps": "27520/65595", "percentage": "41.95%", "elapsed_time": "1d 7h 50m 29s", "remaining_time": "1d 20h 3m 14s"}
+{"loss": 0.13325887, "token_acc": 0.95127021, "grad_norm": 0.98579288, "learning_rate": 6.249e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240082, "epoch": 2.09810199, "global_step/max_steps": "27525/65595", "percentage": "41.96%", "elapsed_time": "1d 7h 50m 46s", "remaining_time": "1d 20h 2m 47s"}
+{"loss": 0.11278994, "token_acc": 0.96414511, "grad_norm": 0.55801511, "learning_rate": 6.248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240088, "epoch": 2.09848312, "global_step/max_steps": "27530/65595", "percentage": "41.97%", "elapsed_time": "1d 7h 51m 3s", "remaining_time": "1d 20h 2m 22s"}
+{"loss": 0.09661475, "token_acc": 0.96329199, "grad_norm": 1.32768857, "learning_rate": 6.247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240095, "epoch": 2.09886424, "global_step/max_steps": "27535/65595", "percentage": "41.98%", "elapsed_time": "1d 7h 51m 21s", "remaining_time": "1d 20h 1m 57s"}
+{"loss": 0.07067039, "token_acc": 0.96029963, "grad_norm": 1.6260159, "learning_rate": 6.246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240112, "epoch": 2.09924537, "global_step/max_steps": "27540/65595", "percentage": "41.98%", "elapsed_time": "1d 7h 51m 34s", "remaining_time": "1d 20h 1m 25s"}
+{"loss": 0.11402645, "token_acc": 0.96854796, "grad_norm": 0.46165061, "learning_rate": 6.245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240116, "epoch": 2.0996265, "global_step/max_steps": "27545/65595", "percentage": "41.99%", "elapsed_time": "1d 7h 51m 53s", "remaining_time": "1d 20h 1m 2s"}
+{"loss": 0.08127616, "token_acc": 0.9678392, "grad_norm": 0.63888013, "learning_rate": 6.243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240122, "epoch": 2.10000762, "global_step/max_steps": "27550/65595", "percentage": "42.00%", "elapsed_time": "1d 7h 52m 11s", "remaining_time": "1d 20h 0m 37s"}
+{"loss": 0.1456449, "token_acc": 0.94394801, "grad_norm": 1.06681859, "learning_rate": 6.242e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240133, "epoch": 2.10038875, "global_step/max_steps": "27555/65595", "percentage": "42.01%", "elapsed_time": "1d 7h 52m 26s", "remaining_time": "1d 20h 0m 8s"}
+{"loss": 0.077714, "token_acc": 0.96667901, "grad_norm": 0.75310034, "learning_rate": 6.241e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240134, "epoch": 2.10076988, "global_step/max_steps": "27560/65595", "percentage": "42.02%", "elapsed_time": "1d 7h 52m 46s", "remaining_time": "1d 19h 59m 47s"}
+{"loss": 0.08413103, "token_acc": 0.96788773, "grad_norm": 0.70444012, "learning_rate": 6.24e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240141, "epoch": 2.101151, "global_step/max_steps": "27565/65595", "percentage": "42.02%", "elapsed_time": "1d 7h 53m 4s", "remaining_time": "1d 19h 59m 22s"}
+{"loss": 0.11540061, "token_acc": 0.96109567, "grad_norm": 0.82557082, "learning_rate": 6.239e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240153, "epoch": 2.10153213, "global_step/max_steps": "27570/65595", "percentage": "42.03%", "elapsed_time": "1d 7h 53m 19s", "remaining_time": "1d 19h 58m 53s"}
+{"loss": 0.08759521, "token_acc": 0.95580218, "grad_norm": 0.78079247, "learning_rate": 6.238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240162, "epoch": 2.10191326, "global_step/max_steps": "27575/65595", "percentage": "42.04%", "elapsed_time": "1d 7h 53m 36s", "remaining_time": "1d 19h 58m 27s"}
+{"loss": 0.14102021, "token_acc": 0.94362205, "grad_norm": 1.22115636, "learning_rate": 6.236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240173, "epoch": 2.10229438, "global_step/max_steps": "27580/65595", "percentage": "42.05%", "elapsed_time": "1d 7h 53m 51s", "remaining_time": "1d 19h 57m 58s"}
+{"loss": 0.07761871, "token_acc": 0.96561814, "grad_norm": 0.69207543, "learning_rate": 6.235e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240183, "epoch": 2.10267551, "global_step/max_steps": "27585/65595", "percentage": "42.05%", "elapsed_time": "1d 7h 54m 7s", "remaining_time": "1d 19h 57m 31s"}
+{"loss": 0.08397802, "token_acc": 0.96586615, "grad_norm": 0.12092329, "learning_rate": 6.234e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240184, "epoch": 2.10305664, "global_step/max_steps": "27590/65595", "percentage": "42.06%", "elapsed_time": "1d 7h 54m 27s", "remaining_time": "1d 19h 57m 9s"}
+{"loss": 0.11129394, "token_acc": 0.95708463, "grad_norm": 0.9724831, "learning_rate": 6.233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240194, "epoch": 2.10343776, "global_step/max_steps": "27595/65595", "percentage": "42.07%", "elapsed_time": "1d 7h 54m 44s", "remaining_time": "1d 19h 56m 42s"}
+{"loss": 0.15161779, "token_acc": 0.95425242, "grad_norm": 1.28410816, "learning_rate": 6.232e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2402, "epoch": 2.10381889, "global_step/max_steps": "27600/65595", "percentage": "42.08%", "elapsed_time": "1d 7h 55m 1s", "remaining_time": "1d 19h 56m 17s"}
+{"eval_loss": 0.08985377, "eval_token_acc": 0.96040148, "eval_runtime": 218.075, "eval_samples_per_second": 2.43, "eval_steps_per_second": 2.43, "epoch": 2.10381889, "global_step/max_steps": "27600/65595", "percentage": "42.08%", "elapsed_time": "1d 7h 58m 39s", "remaining_time": "1d 20h 1m 17s"}
+{"loss": 0.09173313, "token_acc": 0.96067185, "grad_norm": 0.92099679, "learning_rate": 6.231e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239749, "epoch": 2.10420002, "global_step/max_steps": "27605/65595", "percentage": "42.08%", "elapsed_time": "1d 7h 58m 58s", "remaining_time": "1d 20h 0m 54s"}
+{"loss": 0.14252665, "token_acc": 0.94416027, "grad_norm": 1.86603415, "learning_rate": 6.23e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239758, "epoch": 2.10458114, "global_step/max_steps": "27610/65595", "percentage": "42.09%", "elapsed_time": "1d 7h 59m 15s", "remaining_time": "1d 20h 0m 27s"}
+{"loss": 0.07365025, "token_acc": 0.9716729, "grad_norm": 0.6952312, "learning_rate": 6.228e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239769, "epoch": 2.10496227, "global_step/max_steps": "27615/65595", "percentage": "42.10%", "elapsed_time": "1d 7h 59m 31s", "remaining_time": "1d 19h 59m 59s"}
+{"loss": 0.06616742, "token_acc": 0.97537841, "grad_norm": 1.34084392, "learning_rate": 6.227e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239778, "epoch": 2.1053434, "global_step/max_steps": "27620/65595", "percentage": "42.11%", "elapsed_time": "1d 7h 59m 47s", "remaining_time": "1d 19h 59m 32s"}
+{"loss": 0.13647978, "token_acc": 0.94286526, "grad_norm": 2.54617476, "learning_rate": 6.226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239789, "epoch": 2.10572452, "global_step/max_steps": "27625/65595", "percentage": "42.11%", "elapsed_time": "1d 8h 0m 3s", "remaining_time": "1d 19h 59m 4s"}
+{"loss": 0.09014132, "token_acc": 0.96458442, "grad_norm": 0.83389932, "learning_rate": 6.225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239788, "epoch": 2.10610565, "global_step/max_steps": "27630/65595", "percentage": "42.12%", "elapsed_time": "1d 8h 0m 24s", "remaining_time": "1d 19h 58m 44s"}
+{"loss": 0.0574543, "token_acc": 0.97810345, "grad_norm": 0.72580826, "learning_rate": 6.224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239792, "epoch": 2.10648677, "global_step/max_steps": "27635/65595", "percentage": "42.13%", "elapsed_time": "1d 8h 0m 43s", "remaining_time": "1d 19h 58m 20s"}
+{"loss": 0.13936772, "token_acc": 0.94916233, "grad_norm": 0.68924731, "learning_rate": 6.223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239804, "epoch": 2.1068679, "global_step/max_steps": "27640/65595", "percentage": "42.14%", "elapsed_time": "1d 8h 0m 58s", "remaining_time": "1d 19h 57m 52s"}
+{"loss": 0.09958189, "token_acc": 0.96623755, "grad_norm": 1.07937956, "learning_rate": 6.221e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239814, "epoch": 2.10724903, "global_step/max_steps": "27645/65595", "percentage": "42.14%", "elapsed_time": "1d 8h 1m 14s", "remaining_time": "1d 19h 57m 24s"}
+{"loss": 0.10529237, "token_acc": 0.95737016, "grad_norm": 0.95409554, "learning_rate": 6.22e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239821, "epoch": 2.10763015, "global_step/max_steps": "27650/65595", "percentage": "42.15%", "elapsed_time": "1d 8h 1m 32s", "remaining_time": "1d 19h 56m 59s"}
+{"loss": 0.11301352, "token_acc": 0.95072512, "grad_norm": 0.77178484, "learning_rate": 6.219e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239829, "epoch": 2.10801128, "global_step/max_steps": "27655/65595", "percentage": "42.16%", "elapsed_time": "1d 8h 1m 49s", "remaining_time": "1d 19h 56m 33s"}
+{"loss": 0.13061641, "token_acc": 0.94922085, "grad_norm": 1.75963199, "learning_rate": 6.218e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239838, "epoch": 2.10839241, "global_step/max_steps": "27660/65595", "percentage": "42.17%", "elapsed_time": "1d 8h 2m 5s", "remaining_time": "1d 19h 56m 6s"}
+{"loss": 0.07196918, "token_acc": 0.96179966, "grad_norm": 0.85222006, "learning_rate": 6.217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239852, "epoch": 2.10877353, "global_step/max_steps": "27665/65595", "percentage": "42.18%", "elapsed_time": "1d 8h 2m 19s", "remaining_time": "1d 19h 55m 36s"}
+{"loss": 0.11448359, "token_acc": 0.95393032, "grad_norm": 0.75859082, "learning_rate": 6.216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23986, "epoch": 2.10915466, "global_step/max_steps": "27670/65595", "percentage": "42.18%", "elapsed_time": "1d 8h 2m 36s", "remaining_time": "1d 19h 55m 10s"}
+{"loss": 0.11950762, "token_acc": 0.95958084, "grad_norm": 0.84147829, "learning_rate": 6.214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239871, "epoch": 2.10953579, "global_step/max_steps": "27675/65595", "percentage": "42.19%", "elapsed_time": "1d 8h 2m 52s", "remaining_time": "1d 19h 54m 41s"}
+{"loss": 0.13494167, "token_acc": 0.95939005, "grad_norm": 0.46854389, "learning_rate": 6.213e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239877, "epoch": 2.10991691, "global_step/max_steps": "27680/65595", "percentage": "42.20%", "elapsed_time": "1d 8h 3m 10s", "remaining_time": "1d 19h 54m 17s"}
+{"loss": 0.1177839, "token_acc": 0.94631512, "grad_norm": 0.35739294, "learning_rate": 6.212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239888, "epoch": 2.11029804, "global_step/max_steps": "27685/65595", "percentage": "42.21%", "elapsed_time": "1d 8h 3m 25s", "remaining_time": "1d 19h 53m 49s"}
+{"loss": 0.11495099, "token_acc": 0.96271286, "grad_norm": 0.76733357, "learning_rate": 6.211e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239898, "epoch": 2.11067917, "global_step/max_steps": "27690/65595", "percentage": "42.21%", "elapsed_time": "1d 8h 3m 41s", "remaining_time": "1d 19h 53m 21s"}
+{"loss": 0.10626416, "token_acc": 0.96373057, "grad_norm": 0.76921594, "learning_rate": 6.21e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239908, "epoch": 2.11106029, "global_step/max_steps": "27695/65595", "percentage": "42.22%", "elapsed_time": "1d 8h 3m 57s", "remaining_time": "1d 19h 52m 54s"}
+{"loss": 0.1021278, "token_acc": 0.95483193, "grad_norm": 1.24694657, "learning_rate": 6.209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23992, "epoch": 2.11144142, "global_step/max_steps": "27700/65595", "percentage": "42.23%", "elapsed_time": "1d 8h 4m 12s", "remaining_time": "1d 19h 52m 25s"}
+{"loss": 0.11788485, "token_acc": 0.95398086, "grad_norm": 1.23034275, "learning_rate": 6.207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239927, "epoch": 2.11182255, "global_step/max_steps": "27705/65595", "percentage": "42.24%", "elapsed_time": "1d 8h 4m 30s", "remaining_time": "1d 19h 51m 59s"}
+{"loss": 0.07162843, "token_acc": 0.96970634, "grad_norm": 0.76979011, "learning_rate": 6.206e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239939, "epoch": 2.11220367, "global_step/max_steps": "27710/65595", "percentage": "42.24%", "elapsed_time": "1d 8h 4m 45s", "remaining_time": "1d 19h 51m 31s"}
+{"loss": 0.10851017, "token_acc": 0.9597561, "grad_norm": 0.60671836, "learning_rate": 6.205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239954, "epoch": 2.1125848, "global_step/max_steps": "27715/65595", "percentage": "42.25%", "elapsed_time": "1d 8h 4m 59s", "remaining_time": "1d 19h 51m 0s"}
+{"loss": 0.09070445, "token_acc": 0.96876365, "grad_norm": 1.28710365, "learning_rate": 6.204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239964, "epoch": 2.11296593, "global_step/max_steps": "27720/65595", "percentage": "42.26%", "elapsed_time": "1d 8h 5m 15s", "remaining_time": "1d 19h 50m 33s"}
+{"loss": 0.08251258, "token_acc": 0.97016735, "grad_norm": 1.29377353, "learning_rate": 6.203e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239974, "epoch": 2.11334705, "global_step/max_steps": "27725/65595", "percentage": "42.27%", "elapsed_time": "1d 8h 5m 31s", "remaining_time": "1d 19h 50m 5s"}
+{"loss": 0.05402037, "token_acc": 0.97805084, "grad_norm": 0.80376041, "learning_rate": 6.202e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23997, "epoch": 2.11372818, "global_step/max_steps": "27730/65595", "percentage": "42.27%", "elapsed_time": "1d 8h 5m 53s", "remaining_time": "1d 19h 49m 47s"}
+{"loss": 0.10729858, "token_acc": 0.96236559, "grad_norm": 0.97801644, "learning_rate": 6.2e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239979, "epoch": 2.11410931, "global_step/max_steps": "27735/65595", "percentage": "42.28%", "elapsed_time": "1d 8h 6m 10s", "remaining_time": "1d 19h 49m 20s"}
+{"loss": 0.09176487, "token_acc": 0.96473552, "grad_norm": 1.56142616, "learning_rate": 6.199e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239989, "epoch": 2.11449043, "global_step/max_steps": "27740/65595", "percentage": "42.29%", "elapsed_time": "1d 8h 6m 26s", "remaining_time": "1d 19h 48m 53s"}
+{"loss": 0.07042407, "token_acc": 0.97022416, "grad_norm": 0.56907111, "learning_rate": 6.198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240002, "epoch": 2.11487156, "global_step/max_steps": "27745/65595", "percentage": "42.30%", "elapsed_time": "1d 8h 6m 40s", "remaining_time": "1d 19h 48m 23s"}
+{"loss": 0.08511826, "token_acc": 0.96504665, "grad_norm": 0.51933891, "learning_rate": 6.197e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240004, "epoch": 2.11525269, "global_step/max_steps": "27750/65595", "percentage": "42.31%", "elapsed_time": "1d 8h 7m 0s", "remaining_time": "1d 19h 48m 1s"}
+{"loss": 0.08614202, "token_acc": 0.96228478, "grad_norm": 0.57094061, "learning_rate": 6.196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240007, "epoch": 2.11563381, "global_step/max_steps": "27755/65595", "percentage": "42.31%", "elapsed_time": "1d 8h 7m 20s", "remaining_time": "1d 19h 47m 39s"}
+{"loss": 0.08205644, "token_acc": 0.96156147, "grad_norm": 0.92139387, "learning_rate": 6.195e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240009, "epoch": 2.11601494, "global_step/max_steps": "27760/65595", "percentage": "42.32%", "elapsed_time": "1d 8h 7m 39s", "remaining_time": "1d 19h 47m 16s"}
+{"loss": 0.07086115, "token_acc": 0.97239884, "grad_norm": 0.55040157, "learning_rate": 6.193e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240013, "epoch": 2.11639607, "global_step/max_steps": "27765/65595", "percentage": "42.33%", "elapsed_time": "1d 8h 7m 59s", "remaining_time": "1d 19h 46m 53s"}
+{"loss": 0.05852036, "token_acc": 0.97555297, "grad_norm": 0.75853491, "learning_rate": 6.192e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240026, "epoch": 2.11677719, "global_step/max_steps": "27770/65595", "percentage": "42.34%", "elapsed_time": "1d 8h 8m 13s", "remaining_time": "1d 19h 46m 24s"}
+{"loss": 0.10204026, "token_acc": 0.96532237, "grad_norm": 0.7448979, "learning_rate": 6.191e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240035, "epoch": 2.11715832, "global_step/max_steps": "27775/65595", "percentage": "42.34%", "elapsed_time": "1d 8h 8m 30s", "remaining_time": "1d 19h 45m 57s"}
+{"loss": 0.1022621, "token_acc": 0.95388208, "grad_norm": 0.97794271, "learning_rate": 6.19e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240042, "epoch": 2.11753945, "global_step/max_steps": "27780/65595", "percentage": "42.35%", "elapsed_time": "1d 8h 8m 47s", "remaining_time": "1d 19h 45m 31s"}
+{"loss": 0.09320048, "token_acc": 0.96625957, "grad_norm": 1.22421169, "learning_rate": 6.189e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240051, "epoch": 2.11792057, "global_step/max_steps": "27785/65595", "percentage": "42.36%", "elapsed_time": "1d 8h 9m 4s", "remaining_time": "1d 19h 45m 5s"}
+{"loss": 0.06816013, "token_acc": 0.97593725, "grad_norm": 0.95732659, "learning_rate": 6.188e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240055, "epoch": 2.1183017, "global_step/max_steps": "27790/65595", "percentage": "42.37%", "elapsed_time": "1d 8h 9m 23s", "remaining_time": "1d 19h 44m 41s"}
+{"loss": 0.09692508, "token_acc": 0.95505214, "grad_norm": 0.84201562, "learning_rate": 6.187e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240063, "epoch": 2.11868283, "global_step/max_steps": "27795/65595", "percentage": "42.37%", "elapsed_time": "1d 8h 9m 39s", "remaining_time": "1d 19h 44m 15s"}
+{"loss": 0.10330966, "token_acc": 0.96271186, "grad_norm": 1.11648321, "learning_rate": 6.185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240074, "epoch": 2.11906395, "global_step/max_steps": "27800/65595", "percentage": "42.38%", "elapsed_time": "1d 8h 9m 55s", "remaining_time": "1d 19h 43m 47s"}
+{"eval_loss": 0.09001813, "eval_token_acc": 0.96068761, "eval_runtime": 219.1831, "eval_samples_per_second": 2.418, "eval_steps_per_second": 2.418, "epoch": 2.11906395, "global_step/max_steps": "27800/65595", "percentage": "42.38%", "elapsed_time": "1d 8h 13m 34s", "remaining_time": "1d 19h 48m 45s"}
+{"loss": 0.11982957, "token_acc": 0.960459, "grad_norm": 1.57413936, "learning_rate": 6.184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239625, "epoch": 2.11944508, "global_step/max_steps": "27805/65595", "percentage": "42.39%", "elapsed_time": "1d 8h 13m 53s", "remaining_time": "1d 19h 48m 21s"}
+{"loss": 0.107161, "token_acc": 0.96058137, "grad_norm": 0.95267826, "learning_rate": 6.183e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239634, "epoch": 2.11982621, "global_step/max_steps": "27810/65595", "percentage": "42.40%", "elapsed_time": "1d 8h 14m 9s", "remaining_time": "1d 19h 47m 54s"}
+{"loss": 0.14860498, "token_acc": 0.94933706, "grad_norm": 0.53825486, "learning_rate": 6.182e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239638, "epoch": 2.12020733, "global_step/max_steps": "27815/65595", "percentage": "42.40%", "elapsed_time": "1d 8h 14m 28s", "remaining_time": "1d 19h 47m 31s"}
+{"loss": 0.11101962, "token_acc": 0.96057841, "grad_norm": 0.68133557, "learning_rate": 6.181e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239642, "epoch": 2.12058846, "global_step/max_steps": "27820/65595", "percentage": "42.41%", "elapsed_time": "1d 8h 14m 47s", "remaining_time": "1d 19h 47m 7s"}
+{"loss": 0.11362979, "token_acc": 0.95690323, "grad_norm": 0.94278485, "learning_rate": 6.18e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239654, "epoch": 2.12096959, "global_step/max_steps": "27825/65595", "percentage": "42.42%", "elapsed_time": "1d 8h 15m 2s", "remaining_time": "1d 19h 46m 39s"}
+{"loss": 0.10990517, "token_acc": 0.95812808, "grad_norm": 0.84319466, "learning_rate": 6.178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239665, "epoch": 2.12135071, "global_step/max_steps": "27830/65595", "percentage": "42.43%", "elapsed_time": "1d 8h 15m 18s", "remaining_time": "1d 19h 46m 11s"}
+{"loss": 0.13876852, "token_acc": 0.93924303, "grad_norm": 0.80089974, "learning_rate": 6.177e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239677, "epoch": 2.12173184, "global_step/max_steps": "27835/65595", "percentage": "42.43%", "elapsed_time": "1d 8h 15m 33s", "remaining_time": "1d 19h 45m 42s"}
+{"loss": 0.12360445, "token_acc": 0.95146473, "grad_norm": 0.91929215, "learning_rate": 6.176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239683, "epoch": 2.12211297, "global_step/max_steps": "27840/65595", "percentage": "42.44%", "elapsed_time": "1d 8h 15m 51s", "remaining_time": "1d 19h 45m 17s"}
+{"loss": 0.10691942, "token_acc": 0.96137931, "grad_norm": 1.30234563, "learning_rate": 6.175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239689, "epoch": 2.12249409, "global_step/max_steps": "27845/65595", "percentage": "42.45%", "elapsed_time": "1d 8h 16m 9s", "remaining_time": "1d 19h 44m 52s"}
+{"loss": 0.13203841, "token_acc": 0.94698545, "grad_norm": 0.54136157, "learning_rate": 6.174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239697, "epoch": 2.12287522, "global_step/max_steps": "27850/65595", "percentage": "42.46%", "elapsed_time": "1d 8h 16m 26s", "remaining_time": "1d 19h 44m 26s"}
+{"loss": 0.09266903, "token_acc": 0.9646971, "grad_norm": 0.52489805, "learning_rate": 6.173e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239699, "epoch": 2.12325635, "global_step/max_steps": "27855/65595", "percentage": "42.47%", "elapsed_time": "1d 8h 16m 46s", "remaining_time": "1d 19h 44m 4s"}
+{"loss": 0.11054692, "token_acc": 0.95634857, "grad_norm": 1.54101825, "learning_rate": 6.171e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239707, "epoch": 2.12363747, "global_step/max_steps": "27860/65595", "percentage": "42.47%", "elapsed_time": "1d 8h 17m 3s", "remaining_time": "1d 19h 43m 38s"}
+{"loss": 0.06086079, "token_acc": 0.96556943, "grad_norm": 0.87147725, "learning_rate": 6.17e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23972, "epoch": 2.1240186, "global_step/max_steps": "27865/65595", "percentage": "42.48%", "elapsed_time": "1d 8h 17m 17s", "remaining_time": "1d 19h 43m 9s"}
+{"loss": 0.07207357, "token_acc": 0.97372986, "grad_norm": 1.04992747, "learning_rate": 6.169e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239729, "epoch": 2.12439973, "global_step/max_steps": "27870/65595", "percentage": "42.49%", "elapsed_time": "1d 8h 17m 33s", "remaining_time": "1d 19h 42m 42s"}
+{"loss": 0.0769312, "token_acc": 0.96860987, "grad_norm": 0.95084268, "learning_rate": 6.168e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239742, "epoch": 2.12478085, "global_step/max_steps": "27875/65595", "percentage": "42.50%", "elapsed_time": "1d 8h 17m 48s", "remaining_time": "1d 19h 42m 12s"}
+{"loss": 0.0934223, "token_acc": 0.97424366, "grad_norm": 0.70072806, "learning_rate": 6.167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239747, "epoch": 2.12516198, "global_step/max_steps": "27880/65595", "percentage": "42.50%", "elapsed_time": "1d 8h 18m 6s", "remaining_time": "1d 19h 41m 48s"}
+{"loss": 0.07615346, "token_acc": 0.96305157, "grad_norm": 0.76211566, "learning_rate": 6.166e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239758, "epoch": 2.12554311, "global_step/max_steps": "27885/65595", "percentage": "42.51%", "elapsed_time": "1d 8h 18m 22s", "remaining_time": "1d 19h 41m 20s"}
+{"loss": 0.0923768, "token_acc": 0.97101695, "grad_norm": 0.40371916, "learning_rate": 6.164e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239762, "epoch": 2.12592423, "global_step/max_steps": "27890/65595", "percentage": "42.52%", "elapsed_time": "1d 8h 18m 41s", "remaining_time": "1d 19h 40m 57s"}
+{"loss": 0.06853763, "token_acc": 0.96673387, "grad_norm": 0.58791035, "learning_rate": 6.163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239769, "epoch": 2.12630536, "global_step/max_steps": "27895/65595", "percentage": "42.53%", "elapsed_time": "1d 8h 18m 58s", "remaining_time": "1d 19h 40m 31s"}
+{"loss": 0.0879756, "token_acc": 0.96754499, "grad_norm": 1.0007087, "learning_rate": 6.162e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23977, "epoch": 2.12668649, "global_step/max_steps": "27900/65595", "percentage": "42.53%", "elapsed_time": "1d 8h 19m 19s", "remaining_time": "1d 19h 40m 10s"}
+{"loss": 0.09466269, "token_acc": 0.96241901, "grad_norm": 1.73218822, "learning_rate": 6.161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239779, "epoch": 2.12706761, "global_step/max_steps": "27905/65595", "percentage": "42.54%", "elapsed_time": "1d 8h 19m 35s", "remaining_time": "1d 19h 39m 43s"}
+{"loss": 0.06382698, "token_acc": 0.97230827, "grad_norm": 0.57223767, "learning_rate": 6.16e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239778, "epoch": 2.12744874, "global_step/max_steps": "27910/65595", "percentage": "42.55%", "elapsed_time": "1d 8h 19m 57s", "remaining_time": "1d 19h 39m 23s"}
+{"loss": 0.08760012, "token_acc": 0.96286472, "grad_norm": 0.55866736, "learning_rate": 6.159e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239792, "epoch": 2.12782987, "global_step/max_steps": "27915/65595", "percentage": "42.56%", "elapsed_time": "1d 8h 20m 11s", "remaining_time": "1d 19h 38m 53s"}
+{"loss": 0.14738489, "token_acc": 0.95076586, "grad_norm": 0.63196558, "learning_rate": 6.157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239802, "epoch": 2.12821099, "global_step/max_steps": "27920/65595", "percentage": "42.56%", "elapsed_time": "1d 8h 20m 27s", "remaining_time": "1d 19h 38m 25s"}
+{"loss": 0.10440704, "token_acc": 0.9595788, "grad_norm": 0.61592656, "learning_rate": 6.156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239814, "epoch": 2.12859212, "global_step/max_steps": "27925/65595", "percentage": "42.57%", "elapsed_time": "1d 8h 20m 42s", "remaining_time": "1d 19h 37m 57s"}
+{"loss": 0.09945797, "token_acc": 0.96108253, "grad_norm": 1.47952092, "learning_rate": 6.155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239822, "epoch": 2.12897324, "global_step/max_steps": "27930/65595", "percentage": "42.58%", "elapsed_time": "1d 8h 20m 58s", "remaining_time": "1d 19h 37m 30s"}
+{"loss": 0.11859881, "token_acc": 0.93996127, "grad_norm": 1.10406947, "learning_rate": 6.154e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239834, "epoch": 2.12935437, "global_step/max_steps": "27935/65595", "percentage": "42.59%", "elapsed_time": "1d 8h 21m 13s", "remaining_time": "1d 19h 37m 1s"}
+{"loss": 0.06528821, "token_acc": 0.96825863, "grad_norm": 1.09066975, "learning_rate": 6.153e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239838, "epoch": 2.1297355, "global_step/max_steps": "27940/65595", "percentage": "42.59%", "elapsed_time": "1d 8h 21m 33s", "remaining_time": "1d 19h 36m 38s"}
+{"loss": 0.08457621, "token_acc": 0.97039539, "grad_norm": 0.52039438, "learning_rate": 6.152e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239842, "epoch": 2.13011662, "global_step/max_steps": "27945/65595", "percentage": "42.60%", "elapsed_time": "1d 8h 21m 51s", "remaining_time": "1d 19h 36m 15s"}
+{"loss": 0.08070627, "token_acc": 0.96771946, "grad_norm": 0.63313335, "learning_rate": 6.15e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239853, "epoch": 2.13049775, "global_step/max_steps": "27950/65595", "percentage": "42.61%", "elapsed_time": "1d 8h 22m 7s", "remaining_time": "1d 19h 35m 47s"}
+{"loss": 0.10892992, "token_acc": 0.95620915, "grad_norm": 1.38442111, "learning_rate": 6.149e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239869, "epoch": 2.13087888, "global_step/max_steps": "27955/65595", "percentage": "42.62%", "elapsed_time": "1d 8h 22m 20s", "remaining_time": "1d 19h 35m 16s"}
+{"loss": 0.10075086, "token_acc": 0.96433514, "grad_norm": 0.45788798, "learning_rate": 6.148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23987, "epoch": 2.13126, "global_step/max_steps": "27960/65595", "percentage": "42.63%", "elapsed_time": "1d 8h 22m 40s", "remaining_time": "1d 19h 34m 54s"}
+{"loss": 0.10212352, "token_acc": 0.96054351, "grad_norm": 0.65346497, "learning_rate": 6.147e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239881, "epoch": 2.13164113, "global_step/max_steps": "27965/65595", "percentage": "42.63%", "elapsed_time": "1d 8h 22m 56s", "remaining_time": "1d 19h 34m 26s"}
+{"loss": 0.13966666, "token_acc": 0.92758089, "grad_norm": 0.91864413, "learning_rate": 6.146e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23989, "epoch": 2.13202226, "global_step/max_steps": "27970/65595", "percentage": "42.64%", "elapsed_time": "1d 8h 23m 12s", "remaining_time": "1d 19h 33m 59s"}
+{"loss": 0.10935758, "token_acc": 0.96745562, "grad_norm": 0.70168877, "learning_rate": 6.145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239903, "epoch": 2.13240338, "global_step/max_steps": "27975/65595", "percentage": "42.65%", "elapsed_time": "1d 8h 23m 27s", "remaining_time": "1d 19h 33m 30s"}
+{"loss": 0.05607489, "token_acc": 0.97663393, "grad_norm": 0.5596987, "learning_rate": 6.143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239903, "epoch": 2.13278451, "global_step/max_steps": "27980/65595", "percentage": "42.66%", "elapsed_time": "1d 8h 23m 48s", "remaining_time": "1d 19h 33m 9s"}
+{"loss": 0.10587786, "token_acc": 0.96305626, "grad_norm": 0.73665494, "learning_rate": 6.142e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239908, "epoch": 2.13316564, "global_step/max_steps": "27985/65595", "percentage": "42.66%", "elapsed_time": "1d 8h 24m 6s", "remaining_time": "1d 19h 32m 45s"}
+{"loss": 0.13984909, "token_acc": 0.95389897, "grad_norm": 1.64028597, "learning_rate": 6.141e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239921, "epoch": 2.13354676, "global_step/max_steps": "27990/65595", "percentage": "42.67%", "elapsed_time": "1d 8h 24m 20s", "remaining_time": "1d 19h 32m 15s"}
+{"loss": 0.08926235, "token_acc": 0.96069748, "grad_norm": 0.65409327, "learning_rate": 6.14e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239933, "epoch": 2.13392789, "global_step/max_steps": "27995/65595", "percentage": "42.68%", "elapsed_time": "1d 8h 24m 36s", "remaining_time": "1d 19h 31m 47s"}
+{"loss": 0.12113819, "token_acc": 0.95327796, "grad_norm": 0.52143264, "learning_rate": 6.139e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23994, "epoch": 2.13430902, "global_step/max_steps": "28000/65595", "percentage": "42.69%", "elapsed_time": "1d 8h 24m 53s", "remaining_time": "1d 19h 31m 21s"}
+{"eval_loss": 0.08993553, "eval_token_acc": 0.96031866, "eval_runtime": 222.3948, "eval_samples_per_second": 2.383, "eval_steps_per_second": 2.383, "epoch": 2.13430902, "global_step/max_steps": "28000/65595", "percentage": "42.69%", "elapsed_time": "1d 8h 28m 35s", "remaining_time": "1d 19h 36m 20s"}
+{"loss": 0.07744794, "token_acc": 0.96040962, "grad_norm": 0.70314103, "learning_rate": 6.138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239489, "epoch": 2.13469014, "global_step/max_steps": "28005/65595", "percentage": "42.69%", "elapsed_time": "1d 8h 28m 54s", "remaining_time": "1d 19h 35m 56s"}
+{"loss": 0.09381205, "token_acc": 0.96944444, "grad_norm": 0.94395012, "learning_rate": 6.136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239492, "epoch": 2.13507127, "global_step/max_steps": "28010/65595", "percentage": "42.70%", "elapsed_time": "1d 8h 29m 13s", "remaining_time": "1d 19h 35m 33s"}
+{"loss": 0.08376663, "token_acc": 0.96687933, "grad_norm": 1.01977754, "learning_rate": 6.135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239494, "epoch": 2.1354524, "global_step/max_steps": "28015/65595", "percentage": "42.71%", "elapsed_time": "1d 8h 29m 33s", "remaining_time": "1d 19h 35m 11s"}
+{"loss": 0.12731715, "token_acc": 0.95781089, "grad_norm": 0.66093427, "learning_rate": 6.134e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239494, "epoch": 2.13583352, "global_step/max_steps": "28020/65595", "percentage": "42.72%", "elapsed_time": "1d 8h 29m 54s", "remaining_time": "1d 19h 34m 50s"}
+{"loss": 0.11257238, "token_acc": 0.95918016, "grad_norm": 1.16652238, "learning_rate": 6.133e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239501, "epoch": 2.13621465, "global_step/max_steps": "28025/65595", "percentage": "42.72%", "elapsed_time": "1d 8h 30m 11s", "remaining_time": "1d 19h 34m 24s"}
+{"loss": 0.053588, "token_acc": 0.97855325, "grad_norm": 1.13405061, "learning_rate": 6.132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239514, "epoch": 2.13659578, "global_step/max_steps": "28030/65595", "percentage": "42.73%", "elapsed_time": "1d 8h 30m 26s", "remaining_time": "1d 19h 33m 55s"}
+{"loss": 0.13592767, "token_acc": 0.94431861, "grad_norm": 0.79527116, "learning_rate": 6.131e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239522, "epoch": 2.1369769, "global_step/max_steps": "28035/65595", "percentage": "42.74%", "elapsed_time": "1d 8h 30m 43s", "remaining_time": "1d 19h 33m 29s"}
+{"loss": 0.10717002, "token_acc": 0.96043656, "grad_norm": 0.91830337, "learning_rate": 6.129e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239527, "epoch": 2.13735803, "global_step/max_steps": "28040/65595", "percentage": "42.75%", "elapsed_time": "1d 8h 31m 1s", "remaining_time": "1d 19h 33m 5s"}
+{"loss": 0.08610897, "token_acc": 0.96905444, "grad_norm": 1.85070527, "learning_rate": 6.128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239541, "epoch": 2.13773916, "global_step/max_steps": "28045/65595", "percentage": "42.75%", "elapsed_time": "1d 8h 31m 15s", "remaining_time": "1d 19h 32m 35s"}
+{"loss": 0.09622471, "token_acc": 0.96745763, "grad_norm": 1.48408103, "learning_rate": 6.127e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239547, "epoch": 2.13812028, "global_step/max_steps": "28050/65595", "percentage": "42.76%", "elapsed_time": "1d 8h 31m 33s", "remaining_time": "1d 19h 32m 10s"}
+{"loss": 0.10969299, "token_acc": 0.97085918, "grad_norm": 1.10610509, "learning_rate": 6.126e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239553, "epoch": 2.13850141, "global_step/max_steps": "28055/65595", "percentage": "42.77%", "elapsed_time": "1d 8h 31m 51s", "remaining_time": "1d 19h 31m 45s"}
+{"loss": 0.11918031, "token_acc": 0.94859378, "grad_norm": 1.04330182, "learning_rate": 6.125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239562, "epoch": 2.13888254, "global_step/max_steps": "28060/65595", "percentage": "42.78%", "elapsed_time": "1d 8h 32m 8s", "remaining_time": "1d 19h 31m 18s"}
+{"loss": 0.12598009, "token_acc": 0.96453722, "grad_norm": 0.5080896, "learning_rate": 6.124e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239573, "epoch": 2.13926366, "global_step/max_steps": "28065/65595", "percentage": "42.79%", "elapsed_time": "1d 8h 32m 23s", "remaining_time": "1d 19h 30m 50s"}
+{"loss": 0.09826524, "token_acc": 0.96533302, "grad_norm": 0.77101505, "learning_rate": 6.122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239572, "epoch": 2.13964479, "global_step/max_steps": "28070/65595", "percentage": "42.79%", "elapsed_time": "1d 8h 32m 45s", "remaining_time": "1d 19h 30m 30s"}
+{"loss": 0.10576131, "token_acc": 0.95665748, "grad_norm": 0.65382439, "learning_rate": 6.121e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23958, "epoch": 2.14002592, "global_step/max_steps": "28075/65595", "percentage": "42.80%", "elapsed_time": "1d 8h 33m 2s", "remaining_time": "1d 19h 30m 4s"}
+{"loss": 0.09150153, "token_acc": 0.95968992, "grad_norm": 0.64896381, "learning_rate": 6.12e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239592, "epoch": 2.14040704, "global_step/max_steps": "28080/65595", "percentage": "42.81%", "elapsed_time": "1d 8h 33m 16s", "remaining_time": "1d 19h 29m 35s"}
+{"loss": 0.09272822, "token_acc": 0.96019793, "grad_norm": 0.70965558, "learning_rate": 6.119e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239599, "epoch": 2.14078817, "global_step/max_steps": "28085/65595", "percentage": "42.82%", "elapsed_time": "1d 8h 33m 34s", "remaining_time": "1d 19h 29m 10s"}
+{"loss": 0.07790008, "token_acc": 0.96728625, "grad_norm": 0.28069791, "learning_rate": 6.118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239612, "epoch": 2.1411693, "global_step/max_steps": "28090/65595", "percentage": "42.82%", "elapsed_time": "1d 8h 33m 48s", "remaining_time": "1d 19h 28m 40s"}
+{"loss": 0.12521137, "token_acc": 0.95252525, "grad_norm": 1.62211466, "learning_rate": 6.117e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239621, "epoch": 2.14155042, "global_step/max_steps": "28095/65595", "percentage": "42.83%", "elapsed_time": "1d 8h 34m 5s", "remaining_time": "1d 19h 28m 14s"}
+{"loss": 0.09359398, "token_acc": 0.96559378, "grad_norm": 0.66193056, "learning_rate": 6.115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239625, "epoch": 2.14193155, "global_step/max_steps": "28100/65595", "percentage": "42.84%", "elapsed_time": "1d 8h 34m 24s", "remaining_time": "1d 19h 27m 50s"}
+{"loss": 0.08729241, "token_acc": 0.95523329, "grad_norm": 0.10282049, "learning_rate": 6.114e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239635, "epoch": 2.14231268, "global_step/max_steps": "28105/65595", "percentage": "42.85%", "elapsed_time": "1d 8h 34m 40s", "remaining_time": "1d 19h 27m 23s"}
+{"loss": 0.07913691, "token_acc": 0.97139108, "grad_norm": 1.06922662, "learning_rate": 6.113e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239644, "epoch": 2.1426938, "global_step/max_steps": "28110/65595", "percentage": "42.85%", "elapsed_time": "1d 8h 34m 56s", "remaining_time": "1d 19h 26m 56s"}
+{"loss": 0.09348658, "token_acc": 0.96032787, "grad_norm": 0.81484544, "learning_rate": 6.112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239649, "epoch": 2.14307493, "global_step/max_steps": "28115/65595", "percentage": "42.86%", "elapsed_time": "1d 8h 35m 15s", "remaining_time": "1d 19h 26m 32s"}
+{"loss": 0.10335944, "token_acc": 0.95394737, "grad_norm": 0.54770243, "learning_rate": 6.111e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239656, "epoch": 2.14345606, "global_step/max_steps": "28120/65595", "percentage": "42.87%", "elapsed_time": "1d 8h 35m 32s", "remaining_time": "1d 19h 26m 7s"}
+{"loss": 0.07049183, "token_acc": 0.97190025, "grad_norm": 0.87762958, "learning_rate": 6.11e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239666, "epoch": 2.14383718, "global_step/max_steps": "28125/65595", "percentage": "42.88%", "elapsed_time": "1d 8h 35m 48s", "remaining_time": "1d 19h 25m 39s"}
+{"loss": 0.11943041, "token_acc": 0.94564379, "grad_norm": 1.37337375, "learning_rate": 6.108e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239679, "epoch": 2.14421831, "global_step/max_steps": "28130/65595", "percentage": "42.88%", "elapsed_time": "1d 8h 36m 3s", "remaining_time": "1d 19h 25m 10s"}
+{"loss": 0.11741838, "token_acc": 0.95463659, "grad_norm": 0.67640293, "learning_rate": 6.107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239689, "epoch": 2.14459944, "global_step/max_steps": "28135/65595", "percentage": "42.89%", "elapsed_time": "1d 8h 36m 19s", "remaining_time": "1d 19h 24m 42s"}
+{"loss": 0.08556505, "token_acc": 0.96085409, "grad_norm": 0.88783288, "learning_rate": 6.106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239702, "epoch": 2.14498056, "global_step/max_steps": "28140/65595", "percentage": "42.90%", "elapsed_time": "1d 8h 36m 33s", "remaining_time": "1d 19h 24m 13s"}
+{"loss": 0.08544303, "token_acc": 0.96589503, "grad_norm": 1.11511588, "learning_rate": 6.105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239708, "epoch": 2.14536169, "global_step/max_steps": "28145/65595", "percentage": "42.91%", "elapsed_time": "1d 8h 36m 51s", "remaining_time": "1d 19h 23m 48s"}
+{"loss": 0.075817, "token_acc": 0.96945137, "grad_norm": 0.70384383, "learning_rate": 6.104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239711, "epoch": 2.14574282, "global_step/max_steps": "28150/65595", "percentage": "42.91%", "elapsed_time": "1d 8h 37m 11s", "remaining_time": "1d 19h 23m 26s"}
+{"loss": 0.12285703, "token_acc": 0.9494547, "grad_norm": 0.71549731, "learning_rate": 6.103e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239717, "epoch": 2.14612394, "global_step/max_steps": "28155/65595", "percentage": "42.92%", "elapsed_time": "1d 8h 37m 28s", "remaining_time": "1d 19h 23m 1s"}
+{"loss": 0.08536693, "token_acc": 0.96137931, "grad_norm": 0.83725655, "learning_rate": 6.101e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239727, "epoch": 2.14650507, "global_step/max_steps": "28160/65595", "percentage": "42.93%", "elapsed_time": "1d 8h 37m 44s", "remaining_time": "1d 19h 22m 33s"}
+{"loss": 0.07424388, "token_acc": 0.97300469, "grad_norm": 1.06791854, "learning_rate": 6.1e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239733, "epoch": 2.1468862, "global_step/max_steps": "28165/65595", "percentage": "42.94%", "elapsed_time": "1d 8h 38m 2s", "remaining_time": "1d 19h 22m 8s"}
+{"loss": 0.11934047, "token_acc": 0.96326416, "grad_norm": 0.42938724, "learning_rate": 6.099e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239739, "epoch": 2.14726732, "global_step/max_steps": "28170/65595", "percentage": "42.95%", "elapsed_time": "1d 8h 38m 20s", "remaining_time": "1d 19h 21m 44s"}
+{"loss": 0.11800201, "token_acc": 0.95516304, "grad_norm": 0.98470742, "learning_rate": 6.098e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239748, "epoch": 2.14764845, "global_step/max_steps": "28175/65595", "percentage": "42.95%", "elapsed_time": "1d 8h 38m 36s", "remaining_time": "1d 19h 21m 17s"}
+{"loss": 0.07804282, "token_acc": 0.96717724, "grad_norm": 0.66626602, "learning_rate": 6.097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239759, "epoch": 2.14802958, "global_step/max_steps": "28180/65595", "percentage": "42.96%", "elapsed_time": "1d 8h 38m 52s", "remaining_time": "1d 19h 20m 49s"}
+{"loss": 0.11857232, "token_acc": 0.95053915, "grad_norm": 0.80778033, "learning_rate": 6.096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239769, "epoch": 2.1484107, "global_step/max_steps": "28185/65595", "percentage": "42.97%", "elapsed_time": "1d 8h 39m 8s", "remaining_time": "1d 19h 20m 22s"}
+{"loss": 0.09026945, "token_acc": 0.96858256, "grad_norm": 0.63767487, "learning_rate": 6.094e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23978, "epoch": 2.14879183, "global_step/max_steps": "28190/65595", "percentage": "42.98%", "elapsed_time": "1d 8h 39m 23s", "remaining_time": "1d 19h 19m 53s"}
+{"loss": 0.11450527, "token_acc": 0.94894329, "grad_norm": 1.46877503, "learning_rate": 6.093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239788, "epoch": 2.14917296, "global_step/max_steps": "28195/65595", "percentage": "42.98%", "elapsed_time": "1d 8h 39m 40s", "remaining_time": "1d 19h 19m 27s"}
+{"loss": 0.09341561, "token_acc": 0.95527893, "grad_norm": 1.10597169, "learning_rate": 6.092e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239798, "epoch": 2.14955408, "global_step/max_steps": "28200/65595", "percentage": "42.99%", "elapsed_time": "1d 8h 39m 56s", "remaining_time": "1d 19h 19m 0s"}
+{"eval_loss": 0.09128241, "eval_token_acc": 0.96089091, "eval_runtime": 221.699, "eval_samples_per_second": 2.391, "eval_steps_per_second": 2.391, "epoch": 2.14955408, "global_step/max_steps": "28200/65595", "percentage": "42.99%", "elapsed_time": "1d 8h 43m 38s", "remaining_time": "1d 19h 23m 54s"}
+{"loss": 0.06801459, "token_acc": 0.96162014, "grad_norm": 0.7577377, "learning_rate": 6.091e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239347, "epoch": 2.14993521, "global_step/max_steps": "28205/65595", "percentage": "43.00%", "elapsed_time": "1d 8h 43m 59s", "remaining_time": "1d 19h 23m 33s"}
+{"loss": 0.10775551, "token_acc": 0.95972927, "grad_norm": 1.17479086, "learning_rate": 6.09e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239349, "epoch": 2.15031634, "global_step/max_steps": "28210/65595", "percentage": "43.01%", "elapsed_time": "1d 8h 44m 18s", "remaining_time": "1d 19h 23m 11s"}
+{"loss": 0.08467478, "token_acc": 0.96268185, "grad_norm": 1.0233916, "learning_rate": 6.089e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239357, "epoch": 2.15069746, "global_step/max_steps": "28215/65595", "percentage": "43.01%", "elapsed_time": "1d 8h 44m 35s", "remaining_time": "1d 19h 22m 45s"}
+{"loss": 0.07792734, "token_acc": 0.96408669, "grad_norm": 1.02693093, "learning_rate": 6.087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23937, "epoch": 2.15107859, "global_step/max_steps": "28220/65595", "percentage": "43.02%", "elapsed_time": "1d 8h 44m 50s", "remaining_time": "1d 19h 22m 15s"}
+{"loss": 0.15043263, "token_acc": 0.944588, "grad_norm": 1.71930063, "learning_rate": 6.086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239383, "epoch": 2.15145971, "global_step/max_steps": "28225/65595", "percentage": "43.03%", "elapsed_time": "1d 8h 45m 5s", "remaining_time": "1d 19h 21m 46s"}
+{"loss": 0.07715825, "token_acc": 0.97223316, "grad_norm": 1.31760716, "learning_rate": 6.085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239389, "epoch": 2.15184084, "global_step/max_steps": "28230/65595", "percentage": "43.04%", "elapsed_time": "1d 8h 45m 22s", "remaining_time": "1d 19h 21m 21s"}
+{"loss": 0.11801429, "token_acc": 0.95483142, "grad_norm": 1.29179692, "learning_rate": 6.084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239396, "epoch": 2.15222197, "global_step/max_steps": "28235/65595", "percentage": "43.04%", "elapsed_time": "1d 8h 45m 40s", "remaining_time": "1d 19h 20m 56s"}
+{"loss": 0.10642968, "token_acc": 0.95772844, "grad_norm": 1.27172637, "learning_rate": 6.083e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239408, "epoch": 2.15260309, "global_step/max_steps": "28240/65595", "percentage": "43.05%", "elapsed_time": "1d 8h 45m 55s", "remaining_time": "1d 19h 20m 27s"}
+{"loss": 0.06001256, "token_acc": 0.96562767, "grad_norm": 0.49032965, "learning_rate": 6.082e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239418, "epoch": 2.15298422, "global_step/max_steps": "28245/65595", "percentage": "43.06%", "elapsed_time": "1d 8h 46m 11s", "remaining_time": "1d 19h 20m 0s"}
+{"loss": 0.11291947, "token_acc": 0.96403873, "grad_norm": 0.96992832, "learning_rate": 6.08e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239427, "epoch": 2.15336535, "global_step/max_steps": "28250/65595", "percentage": "43.07%", "elapsed_time": "1d 8h 46m 27s", "remaining_time": "1d 19h 19m 33s"}
+{"loss": 0.09559043, "token_acc": 0.96429344, "grad_norm": 0.80263889, "learning_rate": 6.079e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239434, "epoch": 2.15374647, "global_step/max_steps": "28255/65595", "percentage": "43.07%", "elapsed_time": "1d 8h 46m 45s", "remaining_time": "1d 19h 19m 7s"}
+{"loss": 0.08909776, "token_acc": 0.97152055, "grad_norm": 0.06248077, "learning_rate": 6.078e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239444, "epoch": 2.1541276, "global_step/max_steps": "28260/65595", "percentage": "43.08%", "elapsed_time": "1d 8h 47m 1s", "remaining_time": "1d 19h 18m 40s"}
+{"loss": 0.10180674, "token_acc": 0.96066253, "grad_norm": 1.3593967, "learning_rate": 6.077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239455, "epoch": 2.15450873, "global_step/max_steps": "28265/65595", "percentage": "43.09%", "elapsed_time": "1d 8h 47m 16s", "remaining_time": "1d 19h 18m 12s"}
+{"loss": 0.09159738, "token_acc": 0.9675656, "grad_norm": 1.26933634, "learning_rate": 6.076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23946, "epoch": 2.15488985, "global_step/max_steps": "28270/65595", "percentage": "43.10%", "elapsed_time": "1d 8h 47m 34s", "remaining_time": "1d 19h 17m 48s"}
+{"loss": 0.10791507, "token_acc": 0.96391697, "grad_norm": 0.46971712, "learning_rate": 6.075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239465, "epoch": 2.15527098, "global_step/max_steps": "28275/65595", "percentage": "43.11%", "elapsed_time": "1d 8h 47m 53s", "remaining_time": "1d 19h 17m 24s"}
+{"loss": 0.08581749, "token_acc": 0.96057767, "grad_norm": 1.85696125, "learning_rate": 6.073e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239477, "epoch": 2.15565211, "global_step/max_steps": "28280/65595", "percentage": "43.11%", "elapsed_time": "1d 8h 48m 8s", "remaining_time": "1d 19h 16m 55s"}
+{"loss": 0.07598314, "token_acc": 0.9648289, "grad_norm": 0.01911506, "learning_rate": 6.072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239489, "epoch": 2.15603323, "global_step/max_steps": "28285/65595", "percentage": "43.12%", "elapsed_time": "1d 8h 48m 23s", "remaining_time": "1d 19h 16m 27s"}
+{"loss": 0.09754187, "token_acc": 0.96246567, "grad_norm": 0.86874533, "learning_rate": 6.071e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2395, "epoch": 2.15641436, "global_step/max_steps": "28290/65595", "percentage": "43.13%", "elapsed_time": "1d 8h 48m 38s", "remaining_time": "1d 19h 15m 59s"}
+{"loss": 0.09486403, "token_acc": 0.96318212, "grad_norm": 0.84591341, "learning_rate": 6.07e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239508, "epoch": 2.15679549, "global_step/max_steps": "28295/65595", "percentage": "43.14%", "elapsed_time": "1d 8h 48m 55s", "remaining_time": "1d 19h 15m 33s"}
+{"loss": 0.10098495, "token_acc": 0.95805169, "grad_norm": 0.83991778, "learning_rate": 6.069e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239516, "epoch": 2.15717661, "global_step/max_steps": "28300/65595", "percentage": "43.14%", "elapsed_time": "1d 8h 49m 12s", "remaining_time": "1d 19h 15m 7s"}
+{"loss": 0.09494793, "token_acc": 0.96672, "grad_norm": 1.87320983, "learning_rate": 6.068e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239516, "epoch": 2.15755774, "global_step/max_steps": "28305/65595", "percentage": "43.15%", "elapsed_time": "1d 8h 49m 33s", "remaining_time": "1d 19h 14m 46s"}
+{"loss": 0.08942804, "token_acc": 0.96415715, "grad_norm": 0.4535543, "learning_rate": 6.066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239524, "epoch": 2.15793887, "global_step/max_steps": "28310/65595", "percentage": "43.16%", "elapsed_time": "1d 8h 49m 50s", "remaining_time": "1d 19h 14m 19s"}
+{"loss": 0.10198326, "token_acc": 0.96062872, "grad_norm": 0.84093529, "learning_rate": 6.065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239531, "epoch": 2.15831999, "global_step/max_steps": "28315/65595", "percentage": "43.17%", "elapsed_time": "1d 8h 50m 8s", "remaining_time": "1d 19h 13m 54s"}
+{"loss": 0.11072191, "token_acc": 0.95536469, "grad_norm": 0.83754712, "learning_rate": 6.064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239538, "epoch": 2.15870112, "global_step/max_steps": "28320/65595", "percentage": "43.17%", "elapsed_time": "1d 8h 50m 25s", "remaining_time": "1d 19h 13m 29s"}
+{"loss": 0.11358969, "token_acc": 0.95373878, "grad_norm": 1.21940172, "learning_rate": 6.063e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239546, "epoch": 2.15908225, "global_step/max_steps": "28325/65595", "percentage": "43.18%", "elapsed_time": "1d 8h 50m 42s", "remaining_time": "1d 19h 13m 3s"}
+{"loss": 0.1033682, "token_acc": 0.9537797, "grad_norm": 1.46123648, "learning_rate": 6.062e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239556, "epoch": 2.15946337, "global_step/max_steps": "28330/65595", "percentage": "43.19%", "elapsed_time": "1d 8h 50m 58s", "remaining_time": "1d 19h 12m 35s"}
+{"loss": 0.07791874, "token_acc": 0.96783749, "grad_norm": 1.10585439, "learning_rate": 6.061e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239568, "epoch": 2.1598445, "global_step/max_steps": "28335/65595", "percentage": "43.20%", "elapsed_time": "1d 8h 51m 13s", "remaining_time": "1d 19h 12m 6s"}
+{"loss": 0.08736817, "token_acc": 0.96532679, "grad_norm": 0.45130998, "learning_rate": 6.059e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239578, "epoch": 2.16022563, "global_step/max_steps": "28340/65595", "percentage": "43.20%", "elapsed_time": "1d 8h 51m 29s", "remaining_time": "1d 19h 11m 39s"}
+{"loss": 0.08914543, "token_acc": 0.95896226, "grad_norm": 1.24648464, "learning_rate": 6.058e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239589, "epoch": 2.16060675, "global_step/max_steps": "28345/65595", "percentage": "43.21%", "elapsed_time": "1d 8h 51m 44s", "remaining_time": "1d 19h 11m 11s"}
+{"loss": 0.09838126, "token_acc": 0.95868704, "grad_norm": 0.77843773, "learning_rate": 6.057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239597, "epoch": 2.16098788, "global_step/max_steps": "28350/65595", "percentage": "43.22%", "elapsed_time": "1d 8h 52m 1s", "remaining_time": "1d 19h 10m 45s"}
+{"loss": 0.08941572, "token_acc": 0.96608172, "grad_norm": 0.65387315, "learning_rate": 6.056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239599, "epoch": 2.16136901, "global_step/max_steps": "28355/65595", "percentage": "43.23%", "elapsed_time": "1d 8h 52m 21s", "remaining_time": "1d 19h 10m 23s"}
+{"loss": 0.08159719, "token_acc": 0.96879536, "grad_norm": 0.9794333, "learning_rate": 6.055e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239601, "epoch": 2.16175013, "global_step/max_steps": "28360/65595", "percentage": "43.24%", "elapsed_time": "1d 8h 52m 41s", "remaining_time": "1d 19h 10m 1s"}
+{"loss": 0.07450067, "token_acc": 0.97048458, "grad_norm": 0.53218681, "learning_rate": 6.053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23961, "epoch": 2.16213126, "global_step/max_steps": "28365/65595", "percentage": "43.24%", "elapsed_time": "1d 8h 52m 57s", "remaining_time": "1d 19h 9m 34s"}
+{"loss": 0.10071869, "token_acc": 0.96292335, "grad_norm": 1.21302128, "learning_rate": 6.052e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239624, "epoch": 2.16251239, "global_step/max_steps": "28370/65595", "percentage": "43.25%", "elapsed_time": "1d 8h 53m 11s", "remaining_time": "1d 19h 9m 4s"}
+{"loss": 0.08311925, "token_acc": 0.96710183, "grad_norm": 1.26061642, "learning_rate": 6.051e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239633, "epoch": 2.16289351, "global_step/max_steps": "28375/65595", "percentage": "43.26%", "elapsed_time": "1d 8h 53m 28s", "remaining_time": "1d 19h 8m 38s"}
+{"loss": 0.08966318, "token_acc": 0.968646, "grad_norm": 0.6260547, "learning_rate": 6.05e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239638, "epoch": 2.16327464, "global_step/max_steps": "28380/65595", "percentage": "43.27%", "elapsed_time": "1d 8h 53m 46s", "remaining_time": "1d 19h 8m 13s"}
+{"loss": 0.11280975, "token_acc": 0.95667566, "grad_norm": 1.04394436, "learning_rate": 6.049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239644, "epoch": 2.16365577, "global_step/max_steps": "28385/65595", "percentage": "43.27%", "elapsed_time": "1d 8h 54m 4s", "remaining_time": "1d 19h 7m 49s"}
+{"loss": 0.15094382, "token_acc": 0.94697856, "grad_norm": 1.17396665, "learning_rate": 6.048e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239652, "epoch": 2.16403689, "global_step/max_steps": "28390/65595", "percentage": "43.28%", "elapsed_time": "1d 8h 54m 21s", "remaining_time": "1d 19h 7m 23s"}
+{"loss": 0.0605264, "token_acc": 0.97547684, "grad_norm": 1.41368628, "learning_rate": 6.046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239666, "epoch": 2.16441802, "global_step/max_steps": "28395/65595", "percentage": "43.29%", "elapsed_time": "1d 8h 54m 35s", "remaining_time": "1d 19h 6m 52s"}
+{"loss": 0.16161168, "token_acc": 0.95257854, "grad_norm": 0.641155, "learning_rate": 6.045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239671, "epoch": 2.16479915, "global_step/max_steps": "28400/65595", "percentage": "43.30%", "elapsed_time": "1d 8h 54m 53s", "remaining_time": "1d 19h 6m 28s"}
+{"eval_loss": 0.08840745, "eval_token_acc": 0.96150081, "eval_runtime": 221.1479, "eval_samples_per_second": 2.397, "eval_steps_per_second": 2.397, "epoch": 2.16479915, "global_step/max_steps": "28400/65595", "percentage": "43.30%", "elapsed_time": "1d 8h 58m 34s", "remaining_time": "1d 19h 11m 18s"}
+{"loss": 0.13469888, "token_acc": 0.96105435, "grad_norm": 0.7650736, "learning_rate": 6.044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239231, "epoch": 2.16518027, "global_step/max_steps": "28405/65595", "percentage": "43.30%", "elapsed_time": "1d 8h 58m 52s", "remaining_time": "1d 19h 10m 53s"}
+{"loss": 0.07637932, "token_acc": 0.97655602, "grad_norm": 0.67481273, "learning_rate": 6.043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239237, "epoch": 2.1655614, "global_step/max_steps": "28410/65595", "percentage": "43.31%", "elapsed_time": "1d 8h 59m 10s", "remaining_time": "1d 19h 10m 28s"}
+{"loss": 0.08393946, "token_acc": 0.96940727, "grad_norm": 0.63563269, "learning_rate": 6.042e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239249, "epoch": 2.16594253, "global_step/max_steps": "28415/65595", "percentage": "43.32%", "elapsed_time": "1d 8h 59m 25s", "remaining_time": "1d 19h 10m 0s"}
+{"loss": 0.09353144, "token_acc": 0.95829583, "grad_norm": 0.97638577, "learning_rate": 6.041e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239258, "epoch": 2.16632365, "global_step/max_steps": "28420/65595", "percentage": "43.33%", "elapsed_time": "1d 8h 59m 41s", "remaining_time": "1d 19h 9m 33s"}
+{"loss": 0.08541704, "token_acc": 0.95678366, "grad_norm": 1.26826143, "learning_rate": 6.039e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239268, "epoch": 2.16670478, "global_step/max_steps": "28425/65595", "percentage": "43.33%", "elapsed_time": "1d 8h 59m 57s", "remaining_time": "1d 19h 9m 5s"}
+{"loss": 0.04326063, "token_acc": 0.97419106, "grad_norm": 1.09496653, "learning_rate": 6.038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239279, "epoch": 2.16708591, "global_step/max_steps": "28430/65595", "percentage": "43.34%", "elapsed_time": "1d 9h 0m 13s", "remaining_time": "1d 19h 8m 38s"}
+{"loss": 0.06323828, "token_acc": 0.98130054, "grad_norm": 0.60817099, "learning_rate": 6.037e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239284, "epoch": 2.16746703, "global_step/max_steps": "28435/65595", "percentage": "43.35%", "elapsed_time": "1d 9h 0m 31s", "remaining_time": "1d 19h 8m 13s"}
+{"loss": 0.10040632, "token_acc": 0.94934053, "grad_norm": 1.160761, "learning_rate": 6.036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239296, "epoch": 2.16784816, "global_step/max_steps": "28440/65595", "percentage": "43.36%", "elapsed_time": "1d 9h 0m 46s", "remaining_time": "1d 19h 7m 45s"}
+{"loss": 0.08583697, "token_acc": 0.96066135, "grad_norm": 1.80139863, "learning_rate": 6.035e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239307, "epoch": 2.16822929, "global_step/max_steps": "28445/65595", "percentage": "43.36%", "elapsed_time": "1d 9h 1m 2s", "remaining_time": "1d 19h 7m 17s"}
+{"loss": 0.13214806, "token_acc": 0.95000781, "grad_norm": 1.54384375, "learning_rate": 6.034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239313, "epoch": 2.16861041, "global_step/max_steps": "28450/65595", "percentage": "43.37%", "elapsed_time": "1d 9h 1m 19s", "remaining_time": "1d 19h 6m 52s"}
+{"loss": 0.11759433, "token_acc": 0.95870206, "grad_norm": 1.00194252, "learning_rate": 6.032e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239321, "epoch": 2.16899154, "global_step/max_steps": "28455/65595", "percentage": "43.38%", "elapsed_time": "1d 9h 1m 36s", "remaining_time": "1d 19h 6m 26s"}
+{"loss": 0.0975063, "token_acc": 0.9533404, "grad_norm": 1.57245719, "learning_rate": 6.031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239335, "epoch": 2.16937267, "global_step/max_steps": "28460/65595", "percentage": "43.39%", "elapsed_time": "1d 9h 1m 50s", "remaining_time": "1d 19h 5m 56s"}
+{"loss": 0.09577388, "token_acc": 0.95529347, "grad_norm": 0.75649029, "learning_rate": 6.03e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239346, "epoch": 2.16975379, "global_step/max_steps": "28465/65595", "percentage": "43.40%", "elapsed_time": "1d 9h 2m 6s", "remaining_time": "1d 19h 5m 28s"}
+{"loss": 0.10857859, "token_acc": 0.96590067, "grad_norm": 0.9626314, "learning_rate": 6.029e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239353, "epoch": 2.17013492, "global_step/max_steps": "28470/65595", "percentage": "43.40%", "elapsed_time": "1d 9h 2m 23s", "remaining_time": "1d 19h 5m 2s"}
+{"loss": 0.0721486, "token_acc": 0.96868091, "grad_norm": 0.58888209, "learning_rate": 6.028e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239353, "epoch": 2.17051605, "global_step/max_steps": "28475/65595", "percentage": "43.41%", "elapsed_time": "1d 9h 2m 44s", "remaining_time": "1d 19h 4m 41s"}
+{"loss": 0.06444537, "token_acc": 0.97558555, "grad_norm": 0.78540379, "learning_rate": 6.027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23936, "epoch": 2.17089717, "global_step/max_steps": "28480/65595", "percentage": "43.42%", "elapsed_time": "1d 9h 3m 1s", "remaining_time": "1d 19h 4m 16s"}
+{"loss": 0.10829473, "token_acc": 0.9637496, "grad_norm": 0.60969734, "learning_rate": 6.025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239365, "epoch": 2.1712783, "global_step/max_steps": "28485/65595", "percentage": "43.43%", "elapsed_time": "1d 9h 3m 20s", "remaining_time": "1d 19h 3m 52s"}
+{"loss": 0.10484235, "token_acc": 0.95912807, "grad_norm": 0.67256147, "learning_rate": 6.024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239374, "epoch": 2.17165943, "global_step/max_steps": "28490/65595", "percentage": "43.43%", "elapsed_time": "1d 9h 3m 36s", "remaining_time": "1d 19h 3m 25s"}
+{"loss": 0.0723419, "token_acc": 0.97070789, "grad_norm": 0.63117296, "learning_rate": 6.023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239384, "epoch": 2.17204055, "global_step/max_steps": "28495/65595", "percentage": "43.44%", "elapsed_time": "1d 9h 3m 52s", "remaining_time": "1d 19h 2m 58s"}
+{"loss": 0.10140332, "token_acc": 0.95649909, "grad_norm": 0.9527663, "learning_rate": 6.022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239393, "epoch": 2.17242168, "global_step/max_steps": "28500/65595", "percentage": "43.45%", "elapsed_time": "1d 9h 4m 8s", "remaining_time": "1d 19h 2m 31s"}
+{"loss": 0.11537403, "token_acc": 0.95210084, "grad_norm": 0.76530522, "learning_rate": 6.021e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2394, "epoch": 2.17280281, "global_step/max_steps": "28505/65595", "percentage": "43.46%", "elapsed_time": "1d 9h 4m 26s", "remaining_time": "1d 19h 2m 6s"}
+{"loss": 0.08594166, "token_acc": 0.96755861, "grad_norm": 1.81450224, "learning_rate": 6.02e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239409, "epoch": 2.17318393, "global_step/max_steps": "28510/65595", "percentage": "43.46%", "elapsed_time": "1d 9h 4m 42s", "remaining_time": "1d 19h 1m 39s"}
+{"loss": 0.09713977, "token_acc": 0.96044625, "grad_norm": 0.79272372, "learning_rate": 6.018e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239413, "epoch": 2.17356506, "global_step/max_steps": "28515/65595", "percentage": "43.47%", "elapsed_time": "1d 9h 5m 1s", "remaining_time": "1d 19h 1m 15s"}
+{"loss": 0.12309566, "token_acc": 0.9586448, "grad_norm": 0.62967509, "learning_rate": 6.017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239416, "epoch": 2.17394618, "global_step/max_steps": "28520/65595", "percentage": "43.48%", "elapsed_time": "1d 9h 5m 20s", "remaining_time": "1d 19h 0m 52s"}
+{"loss": 0.09520532, "token_acc": 0.95432797, "grad_norm": 0.67337102, "learning_rate": 6.016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23943, "epoch": 2.17432731, "global_step/max_steps": "28525/65595", "percentage": "43.49%", "elapsed_time": "1d 9h 5m 34s", "remaining_time": "1d 19h 0m 23s"}
+{"loss": 0.10420084, "token_acc": 0.94936709, "grad_norm": 0.91608453, "learning_rate": 6.015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239441, "epoch": 2.17470844, "global_step/max_steps": "28530/65595", "percentage": "43.49%", "elapsed_time": "1d 9h 5m 50s", "remaining_time": "1d 18h 59m 55s"}
+{"loss": 0.09287576, "token_acc": 0.95523649, "grad_norm": 0.46705806, "learning_rate": 6.014e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239453, "epoch": 2.17508956, "global_step/max_steps": "28535/65595", "percentage": "43.50%", "elapsed_time": "1d 9h 6m 5s", "remaining_time": "1d 18h 59m 26s"}
+{"loss": 0.10871402, "token_acc": 0.95843829, "grad_norm": 1.4444989, "learning_rate": 6.012e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239467, "epoch": 2.17547069, "global_step/max_steps": "28540/65595", "percentage": "43.51%", "elapsed_time": "1d 9h 6m 19s", "remaining_time": "1d 18h 58m 56s"}
+{"loss": 0.06491195, "token_acc": 0.96766271, "grad_norm": 1.05087483, "learning_rate": 6.011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239473, "epoch": 2.17585182, "global_step/max_steps": "28545/65595", "percentage": "43.52%", "elapsed_time": "1d 9h 6m 37s", "remaining_time": "1d 18h 58m 32s"}
+{"loss": 0.10519801, "token_acc": 0.95865194, "grad_norm": 1.69969916, "learning_rate": 6.01e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239485, "epoch": 2.17623294, "global_step/max_steps": "28550/65595", "percentage": "43.52%", "elapsed_time": "1d 9h 6m 52s", "remaining_time": "1d 18h 58m 3s"}
+{"loss": 0.10639977, "token_acc": 0.95741196, "grad_norm": 1.94191658, "learning_rate": 6.009e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239489, "epoch": 2.17661407, "global_step/max_steps": "28555/65595", "percentage": "43.53%", "elapsed_time": "1d 9h 7m 10s", "remaining_time": "1d 18h 57m 39s"}
+{"loss": 0.09455178, "token_acc": 0.96359791, "grad_norm": 1.13844109, "learning_rate": 6.008e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239492, "epoch": 2.1769952, "global_step/max_steps": "28560/65595", "percentage": "43.54%", "elapsed_time": "1d 9h 7m 30s", "remaining_time": "1d 18h 57m 17s"}
+{"loss": 0.09158455, "token_acc": 0.96715867, "grad_norm": 0.72437817, "learning_rate": 6.007e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239497, "epoch": 2.17737632, "global_step/max_steps": "28565/65595", "percentage": "43.55%", "elapsed_time": "1d 9h 7m 48s", "remaining_time": "1d 18h 56m 52s"}
+{"loss": 0.12993467, "token_acc": 0.95175187, "grad_norm": 1.34546196, "learning_rate": 6.005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239509, "epoch": 2.17775745, "global_step/max_steps": "28570/65595", "percentage": "43.56%", "elapsed_time": "1d 9h 8m 3s", "remaining_time": "1d 18h 56m 24s"}
+{"loss": 0.09224478, "token_acc": 0.95741169, "grad_norm": 1.08768952, "learning_rate": 6.004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23952, "epoch": 2.17813858, "global_step/max_steps": "28575/65595", "percentage": "43.56%", "elapsed_time": "1d 9h 8m 18s", "remaining_time": "1d 18h 55m 56s"}
+{"loss": 0.08370343, "token_acc": 0.96712329, "grad_norm": 0.53577828, "learning_rate": 6.003e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239525, "epoch": 2.1785197, "global_step/max_steps": "28580/65595", "percentage": "43.57%", "elapsed_time": "1d 9h 8m 37s", "remaining_time": "1d 18h 55m 32s"}
+{"loss": 0.08695635, "token_acc": 0.96867838, "grad_norm": 0.56189764, "learning_rate": 6.002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239531, "epoch": 2.17890083, "global_step/max_steps": "28585/65595", "percentage": "43.58%", "elapsed_time": "1d 9h 8m 54s", "remaining_time": "1d 18h 55m 7s"}
+{"loss": 0.07080357, "token_acc": 0.95364558, "grad_norm": 0.66722852, "learning_rate": 6.001e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23954, "epoch": 2.17928196, "global_step/max_steps": "28590/65595", "percentage": "43.59%", "elapsed_time": "1d 9h 9m 11s", "remaining_time": "1d 18h 54m 40s"}
+{"loss": 0.08805898, "token_acc": 0.96641791, "grad_norm": 0.65900838, "learning_rate": 6e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239548, "epoch": 2.17966308, "global_step/max_steps": "28595/65595", "percentage": "43.59%", "elapsed_time": "1d 9h 9m 28s", "remaining_time": "1d 18h 54m 14s"}
+{"loss": 0.06023015, "token_acc": 0.96410085, "grad_norm": 0.0805224, "learning_rate": 5.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239558, "epoch": 2.18004421, "global_step/max_steps": "28600/65595", "percentage": "43.60%", "elapsed_time": "1d 9h 9m 44s", "remaining_time": "1d 18h 53m 47s"}
+{"eval_loss": 0.08790554, "eval_token_acc": 0.96069514, "eval_runtime": 219.6024, "eval_samples_per_second": 2.413, "eval_steps_per_second": 2.413, "epoch": 2.18004421, "global_step/max_steps": "28600/65595", "percentage": "43.60%", "elapsed_time": "1d 9h 13m 24s", "remaining_time": "1d 18h 58m 31s"}
+{"loss": 0.10768903, "token_acc": 0.96031346, "grad_norm": 0.79622519, "learning_rate": 5.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239127, "epoch": 2.18042534, "global_step/max_steps": "28605/65595", "percentage": "43.61%", "elapsed_time": "1d 9h 13m 40s", "remaining_time": "1d 18h 58m 4s"}
+{"loss": 0.05665058, "token_acc": 0.9772973, "grad_norm": 0.16098841, "learning_rate": 5.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239139, "epoch": 2.18080646, "global_step/max_steps": "28610/65595", "percentage": "43.62%", "elapsed_time": "1d 9h 13m 55s", "remaining_time": "1d 18h 57m 35s"}
+{"loss": 0.09734983, "token_acc": 0.95546705, "grad_norm": 1.24366653, "learning_rate": 5.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239153, "epoch": 2.18118759, "global_step/max_steps": "28615/65595", "percentage": "43.62%", "elapsed_time": "1d 9h 14m 9s", "remaining_time": "1d 18h 57m 6s"}
+{"loss": 0.1055499, "token_acc": 0.95204148, "grad_norm": 1.56610167, "learning_rate": 5.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239165, "epoch": 2.18156872, "global_step/max_steps": "28620/65595", "percentage": "43.63%", "elapsed_time": "1d 9h 14m 24s", "remaining_time": "1d 18h 56m 37s"}
+{"loss": 0.09545673, "token_acc": 0.96053057, "grad_norm": 0.86898756, "learning_rate": 5.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239175, "epoch": 2.18194984, "global_step/max_steps": "28625/65595", "percentage": "43.64%", "elapsed_time": "1d 9h 14m 39s", "remaining_time": "1d 18h 56m 9s"}
+{"loss": 0.11277851, "token_acc": 0.96054889, "grad_norm": 0.7754882, "learning_rate": 5.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239178, "epoch": 2.18233097, "global_step/max_steps": "28630/65595", "percentage": "43.65%", "elapsed_time": "1d 9h 14m 59s", "remaining_time": "1d 18h 55m 47s"}
+{"loss": 0.08612318, "token_acc": 0.96392617, "grad_norm": 1.16246068, "learning_rate": 5.99e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239186, "epoch": 2.1827121, "global_step/max_steps": "28635/65595", "percentage": "43.65%", "elapsed_time": "1d 9h 15m 16s", "remaining_time": "1d 18h 55m 21s"}
+{"loss": 0.0957341, "token_acc": 0.9628433, "grad_norm": 2.25451541, "learning_rate": 5.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239199, "epoch": 2.18309322, "global_step/max_steps": "28640/65595", "percentage": "43.66%", "elapsed_time": "1d 9h 15m 30s", "remaining_time": "1d 18h 54m 51s"}
+{"loss": 0.11221577, "token_acc": 0.95780016, "grad_norm": 1.43437517, "learning_rate": 5.988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239211, "epoch": 2.18347435, "global_step/max_steps": "28645/65595", "percentage": "43.67%", "elapsed_time": "1d 9h 15m 45s", "remaining_time": "1d 18h 54m 23s"}
+{"loss": 0.09704537, "token_acc": 0.9512677, "grad_norm": 0.37737441, "learning_rate": 5.987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239223, "epoch": 2.18385548, "global_step/max_steps": "28650/65595", "percentage": "43.68%", "elapsed_time": "1d 9h 16m 0s", "remaining_time": "1d 18h 53m 54s"}
+{"loss": 0.07541357, "token_acc": 0.97068702, "grad_norm": 1.52778602, "learning_rate": 5.986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239225, "epoch": 2.1842366, "global_step/max_steps": "28655/65595", "percentage": "43.68%", "elapsed_time": "1d 9h 16m 20s", "remaining_time": "1d 18h 53m 32s"}
+{"loss": 0.08938062, "token_acc": 0.95625452, "grad_norm": 0.87908024, "learning_rate": 5.984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239239, "epoch": 2.18461773, "global_step/max_steps": "28660/65595", "percentage": "43.69%", "elapsed_time": "1d 9h 16m 34s", "remaining_time": "1d 18h 53m 2s"}
+{"loss": 0.1109937, "token_acc": 0.96138175, "grad_norm": 1.54194427, "learning_rate": 5.983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239244, "epoch": 2.18499886, "global_step/max_steps": "28665/65595", "percentage": "43.70%", "elapsed_time": "1d 9h 16m 52s", "remaining_time": "1d 18h 52m 38s"}
+{"loss": 0.08465605, "token_acc": 0.96683109, "grad_norm": 1.30761993, "learning_rate": 5.982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23925, "epoch": 2.18537998, "global_step/max_steps": "28670/65595", "percentage": "43.71%", "elapsed_time": "1d 9h 17m 10s", "remaining_time": "1d 18h 52m 13s"}
+{"loss": 0.09034868, "token_acc": 0.9593666, "grad_norm": 0.65751755, "learning_rate": 5.981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239255, "epoch": 2.18576111, "global_step/max_steps": "28675/65595", "percentage": "43.72%", "elapsed_time": "1d 9h 17m 28s", "remaining_time": "1d 18h 51m 49s"}
+{"loss": 0.0805679, "token_acc": 0.96558594, "grad_norm": 0.78227645, "learning_rate": 5.98e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239262, "epoch": 2.18614224, "global_step/max_steps": "28680/65595", "percentage": "43.72%", "elapsed_time": "1d 9h 17m 46s", "remaining_time": "1d 18h 51m 23s"}
+{"loss": 0.09123271, "token_acc": 0.95405599, "grad_norm": 0.22168083, "learning_rate": 5.978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239277, "epoch": 2.18652336, "global_step/max_steps": "28685/65595", "percentage": "43.73%", "elapsed_time": "1d 9h 17m 59s", "remaining_time": "1d 18h 50m 53s"}
+{"loss": 0.10322872, "token_acc": 0.96086343, "grad_norm": 0.78011602, "learning_rate": 5.977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239284, "epoch": 2.18690449, "global_step/max_steps": "28690/65595", "percentage": "43.74%", "elapsed_time": "1d 9h 18m 17s", "remaining_time": "1d 18h 50m 28s"}
+{"loss": 0.10132592, "token_acc": 0.95240261, "grad_norm": 0.86880177, "learning_rate": 5.976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239289, "epoch": 2.18728562, "global_step/max_steps": "28695/65595", "percentage": "43.75%", "elapsed_time": "1d 9h 18m 35s", "remaining_time": "1d 18h 50m 3s"}
+{"loss": 0.08846146, "token_acc": 0.96178501, "grad_norm": 1.52684724, "learning_rate": 5.975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239299, "epoch": 2.18766674, "global_step/max_steps": "28700/65595", "percentage": "43.75%", "elapsed_time": "1d 9h 18m 51s", "remaining_time": "1d 18h 49m 36s"}
+{"loss": 0.09201809, "token_acc": 0.95957369, "grad_norm": 0.6882664, "learning_rate": 5.974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239302, "epoch": 2.18804787, "global_step/max_steps": "28705/65595", "percentage": "43.76%", "elapsed_time": "1d 9h 19m 10s", "remaining_time": "1d 18h 49m 13s"}
+{"loss": 0.09969985, "token_acc": 0.95532088, "grad_norm": 0.73361981, "learning_rate": 5.973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23931, "epoch": 2.188429, "global_step/max_steps": "28710/65595", "percentage": "43.77%", "elapsed_time": "1d 9h 19m 27s", "remaining_time": "1d 18h 48m 47s"}
+{"loss": 0.12818397, "token_acc": 0.95700886, "grad_norm": 0.60831112, "learning_rate": 5.971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239318, "epoch": 2.18881012, "global_step/max_steps": "28715/65595", "percentage": "43.78%", "elapsed_time": "1d 9h 19m 44s", "remaining_time": "1d 18h 48m 21s"}
+{"loss": 0.06647705, "token_acc": 0.9781453, "grad_norm": 0.35138544, "learning_rate": 5.97e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239327, "epoch": 2.18919125, "global_step/max_steps": "28720/65595", "percentage": "43.78%", "elapsed_time": "1d 9h 20m 0s", "remaining_time": "1d 18h 47m 54s"}
+{"loss": 0.07961885, "token_acc": 0.97244917, "grad_norm": 0.58690715, "learning_rate": 5.969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239335, "epoch": 2.18957238, "global_step/max_steps": "28725/65595", "percentage": "43.79%", "elapsed_time": "1d 9h 20m 17s", "remaining_time": "1d 18h 47m 28s"}
+{"loss": 0.07993541, "token_acc": 0.96080993, "grad_norm": 0.73226154, "learning_rate": 5.968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239346, "epoch": 2.1899535, "global_step/max_steps": "28730/65595", "percentage": "43.80%", "elapsed_time": "1d 9h 20m 33s", "remaining_time": "1d 18h 47m 1s"}
+{"loss": 0.12689444, "token_acc": 0.95936061, "grad_norm": 0.59820354, "learning_rate": 5.967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239355, "epoch": 2.19033463, "global_step/max_steps": "28735/65595", "percentage": "43.81%", "elapsed_time": "1d 9h 20m 49s", "remaining_time": "1d 18h 46m 34s"}
+{"loss": 0.08027003, "token_acc": 0.96190684, "grad_norm": 1.25086617, "learning_rate": 5.966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239365, "epoch": 2.19071576, "global_step/max_steps": "28740/65595", "percentage": "43.81%", "elapsed_time": "1d 9h 21m 5s", "remaining_time": "1d 18h 46m 6s"}
+{"loss": 0.16203849, "token_acc": 0.93721881, "grad_norm": 2.6117444, "learning_rate": 5.964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239376, "epoch": 2.19109688, "global_step/max_steps": "28745/65595", "percentage": "43.82%", "elapsed_time": "1d 9h 21m 20s", "remaining_time": "1d 18h 45m 39s"}
+{"loss": 0.07109591, "token_acc": 0.968485, "grad_norm": 0.74433506, "learning_rate": 5.963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239378, "epoch": 2.19147801, "global_step/max_steps": "28750/65595", "percentage": "43.83%", "elapsed_time": "1d 9h 21m 40s", "remaining_time": "1d 18h 45m 16s"}
+{"loss": 0.10468605, "token_acc": 0.95629511, "grad_norm": 1.21170974, "learning_rate": 5.962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239391, "epoch": 2.19185914, "global_step/max_steps": "28755/65595", "percentage": "43.84%", "elapsed_time": "1d 9h 21m 55s", "remaining_time": "1d 18h 44m 47s"}
+{"loss": 0.1683846, "token_acc": 0.95010675, "grad_norm": 2.0057857, "learning_rate": 5.961e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239391, "epoch": 2.19224026, "global_step/max_steps": "28760/65595", "percentage": "43.84%", "elapsed_time": "1d 9h 22m 15s", "remaining_time": "1d 18h 44m 26s"}
+{"loss": 0.13332225, "token_acc": 0.9585311, "grad_norm": 1.61855376, "learning_rate": 5.96e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239393, "epoch": 2.19262139, "global_step/max_steps": "28765/65595", "percentage": "43.85%", "elapsed_time": "1d 9h 22m 35s", "remaining_time": "1d 18h 44m 4s"}
+{"loss": 0.0767062, "token_acc": 0.96590909, "grad_norm": 0.78848225, "learning_rate": 5.958e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239403, "epoch": 2.19300252, "global_step/max_steps": "28770/65595", "percentage": "43.86%", "elapsed_time": "1d 9h 22m 51s", "remaining_time": "1d 18h 43m 37s"}
+{"loss": 0.07269385, "token_acc": 0.95825955, "grad_norm": 0.82328659, "learning_rate": 5.957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239414, "epoch": 2.19338364, "global_step/max_steps": "28775/65595", "percentage": "43.87%", "elapsed_time": "1d 9h 23m 6s", "remaining_time": "1d 18h 43m 9s"}
+{"loss": 0.07519102, "token_acc": 0.97561719, "grad_norm": 0.09501532, "learning_rate": 5.956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239422, "epoch": 2.19376477, "global_step/max_steps": "28780/65595", "percentage": "43.88%", "elapsed_time": "1d 9h 23m 24s", "remaining_time": "1d 18h 42m 43s"}
+{"loss": 0.07845911, "token_acc": 0.96721738, "grad_norm": 0.98109204, "learning_rate": 5.955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239423, "epoch": 2.1941459, "global_step/max_steps": "28785/65595", "percentage": "43.88%", "elapsed_time": "1d 9h 23m 44s", "remaining_time": "1d 18h 42m 21s"}
+{"loss": 0.15783625, "token_acc": 0.94467213, "grad_norm": 1.93845105, "learning_rate": 5.954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239436, "epoch": 2.19452702, "global_step/max_steps": "28790/65595", "percentage": "43.89%", "elapsed_time": "1d 9h 23m 58s", "remaining_time": "1d 18h 41m 52s"}
+{"loss": 0.1248601, "token_acc": 0.95313531, "grad_norm": 1.31198812, "learning_rate": 5.953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239445, "epoch": 2.19490815, "global_step/max_steps": "28795/65595", "percentage": "43.90%", "elapsed_time": "1d 9h 24m 15s", "remaining_time": "1d 18h 41m 25s"}
+{"loss": 0.09211789, "token_acc": 0.97079277, "grad_norm": 1.19283497, "learning_rate": 5.951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239451, "epoch": 2.19528928, "global_step/max_steps": "28800/65595", "percentage": "43.91%", "elapsed_time": "1d 9h 24m 32s", "remaining_time": "1d 18h 41m 0s"}
+{"eval_loss": 0.08703914, "eval_token_acc": 0.9611921, "eval_runtime": 217.1105, "eval_samples_per_second": 2.441, "eval_steps_per_second": 2.441, "epoch": 2.19528928, "global_step/max_steps": "28800/65595", "percentage": "43.91%", "elapsed_time": "1d 9h 28m 9s", "remaining_time": "1d 18h 45m 38s"}
+{"loss": 0.09225113, "token_acc": 0.96121855, "grad_norm": 0.93046945, "learning_rate": 5.95e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239034, "epoch": 2.1956704, "global_step/max_steps": "28805/65595", "percentage": "43.91%", "elapsed_time": "1d 9h 28m 23s", "remaining_time": "1d 18h 45m 8s"}
+{"loss": 0.09206722, "token_acc": 0.96374231, "grad_norm": 0.86853707, "learning_rate": 5.949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239045, "epoch": 2.19605153, "global_step/max_steps": "28810/65595", "percentage": "43.92%", "elapsed_time": "1d 9h 28m 39s", "remaining_time": "1d 18h 44m 40s"}
+{"loss": 0.088526, "token_acc": 0.96697284, "grad_norm": 0.90492022, "learning_rate": 5.948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239051, "epoch": 2.19643265, "global_step/max_steps": "28815/65595", "percentage": "43.93%", "elapsed_time": "1d 9h 28m 57s", "remaining_time": "1d 18h 44m 15s"}
+{"loss": 0.09556234, "token_acc": 0.96785714, "grad_norm": 1.76516092, "learning_rate": 5.947e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239066, "epoch": 2.19681378, "global_step/max_steps": "28820/65595", "percentage": "43.94%", "elapsed_time": "1d 9h 29m 10s", "remaining_time": "1d 18h 43m 45s"}
+{"loss": 0.13407727, "token_acc": 0.9517058, "grad_norm": 1.65048754, "learning_rate": 5.946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239073, "epoch": 2.19719491, "global_step/max_steps": "28825/65595", "percentage": "43.94%", "elapsed_time": "1d 9h 29m 27s", "remaining_time": "1d 18h 43m 19s"}
+{"loss": 0.10677445, "token_acc": 0.96802097, "grad_norm": 1.30888331, "learning_rate": 5.944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239081, "epoch": 2.19757603, "global_step/max_steps": "28830/65595", "percentage": "43.95%", "elapsed_time": "1d 9h 29m 44s", "remaining_time": "1d 18h 42m 53s"}
+{"loss": 0.13191264, "token_acc": 0.94544784, "grad_norm": 0.92863345, "learning_rate": 5.943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239088, "epoch": 2.19795716, "global_step/max_steps": "28835/65595", "percentage": "43.96%", "elapsed_time": "1d 9h 30m 1s", "remaining_time": "1d 18h 42m 27s"}
+{"loss": 0.09703856, "token_acc": 0.94899446, "grad_norm": 0.64004982, "learning_rate": 5.942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2391, "epoch": 2.19833829, "global_step/max_steps": "28840/65595", "percentage": "43.97%", "elapsed_time": "1d 9h 30m 16s", "remaining_time": "1d 18h 41m 59s"}
+{"loss": 0.11858888, "token_acc": 0.95978552, "grad_norm": 0.87392825, "learning_rate": 5.941e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239104, "epoch": 2.19871941, "global_step/max_steps": "28845/65595", "percentage": "43.97%", "elapsed_time": "1d 9h 30m 35s", "remaining_time": "1d 18h 41m 36s"}
+{"loss": 0.09487816, "token_acc": 0.9676259, "grad_norm": 0.85493004, "learning_rate": 5.94e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239112, "epoch": 2.19910054, "global_step/max_steps": "28850/65595", "percentage": "43.98%", "elapsed_time": "1d 9h 30m 52s", "remaining_time": "1d 18h 41m 9s"}
+{"loss": 0.08703054, "token_acc": 0.96146045, "grad_norm": 0.57227105, "learning_rate": 5.939e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239118, "epoch": 2.19948167, "global_step/max_steps": "28855/65595", "percentage": "43.99%", "elapsed_time": "1d 9h 31m 10s", "remaining_time": "1d 18h 40m 44s"}
+{"loss": 0.11022618, "token_acc": 0.96049638, "grad_norm": 1.24729335, "learning_rate": 5.937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239124, "epoch": 2.19986279, "global_step/max_steps": "28860/65595", "percentage": "44.00%", "elapsed_time": "1d 9h 31m 28s", "remaining_time": "1d 18h 40m 20s"}
+{"loss": 0.10049896, "token_acc": 0.96066863, "grad_norm": 0.87688422, "learning_rate": 5.936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239136, "epoch": 2.20024392, "global_step/max_steps": "28865/65595", "percentage": "44.00%", "elapsed_time": "1d 9h 31m 42s", "remaining_time": "1d 18h 39m 51s"}
+{"loss": 0.10433646, "token_acc": 0.96221991, "grad_norm": 1.17480612, "learning_rate": 5.935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239147, "epoch": 2.20062505, "global_step/max_steps": "28870/65595", "percentage": "44.01%", "elapsed_time": "1d 9h 31m 58s", "remaining_time": "1d 18h 39m 23s"}
+{"loss": 0.14414005, "token_acc": 0.95189728, "grad_norm": 2.41633511, "learning_rate": 5.934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239153, "epoch": 2.20100617, "global_step/max_steps": "28875/65595", "percentage": "44.02%", "elapsed_time": "1d 9h 32m 16s", "remaining_time": "1d 18h 38m 58s"}
+{"loss": 0.07905176, "token_acc": 0.97294313, "grad_norm": 0.97314507, "learning_rate": 5.933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239162, "epoch": 2.2013873, "global_step/max_steps": "28880/65595", "percentage": "44.03%", "elapsed_time": "1d 9h 32m 32s", "remaining_time": "1d 18h 38m 32s"}
+{"loss": 0.08148944, "token_acc": 0.96549103, "grad_norm": 0.48518306, "learning_rate": 5.931e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239149, "epoch": 2.20176843, "global_step/max_steps": "28885/65595", "percentage": "44.04%", "elapsed_time": "1d 9h 33m 0s", "remaining_time": "1d 18h 38m 19s"}
+{"loss": 0.11322218, "token_acc": 0.9562639, "grad_norm": 0.62910187, "learning_rate": 5.93e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239157, "epoch": 2.20214955, "global_step/max_steps": "28890/65595", "percentage": "44.04%", "elapsed_time": "1d 9h 33m 17s", "remaining_time": "1d 18h 37m 53s"}
+{"loss": 0.10402286, "token_acc": 0.95236901, "grad_norm": 1.00083661, "learning_rate": 5.929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239167, "epoch": 2.20253068, "global_step/max_steps": "28895/65595", "percentage": "44.05%", "elapsed_time": "1d 9h 33m 32s", "remaining_time": "1d 18h 37m 26s"}
+{"loss": 0.08090718, "token_acc": 0.96474892, "grad_norm": 0.44918635, "learning_rate": 5.928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23918, "epoch": 2.20291181, "global_step/max_steps": "28900/65595", "percentage": "44.06%", "elapsed_time": "1d 9h 33m 47s", "remaining_time": "1d 18h 36m 57s"}
+{"loss": 0.09680279, "token_acc": 0.96249574, "grad_norm": 1.2019726, "learning_rate": 5.927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239193, "epoch": 2.20329293, "global_step/max_steps": "28905/65595", "percentage": "44.07%", "elapsed_time": "1d 9h 34m 1s", "remaining_time": "1d 18h 36m 27s"}
+{"loss": 0.10897074, "token_acc": 0.96712329, "grad_norm": 1.34413028, "learning_rate": 5.926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239203, "epoch": 2.20367406, "global_step/max_steps": "28910/65595", "percentage": "44.07%", "elapsed_time": "1d 9h 34m 17s", "remaining_time": "1d 18h 36m 0s"}
+{"loss": 0.06621026, "token_acc": 0.97335822, "grad_norm": 0.74792498, "learning_rate": 5.924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239209, "epoch": 2.20405519, "global_step/max_steps": "28915/65595", "percentage": "44.08%", "elapsed_time": "1d 9h 34m 35s", "remaining_time": "1d 18h 35m 35s"}
+{"loss": 0.07215047, "token_acc": 0.97266328, "grad_norm": 0.59785229, "learning_rate": 5.923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239214, "epoch": 2.20443631, "global_step/max_steps": "28920/65595", "percentage": "44.09%", "elapsed_time": "1d 9h 34m 53s", "remaining_time": "1d 18h 35m 11s"}
+{"loss": 0.10894175, "token_acc": 0.97010582, "grad_norm": 1.90572369, "learning_rate": 5.922e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239222, "epoch": 2.20481744, "global_step/max_steps": "28925/65595", "percentage": "44.10%", "elapsed_time": "1d 9h 35m 10s", "remaining_time": "1d 18h 34m 45s"}
+{"loss": 0.07306675, "token_acc": 0.97267162, "grad_norm": 0.75700277, "learning_rate": 5.921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239231, "epoch": 2.20519857, "global_step/max_steps": "28930/65595", "percentage": "44.10%", "elapsed_time": "1d 9h 35m 27s", "remaining_time": "1d 18h 34m 19s"}
+{"loss": 0.12193997, "token_acc": 0.95486542, "grad_norm": 2.15618753, "learning_rate": 5.92e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239244, "epoch": 2.20557969, "global_step/max_steps": "28935/65595", "percentage": "44.11%", "elapsed_time": "1d 9h 35m 41s", "remaining_time": "1d 18h 33m 49s"}
+{"loss": 0.09960579, "token_acc": 0.95231154, "grad_norm": 0.72763318, "learning_rate": 5.919e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239254, "epoch": 2.20596082, "global_step/max_steps": "28940/65595", "percentage": "44.12%", "elapsed_time": "1d 9h 35m 57s", "remaining_time": "1d 18h 33m 22s"}
+{"loss": 0.08943167, "token_acc": 0.9693904, "grad_norm": 0.61904645, "learning_rate": 5.917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239265, "epoch": 2.20634195, "global_step/max_steps": "28945/65595", "percentage": "44.13%", "elapsed_time": "1d 9h 36m 12s", "remaining_time": "1d 18h 32m 54s"}
+{"loss": 0.10294675, "token_acc": 0.95378394, "grad_norm": 1.79984081, "learning_rate": 5.916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239275, "epoch": 2.20672307, "global_step/max_steps": "28950/65595", "percentage": "44.13%", "elapsed_time": "1d 9h 36m 28s", "remaining_time": "1d 18h 32m 27s"}
+{"loss": 0.1549423, "token_acc": 0.9455933, "grad_norm": 0.69331247, "learning_rate": 5.915e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239287, "epoch": 2.2071042, "global_step/max_steps": "28955/65595", "percentage": "44.14%", "elapsed_time": "1d 9h 36m 43s", "remaining_time": "1d 18h 31m 58s"}
+{"loss": 0.08634866, "token_acc": 0.96693532, "grad_norm": 0.68749958, "learning_rate": 5.914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239295, "epoch": 2.20748533, "global_step/max_steps": "28960/65595", "percentage": "44.15%", "elapsed_time": "1d 9h 37m 0s", "remaining_time": "1d 18h 31m 32s"}
+{"loss": 0.14893277, "token_acc": 0.94773436, "grad_norm": 1.13485229, "learning_rate": 5.913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239307, "epoch": 2.20786645, "global_step/max_steps": "28965/65595", "percentage": "44.16%", "elapsed_time": "1d 9h 37m 14s", "remaining_time": "1d 18h 31m 4s"}
+{"loss": 0.07432869, "token_acc": 0.96641387, "grad_norm": 0.82111007, "learning_rate": 5.911e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239311, "epoch": 2.20824758, "global_step/max_steps": "28970/65595", "percentage": "44.16%", "elapsed_time": "1d 9h 37m 33s", "remaining_time": "1d 18h 30m 40s"}
+{"loss": 0.13534436, "token_acc": 0.94969587, "grad_norm": 0.62499523, "learning_rate": 5.91e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239317, "epoch": 2.20862871, "global_step/max_steps": "28975/65595", "percentage": "44.17%", "elapsed_time": "1d 9h 37m 51s", "remaining_time": "1d 18h 30m 16s"}
+{"loss": 0.10982646, "token_acc": 0.96060337, "grad_norm": 1.76836824, "learning_rate": 5.909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239321, "epoch": 2.20900983, "global_step/max_steps": "28980/65595", "percentage": "44.18%", "elapsed_time": "1d 9h 38m 10s", "remaining_time": "1d 18h 29m 52s"}
+{"loss": 0.06256929, "token_acc": 0.96726457, "grad_norm": 0.60659933, "learning_rate": 5.908e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239332, "epoch": 2.20939096, "global_step/max_steps": "28985/65595", "percentage": "44.19%", "elapsed_time": "1d 9h 38m 25s", "remaining_time": "1d 18h 29m 24s"}
+{"loss": 0.0694258, "token_acc": 0.97183348, "grad_norm": 0.67465776, "learning_rate": 5.907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239337, "epoch": 2.20977209, "global_step/max_steps": "28990/65595", "percentage": "44.20%", "elapsed_time": "1d 9h 38m 43s", "remaining_time": "1d 18h 29m 0s"}
+{"loss": 0.10228987, "token_acc": 0.95762021, "grad_norm": 0.56690544, "learning_rate": 5.906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239345, "epoch": 2.21015321, "global_step/max_steps": "28995/65595", "percentage": "44.20%", "elapsed_time": "1d 9h 39m 0s", "remaining_time": "1d 18h 28m 34s"}
+{"loss": 0.13702352, "token_acc": 0.94260799, "grad_norm": 1.6098572, "learning_rate": 5.904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239354, "epoch": 2.21053434, "global_step/max_steps": "29000/65595", "percentage": "44.21%", "elapsed_time": "1d 9h 39m 17s", "remaining_time": "1d 18h 28m 8s"}
+{"eval_loss": 0.08696001, "eval_token_acc": 0.96057466, "eval_runtime": 218.7979, "eval_samples_per_second": 2.422, "eval_steps_per_second": 2.422, "epoch": 2.21053434, "global_step/max_steps": "29000/65595", "percentage": "44.21%", "elapsed_time": "1d 9h 42m 56s", "remaining_time": "1d 18h 32m 44s"}
+{"loss": 0.12809985, "token_acc": 0.96035435, "grad_norm": 0.73719305, "learning_rate": 5.903e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23893, "epoch": 2.21091547, "global_step/max_steps": "29005/65595", "percentage": "44.22%", "elapsed_time": "1d 9h 43m 13s", "remaining_time": "1d 18h 32m 18s"}
+{"loss": 0.10467821, "token_acc": 0.96290323, "grad_norm": 1.57861066, "learning_rate": 5.902e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238938, "epoch": 2.21129659, "global_step/max_steps": "29010/65595", "percentage": "44.23%", "elapsed_time": "1d 9h 43m 30s", "remaining_time": "1d 18h 31m 52s"}
+{"loss": 0.07319798, "token_acc": 0.96449857, "grad_norm": 1.01217282, "learning_rate": 5.901e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238947, "epoch": 2.21167772, "global_step/max_steps": "29015/65595", "percentage": "44.23%", "elapsed_time": "1d 9h 43m 46s", "remaining_time": "1d 18h 31m 25s"}
+{"loss": 0.08102164, "token_acc": 0.97352763, "grad_norm": 1.2177918, "learning_rate": 5.9e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238949, "epoch": 2.21205885, "global_step/max_steps": "29020/65595", "percentage": "44.24%", "elapsed_time": "1d 9h 44m 6s", "remaining_time": "1d 18h 31m 3s"}
+{"loss": 0.17601902, "token_acc": 0.94099925, "grad_norm": 0.91770256, "learning_rate": 5.898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238958, "epoch": 2.21243997, "global_step/max_steps": "29025/65595", "percentage": "44.25%", "elapsed_time": "1d 9h 44m 22s", "remaining_time": "1d 18h 30m 36s"}
+{"loss": 0.06475649, "token_acc": 0.9712282, "grad_norm": 0.39950532, "learning_rate": 5.897e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238962, "epoch": 2.2128211, "global_step/max_steps": "29030/65595", "percentage": "44.26%", "elapsed_time": "1d 9h 44m 41s", "remaining_time": "1d 18h 30m 13s"}
+{"loss": 0.10192912, "token_acc": 0.95798319, "grad_norm": 1.8051703, "learning_rate": 5.896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238974, "epoch": 2.21320223, "global_step/max_steps": "29035/65595", "percentage": "44.26%", "elapsed_time": "1d 9h 44m 56s", "remaining_time": "1d 18h 29m 44s"}
+{"loss": 0.09819489, "token_acc": 0.94925214, "grad_norm": 1.27367067, "learning_rate": 5.895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238984, "epoch": 2.21358335, "global_step/max_steps": "29040/65595", "percentage": "44.27%", "elapsed_time": "1d 9h 45m 12s", "remaining_time": "1d 18h 29m 17s"}
+{"loss": 0.11246721, "token_acc": 0.96248295, "grad_norm": 1.54017782, "learning_rate": 5.894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238991, "epoch": 2.21396448, "global_step/max_steps": "29045/65595", "percentage": "44.28%", "elapsed_time": "1d 9h 45m 29s", "remaining_time": "1d 18h 28m 51s"}
+{"loss": 0.10113387, "token_acc": 0.95638773, "grad_norm": 1.04347146, "learning_rate": 5.893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238996, "epoch": 2.21434561, "global_step/max_steps": "29050/65595", "percentage": "44.29%", "elapsed_time": "1d 9h 45m 47s", "remaining_time": "1d 18h 28m 27s"}
+{"loss": 0.08273572, "token_acc": 0.97251037, "grad_norm": 0.70755684, "learning_rate": 5.891e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239004, "epoch": 2.21472673, "global_step/max_steps": "29055/65595", "percentage": "44.29%", "elapsed_time": "1d 9h 46m 4s", "remaining_time": "1d 18h 28m 1s"}
+{"loss": 0.12945073, "token_acc": 0.95157535, "grad_norm": 0.63438284, "learning_rate": 5.89e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239009, "epoch": 2.21510786, "global_step/max_steps": "29060/65595", "percentage": "44.30%", "elapsed_time": "1d 9h 46m 23s", "remaining_time": "1d 18h 27m 37s"}
+{"loss": 0.09086322, "token_acc": 0.96418182, "grad_norm": 0.77750212, "learning_rate": 5.889e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239017, "epoch": 2.21548899, "global_step/max_steps": "29065/65595", "percentage": "44.31%", "elapsed_time": "1d 9h 46m 40s", "remaining_time": "1d 18h 27m 11s"}
+{"loss": 0.09379049, "token_acc": 0.95775648, "grad_norm": 0.70646703, "learning_rate": 5.888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239022, "epoch": 2.21587011, "global_step/max_steps": "29070/65595", "percentage": "44.32%", "elapsed_time": "1d 9h 46m 58s", "remaining_time": "1d 18h 26m 47s"}
+{"loss": 0.09438357, "token_acc": 0.96996095, "grad_norm": 0.52752423, "learning_rate": 5.887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239033, "epoch": 2.21625124, "global_step/max_steps": "29075/65595", "percentage": "44.33%", "elapsed_time": "1d 9h 47m 13s", "remaining_time": "1d 18h 26m 19s"}
+{"loss": 0.09944668, "token_acc": 0.96370339, "grad_norm": 0.56508607, "learning_rate": 5.886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239037, "epoch": 2.21663237, "global_step/max_steps": "29080/65595", "percentage": "44.33%", "elapsed_time": "1d 9h 47m 32s", "remaining_time": "1d 18h 25m 56s"}
+{"loss": 0.10056686, "token_acc": 0.95693136, "grad_norm": 0.8123017, "learning_rate": 5.884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239044, "epoch": 2.21701349, "global_step/max_steps": "29085/65595", "percentage": "44.34%", "elapsed_time": "1d 9h 47m 50s", "remaining_time": "1d 18h 25m 30s"}
+{"loss": 0.09735267, "token_acc": 0.96254624, "grad_norm": 0.7849648, "learning_rate": 5.883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239047, "epoch": 2.21739462, "global_step/max_steps": "29090/65595", "percentage": "44.35%", "elapsed_time": "1d 9h 48m 9s", "remaining_time": "1d 18h 25m 7s"}
+{"loss": 0.08406123, "token_acc": 0.97262905, "grad_norm": 0.50937343, "learning_rate": 5.882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23905, "epoch": 2.21777575, "global_step/max_steps": "29095/65595", "percentage": "44.36%", "elapsed_time": "1d 9h 48m 28s", "remaining_time": "1d 18h 24m 45s"}
+{"loss": 0.08209399, "token_acc": 0.96527032, "grad_norm": 0.5452956, "learning_rate": 5.881e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239061, "epoch": 2.21815687, "global_step/max_steps": "29100/65595", "percentage": "44.36%", "elapsed_time": "1d 9h 48m 44s", "remaining_time": "1d 18h 24m 17s"}
+{"loss": 0.12552915, "token_acc": 0.9460925, "grad_norm": 0.95492399, "learning_rate": 5.88e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239069, "epoch": 2.218538, "global_step/max_steps": "29105/65595", "percentage": "44.37%", "elapsed_time": "1d 9h 49m 0s", "remaining_time": "1d 18h 23m 50s"}
+{"loss": 0.08892746, "token_acc": 0.96611824, "grad_norm": 1.39147878, "learning_rate": 5.878e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239075, "epoch": 2.21891912, "global_step/max_steps": "29110/65595", "percentage": "44.38%", "elapsed_time": "1d 9h 49m 18s", "remaining_time": "1d 18h 23m 26s"}
+{"loss": 0.12273287, "token_acc": 0.9468333, "grad_norm": 0.78805715, "learning_rate": 5.877e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239083, "epoch": 2.21930025, "global_step/max_steps": "29115/65595", "percentage": "44.39%", "elapsed_time": "1d 9h 49m 35s", "remaining_time": "1d 18h 23m 0s"}
+{"loss": 0.09246486, "token_acc": 0.96605273, "grad_norm": 1.16055191, "learning_rate": 5.876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239093, "epoch": 2.21968138, "global_step/max_steps": "29120/65595", "percentage": "44.39%", "elapsed_time": "1d 9h 49m 51s", "remaining_time": "1d 18h 22m 32s"}
+{"loss": 0.08272573, "token_acc": 0.96938165, "grad_norm": 0.97359866, "learning_rate": 5.875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239094, "epoch": 2.2200625, "global_step/max_steps": "29125/65595", "percentage": "44.40%", "elapsed_time": "1d 9h 50m 11s", "remaining_time": "1d 18h 22m 11s"}
+{"loss": 0.09919876, "token_acc": 0.95637421, "grad_norm": 0.46535832, "learning_rate": 5.874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239105, "epoch": 2.22044363, "global_step/max_steps": "29130/65595", "percentage": "44.41%", "elapsed_time": "1d 9h 50m 27s", "remaining_time": "1d 18h 21m 43s"}
+{"loss": 0.08847461, "token_acc": 0.96386468, "grad_norm": 0.97055846, "learning_rate": 5.873e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239113, "epoch": 2.22082476, "global_step/max_steps": "29135/65595", "percentage": "44.42%", "elapsed_time": "1d 9h 50m 43s", "remaining_time": "1d 18h 21m 17s"}
+{"loss": 0.09746551, "token_acc": 0.9596662, "grad_norm": 0.83671862, "learning_rate": 5.871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239125, "epoch": 2.22120588, "global_step/max_steps": "29140/65595", "percentage": "44.42%", "elapsed_time": "1d 9h 50m 58s", "remaining_time": "1d 18h 20m 48s"}
+{"loss": 0.10395164, "token_acc": 0.95955133, "grad_norm": 1.15701258, "learning_rate": 5.87e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239137, "epoch": 2.22158701, "global_step/max_steps": "29145/65595", "percentage": "44.43%", "elapsed_time": "1d 9h 51m 13s", "remaining_time": "1d 18h 20m 20s"}
+{"loss": 0.10961236, "token_acc": 0.95650708, "grad_norm": 0.82308161, "learning_rate": 5.869e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239148, "epoch": 2.22196814, "global_step/max_steps": "29150/65595", "percentage": "44.44%", "elapsed_time": "1d 9h 51m 28s", "remaining_time": "1d 18h 19m 52s"}
+{"loss": 0.0849733, "token_acc": 0.96991124, "grad_norm": 1.18318224, "learning_rate": 5.868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239151, "epoch": 2.22234926, "global_step/max_steps": "29155/65595", "percentage": "44.45%", "elapsed_time": "1d 9h 51m 48s", "remaining_time": "1d 18h 19m 29s"}
+{"loss": 0.10299686, "token_acc": 0.95304308, "grad_norm": 1.07043326, "learning_rate": 5.867e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239159, "epoch": 2.22273039, "global_step/max_steps": "29160/65595", "percentage": "44.45%", "elapsed_time": "1d 9h 52m 5s", "remaining_time": "1d 18h 19m 3s"}
+{"loss": 0.06437153, "token_acc": 0.96773207, "grad_norm": 1.01812518, "learning_rate": 5.865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239162, "epoch": 2.22311152, "global_step/max_steps": "29165/65595", "percentage": "44.46%", "elapsed_time": "1d 9h 52m 24s", "remaining_time": "1d 18h 18m 40s"}
+{"loss": 0.13958819, "token_acc": 0.94403646, "grad_norm": 1.32158709, "learning_rate": 5.864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239171, "epoch": 2.22349264, "global_step/max_steps": "29170/65595", "percentage": "44.47%", "elapsed_time": "1d 9h 52m 40s", "remaining_time": "1d 18h 18m 14s"}
+{"loss": 0.10321825, "token_acc": 0.95863479, "grad_norm": 0.98632342, "learning_rate": 5.863e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239173, "epoch": 2.22387377, "global_step/max_steps": "29175/65595", "percentage": "44.48%", "elapsed_time": "1d 9h 53m 0s", "remaining_time": "1d 18h 17m 52s"}
+{"loss": 0.07746029, "token_acc": 0.95793444, "grad_norm": 0.76193255, "learning_rate": 5.862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239182, "epoch": 2.2242549, "global_step/max_steps": "29180/65595", "percentage": "44.49%", "elapsed_time": "1d 9h 53m 16s", "remaining_time": "1d 18h 17m 25s"}
+{"loss": 0.10979831, "token_acc": 0.95936281, "grad_norm": 0.72008049, "learning_rate": 5.861e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239189, "epoch": 2.22463602, "global_step/max_steps": "29185/65595", "percentage": "44.49%", "elapsed_time": "1d 9h 53m 34s", "remaining_time": "1d 18h 17m 0s"}
+{"loss": 0.09587051, "token_acc": 0.96432771, "grad_norm": 1.65030754, "learning_rate": 5.86e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239191, "epoch": 2.22501715, "global_step/max_steps": "29190/65595", "percentage": "44.50%", "elapsed_time": "1d 9h 53m 54s", "remaining_time": "1d 18h 16m 37s"}
+{"loss": 0.11553185, "token_acc": 0.95116234, "grad_norm": 1.30759001, "learning_rate": 5.858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239198, "epoch": 2.22539828, "global_step/max_steps": "29195/65595", "percentage": "44.51%", "elapsed_time": "1d 9h 54m 11s", "remaining_time": "1d 18h 16m 12s"}
+{"loss": 0.08010249, "token_acc": 0.97297297, "grad_norm": 0.6939677, "learning_rate": 5.857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239198, "epoch": 2.2257794, "global_step/max_steps": "29200/65595", "percentage": "44.52%", "elapsed_time": "1d 9h 54m 32s", "remaining_time": "1d 18h 15m 51s"}
+{"eval_loss": 0.08711579, "eval_token_acc": 0.96123727, "eval_runtime": 218.3058, "eval_samples_per_second": 2.428, "eval_steps_per_second": 2.428, "epoch": 2.2257794, "global_step/max_steps": "29200/65595", "percentage": "44.52%", "elapsed_time": "1d 9h 58m 10s", "remaining_time": "1d 18h 20m 23s"}
+{"loss": 0.1247252, "token_acc": 0.96067881, "grad_norm": 1.13210166, "learning_rate": 5.856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238782, "epoch": 2.22616053, "global_step/max_steps": "29205/65595", "percentage": "44.52%", "elapsed_time": "1d 9h 58m 25s", "remaining_time": "1d 18h 19m 55s"}
+{"loss": 0.09465096, "token_acc": 0.96300914, "grad_norm": 0.88530231, "learning_rate": 5.855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238788, "epoch": 2.22654166, "global_step/max_steps": "29210/65595", "percentage": "44.53%", "elapsed_time": "1d 9h 58m 43s", "remaining_time": "1d 18h 19m 30s"}
+{"loss": 0.04142474, "token_acc": 0.98368785, "grad_norm": 0.48988605, "learning_rate": 5.854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238789, "epoch": 2.22692278, "global_step/max_steps": "29215/65595", "percentage": "44.54%", "elapsed_time": "1d 9h 59m 4s", "remaining_time": "1d 18h 19m 9s"}
+{"loss": 0.06566023, "token_acc": 0.97258979, "grad_norm": 0.93872631, "learning_rate": 5.853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238797, "epoch": 2.22730391, "global_step/max_steps": "29220/65595", "percentage": "44.55%", "elapsed_time": "1d 9h 59m 21s", "remaining_time": "1d 18h 18m 43s"}
+{"loss": 0.09921016, "token_acc": 0.96852015, "grad_norm": 1.67886508, "learning_rate": 5.851e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238808, "epoch": 2.22768504, "global_step/max_steps": "29225/65595", "percentage": "44.55%", "elapsed_time": "1d 9h 59m 36s", "remaining_time": "1d 18h 18m 15s"}
+{"loss": 0.07443768, "token_acc": 0.97131255, "grad_norm": 1.2840333, "learning_rate": 5.85e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238809, "epoch": 2.22806616, "global_step/max_steps": "29230/65595", "percentage": "44.56%", "elapsed_time": "1d 9h 59m 56s", "remaining_time": "1d 18h 17m 53s"}
+{"loss": 0.08804042, "token_acc": 0.95963303, "grad_norm": 1.21491897, "learning_rate": 5.849e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238818, "epoch": 2.22844729, "global_step/max_steps": "29235/65595", "percentage": "44.57%", "elapsed_time": "1d 10h 0m 13s", "remaining_time": "1d 18h 17m 27s"}
+{"loss": 0.07277495, "token_acc": 0.96900381, "grad_norm": 1.14322305, "learning_rate": 5.848e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238825, "epoch": 2.22882842, "global_step/max_steps": "29240/65595", "percentage": "44.58%", "elapsed_time": "1d 10h 0m 30s", "remaining_time": "1d 18h 17m 1s"}
+{"loss": 0.11627265, "token_acc": 0.96366972, "grad_norm": 0.52751076, "learning_rate": 5.847e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238831, "epoch": 2.22920954, "global_step/max_steps": "29245/65595", "percentage": "44.58%", "elapsed_time": "1d 10h 0m 48s", "remaining_time": "1d 18h 16m 36s"}
+{"loss": 0.06221815, "token_acc": 0.97162529, "grad_norm": 0.61061239, "learning_rate": 5.845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23884, "epoch": 2.22959067, "global_step/max_steps": "29250/65595", "percentage": "44.59%", "elapsed_time": "1d 10h 1m 4s", "remaining_time": "1d 18h 16m 10s"}
+{"loss": 0.0585833, "token_acc": 0.95968826, "grad_norm": 0.74090058, "learning_rate": 5.844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238851, "epoch": 2.2299718, "global_step/max_steps": "29255/65595", "percentage": "44.60%", "elapsed_time": "1d 10h 1m 19s", "remaining_time": "1d 18h 15m 42s"}
+{"loss": 0.11682937, "token_acc": 0.94971635, "grad_norm": 2.71192837, "learning_rate": 5.843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238861, "epoch": 2.23035292, "global_step/max_steps": "29260/65595", "percentage": "44.61%", "elapsed_time": "1d 10h 1m 35s", "remaining_time": "1d 18h 15m 14s"}
+{"loss": 0.10385621, "token_acc": 0.96073517, "grad_norm": 1.14957154, "learning_rate": 5.842e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23887, "epoch": 2.23073405, "global_step/max_steps": "29265/65595", "percentage": "44.61%", "elapsed_time": "1d 10h 1m 51s", "remaining_time": "1d 18h 14m 48s"}
+{"loss": 0.0973209, "token_acc": 0.96182226, "grad_norm": 1.02551389, "learning_rate": 5.841e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238877, "epoch": 2.23111518, "global_step/max_steps": "29270/65595", "percentage": "44.62%", "elapsed_time": "1d 10h 2m 9s", "remaining_time": "1d 18h 14m 22s"}
+{"loss": 0.10010728, "token_acc": 0.96394465, "grad_norm": 1.33678687, "learning_rate": 5.84e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238885, "epoch": 2.2314963, "global_step/max_steps": "29275/65595", "percentage": "44.63%", "elapsed_time": "1d 10h 2m 26s", "remaining_time": "1d 18h 13m 57s"}
+{"loss": 0.12616634, "token_acc": 0.95239923, "grad_norm": 1.10976136, "learning_rate": 5.838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23889, "epoch": 2.23187743, "global_step/max_steps": "29280/65595", "percentage": "44.64%", "elapsed_time": "1d 10h 2m 44s", "remaining_time": "1d 18h 13m 33s"}
+{"loss": 0.05514953, "token_acc": 0.98049765, "grad_norm": 0.5499298, "learning_rate": 5.837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238893, "epoch": 2.23225856, "global_step/max_steps": "29285/65595", "percentage": "44.65%", "elapsed_time": "1d 10h 3m 3s", "remaining_time": "1d 18h 13m 9s"}
+{"loss": 0.14690487, "token_acc": 0.96396966, "grad_norm": 1.90276968, "learning_rate": 5.836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238901, "epoch": 2.23263968, "global_step/max_steps": "29290/65595", "percentage": "44.65%", "elapsed_time": "1d 10h 3m 21s", "remaining_time": "1d 18h 12m 44s"}
+{"loss": 0.08196126, "token_acc": 0.97257605, "grad_norm": 0.79178071, "learning_rate": 5.835e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238903, "epoch": 2.23302081, "global_step/max_steps": "29295/65595", "percentage": "44.66%", "elapsed_time": "1d 10h 3m 40s", "remaining_time": "1d 18h 12m 21s"}
+{"loss": 0.11354115, "token_acc": 0.96482805, "grad_norm": 0.55528498, "learning_rate": 5.834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238901, "epoch": 2.23340194, "global_step/max_steps": "29300/65595", "percentage": "44.67%", "elapsed_time": "1d 10h 4m 2s", "remaining_time": "1d 18h 12m 2s"}
+{"loss": 0.08670985, "token_acc": 0.96702863, "grad_norm": 1.11551082, "learning_rate": 5.832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238909, "epoch": 2.23378306, "global_step/max_steps": "29305/65595", "percentage": "44.68%", "elapsed_time": "1d 10h 4m 19s", "remaining_time": "1d 18h 11m 35s"}
+{"loss": 0.09489326, "token_acc": 0.95904051, "grad_norm": 1.18855369, "learning_rate": 5.831e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238916, "epoch": 2.23416419, "global_step/max_steps": "29310/65595", "percentage": "44.68%", "elapsed_time": "1d 10h 4m 36s", "remaining_time": "1d 18h 11m 10s"}
+{"loss": 0.11890121, "token_acc": 0.95317355, "grad_norm": 1.3075968, "learning_rate": 5.83e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238924, "epoch": 2.23454532, "global_step/max_steps": "29315/65595", "percentage": "44.69%", "elapsed_time": "1d 10h 4m 53s", "remaining_time": "1d 18h 10m 44s"}
+{"loss": 0.0677718, "token_acc": 0.96213749, "grad_norm": 1.11698747, "learning_rate": 5.829e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238934, "epoch": 2.23492644, "global_step/max_steps": "29320/65595", "percentage": "44.70%", "elapsed_time": "1d 10h 5m 9s", "remaining_time": "1d 18h 10m 17s"}
+{"loss": 0.05845197, "token_acc": 0.97406611, "grad_norm": 0.70074499, "learning_rate": 5.828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238939, "epoch": 2.23530757, "global_step/max_steps": "29325/65595", "percentage": "44.71%", "elapsed_time": "1d 10h 5m 27s", "remaining_time": "1d 18h 9m 53s"}
+{"loss": 0.08815939, "token_acc": 0.97095001, "grad_norm": 0.63098341, "learning_rate": 5.827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23895, "epoch": 2.2356887, "global_step/max_steps": "29330/65595", "percentage": "44.71%", "elapsed_time": "1d 10h 5m 43s", "remaining_time": "1d 18h 9m 25s"}
+{"loss": 0.09333097, "token_acc": 0.96900696, "grad_norm": 0.53463531, "learning_rate": 5.825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238959, "epoch": 2.23606982, "global_step/max_steps": "29335/65595", "percentage": "44.72%", "elapsed_time": "1d 10h 5m 59s", "remaining_time": "1d 18h 8m 58s"}
+{"loss": 0.07084049, "token_acc": 0.98103509, "grad_norm": 1.07383561, "learning_rate": 5.824e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238964, "epoch": 2.23645095, "global_step/max_steps": "29340/65595", "percentage": "44.73%", "elapsed_time": "1d 10h 6m 17s", "remaining_time": "1d 18h 8m 34s"}
+{"loss": 0.07830387, "token_acc": 0.97003654, "grad_norm": 0.99121851, "learning_rate": 5.823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238973, "epoch": 2.23683208, "global_step/max_steps": "29345/65595", "percentage": "44.74%", "elapsed_time": "1d 10h 6m 34s", "remaining_time": "1d 18h 8m 8s"}
+{"loss": 0.11806774, "token_acc": 0.95262884, "grad_norm": 0.82079369, "learning_rate": 5.822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238982, "epoch": 2.2372132, "global_step/max_steps": "29350/65595", "percentage": "44.74%", "elapsed_time": "1d 10h 6m 50s", "remaining_time": "1d 18h 7m 41s"}
+{"loss": 0.0851014, "token_acc": 0.9590604, "grad_norm": 0.97397447, "learning_rate": 5.821e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238993, "epoch": 2.23759433, "global_step/max_steps": "29355/65595", "percentage": "44.75%", "elapsed_time": "1d 10h 7m 5s", "remaining_time": "1d 18h 7m 13s"}
+{"loss": 0.11511923, "token_acc": 0.95588856, "grad_norm": 0.84728479, "learning_rate": 5.819e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239, "epoch": 2.23797546, "global_step/max_steps": "29360/65595", "percentage": "44.76%", "elapsed_time": "1d 10h 7m 23s", "remaining_time": "1d 18h 6m 48s"}
+{"loss": 0.08861685, "token_acc": 0.9653821, "grad_norm": 1.83944345, "learning_rate": 5.818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23901, "epoch": 2.23835658, "global_step/max_steps": "29365/65595", "percentage": "44.77%", "elapsed_time": "1d 10h 7m 38s", "remaining_time": "1d 18h 6m 21s"}
+{"loss": 0.05714611, "token_acc": 0.97389506, "grad_norm": 0.67401236, "learning_rate": 5.817e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239019, "epoch": 2.23873771, "global_step/max_steps": "29370/65595", "percentage": "44.77%", "elapsed_time": "1d 10h 7m 55s", "remaining_time": "1d 18h 5m 54s"}
+{"loss": 0.06929715, "token_acc": 0.96736, "grad_norm": 0.81113267, "learning_rate": 5.816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23903, "epoch": 2.23911884, "global_step/max_steps": "29375/65595", "percentage": "44.78%", "elapsed_time": "1d 10h 8m 10s", "remaining_time": "1d 18h 5m 26s"}
+{"loss": 0.08702964, "token_acc": 0.96047228, "grad_norm": 0.63776892, "learning_rate": 5.815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239042, "epoch": 2.23949996, "global_step/max_steps": "29380/65595", "percentage": "44.79%", "elapsed_time": "1d 10h 8m 24s", "remaining_time": "1d 18h 4m 57s"}
+{"loss": 0.11089175, "token_acc": 0.94240542, "grad_norm": 0.3633939, "learning_rate": 5.814e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239053, "epoch": 2.23988109, "global_step/max_steps": "29385/65595", "percentage": "44.80%", "elapsed_time": "1d 10h 8m 40s", "remaining_time": "1d 18h 4m 29s"}
+{"loss": 0.10793364, "token_acc": 0.95081227, "grad_norm": 2.01645494, "learning_rate": 5.812e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239063, "epoch": 2.24026222, "global_step/max_steps": "29390/65595", "percentage": "44.81%", "elapsed_time": "1d 10h 8m 55s", "remaining_time": "1d 18h 4m 2s"}
+{"loss": 0.0727416, "token_acc": 0.96938237, "grad_norm": 1.07458651, "learning_rate": 5.811e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239069, "epoch": 2.24064334, "global_step/max_steps": "29395/65595", "percentage": "44.81%", "elapsed_time": "1d 10h 9m 13s", "remaining_time": "1d 18h 3m 37s"}
+{"loss": 0.12792249, "token_acc": 0.95654526, "grad_norm": 0.885252, "learning_rate": 5.81e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239072, "epoch": 2.24102447, "global_step/max_steps": "29400/65595", "percentage": "44.82%", "elapsed_time": "1d 10h 9m 33s", "remaining_time": "1d 18h 3m 14s"}
+{"eval_loss": 0.09058464, "eval_token_acc": 0.96072526, "eval_runtime": 218.5654, "eval_samples_per_second": 2.425, "eval_steps_per_second": 2.425, "epoch": 2.24102447, "global_step/max_steps": "29400/65595", "percentage": "44.82%", "elapsed_time": "1d 10h 13m 11s", "remaining_time": "1d 18h 7m 43s"}
+{"loss": 0.07672276, "token_acc": 0.96102812, "grad_norm": 6.26781893, "learning_rate": 5.809e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238657, "epoch": 2.24140559, "global_step/max_steps": "29405/65595", "percentage": "44.83%", "elapsed_time": "1d 10h 13m 27s", "remaining_time": "1d 18h 7m 17s"}
+{"loss": 0.10768458, "token_acc": 0.95594525, "grad_norm": 0.88566834, "learning_rate": 5.808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238663, "epoch": 2.24178672, "global_step/max_steps": "29410/65595", "percentage": "44.84%", "elapsed_time": "1d 10h 13m 46s", "remaining_time": "1d 18h 6m 52s"}
+{"loss": 0.05633486, "token_acc": 0.97718121, "grad_norm": 1.15312159, "learning_rate": 5.806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23867, "epoch": 2.24216785, "global_step/max_steps": "29415/65595", "percentage": "44.84%", "elapsed_time": "1d 10h 14m 3s", "remaining_time": "1d 18h 6m 27s"}
+{"loss": 0.08288789, "token_acc": 0.96754564, "grad_norm": 1.02160513, "learning_rate": 5.805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238675, "epoch": 2.24254897, "global_step/max_steps": "29420/65595", "percentage": "44.85%", "elapsed_time": "1d 10h 14m 21s", "remaining_time": "1d 18h 6m 3s"}
+{"loss": 0.12422515, "token_acc": 0.95817855, "grad_norm": 0.59817982, "learning_rate": 5.804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238676, "epoch": 2.2429301, "global_step/max_steps": "29425/65595", "percentage": "44.86%", "elapsed_time": "1d 10h 14m 41s", "remaining_time": "1d 18h 5m 41s"}
+{"loss": 0.07833444, "token_acc": 0.96565934, "grad_norm": 1.07569933, "learning_rate": 5.803e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238687, "epoch": 2.24331123, "global_step/max_steps": "29430/65595", "percentage": "44.87%", "elapsed_time": "1d 10h 14m 57s", "remaining_time": "1d 18h 5m 13s"}
+{"loss": 0.08666514, "token_acc": 0.96612042, "grad_norm": 0.62231767, "learning_rate": 5.802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238697, "epoch": 2.24369235, "global_step/max_steps": "29435/65595", "percentage": "44.87%", "elapsed_time": "1d 10h 15m 13s", "remaining_time": "1d 18h 4m 46s"}
+{"loss": 0.10642174, "token_acc": 0.95603272, "grad_norm": 0.91559744, "learning_rate": 5.801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238707, "epoch": 2.24407348, "global_step/max_steps": "29440/65595", "percentage": "44.88%", "elapsed_time": "1d 10h 15m 28s", "remaining_time": "1d 18h 4m 18s"}
+{"loss": 0.06528845, "token_acc": 0.9736198, "grad_norm": 0.59492147, "learning_rate": 5.799e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238717, "epoch": 2.24445461, "global_step/max_steps": "29445/65595", "percentage": "44.89%", "elapsed_time": "1d 10h 15m 44s", "remaining_time": "1d 18h 3m 52s"}
+{"loss": 0.09364128, "token_acc": 0.95637108, "grad_norm": 0.97910762, "learning_rate": 5.798e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238724, "epoch": 2.24483573, "global_step/max_steps": "29450/65595", "percentage": "44.90%", "elapsed_time": "1d 10h 16m 1s", "remaining_time": "1d 18h 3m 26s"}
+{"loss": 0.09089667, "token_acc": 0.96730132, "grad_norm": 0.62016541, "learning_rate": 5.797e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23873, "epoch": 2.24521686, "global_step/max_steps": "29455/65595", "percentage": "44.90%", "elapsed_time": "1d 10h 16m 19s", "remaining_time": "1d 18h 3m 1s"}
+{"loss": 0.06674985, "token_acc": 0.97298902, "grad_norm": 0.7913779, "learning_rate": 5.796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238739, "epoch": 2.24559799, "global_step/max_steps": "29460/65595", "percentage": "44.91%", "elapsed_time": "1d 10h 16m 35s", "remaining_time": "1d 18h 2m 34s"}
+{"loss": 0.10688748, "token_acc": 0.95954488, "grad_norm": 1.03342676, "learning_rate": 5.795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238752, "epoch": 2.24597911, "global_step/max_steps": "29465/65595", "percentage": "44.92%", "elapsed_time": "1d 10h 16m 50s", "remaining_time": "1d 18h 2m 5s"}
+{"loss": 0.09416915, "token_acc": 0.96206768, "grad_norm": 1.19018447, "learning_rate": 5.793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238764, "epoch": 2.24636024, "global_step/max_steps": "29470/65595", "percentage": "44.93%", "elapsed_time": "1d 10h 17m 5s", "remaining_time": "1d 18h 1m 37s"}
+{"loss": 0.1198869, "token_acc": 0.93475366, "grad_norm": 0.97012228, "learning_rate": 5.792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238776, "epoch": 2.24674137, "global_step/max_steps": "29475/65595", "percentage": "44.93%", "elapsed_time": "1d 10h 17m 19s", "remaining_time": "1d 18h 1m 8s"}
+{"loss": 0.11845667, "token_acc": 0.9386121, "grad_norm": 1.46634054, "learning_rate": 5.791e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238789, "epoch": 2.24712249, "global_step/max_steps": "29480/65595", "percentage": "44.94%", "elapsed_time": "1d 10h 17m 34s", "remaining_time": "1d 18h 0m 39s"}
+{"loss": 0.07939585, "token_acc": 0.97097546, "grad_norm": 0.79540384, "learning_rate": 5.79e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2388, "epoch": 2.24750362, "global_step/max_steps": "29485/65595", "percentage": "44.95%", "elapsed_time": "1d 10h 17m 49s", "remaining_time": "1d 18h 0m 11s"}
+{"loss": 0.0956109, "token_acc": 0.95289079, "grad_norm": 1.06192338, "learning_rate": 5.789e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238813, "epoch": 2.24788475, "global_step/max_steps": "29490/65595", "percentage": "44.96%", "elapsed_time": "1d 10h 18m 3s", "remaining_time": "1d 17h 59m 42s"}
+{"loss": 0.12045505, "token_acc": 0.94575472, "grad_norm": 1.22542691, "learning_rate": 5.788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238821, "epoch": 2.24826587, "global_step/max_steps": "29495/65595", "percentage": "44.97%", "elapsed_time": "1d 10h 18m 20s", "remaining_time": "1d 17h 59m 16s"}
+{"loss": 0.09624773, "token_acc": 0.95667017, "grad_norm": 0.68147153, "learning_rate": 5.786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23883, "epoch": 2.248647, "global_step/max_steps": "29500/65595", "percentage": "44.97%", "elapsed_time": "1d 10h 18m 36s", "remaining_time": "1d 17h 58m 49s"}
+{"loss": 0.11033998, "token_acc": 0.96233468, "grad_norm": 1.74162316, "learning_rate": 5.785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238838, "epoch": 2.24902813, "global_step/max_steps": "29505/65595", "percentage": "44.98%", "elapsed_time": "1d 10h 18m 53s", "remaining_time": "1d 17h 58m 24s"}
+{"loss": 0.12139544, "token_acc": 0.95695559, "grad_norm": 1.30846012, "learning_rate": 5.784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238847, "epoch": 2.24940925, "global_step/max_steps": "29510/65595", "percentage": "44.99%", "elapsed_time": "1d 10h 19m 9s", "remaining_time": "1d 17h 57m 57s"}
+{"loss": 0.1024258, "token_acc": 0.96080016, "grad_norm": 0.98111588, "learning_rate": 5.783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238857, "epoch": 2.24979038, "global_step/max_steps": "29515/65595", "percentage": "45.00%", "elapsed_time": "1d 10h 19m 25s", "remaining_time": "1d 17h 57m 30s"}
+{"loss": 0.11518097, "token_acc": 0.95970023, "grad_norm": 0.86723113, "learning_rate": 5.782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238859, "epoch": 2.25017151, "global_step/max_steps": "29520/65595", "percentage": "45.00%", "elapsed_time": "1d 10h 19m 45s", "remaining_time": "1d 17h 57m 7s"}
+{"loss": 0.08559463, "token_acc": 0.96341751, "grad_norm": 0.90364689, "learning_rate": 5.78e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238869, "epoch": 2.25055263, "global_step/max_steps": "29525/65595", "percentage": "45.01%", "elapsed_time": "1d 10h 20m 1s", "remaining_time": "1d 17h 56m 40s"}
+{"loss": 0.10392361, "token_acc": 0.95799506, "grad_norm": 1.72866929, "learning_rate": 5.779e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238881, "epoch": 2.25093376, "global_step/max_steps": "29530/65595", "percentage": "45.02%", "elapsed_time": "1d 10h 20m 15s", "remaining_time": "1d 17h 56m 12s"}
+{"loss": 0.10353094, "token_acc": 0.95721417, "grad_norm": 0.8602311, "learning_rate": 5.778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238891, "epoch": 2.25131489, "global_step/max_steps": "29535/65595", "percentage": "45.03%", "elapsed_time": "1d 10h 20m 31s", "remaining_time": "1d 17h 55m 44s"}
+{"loss": 0.08912048, "token_acc": 0.96435077, "grad_norm": 0.68589741, "learning_rate": 5.777e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2389, "epoch": 2.25169601, "global_step/max_steps": "29540/65595", "percentage": "45.03%", "elapsed_time": "1d 10h 20m 47s", "remaining_time": "1d 17h 55m 18s"}
+{"loss": 0.09641697, "token_acc": 0.95842897, "grad_norm": 1.40518212, "learning_rate": 5.776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238912, "epoch": 2.25207714, "global_step/max_steps": "29545/65595", "percentage": "45.04%", "elapsed_time": "1d 10h 21m 2s", "remaining_time": "1d 17h 54m 49s"}
+{"loss": 0.09534601, "token_acc": 0.9538131, "grad_norm": 0.7709251, "learning_rate": 5.775e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238923, "epoch": 2.25245827, "global_step/max_steps": "29550/65595", "percentage": "45.05%", "elapsed_time": "1d 10h 21m 17s", "remaining_time": "1d 17h 54m 21s"}
+{"loss": 0.10576582, "token_acc": 0.95583355, "grad_norm": 0.58041078, "learning_rate": 5.773e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238933, "epoch": 2.25283939, "global_step/max_steps": "29555/65595", "percentage": "45.06%", "elapsed_time": "1d 10h 21m 33s", "remaining_time": "1d 17h 53m 54s"}
+{"loss": 0.15266805, "token_acc": 0.94581281, "grad_norm": 1.37575769, "learning_rate": 5.772e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238942, "epoch": 2.25322052, "global_step/max_steps": "29560/65595", "percentage": "45.06%", "elapsed_time": "1d 10h 21m 49s", "remaining_time": "1d 17h 53m 27s"}
+{"loss": 0.10273809, "token_acc": 0.95824386, "grad_norm": 1.22936213, "learning_rate": 5.771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238952, "epoch": 2.25360165, "global_step/max_steps": "29565/65595", "percentage": "45.07%", "elapsed_time": "1d 10h 22m 5s", "remaining_time": "1d 17h 53m 0s"}
+{"loss": 0.14323938, "token_acc": 0.95040214, "grad_norm": 1.18489361, "learning_rate": 5.77e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238965, "epoch": 2.25398277, "global_step/max_steps": "29570/65595", "percentage": "45.08%", "elapsed_time": "1d 10h 22m 19s", "remaining_time": "1d 17h 52m 31s"}
+{"loss": 0.11472356, "token_acc": 0.96050457, "grad_norm": 0.72630495, "learning_rate": 5.769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238963, "epoch": 2.2543639, "global_step/max_steps": "29575/65595", "percentage": "45.09%", "elapsed_time": "1d 10h 22m 41s", "remaining_time": "1d 17h 52m 12s"}
+{"loss": 0.0944252, "token_acc": 0.96770538, "grad_norm": 1.09688604, "learning_rate": 5.767e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238972, "epoch": 2.25474503, "global_step/max_steps": "29580/65595", "percentage": "45.09%", "elapsed_time": "1d 10h 22m 58s", "remaining_time": "1d 17h 51m 45s"}
+{"loss": 0.08288004, "token_acc": 0.97199059, "grad_norm": 1.09928942, "learning_rate": 5.766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238978, "epoch": 2.25512615, "global_step/max_steps": "29585/65595", "percentage": "45.10%", "elapsed_time": "1d 10h 23m 15s", "remaining_time": "1d 17h 51m 20s"}
+{"loss": 0.11388686, "token_acc": 0.94597735, "grad_norm": 0.83279371, "learning_rate": 5.765e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23899, "epoch": 2.25550728, "global_step/max_steps": "29590/65595", "percentage": "45.11%", "elapsed_time": "1d 10h 23m 30s", "remaining_time": "1d 17h 50m 51s"}
+{"loss": 0.11949935, "token_acc": 0.95465347, "grad_norm": 0.83145624, "learning_rate": 5.764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238997, "epoch": 2.25588841, "global_step/max_steps": "29595/65595", "percentage": "45.12%", "elapsed_time": "1d 10h 23m 47s", "remaining_time": "1d 17h 50m 26s"}
+{"loss": 0.14682124, "token_acc": 0.94883242, "grad_norm": 0.70815384, "learning_rate": 5.763e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239009, "epoch": 2.25626953, "global_step/max_steps": "29600/65595", "percentage": "45.13%", "elapsed_time": "1d 10h 24m 2s", "remaining_time": "1d 17h 49m 58s"}
+{"eval_loss": 0.08791313, "eval_token_acc": 0.96130504, "eval_runtime": 218.8732, "eval_samples_per_second": 2.421, "eval_steps_per_second": 2.421, "epoch": 2.25626953, "global_step/max_steps": "29600/65595", "percentage": "45.13%", "elapsed_time": "1d 10h 27m 41s", "remaining_time": "1d 17h 54m 24s"}
+{"loss": 0.08747147, "token_acc": 0.96125567, "grad_norm": 1.12988794, "learning_rate": 5.762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238598, "epoch": 2.25665066, "global_step/max_steps": "29605/65595", "percentage": "45.13%", "elapsed_time": "1d 10h 27m 57s", "remaining_time": "1d 17h 53m 57s"}
+{"loss": 0.08771346, "token_acc": 0.96148777, "grad_norm": 0.46006972, "learning_rate": 5.76e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2386, "epoch": 2.25703179, "global_step/max_steps": "29610/65595", "percentage": "45.14%", "elapsed_time": "1d 10h 28m 16s", "remaining_time": "1d 17h 53m 34s"}
+{"loss": 0.08997403, "token_acc": 0.96543002, "grad_norm": 1.16748059, "learning_rate": 5.759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238608, "epoch": 2.25741291, "global_step/max_steps": "29615/65595", "percentage": "45.15%", "elapsed_time": "1d 10h 28m 33s", "remaining_time": "1d 17h 53m 8s"}
+{"loss": 0.08923696, "token_acc": 0.96326531, "grad_norm": 0.74360543, "learning_rate": 5.758e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238615, "epoch": 2.25779404, "global_step/max_steps": "29620/65595", "percentage": "45.16%", "elapsed_time": "1d 10h 28m 50s", "remaining_time": "1d 17h 52m 43s"}
+{"loss": 0.15548186, "token_acc": 0.94317161, "grad_norm": 2.73691463, "learning_rate": 5.757e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238624, "epoch": 2.25817517, "global_step/max_steps": "29625/65595", "percentage": "45.16%", "elapsed_time": "1d 10h 29m 6s", "remaining_time": "1d 17h 52m 16s"}
+{"loss": 0.09119838, "token_acc": 0.96628375, "grad_norm": 1.33556521, "learning_rate": 5.756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238628, "epoch": 2.25855629, "global_step/max_steps": "29630/65595", "percentage": "45.17%", "elapsed_time": "1d 10h 29m 26s", "remaining_time": "1d 17h 51m 53s"}
+{"loss": 0.08210404, "token_acc": 0.97076381, "grad_norm": 1.36735773, "learning_rate": 5.754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238633, "epoch": 2.25893742, "global_step/max_steps": "29635/65595", "percentage": "45.18%", "elapsed_time": "1d 10h 29m 44s", "remaining_time": "1d 17h 51m 28s"}
+{"loss": 0.08508868, "token_acc": 0.96220302, "grad_norm": 0.92916977, "learning_rate": 5.753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238644, "epoch": 2.25931855, "global_step/max_steps": "29640/65595", "percentage": "45.19%", "elapsed_time": "1d 10h 29m 59s", "remaining_time": "1d 17h 51m 1s"}
+{"loss": 0.15558941, "token_acc": 0.9452253, "grad_norm": 0.74196631, "learning_rate": 5.752e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238654, "epoch": 2.25969967, "global_step/max_steps": "29645/65595", "percentage": "45.19%", "elapsed_time": "1d 10h 30m 15s", "remaining_time": "1d 17h 50m 34s"}
+{"loss": 0.09023836, "token_acc": 0.9625, "grad_norm": 0.94771886, "learning_rate": 5.751e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238664, "epoch": 2.2600808, "global_step/max_steps": "29650/65595", "percentage": "45.20%", "elapsed_time": "1d 10h 30m 31s", "remaining_time": "1d 17h 50m 6s"}
+{"loss": 0.07207101, "token_acc": 0.97477745, "grad_norm": 0.9495424, "learning_rate": 5.75e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238672, "epoch": 2.26046193, "global_step/max_steps": "29655/65595", "percentage": "45.21%", "elapsed_time": "1d 10h 30m 47s", "remaining_time": "1d 17h 49m 40s"}
+{"loss": 0.11563383, "token_acc": 0.94738101, "grad_norm": 1.36116266, "learning_rate": 5.749e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238683, "epoch": 2.26084305, "global_step/max_steps": "29660/65595", "percentage": "45.22%", "elapsed_time": "1d 10h 31m 3s", "remaining_time": "1d 17h 49m 12s"}
+{"loss": 0.09074771, "token_acc": 0.96991012, "grad_norm": 1.33616281, "learning_rate": 5.747e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238689, "epoch": 2.26122418, "global_step/max_steps": "29665/65595", "percentage": "45.22%", "elapsed_time": "1d 10h 31m 20s", "remaining_time": "1d 17h 48m 47s"}
+{"loss": 0.13604289, "token_acc": 0.95829662, "grad_norm": 1.24179637, "learning_rate": 5.746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238697, "epoch": 2.26160531, "global_step/max_steps": "29670/65595", "percentage": "45.23%", "elapsed_time": "1d 10h 31m 37s", "remaining_time": "1d 17h 48m 21s"}
+{"loss": 0.07404351, "token_acc": 0.9682761, "grad_norm": 0.55911779, "learning_rate": 5.745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238702, "epoch": 2.26198643, "global_step/max_steps": "29675/65595", "percentage": "45.24%", "elapsed_time": "1d 10h 31m 55s", "remaining_time": "1d 17h 47m 57s"}
+{"loss": 0.08617293, "token_acc": 0.96604938, "grad_norm": 1.38859081, "learning_rate": 5.744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23871, "epoch": 2.26236756, "global_step/max_steps": "29680/65595", "percentage": "45.25%", "elapsed_time": "1d 10h 32m 12s", "remaining_time": "1d 17h 47m 31s"}
+{"loss": 0.07827628, "token_acc": 0.96457831, "grad_norm": 1.28339005, "learning_rate": 5.743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23872, "epoch": 2.26274869, "global_step/max_steps": "29685/65595", "percentage": "45.25%", "elapsed_time": "1d 10h 32m 28s", "remaining_time": "1d 17h 47m 4s"}
+{"loss": 0.10113543, "token_acc": 0.96081444, "grad_norm": 0.40393743, "learning_rate": 5.741e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238724, "epoch": 2.26312981, "global_step/max_steps": "29690/65595", "percentage": "45.26%", "elapsed_time": "1d 10h 32m 47s", "remaining_time": "1d 17h 46m 40s"}
+{"loss": 0.09870998, "token_acc": 0.96111975, "grad_norm": 0.95617104, "learning_rate": 5.74e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238735, "epoch": 2.26351094, "global_step/max_steps": "29695/65595", "percentage": "45.27%", "elapsed_time": "1d 10h 33m 2s", "remaining_time": "1d 17h 46m 13s"}
+{"loss": 0.10019593, "token_acc": 0.9648357, "grad_norm": 1.16798759, "learning_rate": 5.739e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23874, "epoch": 2.26389206, "global_step/max_steps": "29700/65595", "percentage": "45.28%", "elapsed_time": "1d 10h 33m 20s", "remaining_time": "1d 17h 45m 49s"}
+{"loss": 0.09572029, "token_acc": 0.9673032, "grad_norm": 1.29886627, "learning_rate": 5.738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238746, "epoch": 2.26427319, "global_step/max_steps": "29705/65595", "percentage": "45.29%", "elapsed_time": "1d 10h 33m 38s", "remaining_time": "1d 17h 45m 24s"}
+{"loss": 0.11107032, "token_acc": 0.96952039, "grad_norm": 0.77346206, "learning_rate": 5.737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238754, "epoch": 2.26465432, "global_step/max_steps": "29710/65595", "percentage": "45.29%", "elapsed_time": "1d 10h 33m 55s", "remaining_time": "1d 17h 44m 58s"}
+{"loss": 0.08022346, "token_acc": 0.96503026, "grad_norm": 0.79568511, "learning_rate": 5.735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238758, "epoch": 2.26503544, "global_step/max_steps": "29715/65595", "percentage": "45.30%", "elapsed_time": "1d 10h 34m 14s", "remaining_time": "1d 17h 44m 35s"}
+{"loss": 0.12027335, "token_acc": 0.95213904, "grad_norm": 0.83813554, "learning_rate": 5.734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238767, "epoch": 2.26541657, "global_step/max_steps": "29720/65595", "percentage": "45.31%", "elapsed_time": "1d 10h 34m 30s", "remaining_time": "1d 17h 44m 8s"}
+{"loss": 0.12544904, "token_acc": 0.958295, "grad_norm": 0.80903411, "learning_rate": 5.733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238779, "epoch": 2.2657977, "global_step/max_steps": "29725/65595", "percentage": "45.32%", "elapsed_time": "1d 10h 34m 45s", "remaining_time": "1d 17h 43m 40s"}
+{"loss": 0.09208222, "token_acc": 0.96638102, "grad_norm": 1.29902124, "learning_rate": 5.732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238784, "epoch": 2.26617882, "global_step/max_steps": "29730/65595", "percentage": "45.32%", "elapsed_time": "1d 10h 35m 3s", "remaining_time": "1d 17h 43m 15s"}
+{"loss": 0.08643304, "token_acc": 0.95753755, "grad_norm": 0.8209585, "learning_rate": 5.731e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238791, "epoch": 2.26655995, "global_step/max_steps": "29735/65595", "percentage": "45.33%", "elapsed_time": "1d 10h 35m 20s", "remaining_time": "1d 17h 42m 50s"}
+{"loss": 0.11500523, "token_acc": 0.95812901, "grad_norm": 0.71076721, "learning_rate": 5.73e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238797, "epoch": 2.26694108, "global_step/max_steps": "29740/65595", "percentage": "45.34%", "elapsed_time": "1d 10h 35m 38s", "remaining_time": "1d 17h 42m 25s"}
+{"loss": 0.07381319, "token_acc": 0.97116091, "grad_norm": 0.57414365, "learning_rate": 5.728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238804, "epoch": 2.2673222, "global_step/max_steps": "29745/65595", "percentage": "45.35%", "elapsed_time": "1d 10h 35m 55s", "remaining_time": "1d 17h 42m 0s"}
+{"loss": 0.08745783, "token_acc": 0.96842926, "grad_norm": 1.24468303, "learning_rate": 5.727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238805, "epoch": 2.26770333, "global_step/max_steps": "29750/65595", "percentage": "45.35%", "elapsed_time": "1d 10h 36m 16s", "remaining_time": "1d 17h 41m 38s"}
+{"loss": 0.15346014, "token_acc": 0.95453463, "grad_norm": 0.73231781, "learning_rate": 5.726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238812, "epoch": 2.26808446, "global_step/max_steps": "29755/65595", "percentage": "45.36%", "elapsed_time": "1d 10h 36m 33s", "remaining_time": "1d 17h 41m 13s"}
+{"loss": 0.12426349, "token_acc": 0.93733493, "grad_norm": 1.61053276, "learning_rate": 5.725e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238822, "epoch": 2.26846558, "global_step/max_steps": "29760/65595", "percentage": "45.37%", "elapsed_time": "1d 10h 36m 49s", "remaining_time": "1d 17h 40m 46s"}
+{"loss": 0.09517564, "token_acc": 0.95550351, "grad_norm": 1.0090878, "learning_rate": 5.724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238835, "epoch": 2.26884671, "global_step/max_steps": "29765/65595", "percentage": "45.38%", "elapsed_time": "1d 10h 37m 3s", "remaining_time": "1d 17h 40m 17s"}
+{"loss": 0.09699451, "token_acc": 0.97142857, "grad_norm": 1.63459218, "learning_rate": 5.722e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238839, "epoch": 2.26922784, "global_step/max_steps": "29770/65595", "percentage": "45.38%", "elapsed_time": "1d 10h 37m 22s", "remaining_time": "1d 17h 39m 53s"}
+{"loss": 0.12385166, "token_acc": 0.95175944, "grad_norm": 0.86331517, "learning_rate": 5.721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238842, "epoch": 2.26960896, "global_step/max_steps": "29775/65595", "percentage": "45.39%", "elapsed_time": "1d 10h 37m 41s", "remaining_time": "1d 17h 39m 30s"}
+{"loss": 0.08616209, "token_acc": 0.96563193, "grad_norm": 1.07572019, "learning_rate": 5.72e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238852, "epoch": 2.26999009, "global_step/max_steps": "29780/65595", "percentage": "45.40%", "elapsed_time": "1d 10h 37m 57s", "remaining_time": "1d 17h 39m 3s"}
+{"loss": 0.10710897, "token_acc": 0.93677471, "grad_norm": 0.60884476, "learning_rate": 5.719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238865, "epoch": 2.27037122, "global_step/max_steps": "29785/65595", "percentage": "45.41%", "elapsed_time": "1d 10h 38m 11s", "remaining_time": "1d 17h 38m 34s"}
+{"loss": 0.09238346, "token_acc": 0.96396867, "grad_norm": 0.92210454, "learning_rate": 5.718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238873, "epoch": 2.27075234, "global_step/max_steps": "29790/65595", "percentage": "45.42%", "elapsed_time": "1d 10h 38m 28s", "remaining_time": "1d 17h 38m 8s"}
+{"loss": 0.08590492, "token_acc": 0.96955773, "grad_norm": 0.99623913, "learning_rate": 5.717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238881, "epoch": 2.27113347, "global_step/max_steps": "29795/65595", "percentage": "45.42%", "elapsed_time": "1d 10h 38m 45s", "remaining_time": "1d 17h 37m 42s"}
+{"loss": 0.11061416, "token_acc": 0.95899948, "grad_norm": 1.08822775, "learning_rate": 5.715e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23889, "epoch": 2.2715146, "global_step/max_steps": "29800/65595", "percentage": "45.43%", "elapsed_time": "1d 10h 39m 1s", "remaining_time": "1d 17h 37m 15s"}
+{"eval_loss": 0.08697598, "eval_token_acc": 0.96153846, "eval_runtime": 219.757, "eval_samples_per_second": 2.412, "eval_steps_per_second": 2.412, "epoch": 2.2715146, "global_step/max_steps": "29800/65595", "percentage": "45.43%", "elapsed_time": "1d 10h 42m 40s", "remaining_time": "1d 17h 41m 39s"}
+{"loss": 0.06047337, "token_acc": 0.96192927, "grad_norm": 0.67437065, "learning_rate": 5.714e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238479, "epoch": 2.27189572, "global_step/max_steps": "29805/65595", "percentage": "45.44%", "elapsed_time": "1d 10h 42m 57s", "remaining_time": "1d 17h 41m 13s"}
+{"loss": 0.12391582, "token_acc": 0.96126594, "grad_norm": 1.25122035, "learning_rate": 5.713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238489, "epoch": 2.27227685, "global_step/max_steps": "29810/65595", "percentage": "45.45%", "elapsed_time": "1d 10h 43m 12s", "remaining_time": "1d 17h 40m 45s"}
+{"loss": 0.12657305, "token_acc": 0.95066372, "grad_norm": 0.75353903, "learning_rate": 5.712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238498, "epoch": 2.27265798, "global_step/max_steps": "29815/65595", "percentage": "45.45%", "elapsed_time": "1d 10h 43m 29s", "remaining_time": "1d 17h 40m 19s"}
+{"loss": 0.1016354, "token_acc": 0.9567676, "grad_norm": 0.90326315, "learning_rate": 5.711e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238502, "epoch": 2.2730391, "global_step/max_steps": "29820/65595", "percentage": "45.46%", "elapsed_time": "1d 10h 43m 48s", "remaining_time": "1d 17h 39m 56s"}
+{"loss": 0.09974837, "token_acc": 0.9639019, "grad_norm": 1.33348215, "learning_rate": 5.709e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238511, "epoch": 2.27342023, "global_step/max_steps": "29825/65595", "percentage": "45.47%", "elapsed_time": "1d 10h 44m 4s", "remaining_time": "1d 17h 39m 29s"}
+{"loss": 0.11560415, "token_acc": 0.95808053, "grad_norm": 1.12914407, "learning_rate": 5.708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238525, "epoch": 2.27380136, "global_step/max_steps": "29830/65595", "percentage": "45.48%", "elapsed_time": "1d 10h 44m 18s", "remaining_time": "1d 17h 38m 59s"}
+{"loss": 0.06047349, "token_acc": 0.95876011, "grad_norm": 0.57546121, "learning_rate": 5.707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238535, "epoch": 2.27418248, "global_step/max_steps": "29835/65595", "percentage": "45.48%", "elapsed_time": "1d 10h 44m 33s", "remaining_time": "1d 17h 38m 32s"}
+{"loss": 0.10287492, "token_acc": 0.96116696, "grad_norm": 0.74548709, "learning_rate": 5.706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238543, "epoch": 2.27456361, "global_step/max_steps": "29840/65595", "percentage": "45.49%", "elapsed_time": "1d 10h 44m 50s", "remaining_time": "1d 17h 38m 6s"}
+{"loss": 0.08376377, "token_acc": 0.96937698, "grad_norm": 2.07847929, "learning_rate": 5.705e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238549, "epoch": 2.27494474, "global_step/max_steps": "29845/65595", "percentage": "45.50%", "elapsed_time": "1d 10h 45m 8s", "remaining_time": "1d 17h 37m 41s"}
+{"loss": 0.12300379, "token_acc": 0.95708583, "grad_norm": 1.61205983, "learning_rate": 5.703e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238555, "epoch": 2.27532586, "global_step/max_steps": "29850/65595", "percentage": "45.51%", "elapsed_time": "1d 10h 45m 25s", "remaining_time": "1d 17h 37m 16s"}
+{"loss": 0.0875345, "token_acc": 0.96685083, "grad_norm": 1.0315547, "learning_rate": 5.702e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23856, "epoch": 2.27570699, "global_step/max_steps": "29855/65595", "percentage": "45.51%", "elapsed_time": "1d 10h 45m 44s", "remaining_time": "1d 17h 36m 52s"}
+{"loss": 0.10325458, "token_acc": 0.9606867, "grad_norm": 1.28076839, "learning_rate": 5.701e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238568, "epoch": 2.27608812, "global_step/max_steps": "29860/65595", "percentage": "45.52%", "elapsed_time": "1d 10h 46m 1s", "remaining_time": "1d 17h 36m 26s"}
+{"loss": 0.10515726, "token_acc": 0.95728271, "grad_norm": 1.04224467, "learning_rate": 5.7e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238578, "epoch": 2.27646924, "global_step/max_steps": "29865/65595", "percentage": "45.53%", "elapsed_time": "1d 10h 46m 16s", "remaining_time": "1d 17h 35m 59s"}
+{"loss": 0.10018111, "token_acc": 0.9560678, "grad_norm": 0.93098319, "learning_rate": 5.699e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238579, "epoch": 2.27685037, "global_step/max_steps": "29870/65595", "percentage": "45.54%", "elapsed_time": "1d 10h 46m 37s", "remaining_time": "1d 17h 35m 38s"}
+{"loss": 0.11318085, "token_acc": 0.95316537, "grad_norm": 1.67479646, "learning_rate": 5.698e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238589, "epoch": 2.2772315, "global_step/max_steps": "29875/65595", "percentage": "45.54%", "elapsed_time": "1d 10h 46m 52s", "remaining_time": "1d 17h 35m 10s"}
+{"loss": 0.09756169, "token_acc": 0.95220475, "grad_norm": 0.7955398, "learning_rate": 5.696e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2386, "epoch": 2.27761262, "global_step/max_steps": "29880/65595", "percentage": "45.55%", "elapsed_time": "1d 10h 47m 8s", "remaining_time": "1d 17h 34m 42s"}
+{"loss": 0.111912, "token_acc": 0.95900045, "grad_norm": 0.53791273, "learning_rate": 5.695e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238605, "epoch": 2.27799375, "global_step/max_steps": "29885/65595", "percentage": "45.56%", "elapsed_time": "1d 10h 47m 26s", "remaining_time": "1d 17h 34m 18s"}
+{"loss": 0.07625535, "token_acc": 0.97131801, "grad_norm": 1.4161855, "learning_rate": 5.694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238613, "epoch": 2.27837488, "global_step/max_steps": "29890/65595", "percentage": "45.57%", "elapsed_time": "1d 10h 47m 43s", "remaining_time": "1d 17h 33m 52s"}
+{"loss": 0.06954214, "token_acc": 0.97575567, "grad_norm": 0.7542302, "learning_rate": 5.693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238615, "epoch": 2.278756, "global_step/max_steps": "29895/65595", "percentage": "45.58%", "elapsed_time": "1d 10h 48m 3s", "remaining_time": "1d 17h 33m 30s"}
+{"loss": 0.11200728, "token_acc": 0.96325007, "grad_norm": 1.1198467, "learning_rate": 5.692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238616, "epoch": 2.27913713, "global_step/max_steps": "29900/65595", "percentage": "45.58%", "elapsed_time": "1d 10h 48m 23s", "remaining_time": "1d 17h 33m 9s"}
+{"loss": 0.07136114, "token_acc": 0.9792855, "grad_norm": 0.6305238, "learning_rate": 5.69e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238618, "epoch": 2.27951826, "global_step/max_steps": "29905/65595", "percentage": "45.59%", "elapsed_time": "1d 10h 48m 43s", "remaining_time": "1d 17h 32m 46s"}
+{"loss": 0.11996428, "token_acc": 0.96140351, "grad_norm": 1.36541069, "learning_rate": 5.689e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238624, "epoch": 2.27989938, "global_step/max_steps": "29910/65595", "percentage": "45.60%", "elapsed_time": "1d 10h 49m 1s", "remaining_time": "1d 17h 32m 21s"}
+{"loss": 0.05447434, "token_acc": 0.97867235, "grad_norm": 0.53356731, "learning_rate": 5.688e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238636, "epoch": 2.28028051, "global_step/max_steps": "29915/65595", "percentage": "45.61%", "elapsed_time": "1d 10h 49m 16s", "remaining_time": "1d 17h 31m 54s"}
+{"loss": 0.12166061, "token_acc": 0.95465916, "grad_norm": 1.27907991, "learning_rate": 5.687e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238646, "epoch": 2.28066164, "global_step/max_steps": "29920/65595", "percentage": "45.61%", "elapsed_time": "1d 10h 49m 31s", "remaining_time": "1d 17h 31m 26s"}
+{"loss": 0.08063465, "token_acc": 0.96604741, "grad_norm": 0.96054184, "learning_rate": 5.686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238653, "epoch": 2.28104276, "global_step/max_steps": "29925/65595", "percentage": "45.62%", "elapsed_time": "1d 10h 49m 48s", "remaining_time": "1d 17h 31m 0s"}
+{"loss": 0.08080206, "token_acc": 0.97128946, "grad_norm": 0.91658682, "learning_rate": 5.685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238659, "epoch": 2.28142389, "global_step/max_steps": "29930/65595", "percentage": "45.63%", "elapsed_time": "1d 10h 50m 6s", "remaining_time": "1d 17h 30m 36s"}
+{"loss": 0.10593725, "token_acc": 0.95865672, "grad_norm": 0.85723108, "learning_rate": 5.683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238663, "epoch": 2.28180502, "global_step/max_steps": "29935/65595", "percentage": "45.64%", "elapsed_time": "1d 10h 50m 25s", "remaining_time": "1d 17h 30m 13s"}
+{"loss": 0.07412965, "token_acc": 0.96957123, "grad_norm": 0.58229297, "learning_rate": 5.682e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238666, "epoch": 2.28218614, "global_step/max_steps": "29940/65595", "percentage": "45.64%", "elapsed_time": "1d 10h 50m 45s", "remaining_time": "1d 17h 29m 50s"}
+{"loss": 0.08544888, "token_acc": 0.96774194, "grad_norm": 1.13028491, "learning_rate": 5.681e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238672, "epoch": 2.28256727, "global_step/max_steps": "29945/65595", "percentage": "45.65%", "elapsed_time": "1d 10h 51m 3s", "remaining_time": "1d 17h 29m 25s"}
+{"loss": 0.14741197, "token_acc": 0.93713855, "grad_norm": 1.96056628, "learning_rate": 5.68e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23868, "epoch": 2.2829484, "global_step/max_steps": "29950/65595", "percentage": "45.66%", "elapsed_time": "1d 10h 51m 19s", "remaining_time": "1d 17h 28m 59s"}
+{"loss": 0.12397966, "token_acc": 0.95442231, "grad_norm": 1.43601012, "learning_rate": 5.679e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238686, "epoch": 2.28332952, "global_step/max_steps": "29955/65595", "percentage": "45.67%", "elapsed_time": "1d 10h 51m 37s", "remaining_time": "1d 17h 28m 34s"}
+{"loss": 0.09912844, "token_acc": 0.95900755, "grad_norm": 0.76673055, "learning_rate": 5.677e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238692, "epoch": 2.28371065, "global_step/max_steps": "29960/65595", "percentage": "45.67%", "elapsed_time": "1d 10h 51m 54s", "remaining_time": "1d 17h 28m 9s"}
+{"loss": 0.09029558, "token_acc": 0.96045477, "grad_norm": 1.45473659, "learning_rate": 5.676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238699, "epoch": 2.28409178, "global_step/max_steps": "29965/65595", "percentage": "45.68%", "elapsed_time": "1d 10h 52m 12s", "remaining_time": "1d 17h 27m 44s"}
+{"loss": 0.04767585, "token_acc": 0.97794499, "grad_norm": 1.05445313, "learning_rate": 5.675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238709, "epoch": 2.2844729, "global_step/max_steps": "29970/65595", "percentage": "45.69%", "elapsed_time": "1d 10h 52m 28s", "remaining_time": "1d 17h 27m 17s"}
+{"loss": 0.09997313, "token_acc": 0.95468114, "grad_norm": 1.15609431, "learning_rate": 5.674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238719, "epoch": 2.28485403, "global_step/max_steps": "29975/65595", "percentage": "45.70%", "elapsed_time": "1d 10h 52m 43s", "remaining_time": "1d 17h 26m 50s"}
+{"loss": 0.10029778, "token_acc": 0.95847176, "grad_norm": 0.82647604, "learning_rate": 5.673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238729, "epoch": 2.28523516, "global_step/max_steps": "29980/65595", "percentage": "45.70%", "elapsed_time": "1d 10h 52m 59s", "remaining_time": "1d 17h 26m 23s"}
+{"loss": 0.10831784, "token_acc": 0.96211523, "grad_norm": 0.81458348, "learning_rate": 5.671e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238736, "epoch": 2.28561628, "global_step/max_steps": "29985/65595", "percentage": "45.71%", "elapsed_time": "1d 10h 53m 16s", "remaining_time": "1d 17h 25m 58s"}
+{"loss": 0.07515094, "token_acc": 0.97839564, "grad_norm": 0.82197642, "learning_rate": 5.67e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238742, "epoch": 2.28599741, "global_step/max_steps": "29990/65595", "percentage": "45.72%", "elapsed_time": "1d 10h 53m 34s", "remaining_time": "1d 17h 25m 33s"}
+{"loss": 0.09011992, "token_acc": 0.96239113, "grad_norm": 0.9681378, "learning_rate": 5.669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238753, "epoch": 2.28637853, "global_step/max_steps": "29995/65595", "percentage": "45.73%", "elapsed_time": "1d 10h 53m 49s", "remaining_time": "1d 17h 25m 5s"}
+{"loss": 0.09410816, "token_acc": 0.96967963, "grad_norm": 0.80319285, "learning_rate": 5.668e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238763, "epoch": 2.28675966, "global_step/max_steps": "30000/65595", "percentage": "45.74%", "elapsed_time": "1d 10h 54m 5s", "remaining_time": "1d 17h 24m 38s"}
+{"eval_loss": 0.08565158, "eval_token_acc": 0.9615234, "eval_runtime": 220.3841, "eval_samples_per_second": 2.405, "eval_steps_per_second": 2.405, "epoch": 2.28675966, "global_step/max_steps": "30000/65595", "percentage": "45.74%", "elapsed_time": "1d 10h 57m 45s", "remaining_time": "1d 17h 28m 59s"}
+{"loss": 0.1222603, "token_acc": 0.96129218, "grad_norm": 1.60188854, "learning_rate": 5.667e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238357, "epoch": 2.28714079, "global_step/max_steps": "30005/65595", "percentage": "45.74%", "elapsed_time": "1d 10h 58m 0s", "remaining_time": "1d 17h 28m 31s"}
+{"loss": 0.06646476, "token_acc": 0.96988528, "grad_norm": 0.78538281, "learning_rate": 5.666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238366, "epoch": 2.28752191, "global_step/max_steps": "30010/65595", "percentage": "45.75%", "elapsed_time": "1d 10h 58m 16s", "remaining_time": "1d 17h 28m 4s"}
+{"loss": 0.10731363, "token_acc": 0.96166918, "grad_norm": 1.64453983, "learning_rate": 5.664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238374, "epoch": 2.28790304, "global_step/max_steps": "30015/65595", "percentage": "45.76%", "elapsed_time": "1d 10h 58m 33s", "remaining_time": "1d 17h 27m 38s"}
+{"loss": 0.07839056, "token_acc": 0.96861734, "grad_norm": 0.79354179, "learning_rate": 5.663e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238381, "epoch": 2.28828417, "global_step/max_steps": "30020/65595", "percentage": "45.77%", "elapsed_time": "1d 10h 58m 50s", "remaining_time": "1d 17h 27m 13s"}
+{"loss": 0.11483265, "token_acc": 0.94984917, "grad_norm": 0.85704774, "learning_rate": 5.662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238392, "epoch": 2.28866529, "global_step/max_steps": "30025/65595", "percentage": "45.77%", "elapsed_time": "1d 10h 59m 5s", "remaining_time": "1d 17h 26m 45s"}
+{"loss": 0.10661364, "token_acc": 0.95097332, "grad_norm": 0.63426656, "learning_rate": 5.661e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238401, "epoch": 2.28904642, "global_step/max_steps": "30030/65595", "percentage": "45.78%", "elapsed_time": "1d 10h 59m 22s", "remaining_time": "1d 17h 26m 18s"}
+{"loss": 0.06097149, "token_acc": 0.97638167, "grad_norm": 0.43244404, "learning_rate": 5.66e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238413, "epoch": 2.28942755, "global_step/max_steps": "30035/65595", "percentage": "45.79%", "elapsed_time": "1d 10h 59m 36s", "remaining_time": "1d 17h 25m 50s"}
+{"loss": 0.08567941, "token_acc": 0.97218124, "grad_norm": 1.03323531, "learning_rate": 5.658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23842, "epoch": 2.28980867, "global_step/max_steps": "30040/65595", "percentage": "45.80%", "elapsed_time": "1d 10h 59m 54s", "remaining_time": "1d 17h 25m 25s"}
+{"loss": 0.10466337, "token_acc": 0.95248288, "grad_norm": 0.86968911, "learning_rate": 5.657e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238432, "epoch": 2.2901898, "global_step/max_steps": "30045/65595", "percentage": "45.80%", "elapsed_time": "1d 11h 0m 8s", "remaining_time": "1d 17h 24m 56s"}
+{"loss": 0.08469771, "token_acc": 0.96618836, "grad_norm": 0.53348368, "learning_rate": 5.656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238437, "epoch": 2.29057093, "global_step/max_steps": "30050/65595", "percentage": "45.81%", "elapsed_time": "1d 11h 0m 26s", "remaining_time": "1d 17h 24m 32s"}
+{"loss": 0.08297701, "token_acc": 0.96758558, "grad_norm": 0.47972542, "learning_rate": 5.655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238448, "epoch": 2.29095205, "global_step/max_steps": "30055/65595", "percentage": "45.82%", "elapsed_time": "1d 11h 0m 41s", "remaining_time": "1d 17h 24m 4s"}
+{"loss": 0.08949803, "token_acc": 0.96364708, "grad_norm": 0.91111696, "learning_rate": 5.654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238456, "epoch": 2.29133318, "global_step/max_steps": "30060/65595", "percentage": "45.83%", "elapsed_time": "1d 11h 0m 58s", "remaining_time": "1d 17h 23m 38s"}
+{"loss": 0.07388848, "token_acc": 0.96450724, "grad_norm": 1.38191497, "learning_rate": 5.652e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238467, "epoch": 2.29171431, "global_step/max_steps": "30065/65595", "percentage": "45.83%", "elapsed_time": "1d 11h 1m 13s", "remaining_time": "1d 17h 23m 10s"}
+{"loss": 0.09306795, "token_acc": 0.96051687, "grad_norm": 0.64429599, "learning_rate": 5.651e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238478, "epoch": 2.29209543, "global_step/max_steps": "30070/65595", "percentage": "45.84%", "elapsed_time": "1d 11h 1m 29s", "remaining_time": "1d 17h 22m 42s"}
+{"loss": 0.10841739, "token_acc": 0.95096994, "grad_norm": 1.34242821, "learning_rate": 5.65e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238487, "epoch": 2.29247656, "global_step/max_steps": "30075/65595", "percentage": "45.85%", "elapsed_time": "1d 11h 1m 45s", "remaining_time": "1d 17h 22m 16s"}
+{"loss": 0.11086174, "token_acc": 0.96160697, "grad_norm": 1.4731406, "learning_rate": 5.649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238495, "epoch": 2.29285769, "global_step/max_steps": "30080/65595", "percentage": "45.86%", "elapsed_time": "1d 11h 2m 2s", "remaining_time": "1d 17h 21m 50s"}
+{"loss": 0.17720168, "token_acc": 0.93812342, "grad_norm": 1.05408776, "learning_rate": 5.648e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238501, "epoch": 2.29323881, "global_step/max_steps": "30085/65595", "percentage": "45.86%", "elapsed_time": "1d 11h 2m 19s", "remaining_time": "1d 17h 21m 25s"}
+{"loss": 0.08904974, "token_acc": 0.95910103, "grad_norm": 0.85995436, "learning_rate": 5.647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238509, "epoch": 2.29361994, "global_step/max_steps": "30090/65595", "percentage": "45.87%", "elapsed_time": "1d 11h 2m 36s", "remaining_time": "1d 17h 20m 59s"}
+{"loss": 0.07328203, "token_acc": 0.97153962, "grad_norm": 1.15958917, "learning_rate": 5.645e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238512, "epoch": 2.29400107, "global_step/max_steps": "30095/65595", "percentage": "45.88%", "elapsed_time": "1d 11h 2m 55s", "remaining_time": "1d 17h 20m 36s"}
+{"loss": 0.12958072, "token_acc": 0.94701349, "grad_norm": 1.21380806, "learning_rate": 5.644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238521, "epoch": 2.29438219, "global_step/max_steps": "30100/65595", "percentage": "45.89%", "elapsed_time": "1d 11h 3m 12s", "remaining_time": "1d 17h 20m 10s"}
+{"loss": 0.1044516, "token_acc": 0.96203474, "grad_norm": 0.55166894, "learning_rate": 5.643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238529, "epoch": 2.29476332, "global_step/max_steps": "30105/65595", "percentage": "45.90%", "elapsed_time": "1d 11h 3m 28s", "remaining_time": "1d 17h 19m 44s"}
+{"loss": 0.10232421, "token_acc": 0.9625902, "grad_norm": 1.00840724, "learning_rate": 5.642e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238535, "epoch": 2.29514445, "global_step/max_steps": "30110/65595", "percentage": "45.90%", "elapsed_time": "1d 11h 3m 46s", "remaining_time": "1d 17h 19m 19s"}
+{"loss": 0.08904439, "token_acc": 0.95321429, "grad_norm": 1.09572351, "learning_rate": 5.641e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238548, "epoch": 2.29552557, "global_step/max_steps": "30115/65595", "percentage": "45.91%", "elapsed_time": "1d 11h 4m 0s", "remaining_time": "1d 17h 18m 50s"}
+{"loss": 0.09481902, "token_acc": 0.96388731, "grad_norm": 1.43300319, "learning_rate": 5.639e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238555, "epoch": 2.2959067, "global_step/max_steps": "30120/65595", "percentage": "45.92%", "elapsed_time": "1d 11h 4m 17s", "remaining_time": "1d 17h 18m 25s"}
+{"loss": 0.092878, "token_acc": 0.96192953, "grad_norm": 0.65764713, "learning_rate": 5.638e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238564, "epoch": 2.29628783, "global_step/max_steps": "30125/65595", "percentage": "45.93%", "elapsed_time": "1d 11h 4m 34s", "remaining_time": "1d 17h 17m 58s"}
+{"loss": 0.10298846, "token_acc": 0.96175, "grad_norm": 0.65860188, "learning_rate": 5.637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238574, "epoch": 2.29666895, "global_step/max_steps": "30130/65595", "percentage": "45.93%", "elapsed_time": "1d 11h 4m 49s", "remaining_time": "1d 17h 17m 31s"}
+{"loss": 0.10202264, "token_acc": 0.96314769, "grad_norm": 0.58148921, "learning_rate": 5.636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238582, "epoch": 2.29705008, "global_step/max_steps": "30135/65595", "percentage": "45.94%", "elapsed_time": "1d 11h 5m 6s", "remaining_time": "1d 17h 17m 5s"}
+{"loss": 0.11343874, "token_acc": 0.96527973, "grad_norm": 1.18767548, "learning_rate": 5.635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238581, "epoch": 2.29743121, "global_step/max_steps": "30140/65595", "percentage": "45.95%", "elapsed_time": "1d 11h 5m 27s", "remaining_time": "1d 17h 16m 44s"}
+{"loss": 0.08904585, "token_acc": 0.9680315, "grad_norm": 0.96589255, "learning_rate": 5.633e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238584, "epoch": 2.29781233, "global_step/max_steps": "30145/65595", "percentage": "45.96%", "elapsed_time": "1d 11h 5m 47s", "remaining_time": "1d 17h 16m 22s"}
+{"loss": 0.09617437, "token_acc": 0.9694051, "grad_norm": 0.98969793, "learning_rate": 5.632e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238593, "epoch": 2.29819346, "global_step/max_steps": "30150/65595", "percentage": "45.96%", "elapsed_time": "1d 11h 6m 3s", "remaining_time": "1d 17h 15m 55s"}
+{"loss": 0.07874135, "token_acc": 0.97123431, "grad_norm": 0.47590625, "learning_rate": 5.631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2386, "epoch": 2.29857459, "global_step/max_steps": "30155/65595", "percentage": "45.97%", "elapsed_time": "1d 11h 6m 20s", "remaining_time": "1d 17h 15m 30s"}
+{"loss": 0.13139303, "token_acc": 0.95986842, "grad_norm": 0.92633528, "learning_rate": 5.63e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238606, "epoch": 2.29895571, "global_step/max_steps": "30160/65595", "percentage": "45.98%", "elapsed_time": "1d 11h 6m 38s", "remaining_time": "1d 17h 15m 5s"}
+{"loss": 0.09020146, "token_acc": 0.97104677, "grad_norm": 1.30849707, "learning_rate": 5.629e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238617, "epoch": 2.29933684, "global_step/max_steps": "30165/65595", "percentage": "45.99%", "elapsed_time": "1d 11h 6m 53s", "remaining_time": "1d 17h 14m 37s"}
+{"loss": 0.06907803, "token_acc": 0.9716647, "grad_norm": 0.59236807, "learning_rate": 5.628e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238623, "epoch": 2.29971797, "global_step/max_steps": "30170/65595", "percentage": "45.99%", "elapsed_time": "1d 11h 7m 11s", "remaining_time": "1d 17h 14m 13s"}
+{"loss": 0.08535516, "token_acc": 0.96889616, "grad_norm": 0.44948828, "learning_rate": 5.626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238627, "epoch": 2.30009909, "global_step/max_steps": "30175/65595", "percentage": "46.00%", "elapsed_time": "1d 11h 7m 30s", "remaining_time": "1d 17h 13m 49s"}
+{"loss": 0.09593017, "token_acc": 0.96015326, "grad_norm": 2.4835844, "learning_rate": 5.625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238641, "epoch": 2.30048022, "global_step/max_steps": "30180/65595", "percentage": "46.01%", "elapsed_time": "1d 11h 7m 44s", "remaining_time": "1d 17h 13m 20s"}
+{"loss": 0.07688462, "token_acc": 0.9739, "grad_norm": 1.74196374, "learning_rate": 5.624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238639, "epoch": 2.30086135, "global_step/max_steps": "30185/65595", "percentage": "46.02%", "elapsed_time": "1d 11h 8m 5s", "remaining_time": "1d 17h 13m 0s"}
+{"loss": 0.11167667, "token_acc": 0.96240106, "grad_norm": 1.05180347, "learning_rate": 5.623e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238648, "epoch": 2.30124247, "global_step/max_steps": "30190/65595", "percentage": "46.02%", "elapsed_time": "1d 11h 8m 21s", "remaining_time": "1d 17h 12m 33s"}
+{"loss": 0.09182703, "token_acc": 0.96457274, "grad_norm": 0.47380131, "learning_rate": 5.622e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238652, "epoch": 2.3016236, "global_step/max_steps": "30195/65595", "percentage": "46.03%", "elapsed_time": "1d 11h 8m 40s", "remaining_time": "1d 17h 12m 10s"}
+{"loss": 0.0809212, "token_acc": 0.9654902, "grad_norm": 0.73791635, "learning_rate": 5.62e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238658, "epoch": 2.30200473, "global_step/max_steps": "30200/65595", "percentage": "46.04%", "elapsed_time": "1d 11h 8m 58s", "remaining_time": "1d 17h 11m 45s"}
+{"eval_loss": 0.08588274, "eval_token_acc": 0.96137281, "eval_runtime": 217.717, "eval_samples_per_second": 2.434, "eval_steps_per_second": 2.434, "epoch": 2.30200473, "global_step/max_steps": "30200/65595", "percentage": "46.04%", "elapsed_time": "1d 11h 12m 36s", "remaining_time": "1d 17h 16m 1s"}
+{"loss": 0.07433177, "token_acc": 0.96157546, "grad_norm": 1.02250075, "learning_rate": 5.619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238255, "epoch": 2.30238585, "global_step/max_steps": "30205/65595", "percentage": "46.05%", "elapsed_time": "1d 11h 12m 53s", "remaining_time": "1d 17h 15m 36s"}
+{"loss": 0.09110434, "token_acc": 0.96317763, "grad_norm": 1.04032338, "learning_rate": 5.618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238265, "epoch": 2.30276698, "global_step/max_steps": "30210/65595", "percentage": "46.06%", "elapsed_time": "1d 11h 13m 9s", "remaining_time": "1d 17h 15m 8s"}
+{"loss": 0.10374885, "token_acc": 0.95196251, "grad_norm": 1.02762067, "learning_rate": 5.617e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238276, "epoch": 2.30314811, "global_step/max_steps": "30215/65595", "percentage": "46.06%", "elapsed_time": "1d 11h 13m 24s", "remaining_time": "1d 17h 14m 40s"}
+{"loss": 0.12455392, "token_acc": 0.96052632, "grad_norm": 1.06212878, "learning_rate": 5.616e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238285, "epoch": 2.30352923, "global_step/max_steps": "30220/65595", "percentage": "46.07%", "elapsed_time": "1d 11h 13m 40s", "remaining_time": "1d 17h 14m 14s"}
+{"loss": 0.10784851, "token_acc": 0.96907216, "grad_norm": 1.61876702, "learning_rate": 5.614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238292, "epoch": 2.30391036, "global_step/max_steps": "30225/65595", "percentage": "46.08%", "elapsed_time": "1d 11h 13m 58s", "remaining_time": "1d 17h 13m 48s"}
+{"loss": 0.10274762, "token_acc": 0.96373457, "grad_norm": 1.85782349, "learning_rate": 5.613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238302, "epoch": 2.30429149, "global_step/max_steps": "30230/65595", "percentage": "46.09%", "elapsed_time": "1d 11h 14m 13s", "remaining_time": "1d 17h 13m 21s"}
+{"loss": 0.11286867, "token_acc": 0.96312603, "grad_norm": 0.60818297, "learning_rate": 5.612e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238306, "epoch": 2.30467261, "global_step/max_steps": "30235/65595", "percentage": "46.09%", "elapsed_time": "1d 11h 14m 32s", "remaining_time": "1d 17h 12m 58s"}
+{"loss": 0.11431206, "token_acc": 0.95366655, "grad_norm": 0.74390101, "learning_rate": 5.611e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238318, "epoch": 2.30505374, "global_step/max_steps": "30240/65595", "percentage": "46.10%", "elapsed_time": "1d 11h 14m 47s", "remaining_time": "1d 17h 12m 29s"}
+{"loss": 0.08236661, "token_acc": 0.96573034, "grad_norm": 1.06810892, "learning_rate": 5.61e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238332, "epoch": 2.30543487, "global_step/max_steps": "30245/65595", "percentage": "46.11%", "elapsed_time": "1d 11h 15m 0s", "remaining_time": "1d 17h 12m 0s"}
+{"loss": 0.12681906, "token_acc": 0.95356738, "grad_norm": 2.44110584, "learning_rate": 5.609e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238345, "epoch": 2.30581599, "global_step/max_steps": "30250/65595", "percentage": "46.12%", "elapsed_time": "1d 11h 15m 14s", "remaining_time": "1d 17h 11m 30s"}
+{"loss": 0.08116672, "token_acc": 0.96905744, "grad_norm": 1.2382164, "learning_rate": 5.607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238351, "epoch": 2.30619712, "global_step/max_steps": "30255/65595", "percentage": "46.12%", "elapsed_time": "1d 11h 15m 32s", "remaining_time": "1d 17h 11m 5s"}
+{"loss": 0.10957799, "token_acc": 0.95778364, "grad_norm": 0.80523956, "learning_rate": 5.606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238355, "epoch": 2.30657825, "global_step/max_steps": "30260/65595", "percentage": "46.13%", "elapsed_time": "1d 11h 15m 51s", "remaining_time": "1d 17h 10m 42s"}
+{"loss": 0.13164365, "token_acc": 0.96233265, "grad_norm": 0.66934067, "learning_rate": 5.605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238363, "epoch": 2.30695937, "global_step/max_steps": "30265/65595", "percentage": "46.14%", "elapsed_time": "1d 11h 16m 7s", "remaining_time": "1d 17h 10m 16s"}
+{"loss": 0.06008494, "token_acc": 0.98002487, "grad_norm": 0.52804297, "learning_rate": 5.604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238356, "epoch": 2.3073405, "global_step/max_steps": "30270/65595", "percentage": "46.15%", "elapsed_time": "1d 11h 16m 32s", "remaining_time": "1d 17h 9m 59s"}
+{"loss": 0.09650522, "token_acc": 0.96278404, "grad_norm": 0.8467961, "learning_rate": 5.603e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238365, "epoch": 2.30772163, "global_step/max_steps": "30275/65595", "percentage": "46.15%", "elapsed_time": "1d 11h 16m 48s", "remaining_time": "1d 17h 9m 33s"}
+{"loss": 0.07940338, "token_acc": 0.95903681, "grad_norm": 0.07875487, "learning_rate": 5.601e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238373, "epoch": 2.30810275, "global_step/max_steps": "30280/65595", "percentage": "46.16%", "elapsed_time": "1d 11h 17m 5s", "remaining_time": "1d 17h 9m 7s"}
+{"loss": 0.06232047, "token_acc": 0.97735035, "grad_norm": 0.85828727, "learning_rate": 5.6e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238378, "epoch": 2.30848388, "global_step/max_steps": "30285/65595", "percentage": "46.17%", "elapsed_time": "1d 11h 17m 24s", "remaining_time": "1d 17h 8m 43s"}
+{"loss": 0.07400666, "token_acc": 0.97402263, "grad_norm": 0.58080852, "learning_rate": 5.599e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238379, "epoch": 2.308865, "global_step/max_steps": "30290/65595", "percentage": "46.18%", "elapsed_time": "1d 11h 17m 44s", "remaining_time": "1d 17h 8m 22s"}
+{"loss": 0.07244296, "token_acc": 0.97319901, "grad_norm": 1.05233753, "learning_rate": 5.598e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238385, "epoch": 2.30924613, "global_step/max_steps": "30295/65595", "percentage": "46.18%", "elapsed_time": "1d 11h 18m 2s", "remaining_time": "1d 17h 7m 57s"}
+{"loss": 0.1063537, "token_acc": 0.95244087, "grad_norm": 0.64448559, "learning_rate": 5.597e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238395, "epoch": 2.30962726, "global_step/max_steps": "30300/65595", "percentage": "46.19%", "elapsed_time": "1d 11h 18m 17s", "remaining_time": "1d 17h 7m 29s"}
+{"loss": 0.10494586, "token_acc": 0.96344056, "grad_norm": 0.84794521, "learning_rate": 5.595e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238398, "epoch": 2.31000838, "global_step/max_steps": "30305/65595", "percentage": "46.20%", "elapsed_time": "1d 11h 18m 37s", "remaining_time": "1d 17h 7m 7s"}
+{"loss": 0.08601289, "token_acc": 0.96922533, "grad_norm": 1.39373064, "learning_rate": 5.594e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238405, "epoch": 2.31038951, "global_step/max_steps": "30310/65595", "percentage": "46.21%", "elapsed_time": "1d 11h 18m 54s", "remaining_time": "1d 17h 6m 41s"}
+{"loss": 0.10266817, "token_acc": 0.97447545, "grad_norm": 2.37649012, "learning_rate": 5.593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238411, "epoch": 2.31077064, "global_step/max_steps": "30315/65595", "percentage": "46.22%", "elapsed_time": "1d 11h 19m 12s", "remaining_time": "1d 17h 6m 17s"}
+{"loss": 0.15994829, "token_acc": 0.93487957, "grad_norm": 1.1725142, "learning_rate": 5.592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238422, "epoch": 2.31115176, "global_step/max_steps": "30320/65595", "percentage": "46.22%", "elapsed_time": "1d 11h 19m 26s", "remaining_time": "1d 17h 5m 49s"}
+{"loss": 0.1129915, "token_acc": 0.95750383, "grad_norm": 1.49534392, "learning_rate": 5.591e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238429, "epoch": 2.31153289, "global_step/max_steps": "30325/65595", "percentage": "46.23%", "elapsed_time": "1d 11h 19m 44s", "remaining_time": "1d 17h 5m 23s"}
+{"loss": 0.12499521, "token_acc": 0.95314019, "grad_norm": 0.88072026, "learning_rate": 5.59e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238436, "epoch": 2.31191402, "global_step/max_steps": "30330/65595", "percentage": "46.24%", "elapsed_time": "1d 11h 20m 1s", "remaining_time": "1d 17h 4m 58s"}
+{"loss": 0.09669994, "token_acc": 0.96448355, "grad_norm": 1.10416031, "learning_rate": 5.588e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238439, "epoch": 2.31229514, "global_step/max_steps": "30335/65595", "percentage": "46.25%", "elapsed_time": "1d 11h 20m 21s", "remaining_time": "1d 17h 4m 35s"}
+{"loss": 0.07946775, "token_acc": 0.9680121, "grad_norm": 1.18457973, "learning_rate": 5.587e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238439, "epoch": 2.31267627, "global_step/max_steps": "30340/65595", "percentage": "46.25%", "elapsed_time": "1d 11h 20m 41s", "remaining_time": "1d 17h 4m 14s"}
+{"loss": 0.08918778, "token_acc": 0.96251147, "grad_norm": 0.85337692, "learning_rate": 5.586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238442, "epoch": 2.3130574, "global_step/max_steps": "30345/65595", "percentage": "46.26%", "elapsed_time": "1d 11h 21m 1s", "remaining_time": "1d 17h 3m 52s"}
+{"loss": 0.1010419, "token_acc": 0.96040456, "grad_norm": 1.11101174, "learning_rate": 5.585e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238449, "epoch": 2.31343852, "global_step/max_steps": "30350/65595", "percentage": "46.27%", "elapsed_time": "1d 11h 21m 18s", "remaining_time": "1d 17h 3m 26s"}
+{"loss": 0.12815057, "token_acc": 0.94827068, "grad_norm": 0.9230715, "learning_rate": 5.584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238456, "epoch": 2.31381965, "global_step/max_steps": "30355/65595", "percentage": "46.28%", "elapsed_time": "1d 11h 21m 35s", "remaining_time": "1d 17h 3m 1s"}
+{"loss": 0.07398475, "token_acc": 0.96437945, "grad_norm": 0.28639477, "learning_rate": 5.582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238458, "epoch": 2.31420078, "global_step/max_steps": "30360/65595", "percentage": "46.28%", "elapsed_time": "1d 11h 21m 55s", "remaining_time": "1d 17h 2m 39s"}
+{"loss": 0.10677658, "token_acc": 0.95455286, "grad_norm": 0.87944007, "learning_rate": 5.581e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238464, "epoch": 2.3145819, "global_step/max_steps": "30365/65595", "percentage": "46.29%", "elapsed_time": "1d 11h 22m 13s", "remaining_time": "1d 17h 2m 14s"}
+{"loss": 0.06804121, "token_acc": 0.97340909, "grad_norm": 1.15224981, "learning_rate": 5.58e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238473, "epoch": 2.31496303, "global_step/max_steps": "30370/65595", "percentage": "46.30%", "elapsed_time": "1d 11h 22m 29s", "remaining_time": "1d 17h 1m 47s"}
+{"loss": 0.10525202, "token_acc": 0.96405477, "grad_norm": 1.3469125, "learning_rate": 5.579e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238481, "epoch": 2.31534416, "global_step/max_steps": "30375/65595", "percentage": "46.31%", "elapsed_time": "1d 11h 22m 46s", "remaining_time": "1d 17h 1m 21s"}
+{"loss": 0.11804068, "token_acc": 0.95509611, "grad_norm": 0.66038573, "learning_rate": 5.578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238485, "epoch": 2.31572528, "global_step/max_steps": "30380/65595", "percentage": "46.31%", "elapsed_time": "1d 11h 23m 5s", "remaining_time": "1d 17h 0m 58s"}
+{"loss": 0.1634513, "token_acc": 0.94046229, "grad_norm": 1.9953059, "learning_rate": 5.576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238494, "epoch": 2.31610641, "global_step/max_steps": "30385/65595", "percentage": "46.32%", "elapsed_time": "1d 11h 23m 21s", "remaining_time": "1d 17h 0m 32s"}
+{"loss": 0.07930009, "token_acc": 0.97426679, "grad_norm": 1.08983994, "learning_rate": 5.575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2385, "epoch": 2.31648754, "global_step/max_steps": "30390/65595", "percentage": "46.33%", "elapsed_time": "1d 11h 23m 39s", "remaining_time": "1d 17h 0m 7s"}
+{"loss": 0.08514346, "token_acc": 0.96271867, "grad_norm": 0.80378729, "learning_rate": 5.574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238509, "epoch": 2.31686866, "global_step/max_steps": "30395/65595", "percentage": "46.34%", "elapsed_time": "1d 11h 23m 55s", "remaining_time": "1d 16h 59m 41s"}
+{"loss": 0.05600638, "token_acc": 0.96937491, "grad_norm": 0.64253724, "learning_rate": 5.573e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238511, "epoch": 2.31724979, "global_step/max_steps": "30400/65595", "percentage": "46.34%", "elapsed_time": "1d 11h 24m 14s", "remaining_time": "1d 16h 59m 18s"}
+{"eval_loss": 0.08501469, "eval_token_acc": 0.96233661, "eval_runtime": 220.5787, "eval_samples_per_second": 2.403, "eval_steps_per_second": 2.403, "epoch": 2.31724979, "global_step/max_steps": "30400/65595", "percentage": "46.34%", "elapsed_time": "1d 11h 27m 55s", "remaining_time": "1d 17h 3m 33s"}
+{"loss": 0.10285605, "token_acc": 0.96239244, "grad_norm": 0.88675821, "learning_rate": 5.572e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238105, "epoch": 2.31763092, "global_step/max_steps": "30405/65595", "percentage": "46.35%", "elapsed_time": "1d 11h 28m 13s", "remaining_time": "1d 17h 3m 9s"}
+{"loss": 0.07233263, "token_acc": 0.97280911, "grad_norm": 0.60237902, "learning_rate": 5.57e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23811, "epoch": 2.31801204, "global_step/max_steps": "30410/65595", "percentage": "46.36%", "elapsed_time": "1d 11h 28m 31s", "remaining_time": "1d 17h 2m 45s"}
+{"loss": 0.08915624, "token_acc": 0.96255221, "grad_norm": 0.31271273, "learning_rate": 5.569e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238114, "epoch": 2.31839317, "global_step/max_steps": "30415/65595", "percentage": "46.37%", "elapsed_time": "1d 11h 28m 50s", "remaining_time": "1d 17h 2m 21s"}
+{"loss": 0.0859174, "token_acc": 0.96258185, "grad_norm": 1.37827134, "learning_rate": 5.568e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238128, "epoch": 2.3187743, "global_step/max_steps": "30420/65595", "percentage": "46.38%", "elapsed_time": "1d 11h 29m 4s", "remaining_time": "1d 17h 1m 52s"}
+{"loss": 0.12099209, "token_acc": 0.94864168, "grad_norm": 1.09789956, "learning_rate": 5.567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238134, "epoch": 2.31915542, "global_step/max_steps": "30425/65595", "percentage": "46.38%", "elapsed_time": "1d 11h 29m 22s", "remaining_time": "1d 17h 1m 27s"}
+{"loss": 0.08636369, "token_acc": 0.96686111, "grad_norm": 0.75259215, "learning_rate": 5.566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238134, "epoch": 2.31953655, "global_step/max_steps": "30430/65595", "percentage": "46.39%", "elapsed_time": "1d 11h 29m 43s", "remaining_time": "1d 17h 1m 6s"}
+{"loss": 0.09520468, "token_acc": 0.95578738, "grad_norm": 1.2580061, "learning_rate": 5.565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238138, "epoch": 2.31991768, "global_step/max_steps": "30435/65595", "percentage": "46.40%", "elapsed_time": "1d 11h 30m 1s", "remaining_time": "1d 17h 0m 42s"}
+{"loss": 0.11762738, "token_acc": 0.9588581, "grad_norm": 1.12840176, "learning_rate": 5.563e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238147, "epoch": 2.3202988, "global_step/max_steps": "30440/65595", "percentage": "46.41%", "elapsed_time": "1d 11h 30m 17s", "remaining_time": "1d 17h 0m 16s"}
+{"loss": 0.08460189, "token_acc": 0.96614438, "grad_norm": 1.29942715, "learning_rate": 5.562e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238158, "epoch": 2.32067993, "global_step/max_steps": "30445/65595", "percentage": "46.41%", "elapsed_time": "1d 11h 30m 32s", "remaining_time": "1d 16h 59m 48s"}
+{"loss": 0.09172969, "token_acc": 0.96962769, "grad_norm": 0.89723706, "learning_rate": 5.561e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23817, "epoch": 2.32106106, "global_step/max_steps": "30450/65595", "percentage": "46.42%", "elapsed_time": "1d 11h 30m 47s", "remaining_time": "1d 16h 59m 20s"}
+{"loss": 0.06990693, "token_acc": 0.97315776, "grad_norm": 0.83666348, "learning_rate": 5.56e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238178, "epoch": 2.32144218, "global_step/max_steps": "30455/65595", "percentage": "46.43%", "elapsed_time": "1d 11h 31m 4s", "remaining_time": "1d 16h 58m 53s"}
+{"loss": 0.0892041, "token_acc": 0.96183575, "grad_norm": 0.77478021, "learning_rate": 5.559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238177, "epoch": 2.32182331, "global_step/max_steps": "30460/65595", "percentage": "46.44%", "elapsed_time": "1d 11h 31m 25s", "remaining_time": "1d 16h 58m 33s"}
+{"loss": 0.08493836, "token_acc": 0.96143791, "grad_norm": 0.80253017, "learning_rate": 5.557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238191, "epoch": 2.32220444, "global_step/max_steps": "30465/65595", "percentage": "46.44%", "elapsed_time": "1d 11h 31m 39s", "remaining_time": "1d 16h 58m 4s"}
+{"loss": 0.10490246, "token_acc": 0.95289931, "grad_norm": 0.64861125, "learning_rate": 5.556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238199, "epoch": 2.32258556, "global_step/max_steps": "30470/65595", "percentage": "46.45%", "elapsed_time": "1d 11h 31m 55s", "remaining_time": "1d 16h 57m 38s"}
+{"loss": 0.05995996, "token_acc": 0.96720585, "grad_norm": 0.12567712, "learning_rate": 5.555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238208, "epoch": 2.32296669, "global_step/max_steps": "30475/65595", "percentage": "46.46%", "elapsed_time": "1d 11h 32m 12s", "remaining_time": "1d 16h 57m 11s"}
+{"loss": 0.07649307, "token_acc": 0.97589265, "grad_norm": 0.47575569, "learning_rate": 5.554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238216, "epoch": 2.32334782, "global_step/max_steps": "30480/65595", "percentage": "46.47%", "elapsed_time": "1d 11h 32m 29s", "remaining_time": "1d 16h 56m 45s"}
+{"loss": 0.0821934, "token_acc": 0.97377725, "grad_norm": 0.54172403, "learning_rate": 5.553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238219, "epoch": 2.32372894, "global_step/max_steps": "30485/65595", "percentage": "46.47%", "elapsed_time": "1d 11h 32m 48s", "remaining_time": "1d 16h 56m 22s"}
+{"loss": 0.10128331, "token_acc": 0.96031238, "grad_norm": 0.98137742, "learning_rate": 5.551e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238223, "epoch": 2.32411007, "global_step/max_steps": "30490/65595", "percentage": "46.48%", "elapsed_time": "1d 11h 33m 7s", "remaining_time": "1d 16h 55m 59s"}
+{"loss": 0.08310459, "token_acc": 0.96350365, "grad_norm": 1.43005252, "learning_rate": 5.55e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238233, "epoch": 2.3244912, "global_step/max_steps": "30495/65595", "percentage": "46.49%", "elapsed_time": "1d 11h 33m 22s", "remaining_time": "1d 16h 55m 31s"}
+{"loss": 0.09691834, "token_acc": 0.958981, "grad_norm": 1.44102001, "learning_rate": 5.549e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238239, "epoch": 2.32487232, "global_step/max_steps": "30500/65595", "percentage": "46.50%", "elapsed_time": "1d 11h 33m 40s", "remaining_time": "1d 16h 55m 7s"}
+{"loss": 0.08639298, "token_acc": 0.96564132, "grad_norm": 1.00606024, "learning_rate": 5.548e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238238, "epoch": 2.32525345, "global_step/max_steps": "30505/65595", "percentage": "46.51%", "elapsed_time": "1d 11h 34m 2s", "remaining_time": "1d 16h 54m 47s"}
+{"loss": 0.09217606, "token_acc": 0.9659713, "grad_norm": 0.79444802, "learning_rate": 5.547e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238243, "epoch": 2.32563458, "global_step/max_steps": "30510/65595", "percentage": "46.51%", "elapsed_time": "1d 11h 34m 20s", "remaining_time": "1d 16h 54m 22s"}
+{"loss": 0.09080534, "token_acc": 0.96171617, "grad_norm": 0.51839185, "learning_rate": 5.545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238254, "epoch": 2.3260157, "global_step/max_steps": "30515/65595", "percentage": "46.52%", "elapsed_time": "1d 11h 34m 35s", "remaining_time": "1d 16h 53m 55s"}
+{"loss": 0.05591816, "token_acc": 0.9704142, "grad_norm": 0.62858915, "learning_rate": 5.544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238264, "epoch": 2.32639683, "global_step/max_steps": "30520/65595", "percentage": "46.53%", "elapsed_time": "1d 11h 34m 51s", "remaining_time": "1d 16h 53m 28s"}
+{"loss": 0.11995726, "token_acc": 0.94827586, "grad_norm": 1.47830272, "learning_rate": 5.543e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238274, "epoch": 2.32677796, "global_step/max_steps": "30525/65595", "percentage": "46.54%", "elapsed_time": "1d 11h 35m 6s", "remaining_time": "1d 16h 53m 0s"}
+{"loss": 0.17149082, "token_acc": 0.93681792, "grad_norm": 0.94965851, "learning_rate": 5.542e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238282, "epoch": 2.32715908, "global_step/max_steps": "30530/65595", "percentage": "46.54%", "elapsed_time": "1d 11h 35m 23s", "remaining_time": "1d 16h 52m 35s"}
+{"loss": 0.07509484, "token_acc": 0.96505228, "grad_norm": 1.06456459, "learning_rate": 5.541e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238291, "epoch": 2.32754021, "global_step/max_steps": "30535/65595", "percentage": "46.55%", "elapsed_time": "1d 11h 35m 39s", "remaining_time": "1d 16h 52m 8s"}
+{"loss": 0.13376771, "token_acc": 0.95067656, "grad_norm": 1.29072046, "learning_rate": 5.54e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238304, "epoch": 2.32792134, "global_step/max_steps": "30540/65595", "percentage": "46.56%", "elapsed_time": "1d 11h 35m 53s", "remaining_time": "1d 16h 51m 39s"}
+{"loss": 0.08661022, "token_acc": 0.96756349, "grad_norm": 1.0038178, "learning_rate": 5.538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238312, "epoch": 2.32830246, "global_step/max_steps": "30545/65595", "percentage": "46.57%", "elapsed_time": "1d 11h 36m 10s", "remaining_time": "1d 16h 51m 13s"}
+{"loss": 0.05814991, "token_acc": 0.97053518, "grad_norm": 0.55688065, "learning_rate": 5.537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238317, "epoch": 2.32868359, "global_step/max_steps": "30550/65595", "percentage": "46.57%", "elapsed_time": "1d 11h 36m 28s", "remaining_time": "1d 16h 50m 49s"}
+{"loss": 0.11138289, "token_acc": 0.95282469, "grad_norm": 0.67402858, "learning_rate": 5.536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238325, "epoch": 2.32906472, "global_step/max_steps": "30555/65595", "percentage": "46.58%", "elapsed_time": "1d 11h 36m 45s", "remaining_time": "1d 16h 50m 23s"}
+{"loss": 0.07129503, "token_acc": 0.96569579, "grad_norm": 1.06243074, "learning_rate": 5.535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238338, "epoch": 2.32944584, "global_step/max_steps": "30560/65595", "percentage": "46.59%", "elapsed_time": "1d 11h 36m 59s", "remaining_time": "1d 16h 49m 54s"}
+{"loss": 0.11609104, "token_acc": 0.96124928, "grad_norm": 0.63464153, "learning_rate": 5.534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23835, "epoch": 2.32982697, "global_step/max_steps": "30565/65595", "percentage": "46.60%", "elapsed_time": "1d 11h 37m 13s", "remaining_time": "1d 16h 49m 25s"}
+{"loss": 0.09201788, "token_acc": 0.96952619, "grad_norm": 1.18108594, "learning_rate": 5.532e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238357, "epoch": 2.3302081, "global_step/max_steps": "30570/65595", "percentage": "46.60%", "elapsed_time": "1d 11h 37m 30s", "remaining_time": "1d 16h 49m 0s"}
+{"loss": 0.10140079, "token_acc": 0.9480198, "grad_norm": 2.29865861, "learning_rate": 5.531e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238369, "epoch": 2.33058922, "global_step/max_steps": "30575/65595", "percentage": "46.61%", "elapsed_time": "1d 11h 37m 45s", "remaining_time": "1d 16h 48m 32s"}
+{"loss": 0.1228027, "token_acc": 0.94636556, "grad_norm": 1.43477094, "learning_rate": 5.53e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238382, "epoch": 2.33097035, "global_step/max_steps": "30580/65595", "percentage": "46.62%", "elapsed_time": "1d 11h 37m 59s", "remaining_time": "1d 16h 48m 3s"}
+{"loss": 0.08697016, "token_acc": 0.97520058, "grad_norm": 0.88816434, "learning_rate": 5.529e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238389, "epoch": 2.33135147, "global_step/max_steps": "30585/65595", "percentage": "46.63%", "elapsed_time": "1d 11h 38m 16s", "remaining_time": "1d 16h 47m 38s"}
+{"loss": 0.07915791, "token_acc": 0.97121432, "grad_norm": 0.99884051, "learning_rate": 5.528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238397, "epoch": 2.3317326, "global_step/max_steps": "30590/65595", "percentage": "46.63%", "elapsed_time": "1d 11h 38m 33s", "remaining_time": "1d 16h 47m 12s"}
+{"loss": 0.0963697, "token_acc": 0.96608794, "grad_norm": 0.62403417, "learning_rate": 5.526e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238402, "epoch": 2.33211373, "global_step/max_steps": "30595/65595", "percentage": "46.64%", "elapsed_time": "1d 11h 38m 51s", "remaining_time": "1d 16h 46m 48s"}
+{"loss": 0.09380059, "token_acc": 0.96201743, "grad_norm": 0.86884975, "learning_rate": 5.525e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238415, "epoch": 2.33249485, "global_step/max_steps": "30600/65595", "percentage": "46.65%", "elapsed_time": "1d 11h 39m 5s", "remaining_time": "1d 16h 46m 19s"}
+{"eval_loss": 0.08754834, "eval_token_acc": 0.96201283, "eval_runtime": 220.4309, "eval_samples_per_second": 2.404, "eval_steps_per_second": 2.404, "epoch": 2.33249485, "global_step/max_steps": "30600/65595", "percentage": "46.65%", "elapsed_time": "1d 11h 42m 45s", "remaining_time": "1d 16h 50m 31s"}
+{"loss": 0.12172577, "token_acc": 0.96180112, "grad_norm": 0.68130898, "learning_rate": 5.524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238016, "epoch": 2.33287598, "global_step/max_steps": "30605/65595", "percentage": "46.66%", "elapsed_time": "1d 11h 43m 1s", "remaining_time": "1d 16h 50m 4s"}
+{"loss": 0.08648719, "token_acc": 0.966737, "grad_norm": 1.06030917, "learning_rate": 5.523e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23802, "epoch": 2.33325711, "global_step/max_steps": "30610/65595", "percentage": "46.67%", "elapsed_time": "1d 11h 43m 20s", "remaining_time": "1d 16h 49m 41s"}
+{"loss": 0.14835765, "token_acc": 0.95042589, "grad_norm": 0.74413043, "learning_rate": 5.522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238026, "epoch": 2.33363823, "global_step/max_steps": "30615/65595", "percentage": "46.67%", "elapsed_time": "1d 11h 43m 38s", "remaining_time": "1d 16h 49m 16s"}
+{"loss": 0.10581793, "token_acc": 0.96028513, "grad_norm": 0.97118324, "learning_rate": 5.52e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238028, "epoch": 2.33401936, "global_step/max_steps": "30620/65595", "percentage": "46.68%", "elapsed_time": "1d 11h 43m 58s", "remaining_time": "1d 16h 48m 54s"}
+{"loss": 0.08106411, "token_acc": 0.96081678, "grad_norm": 0.78907663, "learning_rate": 5.519e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238038, "epoch": 2.33440049, "global_step/max_steps": "30625/65595", "percentage": "46.69%", "elapsed_time": "1d 11h 44m 13s", "remaining_time": "1d 16h 48m 26s"}
+{"loss": 0.15336553, "token_acc": 0.95582121, "grad_norm": 0.61756968, "learning_rate": 5.518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238046, "epoch": 2.33478161, "global_step/max_steps": "30630/65595", "percentage": "46.70%", "elapsed_time": "1d 11h 44m 30s", "remaining_time": "1d 16h 48m 0s"}
+{"loss": 0.04229224, "token_acc": 0.98070576, "grad_norm": 1.28456616, "learning_rate": 5.517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238057, "epoch": 2.33516274, "global_step/max_steps": "30635/65595", "percentage": "46.70%", "elapsed_time": "1d 11h 44m 45s", "remaining_time": "1d 16h 47m 33s"}
+{"loss": 0.11222932, "token_acc": 0.96658339, "grad_norm": 0.45975319, "learning_rate": 5.516e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238066, "epoch": 2.33554387, "global_step/max_steps": "30640/65595", "percentage": "46.71%", "elapsed_time": "1d 11h 45m 1s", "remaining_time": "1d 16h 47m 6s"}
+{"loss": 0.07683859, "token_acc": 0.96929492, "grad_norm": 0.90879214, "learning_rate": 5.515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238074, "epoch": 2.33592499, "global_step/max_steps": "30645/65595", "percentage": "46.72%", "elapsed_time": "1d 11h 45m 18s", "remaining_time": "1d 16h 46m 40s"}
+{"loss": 0.07119761, "token_acc": 0.97406575, "grad_norm": 0.82043076, "learning_rate": 5.513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238083, "epoch": 2.33630612, "global_step/max_steps": "30650/65595", "percentage": "46.73%", "elapsed_time": "1d 11h 45m 34s", "remaining_time": "1d 16h 46m 14s"}
+{"loss": 0.07975712, "token_acc": 0.96604002, "grad_norm": 1.15070641, "learning_rate": 5.512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23809, "epoch": 2.33668725, "global_step/max_steps": "30655/65595", "percentage": "46.73%", "elapsed_time": "1d 11h 45m 51s", "remaining_time": "1d 16h 45m 48s"}
+{"loss": 0.08336616, "token_acc": 0.96065808, "grad_norm": 0.80893445, "learning_rate": 5.511e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238099, "epoch": 2.33706837, "global_step/max_steps": "30660/65595", "percentage": "46.74%", "elapsed_time": "1d 11h 46m 7s", "remaining_time": "1d 16h 45m 22s"}
+{"loss": 0.11783277, "token_acc": 0.95914684, "grad_norm": 1.04160011, "learning_rate": 5.51e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238105, "epoch": 2.3374495, "global_step/max_steps": "30665/65595", "percentage": "46.75%", "elapsed_time": "1d 11h 46m 25s", "remaining_time": "1d 16h 44m 57s"}
+{"loss": 0.08402632, "token_acc": 0.95930908, "grad_norm": 0.83044654, "learning_rate": 5.509e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238109, "epoch": 2.33783063, "global_step/max_steps": "30670/65595", "percentage": "46.76%", "elapsed_time": "1d 11h 46m 44s", "remaining_time": "1d 16h 44m 33s"}
+{"loss": 0.08283095, "token_acc": 0.966133, "grad_norm": 2.30302906, "learning_rate": 5.507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238112, "epoch": 2.33821175, "global_step/max_steps": "30675/65595", "percentage": "46.76%", "elapsed_time": "1d 11h 47m 3s", "remaining_time": "1d 16h 44m 11s"}
+{"loss": 0.11024005, "token_acc": 0.96175046, "grad_norm": 1.1099726, "learning_rate": 5.506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238116, "epoch": 2.33859288, "global_step/max_steps": "30680/65595", "percentage": "46.77%", "elapsed_time": "1d 11h 47m 22s", "remaining_time": "1d 16h 43m 47s"}
+{"loss": 0.10878502, "token_acc": 0.96446918, "grad_norm": 0.89833707, "learning_rate": 5.505e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238122, "epoch": 2.33897401, "global_step/max_steps": "30685/65595", "percentage": "46.78%", "elapsed_time": "1d 11h 47m 40s", "remaining_time": "1d 16h 43m 23s"}
+{"loss": 0.08372299, "token_acc": 0.96881328, "grad_norm": 0.74359447, "learning_rate": 5.504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238134, "epoch": 2.33935513, "global_step/max_steps": "30690/65595", "percentage": "46.79%", "elapsed_time": "1d 11h 47m 54s", "remaining_time": "1d 16h 42m 54s"}
+{"loss": 0.11801109, "token_acc": 0.95810902, "grad_norm": 0.84669691, "learning_rate": 5.503e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238141, "epoch": 2.33973626, "global_step/max_steps": "30695/65595", "percentage": "46.79%", "elapsed_time": "1d 11h 48m 12s", "remaining_time": "1d 16h 42m 29s"}
+{"loss": 0.08252967, "token_acc": 0.97132035, "grad_norm": 0.56760293, "learning_rate": 5.501e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238146, "epoch": 2.34011739, "global_step/max_steps": "30700/65595", "percentage": "46.80%", "elapsed_time": "1d 11h 48m 30s", "remaining_time": "1d 16h 42m 5s"}
+{"loss": 0.09023304, "token_acc": 0.96566701, "grad_norm": 0.63746256, "learning_rate": 5.5e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238154, "epoch": 2.34049851, "global_step/max_steps": "30705/65595", "percentage": "46.81%", "elapsed_time": "1d 11h 48m 46s", "remaining_time": "1d 16h 41m 39s"}
+{"loss": 0.09671454, "token_acc": 0.97240969, "grad_norm": 0.73887002, "learning_rate": 5.499e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23816, "epoch": 2.34087964, "global_step/max_steps": "30710/65595", "percentage": "46.82%", "elapsed_time": "1d 11h 49m 4s", "remaining_time": "1d 16h 41m 14s"}
+{"loss": 0.12974437, "token_acc": 0.94297082, "grad_norm": 1.19377482, "learning_rate": 5.498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238171, "epoch": 2.34126077, "global_step/max_steps": "30715/65595", "percentage": "46.83%", "elapsed_time": "1d 11h 49m 19s", "remaining_time": "1d 16h 40m 46s"}
+{"loss": 0.08680453, "token_acc": 0.96442775, "grad_norm": 0.93157244, "learning_rate": 5.497e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23818, "epoch": 2.34164189, "global_step/max_steps": "30720/65595", "percentage": "46.83%", "elapsed_time": "1d 11h 49m 36s", "remaining_time": "1d 16h 40m 20s"}
+{"loss": 0.0761992, "token_acc": 0.97075606, "grad_norm": 1.72648156, "learning_rate": 5.495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238183, "epoch": 2.34202302, "global_step/max_steps": "30725/65595", "percentage": "46.84%", "elapsed_time": "1d 11h 49m 55s", "remaining_time": "1d 16h 39m 57s"}
+{"loss": 0.13595059, "token_acc": 0.94856959, "grad_norm": 0.96076739, "learning_rate": 5.494e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238193, "epoch": 2.34240415, "global_step/max_steps": "30730/65595", "percentage": "46.85%", "elapsed_time": "1d 11h 50m 10s", "remaining_time": "1d 16h 39m 30s"}
+{"loss": 0.07035387, "token_acc": 0.96675359, "grad_norm": 0.53046811, "learning_rate": 5.493e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238201, "epoch": 2.34278527, "global_step/max_steps": "30735/65595", "percentage": "46.86%", "elapsed_time": "1d 11h 50m 27s", "remaining_time": "1d 16h 39m 4s"}
+{"loss": 0.082969, "token_acc": 0.9674221, "grad_norm": 1.99705338, "learning_rate": 5.492e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238209, "epoch": 2.3431664, "global_step/max_steps": "30740/65595", "percentage": "46.86%", "elapsed_time": "1d 11h 50m 44s", "remaining_time": "1d 16h 38m 38s"}
+{"loss": 0.06556588, "token_acc": 0.97638257, "grad_norm": 0.6064893, "learning_rate": 5.491e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238212, "epoch": 2.34354753, "global_step/max_steps": "30745/65595", "percentage": "46.87%", "elapsed_time": "1d 11h 51m 3s", "remaining_time": "1d 16h 38m 15s"}
+{"loss": 0.10269167, "token_acc": 0.964501, "grad_norm": 1.41805744, "learning_rate": 5.49e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238219, "epoch": 2.34392865, "global_step/max_steps": "30750/65595", "percentage": "46.88%", "elapsed_time": "1d 11h 51m 20s", "remaining_time": "1d 16h 37m 50s"}
+{"loss": 0.06277584, "token_acc": 0.9818641, "grad_norm": 1.17211545, "learning_rate": 5.488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238223, "epoch": 2.34430978, "global_step/max_steps": "30755/65595", "percentage": "46.89%", "elapsed_time": "1d 11h 51m 39s", "remaining_time": "1d 16h 37m 27s"}
+{"loss": 0.07510269, "token_acc": 0.96906936, "grad_norm": 1.27762747, "learning_rate": 5.487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238225, "epoch": 2.34469091, "global_step/max_steps": "30760/65595", "percentage": "46.89%", "elapsed_time": "1d 11h 51m 59s", "remaining_time": "1d 16h 37m 5s"}
+{"loss": 0.1152788, "token_acc": 0.95691126, "grad_norm": 0.78590477, "learning_rate": 5.486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238229, "epoch": 2.34507203, "global_step/max_steps": "30765/65595", "percentage": "46.90%", "elapsed_time": "1d 11h 52m 18s", "remaining_time": "1d 16h 36m 41s"}
+{"loss": 0.07759865, "token_acc": 0.96991633, "grad_norm": 0.56255651, "learning_rate": 5.485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238226, "epoch": 2.34545316, "global_step/max_steps": "30770/65595", "percentage": "46.91%", "elapsed_time": "1d 11h 52m 40s", "remaining_time": "1d 16h 36m 21s"}
+{"loss": 0.08491954, "token_acc": 0.97368421, "grad_norm": 0.6491316, "learning_rate": 5.484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238231, "epoch": 2.34583429, "global_step/max_steps": "30775/65595", "percentage": "46.92%", "elapsed_time": "1d 11h 52m 59s", "remaining_time": "1d 16h 35m 58s"}
+{"loss": 0.06941873, "token_acc": 0.96996753, "grad_norm": 0.91360778, "learning_rate": 5.482e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238234, "epoch": 2.34621541, "global_step/max_steps": "30780/65595", "percentage": "46.92%", "elapsed_time": "1d 11h 53m 18s", "remaining_time": "1d 16h 35m 35s"}
+{"loss": 0.08549887, "token_acc": 0.96620278, "grad_norm": 1.06715298, "learning_rate": 5.481e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238241, "epoch": 2.34659654, "global_step/max_steps": "30785/65595", "percentage": "46.93%", "elapsed_time": "1d 11h 53m 35s", "remaining_time": "1d 16h 35m 10s"}
+{"loss": 0.0717868, "token_acc": 0.97345549, "grad_norm": 0.75768864, "learning_rate": 5.48e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238249, "epoch": 2.34697767, "global_step/max_steps": "30790/65595", "percentage": "46.94%", "elapsed_time": "1d 11h 53m 52s", "remaining_time": "1d 16h 34m 44s"}
+{"loss": 0.10558015, "token_acc": 0.95950413, "grad_norm": 0.69297326, "learning_rate": 5.479e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238257, "epoch": 2.34735879, "global_step/max_steps": "30795/65595", "percentage": "46.95%", "elapsed_time": "1d 11h 54m 8s", "remaining_time": "1d 16h 34m 18s"}
+{"loss": 0.07733943, "token_acc": 0.96598391, "grad_norm": 1.83373058, "learning_rate": 5.478e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238269, "epoch": 2.34773992, "global_step/max_steps": "30800/65595", "percentage": "46.95%", "elapsed_time": "1d 11h 54m 23s", "remaining_time": "1d 16h 33m 49s"}
+{"eval_loss": 0.08738162, "eval_token_acc": 0.96251732, "eval_runtime": 220.9966, "eval_samples_per_second": 2.398, "eval_steps_per_second": 2.398, "epoch": 2.34773992, "global_step/max_steps": "30800/65595", "percentage": "46.95%", "elapsed_time": "1d 11h 58m 4s", "remaining_time": "1d 16h 37m 59s"}
+{"loss": 0.07053643, "token_acc": 0.96297857, "grad_norm": 1.39345741, "learning_rate": 5.476e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237871, "epoch": 2.34812105, "global_step/max_steps": "30805/65595", "percentage": "46.96%", "elapsed_time": "1d 11h 58m 20s", "remaining_time": "1d 16h 37m 33s"}
+{"loss": 0.07433618, "token_acc": 0.9624701, "grad_norm": 0.59103614, "learning_rate": 5.475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237877, "epoch": 2.34850217, "global_step/max_steps": "30810/65595", "percentage": "46.97%", "elapsed_time": "1d 11h 58m 38s", "remaining_time": "1d 16h 37m 8s"}
+{"loss": 0.10874112, "token_acc": 0.95808561, "grad_norm": 0.83979356, "learning_rate": 5.474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237888, "epoch": 2.3488833, "global_step/max_steps": "30815/65595", "percentage": "46.98%", "elapsed_time": "1d 11h 58m 53s", "remaining_time": "1d 16h 36m 40s"}
+{"loss": 0.09164924, "token_acc": 0.96624529, "grad_norm": 0.68568331, "learning_rate": 5.473e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23789, "epoch": 2.34926443, "global_step/max_steps": "30820/65595", "percentage": "46.99%", "elapsed_time": "1d 11h 59m 13s", "remaining_time": "1d 16h 36m 18s"}
+{"loss": 0.08812725, "token_acc": 0.9629694, "grad_norm": 0.90088451, "learning_rate": 5.472e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237899, "epoch": 2.34964555, "global_step/max_steps": "30825/65595", "percentage": "46.99%", "elapsed_time": "1d 11h 59m 29s", "remaining_time": "1d 16h 35m 51s"}
+{"loss": 0.08434793, "token_acc": 0.96054499, "grad_norm": 1.00985563, "learning_rate": 5.47e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23791, "epoch": 2.35002668, "global_step/max_steps": "30830/65595", "percentage": "47.00%", "elapsed_time": "1d 11h 59m 44s", "remaining_time": "1d 16h 35m 24s"}
+{"loss": 0.08315092, "token_acc": 0.969214, "grad_norm": 0.65075141, "learning_rate": 5.469e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237911, "epoch": 2.35040781, "global_step/max_steps": "30835/65595", "percentage": "47.01%", "elapsed_time": "1d 12h 0m 5s", "remaining_time": "1d 16h 35m 2s"}
+{"loss": 0.06719581, "token_acc": 0.97273707, "grad_norm": 0.61238277, "learning_rate": 5.468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237911, "epoch": 2.35078893, "global_step/max_steps": "30840/65595", "percentage": "47.02%", "elapsed_time": "1d 12h 0m 26s", "remaining_time": "1d 16h 34m 41s"}
+{"loss": 0.06048554, "token_acc": 0.98126571, "grad_norm": 0.94417238, "learning_rate": 5.467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237917, "epoch": 2.35117006, "global_step/max_steps": "30845/65595", "percentage": "47.02%", "elapsed_time": "1d 12h 0m 43s", "remaining_time": "1d 16h 34m 16s"}
+{"loss": 0.15067782, "token_acc": 0.943538, "grad_norm": 1.25883579, "learning_rate": 5.466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237925, "epoch": 2.35155119, "global_step/max_steps": "30850/65595", "percentage": "47.03%", "elapsed_time": "1d 12h 1m 0s", "remaining_time": "1d 16h 33m 51s"}
+{"loss": 0.04793848, "token_acc": 0.98041311, "grad_norm": 0.76903737, "learning_rate": 5.464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237928, "epoch": 2.35193231, "global_step/max_steps": "30855/65595", "percentage": "47.04%", "elapsed_time": "1d 12h 1m 19s", "remaining_time": "1d 16h 33m 27s"}
+{"loss": 0.04852641, "token_acc": 0.98054542, "grad_norm": 0.67051923, "learning_rate": 5.463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237935, "epoch": 2.35231344, "global_step/max_steps": "30860/65595", "percentage": "47.05%", "elapsed_time": "1d 12h 1m 37s", "remaining_time": "1d 16h 33m 2s"}
+{"loss": 0.08067988, "token_acc": 0.96657954, "grad_norm": 0.78894621, "learning_rate": 5.462e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23794, "epoch": 2.35269457, "global_step/max_steps": "30865/65595", "percentage": "47.05%", "elapsed_time": "1d 12h 1m 55s", "remaining_time": "1d 16h 32m 38s"}
+{"loss": 0.10897238, "token_acc": 0.96821089, "grad_norm": 1.80385697, "learning_rate": 5.461e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237947, "epoch": 2.35307569, "global_step/max_steps": "30870/65595", "percentage": "47.06%", "elapsed_time": "1d 12h 2m 12s", "remaining_time": "1d 16h 32m 13s"}
+{"loss": 0.09772664, "token_acc": 0.96351931, "grad_norm": 0.98416317, "learning_rate": 5.46e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237958, "epoch": 2.35345682, "global_step/max_steps": "30875/65595", "percentage": "47.07%", "elapsed_time": "1d 12h 2m 27s", "remaining_time": "1d 16h 31m 45s"}
+{"loss": 0.11086546, "token_acc": 0.95742027, "grad_norm": 0.539352, "learning_rate": 5.459e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237964, "epoch": 2.35383794, "global_step/max_steps": "30880/65595", "percentage": "47.08%", "elapsed_time": "1d 12h 2m 45s", "remaining_time": "1d 16h 31m 21s"}
+{"loss": 0.09553924, "token_acc": 0.97377658, "grad_norm": 1.1484524, "learning_rate": 5.457e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23797, "epoch": 2.35421907, "global_step/max_steps": "30885/65595", "percentage": "47.08%", "elapsed_time": "1d 12h 3m 3s", "remaining_time": "1d 16h 30m 56s"}
+{"loss": 0.10531863, "token_acc": 0.96556474, "grad_norm": 0.62121862, "learning_rate": 5.456e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237979, "epoch": 2.3546002, "global_step/max_steps": "30890/65595", "percentage": "47.09%", "elapsed_time": "1d 12h 3m 19s", "remaining_time": "1d 16h 30m 29s"}
+{"loss": 0.10695401, "token_acc": 0.9630662, "grad_norm": 1.08734822, "learning_rate": 5.455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23799, "epoch": 2.35498132, "global_step/max_steps": "30895/65595", "percentage": "47.10%", "elapsed_time": "1d 12h 3m 34s", "remaining_time": "1d 16h 30m 1s"}
+{"loss": 0.08558997, "token_acc": 0.96633395, "grad_norm": 0.85776937, "learning_rate": 5.454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237999, "epoch": 2.35536245, "global_step/max_steps": "30900/65595", "percentage": "47.11%", "elapsed_time": "1d 12h 3m 50s", "remaining_time": "1d 16h 29m 35s"}
+{"loss": 0.06020167, "token_acc": 0.9650382, "grad_norm": 0.93914717, "learning_rate": 5.453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238007, "epoch": 2.35574358, "global_step/max_steps": "30905/65595", "percentage": "47.11%", "elapsed_time": "1d 12h 4m 6s", "remaining_time": "1d 16h 29m 9s"}
+{"loss": 0.06447045, "token_acc": 0.97054886, "grad_norm": 0.6207118, "learning_rate": 5.451e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238017, "epoch": 2.3561247, "global_step/max_steps": "30910/65595", "percentage": "47.12%", "elapsed_time": "1d 12h 4m 22s", "remaining_time": "1d 16h 28m 42s"}
+{"loss": 0.08904389, "token_acc": 0.96193967, "grad_norm": 0.89267403, "learning_rate": 5.45e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238028, "epoch": 2.35650583, "global_step/max_steps": "30915/65595", "percentage": "47.13%", "elapsed_time": "1d 12h 4m 37s", "remaining_time": "1d 16h 28m 14s"}
+{"loss": 0.06659048, "token_acc": 0.97500565, "grad_norm": 0.80489081, "learning_rate": 5.449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238025, "epoch": 2.35688696, "global_step/max_steps": "30920/65595", "percentage": "47.14%", "elapsed_time": "1d 12h 5m 0s", "remaining_time": "1d 16h 27m 55s"}
+{"loss": 0.13406718, "token_acc": 0.95793543, "grad_norm": 1.56974351, "learning_rate": 5.448e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238032, "epoch": 2.35726808, "global_step/max_steps": "30925/65595", "percentage": "47.15%", "elapsed_time": "1d 12h 5m 17s", "remaining_time": "1d 16h 27m 30s"}
+{"loss": 0.09263505, "token_acc": 0.96831631, "grad_norm": 3.61073947, "learning_rate": 5.447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238035, "epoch": 2.35764921, "global_step/max_steps": "30930/65595", "percentage": "47.15%", "elapsed_time": "1d 12h 5m 36s", "remaining_time": "1d 16h 27m 7s"}
+{"loss": 0.08715442, "token_acc": 0.96618946, "grad_norm": 0.84666425, "learning_rate": 5.445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238045, "epoch": 2.35803034, "global_step/max_steps": "30935/65595", "percentage": "47.16%", "elapsed_time": "1d 12h 5m 52s", "remaining_time": "1d 16h 26m 40s"}
+{"loss": 0.07892669, "token_acc": 0.97048981, "grad_norm": 0.60506505, "learning_rate": 5.444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238048, "epoch": 2.35841146, "global_step/max_steps": "30940/65595", "percentage": "47.17%", "elapsed_time": "1d 12h 6m 11s", "remaining_time": "1d 16h 26m 17s"}
+{"loss": 0.05861799, "token_acc": 0.9712743, "grad_norm": 0.83907813, "learning_rate": 5.443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238054, "epoch": 2.35879259, "global_step/max_steps": "30945/65595", "percentage": "47.18%", "elapsed_time": "1d 12h 6m 29s", "remaining_time": "1d 16h 25m 52s"}
+{"loss": 0.1011649, "token_acc": 0.95552239, "grad_norm": 1.29997146, "learning_rate": 5.442e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238064, "epoch": 2.35917372, "global_step/max_steps": "30950/65595", "percentage": "47.18%", "elapsed_time": "1d 12h 6m 44s", "remaining_time": "1d 16h 25m 25s"}
+{"loss": 0.10283324, "token_acc": 0.95919979, "grad_norm": 0.43259856, "learning_rate": 5.441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238074, "epoch": 2.35955484, "global_step/max_steps": "30955/65595", "percentage": "47.19%", "elapsed_time": "1d 12h 7m 0s", "remaining_time": "1d 16h 24m 58s"}
+{"loss": 0.06515552, "token_acc": 0.9715129, "grad_norm": 0.4828991, "learning_rate": 5.439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238076, "epoch": 2.35993597, "global_step/max_steps": "30960/65595", "percentage": "47.20%", "elapsed_time": "1d 12h 7m 20s", "remaining_time": "1d 16h 24m 36s"}
+{"loss": 0.07753715, "token_acc": 0.9718234, "grad_norm": 1.02682173, "learning_rate": 5.438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238083, "epoch": 2.3603171, "global_step/max_steps": "30965/65595", "percentage": "47.21%", "elapsed_time": "1d 12h 7m 37s", "remaining_time": "1d 16h 24m 10s"}
+{"loss": 0.08886274, "token_acc": 0.959078, "grad_norm": 0.7710219, "learning_rate": 5.437e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23809, "epoch": 2.36069822, "global_step/max_steps": "30970/65595", "percentage": "47.21%", "elapsed_time": "1d 12h 7m 54s", "remaining_time": "1d 16h 23m 45s"}
+{"loss": 0.0828808, "token_acc": 0.97366962, "grad_norm": 1.37269282, "learning_rate": 5.436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238097, "epoch": 2.36107935, "global_step/max_steps": "30975/65595", "percentage": "47.22%", "elapsed_time": "1d 12h 8m 11s", "remaining_time": "1d 16h 23m 20s"}
+{"loss": 0.10357705, "token_acc": 0.96559534, "grad_norm": 0.5045684, "learning_rate": 5.435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238095, "epoch": 2.36146048, "global_step/max_steps": "30980/65595", "percentage": "47.23%", "elapsed_time": "1d 12h 8m 33s", "remaining_time": "1d 16h 23m 0s"}
+{"loss": 0.08333129, "token_acc": 0.95479632, "grad_norm": 1.20207846, "learning_rate": 5.433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238104, "epoch": 2.3618416, "global_step/max_steps": "30985/65595", "percentage": "47.24%", "elapsed_time": "1d 12h 8m 50s", "remaining_time": "1d 16h 22m 34s"}
+{"loss": 0.08568643, "token_acc": 0.96861044, "grad_norm": 0.74847043, "learning_rate": 5.432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238107, "epoch": 2.36222273, "global_step/max_steps": "30990/65595", "percentage": "47.24%", "elapsed_time": "1d 12h 9m 9s", "remaining_time": "1d 16h 22m 11s"}
+{"loss": 0.08418571, "token_acc": 0.96327615, "grad_norm": 0.71556646, "learning_rate": 5.431e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238116, "epoch": 2.36260386, "global_step/max_steps": "30995/65595", "percentage": "47.25%", "elapsed_time": "1d 12h 9m 25s", "remaining_time": "1d 16h 21m 44s"}
+{"loss": 0.06655235, "token_acc": 0.97139588, "grad_norm": 0.85868335, "learning_rate": 5.43e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238126, "epoch": 2.36298498, "global_step/max_steps": "31000/65595", "percentage": "47.26%", "elapsed_time": "1d 12h 9m 40s", "remaining_time": "1d 16h 21m 17s"}
+{"eval_loss": 0.08528788, "eval_token_acc": 0.96257756, "eval_runtime": 220.4696, "eval_samples_per_second": 2.404, "eval_steps_per_second": 2.404, "epoch": 2.36298498, "global_step/max_steps": "31000/65595", "percentage": "47.26%", "elapsed_time": "1d 12h 13m 21s", "remaining_time": "1d 16h 25m 23s"}
+{"loss": 0.078205, "token_acc": 0.96269298, "grad_norm": 1.27160251, "learning_rate": 5.429e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237729, "epoch": 2.36336611, "global_step/max_steps": "31005/65595", "percentage": "47.27%", "elapsed_time": "1d 12h 13m 39s", "remaining_time": "1d 16h 24m 59s"}
+{"loss": 0.11107147, "token_acc": 0.96094891, "grad_norm": 1.12246668, "learning_rate": 5.428e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237734, "epoch": 2.36374724, "global_step/max_steps": "31010/65595", "percentage": "47.27%", "elapsed_time": "1d 12h 13m 57s", "remaining_time": "1d 16h 24m 35s"}
+{"loss": 0.08681472, "token_acc": 0.96518592, "grad_norm": 0.63734907, "learning_rate": 5.426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237736, "epoch": 2.36412836, "global_step/max_steps": "31015/65595", "percentage": "47.28%", "elapsed_time": "1d 12h 14m 17s", "remaining_time": "1d 16h 24m 13s"}
+{"loss": 0.05805981, "token_acc": 0.97707666, "grad_norm": 0.61963713, "learning_rate": 5.425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237744, "epoch": 2.36450949, "global_step/max_steps": "31020/65595", "percentage": "47.29%", "elapsed_time": "1d 12h 14m 34s", "remaining_time": "1d 16h 23m 47s"}
+{"loss": 0.09477245, "token_acc": 0.96202532, "grad_norm": 1.31724322, "learning_rate": 5.424e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237749, "epoch": 2.36489062, "global_step/max_steps": "31025/65595", "percentage": "47.30%", "elapsed_time": "1d 12h 14m 52s", "remaining_time": "1d 16h 23m 22s"}
+{"loss": 0.11397542, "token_acc": 0.95467884, "grad_norm": 0.83876145, "learning_rate": 5.423e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237761, "epoch": 2.36527174, "global_step/max_steps": "31030/65595", "percentage": "47.31%", "elapsed_time": "1d 12h 15m 7s", "remaining_time": "1d 16h 22m 54s"}
+{"loss": 0.07932603, "token_acc": 0.96938776, "grad_norm": 0.72105485, "learning_rate": 5.422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237759, "epoch": 2.36565287, "global_step/max_steps": "31035/65595", "percentage": "47.31%", "elapsed_time": "1d 12h 15m 29s", "remaining_time": "1d 16h 22m 35s"}
+{"loss": 0.08605617, "token_acc": 0.96944383, "grad_norm": 0.94090933, "learning_rate": 5.42e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237765, "epoch": 2.366034, "global_step/max_steps": "31040/65595", "percentage": "47.32%", "elapsed_time": "1d 12h 15m 46s", "remaining_time": "1d 16h 22m 9s"}
+{"loss": 0.09566019, "token_acc": 0.95506958, "grad_norm": 0.31476945, "learning_rate": 5.419e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237777, "epoch": 2.36641512, "global_step/max_steps": "31045/65595", "percentage": "47.33%", "elapsed_time": "1d 12h 16m 1s", "remaining_time": "1d 16h 21m 41s"}
+{"loss": 0.11585348, "token_acc": 0.96065499, "grad_norm": 0.56510359, "learning_rate": 5.418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237777, "epoch": 2.36679625, "global_step/max_steps": "31050/65595", "percentage": "47.34%", "elapsed_time": "1d 12h 16m 22s", "remaining_time": "1d 16h 21m 20s"}
+{"loss": 0.06411581, "token_acc": 0.96472499, "grad_norm": 0.63558894, "learning_rate": 5.417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237786, "epoch": 2.36717738, "global_step/max_steps": "31055/65595", "percentage": "47.34%", "elapsed_time": "1d 12h 16m 38s", "remaining_time": "1d 16h 20m 54s"}
+{"loss": 0.0662291, "token_acc": 0.97554092, "grad_norm": 1.48742056, "learning_rate": 5.416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23779, "epoch": 2.3675585, "global_step/max_steps": "31060/65595", "percentage": "47.35%", "elapsed_time": "1d 12h 16m 56s", "remaining_time": "1d 16h 20m 30s"}
+{"loss": 0.08801357, "token_acc": 0.96032462, "grad_norm": 0.42747635, "learning_rate": 5.414e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2378, "epoch": 2.36793963, "global_step/max_steps": "31065/65595", "percentage": "47.36%", "elapsed_time": "1d 12h 17m 12s", "remaining_time": "1d 16h 20m 3s"}
+{"loss": 0.07852803, "token_acc": 0.95921898, "grad_norm": 0.98274267, "learning_rate": 5.413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237809, "epoch": 2.36832076, "global_step/max_steps": "31070/65595", "percentage": "47.37%", "elapsed_time": "1d 12h 17m 28s", "remaining_time": "1d 16h 19m 36s"}
+{"loss": 0.07896273, "token_acc": 0.96479328, "grad_norm": 0.96686292, "learning_rate": 5.412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237819, "epoch": 2.36870188, "global_step/max_steps": "31075/65595", "percentage": "47.37%", "elapsed_time": "1d 12h 17m 44s", "remaining_time": "1d 16h 19m 9s"}
+{"loss": 0.07559226, "token_acc": 0.97547302, "grad_norm": 0.57147509, "learning_rate": 5.411e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237825, "epoch": 2.36908301, "global_step/max_steps": "31080/65595", "percentage": "47.38%", "elapsed_time": "1d 12h 18m 2s", "remaining_time": "1d 16h 18m 45s"}
+{"loss": 0.096685, "token_acc": 0.96226415, "grad_norm": 0.62737876, "learning_rate": 5.41e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237835, "epoch": 2.36946414, "global_step/max_steps": "31085/65595", "percentage": "47.39%", "elapsed_time": "1d 12h 18m 17s", "remaining_time": "1d 16h 18m 18s"}
+{"loss": 0.07658748, "token_acc": 0.96970695, "grad_norm": 0.80063176, "learning_rate": 5.408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237835, "epoch": 2.36984526, "global_step/max_steps": "31090/65595", "percentage": "47.40%", "elapsed_time": "1d 12h 18m 38s", "remaining_time": "1d 16h 17m 57s"}
+{"loss": 0.08531966, "token_acc": 0.96935152, "grad_norm": 0.83989471, "learning_rate": 5.407e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237842, "epoch": 2.37022639, "global_step/max_steps": "31095/65595", "percentage": "47.40%", "elapsed_time": "1d 12h 18m 56s", "remaining_time": "1d 16h 17m 32s"}
+{"loss": 0.10421255, "token_acc": 0.96075225, "grad_norm": 1.02150011, "learning_rate": 5.406e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237851, "epoch": 2.37060752, "global_step/max_steps": "31100/65595", "percentage": "47.41%", "elapsed_time": "1d 12h 19m 12s", "remaining_time": "1d 16h 17m 5s"}
+{"loss": 0.07981572, "token_acc": 0.96934381, "grad_norm": 0.92558956, "learning_rate": 5.405e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237858, "epoch": 2.37098864, "global_step/max_steps": "31105/65595", "percentage": "47.42%", "elapsed_time": "1d 12h 19m 29s", "remaining_time": "1d 16h 16m 40s"}
+{"loss": 0.09013289, "token_acc": 0.96662373, "grad_norm": 0.54599953, "learning_rate": 5.404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237861, "epoch": 2.37136977, "global_step/max_steps": "31110/65595", "percentage": "47.43%", "elapsed_time": "1d 12h 19m 48s", "remaining_time": "1d 16h 16m 17s"}
+{"loss": 0.10316923, "token_acc": 0.96703061, "grad_norm": 0.76350635, "learning_rate": 5.402e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237866, "epoch": 2.3717509, "global_step/max_steps": "31115/65595", "percentage": "47.44%", "elapsed_time": "1d 12h 20m 6s", "remaining_time": "1d 16h 15m 53s"}
+{"loss": 0.09620672, "token_acc": 0.96383449, "grad_norm": 1.49799836, "learning_rate": 5.401e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237872, "epoch": 2.37213202, "global_step/max_steps": "31120/65595", "percentage": "47.44%", "elapsed_time": "1d 12h 20m 24s", "remaining_time": "1d 16h 15m 28s"}
+{"loss": 0.11558121, "token_acc": 0.95318788, "grad_norm": 0.74056166, "learning_rate": 5.4e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23788, "epoch": 2.37251315, "global_step/max_steps": "31125/65595", "percentage": "47.45%", "elapsed_time": "1d 12h 20m 41s", "remaining_time": "1d 16h 15m 2s"}
+{"loss": 0.09446353, "token_acc": 0.96302083, "grad_norm": 1.11277807, "learning_rate": 5.399e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237886, "epoch": 2.37289428, "global_step/max_steps": "31130/65595", "percentage": "47.46%", "elapsed_time": "1d 12h 20m 58s", "remaining_time": "1d 16h 14m 37s"}
+{"loss": 0.07607114, "token_acc": 0.97182899, "grad_norm": 0.56868142, "learning_rate": 5.398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237892, "epoch": 2.3732754, "global_step/max_steps": "31135/65595", "percentage": "47.47%", "elapsed_time": "1d 12h 21m 16s", "remaining_time": "1d 16h 14m 13s"}
+{"loss": 0.09822361, "token_acc": 0.95547665, "grad_norm": 0.88780719, "learning_rate": 5.397e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237903, "epoch": 2.37365653, "global_step/max_steps": "31140/65595", "percentage": "47.47%", "elapsed_time": "1d 12h 21m 31s", "remaining_time": "1d 16h 13m 45s"}
+{"loss": 0.12208359, "token_acc": 0.96406403, "grad_norm": 1.38477409, "learning_rate": 5.395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237912, "epoch": 2.37403766, "global_step/max_steps": "31145/65595", "percentage": "47.48%", "elapsed_time": "1d 12h 21m 47s", "remaining_time": "1d 16h 13m 19s"}
+{"loss": 0.13268846, "token_acc": 0.94911147, "grad_norm": 1.35088217, "learning_rate": 5.394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237921, "epoch": 2.37441878, "global_step/max_steps": "31150/65595", "percentage": "47.49%", "elapsed_time": "1d 12h 22m 3s", "remaining_time": "1d 16h 12m 52s"}
+{"loss": 0.06582505, "token_acc": 0.9716688, "grad_norm": 0.31269899, "learning_rate": 5.393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237928, "epoch": 2.37479991, "global_step/max_steps": "31155/65595", "percentage": "47.50%", "elapsed_time": "1d 12h 22m 20s", "remaining_time": "1d 16h 12m 27s"}
+{"loss": 0.09521128, "token_acc": 0.96824502, "grad_norm": 0.77052802, "learning_rate": 5.392e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237935, "epoch": 2.37518104, "global_step/max_steps": "31160/65595", "percentage": "47.50%", "elapsed_time": "1d 12h 22m 37s", "remaining_time": "1d 16h 12m 1s"}
+{"loss": 0.08562617, "token_acc": 0.96865521, "grad_norm": 1.73599958, "learning_rate": 5.391e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237946, "epoch": 2.37556216, "global_step/max_steps": "31165/65595", "percentage": "47.51%", "elapsed_time": "1d 12h 22m 52s", "remaining_time": "1d 16h 11m 34s"}
+{"loss": 0.07734075, "token_acc": 0.96771879, "grad_norm": 0.74162352, "learning_rate": 5.389e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237951, "epoch": 2.37594329, "global_step/max_steps": "31170/65595", "percentage": "47.52%", "elapsed_time": "1d 12h 23m 11s", "remaining_time": "1d 16h 11m 10s"}
+{"loss": 0.09363832, "token_acc": 0.96802842, "grad_norm": 0.8314569, "learning_rate": 5.388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237962, "epoch": 2.37632441, "global_step/max_steps": "31175/65595", "percentage": "47.53%", "elapsed_time": "1d 12h 23m 26s", "remaining_time": "1d 16h 10m 42s"}
+{"loss": 0.08723482, "token_acc": 0.95947712, "grad_norm": 0.97881806, "learning_rate": 5.387e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237967, "epoch": 2.37670554, "global_step/max_steps": "31180/65595", "percentage": "47.53%", "elapsed_time": "1d 12h 23m 44s", "remaining_time": "1d 16h 10m 18s"}
+{"loss": 0.09058894, "token_acc": 0.96579362, "grad_norm": 0.66861743, "learning_rate": 5.386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237969, "epoch": 2.37708667, "global_step/max_steps": "31185/65595", "percentage": "47.54%", "elapsed_time": "1d 12h 24m 4s", "remaining_time": "1d 16h 9m 56s"}
+{"loss": 0.10390739, "token_acc": 0.95769764, "grad_norm": 1.26843119, "learning_rate": 5.385e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23798, "epoch": 2.37746779, "global_step/max_steps": "31190/65595", "percentage": "47.55%", "elapsed_time": "1d 12h 24m 19s", "remaining_time": "1d 16h 9m 28s"}
+{"loss": 0.08044705, "token_acc": 0.97339969, "grad_norm": 1.14109933, "learning_rate": 5.383e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237985, "epoch": 2.37784892, "global_step/max_steps": "31195/65595", "percentage": "47.56%", "elapsed_time": "1d 12h 24m 37s", "remaining_time": "1d 16h 9m 4s"}
+{"loss": 0.09050151, "token_acc": 0.95374449, "grad_norm": 0.28665179, "learning_rate": 5.382e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237993, "epoch": 2.37823005, "global_step/max_steps": "31200/65595", "percentage": "47.56%", "elapsed_time": "1d 12h 24m 54s", "remaining_time": "1d 16h 8m 38s"}
+{"eval_loss": 0.08521707, "eval_token_acc": 0.96300675, "eval_runtime": 220.0517, "eval_samples_per_second": 2.409, "eval_steps_per_second": 2.409, "epoch": 2.37823005, "global_step/max_steps": "31200/65595", "percentage": "47.56%", "elapsed_time": "1d 12h 28m 34s", "remaining_time": "1d 16h 12m 41s"}
+{"loss": 0.09774637, "token_acc": 0.96307935, "grad_norm": 1.23754692, "learning_rate": 5.381e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237603, "epoch": 2.37861117, "global_step/max_steps": "31205/65595", "percentage": "47.57%", "elapsed_time": "1d 12h 28m 50s", "remaining_time": "1d 16h 12m 14s"}
+{"loss": 0.0639284, "token_acc": 0.97098865, "grad_norm": 0.66316003, "learning_rate": 5.38e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237608, "epoch": 2.3789923, "global_step/max_steps": "31210/65595", "percentage": "47.58%", "elapsed_time": "1d 12h 29m 8s", "remaining_time": "1d 16h 11m 50s"}
+{"loss": 0.07077355, "token_acc": 0.96807756, "grad_norm": 1.193784, "learning_rate": 5.379e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237618, "epoch": 2.37937343, "global_step/max_steps": "31215/65595", "percentage": "47.59%", "elapsed_time": "1d 12h 29m 24s", "remaining_time": "1d 16h 11m 23s"}
+{"loss": 0.08090924, "token_acc": 0.9654485, "grad_norm": 0.57355112, "learning_rate": 5.377e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237632, "epoch": 2.37975455, "global_step/max_steps": "31220/65595", "percentage": "47.60%", "elapsed_time": "1d 12h 29m 37s", "remaining_time": "1d 16h 10m 54s"}
+{"loss": 0.10216205, "token_acc": 0.95652174, "grad_norm": 0.68821216, "learning_rate": 5.376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23764, "epoch": 2.38013568, "global_step/max_steps": "31225/65595", "percentage": "47.60%", "elapsed_time": "1d 12h 29m 53s", "remaining_time": "1d 16h 10m 27s"}
+{"loss": 0.08965572, "token_acc": 0.96872428, "grad_norm": 0.52936405, "learning_rate": 5.375e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237641, "epoch": 2.38051681, "global_step/max_steps": "31230/65595", "percentage": "47.61%", "elapsed_time": "1d 12h 30m 14s", "remaining_time": "1d 16h 10m 6s"}
+{"loss": 0.1087348, "token_acc": 0.96328502, "grad_norm": 1.43839431, "learning_rate": 5.374e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237649, "epoch": 2.38089793, "global_step/max_steps": "31235/65595", "percentage": "47.62%", "elapsed_time": "1d 12h 30m 31s", "remaining_time": "1d 16h 9m 40s"}
+{"loss": 0.05596017, "token_acc": 0.9799913, "grad_norm": 1.10745537, "learning_rate": 5.373e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237656, "epoch": 2.38127906, "global_step/max_steps": "31240/65595", "percentage": "47.63%", "elapsed_time": "1d 12h 30m 48s", "remaining_time": "1d 16h 9m 15s"}
+{"loss": 0.09745961, "token_acc": 0.97133106, "grad_norm": 1.75703275, "learning_rate": 5.371e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237664, "epoch": 2.38166019, "global_step/max_steps": "31245/65595", "percentage": "47.63%", "elapsed_time": "1d 12h 31m 4s", "remaining_time": "1d 16h 8m 49s"}
+{"loss": 0.11691816, "token_acc": 0.95771981, "grad_norm": 1.02252316, "learning_rate": 5.37e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237672, "epoch": 2.38204131, "global_step/max_steps": "31250/65595", "percentage": "47.64%", "elapsed_time": "1d 12h 31m 21s", "remaining_time": "1d 16h 8m 23s"}
+{"loss": 0.11683707, "token_acc": 0.95249795, "grad_norm": 0.61223722, "learning_rate": 5.369e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237682, "epoch": 2.38242244, "global_step/max_steps": "31255/65595", "percentage": "47.65%", "elapsed_time": "1d 12h 31m 37s", "remaining_time": "1d 16h 7m 56s"}
+{"loss": 0.09437171, "token_acc": 0.96149554, "grad_norm": 0.88140011, "learning_rate": 5.368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237692, "epoch": 2.38280357, "global_step/max_steps": "31260/65595", "percentage": "47.66%", "elapsed_time": "1d 12h 31m 52s", "remaining_time": "1d 16h 7m 29s"}
+{"loss": 0.07922405, "token_acc": 0.96862996, "grad_norm": 1.26931965, "learning_rate": 5.367e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237701, "epoch": 2.38318469, "global_step/max_steps": "31265/65595", "percentage": "47.66%", "elapsed_time": "1d 12h 32m 8s", "remaining_time": "1d 16h 7m 2s"}
+{"loss": 0.13680605, "token_acc": 0.9443128, "grad_norm": 1.14817917, "learning_rate": 5.365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237713, "epoch": 2.38356582, "global_step/max_steps": "31270/65595", "percentage": "47.67%", "elapsed_time": "1d 12h 32m 23s", "remaining_time": "1d 16h 6m 34s"}
+{"loss": 0.08330482, "token_acc": 0.96812858, "grad_norm": 0.78905976, "learning_rate": 5.364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237723, "epoch": 2.38394695, "global_step/max_steps": "31275/65595", "percentage": "47.68%", "elapsed_time": "1d 12h 32m 38s", "remaining_time": "1d 16h 6m 7s"}
+{"loss": 0.08229019, "token_acc": 0.96732726, "grad_norm": 0.82348359, "learning_rate": 5.363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237733, "epoch": 2.38432807, "global_step/max_steps": "31280/65595", "percentage": "47.69%", "elapsed_time": "1d 12h 32m 53s", "remaining_time": "1d 16h 5m 39s"}
+{"loss": 0.08715882, "token_acc": 0.97086341, "grad_norm": 0.66759324, "learning_rate": 5.362e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237741, "epoch": 2.3847092, "global_step/max_steps": "31285/65595", "percentage": "47.69%", "elapsed_time": "1d 12h 33m 10s", "remaining_time": "1d 16h 5m 14s"}
+{"loss": 0.08429052, "token_acc": 0.96440959, "grad_norm": 0.69384128, "learning_rate": 5.361e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237743, "epoch": 2.38509033, "global_step/max_steps": "31290/65595", "percentage": "47.70%", "elapsed_time": "1d 12h 33m 30s", "remaining_time": "1d 16h 4m 51s"}
+{"loss": 0.08095074, "token_acc": 0.96566402, "grad_norm": 0.6991964, "learning_rate": 5.359e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237748, "epoch": 2.38547145, "global_step/max_steps": "31295/65595", "percentage": "47.71%", "elapsed_time": "1d 12h 33m 48s", "remaining_time": "1d 16h 4m 27s"}
+{"loss": 0.08543552, "token_acc": 0.97156123, "grad_norm": 1.46252406, "learning_rate": 5.358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237761, "epoch": 2.38585258, "global_step/max_steps": "31300/65595", "percentage": "47.72%", "elapsed_time": "1d 12h 34m 2s", "remaining_time": "1d 16h 3m 58s"}
+{"loss": 0.10993643, "token_acc": 0.96406462, "grad_norm": 0.74679351, "learning_rate": 5.357e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237765, "epoch": 2.38623371, "global_step/max_steps": "31305/65595", "percentage": "47.72%", "elapsed_time": "1d 12h 34m 21s", "remaining_time": "1d 16h 3m 35s"}
+{"loss": 0.08198057, "token_acc": 0.96385542, "grad_norm": 1.50488091, "learning_rate": 5.356e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23777, "epoch": 2.38661483, "global_step/max_steps": "31310/65595", "percentage": "47.73%", "elapsed_time": "1d 12h 34m 39s", "remaining_time": "1d 16h 3m 11s"}
+{"loss": 0.09441487, "token_acc": 0.96767946, "grad_norm": 0.86662465, "learning_rate": 5.355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237771, "epoch": 2.38699596, "global_step/max_steps": "31315/65595", "percentage": "47.74%", "elapsed_time": "1d 12h 35m 0s", "remaining_time": "1d 16h 2m 49s"}
+{"loss": 0.10726969, "token_acc": 0.96278845, "grad_norm": 0.57990777, "learning_rate": 5.354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237771, "epoch": 2.38737709, "global_step/max_steps": "31320/65595", "percentage": "47.75%", "elapsed_time": "1d 12h 35m 21s", "remaining_time": "1d 16h 2m 28s"}
+{"loss": 0.09630421, "token_acc": 0.95826803, "grad_norm": 1.70382512, "learning_rate": 5.352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23778, "epoch": 2.38775821, "global_step/max_steps": "31325/65595", "percentage": "47.76%", "elapsed_time": "1d 12h 35m 37s", "remaining_time": "1d 16h 2m 2s"}
+{"loss": 0.08274248, "token_acc": 0.9701575, "grad_norm": 1.60990202, "learning_rate": 5.351e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237784, "epoch": 2.38813934, "global_step/max_steps": "31330/65595", "percentage": "47.76%", "elapsed_time": "1d 12h 35m 56s", "remaining_time": "1d 16h 1m 38s"}
+{"loss": 0.08063049, "token_acc": 0.96626078, "grad_norm": 1.27625, "learning_rate": 5.35e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237792, "epoch": 2.38852047, "global_step/max_steps": "31335/65595", "percentage": "47.77%", "elapsed_time": "1d 12h 36m 12s", "remaining_time": "1d 16h 1m 12s"}
+{"loss": 0.12302785, "token_acc": 0.95647194, "grad_norm": 1.61693335, "learning_rate": 5.349e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237799, "epoch": 2.38890159, "global_step/max_steps": "31340/65595", "percentage": "47.78%", "elapsed_time": "1d 12h 36m 29s", "remaining_time": "1d 16h 0m 47s"}
+{"loss": 0.10180585, "token_acc": 0.96727562, "grad_norm": 0.97993159, "learning_rate": 5.348e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237804, "epoch": 2.38928272, "global_step/max_steps": "31345/65595", "percentage": "47.79%", "elapsed_time": "1d 12h 36m 47s", "remaining_time": "1d 16h 0m 23s"}
+{"loss": 0.09778773, "token_acc": 0.95729786, "grad_norm": 0.94687778, "learning_rate": 5.346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237809, "epoch": 2.38966385, "global_step/max_steps": "31350/65595", "percentage": "47.79%", "elapsed_time": "1d 12h 37m 6s", "remaining_time": "1d 15h 59m 59s"}
+{"loss": 0.10218154, "token_acc": 0.95232965, "grad_norm": 0.67713076, "learning_rate": 5.345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23782, "epoch": 2.39004497, "global_step/max_steps": "31355/65595", "percentage": "47.80%", "elapsed_time": "1d 12h 37m 21s", "remaining_time": "1d 15h 59m 31s"}
+{"loss": 0.07776549, "token_acc": 0.97015469, "grad_norm": 1.03140414, "learning_rate": 5.344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23783, "epoch": 2.3904261, "global_step/max_steps": "31360/65595", "percentage": "47.81%", "elapsed_time": "1d 12h 37m 36s", "remaining_time": "1d 15h 59m 4s"}
+{"loss": 0.08387594, "token_acc": 0.96859114, "grad_norm": 0.59725773, "learning_rate": 5.343e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237836, "epoch": 2.39080723, "global_step/max_steps": "31365/65595", "percentage": "47.82%", "elapsed_time": "1d 12h 37m 54s", "remaining_time": "1d 15h 58m 40s"}
+{"loss": 0.09008683, "token_acc": 0.973313, "grad_norm": 1.64596975, "learning_rate": 5.342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237846, "epoch": 2.39118835, "global_step/max_steps": "31370/65595", "percentage": "47.82%", "elapsed_time": "1d 12h 38m 9s", "remaining_time": "1d 15h 58m 12s"}
+{"loss": 0.09138091, "token_acc": 0.95911341, "grad_norm": 1.31097806, "learning_rate": 5.34e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237854, "epoch": 2.39156948, "global_step/max_steps": "31375/65595", "percentage": "47.83%", "elapsed_time": "1d 12h 38m 26s", "remaining_time": "1d 15h 57m 47s"}
+{"loss": 0.05290588, "token_acc": 0.97563297, "grad_norm": 0.61414939, "learning_rate": 5.339e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23786, "epoch": 2.39195061, "global_step/max_steps": "31380/65595", "percentage": "47.84%", "elapsed_time": "1d 12h 38m 43s", "remaining_time": "1d 15h 57m 22s"}
+{"loss": 0.09736396, "token_acc": 0.95745827, "grad_norm": 0.8543852, "learning_rate": 5.338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237866, "epoch": 2.39233173, "global_step/max_steps": "31385/65595", "percentage": "47.85%", "elapsed_time": "1d 12h 39m 1s", "remaining_time": "1d 15h 56m 57s"}
+{"loss": 0.09589442, "token_acc": 0.96538025, "grad_norm": 0.7680192, "learning_rate": 5.337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237873, "epoch": 2.39271286, "global_step/max_steps": "31390/65595", "percentage": "47.85%", "elapsed_time": "1d 12h 39m 19s", "remaining_time": "1d 15h 56m 33s"}
+{"loss": 0.08773277, "token_acc": 0.96741855, "grad_norm": 1.67517543, "learning_rate": 5.336e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237883, "epoch": 2.39309399, "global_step/max_steps": "31395/65595", "percentage": "47.86%", "elapsed_time": "1d 12h 39m 34s", "remaining_time": "1d 15h 56m 5s"}
+{"loss": 0.11829129, "token_acc": 0.96202532, "grad_norm": 1.11557794, "learning_rate": 5.334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237895, "epoch": 2.39347511, "global_step/max_steps": "31400/65595", "percentage": "47.87%", "elapsed_time": "1d 12h 39m 48s", "remaining_time": "1d 15h 55m 37s"}
+{"eval_loss": 0.0851614, "eval_token_acc": 0.96285615, "eval_runtime": 220.5249, "eval_samples_per_second": 2.403, "eval_steps_per_second": 2.403, "epoch": 2.39347511, "global_step/max_steps": "31400/65595", "percentage": "47.87%", "elapsed_time": "1d 12h 43m 29s", "remaining_time": "1d 15h 59m 37s"}
+{"loss": 0.09059352, "token_acc": 0.96295289, "grad_norm": 0.91050655, "learning_rate": 5.333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237509, "epoch": 2.39385624, "global_step/max_steps": "31405/65595", "percentage": "47.88%", "elapsed_time": "1d 12h 43m 44s", "remaining_time": "1d 15h 59m 10s"}
+{"loss": 0.09969868, "token_acc": 0.96259106, "grad_norm": 1.17169595, "learning_rate": 5.332e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237519, "epoch": 2.39423737, "global_step/max_steps": "31410/65595", "percentage": "47.88%", "elapsed_time": "1d 12h 44m 0s", "remaining_time": "1d 15h 58m 43s"}
+{"loss": 0.09195285, "token_acc": 0.95708677, "grad_norm": 0.86047304, "learning_rate": 5.331e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237524, "epoch": 2.39461849, "global_step/max_steps": "31415/65595", "percentage": "47.89%", "elapsed_time": "1d 12h 44m 18s", "remaining_time": "1d 15h 58m 18s"}
+{"loss": 0.10344297, "token_acc": 0.97061416, "grad_norm": 2.21354556, "learning_rate": 5.33e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237532, "epoch": 2.39499962, "global_step/max_steps": "31420/65595", "percentage": "47.90%", "elapsed_time": "1d 12h 44m 34s", "remaining_time": "1d 15h 57m 52s"}
+{"loss": 0.09135279, "token_acc": 0.96429612, "grad_norm": 0.48844638, "learning_rate": 5.328e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237533, "epoch": 2.39538075, "global_step/max_steps": "31425/65595", "percentage": "47.91%", "elapsed_time": "1d 12h 44m 55s", "remaining_time": "1d 15h 57m 31s"}
+{"loss": 0.05075341, "token_acc": 0.97274364, "grad_norm": 0.12757809, "learning_rate": 5.327e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237539, "epoch": 2.39576187, "global_step/max_steps": "31430/65595", "percentage": "47.92%", "elapsed_time": "1d 12h 45m 12s", "remaining_time": "1d 15h 57m 6s"}
+{"loss": 0.06104531, "token_acc": 0.97543768, "grad_norm": 0.59746087, "learning_rate": 5.326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237549, "epoch": 2.396143, "global_step/max_steps": "31435/65595", "percentage": "47.92%", "elapsed_time": "1d 12h 45m 28s", "remaining_time": "1d 15h 56m 39s"}
+{"loss": 0.11855623, "token_acc": 0.95108473, "grad_norm": 1.77490616, "learning_rate": 5.325e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237557, "epoch": 2.39652413, "global_step/max_steps": "31440/65595", "percentage": "47.93%", "elapsed_time": "1d 12h 45m 45s", "remaining_time": "1d 15h 56m 13s"}
+{"loss": 0.0790369, "token_acc": 0.9717362, "grad_norm": 0.89895594, "learning_rate": 5.324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237557, "epoch": 2.39690525, "global_step/max_steps": "31445/65595", "percentage": "47.94%", "elapsed_time": "1d 12h 46m 6s", "remaining_time": "1d 15h 55m 52s"}
+{"loss": 0.11701039, "token_acc": 0.96066566, "grad_norm": 0.76338953, "learning_rate": 5.322e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237563, "epoch": 2.39728638, "global_step/max_steps": "31450/65595", "percentage": "47.95%", "elapsed_time": "1d 12h 46m 23s", "remaining_time": "1d 15h 55m 27s"}
+{"loss": 0.06187049, "token_acc": 0.97001008, "grad_norm": 1.06626058, "learning_rate": 5.321e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237573, "epoch": 2.39766751, "global_step/max_steps": "31455/65595", "percentage": "47.95%", "elapsed_time": "1d 12h 46m 38s", "remaining_time": "1d 15h 55m 0s"}
+{"loss": 0.10295663, "token_acc": 0.9574521, "grad_norm": 1.50779319, "learning_rate": 5.32e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237582, "epoch": 2.39804863, "global_step/max_steps": "31460/65595", "percentage": "47.96%", "elapsed_time": "1d 12h 46m 55s", "remaining_time": "1d 15h 54m 34s"}
+{"loss": 0.10598462, "token_acc": 0.95351638, "grad_norm": 1.16296804, "learning_rate": 5.319e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237591, "epoch": 2.39842976, "global_step/max_steps": "31465/65595", "percentage": "47.97%", "elapsed_time": "1d 12h 47m 11s", "remaining_time": "1d 15h 54m 7s"}
+{"loss": 0.09750716, "token_acc": 0.96541502, "grad_norm": 1.69290853, "learning_rate": 5.318e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237599, "epoch": 2.39881088, "global_step/max_steps": "31470/65595", "percentage": "47.98%", "elapsed_time": "1d 12h 47m 27s", "remaining_time": "1d 15h 53m 41s"}
+{"loss": 0.07754534, "token_acc": 0.97168721, "grad_norm": 0.53670603, "learning_rate": 5.316e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237601, "epoch": 2.39919201, "global_step/max_steps": "31475/65595", "percentage": "47.98%", "elapsed_time": "1d 12h 47m 47s", "remaining_time": "1d 15h 53m 19s"}
+{"loss": 0.11748656, "token_acc": 0.96319896, "grad_norm": 1.5796603, "learning_rate": 5.315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2376, "epoch": 2.39957314, "global_step/max_steps": "31480/65595", "percentage": "47.99%", "elapsed_time": "1d 12h 48m 9s", "remaining_time": "1d 15h 52m 59s"}
+{"loss": 0.0805221, "token_acc": 0.96158224, "grad_norm": 0.74551064, "learning_rate": 5.314e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237612, "epoch": 2.39995426, "global_step/max_steps": "31485/65595", "percentage": "48.00%", "elapsed_time": "1d 12h 48m 23s", "remaining_time": "1d 15h 52m 31s"}
+{"loss": 0.11531267, "token_acc": 0.95787402, "grad_norm": 1.79492319, "learning_rate": 5.313e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23762, "epoch": 2.40033539, "global_step/max_steps": "31490/65595", "percentage": "48.01%", "elapsed_time": "1d 12h 48m 40s", "remaining_time": "1d 15h 52m 5s"}
+{"loss": 0.09888643, "token_acc": 0.96648649, "grad_norm": 1.55552721, "learning_rate": 5.312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23763, "epoch": 2.40071652, "global_step/max_steps": "31495/65595", "percentage": "48.01%", "elapsed_time": "1d 12h 48m 55s", "remaining_time": "1d 15h 51m 38s"}
+{"loss": 0.08097627, "token_acc": 0.97462473, "grad_norm": 0.62913197, "learning_rate": 5.311e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237634, "epoch": 2.40109764, "global_step/max_steps": "31500/65595", "percentage": "48.02%", "elapsed_time": "1d 12h 49m 14s", "remaining_time": "1d 15h 51m 14s"}
+{"loss": 0.06617435, "token_acc": 0.97412225, "grad_norm": 0.56835902, "learning_rate": 5.309e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237634, "epoch": 2.40147877, "global_step/max_steps": "31505/65595", "percentage": "48.03%", "elapsed_time": "1d 12h 49m 35s", "remaining_time": "1d 15h 50m 53s"}
+{"loss": 0.0812158, "token_acc": 0.96992481, "grad_norm": 0.73801917, "learning_rate": 5.308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237648, "epoch": 2.4018599, "global_step/max_steps": "31510/65595", "percentage": "48.04%", "elapsed_time": "1d 12h 49m 48s", "remaining_time": "1d 15h 50m 23s"}
+{"loss": 0.08265499, "token_acc": 0.97681919, "grad_norm": 0.84556067, "learning_rate": 5.307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237654, "epoch": 2.40224102, "global_step/max_steps": "31515/65595", "percentage": "48.04%", "elapsed_time": "1d 12h 50m 6s", "remaining_time": "1d 15h 49m 59s"}
+{"loss": 0.07475256, "token_acc": 0.96345748, "grad_norm": 0.81103384, "learning_rate": 5.306e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237658, "epoch": 2.40262215, "global_step/max_steps": "31520/65595", "percentage": "48.05%", "elapsed_time": "1d 12h 50m 25s", "remaining_time": "1d 15h 49m 35s"}
+{"loss": 0.06787164, "token_acc": 0.97276408, "grad_norm": 0.97606844, "learning_rate": 5.305e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23767, "epoch": 2.40300328, "global_step/max_steps": "31525/65595", "percentage": "48.06%", "elapsed_time": "1d 12h 50m 39s", "remaining_time": "1d 15h 49m 7s"}
+{"loss": 0.13564036, "token_acc": 0.95236156, "grad_norm": 1.92758119, "learning_rate": 5.303e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237681, "epoch": 2.4033844, "global_step/max_steps": "31530/65595", "percentage": "48.07%", "elapsed_time": "1d 12h 50m 54s", "remaining_time": "1d 15h 48m 40s"}
+{"loss": 0.0793977, "token_acc": 0.96873568, "grad_norm": 0.85396457, "learning_rate": 5.302e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237684, "epoch": 2.40376553, "global_step/max_steps": "31535/65595", "percentage": "48.08%", "elapsed_time": "1d 12h 51m 13s", "remaining_time": "1d 15h 48m 16s"}
+{"loss": 0.10877256, "token_acc": 0.96934938, "grad_norm": 1.47061992, "learning_rate": 5.301e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23769, "epoch": 2.40414666, "global_step/max_steps": "31540/65595", "percentage": "48.08%", "elapsed_time": "1d 12h 51m 31s", "remaining_time": "1d 15h 47m 52s"}
+{"loss": 0.11553626, "token_acc": 0.96217292, "grad_norm": 1.32699442, "learning_rate": 5.3e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237699, "epoch": 2.40452778, "global_step/max_steps": "31545/65595", "percentage": "48.09%", "elapsed_time": "1d 12h 51m 47s", "remaining_time": "1d 15h 47m 25s"}
+{"loss": 0.09412875, "token_acc": 0.96454699, "grad_norm": 1.58078921, "learning_rate": 5.299e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237704, "epoch": 2.40490891, "global_step/max_steps": "31550/65595", "percentage": "48.10%", "elapsed_time": "1d 12h 52m 6s", "remaining_time": "1d 15h 47m 2s"}
+{"loss": 0.10727785, "token_acc": 0.95799726, "grad_norm": 0.90080607, "learning_rate": 5.297e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237709, "epoch": 2.40529004, "global_step/max_steps": "31555/65595", "percentage": "48.11%", "elapsed_time": "1d 12h 52m 24s", "remaining_time": "1d 15h 46m 38s"}
+{"loss": 0.10135059, "token_acc": 0.95433226, "grad_norm": 1.43305171, "learning_rate": 5.296e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237718, "epoch": 2.40567116, "global_step/max_steps": "31560/65595", "percentage": "48.11%", "elapsed_time": "1d 12h 52m 40s", "remaining_time": "1d 15h 46m 11s"}
+{"loss": 0.05997449, "token_acc": 0.972, "grad_norm": 0.291875, "learning_rate": 5.295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237724, "epoch": 2.40605229, "global_step/max_steps": "31565/65595", "percentage": "48.12%", "elapsed_time": "1d 12h 52m 57s", "remaining_time": "1d 15h 45m 46s"}
+{"loss": 0.09581416, "token_acc": 0.96560721, "grad_norm": 1.62491655, "learning_rate": 5.294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237732, "epoch": 2.40643342, "global_step/max_steps": "31570/65595", "percentage": "48.13%", "elapsed_time": "1d 12h 53m 14s", "remaining_time": "1d 15h 45m 21s"}
+{"loss": 0.08600782, "token_acc": 0.96746093, "grad_norm": 0.94198966, "learning_rate": 5.293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23774, "epoch": 2.40681454, "global_step/max_steps": "31575/65595", "percentage": "48.14%", "elapsed_time": "1d 12h 53m 30s", "remaining_time": "1d 15h 44m 55s"}
+{"loss": 0.07383074, "token_acc": 0.96970409, "grad_norm": 0.69664359, "learning_rate": 5.291e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237747, "epoch": 2.40719567, "global_step/max_steps": "31580/65595", "percentage": "48.14%", "elapsed_time": "1d 12h 53m 47s", "remaining_time": "1d 15h 44m 29s"}
+{"loss": 0.13172989, "token_acc": 0.95459976, "grad_norm": 0.6923824, "learning_rate": 5.29e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237751, "epoch": 2.4075768, "global_step/max_steps": "31585/65595", "percentage": "48.15%", "elapsed_time": "1d 12h 54m 6s", "remaining_time": "1d 15h 44m 6s"}
+{"loss": 0.141014, "token_acc": 0.94939665, "grad_norm": 0.52060908, "learning_rate": 5.289e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237756, "epoch": 2.40795792, "global_step/max_steps": "31590/65595", "percentage": "48.16%", "elapsed_time": "1d 12h 54m 25s", "remaining_time": "1d 15h 43m 42s"}
+{"loss": 0.09581209, "token_acc": 0.96645559, "grad_norm": 0.93006879, "learning_rate": 5.288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23776, "epoch": 2.40833905, "global_step/max_steps": "31595/65595", "percentage": "48.17%", "elapsed_time": "1d 12h 54m 43s", "remaining_time": "1d 15h 43m 19s"}
+{"loss": 0.09393604, "token_acc": 0.96856206, "grad_norm": 1.31806564, "learning_rate": 5.287e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237762, "epoch": 2.40872018, "global_step/max_steps": "31600/65595", "percentage": "48.17%", "elapsed_time": "1d 12h 55m 3s", "remaining_time": "1d 15h 42m 56s"}
+{"eval_loss": 0.08324948, "eval_token_acc": 0.96326276, "eval_runtime": 218.9144, "eval_samples_per_second": 2.421, "eval_steps_per_second": 2.421, "epoch": 2.40872018, "global_step/max_steps": "31600/65595", "percentage": "48.17%", "elapsed_time": "1d 12h 58m 42s", "remaining_time": "1d 15h 46m 52s"}
+{"loss": 0.09570371, "token_acc": 0.96339152, "grad_norm": 0.56036621, "learning_rate": 5.285e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237376, "epoch": 2.4091013, "global_step/max_steps": "31605/65595", "percentage": "48.18%", "elapsed_time": "1d 12h 59m 0s", "remaining_time": "1d 15h 46m 27s"}
+{"loss": 0.09463876, "token_acc": 0.96334439, "grad_norm": 0.91088569, "learning_rate": 5.284e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237385, "epoch": 2.40948243, "global_step/max_steps": "31610/65595", "percentage": "48.19%", "elapsed_time": "1d 12h 59m 17s", "remaining_time": "1d 15h 46m 1s"}
+{"loss": 0.13878396, "token_acc": 0.959659, "grad_norm": 1.82182431, "learning_rate": 5.283e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237389, "epoch": 2.40986356, "global_step/max_steps": "31615/65595", "percentage": "48.20%", "elapsed_time": "1d 12h 59m 35s", "remaining_time": "1d 15h 45m 38s"}
+{"loss": 0.06228114, "token_acc": 0.97104447, "grad_norm": 1.2382431, "learning_rate": 5.282e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2374, "epoch": 2.41024468, "global_step/max_steps": "31620/65595", "percentage": "48.20%", "elapsed_time": "1d 12h 59m 50s", "remaining_time": "1d 15h 45m 10s"}
+{"loss": 0.06674145, "token_acc": 0.97704698, "grad_norm": 0.63329905, "learning_rate": 5.281e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237402, "epoch": 2.41062581, "global_step/max_steps": "31625/65595", "percentage": "48.21%", "elapsed_time": "1d 13h 0m 10s", "remaining_time": "1d 15h 44m 47s"}
+{"loss": 0.11393992, "token_acc": 0.96132297, "grad_norm": 0.88738185, "learning_rate": 5.279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23741, "epoch": 2.41100694, "global_step/max_steps": "31630/65595", "percentage": "48.22%", "elapsed_time": "1d 13h 0m 27s", "remaining_time": "1d 15h 44m 22s"}
+{"loss": 0.06567128, "token_acc": 0.97924562, "grad_norm": 1.11094415, "learning_rate": 5.278e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237414, "epoch": 2.41138806, "global_step/max_steps": "31635/65595", "percentage": "48.23%", "elapsed_time": "1d 13h 0m 46s", "remaining_time": "1d 15h 43m 58s"}
+{"loss": 0.09062893, "token_acc": 0.9643046, "grad_norm": 0.90041894, "learning_rate": 5.277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237417, "epoch": 2.41176919, "global_step/max_steps": "31640/65595", "percentage": "48.24%", "elapsed_time": "1d 13h 1m 5s", "remaining_time": "1d 15h 43m 36s"}
+{"loss": 0.10088375, "token_acc": 0.97066787, "grad_norm": 1.51652598, "learning_rate": 5.276e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237428, "epoch": 2.41215032, "global_step/max_steps": "31645/65595", "percentage": "48.24%", "elapsed_time": "1d 13h 1m 20s", "remaining_time": "1d 15h 43m 8s"}
+{"loss": 0.08354414, "token_acc": 0.96758055, "grad_norm": 0.75934774, "learning_rate": 5.275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237435, "epoch": 2.41253144, "global_step/max_steps": "31650/65595", "percentage": "48.25%", "elapsed_time": "1d 13h 1m 37s", "remaining_time": "1d 15h 42m 43s"}
+{"loss": 0.07595023, "token_acc": 0.96695485, "grad_norm": 0.9742564, "learning_rate": 5.273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237442, "epoch": 2.41291257, "global_step/max_steps": "31655/65595", "percentage": "48.26%", "elapsed_time": "1d 13h 1m 54s", "remaining_time": "1d 15h 42m 17s"}
+{"loss": 0.09080097, "token_acc": 0.96528841, "grad_norm": 0.69885439, "learning_rate": 5.272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237446, "epoch": 2.4132937, "global_step/max_steps": "31660/65595", "percentage": "48.27%", "elapsed_time": "1d 13h 2m 13s", "remaining_time": "1d 15h 41m 54s"}
+{"loss": 0.10014763, "token_acc": 0.95202492, "grad_norm": 0.60314834, "learning_rate": 5.271e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237453, "epoch": 2.41367482, "global_step/max_steps": "31665/65595", "percentage": "48.27%", "elapsed_time": "1d 13h 2m 30s", "remaining_time": "1d 15h 41m 29s"}
+{"loss": 0.09827289, "token_acc": 0.95980565, "grad_norm": 1.08888447, "learning_rate": 5.27e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23746, "epoch": 2.41405595, "global_step/max_steps": "31670/65595", "percentage": "48.28%", "elapsed_time": "1d 13h 2m 47s", "remaining_time": "1d 15h 41m 3s"}
+{"loss": 0.09465992, "token_acc": 0.96895213, "grad_norm": 0.46159238, "learning_rate": 5.269e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237472, "epoch": 2.41443708, "global_step/max_steps": "31675/65595", "percentage": "48.29%", "elapsed_time": "1d 13h 3m 1s", "remaining_time": "1d 15h 40m 35s"}
+{"loss": 0.06650314, "token_acc": 0.97036638, "grad_norm": 0.72928905, "learning_rate": 5.267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237475, "epoch": 2.4148182, "global_step/max_steps": "31680/65595", "percentage": "48.30%", "elapsed_time": "1d 13h 3m 21s", "remaining_time": "1d 15h 40m 12s"}
+{"loss": 0.10270296, "token_acc": 0.96305999, "grad_norm": 1.83285213, "learning_rate": 5.266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237485, "epoch": 2.41519933, "global_step/max_steps": "31685/65595", "percentage": "48.30%", "elapsed_time": "1d 13h 3m 36s", "remaining_time": "1d 15h 39m 45s"}
+{"loss": 0.11179738, "token_acc": 0.95792318, "grad_norm": 0.80925351, "learning_rate": 5.265e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237492, "epoch": 2.41558046, "global_step/max_steps": "31690/65595", "percentage": "48.31%", "elapsed_time": "1d 13h 3m 53s", "remaining_time": "1d 15h 39m 20s"}
+{"loss": 0.06421083, "token_acc": 0.974583, "grad_norm": 0.6949147, "learning_rate": 5.264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237505, "epoch": 2.41596158, "global_step/max_steps": "31695/65595", "percentage": "48.32%", "elapsed_time": "1d 13h 4m 7s", "remaining_time": "1d 15h 38m 51s"}
+{"loss": 0.06641956, "token_acc": 0.96752844, "grad_norm": 1.16177154, "learning_rate": 5.263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237511, "epoch": 2.41634271, "global_step/max_steps": "31700/65595", "percentage": "48.33%", "elapsed_time": "1d 13h 4m 25s", "remaining_time": "1d 15h 38m 26s"}
+{"loss": 0.10980154, "token_acc": 0.95234344, "grad_norm": 1.45791209, "learning_rate": 5.262e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237522, "epoch": 2.41672384, "global_step/max_steps": "31705/65595", "percentage": "48.33%", "elapsed_time": "1d 13h 4m 40s", "remaining_time": "1d 15h 37m 59s"}
+{"loss": 0.08074135, "token_acc": 0.96119336, "grad_norm": 0.78437454, "learning_rate": 5.26e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23753, "epoch": 2.41710496, "global_step/max_steps": "31710/65595", "percentage": "48.34%", "elapsed_time": "1d 13h 4m 56s", "remaining_time": "1d 15h 37m 33s"}
+{"loss": 0.05520209, "token_acc": 0.97014925, "grad_norm": 0.73373103, "learning_rate": 5.259e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23754, "epoch": 2.41748609, "global_step/max_steps": "31715/65595", "percentage": "48.35%", "elapsed_time": "1d 13h 5m 12s", "remaining_time": "1d 15h 37m 6s"}
+{"loss": 0.06261843, "token_acc": 0.9723382, "grad_norm": 1.08530629, "learning_rate": 5.258e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237548, "epoch": 2.41786722, "global_step/max_steps": "31720/65595", "percentage": "48.36%", "elapsed_time": "1d 13h 5m 28s", "remaining_time": "1d 15h 36m 40s"}
+{"loss": 0.11928043, "token_acc": 0.94980801, "grad_norm": 0.69970918, "learning_rate": 5.257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237559, "epoch": 2.41824834, "global_step/max_steps": "31725/65595", "percentage": "48.36%", "elapsed_time": "1d 13h 5m 43s", "remaining_time": "1d 15h 36m 12s"}
+{"loss": 0.05571423, "token_acc": 0.97399859, "grad_norm": 0.81866735, "learning_rate": 5.256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237568, "epoch": 2.41862947, "global_step/max_steps": "31730/65595", "percentage": "48.37%", "elapsed_time": "1d 13h 5m 59s", "remaining_time": "1d 15h 35m 46s"}
+{"loss": 0.05884087, "token_acc": 0.97288262, "grad_norm": 0.45932132, "learning_rate": 5.254e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237579, "epoch": 2.4190106, "global_step/max_steps": "31735/65595", "percentage": "48.38%", "elapsed_time": "1d 13h 6m 14s", "remaining_time": "1d 15h 35m 18s"}
+{"loss": 0.09739054, "token_acc": 0.96528926, "grad_norm": 1.24942398, "learning_rate": 5.253e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237583, "epoch": 2.41939172, "global_step/max_steps": "31740/65595", "percentage": "48.39%", "elapsed_time": "1d 13h 6m 32s", "remaining_time": "1d 15h 34m 54s"}
+{"loss": 0.0808619, "token_acc": 0.97262667, "grad_norm": 0.71363223, "learning_rate": 5.252e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237593, "epoch": 2.41977285, "global_step/max_steps": "31745/65595", "percentage": "48.40%", "elapsed_time": "1d 13h 6m 48s", "remaining_time": "1d 15h 34m 27s"}
+{"loss": 0.07178466, "token_acc": 0.96805574, "grad_norm": 0.65513945, "learning_rate": 5.251e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237598, "epoch": 2.42015398, "global_step/max_steps": "31750/65595", "percentage": "48.40%", "elapsed_time": "1d 13h 7m 6s", "remaining_time": "1d 15h 34m 4s"}
+{"loss": 0.06998769, "token_acc": 0.96602157, "grad_norm": 0.81196618, "learning_rate": 5.25e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237604, "epoch": 2.4205351, "global_step/max_steps": "31755/65595", "percentage": "48.41%", "elapsed_time": "1d 13h 7m 24s", "remaining_time": "1d 15h 33m 39s"}
+{"loss": 0.10886942, "token_acc": 0.96161322, "grad_norm": 0.97627753, "learning_rate": 5.248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237613, "epoch": 2.42091623, "global_step/max_steps": "31760/65595", "percentage": "48.42%", "elapsed_time": "1d 13h 7m 40s", "remaining_time": "1d 15h 33m 13s"}
+{"loss": 0.06673045, "token_acc": 0.97037773, "grad_norm": 0.55452412, "learning_rate": 5.247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237617, "epoch": 2.42129735, "global_step/max_steps": "31765/65595", "percentage": "48.43%", "elapsed_time": "1d 13h 7m 59s", "remaining_time": "1d 15h 32m 49s"}
+{"loss": 0.09236548, "token_acc": 0.9682937, "grad_norm": 0.71942669, "learning_rate": 5.246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237626, "epoch": 2.42167848, "global_step/max_steps": "31770/65595", "percentage": "48.43%", "elapsed_time": "1d 13h 8m 15s", "remaining_time": "1d 15h 32m 23s"}
+{"loss": 0.08164861, "token_acc": 0.96735582, "grad_norm": 1.53048778, "learning_rate": 5.245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237637, "epoch": 2.42205961, "global_step/max_steps": "31775/65595", "percentage": "48.44%", "elapsed_time": "1d 13h 8m 30s", "remaining_time": "1d 15h 31m 55s"}
+{"loss": 0.08680131, "token_acc": 0.96901661, "grad_norm": 1.12162733, "learning_rate": 5.244e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237645, "epoch": 2.42244073, "global_step/max_steps": "31780/65595", "percentage": "48.45%", "elapsed_time": "1d 13h 8m 46s", "remaining_time": "1d 15h 31m 29s"}
+{"loss": 0.07908721, "token_acc": 0.96704628, "grad_norm": 0.94846976, "learning_rate": 5.242e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237653, "epoch": 2.42282186, "global_step/max_steps": "31785/65595", "percentage": "48.46%", "elapsed_time": "1d 13h 9m 3s", "remaining_time": "1d 15h 31m 3s"}
+{"loss": 0.09126313, "token_acc": 0.96662714, "grad_norm": 1.06740141, "learning_rate": 5.241e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237657, "epoch": 2.42320299, "global_step/max_steps": "31790/65595", "percentage": "48.46%", "elapsed_time": "1d 13h 9m 21s", "remaining_time": "1d 15h 30m 40s"}
+{"loss": 0.11822845, "token_acc": 0.96210549, "grad_norm": 1.21638882, "learning_rate": 5.24e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237656, "epoch": 2.42358411, "global_step/max_steps": "31795/65595", "percentage": "48.47%", "elapsed_time": "1d 13h 9m 43s", "remaining_time": "1d 15h 30m 19s"}
+{"loss": 0.1055307, "token_acc": 0.95363977, "grad_norm": 0.62668061, "learning_rate": 5.239e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237664, "epoch": 2.42396524, "global_step/max_steps": "31800/65595", "percentage": "48.48%", "elapsed_time": "1d 13h 9m 59s", "remaining_time": "1d 15h 29m 54s"}
+{"eval_loss": 0.08320986, "eval_token_acc": 0.96349617, "eval_runtime": 221.7066, "eval_samples_per_second": 2.391, "eval_steps_per_second": 2.391, "epoch": 2.42396524, "global_step/max_steps": "31800/65595", "percentage": "48.48%", "elapsed_time": "1d 13h 13m 41s", "remaining_time": "1d 15h 33m 49s"}
+{"loss": 0.06091336, "token_acc": 0.96392905, "grad_norm": 0.66991299, "learning_rate": 5.238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23728, "epoch": 2.42434637, "global_step/max_steps": "31805/65595", "percentage": "48.49%", "elapsed_time": "1d 13h 13m 57s", "remaining_time": "1d 15h 33m 23s"}
+{"loss": 0.08053375, "token_acc": 0.96914369, "grad_norm": 0.87985891, "learning_rate": 5.236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237286, "epoch": 2.42472749, "global_step/max_steps": "31810/65595", "percentage": "48.49%", "elapsed_time": "1d 13h 14m 15s", "remaining_time": "1d 15h 32m 58s"}
+{"loss": 0.06070588, "token_acc": 0.9715696, "grad_norm": 1.06431258, "learning_rate": 5.235e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237294, "epoch": 2.42510862, "global_step/max_steps": "31815/65595", "percentage": "48.50%", "elapsed_time": "1d 13h 14m 31s", "remaining_time": "1d 15h 32m 32s"}
+{"loss": 0.06968784, "token_acc": 0.96907895, "grad_norm": 0.76040339, "learning_rate": 5.234e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237304, "epoch": 2.42548975, "global_step/max_steps": "31820/65595", "percentage": "48.51%", "elapsed_time": "1d 13h 14m 47s", "remaining_time": "1d 15h 32m 5s"}
+{"loss": 0.09960362, "token_acc": 0.96235396, "grad_norm": 0.81276953, "learning_rate": 5.233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237316, "epoch": 2.42587087, "global_step/max_steps": "31825/65595", "percentage": "48.52%", "elapsed_time": "1d 13h 15m 1s", "remaining_time": "1d 15h 31m 37s"}
+{"loss": 0.09174591, "token_acc": 0.96660834, "grad_norm": 0.58266979, "learning_rate": 5.232e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237317, "epoch": 2.426252, "global_step/max_steps": "31830/65595", "percentage": "48.53%", "elapsed_time": "1d 13h 15m 22s", "remaining_time": "1d 15h 31m 15s"}
+{"loss": 0.06858834, "token_acc": 0.97126635, "grad_norm": 0.76760077, "learning_rate": 5.23e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237323, "epoch": 2.42663313, "global_step/max_steps": "31835/65595", "percentage": "48.53%", "elapsed_time": "1d 13h 15m 39s", "remaining_time": "1d 15h 30m 51s"}
+{"loss": 0.09747378, "token_acc": 0.9576493, "grad_norm": 0.65477282, "learning_rate": 5.229e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237331, "epoch": 2.42701425, "global_step/max_steps": "31840/65595", "percentage": "48.54%", "elapsed_time": "1d 13h 15m 56s", "remaining_time": "1d 15h 30m 24s"}
+{"loss": 0.10961242, "token_acc": 0.95944967, "grad_norm": 0.65183842, "learning_rate": 5.228e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237342, "epoch": 2.42739538, "global_step/max_steps": "31845/65595", "percentage": "48.55%", "elapsed_time": "1d 13h 16m 11s", "remaining_time": "1d 15h 29m 57s"}
+{"loss": 0.08256965, "token_acc": 0.97242417, "grad_norm": 0.89923501, "learning_rate": 5.227e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237349, "epoch": 2.42777651, "global_step/max_steps": "31850/65595", "percentage": "48.56%", "elapsed_time": "1d 13h 16m 28s", "remaining_time": "1d 15h 29m 31s"}
+{"loss": 0.09309107, "token_acc": 0.96031562, "grad_norm": 1.22672975, "learning_rate": 5.226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237358, "epoch": 2.42815763, "global_step/max_steps": "31855/65595", "percentage": "48.56%", "elapsed_time": "1d 13h 16m 44s", "remaining_time": "1d 15h 29m 6s"}
+{"loss": 0.07914118, "token_acc": 0.96370275, "grad_norm": 0.67130184, "learning_rate": 5.224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237366, "epoch": 2.42853876, "global_step/max_steps": "31860/65595", "percentage": "48.57%", "elapsed_time": "1d 13h 17m 1s", "remaining_time": "1d 15h 28m 40s"}
+{"loss": 0.12258505, "token_acc": 0.95025907, "grad_norm": 1.33956087, "learning_rate": 5.223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237371, "epoch": 2.42891989, "global_step/max_steps": "31865/65595", "percentage": "48.58%", "elapsed_time": "1d 13h 17m 18s", "remaining_time": "1d 15h 28m 15s"}
+{"loss": 0.09028789, "token_acc": 0.96702496, "grad_norm": 0.99648112, "learning_rate": 5.222e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237377, "epoch": 2.42930101, "global_step/max_steps": "31870/65595", "percentage": "48.59%", "elapsed_time": "1d 13h 17m 36s", "remaining_time": "1d 15h 27m 51s"}
+{"loss": 0.07981271, "token_acc": 0.96965982, "grad_norm": 0.70020705, "learning_rate": 5.221e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237378, "epoch": 2.42968214, "global_step/max_steps": "31875/65595", "percentage": "48.59%", "elapsed_time": "1d 13h 17m 57s", "remaining_time": "1d 15h 27m 29s"}
+{"loss": 0.08711094, "token_acc": 0.96902107, "grad_norm": 1.00395846, "learning_rate": 5.22e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237386, "epoch": 2.43006327, "global_step/max_steps": "31880/65595", "percentage": "48.60%", "elapsed_time": "1d 13h 18m 13s", "remaining_time": "1d 15h 27m 3s"}
+{"loss": 0.10010253, "token_acc": 0.96817902, "grad_norm": 1.54101288, "learning_rate": 5.218e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237393, "epoch": 2.43044439, "global_step/max_steps": "31885/65595", "percentage": "48.61%", "elapsed_time": "1d 13h 18m 31s", "remaining_time": "1d 15h 26m 38s"}
+{"loss": 0.07102736, "token_acc": 0.96888774, "grad_norm": 0.64078712, "learning_rate": 5.217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237402, "epoch": 2.43082552, "global_step/max_steps": "31890/65595", "percentage": "48.62%", "elapsed_time": "1d 13h 18m 46s", "remaining_time": "1d 15h 26m 12s"}
+{"loss": 0.06450394, "token_acc": 0.97691922, "grad_norm": 0.61167073, "learning_rate": 5.216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237414, "epoch": 2.43120665, "global_step/max_steps": "31895/65595", "percentage": "48.62%", "elapsed_time": "1d 13h 19m 1s", "remaining_time": "1d 15h 25m 43s"}
+{"loss": 0.11610835, "token_acc": 0.9509619, "grad_norm": 1.59315586, "learning_rate": 5.215e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237426, "epoch": 2.43158777, "global_step/max_steps": "31900/65595", "percentage": "48.63%", "elapsed_time": "1d 13h 19m 15s", "remaining_time": "1d 15h 25m 15s"}
+{"loss": 0.11345917, "token_acc": 0.96413874, "grad_norm": 1.06299078, "learning_rate": 5.214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237438, "epoch": 2.4319689, "global_step/max_steps": "31905/65595", "percentage": "48.64%", "elapsed_time": "1d 13h 19m 29s", "remaining_time": "1d 15h 24m 47s"}
+{"loss": 0.11763771, "token_acc": 0.96445329, "grad_norm": 0.75322157, "learning_rate": 5.212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237441, "epoch": 2.43235003, "global_step/max_steps": "31910/65595", "percentage": "48.65%", "elapsed_time": "1d 13h 19m 49s", "remaining_time": "1d 15h 24m 24s"}
+{"loss": 0.11530268, "token_acc": 0.96708435, "grad_norm": 1.43458533, "learning_rate": 5.211e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237443, "epoch": 2.43273115, "global_step/max_steps": "31915/65595", "percentage": "48.65%", "elapsed_time": "1d 13h 20m 8s", "remaining_time": "1d 15h 24m 2s"}
+{"loss": 0.11205878, "token_acc": 0.96259497, "grad_norm": 0.71584308, "learning_rate": 5.21e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237445, "epoch": 2.43311228, "global_step/max_steps": "31920/65595", "percentage": "48.66%", "elapsed_time": "1d 13h 20m 28s", "remaining_time": "1d 15h 23m 39s"}
+{"loss": 0.12104721, "token_acc": 0.94943585, "grad_norm": 1.51218426, "learning_rate": 5.209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237456, "epoch": 2.43349341, "global_step/max_steps": "31925/65595", "percentage": "48.67%", "elapsed_time": "1d 13h 20m 43s", "remaining_time": "1d 15h 23m 12s"}
+{"loss": 0.09834056, "token_acc": 0.95908199, "grad_norm": 1.26921809, "learning_rate": 5.208e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237461, "epoch": 2.43387453, "global_step/max_steps": "31930/65595", "percentage": "48.68%", "elapsed_time": "1d 13h 21m 2s", "remaining_time": "1d 15h 22m 48s"}
+{"loss": 0.10878284, "token_acc": 0.96679467, "grad_norm": 1.06651533, "learning_rate": 5.206e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237469, "epoch": 2.43425566, "global_step/max_steps": "31935/65595", "percentage": "48.69%", "elapsed_time": "1d 13h 21m 18s", "remaining_time": "1d 15h 22m 22s"}
+{"loss": 0.11512922, "token_acc": 0.96421962, "grad_norm": 0.9966957, "learning_rate": 5.205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23748, "epoch": 2.43463679, "global_step/max_steps": "31940/65595", "percentage": "48.69%", "elapsed_time": "1d 13h 21m 33s", "remaining_time": "1d 15h 21m 54s"}
+{"loss": 0.11251701, "token_acc": 0.94625999, "grad_norm": 1.00833774, "learning_rate": 5.204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237492, "epoch": 2.43501791, "global_step/max_steps": "31945/65595", "percentage": "48.70%", "elapsed_time": "1d 13h 21m 47s", "remaining_time": "1d 15h 21m 26s"}
+{"loss": 0.08732749, "token_acc": 0.9691864, "grad_norm": 0.62211239, "learning_rate": 5.203e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237496, "epoch": 2.43539904, "global_step/max_steps": "31950/65595", "percentage": "48.71%", "elapsed_time": "1d 13h 22m 6s", "remaining_time": "1d 15h 21m 3s"}
+{"loss": 0.10020771, "token_acc": 0.96345363, "grad_norm": 1.41754127, "learning_rate": 5.202e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237504, "epoch": 2.43578017, "global_step/max_steps": "31955/65595", "percentage": "48.72%", "elapsed_time": "1d 13h 22m 23s", "remaining_time": "1d 15h 20m 37s"}
+{"loss": 0.11524808, "token_acc": 0.9590846, "grad_norm": 0.61541009, "learning_rate": 5.201e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237511, "epoch": 2.43616129, "global_step/max_steps": "31960/65595", "percentage": "48.72%", "elapsed_time": "1d 13h 22m 39s", "remaining_time": "1d 15h 20m 12s"}
+{"loss": 0.06674709, "token_acc": 0.97430407, "grad_norm": 1.00330579, "learning_rate": 5.199e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237521, "epoch": 2.43654242, "global_step/max_steps": "31965/65595", "percentage": "48.73%", "elapsed_time": "1d 13h 22m 55s", "remaining_time": "1d 15h 19m 45s"}
+{"loss": 0.11083319, "token_acc": 0.95733333, "grad_norm": 1.55268347, "learning_rate": 5.198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237527, "epoch": 2.43692355, "global_step/max_steps": "31970/65595", "percentage": "48.74%", "elapsed_time": "1d 13h 23m 13s", "remaining_time": "1d 15h 19m 20s"}
+{"loss": 0.0706138, "token_acc": 0.97051536, "grad_norm": 1.39475203, "learning_rate": 5.197e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237536, "epoch": 2.43730467, "global_step/max_steps": "31975/65595", "percentage": "48.75%", "elapsed_time": "1d 13h 23m 29s", "remaining_time": "1d 15h 18m 54s"}
+{"loss": 0.07141282, "token_acc": 0.97836066, "grad_norm": 1.33004797, "learning_rate": 5.196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237549, "epoch": 2.4376858, "global_step/max_steps": "31980/65595", "percentage": "48.75%", "elapsed_time": "1d 13h 23m 42s", "remaining_time": "1d 15h 18m 25s"}
+{"loss": 0.07534806, "token_acc": 0.9744908, "grad_norm": 0.69591653, "learning_rate": 5.195e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237556, "epoch": 2.43806693, "global_step/max_steps": "31985/65595", "percentage": "48.76%", "elapsed_time": "1d 13h 23m 59s", "remaining_time": "1d 15h 18m 0s"}
+{"loss": 0.10355437, "token_acc": 0.96283897, "grad_norm": 0.9855327, "learning_rate": 5.193e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237567, "epoch": 2.43844805, "global_step/max_steps": "31990/65595", "percentage": "48.77%", "elapsed_time": "1d 13h 24m 14s", "remaining_time": "1d 15h 17m 32s"}
+{"loss": 0.07543789, "token_acc": 0.97071693, "grad_norm": 0.83304751, "learning_rate": 5.192e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237567, "epoch": 2.43882918, "global_step/max_steps": "31995/65595", "percentage": "48.78%", "elapsed_time": "1d 13h 24m 35s", "remaining_time": "1d 15h 17m 11s"}
+{"loss": 0.10583756, "token_acc": 0.95921535, "grad_norm": 0.63595849, "learning_rate": 5.191e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237571, "epoch": 2.43921031, "global_step/max_steps": "32000/65595", "percentage": "48.78%", "elapsed_time": "1d 13h 24m 54s", "remaining_time": "1d 15h 16m 47s"}
+{"eval_loss": 0.08176108, "eval_token_acc": 0.96334558, "eval_runtime": 221.086, "eval_samples_per_second": 2.397, "eval_steps_per_second": 2.397, "epoch": 2.43921031, "global_step/max_steps": "32000/65595", "percentage": "48.78%", "elapsed_time": "1d 13h 28m 35s", "remaining_time": "1d 15h 20m 39s"}
+{"loss": 0.08499435, "token_acc": 0.96334218, "grad_norm": 1.10965574, "learning_rate": 5.19e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237189, "epoch": 2.43959143, "global_step/max_steps": "32005/65595", "percentage": "48.79%", "elapsed_time": "1d 13h 28m 52s", "remaining_time": "1d 15h 20m 14s"}
+{"loss": 0.07540545, "token_acc": 0.97226277, "grad_norm": 0.7547617, "learning_rate": 5.189e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237195, "epoch": 2.43997256, "global_step/max_steps": "32010/65595", "percentage": "48.80%", "elapsed_time": "1d 13h 29m 9s", "remaining_time": "1d 15h 19m 49s"}
+{"loss": 0.11663753, "token_acc": 0.94945105, "grad_norm": 0.65884167, "learning_rate": 5.187e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237204, "epoch": 2.44035369, "global_step/max_steps": "32015/65595", "percentage": "48.81%", "elapsed_time": "1d 13h 29m 25s", "remaining_time": "1d 15h 19m 23s"}
+{"loss": 0.08906419, "token_acc": 0.95509709, "grad_norm": 1.45619905, "learning_rate": 5.186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237216, "epoch": 2.44073481, "global_step/max_steps": "32020/65595", "percentage": "48.81%", "elapsed_time": "1d 13h 29m 40s", "remaining_time": "1d 15h 18m 55s"}
+{"loss": 0.10259879, "token_acc": 0.9566428, "grad_norm": 0.92286307, "learning_rate": 5.185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237223, "epoch": 2.44111594, "global_step/max_steps": "32025/65595", "percentage": "48.82%", "elapsed_time": "1d 13h 29m 57s", "remaining_time": "1d 15h 18m 30s"}
+{"loss": 0.07409683, "token_acc": 0.96421494, "grad_norm": 0.6832692, "learning_rate": 5.184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237229, "epoch": 2.44149707, "global_step/max_steps": "32030/65595", "percentage": "48.83%", "elapsed_time": "1d 13h 30m 15s", "remaining_time": "1d 15h 18m 5s"}
+{"loss": 0.10500093, "token_acc": 0.95871433, "grad_norm": 0.94515342, "learning_rate": 5.183e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237238, "epoch": 2.44187819, "global_step/max_steps": "32035/65595", "percentage": "48.84%", "elapsed_time": "1d 13h 30m 30s", "remaining_time": "1d 15h 17m 38s"}
+{"loss": 0.08998712, "token_acc": 0.96199859, "grad_norm": 1.66261971, "learning_rate": 5.181e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237251, "epoch": 2.44225932, "global_step/max_steps": "32040/65595", "percentage": "48.85%", "elapsed_time": "1d 13h 30m 44s", "remaining_time": "1d 15h 17m 9s"}
+{"loss": 0.08959287, "token_acc": 0.9716544, "grad_norm": 2.02738523, "learning_rate": 5.18e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237261, "epoch": 2.44264045, "global_step/max_steps": "32045/65595", "percentage": "48.85%", "elapsed_time": "1d 13h 30m 59s", "remaining_time": "1d 15h 16m 43s"}
+{"loss": 0.06429439, "token_acc": 0.96953782, "grad_norm": 1.52307546, "learning_rate": 5.179e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23727, "epoch": 2.44302157, "global_step/max_steps": "32050/65595", "percentage": "48.86%", "elapsed_time": "1d 13h 31m 15s", "remaining_time": "1d 15h 16m 16s"}
+{"loss": 0.13213028, "token_acc": 0.95466526, "grad_norm": 0.70767349, "learning_rate": 5.178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237279, "epoch": 2.4434027, "global_step/max_steps": "32055/65595", "percentage": "48.87%", "elapsed_time": "1d 13h 31m 31s", "remaining_time": "1d 15h 15m 50s"}
+{"loss": 0.09209929, "token_acc": 0.96308388, "grad_norm": 1.3758508, "learning_rate": 5.177e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237287, "epoch": 2.44378382, "global_step/max_steps": "32060/65595", "percentage": "48.88%", "elapsed_time": "1d 13h 31m 48s", "remaining_time": "1d 15h 15m 24s"}
+{"loss": 0.06853286, "token_acc": 0.96458193, "grad_norm": 1.16748524, "learning_rate": 5.175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237296, "epoch": 2.44416495, "global_step/max_steps": "32065/65595", "percentage": "48.88%", "elapsed_time": "1d 13h 32m 4s", "remaining_time": "1d 15h 14m 57s"}
+{"loss": 0.05861259, "token_acc": 0.97364732, "grad_norm": 0.71126109, "learning_rate": 5.174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237306, "epoch": 2.44454608, "global_step/max_steps": "32070/65595", "percentage": "48.89%", "elapsed_time": "1d 13h 32m 19s", "remaining_time": "1d 15h 14m 30s"}
+{"loss": 0.10661688, "token_acc": 0.96022343, "grad_norm": 1.02340722, "learning_rate": 5.173e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237312, "epoch": 2.4449272, "global_step/max_steps": "32075/65595", "percentage": "48.90%", "elapsed_time": "1d 13h 32m 37s", "remaining_time": "1d 15h 14m 6s"}
+{"loss": 0.08171005, "token_acc": 0.9638141, "grad_norm": 1.13067687, "learning_rate": 5.172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237317, "epoch": 2.44530833, "global_step/max_steps": "32080/65595", "percentage": "48.91%", "elapsed_time": "1d 13h 32m 55s", "remaining_time": "1d 15h 13m 42s"}
+{"loss": 0.06689391, "token_acc": 0.97087944, "grad_norm": 1.52403057, "learning_rate": 5.171e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237327, "epoch": 2.44568946, "global_step/max_steps": "32085/65595", "percentage": "48.91%", "elapsed_time": "1d 13h 33m 11s", "remaining_time": "1d 15h 13m 15s"}
+{"loss": 0.06792814, "token_acc": 0.97128556, "grad_norm": 0.48312104, "learning_rate": 5.169e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237334, "epoch": 2.44607058, "global_step/max_steps": "32090/65595", "percentage": "48.92%", "elapsed_time": "1d 13h 33m 27s", "remaining_time": "1d 15h 12m 49s"}
+{"loss": 0.09426245, "token_acc": 0.96802482, "grad_norm": 0.80249482, "learning_rate": 5.168e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237336, "epoch": 2.44645171, "global_step/max_steps": "32095/65595", "percentage": "48.93%", "elapsed_time": "1d 13h 33m 47s", "remaining_time": "1d 15h 12m 27s"}
+{"loss": 0.13640437, "token_acc": 0.94709351, "grad_norm": 1.14750826, "learning_rate": 5.167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237341, "epoch": 2.44683284, "global_step/max_steps": "32100/65595", "percentage": "48.94%", "elapsed_time": "1d 13h 34m 6s", "remaining_time": "1d 15h 12m 3s"}
+{"loss": 0.08888158, "token_acc": 0.96772748, "grad_norm": 0.80223274, "learning_rate": 5.166e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237353, "epoch": 2.44721396, "global_step/max_steps": "32105/65595", "percentage": "48.94%", "elapsed_time": "1d 13h 34m 20s", "remaining_time": "1d 15h 11m 35s"}
+{"loss": 0.08603665, "token_acc": 0.96100834, "grad_norm": 0.82854992, "learning_rate": 5.165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237358, "epoch": 2.44759509, "global_step/max_steps": "32110/65595", "percentage": "48.95%", "elapsed_time": "1d 13h 34m 38s", "remaining_time": "1d 15h 11m 11s"}
+{"loss": 0.07164736, "token_acc": 0.96973252, "grad_norm": 1.04216492, "learning_rate": 5.163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237367, "epoch": 2.44797622, "global_step/max_steps": "32115/65595", "percentage": "48.96%", "elapsed_time": "1d 13h 34m 54s", "remaining_time": "1d 15h 10m 45s"}
+{"loss": 0.07417976, "token_acc": 0.96426292, "grad_norm": 0.26407743, "learning_rate": 5.162e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237373, "epoch": 2.44835734, "global_step/max_steps": "32120/65595", "percentage": "48.97%", "elapsed_time": "1d 13h 35m 12s", "remaining_time": "1d 15h 10m 20s"}
+{"loss": 0.1003461, "token_acc": 0.96525873, "grad_norm": 1.29434514, "learning_rate": 5.161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237378, "epoch": 2.44873847, "global_step/max_steps": "32125/65595", "percentage": "48.97%", "elapsed_time": "1d 13h 35m 30s", "remaining_time": "1d 15h 9m 56s"}
+{"loss": 0.14361159, "token_acc": 0.94713034, "grad_norm": 1.26851952, "learning_rate": 5.16e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237387, "epoch": 2.4491196, "global_step/max_steps": "32130/65595", "percentage": "48.98%", "elapsed_time": "1d 13h 35m 46s", "remaining_time": "1d 15h 9m 29s"}
+{"loss": 0.10590898, "token_acc": 0.95158771, "grad_norm": 0.99503124, "learning_rate": 5.159e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237397, "epoch": 2.44950072, "global_step/max_steps": "32135/65595", "percentage": "48.99%", "elapsed_time": "1d 13h 36m 1s", "remaining_time": "1d 15h 9m 2s"}
+{"loss": 0.06806452, "token_acc": 0.96688252, "grad_norm": 0.69822145, "learning_rate": 5.157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237404, "epoch": 2.44988185, "global_step/max_steps": "32140/65595", "percentage": "49.00%", "elapsed_time": "1d 13h 36m 18s", "remaining_time": "1d 15h 8m 37s"}
+{"loss": 0.10879095, "token_acc": 0.96038124, "grad_norm": 0.98955613, "learning_rate": 5.156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237412, "epoch": 2.45026298, "global_step/max_steps": "32145/65595", "percentage": "49.01%", "elapsed_time": "1d 13h 36m 35s", "remaining_time": "1d 15h 8m 11s"}
+{"loss": 0.08812411, "token_acc": 0.97108656, "grad_norm": 1.45804727, "learning_rate": 5.155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237417, "epoch": 2.4506441, "global_step/max_steps": "32150/65595", "percentage": "49.01%", "elapsed_time": "1d 13h 36m 53s", "remaining_time": "1d 15h 7m 47s"}
+{"loss": 0.06268866, "token_acc": 0.97251258, "grad_norm": 0.00103322, "learning_rate": 5.154e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237424, "epoch": 2.45102523, "global_step/max_steps": "32155/65595", "percentage": "49.02%", "elapsed_time": "1d 13h 37m 10s", "remaining_time": "1d 15h 7m 22s"}
+{"loss": 0.06694317, "token_acc": 0.9651192, "grad_norm": 0.82417333, "learning_rate": 5.153e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237433, "epoch": 2.45140636, "global_step/max_steps": "32160/65595", "percentage": "49.03%", "elapsed_time": "1d 13h 37m 26s", "remaining_time": "1d 15h 6m 56s"}
+{"loss": 0.10299504, "token_acc": 0.95742435, "grad_norm": 1.46653068, "learning_rate": 5.151e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237445, "epoch": 2.45178748, "global_step/max_steps": "32165/65595", "percentage": "49.04%", "elapsed_time": "1d 13h 37m 40s", "remaining_time": "1d 15h 6m 28s"}
+{"loss": 0.08127434, "token_acc": 0.97024736, "grad_norm": 1.12497807, "learning_rate": 5.15e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237451, "epoch": 2.45216861, "global_step/max_steps": "32170/65595", "percentage": "49.04%", "elapsed_time": "1d 13h 37m 58s", "remaining_time": "1d 15h 6m 3s"}
+{"loss": 0.09366962, "token_acc": 0.97097536, "grad_norm": 0.57385159, "learning_rate": 5.149e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237455, "epoch": 2.45254974, "global_step/max_steps": "32175/65595", "percentage": "49.05%", "elapsed_time": "1d 13h 38m 17s", "remaining_time": "1d 15h 5m 40s"}
+{"loss": 0.09987412, "token_acc": 0.9584399, "grad_norm": 0.8114838, "learning_rate": 5.148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237462, "epoch": 2.45293086, "global_step/max_steps": "32180/65595", "percentage": "49.06%", "elapsed_time": "1d 13h 38m 33s", "remaining_time": "1d 15h 5m 14s"}
+{"loss": 0.10303735, "token_acc": 0.9683774, "grad_norm": 1.74806166, "learning_rate": 5.147e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237471, "epoch": 2.45331199, "global_step/max_steps": "32185/65595", "percentage": "49.07%", "elapsed_time": "1d 13h 38m 50s", "remaining_time": "1d 15h 4m 48s"}
+{"loss": 0.09398956, "token_acc": 0.96346216, "grad_norm": 0.61252159, "learning_rate": 5.145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237476, "epoch": 2.45369312, "global_step/max_steps": "32190/65595", "percentage": "49.07%", "elapsed_time": "1d 13h 39m 8s", "remaining_time": "1d 15h 4m 24s"}
+{"loss": 0.05556373, "token_acc": 0.9768033, "grad_norm": 1.01821911, "learning_rate": 5.144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237485, "epoch": 2.45407424, "global_step/max_steps": "32195/65595", "percentage": "49.08%", "elapsed_time": "1d 13h 39m 23s", "remaining_time": "1d 15h 3m 57s"}
+{"loss": 0.1426474, "token_acc": 0.93681773, "grad_norm": 1.03623676, "learning_rate": 5.143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237496, "epoch": 2.45445537, "global_step/max_steps": "32200/65595", "percentage": "49.09%", "elapsed_time": "1d 13h 39m 39s", "remaining_time": "1d 15h 3m 30s"}
+{"eval_loss": 0.08190025, "eval_token_acc": 0.96388772, "eval_runtime": 217.6576, "eval_samples_per_second": 2.435, "eval_steps_per_second": 2.435, "epoch": 2.45445537, "global_step/max_steps": "32200/65595", "percentage": "49.09%", "elapsed_time": "1d 13h 43m 16s", "remaining_time": "1d 15h 7m 16s"}
+{"loss": 0.07910843, "token_acc": 0.96372962, "grad_norm": 1.76352727, "learning_rate": 5.142e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237125, "epoch": 2.4548365, "global_step/max_steps": "32205/65595", "percentage": "49.10%", "elapsed_time": "1d 13h 43m 32s", "remaining_time": "1d 15h 6m 49s"}
+{"loss": 0.06680797, "token_acc": 0.97328855, "grad_norm": 2.05738759, "learning_rate": 5.141e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237131, "epoch": 2.45521762, "global_step/max_steps": "32210/65595", "percentage": "49.10%", "elapsed_time": "1d 13h 43m 49s", "remaining_time": "1d 15h 6m 24s"}
+{"loss": 0.09443586, "token_acc": 0.96525879, "grad_norm": 0.77048063, "learning_rate": 5.139e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237133, "epoch": 2.45559875, "global_step/max_steps": "32215/65595", "percentage": "49.11%", "elapsed_time": "1d 13h 44m 10s", "remaining_time": "1d 15h 6m 2s"}
+{"loss": 0.10365758, "token_acc": 0.96129568, "grad_norm": 0.8204208, "learning_rate": 5.138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237136, "epoch": 2.45597988, "global_step/max_steps": "32220/65595", "percentage": "49.12%", "elapsed_time": "1d 13h 44m 29s", "remaining_time": "1d 15h 5m 39s"}
+{"loss": 0.0875663, "token_acc": 0.96997305, "grad_norm": 1.15841138, "learning_rate": 5.137e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23714, "epoch": 2.456361, "global_step/max_steps": "32225/65595", "percentage": "49.13%", "elapsed_time": "1d 13h 44m 48s", "remaining_time": "1d 15h 5m 16s"}
+{"loss": 0.08980016, "token_acc": 0.95859948, "grad_norm": 1.35931826, "learning_rate": 5.136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237148, "epoch": 2.45674213, "global_step/max_steps": "32230/65595", "percentage": "49.13%", "elapsed_time": "1d 13h 45m 4s", "remaining_time": "1d 15h 4m 50s"}
+{"loss": 0.06763052, "token_acc": 0.97327965, "grad_norm": 1.03496635, "learning_rate": 5.135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237161, "epoch": 2.45712326, "global_step/max_steps": "32235/65595", "percentage": "49.14%", "elapsed_time": "1d 13h 45m 18s", "remaining_time": "1d 15h 4m 21s"}
+{"loss": 0.05159832, "token_acc": 0.97366167, "grad_norm": 0.23163004, "learning_rate": 5.133e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237168, "epoch": 2.45750438, "global_step/max_steps": "32240/65595", "percentage": "49.15%", "elapsed_time": "1d 13h 45m 34s", "remaining_time": "1d 15h 3m 56s"}
+{"loss": 0.10441604, "token_acc": 0.9577167, "grad_norm": 1.4182651, "learning_rate": 5.132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237179, "epoch": 2.45788551, "global_step/max_steps": "32245/65595", "percentage": "49.16%", "elapsed_time": "1d 13h 45m 50s", "remaining_time": "1d 15h 3m 28s"}
+{"loss": 0.06659344, "token_acc": 0.97393297, "grad_norm": 0.5846799, "learning_rate": 5.131e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23719, "epoch": 2.45826664, "global_step/max_steps": "32250/65595", "percentage": "49.17%", "elapsed_time": "1d 13h 46m 4s", "remaining_time": "1d 15h 3m 1s"}
+{"loss": 0.0955285, "token_acc": 0.96241231, "grad_norm": 1.25081813, "learning_rate": 5.13e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237187, "epoch": 2.45864776, "global_step/max_steps": "32255/65595", "percentage": "49.17%", "elapsed_time": "1d 13h 46m 27s", "remaining_time": "1d 15h 2m 41s"}
+{"loss": 0.08111637, "token_acc": 0.97343517, "grad_norm": 1.34272408, "learning_rate": 5.129e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237195, "epoch": 2.45902889, "global_step/max_steps": "32260/65595", "percentage": "49.18%", "elapsed_time": "1d 13h 46m 44s", "remaining_time": "1d 15h 2m 16s"}
+{"loss": 0.07182211, "token_acc": 0.97344055, "grad_norm": 0.61696351, "learning_rate": 5.128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237204, "epoch": 2.45941002, "global_step/max_steps": "32265/65595", "percentage": "49.19%", "elapsed_time": "1d 13h 47m 0s", "remaining_time": "1d 15h 1m 49s"}
+{"loss": 0.08208572, "token_acc": 0.96268497, "grad_norm": 0.7010774, "learning_rate": 5.126e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237212, "epoch": 2.45979114, "global_step/max_steps": "32270/65595", "percentage": "49.20%", "elapsed_time": "1d 13h 47m 16s", "remaining_time": "1d 15h 1m 23s"}
+{"loss": 0.09782501, "token_acc": 0.95902464, "grad_norm": 1.01864338, "learning_rate": 5.125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237222, "epoch": 2.46017227, "global_step/max_steps": "32275/65595", "percentage": "49.20%", "elapsed_time": "1d 13h 47m 31s", "remaining_time": "1d 15h 0m 57s"}
+{"loss": 0.06929408, "token_acc": 0.97260274, "grad_norm": 1.12924671, "learning_rate": 5.124e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237231, "epoch": 2.4605534, "global_step/max_steps": "32280/65595", "percentage": "49.21%", "elapsed_time": "1d 13h 47m 47s", "remaining_time": "1d 15h 0m 30s"}
+{"loss": 0.09992979, "token_acc": 0.96694342, "grad_norm": 2.07452536, "learning_rate": 5.123e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237235, "epoch": 2.46093452, "global_step/max_steps": "32285/65595", "percentage": "49.22%", "elapsed_time": "1d 13h 48m 6s", "remaining_time": "1d 15h 0m 7s"}
+{"loss": 0.09268057, "token_acc": 0.97039393, "grad_norm": 0.90554851, "learning_rate": 5.122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237244, "epoch": 2.46131565, "global_step/max_steps": "32290/65595", "percentage": "49.23%", "elapsed_time": "1d 13h 48m 22s", "remaining_time": "1d 14h 59m 40s"}
+{"loss": 0.09732171, "token_acc": 0.96659708, "grad_norm": 0.98351669, "learning_rate": 5.12e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237253, "epoch": 2.46169678, "global_step/max_steps": "32295/65595", "percentage": "49.23%", "elapsed_time": "1d 13h 48m 38s", "remaining_time": "1d 14h 59m 14s"}
+{"loss": 0.09012429, "token_acc": 0.96860507, "grad_norm": 0.52573454, "learning_rate": 5.119e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237253, "epoch": 2.4620779, "global_step/max_steps": "32300/65595", "percentage": "49.24%", "elapsed_time": "1d 13h 48m 59s", "remaining_time": "1d 14h 58m 52s"}
+{"loss": 0.10239928, "token_acc": 0.96473474, "grad_norm": 1.12609208, "learning_rate": 5.118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237264, "epoch": 2.46245903, "global_step/max_steps": "32305/65595", "percentage": "49.25%", "elapsed_time": "1d 13h 49m 14s", "remaining_time": "1d 14h 58m 25s"}
+{"loss": 0.06680032, "token_acc": 0.97312238, "grad_norm": 1.49614632, "learning_rate": 5.117e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237273, "epoch": 2.46284016, "global_step/max_steps": "32310/65595", "percentage": "49.26%", "elapsed_time": "1d 13h 49m 29s", "remaining_time": "1d 14h 57m 58s"}
+{"loss": 0.05874692, "token_acc": 0.9803505, "grad_norm": 0.73901111, "learning_rate": 5.116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237285, "epoch": 2.46322128, "global_step/max_steps": "32315/65595", "percentage": "49.26%", "elapsed_time": "1d 13h 49m 44s", "remaining_time": "1d 14h 57m 30s"}
+{"loss": 0.12634363, "token_acc": 0.96259038, "grad_norm": 0.84699422, "learning_rate": 5.114e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237291, "epoch": 2.46360241, "global_step/max_steps": "32320/65595", "percentage": "49.27%", "elapsed_time": "1d 13h 50m 1s", "remaining_time": "1d 14h 57m 6s"}
+{"loss": 0.11960816, "token_acc": 0.9656526, "grad_norm": 0.93754458, "learning_rate": 5.113e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237298, "epoch": 2.46398354, "global_step/max_steps": "32325/65595", "percentage": "49.28%", "elapsed_time": "1d 13h 50m 18s", "remaining_time": "1d 14h 56m 41s"}
+{"loss": 0.10082535, "token_acc": 0.96644144, "grad_norm": 1.0568403, "learning_rate": 5.112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237306, "epoch": 2.46436466, "global_step/max_steps": "32330/65595", "percentage": "49.29%", "elapsed_time": "1d 13h 50m 35s", "remaining_time": "1d 14h 56m 15s"}
+{"loss": 0.09214458, "token_acc": 0.95451578, "grad_norm": 0.98762697, "learning_rate": 5.111e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237313, "epoch": 2.46474579, "global_step/max_steps": "32335/65595", "percentage": "49.29%", "elapsed_time": "1d 13h 50m 52s", "remaining_time": "1d 14h 55m 50s"}
+{"loss": 0.06972018, "token_acc": 0.97242568, "grad_norm": 1.21818137, "learning_rate": 5.11e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237315, "epoch": 2.46512692, "global_step/max_steps": "32340/65595", "percentage": "49.30%", "elapsed_time": "1d 13h 51m 12s", "remaining_time": "1d 14h 55m 27s"}
+{"loss": 0.08288097, "token_acc": 0.96126533, "grad_norm": 0.62578017, "learning_rate": 5.108e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237324, "epoch": 2.46550804, "global_step/max_steps": "32345/65595", "percentage": "49.31%", "elapsed_time": "1d 13h 51m 28s", "remaining_time": "1d 14h 55m 1s"}
+{"loss": 0.08178079, "token_acc": 0.9637263, "grad_norm": 1.71472275, "learning_rate": 5.107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237333, "epoch": 2.46588917, "global_step/max_steps": "32350/65595", "percentage": "49.32%", "elapsed_time": "1d 13h 51m 43s", "remaining_time": "1d 14h 54m 34s"}
+{"loss": 0.06994507, "token_acc": 0.97124659, "grad_norm": 0.49440145, "learning_rate": 5.106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237337, "epoch": 2.46627029, "global_step/max_steps": "32355/65595", "percentage": "49.33%", "elapsed_time": "1d 13h 52m 3s", "remaining_time": "1d 14h 54m 11s"}
+{"loss": 0.07634921, "token_acc": 0.97225448, "grad_norm": 0.85273385, "learning_rate": 5.105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237341, "epoch": 2.46665142, "global_step/max_steps": "32360/65595", "percentage": "49.33%", "elapsed_time": "1d 13h 52m 21s", "remaining_time": "1d 14h 53m 48s"}
+{"loss": 0.09792242, "token_acc": 0.96807239, "grad_norm": 0.69167471, "learning_rate": 5.104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237348, "epoch": 2.46703255, "global_step/max_steps": "32365/65595", "percentage": "49.34%", "elapsed_time": "1d 13h 52m 38s", "remaining_time": "1d 14h 53m 23s"}
+{"loss": 0.10554549, "token_acc": 0.95298126, "grad_norm": 1.08967495, "learning_rate": 5.102e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237358, "epoch": 2.46741367, "global_step/max_steps": "32370/65595", "percentage": "49.35%", "elapsed_time": "1d 13h 52m 54s", "remaining_time": "1d 14h 52m 56s"}
+{"loss": 0.09772892, "token_acc": 0.95376644, "grad_norm": 0.9333384, "learning_rate": 5.101e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237366, "epoch": 2.4677948, "global_step/max_steps": "32375/65595", "percentage": "49.36%", "elapsed_time": "1d 13h 53m 10s", "remaining_time": "1d 14h 52m 30s"}
+{"loss": 0.0950521, "token_acc": 0.96565043, "grad_norm": 0.84659714, "learning_rate": 5.1e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237369, "epoch": 2.46817593, "global_step/max_steps": "32380/65595", "percentage": "49.36%", "elapsed_time": "1d 13h 53m 29s", "remaining_time": "1d 14h 52m 7s"}
+{"loss": 0.10004133, "token_acc": 0.96273292, "grad_norm": 0.45627671, "learning_rate": 5.099e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237378, "epoch": 2.46855705, "global_step/max_steps": "32385/65595", "percentage": "49.37%", "elapsed_time": "1d 13h 53m 45s", "remaining_time": "1d 14h 51m 41s"}
+{"loss": 0.07462521, "token_acc": 0.97183099, "grad_norm": 1.59730875, "learning_rate": 5.098e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237387, "epoch": 2.46893818, "global_step/max_steps": "32390/65595", "percentage": "49.38%", "elapsed_time": "1d 13h 54m 1s", "remaining_time": "1d 14h 51m 14s"}
+{"loss": 0.08998032, "token_acc": 0.96995396, "grad_norm": 0.6236518, "learning_rate": 5.096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237396, "epoch": 2.46931931, "global_step/max_steps": "32395/65595", "percentage": "49.39%", "elapsed_time": "1d 13h 54m 17s", "remaining_time": "1d 14h 50m 48s"}
+{"loss": 0.10645794, "token_acc": 0.95655015, "grad_norm": 0.66445929, "learning_rate": 5.095e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237406, "epoch": 2.46970043, "global_step/max_steps": "32400/65595", "percentage": "49.39%", "elapsed_time": "1d 13h 54m 32s", "remaining_time": "1d 14h 50m 21s"}
+{"eval_loss": 0.08168831, "eval_token_acc": 0.96447503, "eval_runtime": 212.524, "eval_samples_per_second": 2.494, "eval_steps_per_second": 2.494, "epoch": 2.46970043, "global_step/max_steps": "32400/65595", "percentage": "49.39%", "elapsed_time": "1d 13h 58m 5s", "remaining_time": "1d 14h 53m 59s"}
+{"loss": 0.12554063, "token_acc": 0.9644873, "grad_norm": 1.06105256, "learning_rate": 5.094e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237038, "epoch": 2.47008156, "global_step/max_steps": "32405/65595", "percentage": "49.40%", "elapsed_time": "1d 13h 58m 25s", "remaining_time": "1d 14h 53m 37s"}
+{"loss": 0.06789536, "token_acc": 0.9719831, "grad_norm": 1.39275491, "learning_rate": 5.093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237042, "epoch": 2.47046269, "global_step/max_steps": "32410/65595", "percentage": "49.41%", "elapsed_time": "1d 13h 58m 44s", "remaining_time": "1d 14h 53m 14s"}
+{"loss": 0.12432518, "token_acc": 0.94313253, "grad_norm": 1.61307895, "learning_rate": 5.092e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237054, "epoch": 2.47084381, "global_step/max_steps": "32415/65595", "percentage": "49.42%", "elapsed_time": "1d 13h 58m 58s", "remaining_time": "1d 14h 52m 45s"}
+{"loss": 0.0910512, "token_acc": 0.96389549, "grad_norm": 1.08112025, "learning_rate": 5.09e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237063, "epoch": 2.47122494, "global_step/max_steps": "32420/65595", "percentage": "49.42%", "elapsed_time": "1d 13h 59m 14s", "remaining_time": "1d 14h 52m 19s"}
+{"loss": 0.08361644, "token_acc": 0.96384902, "grad_norm": 0.9023791, "learning_rate": 5.089e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237072, "epoch": 2.47160607, "global_step/max_steps": "32425/65595", "percentage": "49.43%", "elapsed_time": "1d 13h 59m 30s", "remaining_time": "1d 14h 51m 52s"}
+{"loss": 0.07093601, "token_acc": 0.97477444, "grad_norm": 0.79622579, "learning_rate": 5.088e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237079, "epoch": 2.47198719, "global_step/max_steps": "32430/65595", "percentage": "49.44%", "elapsed_time": "1d 13h 59m 47s", "remaining_time": "1d 14h 51m 27s"}
+{"loss": 0.13298028, "token_acc": 0.95678328, "grad_norm": 0.97325426, "learning_rate": 5.087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237082, "epoch": 2.47236832, "global_step/max_steps": "32435/65595", "percentage": "49.45%", "elapsed_time": "1d 14h 0m 7s", "remaining_time": "1d 14h 51m 5s"}
+{"loss": 0.08403476, "token_acc": 0.96324093, "grad_norm": 0.82066637, "learning_rate": 5.086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237088, "epoch": 2.47274945, "global_step/max_steps": "32440/65595", "percentage": "49.45%", "elapsed_time": "1d 14h 0m 24s", "remaining_time": "1d 14h 50m 40s"}
+{"loss": 0.08172795, "token_acc": 0.9618705, "grad_norm": 3.10685897, "learning_rate": 5.084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237099, "epoch": 2.47313057, "global_step/max_steps": "32445/65595", "percentage": "49.46%", "elapsed_time": "1d 14h 0m 39s", "remaining_time": "1d 14h 50m 12s"}
+{"loss": 0.0616395, "token_acc": 0.97731755, "grad_norm": 0.86704272, "learning_rate": 5.083e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237106, "epoch": 2.4735117, "global_step/max_steps": "32450/65595", "percentage": "49.47%", "elapsed_time": "1d 14h 0m 56s", "remaining_time": "1d 14h 49m 47s"}
+{"loss": 0.09013078, "token_acc": 0.97338153, "grad_norm": 0.62510365, "learning_rate": 5.082e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23711, "epoch": 2.47389283, "global_step/max_steps": "32455/65595", "percentage": "49.48%", "elapsed_time": "1d 14h 1m 14s", "remaining_time": "1d 14h 49m 23s"}
+{"loss": 0.07429801, "token_acc": 0.96909244, "grad_norm": 0.75334853, "learning_rate": 5.081e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237121, "epoch": 2.47427395, "global_step/max_steps": "32460/65595", "percentage": "49.49%", "elapsed_time": "1d 14h 1m 29s", "remaining_time": "1d 14h 48m 56s"}
+{"loss": 0.0762301, "token_acc": 0.96702155, "grad_norm": 0.8771314, "learning_rate": 5.08e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23713, "epoch": 2.47465508, "global_step/max_steps": "32465/65595", "percentage": "49.49%", "elapsed_time": "1d 14h 1m 45s", "remaining_time": "1d 14h 48m 30s"}
+{"loss": 0.12334783, "token_acc": 0.9426981, "grad_norm": 1.21162724, "learning_rate": 5.078e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23714, "epoch": 2.47503621, "global_step/max_steps": "32470/65595", "percentage": "49.50%", "elapsed_time": "1d 14h 2m 1s", "remaining_time": "1d 14h 48m 3s"}
+{"loss": 0.1004097, "token_acc": 0.9704092, "grad_norm": 0.6252954, "learning_rate": 5.077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237143, "epoch": 2.47541733, "global_step/max_steps": "32475/65595", "percentage": "49.51%", "elapsed_time": "1d 14h 2m 20s", "remaining_time": "1d 14h 47m 40s"}
+{"loss": 0.10226721, "token_acc": 0.96250744, "grad_norm": 0.67788571, "learning_rate": 5.076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237148, "epoch": 2.47579846, "global_step/max_steps": "32480/65595", "percentage": "49.52%", "elapsed_time": "1d 14h 2m 38s", "remaining_time": "1d 14h 47m 16s"}
+{"loss": 0.1111457, "token_acc": 0.95878474, "grad_norm": 1.81477153, "learning_rate": 5.075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237155, "epoch": 2.47617959, "global_step/max_steps": "32485/65595", "percentage": "49.52%", "elapsed_time": "1d 14h 2m 55s", "remaining_time": "1d 14h 46m 51s"}
+{"loss": 0.12235463, "token_acc": 0.94924721, "grad_norm": 1.25828707, "learning_rate": 5.074e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237164, "epoch": 2.47656071, "global_step/max_steps": "32490/65595", "percentage": "49.53%", "elapsed_time": "1d 14h 3m 11s", "remaining_time": "1d 14h 46m 24s"}
+{"loss": 0.10029061, "token_acc": 0.96328424, "grad_norm": 1.14357793, "learning_rate": 5.072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237172, "epoch": 2.47694184, "global_step/max_steps": "32495/65595", "percentage": "49.54%", "elapsed_time": "1d 14h 3m 27s", "remaining_time": "1d 14h 45m 58s"}
+{"loss": 0.08358358, "token_acc": 0.96704689, "grad_norm": 1.16009974, "learning_rate": 5.071e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237176, "epoch": 2.47732297, "global_step/max_steps": "32500/65595", "percentage": "49.55%", "elapsed_time": "1d 14h 3m 46s", "remaining_time": "1d 14h 45m 35s"}
+{"loss": 0.11172575, "token_acc": 0.96502099, "grad_norm": 0.59814388, "learning_rate": 5.07e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237182, "epoch": 2.47770409, "global_step/max_steps": "32505/65595", "percentage": "49.55%", "elapsed_time": "1d 14h 4m 4s", "remaining_time": "1d 14h 45m 10s"}
+{"loss": 0.08082827, "token_acc": 0.97714286, "grad_norm": 1.16961038, "learning_rate": 5.069e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237191, "epoch": 2.47808522, "global_step/max_steps": "32510/65595", "percentage": "49.56%", "elapsed_time": "1d 14h 4m 20s", "remaining_time": "1d 14h 44m 44s"}
+{"loss": 0.12710687, "token_acc": 0.95046662, "grad_norm": 1.18135905, "learning_rate": 5.068e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237198, "epoch": 2.47846635, "global_step/max_steps": "32515/65595", "percentage": "49.57%", "elapsed_time": "1d 14h 4m 37s", "remaining_time": "1d 14h 44m 19s"}
+{"loss": 0.08523765, "token_acc": 0.96656264, "grad_norm": 0.81657493, "learning_rate": 5.066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237208, "epoch": 2.47884747, "global_step/max_steps": "32520/65595", "percentage": "49.58%", "elapsed_time": "1d 14h 4m 52s", "remaining_time": "1d 14h 43m 52s"}
+{"loss": 0.0882299, "token_acc": 0.96091759, "grad_norm": 0.77611291, "learning_rate": 5.065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237218, "epoch": 2.4792286, "global_step/max_steps": "32525/65595", "percentage": "49.58%", "elapsed_time": "1d 14h 5m 8s", "remaining_time": "1d 14h 43m 25s"}
+{"loss": 0.10930989, "token_acc": 0.95476354, "grad_norm": 1.49517751, "learning_rate": 5.064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237228, "epoch": 2.47960973, "global_step/max_steps": "32530/65595", "percentage": "49.59%", "elapsed_time": "1d 14h 5m 23s", "remaining_time": "1d 14h 42m 58s"}
+{"loss": 0.08014907, "token_acc": 0.96877811, "grad_norm": 0.68395686, "learning_rate": 5.063e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23723, "epoch": 2.47999085, "global_step/max_steps": "32535/65595", "percentage": "49.60%", "elapsed_time": "1d 14h 5m 43s", "remaining_time": "1d 14h 42m 36s"}
+{"loss": 0.11091808, "token_acc": 0.95270592, "grad_norm": 1.2919091, "learning_rate": 5.062e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237235, "epoch": 2.48037198, "global_step/max_steps": "32540/65595", "percentage": "49.61%", "elapsed_time": "1d 14h 6m 1s", "remaining_time": "1d 14h 42m 12s"}
+{"loss": 0.08969363, "token_acc": 0.96646243, "grad_norm": 0.5007872, "learning_rate": 5.06e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237241, "epoch": 2.48075311, "global_step/max_steps": "32545/65595", "percentage": "49.62%", "elapsed_time": "1d 14h 6m 18s", "remaining_time": "1d 14h 41m 47s"}
+{"loss": 0.08060834, "token_acc": 0.96758105, "grad_norm": 1.00644183, "learning_rate": 5.059e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237254, "epoch": 2.48113423, "global_step/max_steps": "32550/65595", "percentage": "49.62%", "elapsed_time": "1d 14h 6m 32s", "remaining_time": "1d 14h 41m 18s"}
+{"loss": 0.07388053, "token_acc": 0.9740701, "grad_norm": 0.61361963, "learning_rate": 5.058e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237262, "epoch": 2.48151536, "global_step/max_steps": "32555/65595", "percentage": "49.63%", "elapsed_time": "1d 14h 6m 49s", "remaining_time": "1d 14h 40m 53s"}
+{"loss": 0.07615473, "token_acc": 0.96666667, "grad_norm": 1.82552993, "learning_rate": 5.057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237275, "epoch": 2.48189649, "global_step/max_steps": "32560/65595", "percentage": "49.64%", "elapsed_time": "1d 14h 7m 2s", "remaining_time": "1d 14h 40m 24s"}
+{"loss": 0.09656511, "token_acc": 0.96593002, "grad_norm": 0.88356441, "learning_rate": 5.056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237281, "epoch": 2.48227761, "global_step/max_steps": "32565/65595", "percentage": "49.65%", "elapsed_time": "1d 14h 7m 20s", "remaining_time": "1d 14h 39m 59s"}
+{"loss": 0.1102792, "token_acc": 0.94723527, "grad_norm": 0.98169291, "learning_rate": 5.054e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237292, "epoch": 2.48265874, "global_step/max_steps": "32570/65595", "percentage": "49.65%", "elapsed_time": "1d 14h 7m 34s", "remaining_time": "1d 14h 39m 32s"}
+{"loss": 0.07528505, "token_acc": 0.97087057, "grad_norm": 0.76058161, "learning_rate": 5.053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237302, "epoch": 2.48303987, "global_step/max_steps": "32575/65595", "percentage": "49.66%", "elapsed_time": "1d 14h 7m 49s", "remaining_time": "1d 14h 39m 5s"}
+{"loss": 0.08171619, "token_acc": 0.96314072, "grad_norm": 0.92272568, "learning_rate": 5.052e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237311, "epoch": 2.48342099, "global_step/max_steps": "32580/65595", "percentage": "49.67%", "elapsed_time": "1d 14h 8m 6s", "remaining_time": "1d 14h 38m 39s"}
+{"loss": 0.10844322, "token_acc": 0.96820513, "grad_norm": 1.71674049, "learning_rate": 5.051e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23731, "epoch": 2.48380212, "global_step/max_steps": "32585/65595", "percentage": "49.68%", "elapsed_time": "1d 14h 8m 27s", "remaining_time": "1d 14h 38m 18s"}
+{"loss": 0.08117427, "token_acc": 0.96951022, "grad_norm": 1.11141646, "learning_rate": 5.05e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237315, "epoch": 2.48418325, "global_step/max_steps": "32590/65595", "percentage": "49.68%", "elapsed_time": "1d 14h 8m 45s", "remaining_time": "1d 14h 37m 54s"}
+{"loss": 0.12796111, "token_acc": 0.95583101, "grad_norm": 1.34489417, "learning_rate": 5.048e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237322, "epoch": 2.48456437, "global_step/max_steps": "32595/65595", "percentage": "49.69%", "elapsed_time": "1d 14h 9m 2s", "remaining_time": "1d 14h 37m 29s"}
+{"loss": 0.05960391, "token_acc": 0.9750547, "grad_norm": 0.54576725, "learning_rate": 5.047e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237321, "epoch": 2.4849455, "global_step/max_steps": "32600/65595", "percentage": "49.70%", "elapsed_time": "1d 14h 9m 24s", "remaining_time": "1d 14h 37m 8s"}
+{"eval_loss": 0.08149268, "eval_token_acc": 0.96389525, "eval_runtime": 216.4152, "eval_samples_per_second": 2.449, "eval_steps_per_second": 2.449, "epoch": 2.4849455, "global_step/max_steps": "32600/65595", "percentage": "49.70%", "elapsed_time": "1d 14h 13m 0s", "remaining_time": "1d 14h 40m 47s"}
+{"loss": 0.08202637, "token_acc": 0.96389423, "grad_norm": 0.74660617, "learning_rate": 5.046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236956, "epoch": 2.48532663, "global_step/max_steps": "32605/65595", "percentage": "49.71%", "elapsed_time": "1d 14h 13m 17s", "remaining_time": "1d 14h 40m 21s"}
+{"loss": 0.06239248, "token_acc": 0.96931518, "grad_norm": 1.0643307, "learning_rate": 5.045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236964, "epoch": 2.48570775, "global_step/max_steps": "32610/65595", "percentage": "49.71%", "elapsed_time": "1d 14h 13m 33s", "remaining_time": "1d 14h 39m 55s"}
+{"loss": 0.08941281, "token_acc": 0.97060314, "grad_norm": 0.46700758, "learning_rate": 5.044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236964, "epoch": 2.48608888, "global_step/max_steps": "32615/65595", "percentage": "49.72%", "elapsed_time": "1d 14h 13m 54s", "remaining_time": "1d 14h 39m 34s"}
+{"loss": 0.08697629, "token_acc": 0.97574371, "grad_norm": 0.67728251, "learning_rate": 5.043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236973, "epoch": 2.48647001, "global_step/max_steps": "32620/65595", "percentage": "49.73%", "elapsed_time": "1d 14h 14m 10s", "remaining_time": "1d 14h 39m 8s"}
+{"loss": 0.11443369, "token_acc": 0.95903407, "grad_norm": 1.73541903, "learning_rate": 5.041e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236985, "epoch": 2.48685113, "global_step/max_steps": "32625/65595", "percentage": "49.74%", "elapsed_time": "1d 14h 14m 24s", "remaining_time": "1d 14h 38m 40s"}
+{"loss": 0.07674544, "token_acc": 0.96588583, "grad_norm": 1.13780475, "learning_rate": 5.04e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236991, "epoch": 2.48723226, "global_step/max_steps": "32630/65595", "percentage": "49.74%", "elapsed_time": "1d 14h 14m 42s", "remaining_time": "1d 14h 38m 15s"}
+{"loss": 0.11187415, "token_acc": 0.95922208, "grad_norm": 1.93258321, "learning_rate": 5.039e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237001, "epoch": 2.48761339, "global_step/max_steps": "32635/65595", "percentage": "49.75%", "elapsed_time": "1d 14h 14m 57s", "remaining_time": "1d 14h 37m 48s"}
+{"loss": 0.11231302, "token_acc": 0.9516611, "grad_norm": 1.22754407, "learning_rate": 5.038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237006, "epoch": 2.48799451, "global_step/max_steps": "32640/65595", "percentage": "49.76%", "elapsed_time": "1d 14h 15m 15s", "remaining_time": "1d 14h 37m 25s"}
+{"loss": 0.11677471, "token_acc": 0.9598549, "grad_norm": 0.90719104, "learning_rate": 5.037e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237015, "epoch": 2.48837564, "global_step/max_steps": "32645/65595", "percentage": "49.77%", "elapsed_time": "1d 14h 15m 31s", "remaining_time": "1d 14h 36m 58s"}
+{"loss": 0.08172269, "token_acc": 0.97271408, "grad_norm": 1.46395934, "learning_rate": 5.035e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237019, "epoch": 2.48875676, "global_step/max_steps": "32650/65595", "percentage": "49.78%", "elapsed_time": "1d 14h 15m 50s", "remaining_time": "1d 14h 36m 34s"}
+{"loss": 0.08754829, "token_acc": 0.96626809, "grad_norm": 0.62839603, "learning_rate": 5.034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237023, "epoch": 2.48913789, "global_step/max_steps": "32655/65595", "percentage": "49.78%", "elapsed_time": "1d 14h 16m 9s", "remaining_time": "1d 14h 36m 11s"}
+{"loss": 0.09514536, "token_acc": 0.96409858, "grad_norm": 1.25130796, "learning_rate": 5.033e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237032, "epoch": 2.48951902, "global_step/max_steps": "32660/65595", "percentage": "49.79%", "elapsed_time": "1d 14h 16m 24s", "remaining_time": "1d 14h 35m 44s"}
+{"loss": 0.06783218, "token_acc": 0.97349398, "grad_norm": 1.61537457, "learning_rate": 5.032e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237046, "epoch": 2.48990014, "global_step/max_steps": "32665/65595", "percentage": "49.80%", "elapsed_time": "1d 14h 16m 38s", "remaining_time": "1d 14h 35m 16s"}
+{"loss": 0.10022616, "token_acc": 0.95818242, "grad_norm": 1.05786049, "learning_rate": 5.031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237056, "epoch": 2.49028127, "global_step/max_steps": "32670/65595", "percentage": "49.81%", "elapsed_time": "1d 14h 16m 53s", "remaining_time": "1d 14h 34m 49s"}
+{"loss": 0.073592, "token_acc": 0.97032091, "grad_norm": 0.7264027, "learning_rate": 5.029e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237062, "epoch": 2.4906624, "global_step/max_steps": "32675/65595", "percentage": "49.81%", "elapsed_time": "1d 14h 17m 10s", "remaining_time": "1d 14h 34m 24s"}
+{"loss": 0.08453892, "token_acc": 0.97015327, "grad_norm": 1.83402824, "learning_rate": 5.028e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23707, "epoch": 2.49104352, "global_step/max_steps": "32680/65595", "percentage": "49.82%", "elapsed_time": "1d 14h 17m 27s", "remaining_time": "1d 14h 33m 58s"}
+{"loss": 0.09541624, "token_acc": 0.95977871, "grad_norm": 0.7447598, "learning_rate": 5.027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237074, "epoch": 2.49142465, "global_step/max_steps": "32685/65595", "percentage": "49.83%", "elapsed_time": "1d 14h 17m 46s", "remaining_time": "1d 14h 33m 35s"}
+{"loss": 0.0983818, "token_acc": 0.96417671, "grad_norm": 0.91067243, "learning_rate": 5.026e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23708, "epoch": 2.49180578, "global_step/max_steps": "32690/65595", "percentage": "49.84%", "elapsed_time": "1d 14h 18m 3s", "remaining_time": "1d 14h 33m 10s"}
+{"loss": 0.11346977, "token_acc": 0.96376481, "grad_norm": 1.38897634, "learning_rate": 5.025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237087, "epoch": 2.4921869, "global_step/max_steps": "32695/65595", "percentage": "49.84%", "elapsed_time": "1d 14h 18m 20s", "remaining_time": "1d 14h 32m 45s"}
+{"loss": 0.08449031, "token_acc": 0.96652053, "grad_norm": 1.06033468, "learning_rate": 5.023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237094, "epoch": 2.49256803, "global_step/max_steps": "32700/65595", "percentage": "49.85%", "elapsed_time": "1d 14h 18m 37s", "remaining_time": "1d 14h 32m 20s"}
+{"loss": 0.11221163, "token_acc": 0.96515179, "grad_norm": 1.00085795, "learning_rate": 5.022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2371, "epoch": 2.49294916, "global_step/max_steps": "32705/65595", "percentage": "49.86%", "elapsed_time": "1d 14h 18m 55s", "remaining_time": "1d 14h 31m 55s"}
+{"loss": 0.10742229, "token_acc": 0.95449679, "grad_norm": 0.99734986, "learning_rate": 5.021e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237107, "epoch": 2.49333028, "global_step/max_steps": "32710/65595", "percentage": "49.87%", "elapsed_time": "1d 14h 19m 12s", "remaining_time": "1d 14h 31m 30s"}
+{"loss": 0.07961419, "token_acc": 0.95703971, "grad_norm": 0.95770508, "learning_rate": 5.02e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237117, "epoch": 2.49371141, "global_step/max_steps": "32715/65595", "percentage": "49.87%", "elapsed_time": "1d 14h 19m 27s", "remaining_time": "1d 14h 31m 3s"}
+{"loss": 0.0989494, "token_acc": 0.96636048, "grad_norm": 2.29724526, "learning_rate": 5.019e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237121, "epoch": 2.49409254, "global_step/max_steps": "32720/65595", "percentage": "49.88%", "elapsed_time": "1d 14h 19m 46s", "remaining_time": "1d 14h 30m 39s"}
+{"loss": 0.07018018, "token_acc": 0.96902724, "grad_norm": 0.49451929, "learning_rate": 5.017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237126, "epoch": 2.49447366, "global_step/max_steps": "32725/65595", "percentage": "49.89%", "elapsed_time": "1d 14h 20m 4s", "remaining_time": "1d 14h 30m 15s"}
+{"loss": 0.0842819, "token_acc": 0.97100338, "grad_norm": 1.06288075, "learning_rate": 5.016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237132, "epoch": 2.49485479, "global_step/max_steps": "32730/65595", "percentage": "49.90%", "elapsed_time": "1d 14h 20m 21s", "remaining_time": "1d 14h 29m 51s"}
+{"loss": 0.16030316, "token_acc": 0.91543108, "grad_norm": 2.22262883, "learning_rate": 5.015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237145, "epoch": 2.49523592, "global_step/max_steps": "32735/65595", "percentage": "49.90%", "elapsed_time": "1d 14h 20m 35s", "remaining_time": "1d 14h 29m 22s"}
+{"loss": 0.08412414, "token_acc": 0.9722882, "grad_norm": 1.29041266, "learning_rate": 5.014e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237154, "epoch": 2.49561704, "global_step/max_steps": "32740/65595", "percentage": "49.91%", "elapsed_time": "1d 14h 20m 51s", "remaining_time": "1d 14h 28m 56s"}
+{"loss": 0.0862758, "token_acc": 0.96904362, "grad_norm": 1.03245556, "learning_rate": 5.013e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23715, "epoch": 2.49599817, "global_step/max_steps": "32745/65595", "percentage": "49.92%", "elapsed_time": "1d 14h 21m 14s", "remaining_time": "1d 14h 28m 37s"}
+{"loss": 0.11428293, "token_acc": 0.95261919, "grad_norm": 1.02716517, "learning_rate": 5.011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237159, "epoch": 2.4963793, "global_step/max_steps": "32750/65595", "percentage": "49.93%", "elapsed_time": "1d 14h 21m 30s", "remaining_time": "1d 14h 28m 11s"}
+{"loss": 0.09785358, "token_acc": 0.95989815, "grad_norm": 0.87906069, "learning_rate": 5.01e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237169, "epoch": 2.49676042, "global_step/max_steps": "32755/65595", "percentage": "49.94%", "elapsed_time": "1d 14h 21m 45s", "remaining_time": "1d 14h 27m 44s"}
+{"loss": 0.10571023, "token_acc": 0.95391705, "grad_norm": 0.7778222, "learning_rate": 5.009e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237177, "epoch": 2.49714155, "global_step/max_steps": "32760/65595", "percentage": "49.94%", "elapsed_time": "1d 14h 22m 2s", "remaining_time": "1d 14h 27m 18s"}
+{"loss": 0.10453787, "token_acc": 0.96253602, "grad_norm": 0.90555489, "learning_rate": 5.008e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237183, "epoch": 2.49752268, "global_step/max_steps": "32765/65595", "percentage": "49.95%", "elapsed_time": "1d 14h 22m 20s", "remaining_time": "1d 14h 26m 54s"}
+{"loss": 0.11275142, "token_acc": 0.95325454, "grad_norm": 1.07455051, "learning_rate": 5.007e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237188, "epoch": 2.4979038, "global_step/max_steps": "32770/65595", "percentage": "49.96%", "elapsed_time": "1d 14h 22m 38s", "remaining_time": "1d 14h 26m 29s"}
+{"loss": 0.07066337, "token_acc": 0.97253788, "grad_norm": 0.63880855, "learning_rate": 5.005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237196, "epoch": 2.49828493, "global_step/max_steps": "32775/65595", "percentage": "49.97%", "elapsed_time": "1d 14h 22m 54s", "remaining_time": "1d 14h 26m 4s"}
+{"loss": 0.14020939, "token_acc": 0.94613768, "grad_norm": 0.62509423, "learning_rate": 5.004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237205, "epoch": 2.49866606, "global_step/max_steps": "32780/65595", "percentage": "49.97%", "elapsed_time": "1d 14h 23m 10s", "remaining_time": "1d 14h 25m 37s"}
+{"loss": 0.11702557, "token_acc": 0.94256259, "grad_norm": 2.01635718, "learning_rate": 5.003e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237218, "epoch": 2.49904718, "global_step/max_steps": "32785/65595", "percentage": "49.98%", "elapsed_time": "1d 14h 23m 23s", "remaining_time": "1d 14h 25m 9s"}
+{"loss": 0.09401137, "token_acc": 0.96557825, "grad_norm": 0.52748048, "learning_rate": 5.002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237224, "epoch": 2.49942831, "global_step/max_steps": "32790/65595", "percentage": "49.99%", "elapsed_time": "1d 14h 23m 41s", "remaining_time": "1d 14h 24m 44s"}
+{"loss": 0.09447576, "token_acc": 0.95931185, "grad_norm": 1.62586796, "learning_rate": 5.001e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237231, "epoch": 2.49980944, "global_step/max_steps": "32795/65595", "percentage": "50.00%", "elapsed_time": "1d 14h 23m 58s", "remaining_time": "1d 14h 24m 19s"}
+{"loss": 0.07882641, "token_acc": 0.96931138, "grad_norm": 0.73545212, "learning_rate": 4.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237241, "epoch": 2.50019056, "global_step/max_steps": "32800/65595", "percentage": "50.00%", "elapsed_time": "1d 14h 24m 14s", "remaining_time": "1d 14h 23m 53s"}
+{"eval_loss": 0.08330094, "eval_token_acc": 0.96455786, "eval_runtime": 218.2823, "eval_samples_per_second": 2.428, "eval_steps_per_second": 2.428, "epoch": 2.50019056, "global_step/max_steps": "32800/65595", "percentage": "50.00%", "elapsed_time": "1d 14h 27m 52s", "remaining_time": "1d 14h 27m 31s"}
+{"loss": 0.13596681, "token_acc": 0.96355127, "grad_norm": 1.16907513, "learning_rate": 4.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236871, "epoch": 2.50057169, "global_step/max_steps": "32805/65595", "percentage": "50.01%", "elapsed_time": "1d 14h 28m 10s", "remaining_time": "1d 14h 27m 7s"}
+{"loss": 0.08115846, "token_acc": 0.97254953, "grad_norm": 0.36082166, "learning_rate": 4.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236873, "epoch": 2.50095282, "global_step/max_steps": "32810/65595", "percentage": "50.02%", "elapsed_time": "1d 14h 28m 30s", "remaining_time": "1d 14h 26m 45s"}
+{"loss": 0.1521661, "token_acc": 0.95634563, "grad_norm": 1.26612711, "learning_rate": 4.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236879, "epoch": 2.50133394, "global_step/max_steps": "32815/65595", "percentage": "50.03%", "elapsed_time": "1d 14h 28m 48s", "remaining_time": "1d 14h 26m 20s"}
+{"loss": 0.0846736, "token_acc": 0.95734478, "grad_norm": 1.28479373, "learning_rate": 4.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236889, "epoch": 2.50171507, "global_step/max_steps": "32820/65595", "percentage": "50.03%", "elapsed_time": "1d 14h 29m 3s", "remaining_time": "1d 14h 25m 53s"}
+{"loss": 0.11855582, "token_acc": 0.96013932, "grad_norm": 1.33658874, "learning_rate": 4.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2369, "epoch": 2.5020962, "global_step/max_steps": "32825/65595", "percentage": "50.04%", "elapsed_time": "1d 14h 29m 18s", "remaining_time": "1d 14h 25m 26s"}
+{"loss": 0.07139829, "token_acc": 0.97352437, "grad_norm": 0.72532028, "learning_rate": 4.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236903, "epoch": 2.50247732, "global_step/max_steps": "32830/65595", "percentage": "50.05%", "elapsed_time": "1d 14h 29m 37s", "remaining_time": "1d 14h 25m 3s"}
+{"loss": 0.10076133, "token_acc": 0.95917098, "grad_norm": 1.46641529, "learning_rate": 4.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23691, "epoch": 2.50285845, "global_step/max_steps": "32835/65595", "percentage": "50.06%", "elapsed_time": "1d 14h 29m 54s", "remaining_time": "1d 14h 24m 37s"}
+{"loss": 0.06510155, "token_acc": 0.96308113, "grad_norm": 1.01266897, "learning_rate": 4.99e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236921, "epoch": 2.50323958, "global_step/max_steps": "32840/65595", "percentage": "50.06%", "elapsed_time": "1d 14h 30m 9s", "remaining_time": "1d 14h 24m 10s"}
+{"loss": 0.09717999, "token_acc": 0.96971806, "grad_norm": 1.72000039, "learning_rate": 4.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236924, "epoch": 2.5036207, "global_step/max_steps": "32845/65595", "percentage": "50.07%", "elapsed_time": "1d 14h 30m 28s", "remaining_time": "1d 14h 23m 47s"}
+{"loss": 0.0767238, "token_acc": 0.97131622, "grad_norm": 1.19463611, "learning_rate": 4.987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236931, "epoch": 2.50400183, "global_step/max_steps": "32850/65595", "percentage": "50.08%", "elapsed_time": "1d 14h 30m 45s", "remaining_time": "1d 14h 23m 22s"}
+{"loss": 0.12486784, "token_acc": 0.96180269, "grad_norm": 1.26280951, "learning_rate": 4.986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23694, "epoch": 2.50438296, "global_step/max_steps": "32855/65595", "percentage": "50.09%", "elapsed_time": "1d 14h 31m 1s", "remaining_time": "1d 14h 22m 56s"}
+{"loss": 0.10146133, "token_acc": 0.95100538, "grad_norm": 0.99649841, "learning_rate": 4.985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236949, "epoch": 2.50476408, "global_step/max_steps": "32860/65595", "percentage": "50.10%", "elapsed_time": "1d 14h 31m 17s", "remaining_time": "1d 14h 22m 30s"}
+{"loss": 0.11411185, "token_acc": 0.95265423, "grad_norm": 1.2708354, "learning_rate": 4.984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236957, "epoch": 2.50514521, "global_step/max_steps": "32865/65595", "percentage": "50.10%", "elapsed_time": "1d 14h 31m 34s", "remaining_time": "1d 14h 22m 4s"}
+{"loss": 0.11193795, "token_acc": 0.95796567, "grad_norm": 1.04604197, "learning_rate": 4.983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236963, "epoch": 2.50552634, "global_step/max_steps": "32870/65595", "percentage": "50.11%", "elapsed_time": "1d 14h 31m 51s", "remaining_time": "1d 14h 21m 39s"}
+{"loss": 0.0615728, "token_acc": 0.971669, "grad_norm": 0.66595107, "learning_rate": 4.981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236973, "epoch": 2.50590746, "global_step/max_steps": "32875/65595", "percentage": "50.12%", "elapsed_time": "1d 14h 32m 6s", "remaining_time": "1d 14h 21m 12s"}
+{"loss": 0.0760137, "token_acc": 0.97149321, "grad_norm": 1.61638331, "learning_rate": 4.98e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236984, "epoch": 2.50628859, "global_step/max_steps": "32880/65595", "percentage": "50.13%", "elapsed_time": "1d 14h 32m 21s", "remaining_time": "1d 14h 20m 45s"}
+{"loss": 0.07712869, "token_acc": 0.96973115, "grad_norm": 0.621144, "learning_rate": 4.979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23699, "epoch": 2.50666972, "global_step/max_steps": "32885/65595", "percentage": "50.13%", "elapsed_time": "1d 14h 32m 39s", "remaining_time": "1d 14h 20m 20s"}
+{"loss": 0.08751253, "token_acc": 0.96902357, "grad_norm": 1.67175424, "learning_rate": 4.978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236994, "epoch": 2.50705084, "global_step/max_steps": "32890/65595", "percentage": "50.14%", "elapsed_time": "1d 14h 32m 57s", "remaining_time": "1d 14h 19m 57s"}
+{"loss": 0.09953058, "token_acc": 0.96614861, "grad_norm": 3.01288247, "learning_rate": 4.977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237001, "epoch": 2.50743197, "global_step/max_steps": "32895/65595", "percentage": "50.15%", "elapsed_time": "1d 14h 33m 14s", "remaining_time": "1d 14h 19m 31s"}
+{"loss": 0.08191831, "token_acc": 0.96498202, "grad_norm": 1.00423574, "learning_rate": 4.975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237008, "epoch": 2.5078131, "global_step/max_steps": "32900/65595", "percentage": "50.16%", "elapsed_time": "1d 14h 33m 31s", "remaining_time": "1d 14h 19m 6s"}
+{"loss": 0.11387545, "token_acc": 0.95724069, "grad_norm": 1.18634439, "learning_rate": 4.974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237013, "epoch": 2.50819422, "global_step/max_steps": "32905/65595", "percentage": "50.16%", "elapsed_time": "1d 14h 33m 49s", "remaining_time": "1d 14h 18m 42s"}
+{"loss": 0.0912452, "token_acc": 0.96249719, "grad_norm": 1.04968393, "learning_rate": 4.973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237022, "epoch": 2.50857535, "global_step/max_steps": "32910/65595", "percentage": "50.17%", "elapsed_time": "1d 14h 34m 5s", "remaining_time": "1d 14h 18m 16s"}
+{"loss": 0.07547229, "token_acc": 0.96653613, "grad_norm": 2.24291778, "learning_rate": 4.972e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237031, "epoch": 2.50895648, "global_step/max_steps": "32915/65595", "percentage": "50.18%", "elapsed_time": "1d 14h 34m 21s", "remaining_time": "1d 14h 17m 49s"}
+{"loss": 0.0997856, "token_acc": 0.9659471, "grad_norm": 0.79654431, "learning_rate": 4.971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237039, "epoch": 2.5093376, "global_step/max_steps": "32920/65595", "percentage": "50.19%", "elapsed_time": "1d 14h 34m 37s", "remaining_time": "1d 14h 17m 24s"}
+{"loss": 0.09241699, "token_acc": 0.95907173, "grad_norm": 0.74607074, "learning_rate": 4.969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237048, "epoch": 2.50971873, "global_step/max_steps": "32925/65595", "percentage": "50.19%", "elapsed_time": "1d 14h 34m 53s", "remaining_time": "1d 14h 16m 58s"}
+{"loss": 0.09563431, "token_acc": 0.97255337, "grad_norm": 1.74571693, "learning_rate": 4.968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237057, "epoch": 2.51009986, "global_step/max_steps": "32930/65595", "percentage": "50.20%", "elapsed_time": "1d 14h 35m 9s", "remaining_time": "1d 14h 16m 31s"}
+{"loss": 0.07740888, "token_acc": 0.97291102, "grad_norm": 0.93953222, "learning_rate": 4.967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237064, "epoch": 2.51048098, "global_step/max_steps": "32935/65595", "percentage": "50.21%", "elapsed_time": "1d 14h 35m 26s", "remaining_time": "1d 14h 16m 6s"}
+{"loss": 0.10924084, "token_acc": 0.95763069, "grad_norm": 1.41740417, "learning_rate": 4.966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237072, "epoch": 2.51086211, "global_step/max_steps": "32940/65595", "percentage": "50.22%", "elapsed_time": "1d 14h 35m 42s", "remaining_time": "1d 14h 15m 40s"}
+{"loss": 0.12027863, "token_acc": 0.96434243, "grad_norm": 2.83726525, "learning_rate": 4.965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237076, "epoch": 2.51124324, "global_step/max_steps": "32945/65595", "percentage": "50.22%", "elapsed_time": "1d 14h 36m 1s", "remaining_time": "1d 14h 15m 17s"}
+{"loss": 0.09025511, "token_acc": 0.96593147, "grad_norm": 0.73669386, "learning_rate": 4.963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237082, "epoch": 2.51162436, "global_step/max_steps": "32950/65595", "percentage": "50.23%", "elapsed_time": "1d 14h 36m 18s", "remaining_time": "1d 14h 14m 52s"}
+{"loss": 0.0968479, "token_acc": 0.96918336, "grad_norm": 0.63124067, "learning_rate": 4.962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237086, "epoch": 2.51200549, "global_step/max_steps": "32955/65595", "percentage": "50.24%", "elapsed_time": "1d 14h 36m 38s", "remaining_time": "1d 14h 14m 29s"}
+{"loss": 0.09252735, "token_acc": 0.96664128, "grad_norm": 0.40779993, "learning_rate": 4.961e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237088, "epoch": 2.51238661, "global_step/max_steps": "32960/65595", "percentage": "50.25%", "elapsed_time": "1d 14h 36m 57s", "remaining_time": "1d 14h 14m 6s"}
+{"loss": 0.07744455, "token_acc": 0.96033994, "grad_norm": 0.74843436, "learning_rate": 4.96e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237096, "epoch": 2.51276774, "global_step/max_steps": "32965/65595", "percentage": "50.26%", "elapsed_time": "1d 14h 37m 14s", "remaining_time": "1d 14h 13m 41s"}
+{"loss": 0.07016698, "token_acc": 0.96989247, "grad_norm": 0.31623176, "learning_rate": 4.959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237107, "epoch": 2.51314887, "global_step/max_steps": "32970/65595", "percentage": "50.26%", "elapsed_time": "1d 14h 37m 28s", "remaining_time": "1d 14h 13m 13s"}
+{"loss": 0.09530119, "token_acc": 0.96243203, "grad_norm": 0.48957175, "learning_rate": 4.957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237116, "epoch": 2.51352999, "global_step/max_steps": "32975/65595", "percentage": "50.27%", "elapsed_time": "1d 14h 37m 44s", "remaining_time": "1d 14h 12m 47s"}
+{"loss": 0.10669959, "token_acc": 0.96303725, "grad_norm": 2.63790512, "learning_rate": 4.956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237125, "epoch": 2.51391112, "global_step/max_steps": "32980/65595", "percentage": "50.28%", "elapsed_time": "1d 14h 38m 0s", "remaining_time": "1d 14h 12m 21s"}
+{"loss": 0.10632832, "token_acc": 0.96465031, "grad_norm": 2.7436378, "learning_rate": 4.955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237132, "epoch": 2.51429225, "global_step/max_steps": "32985/65595", "percentage": "50.29%", "elapsed_time": "1d 14h 38m 17s", "remaining_time": "1d 14h 11m 56s"}
+{"loss": 0.10157713, "token_acc": 0.95655098, "grad_norm": 0.66075015, "learning_rate": 4.954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237135, "epoch": 2.51467337, "global_step/max_steps": "32990/65595", "percentage": "50.29%", "elapsed_time": "1d 14h 38m 37s", "remaining_time": "1d 14h 11m 33s"}
+{"loss": 0.08774519, "token_acc": 0.96617576, "grad_norm": 0.41047472, "learning_rate": 4.953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237141, "epoch": 2.5150545, "global_step/max_steps": "32995/65595", "percentage": "50.30%", "elapsed_time": "1d 14h 38m 54s", "remaining_time": "1d 14h 11m 8s"}
+{"loss": 0.07700556, "token_acc": 0.97690998, "grad_norm": 0.50995278, "learning_rate": 4.952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237138, "epoch": 2.51543563, "global_step/max_steps": "33000/65595", "percentage": "50.31%", "elapsed_time": "1d 14h 39m 17s", "remaining_time": "1d 14h 10m 49s"}
+{"eval_loss": 0.08091821, "eval_token_acc": 0.96510752, "eval_runtime": 220.4141, "eval_samples_per_second": 2.405, "eval_steps_per_second": 2.405, "epoch": 2.51543563, "global_step/max_steps": "33000/65595", "percentage": "50.31%", "elapsed_time": "1d 14h 42m 57s", "remaining_time": "1d 14h 14m 27s"}
+{"loss": 0.10017536, "token_acc": 0.96536424, "grad_norm": 1.26456058, "learning_rate": 4.95e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236768, "epoch": 2.51581675, "global_step/max_steps": "33005/65595", "percentage": "50.32%", "elapsed_time": "1d 14h 43m 16s", "remaining_time": "1d 14h 14m 3s"}
+{"loss": 0.09502357, "token_acc": 0.96393443, "grad_norm": 1.26602626, "learning_rate": 4.949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236777, "epoch": 2.51619788, "global_step/max_steps": "33010/65595", "percentage": "50.32%", "elapsed_time": "1d 14h 43m 31s", "remaining_time": "1d 14h 13m 36s"}
+{"loss": 0.05333622, "token_acc": 0.97131596, "grad_norm": 0.11074176, "learning_rate": 4.948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236785, "epoch": 2.51657901, "global_step/max_steps": "33015/65595", "percentage": "50.33%", "elapsed_time": "1d 14h 43m 48s", "remaining_time": "1d 14h 13m 11s"}
+{"loss": 0.08645543, "token_acc": 0.97379123, "grad_norm": 1.49806237, "learning_rate": 4.947e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236789, "epoch": 2.51696013, "global_step/max_steps": "33020/65595", "percentage": "50.34%", "elapsed_time": "1d 14h 44m 6s", "remaining_time": "1d 14h 12m 47s"}
+{"loss": 0.08119408, "token_acc": 0.97094431, "grad_norm": 0.64624715, "learning_rate": 4.946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23679, "epoch": 2.51734126, "global_step/max_steps": "33025/65595", "percentage": "50.35%", "elapsed_time": "1d 14h 44m 27s", "remaining_time": "1d 14h 12m 25s"}
+{"loss": 0.06108866, "token_acc": 0.96383866, "grad_norm": 1.32066047, "learning_rate": 4.944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236802, "epoch": 2.51772239, "global_step/max_steps": "33030/65595", "percentage": "50.35%", "elapsed_time": "1d 14h 44m 41s", "remaining_time": "1d 14h 11m 57s"}
+{"loss": 0.08659701, "token_acc": 0.95964784, "grad_norm": 1.31606948, "learning_rate": 4.943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236814, "epoch": 2.51810351, "global_step/max_steps": "33035/65595", "percentage": "50.36%", "elapsed_time": "1d 14h 44m 55s", "remaining_time": "1d 14h 11m 29s"}
+{"loss": 0.09716821, "token_acc": 0.95847264, "grad_norm": 0.64731443, "learning_rate": 4.942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236822, "epoch": 2.51848464, "global_step/max_steps": "33040/65595", "percentage": "50.37%", "elapsed_time": "1d 14h 45m 12s", "remaining_time": "1d 14h 11m 4s"}
+{"loss": 0.09670069, "token_acc": 0.96652007, "grad_norm": 1.00090837, "learning_rate": 4.941e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236823, "epoch": 2.51886577, "global_step/max_steps": "33045/65595", "percentage": "50.38%", "elapsed_time": "1d 14h 45m 32s", "remaining_time": "1d 14h 10m 42s"}
+{"loss": 0.08770031, "token_acc": 0.95877539, "grad_norm": 2.26777053, "learning_rate": 4.94e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236833, "epoch": 2.51924689, "global_step/max_steps": "33050/65595", "percentage": "50.38%", "elapsed_time": "1d 14h 45m 47s", "remaining_time": "1d 14h 10m 15s"}
+{"loss": 0.09292935, "token_acc": 0.96401458, "grad_norm": 1.12742317, "learning_rate": 4.938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236838, "epoch": 2.51962802, "global_step/max_steps": "33055/65595", "percentage": "50.39%", "elapsed_time": "1d 14h 46m 5s", "remaining_time": "1d 14h 9m 51s"}
+{"loss": 0.09133, "token_acc": 0.96226415, "grad_norm": 0.76190704, "learning_rate": 4.937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236843, "epoch": 2.52000915, "global_step/max_steps": "33060/65595", "percentage": "50.40%", "elapsed_time": "1d 14h 46m 23s", "remaining_time": "1d 14h 9m 27s"}
+{"loss": 0.09562448, "token_acc": 0.95780591, "grad_norm": 0.89966291, "learning_rate": 4.936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236847, "epoch": 2.52039027, "global_step/max_steps": "33065/65595", "percentage": "50.41%", "elapsed_time": "1d 14h 46m 42s", "remaining_time": "1d 14h 9m 3s"}
+{"loss": 0.08897706, "token_acc": 0.96884498, "grad_norm": 1.0069319, "learning_rate": 4.935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236854, "epoch": 2.5207714, "global_step/max_steps": "33070/65595", "percentage": "50.42%", "elapsed_time": "1d 14h 46m 59s", "remaining_time": "1d 14h 8m 38s"}
+{"loss": 0.05920814, "token_acc": 0.97215523, "grad_norm": 1.07540202, "learning_rate": 4.934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236862, "epoch": 2.52115253, "global_step/max_steps": "33075/65595", "percentage": "50.42%", "elapsed_time": "1d 14h 47m 16s", "remaining_time": "1d 14h 8m 13s"}
+{"loss": 0.10810577, "token_acc": 0.95890052, "grad_norm": 1.32021487, "learning_rate": 4.932e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236869, "epoch": 2.52153365, "global_step/max_steps": "33080/65595", "percentage": "50.43%", "elapsed_time": "1d 14h 47m 32s", "remaining_time": "1d 14h 7m 47s"}
+{"loss": 0.08919537, "token_acc": 0.96501809, "grad_norm": 1.0526855, "learning_rate": 4.931e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236879, "epoch": 2.52191478, "global_step/max_steps": "33085/65595", "percentage": "50.44%", "elapsed_time": "1d 14h 47m 48s", "remaining_time": "1d 14h 7m 20s"}
+{"loss": 0.07507234, "token_acc": 0.96826587, "grad_norm": 0.83740669, "learning_rate": 4.93e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236889, "epoch": 2.52229591, "global_step/max_steps": "33090/65595", "percentage": "50.45%", "elapsed_time": "1d 14h 48m 3s", "remaining_time": "1d 14h 6m 54s"}
+{"loss": 0.10953776, "token_acc": 0.94704762, "grad_norm": 1.2207253, "learning_rate": 4.929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236899, "epoch": 2.52267703, "global_step/max_steps": "33095/65595", "percentage": "50.45%", "elapsed_time": "1d 14h 48m 18s", "remaining_time": "1d 14h 6m 27s"}
+{"loss": 0.10648869, "token_acc": 0.96034049, "grad_norm": 0.84830123, "learning_rate": 4.928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236905, "epoch": 2.52305816, "global_step/max_steps": "33100/65595", "percentage": "50.46%", "elapsed_time": "1d 14h 48m 36s", "remaining_time": "1d 14h 6m 2s"}
+{"loss": 0.10854913, "token_acc": 0.96064239, "grad_norm": 1.00706041, "learning_rate": 4.926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236912, "epoch": 2.52343929, "global_step/max_steps": "33105/65595", "percentage": "50.47%", "elapsed_time": "1d 14h 48m 53s", "remaining_time": "1d 14h 5m 37s"}
+{"loss": 0.09892846, "token_acc": 0.95619867, "grad_norm": 0.57468605, "learning_rate": 4.925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236923, "epoch": 2.52382041, "global_step/max_steps": "33110/65595", "percentage": "50.48%", "elapsed_time": "1d 14h 49m 7s", "remaining_time": "1d 14h 5m 9s"}
+{"loss": 0.10281235, "token_acc": 0.96112711, "grad_norm": 0.72897995, "learning_rate": 4.924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23693, "epoch": 2.52420154, "global_step/max_steps": "33115/65595", "percentage": "50.48%", "elapsed_time": "1d 14h 49m 24s", "remaining_time": "1d 14h 4m 44s"}
+{"loss": 0.08764684, "token_acc": 0.96931374, "grad_norm": 0.83725381, "learning_rate": 4.923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236935, "epoch": 2.52458267, "global_step/max_steps": "33120/65595", "percentage": "50.49%", "elapsed_time": "1d 14h 49m 42s", "remaining_time": "1d 14h 4m 20s"}
+{"loss": 0.12236214, "token_acc": 0.9655567, "grad_norm": 0.58989185, "learning_rate": 4.922e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236934, "epoch": 2.52496379, "global_step/max_steps": "33125/65595", "percentage": "50.50%", "elapsed_time": "1d 14h 50m 4s", "remaining_time": "1d 14h 4m 0s"}
+{"loss": 0.06973939, "token_acc": 0.96698413, "grad_norm": 0.86374009, "learning_rate": 4.92e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236943, "epoch": 2.52534492, "global_step/max_steps": "33130/65595", "percentage": "50.51%", "elapsed_time": "1d 14h 50m 20s", "remaining_time": "1d 14h 3m 34s"}
+{"loss": 0.11761512, "token_acc": 0.93789809, "grad_norm": 2.11018038, "learning_rate": 4.919e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236954, "epoch": 2.52572605, "global_step/max_steps": "33135/65595", "percentage": "50.51%", "elapsed_time": "1d 14h 50m 34s", "remaining_time": "1d 14h 3m 6s"}
+{"loss": 0.08752067, "token_acc": 0.96366972, "grad_norm": 2.32551265, "learning_rate": 4.918e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236964, "epoch": 2.52610717, "global_step/max_steps": "33140/65595", "percentage": "50.52%", "elapsed_time": "1d 14h 50m 50s", "remaining_time": "1d 14h 2m 39s"}
+{"loss": 0.09069374, "token_acc": 0.96494239, "grad_norm": 0.59149557, "learning_rate": 4.917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236963, "epoch": 2.5264883, "global_step/max_steps": "33145/65595", "percentage": "50.53%", "elapsed_time": "1d 14h 51m 11s", "remaining_time": "1d 14h 2m 18s"}
+{"loss": 0.07858939, "token_acc": 0.97133758, "grad_norm": 0.70677227, "learning_rate": 4.916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236972, "epoch": 2.52686943, "global_step/max_steps": "33150/65595", "percentage": "50.54%", "elapsed_time": "1d 14h 51m 27s", "remaining_time": "1d 14h 1m 52s"}
+{"loss": 0.11027237, "token_acc": 0.9603635, "grad_norm": 1.12935221, "learning_rate": 4.914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236978, "epoch": 2.52725055, "global_step/max_steps": "33155/65595", "percentage": "50.55%", "elapsed_time": "1d 14h 51m 45s", "remaining_time": "1d 14h 1m 28s"}
+{"loss": 0.08462152, "token_acc": 0.97068989, "grad_norm": 0.67910898, "learning_rate": 4.913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23698, "epoch": 2.52763168, "global_step/max_steps": "33160/65595", "percentage": "50.55%", "elapsed_time": "1d 14h 52m 5s", "remaining_time": "1d 14h 1m 6s"}
+{"loss": 0.09360675, "token_acc": 0.96455696, "grad_norm": 0.56149459, "learning_rate": 4.912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236988, "epoch": 2.52801281, "global_step/max_steps": "33165/65595", "percentage": "50.56%", "elapsed_time": "1d 14h 52m 21s", "remaining_time": "1d 14h 0m 40s"}
+{"loss": 0.08904506, "token_acc": 0.96000627, "grad_norm": 0.78826821, "learning_rate": 4.911e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236992, "epoch": 2.52839393, "global_step/max_steps": "33170/65595", "percentage": "50.57%", "elapsed_time": "1d 14h 52m 40s", "remaining_time": "1d 14h 0m 16s"}
+{"loss": 0.10349857, "token_acc": 0.96423899, "grad_norm": 1.60884476, "learning_rate": 4.91e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237001, "epoch": 2.52877506, "global_step/max_steps": "33175/65595", "percentage": "50.58%", "elapsed_time": "1d 14h 52m 55s", "remaining_time": "1d 13h 59m 50s"}
+{"loss": 0.09457155, "token_acc": 0.96779388, "grad_norm": 1.39772117, "learning_rate": 4.908e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237006, "epoch": 2.52915619, "global_step/max_steps": "33180/65595", "percentage": "50.58%", "elapsed_time": "1d 14h 53m 14s", "remaining_time": "1d 13h 59m 26s"}
+{"loss": 0.10187984, "token_acc": 0.96040724, "grad_norm": 1.09545505, "learning_rate": 4.907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237013, "epoch": 2.52953731, "global_step/max_steps": "33185/65595", "percentage": "50.59%", "elapsed_time": "1d 14h 53m 31s", "remaining_time": "1d 13h 59m 1s"}
+{"loss": 0.07724708, "token_acc": 0.96817445, "grad_norm": 1.30201709, "learning_rate": 4.906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237017, "epoch": 2.52991844, "global_step/max_steps": "33190/65595", "percentage": "50.60%", "elapsed_time": "1d 14h 53m 49s", "remaining_time": "1d 13h 58m 38s"}
+{"loss": 0.10180256, "token_acc": 0.96059025, "grad_norm": 0.83621341, "learning_rate": 4.905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237022, "epoch": 2.53029957, "global_step/max_steps": "33195/65595", "percentage": "50.61%", "elapsed_time": "1d 14h 54m 8s", "remaining_time": "1d 13h 58m 14s"}
+{"loss": 0.11541592, "token_acc": 0.96310781, "grad_norm": 0.75357568, "learning_rate": 4.904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237026, "epoch": 2.53068069, "global_step/max_steps": "33200/65595", "percentage": "50.61%", "elapsed_time": "1d 14h 54m 26s", "remaining_time": "1d 13h 57m 50s"}
+{"eval_loss": 0.08056715, "eval_token_acc": 0.9655066, "eval_runtime": 221.3678, "eval_samples_per_second": 2.394, "eval_steps_per_second": 2.394, "epoch": 2.53068069, "global_step/max_steps": "33200/65595", "percentage": "50.61%", "elapsed_time": "1d 14h 58m 8s", "remaining_time": "1d 14h 1m 26s"}
+{"loss": 0.09183005, "token_acc": 0.96531191, "grad_norm": 0.86293656, "learning_rate": 4.902e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236661, "epoch": 2.53106182, "global_step/max_steps": "33205/65595", "percentage": "50.62%", "elapsed_time": "1d 14h 58m 23s", "remaining_time": "1d 14h 1m 0s"}
+{"loss": 0.10580256, "token_acc": 0.96242584, "grad_norm": 0.46232483, "learning_rate": 4.901e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236665, "epoch": 2.53144295, "global_step/max_steps": "33210/65595", "percentage": "50.63%", "elapsed_time": "1d 14h 58m 42s", "remaining_time": "1d 14h 0m 36s"}
+{"loss": 0.09896224, "token_acc": 0.97586941, "grad_norm": 1.6338203, "learning_rate": 4.9e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236674, "epoch": 2.53182407, "global_step/max_steps": "33215/65595", "percentage": "50.64%", "elapsed_time": "1d 14h 58m 58s", "remaining_time": "1d 14h 0m 10s"}
+{"loss": 0.0841458, "token_acc": 0.97050448, "grad_norm": 0.59871674, "learning_rate": 4.899e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236681, "epoch": 2.5322052, "global_step/max_steps": "33220/65595", "percentage": "50.64%", "elapsed_time": "1d 14h 59m 15s", "remaining_time": "1d 13h 59m 45s"}
+{"loss": 0.08905952, "token_acc": 0.96672158, "grad_norm": 1.48054326, "learning_rate": 4.898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236691, "epoch": 2.53258633, "global_step/max_steps": "33225/65595", "percentage": "50.65%", "elapsed_time": "1d 14h 59m 30s", "remaining_time": "1d 13h 59m 18s"}
+{"loss": 0.090018, "token_acc": 0.96908297, "grad_norm": 0.55912298, "learning_rate": 4.896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236698, "epoch": 2.53296745, "global_step/max_steps": "33230/65595", "percentage": "50.66%", "elapsed_time": "1d 14h 59m 47s", "remaining_time": "1d 13h 58m 53s"}
+{"loss": 0.09925961, "token_acc": 0.95351205, "grad_norm": 0.91601521, "learning_rate": 4.895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236709, "epoch": 2.53334858, "global_step/max_steps": "33235/65595", "percentage": "50.67%", "elapsed_time": "1d 15h 0m 2s", "remaining_time": "1d 13h 58m 25s"}
+{"loss": 0.08380406, "token_acc": 0.96257962, "grad_norm": 0.64344156, "learning_rate": 4.894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236712, "epoch": 2.53372971, "global_step/max_steps": "33240/65595", "percentage": "50.67%", "elapsed_time": "1d 15h 0m 21s", "remaining_time": "1d 13h 58m 2s"}
+{"loss": 0.09323226, "token_acc": 0.97066539, "grad_norm": 0.85048831, "learning_rate": 4.893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23672, "epoch": 2.53411083, "global_step/max_steps": "33245/65595", "percentage": "50.68%", "elapsed_time": "1d 15h 0m 37s", "remaining_time": "1d 13h 57m 37s"}
+{"loss": 0.08293003, "token_acc": 0.96624564, "grad_norm": 1.14121318, "learning_rate": 4.892e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236728, "epoch": 2.53449196, "global_step/max_steps": "33250/65595", "percentage": "50.69%", "elapsed_time": "1d 15h 0m 54s", "remaining_time": "1d 13h 57m 11s"}
+{"loss": 0.09913569, "token_acc": 0.96453634, "grad_norm": 0.4724943, "learning_rate": 4.89e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236731, "epoch": 2.53487308, "global_step/max_steps": "33255/65595", "percentage": "50.70%", "elapsed_time": "1d 15h 1m 13s", "remaining_time": "1d 13h 56m 48s"}
+{"loss": 0.09261062, "token_acc": 0.96317791, "grad_norm": 1.17262709, "learning_rate": 4.889e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236738, "epoch": 2.53525421, "global_step/max_steps": "33260/65595", "percentage": "50.71%", "elapsed_time": "1d 15h 1m 30s", "remaining_time": "1d 13h 56m 23s"}
+{"loss": 0.08000627, "token_acc": 0.9698612, "grad_norm": 1.65534794, "learning_rate": 4.888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23674, "epoch": 2.53563534, "global_step/max_steps": "33265/65595", "percentage": "50.71%", "elapsed_time": "1d 15h 1m 50s", "remaining_time": "1d 13h 56m 0s"}
+{"loss": 0.10430416, "token_acc": 0.96351224, "grad_norm": 1.04157841, "learning_rate": 4.887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236747, "epoch": 2.53601646, "global_step/max_steps": "33270/65595", "percentage": "50.72%", "elapsed_time": "1d 15h 2m 7s", "remaining_time": "1d 13h 55m 35s"}
+{"loss": 0.10411296, "token_acc": 0.9532363, "grad_norm": 0.91498619, "learning_rate": 4.886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236752, "epoch": 2.53639759, "global_step/max_steps": "33275/65595", "percentage": "50.73%", "elapsed_time": "1d 15h 2m 25s", "remaining_time": "1d 13h 55m 12s"}
+{"loss": 0.08204564, "token_acc": 0.95979487, "grad_norm": 0.82350999, "learning_rate": 4.884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23676, "epoch": 2.53677872, "global_step/max_steps": "33280/65595", "percentage": "50.74%", "elapsed_time": "1d 15h 2m 41s", "remaining_time": "1d 13h 54m 46s"}
+{"loss": 0.05346315, "token_acc": 0.98161304, "grad_norm": 0.88027948, "learning_rate": 4.883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23677, "epoch": 2.53715984, "global_step/max_steps": "33285/65595", "percentage": "50.74%", "elapsed_time": "1d 15h 2m 57s", "remaining_time": "1d 13h 54m 19s"}
+{"loss": 0.08534727, "token_acc": 0.96604471, "grad_norm": 1.43260896, "learning_rate": 4.882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236777, "epoch": 2.53754097, "global_step/max_steps": "33290/65595", "percentage": "50.75%", "elapsed_time": "1d 15h 3m 13s", "remaining_time": "1d 13h 53m 54s"}
+{"loss": 0.10437677, "token_acc": 0.9598208, "grad_norm": 0.50625479, "learning_rate": 4.881e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236783, "epoch": 2.5379221, "global_step/max_steps": "33295/65595", "percentage": "50.76%", "elapsed_time": "1d 15h 3m 31s", "remaining_time": "1d 13h 53m 29s"}
+{"loss": 0.07997509, "token_acc": 0.96015625, "grad_norm": 0.35453522, "learning_rate": 4.88e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236792, "epoch": 2.53830322, "global_step/max_steps": "33300/65595", "percentage": "50.77%", "elapsed_time": "1d 15h 3m 47s", "remaining_time": "1d 13h 53m 3s"}
+{"loss": 0.07111991, "token_acc": 0.96505653, "grad_norm": 1.39467251, "learning_rate": 4.878e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236804, "epoch": 2.53868435, "global_step/max_steps": "33305/65595", "percentage": "50.77%", "elapsed_time": "1d 15h 4m 1s", "remaining_time": "1d 13h 52m 35s"}
+{"loss": 0.062524, "token_acc": 0.97494065, "grad_norm": 0.94929075, "learning_rate": 4.877e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236809, "epoch": 2.53906548, "global_step/max_steps": "33310/65595", "percentage": "50.78%", "elapsed_time": "1d 15h 4m 19s", "remaining_time": "1d 13h 52m 11s"}
+{"loss": 0.13176885, "token_acc": 0.95076923, "grad_norm": 1.15378773, "learning_rate": 4.876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236818, "epoch": 2.5394466, "global_step/max_steps": "33315/65595", "percentage": "50.79%", "elapsed_time": "1d 15h 4m 35s", "remaining_time": "1d 13h 51m 44s"}
+{"loss": 0.10590394, "token_acc": 0.95954106, "grad_norm": 1.26720691, "learning_rate": 4.875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236828, "epoch": 2.53982773, "global_step/max_steps": "33320/65595", "percentage": "50.80%", "elapsed_time": "1d 15h 4m 50s", "remaining_time": "1d 13h 51m 17s"}
+{"loss": 0.07820299, "token_acc": 0.96241161, "grad_norm": 0.82864332, "learning_rate": 4.874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236836, "epoch": 2.54020886, "global_step/max_steps": "33325/65595", "percentage": "50.80%", "elapsed_time": "1d 15h 5m 7s", "remaining_time": "1d 13h 50m 52s"}
+{"loss": 0.07073242, "token_acc": 0.96904025, "grad_norm": 0.7912159, "learning_rate": 4.872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236848, "epoch": 2.54058998, "global_step/max_steps": "33330/65595", "percentage": "50.81%", "elapsed_time": "1d 15h 5m 21s", "remaining_time": "1d 13h 50m 24s"}
+{"loss": 0.06037158, "token_acc": 0.97427553, "grad_norm": 0.53804094, "learning_rate": 4.871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236854, "epoch": 2.54097111, "global_step/max_steps": "33335/65595", "percentage": "50.82%", "elapsed_time": "1d 15h 5m 38s", "remaining_time": "1d 13h 49m 59s"}
+{"loss": 0.08260162, "token_acc": 0.96744593, "grad_norm": 0.93656355, "learning_rate": 4.87e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236862, "epoch": 2.54135224, "global_step/max_steps": "33340/65595", "percentage": "50.83%", "elapsed_time": "1d 15h 5m 54s", "remaining_time": "1d 13h 49m 34s"}
+{"loss": 0.0797672, "token_acc": 0.96768916, "grad_norm": 1.03979719, "learning_rate": 4.869e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236873, "epoch": 2.54173336, "global_step/max_steps": "33345/65595", "percentage": "50.83%", "elapsed_time": "1d 15h 6m 9s", "remaining_time": "1d 13h 49m 6s"}
+{"loss": 0.10098026, "token_acc": 0.95381526, "grad_norm": 2.48388052, "learning_rate": 4.868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236886, "epoch": 2.54211449, "global_step/max_steps": "33350/65595", "percentage": "50.84%", "elapsed_time": "1d 15h 6m 22s", "remaining_time": "1d 13h 48m 38s"}
+{"loss": 0.11523323, "token_acc": 0.9676827, "grad_norm": 0.76248741, "learning_rate": 4.867e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236886, "epoch": 2.54249562, "global_step/max_steps": "33355/65595", "percentage": "50.85%", "elapsed_time": "1d 15h 6m 43s", "remaining_time": "1d 13h 48m 17s"}
+{"loss": 0.06764725, "token_acc": 0.97603486, "grad_norm": 0.92847228, "learning_rate": 4.865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236886, "epoch": 2.54287674, "global_step/max_steps": "33360/65595", "percentage": "50.86%", "elapsed_time": "1d 15h 7m 5s", "remaining_time": "1d 13h 47m 55s"}
+{"loss": 0.06258687, "token_acc": 0.975605, "grad_norm": 0.74259031, "learning_rate": 4.864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236891, "epoch": 2.54325787, "global_step/max_steps": "33365/65595", "percentage": "50.87%", "elapsed_time": "1d 15h 7m 22s", "remaining_time": "1d 13h 47m 31s"}
+{"loss": 0.07466111, "token_acc": 0.96999474, "grad_norm": 0.64369792, "learning_rate": 4.863e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236896, "epoch": 2.543639, "global_step/max_steps": "33370/65595", "percentage": "50.87%", "elapsed_time": "1d 15h 7m 41s", "remaining_time": "1d 13h 47m 7s"}
+{"loss": 0.07887137, "token_acc": 0.96208531, "grad_norm": 0.64915699, "learning_rate": 4.862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236907, "epoch": 2.54402012, "global_step/max_steps": "33375/65595", "percentage": "50.88%", "elapsed_time": "1d 15h 7m 55s", "remaining_time": "1d 13h 46m 40s"}
+{"loss": 0.07716236, "token_acc": 0.96787791, "grad_norm": 0.71325356, "learning_rate": 4.861e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23691, "epoch": 2.54440125, "global_step/max_steps": "33380/65595", "percentage": "50.89%", "elapsed_time": "1d 15h 8m 15s", "remaining_time": "1d 13h 46m 17s"}
+{"loss": 0.07430953, "token_acc": 0.96839472, "grad_norm": 0.85117716, "learning_rate": 4.859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236918, "epoch": 2.54478238, "global_step/max_steps": "33385/65595", "percentage": "50.90%", "elapsed_time": "1d 15h 8m 31s", "remaining_time": "1d 13h 45m 52s"}
+{"loss": 0.09449993, "token_acc": 0.9645984, "grad_norm": 0.63938928, "learning_rate": 4.858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236919, "epoch": 2.5451635, "global_step/max_steps": "33390/65595", "percentage": "50.90%", "elapsed_time": "1d 15h 8m 51s", "remaining_time": "1d 13h 45m 30s"}
+{"loss": 0.08707158, "token_acc": 0.96830093, "grad_norm": 0.95559955, "learning_rate": 4.857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236926, "epoch": 2.54554463, "global_step/max_steps": "33395/65595", "percentage": "50.91%", "elapsed_time": "1d 15h 9m 8s", "remaining_time": "1d 13h 45m 5s"}
+{"loss": 0.10160677, "token_acc": 0.96278702, "grad_norm": 1.06057942, "learning_rate": 4.856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236937, "epoch": 2.54592576, "global_step/max_steps": "33400/65595", "percentage": "50.92%", "elapsed_time": "1d 15h 9m 23s", "remaining_time": "1d 13h 44m 38s"}
+{"eval_loss": 0.08211491, "eval_token_acc": 0.96456539, "eval_runtime": 218.5514, "eval_samples_per_second": 2.425, "eval_steps_per_second": 2.425, "epoch": 2.54592576, "global_step/max_steps": "33400/65595", "percentage": "50.92%", "elapsed_time": "1d 15h 13m 2s", "remaining_time": "1d 13h 48m 8s"}
+{"loss": 0.08155235, "token_acc": 0.96457199, "grad_norm": 0.62446731, "learning_rate": 4.855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236581, "epoch": 2.54630688, "global_step/max_steps": "33405/65595", "percentage": "50.93%", "elapsed_time": "1d 15h 13m 16s", "remaining_time": "1d 13h 47m 41s"}
+{"loss": 0.08855305, "token_acc": 0.9702399, "grad_norm": 0.78804886, "learning_rate": 4.853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23659, "epoch": 2.54668801, "global_step/max_steps": "33410/65595", "percentage": "50.93%", "elapsed_time": "1d 15h 13m 32s", "remaining_time": "1d 13h 47m 14s"}
+{"loss": 0.10192063, "token_acc": 0.95161969, "grad_norm": 1.2043258, "learning_rate": 4.852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236598, "epoch": 2.54706914, "global_step/max_steps": "33415/65595", "percentage": "50.94%", "elapsed_time": "1d 15h 13m 49s", "remaining_time": "1d 13h 46m 49s"}
+{"loss": 0.08239103, "token_acc": 0.9693575, "grad_norm": 2.41958547, "learning_rate": 4.851e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236604, "epoch": 2.54745026, "global_step/max_steps": "33420/65595", "percentage": "50.95%", "elapsed_time": "1d 15h 14m 6s", "remaining_time": "1d 13h 46m 24s"}
+{"loss": 0.10298591, "token_acc": 0.95888158, "grad_norm": 1.73108697, "learning_rate": 4.85e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236612, "epoch": 2.54783139, "global_step/max_steps": "33425/65595", "percentage": "50.96%", "elapsed_time": "1d 15h 14m 22s", "remaining_time": "1d 13h 45m 58s"}
+{"loss": 0.0938825, "token_acc": 0.94937088, "grad_norm": 0.06103398, "learning_rate": 4.849e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236622, "epoch": 2.54821252, "global_step/max_steps": "33430/65595", "percentage": "50.96%", "elapsed_time": "1d 15h 14m 38s", "remaining_time": "1d 13h 45m 32s"}
+{"loss": 0.08775217, "token_acc": 0.95596239, "grad_norm": 0.75817996, "learning_rate": 4.847e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236634, "epoch": 2.54859364, "global_step/max_steps": "33435/65595", "percentage": "50.97%", "elapsed_time": "1d 15h 14m 52s", "remaining_time": "1d 13h 45m 4s"}
+{"loss": 0.10179619, "token_acc": 0.96575342, "grad_norm": 0.93910426, "learning_rate": 4.846e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236643, "epoch": 2.54897477, "global_step/max_steps": "33440/65595", "percentage": "50.98%", "elapsed_time": "1d 15h 15m 7s", "remaining_time": "1d 13h 44m 37s"}
+{"loss": 0.07786098, "token_acc": 0.96607067, "grad_norm": 0.96129477, "learning_rate": 4.845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23665, "epoch": 2.5493559, "global_step/max_steps": "33445/65595", "percentage": "50.99%", "elapsed_time": "1d 15h 15m 24s", "remaining_time": "1d 13h 44m 12s"}
+{"loss": 0.08796676, "token_acc": 0.96584129, "grad_norm": 0.61628914, "learning_rate": 4.844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236655, "epoch": 2.54973702, "global_step/max_steps": "33450/65595", "percentage": "50.99%", "elapsed_time": "1d 15h 15m 42s", "remaining_time": "1d 13h 43m 48s"}
+{"loss": 0.09662121, "token_acc": 0.96475539, "grad_norm": 0.98812389, "learning_rate": 4.843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23666, "epoch": 2.55011815, "global_step/max_steps": "33455/65595", "percentage": "51.00%", "elapsed_time": "1d 15h 16m 0s", "remaining_time": "1d 13h 43m 24s"}
+{"loss": 0.12485999, "token_acc": 0.96362153, "grad_norm": 1.27063572, "learning_rate": 4.841e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236668, "epoch": 2.55049928, "global_step/max_steps": "33460/65595", "percentage": "51.01%", "elapsed_time": "1d 15h 16m 17s", "remaining_time": "1d 13h 42m 58s"}
+{"loss": 0.03777421, "token_acc": 0.97388122, "grad_norm": 0.68738467, "learning_rate": 4.84e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236674, "epoch": 2.5508804, "global_step/max_steps": "33465/65595", "percentage": "51.02%", "elapsed_time": "1d 15h 16m 34s", "remaining_time": "1d 13h 42m 34s"}
+{"loss": 0.1026366, "token_acc": 0.97135741, "grad_norm": 0.60511297, "learning_rate": 4.839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236682, "epoch": 2.55126153, "global_step/max_steps": "33470/65595", "percentage": "51.03%", "elapsed_time": "1d 15h 16m 50s", "remaining_time": "1d 13h 42m 8s"}
+{"loss": 0.06979877, "token_acc": 0.9727709, "grad_norm": 0.94706309, "learning_rate": 4.838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236682, "epoch": 2.55164266, "global_step/max_steps": "33475/65595", "percentage": "51.03%", "elapsed_time": "1d 15h 17m 12s", "remaining_time": "1d 13h 41m 47s"}
+{"loss": 0.07424347, "token_acc": 0.96641186, "grad_norm": 0.68420672, "learning_rate": 4.837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236689, "epoch": 2.55202378, "global_step/max_steps": "33480/65595", "percentage": "51.04%", "elapsed_time": "1d 15h 17m 29s", "remaining_time": "1d 13h 41m 22s"}
+{"loss": 0.09496915, "token_acc": 0.96404353, "grad_norm": 0.86141872, "learning_rate": 4.835e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236691, "epoch": 2.55240491, "global_step/max_steps": "33485/65595", "percentage": "51.05%", "elapsed_time": "1d 15h 17m 49s", "remaining_time": "1d 13h 40m 59s"}
+{"loss": 0.13540233, "token_acc": 0.93822785, "grad_norm": 1.89524198, "learning_rate": 4.834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2367, "epoch": 2.55278604, "global_step/max_steps": "33490/65595", "percentage": "51.06%", "elapsed_time": "1d 15h 18m 5s", "remaining_time": "1d 13h 40m 33s"}
+{"loss": 0.10297072, "token_acc": 0.96419835, "grad_norm": 0.63055962, "learning_rate": 4.833e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236706, "epoch": 2.55316716, "global_step/max_steps": "33495/65595", "percentage": "51.06%", "elapsed_time": "1d 15h 18m 22s", "remaining_time": "1d 13h 40m 9s"}
+{"loss": 0.08174842, "token_acc": 0.97492265, "grad_norm": 0.82229686, "learning_rate": 4.832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23671, "epoch": 2.55354829, "global_step/max_steps": "33500/65595", "percentage": "51.07%", "elapsed_time": "1d 15h 18m 41s", "remaining_time": "1d 13h 39m 45s"}
+{"loss": 0.09607843, "token_acc": 0.96015936, "grad_norm": 0.7846235, "learning_rate": 4.831e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236713, "epoch": 2.55392942, "global_step/max_steps": "33505/65595", "percentage": "51.08%", "elapsed_time": "1d 15h 19m 0s", "remaining_time": "1d 13h 39m 22s"}
+{"loss": 0.07423697, "token_acc": 0.97169197, "grad_norm": 0.58485496, "learning_rate": 4.829e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236711, "epoch": 2.55431054, "global_step/max_steps": "33510/65595", "percentage": "51.09%", "elapsed_time": "1d 15h 19m 22s", "remaining_time": "1d 13h 39m 2s"}
+{"loss": 0.08522295, "token_acc": 0.96469418, "grad_norm": 1.55870163, "learning_rate": 4.828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236716, "epoch": 2.55469167, "global_step/max_steps": "33515/65595", "percentage": "51.09%", "elapsed_time": "1d 15h 19m 41s", "remaining_time": "1d 13h 38m 39s"}
+{"loss": 0.08336693, "token_acc": 0.96529186, "grad_norm": 1.37488377, "learning_rate": 4.827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236724, "epoch": 2.5550728, "global_step/max_steps": "33520/65595", "percentage": "51.10%", "elapsed_time": "1d 15h 19m 57s", "remaining_time": "1d 13h 38m 13s"}
+{"loss": 0.06760538, "token_acc": 0.9660142, "grad_norm": 0.24044804, "learning_rate": 4.826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23673, "epoch": 2.55545392, "global_step/max_steps": "33525/65595", "percentage": "51.11%", "elapsed_time": "1d 15h 20m 14s", "remaining_time": "1d 13h 37m 48s"}
+{"loss": 0.10059035, "token_acc": 0.95572917, "grad_norm": 0.53870213, "learning_rate": 4.825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236742, "epoch": 2.55583505, "global_step/max_steps": "33530/65595", "percentage": "51.12%", "elapsed_time": "1d 15h 20m 28s", "remaining_time": "1d 13h 37m 20s"}
+{"loss": 0.09949968, "token_acc": 0.95708564, "grad_norm": 0.51703537, "learning_rate": 4.823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236749, "epoch": 2.55621618, "global_step/max_steps": "33535/65595", "percentage": "51.12%", "elapsed_time": "1d 15h 20m 45s", "remaining_time": "1d 13h 36m 55s"}
+{"loss": 0.11209964, "token_acc": 0.95836098, "grad_norm": 0.81901622, "learning_rate": 4.822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236756, "epoch": 2.5565973, "global_step/max_steps": "33540/65595", "percentage": "51.13%", "elapsed_time": "1d 15h 21m 2s", "remaining_time": "1d 13h 36m 30s"}
+{"loss": 0.1341943, "token_acc": 0.95715646, "grad_norm": 0.97164208, "learning_rate": 4.821e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236766, "epoch": 2.55697843, "global_step/max_steps": "33545/65595", "percentage": "51.14%", "elapsed_time": "1d 15h 21m 17s", "remaining_time": "1d 13h 36m 3s"}
+{"loss": 0.05544393, "token_acc": 0.9683586, "grad_norm": 0.528476, "learning_rate": 4.82e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236773, "epoch": 2.55735955, "global_step/max_steps": "33550/65595", "percentage": "51.15%", "elapsed_time": "1d 15h 21m 34s", "remaining_time": "1d 13h 35m 38s"}
+{"loss": 0.08546789, "token_acc": 0.97238659, "grad_norm": 0.61328602, "learning_rate": 4.819e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236774, "epoch": 2.55774068, "global_step/max_steps": "33555/65595", "percentage": "51.15%", "elapsed_time": "1d 15h 21m 55s", "remaining_time": "1d 13h 35m 16s"}
+{"loss": 0.09444112, "token_acc": 0.96472752, "grad_norm": 0.82691246, "learning_rate": 4.817e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236781, "epoch": 2.55812181, "global_step/max_steps": "33560/65595", "percentage": "51.16%", "elapsed_time": "1d 15h 22m 12s", "remaining_time": "1d 13h 34m 51s"}
+{"loss": 0.07265369, "token_acc": 0.96925442, "grad_norm": 0.87291324, "learning_rate": 4.816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236791, "epoch": 2.55850293, "global_step/max_steps": "33565/65595", "percentage": "51.17%", "elapsed_time": "1d 15h 22m 27s", "remaining_time": "1d 13h 34m 24s"}
+{"loss": 0.08108082, "token_acc": 0.96333333, "grad_norm": 1.02622676, "learning_rate": 4.815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2368, "epoch": 2.55888406, "global_step/max_steps": "33570/65595", "percentage": "51.18%", "elapsed_time": "1d 15h 22m 42s", "remaining_time": "1d 13h 33m 58s"}
+{"loss": 0.06907998, "token_acc": 0.96844566, "grad_norm": 0.42910987, "learning_rate": 4.814e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236806, "epoch": 2.55926519, "global_step/max_steps": "33575/65595", "percentage": "51.19%", "elapsed_time": "1d 15h 23m 0s", "remaining_time": "1d 13h 33m 34s"}
+{"loss": 0.06109694, "token_acc": 0.96687371, "grad_norm": 0.85737062, "learning_rate": 4.813e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236815, "epoch": 2.55964631, "global_step/max_steps": "33580/65595", "percentage": "51.19%", "elapsed_time": "1d 15h 23m 16s", "remaining_time": "1d 13h 33m 7s"}
+{"loss": 0.07955033, "token_acc": 0.9675855, "grad_norm": 0.51250994, "learning_rate": 4.811e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236815, "epoch": 2.56002744, "global_step/max_steps": "33585/65595", "percentage": "51.20%", "elapsed_time": "1d 15h 23m 37s", "remaining_time": "1d 13h 32m 46s"}
+{"loss": 0.1299015, "token_acc": 0.94657189, "grad_norm": 1.28169823, "learning_rate": 4.81e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236823, "epoch": 2.56040857, "global_step/max_steps": "33590/65595", "percentage": "51.21%", "elapsed_time": "1d 15h 23m 53s", "remaining_time": "1d 13h 32m 21s"}
+{"loss": 0.13211877, "token_acc": 0.95698925, "grad_norm": 0.7742005, "learning_rate": 4.809e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236828, "epoch": 2.56078969, "global_step/max_steps": "33595/65595", "percentage": "51.22%", "elapsed_time": "1d 15h 24m 11s", "remaining_time": "1d 13h 31m 57s"}
+{"loss": 0.0904374, "token_acc": 0.96687833, "grad_norm": 0.90701938, "learning_rate": 4.808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236833, "epoch": 2.56117082, "global_step/max_steps": "33600/65595", "percentage": "51.22%", "elapsed_time": "1d 15h 24m 29s", "remaining_time": "1d 13h 31m 32s"}
+{"eval_loss": 0.08160206, "eval_token_acc": 0.9646708, "eval_runtime": 217.9084, "eval_samples_per_second": 2.432, "eval_steps_per_second": 2.432, "epoch": 2.56117082, "global_step/max_steps": "33600/65595", "percentage": "51.22%", "elapsed_time": "1d 15h 28m 7s", "remaining_time": "1d 13h 35m 0s"}
+{"loss": 0.06645613, "token_acc": 0.96473969, "grad_norm": 0.81282282, "learning_rate": 4.807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236481, "epoch": 2.56155195, "global_step/max_steps": "33605/65595", "percentage": "51.23%", "elapsed_time": "1d 15h 28m 22s", "remaining_time": "1d 13h 34m 33s"}
+{"loss": 0.08472345, "token_acc": 0.95744681, "grad_norm": 1.17809796, "learning_rate": 4.805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236494, "epoch": 2.56193307, "global_step/max_steps": "33610/65595", "percentage": "51.24%", "elapsed_time": "1d 15h 28m 35s", "remaining_time": "1d 13h 34m 4s"}
+{"loss": 0.07519138, "token_acc": 0.97065969, "grad_norm": 0.88395703, "learning_rate": 4.804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23649, "epoch": 2.5623142, "global_step/max_steps": "33615/65595", "percentage": "51.25%", "elapsed_time": "1d 15h 28m 58s", "remaining_time": "1d 13h 33m 45s"}
+{"loss": 0.12461765, "token_acc": 0.95371857, "grad_norm": 0.9901318, "learning_rate": 4.803e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236499, "epoch": 2.56269533, "global_step/max_steps": "33620/65595", "percentage": "51.25%", "elapsed_time": "1d 15h 29m 14s", "remaining_time": "1d 13h 33m 19s"}
+{"loss": 0.05483273, "token_acc": 0.97674419, "grad_norm": 0.77211732, "learning_rate": 4.802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236506, "epoch": 2.56307645, "global_step/max_steps": "33625/65595", "percentage": "51.26%", "elapsed_time": "1d 15h 29m 31s", "remaining_time": "1d 13h 32m 54s"}
+{"loss": 0.0577921, "token_acc": 0.96982759, "grad_norm": 1.1612103, "learning_rate": 4.801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236514, "epoch": 2.56345758, "global_step/max_steps": "33630/65595", "percentage": "51.27%", "elapsed_time": "1d 15h 29m 48s", "remaining_time": "1d 13h 32m 28s"}
+{"loss": 0.07993064, "token_acc": 0.97074138, "grad_norm": 0.57581311, "learning_rate": 4.799e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236523, "epoch": 2.56383871, "global_step/max_steps": "33635/65595", "percentage": "51.28%", "elapsed_time": "1d 15h 30m 3s", "remaining_time": "1d 13h 32m 2s"}
+{"loss": 0.11013473, "token_acc": 0.95036129, "grad_norm": 1.2821312, "learning_rate": 4.798e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236533, "epoch": 2.56421983, "global_step/max_steps": "33640/65595", "percentage": "51.28%", "elapsed_time": "1d 15h 30m 18s", "remaining_time": "1d 13h 31m 35s"}
+{"loss": 0.07046457, "token_acc": 0.9645153, "grad_norm": 0.6820308, "learning_rate": 4.797e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236541, "epoch": 2.56460096, "global_step/max_steps": "33645/65595", "percentage": "51.29%", "elapsed_time": "1d 15h 30m 35s", "remaining_time": "1d 13h 31m 9s"}
+{"loss": 0.05885962, "token_acc": 0.97780892, "grad_norm": 0.78193909, "learning_rate": 4.796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236541, "epoch": 2.56498209, "global_step/max_steps": "33650/65595", "percentage": "51.30%", "elapsed_time": "1d 15h 30m 56s", "remaining_time": "1d 13h 30m 48s"}
+{"loss": 0.13609805, "token_acc": 0.95674431, "grad_norm": 1.3476795, "learning_rate": 4.795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236549, "epoch": 2.56536321, "global_step/max_steps": "33655/65595", "percentage": "51.31%", "elapsed_time": "1d 15h 31m 12s", "remaining_time": "1d 13h 30m 22s"}
+{"loss": 0.09744579, "token_acc": 0.96272494, "grad_norm": 0.79693037, "learning_rate": 4.794e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236557, "epoch": 2.56574434, "global_step/max_steps": "33660/65595", "percentage": "51.31%", "elapsed_time": "1d 15h 31m 28s", "remaining_time": "1d 13h 29m 56s"}
+{"loss": 0.07500632, "token_acc": 0.96964928, "grad_norm": 1.25931728, "learning_rate": 4.792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236566, "epoch": 2.56612547, "global_step/max_steps": "33665/65595", "percentage": "51.32%", "elapsed_time": "1d 15h 31m 45s", "remaining_time": "1d 13h 29m 31s"}
+{"loss": 0.09069486, "token_acc": 0.96065259, "grad_norm": 0.94308013, "learning_rate": 4.791e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236575, "epoch": 2.56650659, "global_step/max_steps": "33670/65595", "percentage": "51.33%", "elapsed_time": "1d 15h 32m 0s", "remaining_time": "1d 13h 29m 4s"}
+{"loss": 0.06472163, "token_acc": 0.97315343, "grad_norm": 0.54064554, "learning_rate": 4.79e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236576, "epoch": 2.56688772, "global_step/max_steps": "33675/65595", "percentage": "51.34%", "elapsed_time": "1d 15h 32m 20s", "remaining_time": "1d 13h 28m 42s"}
+{"loss": 0.11939507, "token_acc": 0.96077516, "grad_norm": 1.24734378, "learning_rate": 4.789e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236585, "epoch": 2.56726885, "global_step/max_steps": "33680/65595", "percentage": "51.35%", "elapsed_time": "1d 15h 32m 36s", "remaining_time": "1d 13h 28m 16s"}
+{"loss": 0.05691378, "token_acc": 0.9744814, "grad_norm": 0.69512761, "learning_rate": 4.788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236591, "epoch": 2.56764997, "global_step/max_steps": "33685/65595", "percentage": "51.35%", "elapsed_time": "1d 15h 32m 53s", "remaining_time": "1d 13h 27m 51s"}
+{"loss": 0.10239282, "token_acc": 0.96097456, "grad_norm": 0.90691972, "learning_rate": 4.786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236599, "epoch": 2.5680311, "global_step/max_steps": "33690/65595", "percentage": "51.36%", "elapsed_time": "1d 15h 33m 10s", "remaining_time": "1d 13h 27m 26s"}
+{"loss": 0.0792618, "token_acc": 0.96493441, "grad_norm": 0.73064977, "learning_rate": 4.785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236608, "epoch": 2.56841223, "global_step/max_steps": "33695/65595", "percentage": "51.37%", "elapsed_time": "1d 15h 33m 26s", "remaining_time": "1d 13h 26m 59s"}
+{"loss": 0.09403859, "token_acc": 0.96646465, "grad_norm": 0.75462341, "learning_rate": 4.784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236619, "epoch": 2.56879335, "global_step/max_steps": "33700/65595", "percentage": "51.38%", "elapsed_time": "1d 15h 33m 40s", "remaining_time": "1d 13h 26m 32s"}
+{"loss": 0.07798645, "token_acc": 0.96614951, "grad_norm": 0.53003657, "learning_rate": 4.783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236628, "epoch": 2.56917448, "global_step/max_steps": "33705/65595", "percentage": "51.38%", "elapsed_time": "1d 15h 33m 56s", "remaining_time": "1d 13h 26m 6s"}
+{"loss": 0.1019017, "token_acc": 0.97430519, "grad_norm": 0.8069492, "learning_rate": 4.782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236635, "epoch": 2.56955561, "global_step/max_steps": "33710/65595", "percentage": "51.39%", "elapsed_time": "1d 15h 34m 13s", "remaining_time": "1d 13h 25m 41s"}
+{"loss": 0.0774811, "token_acc": 0.9690022, "grad_norm": 0.81625855, "learning_rate": 4.78e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236642, "epoch": 2.56993673, "global_step/max_steps": "33715/65595", "percentage": "51.40%", "elapsed_time": "1d 15h 34m 30s", "remaining_time": "1d 13h 25m 16s"}
+{"loss": 0.11620439, "token_acc": 0.96131841, "grad_norm": 0.40988007, "learning_rate": 4.779e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236646, "epoch": 2.57031786, "global_step/max_steps": "33720/65595", "percentage": "51.41%", "elapsed_time": "1d 15h 34m 48s", "remaining_time": "1d 13h 24m 52s"}
+{"loss": 0.09769706, "token_acc": 0.9570538, "grad_norm": 1.59752584, "learning_rate": 4.778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236654, "epoch": 2.57069899, "global_step/max_steps": "33725/65595", "percentage": "51.41%", "elapsed_time": "1d 15h 35m 5s", "remaining_time": "1d 13h 24m 27s"}
+{"loss": 0.10105083, "token_acc": 0.95818476, "grad_norm": 0.73432291, "learning_rate": 4.777e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236659, "epoch": 2.57108011, "global_step/max_steps": "33730/65595", "percentage": "51.42%", "elapsed_time": "1d 15h 35m 23s", "remaining_time": "1d 13h 24m 3s"}
+{"loss": 0.06251506, "token_acc": 0.96197961, "grad_norm": 1.28695619, "learning_rate": 4.776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236667, "epoch": 2.57146124, "global_step/max_steps": "33735/65595", "percentage": "51.43%", "elapsed_time": "1d 15h 35m 39s", "remaining_time": "1d 13h 23m 37s"}
+{"loss": 0.09963161, "token_acc": 0.95113544, "grad_norm": 0.97301227, "learning_rate": 4.774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236674, "epoch": 2.57184237, "global_step/max_steps": "33740/65595", "percentage": "51.44%", "elapsed_time": "1d 15h 35m 56s", "remaining_time": "1d 13h 23m 12s"}
+{"loss": 0.06243879, "token_acc": 0.97063903, "grad_norm": 1.03874397, "learning_rate": 4.773e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236684, "epoch": 2.57222349, "global_step/max_steps": "33745/65595", "percentage": "51.44%", "elapsed_time": "1d 15h 36m 11s", "remaining_time": "1d 13h 22m 45s"}
+{"loss": 0.09206275, "token_acc": 0.9646833, "grad_norm": 0.6113041, "learning_rate": 4.772e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236689, "epoch": 2.57260462, "global_step/max_steps": "33750/65595", "percentage": "51.45%", "elapsed_time": "1d 15h 36m 29s", "remaining_time": "1d 13h 22m 21s"}
+{"loss": 0.05328339, "token_acc": 0.97936285, "grad_norm": 0.69808829, "learning_rate": 4.771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236694, "epoch": 2.57298575, "global_step/max_steps": "33755/65595", "percentage": "51.46%", "elapsed_time": "1d 15h 36m 47s", "remaining_time": "1d 13h 21m 57s"}
+{"loss": 0.04082399, "token_acc": 0.97965934, "grad_norm": 0.4991321, "learning_rate": 4.77e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2367, "epoch": 2.57336687, "global_step/max_steps": "33760/65595", "percentage": "51.47%", "elapsed_time": "1d 15h 37m 5s", "remaining_time": "1d 13h 21m 33s"}
+{"loss": 0.12803637, "token_acc": 0.95859601, "grad_norm": 2.70991111, "learning_rate": 4.768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236705, "epoch": 2.573748, "global_step/max_steps": "33765/65595", "percentage": "51.47%", "elapsed_time": "1d 15h 37m 23s", "remaining_time": "1d 13h 21m 8s"}
+{"loss": 0.06688524, "token_acc": 0.97103064, "grad_norm": 0.99667174, "learning_rate": 4.767e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236714, "epoch": 2.57412913, "global_step/max_steps": "33770/65595", "percentage": "51.48%", "elapsed_time": "1d 15h 37m 39s", "remaining_time": "1d 13h 20m 43s"}
+{"loss": 0.09164313, "token_acc": 0.95731528, "grad_norm": 1.34690464, "learning_rate": 4.766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236719, "epoch": 2.57451025, "global_step/max_steps": "33775/65595", "percentage": "51.49%", "elapsed_time": "1d 15h 37m 57s", "remaining_time": "1d 13h 20m 18s"}
+{"loss": 0.11195326, "token_acc": 0.9561753, "grad_norm": 1.58294666, "learning_rate": 4.765e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236726, "epoch": 2.57489138, "global_step/max_steps": "33780/65595", "percentage": "51.50%", "elapsed_time": "1d 15h 38m 14s", "remaining_time": "1d 13h 19m 53s"}
+{"loss": 0.06549522, "token_acc": 0.97166842, "grad_norm": 1.00649416, "learning_rate": 4.764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236732, "epoch": 2.57527251, "global_step/max_steps": "33785/65595", "percentage": "51.51%", "elapsed_time": "1d 15h 38m 31s", "remaining_time": "1d 13h 19m 29s"}
+{"loss": 0.07857673, "token_acc": 0.96984465, "grad_norm": 0.78494769, "learning_rate": 4.762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23674, "epoch": 2.57565363, "global_step/max_steps": "33790/65595", "percentage": "51.51%", "elapsed_time": "1d 15h 38m 47s", "remaining_time": "1d 13h 19m 3s"}
+{"loss": 0.12490011, "token_acc": 0.94564789, "grad_norm": 1.60363185, "learning_rate": 4.761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236747, "epoch": 2.57603476, "global_step/max_steps": "33795/65595", "percentage": "51.52%", "elapsed_time": "1d 15h 39m 5s", "remaining_time": "1d 13h 18m 38s"}
+{"loss": 0.08458158, "token_acc": 0.9757953, "grad_norm": 0.82797146, "learning_rate": 4.76e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236753, "epoch": 2.57641589, "global_step/max_steps": "33800/65595", "percentage": "51.53%", "elapsed_time": "1d 15h 39m 22s", "remaining_time": "1d 13h 18m 14s"}
+{"eval_loss": 0.08176679, "eval_token_acc": 0.96460304, "eval_runtime": 215.3403, "eval_samples_per_second": 2.461, "eval_steps_per_second": 2.461, "epoch": 2.57641589, "global_step/max_steps": "33800/65595", "percentage": "51.53%", "elapsed_time": "1d 15h 42m 58s", "remaining_time": "1d 13h 21m 36s"}
+{"loss": 0.1219836, "token_acc": 0.96414745, "grad_norm": 0.93005317, "learning_rate": 4.759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236403, "epoch": 2.57679701, "global_step/max_steps": "33805/65595", "percentage": "51.54%", "elapsed_time": "1d 15h 43m 15s", "remaining_time": "1d 13h 21m 11s"}
+{"loss": 0.0942069, "token_acc": 0.96871301, "grad_norm": 0.6465109, "learning_rate": 4.758e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236408, "epoch": 2.57717814, "global_step/max_steps": "33810/65595", "percentage": "51.54%", "elapsed_time": "1d 15h 43m 33s", "remaining_time": "1d 13h 20m 47s"}
+{"loss": 0.09182687, "token_acc": 0.9671466, "grad_norm": 0.63646472, "learning_rate": 4.756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236413, "epoch": 2.57755927, "global_step/max_steps": "33815/65595", "percentage": "51.55%", "elapsed_time": "1d 15h 43m 51s", "remaining_time": "1d 13h 20m 23s"}
+{"loss": 0.06027455, "token_acc": 0.97493518, "grad_norm": 0.73648262, "learning_rate": 4.755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236425, "epoch": 2.57794039, "global_step/max_steps": "33820/65595", "percentage": "51.56%", "elapsed_time": "1d 15h 44m 5s", "remaining_time": "1d 13h 19m 55s"}
+{"loss": 0.09123447, "token_acc": 0.97064846, "grad_norm": 1.37093723, "learning_rate": 4.754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236432, "epoch": 2.57832152, "global_step/max_steps": "33825/65595", "percentage": "51.57%", "elapsed_time": "1d 15h 44m 21s", "remaining_time": "1d 13h 19m 30s"}
+{"loss": 0.09112793, "token_acc": 0.96671219, "grad_norm": 1.14868617, "learning_rate": 4.753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236439, "epoch": 2.57870265, "global_step/max_steps": "33830/65595", "percentage": "51.57%", "elapsed_time": "1d 15h 44m 38s", "remaining_time": "1d 13h 19m 5s"}
+{"loss": 0.07172579, "token_acc": 0.97345867, "grad_norm": 1.07310247, "learning_rate": 4.752e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236442, "epoch": 2.57908377, "global_step/max_steps": "33835/65595", "percentage": "51.58%", "elapsed_time": "1d 15h 44m 58s", "remaining_time": "1d 13h 18m 42s"}
+{"loss": 0.08957872, "token_acc": 0.96980545, "grad_norm": 0.61226404, "learning_rate": 4.75e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236446, "epoch": 2.5794649, "global_step/max_steps": "33840/65595", "percentage": "51.59%", "elapsed_time": "1d 15h 45m 17s", "remaining_time": "1d 13h 18m 19s"}
+{"loss": 0.10790429, "token_acc": 0.95800525, "grad_norm": 1.68253314, "learning_rate": 4.749e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236455, "epoch": 2.57984602, "global_step/max_steps": "33845/65595", "percentage": "51.60%", "elapsed_time": "1d 15h 45m 32s", "remaining_time": "1d 13h 17m 53s"}
+{"loss": 0.09846561, "token_acc": 0.95650103, "grad_norm": 0.98993129, "learning_rate": 4.748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23646, "epoch": 2.58022715, "global_step/max_steps": "33850/65595", "percentage": "51.60%", "elapsed_time": "1d 15h 45m 50s", "remaining_time": "1d 13h 17m 28s"}
+{"loss": 0.07196463, "token_acc": 0.9754135, "grad_norm": 0.39490524, "learning_rate": 4.747e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236464, "epoch": 2.58060828, "global_step/max_steps": "33855/65595", "percentage": "51.61%", "elapsed_time": "1d 15h 46m 9s", "remaining_time": "1d 13h 17m 5s"}
+{"loss": 0.08135765, "token_acc": 0.967979, "grad_norm": 0.68940461, "learning_rate": 4.746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23647, "epoch": 2.5809894, "global_step/max_steps": "33860/65595", "percentage": "51.62%", "elapsed_time": "1d 15h 46m 27s", "remaining_time": "1d 13h 16m 41s"}
+{"loss": 0.07030568, "token_acc": 0.96948974, "grad_norm": 1.21907151, "learning_rate": 4.744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236482, "epoch": 2.58137053, "global_step/max_steps": "33865/65595", "percentage": "51.63%", "elapsed_time": "1d 15h 46m 41s", "remaining_time": "1d 13h 16m 13s"}
+{"loss": 0.07832826, "token_acc": 0.96306458, "grad_norm": 0.77776068, "learning_rate": 4.743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236491, "epoch": 2.58175166, "global_step/max_steps": "33870/65595", "percentage": "51.64%", "elapsed_time": "1d 15h 46m 56s", "remaining_time": "1d 13h 15m 46s"}
+{"loss": 0.06766527, "token_acc": 0.97350585, "grad_norm": 0.73594892, "learning_rate": 4.742e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236486, "epoch": 2.58213278, "global_step/max_steps": "33875/65595", "percentage": "51.64%", "elapsed_time": "1d 15h 47m 21s", "remaining_time": "1d 13h 15m 28s"}
+{"loss": 0.08984157, "token_acc": 0.96461265, "grad_norm": 0.63108975, "learning_rate": 4.741e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236488, "epoch": 2.58251391, "global_step/max_steps": "33880/65595", "percentage": "51.65%", "elapsed_time": "1d 15h 47m 40s", "remaining_time": "1d 13h 15m 5s"}
+{"loss": 0.07887615, "token_acc": 0.95578383, "grad_norm": 1.29862726, "learning_rate": 4.74e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2365, "epoch": 2.58289504, "global_step/max_steps": "33885/65595", "percentage": "51.66%", "elapsed_time": "1d 15h 47m 54s", "remaining_time": "1d 13h 14m 38s"}
+{"loss": 0.05766052, "token_acc": 0.97771124, "grad_norm": 0.65542787, "learning_rate": 4.738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236505, "epoch": 2.58327616, "global_step/max_steps": "33890/65595", "percentage": "51.67%", "elapsed_time": "1d 15h 48m 13s", "remaining_time": "1d 13h 14m 14s"}
+{"loss": 0.06853293, "token_acc": 0.97326351, "grad_norm": 0.07144087, "learning_rate": 4.737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236514, "epoch": 2.58365729, "global_step/max_steps": "33895/65595", "percentage": "51.67%", "elapsed_time": "1d 15h 48m 28s", "remaining_time": "1d 13h 13m 47s"}
+{"loss": 0.09994435, "token_acc": 0.9604876, "grad_norm": 0.79461163, "learning_rate": 4.736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23652, "epoch": 2.58403842, "global_step/max_steps": "33900/65595", "percentage": "51.68%", "elapsed_time": "1d 15h 48m 45s", "remaining_time": "1d 13h 13m 23s"}
+{"loss": 0.06891891, "token_acc": 0.97283951, "grad_norm": 0.95831913, "learning_rate": 4.735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236533, "epoch": 2.58441954, "global_step/max_steps": "33905/65595", "percentage": "51.69%", "elapsed_time": "1d 15h 48m 59s", "remaining_time": "1d 13h 12m 55s"}
+{"loss": 0.07472638, "token_acc": 0.96445197, "grad_norm": 1.03444564, "learning_rate": 4.734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236544, "epoch": 2.58480067, "global_step/max_steps": "33910/65595", "percentage": "51.70%", "elapsed_time": "1d 15h 49m 13s", "remaining_time": "1d 13h 12m 27s"}
+{"loss": 0.07923012, "token_acc": 0.96156745, "grad_norm": 0.70929444, "learning_rate": 4.733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236549, "epoch": 2.5851818, "global_step/max_steps": "33915/65595", "percentage": "51.70%", "elapsed_time": "1d 15h 49m 31s", "remaining_time": "1d 13h 12m 3s"}
+{"loss": 0.13182957, "token_acc": 0.96176676, "grad_norm": 0.90794611, "learning_rate": 4.731e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236556, "epoch": 2.58556292, "global_step/max_steps": "33920/65595", "percentage": "51.71%", "elapsed_time": "1d 15h 49m 48s", "remaining_time": "1d 13h 11m 38s"}
+{"loss": 0.12849587, "token_acc": 0.96366782, "grad_norm": 0.67139459, "learning_rate": 4.73e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236562, "epoch": 2.58594405, "global_step/max_steps": "33925/65595", "percentage": "51.72%", "elapsed_time": "1d 15h 50m 6s", "remaining_time": "1d 13h 11m 13s"}
+{"loss": 0.08038286, "token_acc": 0.97195347, "grad_norm": 1.37727475, "learning_rate": 4.729e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236565, "epoch": 2.58632518, "global_step/max_steps": "33930/65595", "percentage": "51.73%", "elapsed_time": "1d 15h 50m 25s", "remaining_time": "1d 13h 10m 51s"}
+{"loss": 0.07744969, "token_acc": 0.96868156, "grad_norm": 0.76799566, "learning_rate": 4.728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236573, "epoch": 2.5867063, "global_step/max_steps": "33935/65595", "percentage": "51.73%", "elapsed_time": "1d 15h 50m 42s", "remaining_time": "1d 13h 10m 25s"}
+{"loss": 0.09478347, "token_acc": 0.95864496, "grad_norm": 1.33490908, "learning_rate": 4.727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236581, "epoch": 2.58708743, "global_step/max_steps": "33940/65595", "percentage": "51.74%", "elapsed_time": "1d 15h 50m 57s", "remaining_time": "1d 13h 9m 59s"}
+{"loss": 0.07638683, "token_acc": 0.97001499, "grad_norm": 1.48366225, "learning_rate": 4.725e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23659, "epoch": 2.58746856, "global_step/max_steps": "33945/65595", "percentage": "51.75%", "elapsed_time": "1d 15h 51m 13s", "remaining_time": "1d 13h 9m 33s"}
+{"loss": 0.10199128, "token_acc": 0.95828725, "grad_norm": 1.76230609, "learning_rate": 4.724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236597, "epoch": 2.58784968, "global_step/max_steps": "33950/65595", "percentage": "51.76%", "elapsed_time": "1d 15h 51m 30s", "remaining_time": "1d 13h 9m 8s"}
+{"loss": 0.08000107, "token_acc": 0.96718622, "grad_norm": 0.793437, "learning_rate": 4.723e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2366, "epoch": 2.58823081, "global_step/max_steps": "33955/65595", "percentage": "51.76%", "elapsed_time": "1d 15h 51m 49s", "remaining_time": "1d 13h 8m 45s"}
+{"loss": 0.09526806, "token_acc": 0.96590761, "grad_norm": 0.8853175, "learning_rate": 4.722e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236604, "epoch": 2.58861194, "global_step/max_steps": "33960/65595", "percentage": "51.77%", "elapsed_time": "1d 15h 52m 8s", "remaining_time": "1d 13h 8m 22s"}
+{"loss": 0.08847002, "token_acc": 0.96047084, "grad_norm": 1.6705792, "learning_rate": 4.721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236612, "epoch": 2.58899306, "global_step/max_steps": "33965/65595", "percentage": "51.78%", "elapsed_time": "1d 15h 52m 25s", "remaining_time": "1d 13h 7m 56s"}
+{"loss": 0.07580371, "token_acc": 0.96373057, "grad_norm": 1.00708675, "learning_rate": 4.719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23662, "epoch": 2.58937419, "global_step/max_steps": "33970/65595", "percentage": "51.79%", "elapsed_time": "1d 15h 52m 41s", "remaining_time": "1d 13h 7m 30s"}
+{"loss": 0.085966, "token_acc": 0.96575342, "grad_norm": 1.00764692, "learning_rate": 4.718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236629, "epoch": 2.58975532, "global_step/max_steps": "33975/65595", "percentage": "51.80%", "elapsed_time": "1d 15h 52m 56s", "remaining_time": "1d 13h 7m 4s"}
+{"loss": 0.10353719, "token_acc": 0.96242306, "grad_norm": 1.1688298, "learning_rate": 4.717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236638, "epoch": 2.59013644, "global_step/max_steps": "33980/65595", "percentage": "51.80%", "elapsed_time": "1d 15h 53m 12s", "remaining_time": "1d 13h 6m 38s"}
+{"loss": 0.08620397, "token_acc": 0.96788469, "grad_norm": 0.56018972, "learning_rate": 4.716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236641, "epoch": 2.59051757, "global_step/max_steps": "33985/65595", "percentage": "51.81%", "elapsed_time": "1d 15h 53m 32s", "remaining_time": "1d 13h 6m 16s"}
+{"loss": 0.13624244, "token_acc": 0.94865432, "grad_norm": 0.80041379, "learning_rate": 4.715e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236645, "epoch": 2.5908987, "global_step/max_steps": "33990/65595", "percentage": "51.82%", "elapsed_time": "1d 15h 53m 50s", "remaining_time": "1d 13h 5m 52s"}
+{"loss": 0.09784333, "token_acc": 0.96588842, "grad_norm": 0.7461468, "learning_rate": 4.713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236649, "epoch": 2.59127982, "global_step/max_steps": "33995/65595", "percentage": "51.83%", "elapsed_time": "1d 15h 54m 9s", "remaining_time": "1d 13h 5m 29s"}
+{"loss": 0.08269662, "token_acc": 0.96460715, "grad_norm": 0.62941974, "learning_rate": 4.712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236651, "epoch": 2.59166095, "global_step/max_steps": "34000/65595", "percentage": "51.83%", "elapsed_time": "1d 15h 54m 29s", "remaining_time": "1d 13h 5m 6s"}
+{"eval_loss": 0.07932725, "eval_token_acc": 0.9654313, "eval_runtime": 216.8181, "eval_samples_per_second": 2.444, "eval_steps_per_second": 2.444, "epoch": 2.59166095, "global_step/max_steps": "34000/65595", "percentage": "51.83%", "elapsed_time": "1d 15h 58m 5s", "remaining_time": "1d 13h 8m 28s"}
+{"loss": 0.09640024, "token_acc": 0.96547496, "grad_norm": 0.72122484, "learning_rate": 4.711e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236303, "epoch": 2.59204208, "global_step/max_steps": "34005/65595", "percentage": "51.84%", "elapsed_time": "1d 15h 58m 22s", "remaining_time": "1d 13h 8m 2s"}
+{"loss": 0.06655013, "token_acc": 0.96383399, "grad_norm": 0.82893395, "learning_rate": 4.71e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236308, "epoch": 2.5924232, "global_step/max_steps": "34010/65595", "percentage": "51.85%", "elapsed_time": "1d 15h 58m 40s", "remaining_time": "1d 13h 7m 38s"}
+{"loss": 0.09038562, "token_acc": 0.97005208, "grad_norm": 0.77207512, "learning_rate": 4.709e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236312, "epoch": 2.59280433, "global_step/max_steps": "34015/65595", "percentage": "51.86%", "elapsed_time": "1d 15h 58m 58s", "remaining_time": "1d 13h 7m 14s"}
+{"loss": 0.09396908, "token_acc": 0.96422101, "grad_norm": 0.95832109, "learning_rate": 4.707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236318, "epoch": 2.59318546, "global_step/max_steps": "34020/65595", "percentage": "51.86%", "elapsed_time": "1d 15h 59m 16s", "remaining_time": "1d 13h 6m 50s"}
+{"loss": 0.07941424, "token_acc": 0.96477323, "grad_norm": 0.88892794, "learning_rate": 4.706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236325, "epoch": 2.59356658, "global_step/max_steps": "34025/65595", "percentage": "51.87%", "elapsed_time": "1d 15h 59m 33s", "remaining_time": "1d 13h 6m 25s"}
+{"loss": 0.09041731, "token_acc": 0.96698944, "grad_norm": 1.22363019, "learning_rate": 4.705e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236331, "epoch": 2.59394771, "global_step/max_steps": "34030/65595", "percentage": "51.88%", "elapsed_time": "1d 15h 59m 50s", "remaining_time": "1d 13h 6m 0s"}
+{"loss": 0.12461872, "token_acc": 0.96147621, "grad_norm": 0.60974562, "learning_rate": 4.704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23634, "epoch": 2.59432884, "global_step/max_steps": "34035/65595", "percentage": "51.89%", "elapsed_time": "1d 16h 0m 6s", "remaining_time": "1d 13h 5m 34s"}
+{"loss": 0.06718681, "token_acc": 0.96816866, "grad_norm": 0.73890662, "learning_rate": 4.703e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236344, "epoch": 2.59470996, "global_step/max_steps": "34040/65595", "percentage": "51.89%", "elapsed_time": "1d 16h 0m 25s", "remaining_time": "1d 13h 5m 11s"}
+{"loss": 0.08666484, "token_acc": 0.97563727, "grad_norm": 1.73166239, "learning_rate": 4.701e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23635, "epoch": 2.59509109, "global_step/max_steps": "34045/65595", "percentage": "51.90%", "elapsed_time": "1d 16h 0m 42s", "remaining_time": "1d 13h 4m 46s"}
+{"loss": 0.07897838, "token_acc": 0.96437346, "grad_norm": 0.5735783, "learning_rate": 4.7e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236353, "epoch": 2.59547222, "global_step/max_steps": "34050/65595", "percentage": "51.91%", "elapsed_time": "1d 16h 1m 2s", "remaining_time": "1d 13h 4m 23s"}
+{"loss": 0.12437084, "token_acc": 0.94780876, "grad_norm": 0.75938016, "learning_rate": 4.699e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236364, "epoch": 2.59585334, "global_step/max_steps": "34055/65595", "percentage": "51.92%", "elapsed_time": "1d 16h 1m 16s", "remaining_time": "1d 13h 3m 56s"}
+{"loss": 0.10753763, "token_acc": 0.95558982, "grad_norm": 1.08090949, "learning_rate": 4.698e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236368, "epoch": 2.59623447, "global_step/max_steps": "34060/65595", "percentage": "51.92%", "elapsed_time": "1d 16h 1m 35s", "remaining_time": "1d 13h 3m 32s"}
+{"loss": 0.07121688, "token_acc": 0.9752042, "grad_norm": 1.04187715, "learning_rate": 4.697e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236378, "epoch": 2.5966156, "global_step/max_steps": "34065/65595", "percentage": "51.93%", "elapsed_time": "1d 16h 1m 49s", "remaining_time": "1d 13h 3m 5s"}
+{"loss": 0.09296026, "token_acc": 0.96158346, "grad_norm": 0.85827953, "learning_rate": 4.695e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236386, "epoch": 2.59699672, "global_step/max_steps": "34070/65595", "percentage": "51.94%", "elapsed_time": "1d 16h 2m 6s", "remaining_time": "1d 13h 2m 40s"}
+{"loss": 0.10904846, "token_acc": 0.96104139, "grad_norm": 0.91829133, "learning_rate": 4.694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236392, "epoch": 2.59737785, "global_step/max_steps": "34075/65595", "percentage": "51.95%", "elapsed_time": "1d 16h 2m 23s", "remaining_time": "1d 13h 2m 15s"}
+{"loss": 0.09550971, "token_acc": 0.96707819, "grad_norm": 0.55155176, "learning_rate": 4.693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2364, "epoch": 2.59775898, "global_step/max_steps": "34080/65595", "percentage": "51.96%", "elapsed_time": "1d 16h 2m 40s", "remaining_time": "1d 13h 1m 50s"}
+{"loss": 0.06814967, "token_acc": 0.97374406, "grad_norm": 0.98245239, "learning_rate": 4.692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236408, "epoch": 2.5981401, "global_step/max_steps": "34085/65595", "percentage": "51.96%", "elapsed_time": "1d 16h 2m 56s", "remaining_time": "1d 13h 1m 24s"}
+{"loss": 0.09271829, "token_acc": 0.96768255, "grad_norm": 1.28406394, "learning_rate": 4.691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236413, "epoch": 2.59852123, "global_step/max_steps": "34090/65595", "percentage": "51.97%", "elapsed_time": "1d 16h 3m 14s", "remaining_time": "1d 13h 1m 0s"}
+{"loss": 0.06382676, "token_acc": 0.97408858, "grad_norm": 1.06457865, "learning_rate": 4.689e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236424, "epoch": 2.59890236, "global_step/max_steps": "34095/65595", "percentage": "51.98%", "elapsed_time": "1d 16h 3m 29s", "remaining_time": "1d 13h 0m 33s"}
+{"loss": 0.07332289, "token_acc": 0.96971609, "grad_norm": 1.11268139, "learning_rate": 4.688e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236436, "epoch": 2.59928348, "global_step/max_steps": "34100/65595", "percentage": "51.99%", "elapsed_time": "1d 16h 3m 42s", "remaining_time": "1d 13h 0m 5s"}
+{"loss": 0.084127, "token_acc": 0.97099722, "grad_norm": 2.07754397, "learning_rate": 4.687e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236448, "epoch": 2.59966461, "global_step/max_steps": "34105/65595", "percentage": "51.99%", "elapsed_time": "1d 16h 3m 56s", "remaining_time": "1d 12h 59m 37s"}
+{"loss": 0.0499135, "token_acc": 0.97764768, "grad_norm": 0.62188554, "learning_rate": 4.686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236454, "epoch": 2.60004574, "global_step/max_steps": "34110/65595", "percentage": "52.00%", "elapsed_time": "1d 16h 4m 14s", "remaining_time": "1d 12h 59m 12s"}
+{"loss": 0.10951352, "token_acc": 0.96259776, "grad_norm": 1.28393412, "learning_rate": 4.685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236461, "epoch": 2.60042686, "global_step/max_steps": "34115/65595", "percentage": "52.01%", "elapsed_time": "1d 16h 4m 30s", "remaining_time": "1d 12h 58m 47s"}
+{"loss": 0.10197028, "token_acc": 0.95889289, "grad_norm": 1.19180441, "learning_rate": 4.684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236469, "epoch": 2.60080799, "global_step/max_steps": "34120/65595", "percentage": "52.02%", "elapsed_time": "1d 16h 4m 47s", "remaining_time": "1d 12h 58m 22s"}
+{"loss": 0.04918127, "token_acc": 0.97329108, "grad_norm": 0.54296851, "learning_rate": 4.682e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236479, "epoch": 2.60118912, "global_step/max_steps": "34125/65595", "percentage": "52.02%", "elapsed_time": "1d 16h 5m 2s", "remaining_time": "1d 12h 57m 55s"}
+{"loss": 0.06147399, "token_acc": 0.97139661, "grad_norm": 0.63978475, "learning_rate": 4.681e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236482, "epoch": 2.60157024, "global_step/max_steps": "34130/65595", "percentage": "52.03%", "elapsed_time": "1d 16h 5m 21s", "remaining_time": "1d 12h 57m 32s"}
+{"loss": 0.05558931, "token_acc": 0.96983831, "grad_norm": 1.10735393, "learning_rate": 4.68e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23649, "epoch": 2.60195137, "global_step/max_steps": "34135/65595", "percentage": "52.04%", "elapsed_time": "1d 16h 5m 37s", "remaining_time": "1d 12h 57m 6s"}
+{"loss": 0.14241529, "token_acc": 0.93817989, "grad_norm": 1.11727035, "learning_rate": 4.679e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236499, "epoch": 2.60233249, "global_step/max_steps": "34140/65595", "percentage": "52.05%", "elapsed_time": "1d 16h 5m 53s", "remaining_time": "1d 12h 56m 40s"}
+{"loss": 0.07070748, "token_acc": 0.96896444, "grad_norm": 0.47990391, "learning_rate": 4.678e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236503, "epoch": 2.60271362, "global_step/max_steps": "34145/65595", "percentage": "52.05%", "elapsed_time": "1d 16h 6m 12s", "remaining_time": "1d 12h 56m 17s"}
+{"loss": 0.11165711, "token_acc": 0.95788637, "grad_norm": 1.05287671, "learning_rate": 4.676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236514, "epoch": 2.60309475, "global_step/max_steps": "34150/65595", "percentage": "52.06%", "elapsed_time": "1d 16h 6m 26s", "remaining_time": "1d 12h 55m 50s"}
+{"loss": 0.05879242, "token_acc": 0.97467406, "grad_norm": 0.91840744, "learning_rate": 4.675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236518, "epoch": 2.60347587, "global_step/max_steps": "34155/65595", "percentage": "52.07%", "elapsed_time": "1d 16h 6m 45s", "remaining_time": "1d 12h 55m 26s"}
+{"loss": 0.08034754, "token_acc": 0.96481903, "grad_norm": 1.01389551, "learning_rate": 4.674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236527, "epoch": 2.603857, "global_step/max_steps": "34160/65595", "percentage": "52.08%", "elapsed_time": "1d 16h 7m 1s", "remaining_time": "1d 12h 55m 0s"}
+{"loss": 0.11882694, "token_acc": 0.9565394, "grad_norm": 0.94258237, "learning_rate": 4.673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236535, "epoch": 2.60423813, "global_step/max_steps": "34165/65595", "percentage": "52.08%", "elapsed_time": "1d 16h 7m 17s", "remaining_time": "1d 12h 54m 34s"}
+{"loss": 0.07874206, "token_acc": 0.96714758, "grad_norm": 0.83574808, "learning_rate": 4.672e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23654, "epoch": 2.60461925, "global_step/max_steps": "34170/65595", "percentage": "52.09%", "elapsed_time": "1d 16h 7m 35s", "remaining_time": "1d 12h 54m 10s"}
+{"loss": 0.07974747, "token_acc": 0.96848823, "grad_norm": 0.43179902, "learning_rate": 4.67e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236549, "epoch": 2.60500038, "global_step/max_steps": "34175/65595", "percentage": "52.10%", "elapsed_time": "1d 16h 7m 51s", "remaining_time": "1d 12h 53m 44s"}
+{"loss": 0.0870517, "token_acc": 0.96927248, "grad_norm": 1.01127267, "learning_rate": 4.669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236552, "epoch": 2.60538151, "global_step/max_steps": "34180/65595", "percentage": "52.11%", "elapsed_time": "1d 16h 8m 10s", "remaining_time": "1d 12h 53m 21s"}
+{"loss": 0.07391496, "token_acc": 0.9688716, "grad_norm": 0.88484281, "learning_rate": 4.668e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236561, "epoch": 2.60576263, "global_step/max_steps": "34185/65595", "percentage": "52.12%", "elapsed_time": "1d 16h 8m 25s", "remaining_time": "1d 12h 52m 55s"}
+{"loss": 0.0598635, "token_acc": 0.97524752, "grad_norm": 0.76016873, "learning_rate": 4.667e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236561, "epoch": 2.60614376, "global_step/max_steps": "34190/65595", "percentage": "52.12%", "elapsed_time": "1d 16h 8m 46s", "remaining_time": "1d 12h 52m 34s"}
+{"loss": 0.09228653, "token_acc": 0.96953816, "grad_norm": 1.95473099, "learning_rate": 4.666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236571, "epoch": 2.60652489, "global_step/max_steps": "34195/65595", "percentage": "52.13%", "elapsed_time": "1d 16h 9m 1s", "remaining_time": "1d 12h 52m 7s"}
+{"loss": 0.07325916, "token_acc": 0.96580728, "grad_norm": 0.63321525, "learning_rate": 4.664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236577, "epoch": 2.60690601, "global_step/max_steps": "34200/65595", "percentage": "52.14%", "elapsed_time": "1d 16h 9m 19s", "remaining_time": "1d 12h 51m 43s"}
+{"eval_loss": 0.07826593, "eval_token_acc": 0.96561954, "eval_runtime": 219.994, "eval_samples_per_second": 2.409, "eval_steps_per_second": 2.409, "epoch": 2.60690601, "global_step/max_steps": "34200/65595", "percentage": "52.14%", "elapsed_time": "1d 16h 12m 59s", "remaining_time": "1d 12h 55m 5s"}
+{"loss": 0.10783468, "token_acc": 0.96557299, "grad_norm": 2.04198599, "learning_rate": 4.663e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236227, "epoch": 2.60728714, "global_step/max_steps": "34205/65595", "percentage": "52.15%", "elapsed_time": "1d 16h 13m 14s", "remaining_time": "1d 12h 54m 38s"}
+{"loss": 0.0757185, "token_acc": 0.96900792, "grad_norm": 0.97258562, "learning_rate": 4.662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236232, "epoch": 2.60766827, "global_step/max_steps": "34210/65595", "percentage": "52.15%", "elapsed_time": "1d 16h 13m 32s", "remaining_time": "1d 12h 54m 14s"}
+{"loss": 0.10436106, "token_acc": 0.96381026, "grad_norm": 0.50288206, "learning_rate": 4.661e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236235, "epoch": 2.60804939, "global_step/max_steps": "34215/65595", "percentage": "52.16%", "elapsed_time": "1d 16h 13m 52s", "remaining_time": "1d 12h 53m 51s"}
+{"loss": 0.10353644, "token_acc": 0.96088726, "grad_norm": 1.17070186, "learning_rate": 4.66e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236236, "epoch": 2.60843052, "global_step/max_steps": "34220/65595", "percentage": "52.17%", "elapsed_time": "1d 16h 14m 12s", "remaining_time": "1d 12h 53m 29s"}
+{"loss": 0.12903824, "token_acc": 0.9620153, "grad_norm": 1.56735802, "learning_rate": 4.658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236245, "epoch": 2.60881165, "global_step/max_steps": "34225/65595", "percentage": "52.18%", "elapsed_time": "1d 16h 14m 28s", "remaining_time": "1d 12h 53m 3s"}
+{"loss": 0.10350925, "token_acc": 0.96815287, "grad_norm": 0.89531589, "learning_rate": 4.657e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236249, "epoch": 2.60919277, "global_step/max_steps": "34230/65595", "percentage": "52.18%", "elapsed_time": "1d 16h 14m 47s", "remaining_time": "1d 12h 52m 40s"}
+{"loss": 0.14158825, "token_acc": 0.95871946, "grad_norm": 2.28181314, "learning_rate": 4.656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236257, "epoch": 2.6095739, "global_step/max_steps": "34235/65595", "percentage": "52.19%", "elapsed_time": "1d 16h 15m 3s", "remaining_time": "1d 12h 52m 14s"}
+{"loss": 0.09629365, "token_acc": 0.97370759, "grad_norm": 0.71274883, "learning_rate": 4.655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236262, "epoch": 2.60995503, "global_step/max_steps": "34240/65595", "percentage": "52.20%", "elapsed_time": "1d 16h 15m 21s", "remaining_time": "1d 12h 51m 50s"}
+{"loss": 0.10234859, "token_acc": 0.96322528, "grad_norm": 1.28582251, "learning_rate": 4.654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236271, "epoch": 2.61033615, "global_step/max_steps": "34245/65595", "percentage": "52.21%", "elapsed_time": "1d 16h 15m 37s", "remaining_time": "1d 12h 51m 24s"}
+{"loss": 0.07174275, "token_acc": 0.97662047, "grad_norm": 0.56205267, "learning_rate": 4.652e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236276, "epoch": 2.61071728, "global_step/max_steps": "34250/65595", "percentage": "52.21%", "elapsed_time": "1d 16h 15m 55s", "remaining_time": "1d 12h 51m 0s"}
+{"loss": 0.09813445, "token_acc": 0.96557445, "grad_norm": 0.6127277, "learning_rate": 4.651e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236279, "epoch": 2.61109841, "global_step/max_steps": "34255/65595", "percentage": "52.22%", "elapsed_time": "1d 16h 16m 14s", "remaining_time": "1d 12h 50m 37s"}
+{"loss": 0.09175491, "token_acc": 0.96876472, "grad_norm": 1.24540854, "learning_rate": 4.65e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236283, "epoch": 2.61147953, "global_step/max_steps": "34260/65595", "percentage": "52.23%", "elapsed_time": "1d 16h 16m 33s", "remaining_time": "1d 12h 50m 14s"}
+{"loss": 0.06942034, "token_acc": 0.97194352, "grad_norm": 1.26083338, "learning_rate": 4.649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236289, "epoch": 2.61186066, "global_step/max_steps": "34265/65595", "percentage": "52.24%", "elapsed_time": "1d 16h 16m 51s", "remaining_time": "1d 12h 49m 50s"}
+{"loss": 0.09777196, "token_acc": 0.95126994, "grad_norm": 0.10658452, "learning_rate": 4.648e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236298, "epoch": 2.61224179, "global_step/max_steps": "34270/65595", "percentage": "52.24%", "elapsed_time": "1d 16h 17m 6s", "remaining_time": "1d 12h 49m 23s"}
+{"loss": 0.06456367, "token_acc": 0.97786631, "grad_norm": 1.45767903, "learning_rate": 4.646e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236304, "epoch": 2.61262291, "global_step/max_steps": "34275/65595", "percentage": "52.25%", "elapsed_time": "1d 16h 17m 24s", "remaining_time": "1d 12h 48m 59s"}
+{"loss": 0.07711105, "token_acc": 0.97818937, "grad_norm": 0.92471641, "learning_rate": 4.645e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236308, "epoch": 2.61300404, "global_step/max_steps": "34280/65595", "percentage": "52.26%", "elapsed_time": "1d 16h 17m 42s", "remaining_time": "1d 12h 48m 35s"}
+{"loss": 0.09944463, "token_acc": 0.96343434, "grad_norm": 1.05436206, "learning_rate": 4.644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236314, "epoch": 2.61338517, "global_step/max_steps": "34285/65595", "percentage": "52.27%", "elapsed_time": "1d 16h 18m 0s", "remaining_time": "1d 12h 48m 11s"}
+{"loss": 0.05566803, "token_acc": 0.97657029, "grad_norm": 0.78694499, "learning_rate": 4.643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236323, "epoch": 2.61376629, "global_step/max_steps": "34290/65595", "percentage": "52.28%", "elapsed_time": "1d 16h 18m 16s", "remaining_time": "1d 12h 47m 45s"}
+{"loss": 0.08130146, "token_acc": 0.96445498, "grad_norm": 0.68628979, "learning_rate": 4.642e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23633, "epoch": 2.61414742, "global_step/max_steps": "34295/65595", "percentage": "52.28%", "elapsed_time": "1d 16h 18m 32s", "remaining_time": "1d 12h 47m 19s"}
+{"loss": 0.10632284, "token_acc": 0.94448161, "grad_norm": 1.17990386, "learning_rate": 4.641e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236341, "epoch": 2.61452855, "global_step/max_steps": "34300/65595", "percentage": "52.29%", "elapsed_time": "1d 16h 18m 47s", "remaining_time": "1d 12h 46m 52s"}
+{"loss": 0.08166947, "token_acc": 0.96703881, "grad_norm": 0.76514655, "learning_rate": 4.639e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236344, "epoch": 2.61490967, "global_step/max_steps": "34305/65595", "percentage": "52.30%", "elapsed_time": "1d 16h 19m 6s", "remaining_time": "1d 12h 46m 29s"}
+{"loss": 0.08617087, "token_acc": 0.9631986, "grad_norm": 0.77533871, "learning_rate": 4.638e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236345, "epoch": 2.6152908, "global_step/max_steps": "34310/65595", "percentage": "52.31%", "elapsed_time": "1d 16h 19m 26s", "remaining_time": "1d 12h 46m 8s"}
+{"loss": 0.06157808, "token_acc": 0.97541085, "grad_norm": 0.48653778, "learning_rate": 4.637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236343, "epoch": 2.61567193, "global_step/max_steps": "34315/65595", "percentage": "52.31%", "elapsed_time": "1d 16h 19m 49s", "remaining_time": "1d 12h 45m 48s"}
+{"loss": 0.08526462, "token_acc": 0.97298395, "grad_norm": 0.79749602, "learning_rate": 4.636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236348, "epoch": 2.61605305, "global_step/max_steps": "34320/65595", "percentage": "52.32%", "elapsed_time": "1d 16h 20m 7s", "remaining_time": "1d 12h 45m 23s"}
+{"loss": 0.06558151, "token_acc": 0.96737044, "grad_norm": 0.82351005, "learning_rate": 4.635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236358, "epoch": 2.61643418, "global_step/max_steps": "34325/65595", "percentage": "52.33%", "elapsed_time": "1d 16h 20m 22s", "remaining_time": "1d 12h 44m 57s"}
+{"loss": 0.06836959, "token_acc": 0.96852855, "grad_norm": 0.98363966, "learning_rate": 4.633e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236365, "epoch": 2.61681531, "global_step/max_steps": "34330/65595", "percentage": "52.34%", "elapsed_time": "1d 16h 20m 39s", "remaining_time": "1d 12h 44m 32s"}
+{"loss": 0.07709215, "token_acc": 0.96756014, "grad_norm": 0.77124798, "learning_rate": 4.632e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236369, "epoch": 2.61719643, "global_step/max_steps": "34335/65595", "percentage": "52.34%", "elapsed_time": "1d 16h 20m 57s", "remaining_time": "1d 12h 44m 8s"}
+{"loss": 0.10948751, "token_acc": 0.96472393, "grad_norm": 0.69834584, "learning_rate": 4.631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236375, "epoch": 2.61757756, "global_step/max_steps": "34340/65595", "percentage": "52.35%", "elapsed_time": "1d 16h 21m 15s", "remaining_time": "1d 12h 43m 44s"}
+{"loss": 0.09112035, "token_acc": 0.95572224, "grad_norm": 1.44904852, "learning_rate": 4.63e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236382, "epoch": 2.61795869, "global_step/max_steps": "34345/65595", "percentage": "52.36%", "elapsed_time": "1d 16h 21m 32s", "remaining_time": "1d 12h 43m 19s"}
+{"loss": 0.07221097, "token_acc": 0.97371958, "grad_norm": 0.73676956, "learning_rate": 4.629e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236387, "epoch": 2.61833981, "global_step/max_steps": "34350/65595", "percentage": "52.37%", "elapsed_time": "1d 16h 21m 50s", "remaining_time": "1d 12h 42m 55s"}
+{"loss": 0.09764639, "token_acc": 0.96980523, "grad_norm": 1.49305785, "learning_rate": 4.627e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236389, "epoch": 2.61872094, "global_step/max_steps": "34355/65595", "percentage": "52.37%", "elapsed_time": "1d 16h 22m 9s", "remaining_time": "1d 12h 42m 32s"}
+{"loss": 0.08748859, "token_acc": 0.96334842, "grad_norm": 2.20412254, "learning_rate": 4.626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236397, "epoch": 2.61910207, "global_step/max_steps": "34360/65595", "percentage": "52.38%", "elapsed_time": "1d 16h 22m 26s", "remaining_time": "1d 12h 42m 7s"}
+{"loss": 0.08757224, "token_acc": 0.97194546, "grad_norm": 1.11760569, "learning_rate": 4.625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236405, "epoch": 2.61948319, "global_step/max_steps": "34365/65595", "percentage": "52.39%", "elapsed_time": "1d 16h 22m 42s", "remaining_time": "1d 12h 41m 41s"}
+{"loss": 0.06358751, "token_acc": 0.97400036, "grad_norm": 0.57711875, "learning_rate": 4.624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236413, "epoch": 2.61986432, "global_step/max_steps": "34370/65595", "percentage": "52.40%", "elapsed_time": "1d 16h 22m 59s", "remaining_time": "1d 12h 41m 16s"}
+{"loss": 0.09154366, "token_acc": 0.95872589, "grad_norm": 0.88914204, "learning_rate": 4.623e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23642, "epoch": 2.62024545, "global_step/max_steps": "34375/65595", "percentage": "52.40%", "elapsed_time": "1d 16h 23m 15s", "remaining_time": "1d 12h 40m 51s"}
+{"loss": 0.08667811, "token_acc": 0.96358091, "grad_norm": 0.81349075, "learning_rate": 4.621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236425, "epoch": 2.62062657, "global_step/max_steps": "34380/65595", "percentage": "52.41%", "elapsed_time": "1d 16h 23m 33s", "remaining_time": "1d 12h 40m 27s"}
+{"loss": 0.06328304, "token_acc": 0.97189396, "grad_norm": 0.94353056, "learning_rate": 4.62e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236435, "epoch": 2.6210077, "global_step/max_steps": "34385/65595", "percentage": "52.42%", "elapsed_time": "1d 16h 23m 48s", "remaining_time": "1d 12h 40m 0s"}
+{"loss": 0.10097132, "token_acc": 0.9589856, "grad_norm": 1.47716856, "learning_rate": 4.619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236439, "epoch": 2.62138883, "global_step/max_steps": "34390/65595", "percentage": "52.43%", "elapsed_time": "1d 16h 24m 7s", "remaining_time": "1d 12h 39m 37s"}
+{"loss": 0.10863855, "token_acc": 0.96141814, "grad_norm": 0.77091515, "learning_rate": 4.618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236447, "epoch": 2.62176995, "global_step/max_steps": "34395/65595", "percentage": "52.44%", "elapsed_time": "1d 16h 24m 23s", "remaining_time": "1d 12h 39m 11s"}
+{"loss": 0.06730061, "token_acc": 0.97227385, "grad_norm": 0.60366702, "learning_rate": 4.617e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236449, "epoch": 2.62215108, "global_step/max_steps": "34400/65595", "percentage": "52.44%", "elapsed_time": "1d 16h 24m 43s", "remaining_time": "1d 12h 38m 49s"}
+{"eval_loss": 0.07841652, "eval_token_acc": 0.96561201, "eval_runtime": 221.542, "eval_samples_per_second": 2.392, "eval_steps_per_second": 2.392, "epoch": 2.62215108, "global_step/max_steps": "34400/65595", "percentage": "52.44%", "elapsed_time": "1d 16h 28m 25s", "remaining_time": "1d 12h 42m 10s"}
+{"loss": 0.0792005, "token_acc": 0.9656755, "grad_norm": 1.05525172, "learning_rate": 4.615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236101, "epoch": 2.62253221, "global_step/max_steps": "34405/65595", "percentage": "52.45%", "elapsed_time": "1d 16h 28m 39s", "remaining_time": "1d 12h 41m 42s"}
+{"loss": 0.09569973, "token_acc": 0.96927129, "grad_norm": 0.82655388, "learning_rate": 4.614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236107, "epoch": 2.62291333, "global_step/max_steps": "34410/65595", "percentage": "52.46%", "elapsed_time": "1d 16h 28m 56s", "remaining_time": "1d 12h 41m 17s"}
+{"loss": 0.08906966, "token_acc": 0.95920484, "grad_norm": 0.94428003, "learning_rate": 4.613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236113, "epoch": 2.62329446, "global_step/max_steps": "34415/65595", "percentage": "52.47%", "elapsed_time": "1d 16h 29m 14s", "remaining_time": "1d 12h 40m 53s"}
+{"loss": 0.11753118, "token_acc": 0.96562935, "grad_norm": 0.81524259, "learning_rate": 4.612e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236121, "epoch": 2.62367559, "global_step/max_steps": "34420/65595", "percentage": "52.47%", "elapsed_time": "1d 16h 29m 30s", "remaining_time": "1d 12h 40m 27s"}
+{"loss": 0.0752174, "token_acc": 0.96926714, "grad_norm": 0.35128647, "learning_rate": 4.611e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23613, "epoch": 2.62405671, "global_step/max_steps": "34425/65595", "percentage": "52.48%", "elapsed_time": "1d 16h 29m 46s", "remaining_time": "1d 12h 40m 1s"}
+{"loss": 0.07586504, "token_acc": 0.97373358, "grad_norm": 0.81859767, "learning_rate": 4.609e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236142, "epoch": 2.62443784, "global_step/max_steps": "34430/65595", "percentage": "52.49%", "elapsed_time": "1d 16h 30m 0s", "remaining_time": "1d 12h 39m 33s"}
+{"loss": 0.07701766, "token_acc": 0.96796131, "grad_norm": 0.61180472, "learning_rate": 4.608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236147, "epoch": 2.62481896, "global_step/max_steps": "34435/65595", "percentage": "52.50%", "elapsed_time": "1d 16h 30m 17s", "remaining_time": "1d 12h 39m 9s"}
+{"loss": 0.08279745, "token_acc": 0.97113402, "grad_norm": 0.65345412, "learning_rate": 4.607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236154, "epoch": 2.62520009, "global_step/max_steps": "34440/65595", "percentage": "52.50%", "elapsed_time": "1d 16h 30m 34s", "remaining_time": "1d 12h 38m 44s"}
+{"loss": 0.10027914, "token_acc": 0.9603928, "grad_norm": 1.45447564, "learning_rate": 4.606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236165, "epoch": 2.62558122, "global_step/max_steps": "34445/65595", "percentage": "52.51%", "elapsed_time": "1d 16h 30m 49s", "remaining_time": "1d 12h 38m 17s"}
+{"loss": 0.09477046, "token_acc": 0.96065375, "grad_norm": 0.65703309, "learning_rate": 4.605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236174, "epoch": 2.62596234, "global_step/max_steps": "34450/65595", "percentage": "52.52%", "elapsed_time": "1d 16h 31m 4s", "remaining_time": "1d 12h 37m 50s"}
+{"loss": 0.12491008, "token_acc": 0.92943925, "grad_norm": 1.21990705, "learning_rate": 4.603e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236186, "epoch": 2.62634347, "global_step/max_steps": "34455/65595", "percentage": "52.53%", "elapsed_time": "1d 16h 31m 18s", "remaining_time": "1d 12h 37m 23s"}
+{"loss": 0.11044153, "token_acc": 0.95710131, "grad_norm": 1.04038787, "learning_rate": 4.602e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236193, "epoch": 2.6267246, "global_step/max_steps": "34460/65595", "percentage": "52.53%", "elapsed_time": "1d 16h 31m 35s", "remaining_time": "1d 12h 36m 57s"}
+{"loss": 0.09239109, "token_acc": 0.96849526, "grad_norm": 0.90802741, "learning_rate": 4.601e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2362, "epoch": 2.62710572, "global_step/max_steps": "34465/65595", "percentage": "52.54%", "elapsed_time": "1d 16h 31m 52s", "remaining_time": "1d 12h 36m 33s"}
+{"loss": 0.07672638, "token_acc": 0.96958855, "grad_norm": 0.69783545, "learning_rate": 4.6e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23621, "epoch": 2.62748685, "global_step/max_steps": "34470/65595", "percentage": "52.55%", "elapsed_time": "1d 16h 32m 7s", "remaining_time": "1d 12h 36m 6s"}
+{"loss": 0.08601888, "token_acc": 0.96518219, "grad_norm": 1.01920879, "learning_rate": 4.599e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236214, "epoch": 2.62786798, "global_step/max_steps": "34475/65595", "percentage": "52.56%", "elapsed_time": "1d 16h 32m 25s", "remaining_time": "1d 12h 35m 42s"}
+{"loss": 0.07509364, "token_acc": 0.97226583, "grad_norm": 1.03463292, "learning_rate": 4.598e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236218, "epoch": 2.6282491, "global_step/max_steps": "34480/65595", "percentage": "52.56%", "elapsed_time": "1d 16h 32m 44s", "remaining_time": "1d 12h 35m 19s"}
+{"loss": 0.15468307, "token_acc": 0.94241171, "grad_norm": 1.84882665, "learning_rate": 4.596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236227, "epoch": 2.62863023, "global_step/max_steps": "34485/65595", "percentage": "52.57%", "elapsed_time": "1d 16h 33m 0s", "remaining_time": "1d 12h 34m 53s"}
+{"loss": 0.0838808, "token_acc": 0.95118689, "grad_norm": 0.28031263, "learning_rate": 4.595e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236238, "epoch": 2.62901136, "global_step/max_steps": "34490/65595", "percentage": "52.58%", "elapsed_time": "1d 16h 33m 14s", "remaining_time": "1d 12h 34m 26s"}
+{"loss": 0.0666706, "token_acc": 0.97116645, "grad_norm": 1.06758904, "learning_rate": 4.594e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236249, "epoch": 2.62939248, "global_step/max_steps": "34495/65595", "percentage": "52.59%", "elapsed_time": "1d 16h 33m 28s", "remaining_time": "1d 12h 33m 58s"}
+{"loss": 0.07805977, "token_acc": 0.96911958, "grad_norm": 1.16654897, "learning_rate": 4.593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236257, "epoch": 2.62977361, "global_step/max_steps": "34500/65595", "percentage": "52.60%", "elapsed_time": "1d 16h 33m 45s", "remaining_time": "1d 12h 33m 33s"}
+{"loss": 0.07837528, "token_acc": 0.96609015, "grad_norm": 0.67220521, "learning_rate": 4.592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236256, "epoch": 2.63015474, "global_step/max_steps": "34505/65595", "percentage": "52.60%", "elapsed_time": "1d 16h 34m 7s", "remaining_time": "1d 12h 33m 12s"}
+{"loss": 0.08717117, "token_acc": 0.96311907, "grad_norm": 1.38646698, "learning_rate": 4.59e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236266, "epoch": 2.63053586, "global_step/max_steps": "34510/65595", "percentage": "52.61%", "elapsed_time": "1d 16h 34m 21s", "remaining_time": "1d 12h 32m 45s"}
+{"loss": 0.07707739, "token_acc": 0.97126437, "grad_norm": 0.6589874, "learning_rate": 4.589e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236272, "epoch": 2.63091699, "global_step/max_steps": "34515/65595", "percentage": "52.62%", "elapsed_time": "1d 16h 34m 39s", "remaining_time": "1d 12h 32m 21s"}
+{"loss": 0.09339558, "token_acc": 0.96904025, "grad_norm": 1.62440908, "learning_rate": 4.588e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23628, "epoch": 2.63129812, "global_step/max_steps": "34520/65595", "percentage": "52.63%", "elapsed_time": "1d 16h 34m 55s", "remaining_time": "1d 12h 31m 55s"}
+{"loss": 0.10717565, "token_acc": 0.96161535, "grad_norm": 1.24605703, "learning_rate": 4.587e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236286, "epoch": 2.63167924, "global_step/max_steps": "34525/65595", "percentage": "52.63%", "elapsed_time": "1d 16h 35m 12s", "remaining_time": "1d 12h 31m 31s"}
+{"loss": 0.07290719, "token_acc": 0.97267081, "grad_norm": 1.38494956, "learning_rate": 4.586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236296, "epoch": 2.63206037, "global_step/max_steps": "34530/65595", "percentage": "52.64%", "elapsed_time": "1d 16h 35m 27s", "remaining_time": "1d 12h 31m 4s"}
+{"loss": 0.07066272, "token_acc": 0.96716867, "grad_norm": 1.27239263, "learning_rate": 4.584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236305, "epoch": 2.6324415, "global_step/max_steps": "34535/65595", "percentage": "52.65%", "elapsed_time": "1d 16h 35m 43s", "remaining_time": "1d 12h 30m 38s"}
+{"loss": 0.1126067, "token_acc": 0.95498575, "grad_norm": 1.6462208, "learning_rate": 4.583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236311, "epoch": 2.63282262, "global_step/max_steps": "34540/65595", "percentage": "52.66%", "elapsed_time": "1d 16h 36m 1s", "remaining_time": "1d 12h 30m 13s"}
+{"loss": 0.07615478, "token_acc": 0.96752183, "grad_norm": 0.80746502, "learning_rate": 4.582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23632, "epoch": 2.63320375, "global_step/max_steps": "34545/65595", "percentage": "52.66%", "elapsed_time": "1d 16h 36m 16s", "remaining_time": "1d 12h 29m 47s"}
+{"loss": 0.07518311, "token_acc": 0.96660045, "grad_norm": 0.7124179, "learning_rate": 4.581e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236324, "epoch": 2.63358488, "global_step/max_steps": "34550/65595", "percentage": "52.67%", "elapsed_time": "1d 16h 36m 35s", "remaining_time": "1d 12h 29m 24s"}
+{"loss": 0.10309663, "token_acc": 0.96366509, "grad_norm": 2.02530885, "learning_rate": 4.58e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236331, "epoch": 2.633966, "global_step/max_steps": "34555/65595", "percentage": "52.68%", "elapsed_time": "1d 16h 36m 52s", "remaining_time": "1d 12h 28m 59s"}
+{"loss": 0.10235599, "token_acc": 0.9630719, "grad_norm": 0.68529117, "learning_rate": 4.578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236335, "epoch": 2.63434713, "global_step/max_steps": "34560/65595", "percentage": "52.69%", "elapsed_time": "1d 16h 37m 10s", "remaining_time": "1d 12h 28m 35s"}
+{"loss": 0.10601019, "token_acc": 0.97095099, "grad_norm": 1.20117569, "learning_rate": 4.577e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236339, "epoch": 2.63472826, "global_step/max_steps": "34565/65595", "percentage": "52.69%", "elapsed_time": "1d 16h 37m 29s", "remaining_time": "1d 12h 28m 12s"}
+{"loss": 0.09034165, "token_acc": 0.97114518, "grad_norm": 1.84923029, "learning_rate": 4.576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236348, "epoch": 2.63510938, "global_step/max_steps": "34570/65595", "percentage": "52.70%", "elapsed_time": "1d 16h 37m 44s", "remaining_time": "1d 12h 27m 46s"}
+{"loss": 0.06038922, "token_acc": 0.97974105, "grad_norm": 0.93469721, "learning_rate": 4.575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236351, "epoch": 2.63549051, "global_step/max_steps": "34575/65595", "percentage": "52.71%", "elapsed_time": "1d 16h 38m 4s", "remaining_time": "1d 12h 27m 23s"}
+{"loss": 0.07569088, "token_acc": 0.96388164, "grad_norm": 0.83926815, "learning_rate": 4.574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236357, "epoch": 2.63587164, "global_step/max_steps": "34580/65595", "percentage": "52.72%", "elapsed_time": "1d 16h 38m 21s", "remaining_time": "1d 12h 26m 59s"}
+{"loss": 0.05346806, "token_acc": 0.97700755, "grad_norm": 1.05886996, "learning_rate": 4.572e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236367, "epoch": 2.63625276, "global_step/max_steps": "34585/65595", "percentage": "52.73%", "elapsed_time": "1d 16h 38m 36s", "remaining_time": "1d 12h 26m 32s"}
+{"loss": 0.06658456, "token_acc": 0.97129878, "grad_norm": 0.82844663, "learning_rate": 4.571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236374, "epoch": 2.63663389, "global_step/max_steps": "34590/65595", "percentage": "52.73%", "elapsed_time": "1d 16h 38m 53s", "remaining_time": "1d 12h 26m 7s"}
+{"loss": 0.08491186, "token_acc": 0.9675888, "grad_norm": 0.72487181, "learning_rate": 4.57e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236379, "epoch": 2.63701502, "global_step/max_steps": "34595/65595", "percentage": "52.74%", "elapsed_time": "1d 16h 39m 11s", "remaining_time": "1d 12h 25m 43s"}
+{"loss": 0.10163454, "token_acc": 0.95727877, "grad_norm": 0.97383744, "learning_rate": 4.569e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236385, "epoch": 2.63739614, "global_step/max_steps": "34600/65595", "percentage": "52.75%", "elapsed_time": "1d 16h 39m 28s", "remaining_time": "1d 12h 25m 18s"}
+{"eval_loss": 0.07916768, "eval_token_acc": 0.96546142, "eval_runtime": 221.4526, "eval_samples_per_second": 2.393, "eval_steps_per_second": 2.393, "epoch": 2.63739614, "global_step/max_steps": "34600/65595", "percentage": "52.75%", "elapsed_time": "1d 16h 43m 10s", "remaining_time": "1d 12h 28m 36s"}
+{"loss": 0.08453397, "token_acc": 0.96582021, "grad_norm": 0.71095562, "learning_rate": 4.568e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23603, "epoch": 2.63777727, "global_step/max_steps": "34605/65595", "percentage": "52.76%", "elapsed_time": "1d 16h 43m 30s", "remaining_time": "1d 12h 28m 14s"}
+{"loss": 0.06915706, "token_acc": 0.97229766, "grad_norm": 1.34456897, "learning_rate": 4.567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236041, "epoch": 2.6381584, "global_step/max_steps": "34610/65595", "percentage": "52.76%", "elapsed_time": "1d 16h 43m 44s", "remaining_time": "1d 12h 27m 47s"}
+{"loss": 0.11613164, "token_acc": 0.96588266, "grad_norm": 0.73635995, "learning_rate": 4.565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236048, "epoch": 2.63853952, "global_step/max_steps": "34615/65595", "percentage": "52.77%", "elapsed_time": "1d 16h 44m 1s", "remaining_time": "1d 12h 27m 22s"}
+{"loss": 0.06864437, "token_acc": 0.97839318, "grad_norm": 0.8980639, "learning_rate": 4.564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236052, "epoch": 2.63892065, "global_step/max_steps": "34620/65595", "percentage": "52.78%", "elapsed_time": "1d 16h 44m 20s", "remaining_time": "1d 12h 26m 59s"}
+{"loss": 0.10776061, "token_acc": 0.95277778, "grad_norm": 0.82122314, "learning_rate": 4.563e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23606, "epoch": 2.63930178, "global_step/max_steps": "34625/65595", "percentage": "52.79%", "elapsed_time": "1d 16h 44m 36s", "remaining_time": "1d 12h 26m 33s"}
+{"loss": 0.09207922, "token_acc": 0.9676249, "grad_norm": 0.88188195, "learning_rate": 4.562e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236069, "epoch": 2.6396829, "global_step/max_steps": "34630/65595", "percentage": "52.79%", "elapsed_time": "1d 16h 44m 52s", "remaining_time": "1d 12h 26m 7s"}
+{"loss": 0.10316, "token_acc": 0.96587125, "grad_norm": 0.75998396, "learning_rate": 4.561e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236076, "epoch": 2.64006403, "global_step/max_steps": "34635/65595", "percentage": "52.80%", "elapsed_time": "1d 16h 45m 8s", "remaining_time": "1d 12h 25m 42s"}
+{"loss": 0.09023878, "token_acc": 0.96641318, "grad_norm": 1.25875235, "learning_rate": 4.559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236087, "epoch": 2.64044516, "global_step/max_steps": "34640/65595", "percentage": "52.81%", "elapsed_time": "1d 16h 45m 23s", "remaining_time": "1d 12h 25m 14s"}
+{"loss": 0.11591588, "token_acc": 0.96719871, "grad_norm": 0.54993868, "learning_rate": 4.558e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23609, "epoch": 2.64082628, "global_step/max_steps": "34645/65595", "percentage": "52.82%", "elapsed_time": "1d 16h 45m 42s", "remaining_time": "1d 12h 24m 51s"}
+{"loss": 0.08065987, "token_acc": 0.9680351, "grad_norm": 0.75127268, "learning_rate": 4.557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2361, "epoch": 2.64120741, "global_step/max_steps": "34650/65595", "percentage": "52.82%", "elapsed_time": "1d 16h 45m 57s", "remaining_time": "1d 12h 24m 25s"}
+{"loss": 0.05760664, "token_acc": 0.97491929, "grad_norm": 0.62246627, "learning_rate": 4.556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236109, "epoch": 2.64158854, "global_step/max_steps": "34655/65595", "percentage": "52.83%", "elapsed_time": "1d 16h 46m 13s", "remaining_time": "1d 12h 23m 59s"}
+{"loss": 0.08936265, "token_acc": 0.96826878, "grad_norm": 0.61466664, "learning_rate": 4.555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23611, "epoch": 2.64196966, "global_step/max_steps": "34660/65595", "percentage": "52.84%", "elapsed_time": "1d 16h 46m 33s", "remaining_time": "1d 12h 23m 37s"}
+{"loss": 0.09350625, "token_acc": 0.96333688, "grad_norm": 1.03636909, "learning_rate": 4.553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236117, "epoch": 2.64235079, "global_step/max_steps": "34665/65595", "percentage": "52.85%", "elapsed_time": "1d 16h 46m 50s", "remaining_time": "1d 12h 23m 12s"}
+{"loss": 0.09945698, "token_acc": 0.96877076, "grad_norm": 0.60183793, "learning_rate": 4.552e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236124, "epoch": 2.64273192, "global_step/max_steps": "34670/65595", "percentage": "52.85%", "elapsed_time": "1d 16h 47m 7s", "remaining_time": "1d 12h 22m 47s"}
+{"loss": 0.0497153, "token_acc": 0.97853107, "grad_norm": 1.05762684, "learning_rate": 4.551e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23613, "epoch": 2.64311304, "global_step/max_steps": "34675/65595", "percentage": "52.86%", "elapsed_time": "1d 16h 47m 24s", "remaining_time": "1d 12h 22m 22s"}
+{"loss": 0.10189126, "token_acc": 0.96004303, "grad_norm": 0.69604105, "learning_rate": 4.55e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236134, "epoch": 2.64349417, "global_step/max_steps": "34680/65595", "percentage": "52.87%", "elapsed_time": "1d 16h 47m 43s", "remaining_time": "1d 12h 21m 59s"}
+{"loss": 0.07377658, "token_acc": 0.97511948, "grad_norm": 0.99383652, "learning_rate": 4.549e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236136, "epoch": 2.6438753, "global_step/max_steps": "34685/65595", "percentage": "52.88%", "elapsed_time": "1d 16h 48m 3s", "remaining_time": "1d 12h 21m 37s"}
+{"loss": 0.10406787, "token_acc": 0.95994569, "grad_norm": 0.72208196, "learning_rate": 4.547e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236142, "epoch": 2.64425642, "global_step/max_steps": "34690/65595", "percentage": "52.89%", "elapsed_time": "1d 16h 48m 21s", "remaining_time": "1d 12h 21m 12s"}
+{"loss": 0.11260309, "token_acc": 0.96058583, "grad_norm": 1.24643719, "learning_rate": 4.546e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236147, "epoch": 2.64463755, "global_step/max_steps": "34695/65595", "percentage": "52.89%", "elapsed_time": "1d 16h 48m 38s", "remaining_time": "1d 12h 20m 48s"}
+{"loss": 0.08344818, "token_acc": 0.96979446, "grad_norm": 1.03979445, "learning_rate": 4.545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236153, "epoch": 2.64501868, "global_step/max_steps": "34700/65595", "percentage": "52.90%", "elapsed_time": "1d 16h 48m 56s", "remaining_time": "1d 12h 20m 24s"}
+{"loss": 0.08904408, "token_acc": 0.9598864, "grad_norm": 1.05905092, "learning_rate": 4.544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236162, "epoch": 2.6453998, "global_step/max_steps": "34705/65595", "percentage": "52.91%", "elapsed_time": "1d 16h 49m 12s", "remaining_time": "1d 12h 19m 58s"}
+{"loss": 0.0579639, "token_acc": 0.97669173, "grad_norm": 1.26063609, "learning_rate": 4.543e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236171, "epoch": 2.64578093, "global_step/max_steps": "34710/65595", "percentage": "52.92%", "elapsed_time": "1d 16h 49m 27s", "remaining_time": "1d 12h 19m 31s"}
+{"loss": 0.07432995, "token_acc": 0.96695999, "grad_norm": 0.48929363, "learning_rate": 4.541e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236176, "epoch": 2.64616206, "global_step/max_steps": "34715/65595", "percentage": "52.92%", "elapsed_time": "1d 16h 49m 45s", "remaining_time": "1d 12h 19m 8s"}
+{"loss": 0.06637262, "token_acc": 0.97378952, "grad_norm": 1.13908589, "learning_rate": 4.54e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236183, "epoch": 2.64654318, "global_step/max_steps": "34720/65595", "percentage": "52.93%", "elapsed_time": "1d 16h 50m 2s", "remaining_time": "1d 12h 18m 42s"}
+{"loss": 0.0903929, "token_acc": 0.96281752, "grad_norm": 0.64934969, "learning_rate": 4.539e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236182, "epoch": 2.64692431, "global_step/max_steps": "34725/65595", "percentage": "52.94%", "elapsed_time": "1d 16h 50m 24s", "remaining_time": "1d 12h 18m 22s"}
+{"loss": 0.09192713, "token_acc": 0.95930861, "grad_norm": 0.93445015, "learning_rate": 4.538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236192, "epoch": 2.64730543, "global_step/max_steps": "34730/65595", "percentage": "52.95%", "elapsed_time": "1d 16h 50m 38s", "remaining_time": "1d 12h 17m 55s"}
+{"loss": 0.08626474, "token_acc": 0.96649746, "grad_norm": 1.63181353, "learning_rate": 4.537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2362, "epoch": 2.64768656, "global_step/max_steps": "34735/65595", "percentage": "52.95%", "elapsed_time": "1d 16h 50m 55s", "remaining_time": "1d 12h 17m 30s"}
+{"loss": 0.08600994, "token_acc": 0.97530171, "grad_norm": 0.79693091, "learning_rate": 4.536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236208, "epoch": 2.64806769, "global_step/max_steps": "34740/65595", "percentage": "52.96%", "elapsed_time": "1d 16h 51m 11s", "remaining_time": "1d 12h 17m 4s"}
+{"loss": 0.08370351, "token_acc": 0.96649162, "grad_norm": 0.66889787, "learning_rate": 4.534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236211, "epoch": 2.64844881, "global_step/max_steps": "34745/65595", "percentage": "52.97%", "elapsed_time": "1d 16h 51m 30s", "remaining_time": "1d 12h 16m 41s"}
+{"loss": 0.07998984, "token_acc": 0.96919349, "grad_norm": 0.97508699, "learning_rate": 4.533e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236221, "epoch": 2.64882994, "global_step/max_steps": "34750/65595", "percentage": "52.98%", "elapsed_time": "1d 16h 51m 45s", "remaining_time": "1d 12h 16m 14s"}
+{"loss": 0.04989679, "token_acc": 0.97652099, "grad_norm": 0.5955497, "learning_rate": 4.532e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236225, "epoch": 2.64921107, "global_step/max_steps": "34755/65595", "percentage": "52.98%", "elapsed_time": "1d 16h 52m 4s", "remaining_time": "1d 12h 15m 51s"}
+{"loss": 0.09081841, "token_acc": 0.96466431, "grad_norm": 1.21925473, "learning_rate": 4.531e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236235, "epoch": 2.64959219, "global_step/max_steps": "34760/65595", "percentage": "52.99%", "elapsed_time": "1d 16h 52m 19s", "remaining_time": "1d 12h 15m 24s"}
+{"loss": 0.0843029, "token_acc": 0.96557811, "grad_norm": 0.68146062, "learning_rate": 4.53e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236248, "epoch": 2.64997332, "global_step/max_steps": "34765/65595", "percentage": "53.00%", "elapsed_time": "1d 16h 52m 32s", "remaining_time": "1d 12h 14m 56s"}
+{"loss": 0.0776497, "token_acc": 0.97131026, "grad_norm": 0.6479283, "learning_rate": 4.528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236252, "epoch": 2.65035445, "global_step/max_steps": "34770/65595", "percentage": "53.01%", "elapsed_time": "1d 16h 52m 51s", "remaining_time": "1d 12h 14m 33s"}
+{"loss": 0.06987233, "token_acc": 0.9752209, "grad_norm": 0.69281739, "learning_rate": 4.527e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236257, "epoch": 2.65073557, "global_step/max_steps": "34775/65595", "percentage": "53.01%", "elapsed_time": "1d 16h 53m 9s", "remaining_time": "1d 12h 14m 9s"}
+{"loss": 0.07601243, "token_acc": 0.97016393, "grad_norm": 1.60423493, "learning_rate": 4.526e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236263, "epoch": 2.6511167, "global_step/max_steps": "34780/65595", "percentage": "53.02%", "elapsed_time": "1d 16h 53m 26s", "remaining_time": "1d 12h 13m 44s"}
+{"loss": 0.05340108, "token_acc": 0.97986686, "grad_norm": 1.58269358, "learning_rate": 4.525e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236265, "epoch": 2.65149783, "global_step/max_steps": "34785/65595", "percentage": "53.03%", "elapsed_time": "1d 16h 53m 46s", "remaining_time": "1d 12h 13m 22s"}
+{"loss": 0.10230898, "token_acc": 0.95837414, "grad_norm": 0.80212802, "learning_rate": 4.524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236269, "epoch": 2.65187895, "global_step/max_steps": "34790/65595", "percentage": "53.04%", "elapsed_time": "1d 16h 54m 4s", "remaining_time": "1d 12h 12m 58s"}
+{"loss": 0.08673297, "token_acc": 0.96652927, "grad_norm": 1.45498061, "learning_rate": 4.522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236274, "epoch": 2.65226008, "global_step/max_steps": "34795/65595", "percentage": "53.05%", "elapsed_time": "1d 16h 54m 23s", "remaining_time": "1d 12h 12m 35s"}
+{"loss": 0.1086856, "token_acc": 0.9650594, "grad_norm": 1.0394069, "learning_rate": 4.521e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23628, "epoch": 2.65264121, "global_step/max_steps": "34800/65595", "percentage": "53.05%", "elapsed_time": "1d 16h 54m 40s", "remaining_time": "1d 12h 12m 10s"}
+{"eval_loss": 0.07940099, "eval_token_acc": 0.96582284, "eval_runtime": 223.0293, "eval_samples_per_second": 2.376, "eval_steps_per_second": 2.376, "epoch": 2.65264121, "global_step/max_steps": "34800/65595", "percentage": "53.05%", "elapsed_time": "1d 16h 58m 23s", "remaining_time": "1d 12h 15m 27s"}
+{"loss": 0.09724587, "token_acc": 0.96575386, "grad_norm": 1.16453469, "learning_rate": 4.52e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235925, "epoch": 2.65302233, "global_step/max_steps": "34805/65595", "percentage": "53.06%", "elapsed_time": "1d 16h 58m 43s", "remaining_time": "1d 12h 15m 5s"}
+{"loss": 0.0964185, "token_acc": 0.96234844, "grad_norm": 1.06905079, "learning_rate": 4.519e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23593, "epoch": 2.65340346, "global_step/max_steps": "34810/65595", "percentage": "53.07%", "elapsed_time": "1d 16h 59m 1s", "remaining_time": "1d 12h 14m 41s"}
+{"loss": 0.08912161, "token_acc": 0.97020517, "grad_norm": 0.93409795, "learning_rate": 4.518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235935, "epoch": 2.65378459, "global_step/max_steps": "34815/65595", "percentage": "53.08%", "elapsed_time": "1d 16h 59m 19s", "remaining_time": "1d 12h 14m 17s"}
+{"loss": 0.10587561, "token_acc": 0.95751854, "grad_norm": 1.26342165, "learning_rate": 4.516e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235944, "epoch": 2.65416571, "global_step/max_steps": "34820/65595", "percentage": "53.08%", "elapsed_time": "1d 16h 59m 34s", "remaining_time": "1d 12h 13m 51s"}
+{"loss": 0.08260756, "token_acc": 0.98001738, "grad_norm": 0.68799263, "learning_rate": 4.515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235952, "epoch": 2.65454684, "global_step/max_steps": "34825/65595", "percentage": "53.09%", "elapsed_time": "1d 16h 59m 51s", "remaining_time": "1d 12h 13m 25s"}
+{"loss": 0.07551708, "token_acc": 0.97279323, "grad_norm": 0.56905979, "learning_rate": 4.514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23596, "epoch": 2.65492797, "global_step/max_steps": "34830/65595", "percentage": "53.10%", "elapsed_time": "1d 17h 0m 7s", "remaining_time": "1d 12h 13m 0s"}
+{"loss": 0.07862342, "token_acc": 0.97089814, "grad_norm": 1.03520322, "learning_rate": 4.513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235968, "epoch": 2.65530909, "global_step/max_steps": "34835/65595", "percentage": "53.11%", "elapsed_time": "1d 17h 0m 23s", "remaining_time": "1d 12h 12m 34s"}
+{"loss": 0.06986383, "token_acc": 0.97125291, "grad_norm": 0.51820982, "learning_rate": 4.512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235971, "epoch": 2.65569022, "global_step/max_steps": "34840/65595", "percentage": "53.11%", "elapsed_time": "1d 17h 0m 43s", "remaining_time": "1d 12h 12m 11s"}
+{"loss": 0.07075813, "token_acc": 0.97376093, "grad_norm": 1.00534773, "learning_rate": 4.51e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23598, "epoch": 2.65607135, "global_step/max_steps": "34845/65595", "percentage": "53.12%", "elapsed_time": "1d 17h 0m 58s", "remaining_time": "1d 12h 11m 45s"}
+{"loss": 0.07964444, "token_acc": 0.96793317, "grad_norm": 1.14124453, "learning_rate": 4.509e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235983, "epoch": 2.65645247, "global_step/max_steps": "34850/65595", "percentage": "53.13%", "elapsed_time": "1d 17h 1m 17s", "remaining_time": "1d 12h 11m 22s"}
+{"loss": 0.06194391, "token_acc": 0.97111283, "grad_norm": 1.32008207, "learning_rate": 4.508e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235988, "epoch": 2.6568336, "global_step/max_steps": "34855/65595", "percentage": "53.14%", "elapsed_time": "1d 17h 1m 35s", "remaining_time": "1d 12h 10m 58s"}
+{"loss": 0.07742318, "token_acc": 0.97208481, "grad_norm": 0.87820727, "learning_rate": 4.507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235998, "epoch": 2.65721473, "global_step/max_steps": "34860/65595", "percentage": "53.14%", "elapsed_time": "1d 17h 1m 50s", "remaining_time": "1d 12h 10m 32s"}
+{"loss": 0.07053429, "token_acc": 0.97017151, "grad_norm": 0.96978801, "learning_rate": 4.506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236009, "epoch": 2.65759585, "global_step/max_steps": "34865/65595", "percentage": "53.15%", "elapsed_time": "1d 17h 2m 5s", "remaining_time": "1d 12h 10m 5s"}
+{"loss": 0.1030412, "token_acc": 0.96227997, "grad_norm": 1.10644853, "learning_rate": 4.505e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236013, "epoch": 2.65797698, "global_step/max_steps": "34870/65595", "percentage": "53.16%", "elapsed_time": "1d 17h 2m 23s", "remaining_time": "1d 12h 9m 41s"}
+{"loss": 0.08748, "token_acc": 0.97408293, "grad_norm": 1.14695907, "learning_rate": 4.503e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236024, "epoch": 2.65835811, "global_step/max_steps": "34875/65595", "percentage": "53.17%", "elapsed_time": "1d 17h 2m 38s", "remaining_time": "1d 12h 9m 14s"}
+{"loss": 0.11580582, "token_acc": 0.95978756, "grad_norm": 1.55193543, "learning_rate": 4.502e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236031, "epoch": 2.65873923, "global_step/max_steps": "34880/65595", "percentage": "53.17%", "elapsed_time": "1d 17h 2m 54s", "remaining_time": "1d 12h 8m 49s"}
+{"loss": 0.10885385, "token_acc": 0.95434325, "grad_norm": 0.8507601, "learning_rate": 4.501e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236039, "epoch": 2.65912036, "global_step/max_steps": "34885/65595", "percentage": "53.18%", "elapsed_time": "1d 17h 3m 10s", "remaining_time": "1d 12h 8m 23s"}
+{"loss": 0.10078145, "token_acc": 0.96419912, "grad_norm": 0.980088, "learning_rate": 4.5e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236042, "epoch": 2.65950149, "global_step/max_steps": "34890/65595", "percentage": "53.19%", "elapsed_time": "1d 17h 3m 30s", "remaining_time": "1d 12h 8m 0s"}
+{"loss": 0.10268805, "token_acc": 0.96606014, "grad_norm": 0.95401257, "learning_rate": 4.499e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236045, "epoch": 2.65988261, "global_step/max_steps": "34895/65595", "percentage": "53.20%", "elapsed_time": "1d 17h 3m 49s", "remaining_time": "1d 12h 7m 37s"}
+{"loss": 0.10093172, "token_acc": 0.9643871, "grad_norm": 1.39890289, "learning_rate": 4.497e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236053, "epoch": 2.66026374, "global_step/max_steps": "34900/65595", "percentage": "53.21%", "elapsed_time": "1d 17h 4m 5s", "remaining_time": "1d 12h 7m 12s"}
+{"loss": 0.04833863, "token_acc": 0.97414921, "grad_norm": 1.03396809, "learning_rate": 4.496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236062, "epoch": 2.66064487, "global_step/max_steps": "34905/65595", "percentage": "53.21%", "elapsed_time": "1d 17h 4m 21s", "remaining_time": "1d 12h 6m 46s"}
+{"loss": 0.05490333, "token_acc": 0.97395518, "grad_norm": 0.45887676, "learning_rate": 4.495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236071, "epoch": 2.66102599, "global_step/max_steps": "34910/65595", "percentage": "53.22%", "elapsed_time": "1d 17h 4m 37s", "remaining_time": "1d 12h 6m 20s"}
+{"loss": 0.0823807, "token_acc": 0.97067989, "grad_norm": 0.45629504, "learning_rate": 4.494e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236077, "epoch": 2.66140712, "global_step/max_steps": "34915/65595", "percentage": "53.23%", "elapsed_time": "1d 17h 4m 54s", "remaining_time": "1d 12h 5m 55s"}
+{"loss": 0.10910717, "token_acc": 0.95780122, "grad_norm": 1.30435193, "learning_rate": 4.493e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236085, "epoch": 2.66178825, "global_step/max_steps": "34920/65595", "percentage": "53.24%", "elapsed_time": "1d 17h 5m 10s", "remaining_time": "1d 12h 5m 29s"}
+{"loss": 0.05665872, "token_acc": 0.98005735, "grad_norm": 0.92626876, "learning_rate": 4.491e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236086, "epoch": 2.66216937, "global_step/max_steps": "34925/65595", "percentage": "53.24%", "elapsed_time": "1d 17h 5m 31s", "remaining_time": "1d 12h 5m 8s"}
+{"loss": 0.0800637, "token_acc": 0.9672849, "grad_norm": 0.78023589, "learning_rate": 4.49e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236094, "epoch": 2.6625505, "global_step/max_steps": "34930/65595", "percentage": "53.25%", "elapsed_time": "1d 17h 5m 47s", "remaining_time": "1d 12h 4m 42s"}
+{"loss": 0.05759564, "token_acc": 0.97854077, "grad_norm": 1.10450268, "learning_rate": 4.489e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236101, "epoch": 2.66293163, "global_step/max_steps": "34935/65595", "percentage": "53.26%", "elapsed_time": "1d 17h 6m 4s", "remaining_time": "1d 12h 4m 17s"}
+{"loss": 0.04922262, "token_acc": 0.97069335, "grad_norm": 0.6823529, "learning_rate": 4.488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236113, "epoch": 2.66331275, "global_step/max_steps": "34940/65595", "percentage": "53.27%", "elapsed_time": "1d 17h 6m 17s", "remaining_time": "1d 12h 3m 49s"}
+{"loss": 0.0727938, "token_acc": 0.97308561, "grad_norm": 0.63951224, "learning_rate": 4.487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236118, "epoch": 2.66369388, "global_step/max_steps": "34945/65595", "percentage": "53.27%", "elapsed_time": "1d 17h 6m 35s", "remaining_time": "1d 12h 3m 25s"}
+{"loss": 0.06229674, "token_acc": 0.97497309, "grad_norm": 0.74044925, "learning_rate": 4.485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236128, "epoch": 2.66407501, "global_step/max_steps": "34950/65595", "percentage": "53.28%", "elapsed_time": "1d 17h 6m 50s", "remaining_time": "1d 12h 2m 59s"}
+{"loss": 0.08760074, "token_acc": 0.96764037, "grad_norm": 0.61817747, "learning_rate": 4.484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236132, "epoch": 2.66445613, "global_step/max_steps": "34955/65595", "percentage": "53.29%", "elapsed_time": "1d 17h 7m 9s", "remaining_time": "1d 12h 2m 35s"}
+{"loss": 0.0871088, "token_acc": 0.96853237, "grad_norm": 0.83812058, "learning_rate": 4.483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236141, "epoch": 2.66483726, "global_step/max_steps": "34960/65595", "percentage": "53.30%", "elapsed_time": "1d 17h 7m 24s", "remaining_time": "1d 12h 2m 9s"}
+{"loss": 0.05549919, "token_acc": 0.9701087, "grad_norm": 0.5959903, "learning_rate": 4.482e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236148, "epoch": 2.66521839, "global_step/max_steps": "34965/65595", "percentage": "53.30%", "elapsed_time": "1d 17h 7m 41s", "remaining_time": "1d 12h 1m 44s"}
+{"loss": 0.09415339, "token_acc": 0.96533019, "grad_norm": 1.67243433, "learning_rate": 4.481e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236156, "epoch": 2.66559951, "global_step/max_steps": "34970/65595", "percentage": "53.31%", "elapsed_time": "1d 17h 7m 57s", "remaining_time": "1d 12h 1m 19s"}
+{"loss": 0.10845847, "token_acc": 0.9669487, "grad_norm": 0.5706411, "learning_rate": 4.48e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236166, "epoch": 2.66598064, "global_step/max_steps": "34975/65595", "percentage": "53.32%", "elapsed_time": "1d 17h 8m 12s", "remaining_time": "1d 12h 0m 52s"}
+{"loss": 0.12566872, "token_acc": 0.96135784, "grad_norm": 1.01622188, "learning_rate": 4.478e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236169, "epoch": 2.66636177, "global_step/max_steps": "34980/65595", "percentage": "53.33%", "elapsed_time": "1d 17h 8m 32s", "remaining_time": "1d 12h 0m 29s"}
+{"loss": 0.08670581, "token_acc": 0.96043409, "grad_norm": 1.58700657, "learning_rate": 4.477e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236179, "epoch": 2.66674289, "global_step/max_steps": "34985/65595", "percentage": "53.33%", "elapsed_time": "1d 17h 8m 47s", "remaining_time": "1d 12h 0m 3s"}
+{"loss": 0.09162315, "token_acc": 0.9638689, "grad_norm": 0.87540835, "learning_rate": 4.476e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236186, "epoch": 2.66712402, "global_step/max_steps": "34990/65595", "percentage": "53.34%", "elapsed_time": "1d 17h 9m 3s", "remaining_time": "1d 11h 59m 38s"}
+{"loss": 0.0939298, "token_acc": 0.96131009, "grad_norm": 1.51787782, "learning_rate": 4.475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236191, "epoch": 2.66750515, "global_step/max_steps": "34995/65595", "percentage": "53.35%", "elapsed_time": "1d 17h 9m 21s", "remaining_time": "1d 11h 59m 14s"}
+{"loss": 0.06246811, "token_acc": 0.97352637, "grad_norm": 0.90800756, "learning_rate": 4.474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236199, "epoch": 2.66788627, "global_step/max_steps": "35000/65595", "percentage": "53.36%", "elapsed_time": "1d 17h 9m 37s", "remaining_time": "1d 11h 58m 48s"}
+{"eval_loss": 0.07843137, "eval_token_acc": 0.96634992, "eval_runtime": 221.7515, "eval_samples_per_second": 2.39, "eval_steps_per_second": 2.39, "epoch": 2.66788627, "global_step/max_steps": "35000/65595", "percentage": "53.36%", "elapsed_time": "1d 17h 13m 19s", "remaining_time": "1d 12h 2m 2s"}
+{"loss": 0.07848841, "token_acc": 0.96691536, "grad_norm": 0.63077861, "learning_rate": 4.472e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235846, "epoch": 2.6682674, "global_step/max_steps": "35005/65595", "percentage": "53.37%", "elapsed_time": "1d 17h 13m 40s", "remaining_time": "1d 12h 1m 41s"}
+{"loss": 0.07102154, "token_acc": 0.97277754, "grad_norm": 1.06421781, "learning_rate": 4.471e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235856, "epoch": 2.66864853, "global_step/max_steps": "35010/65595", "percentage": "53.37%", "elapsed_time": "1d 17h 13m 55s", "remaining_time": "1d 12h 1m 14s"}
+{"loss": 0.1161278, "token_acc": 0.9497319, "grad_norm": 1.66643846, "learning_rate": 4.47e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235865, "epoch": 2.66902965, "global_step/max_steps": "35015/65595", "percentage": "53.38%", "elapsed_time": "1d 17h 14m 11s", "remaining_time": "1d 12h 0m 48s"}
+{"loss": 0.07632217, "token_acc": 0.97697698, "grad_norm": 0.56379384, "learning_rate": 4.469e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23587, "epoch": 2.66941078, "global_step/max_steps": "35020/65595", "percentage": "53.39%", "elapsed_time": "1d 17h 14m 29s", "remaining_time": "1d 12h 0m 24s"}
+{"loss": 0.1144163, "token_acc": 0.95045045, "grad_norm": 1.51706159, "learning_rate": 4.468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23588, "epoch": 2.6697919, "global_step/max_steps": "35025/65595", "percentage": "53.40%", "elapsed_time": "1d 17h 14m 44s", "remaining_time": "1d 11h 59m 57s"}
+{"loss": 0.07293435, "token_acc": 0.97251701, "grad_norm": 0.97318935, "learning_rate": 4.466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235888, "epoch": 2.67017303, "global_step/max_steps": "35030/65595", "percentage": "53.40%", "elapsed_time": "1d 17h 15m 0s", "remaining_time": "1d 11h 59m 32s"}
+{"loss": 0.10521277, "token_acc": 0.96798853, "grad_norm": 0.55900353, "learning_rate": 4.465e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235892, "epoch": 2.67055416, "global_step/max_steps": "35035/65595", "percentage": "53.41%", "elapsed_time": "1d 17h 15m 19s", "remaining_time": "1d 11h 59m 9s"}
+{"loss": 0.11190294, "token_acc": 0.96256381, "grad_norm": 1.07464623, "learning_rate": 4.464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2359, "epoch": 2.67093528, "global_step/max_steps": "35040/65595", "percentage": "53.42%", "elapsed_time": "1d 17h 15m 35s", "remaining_time": "1d 11h 58m 43s"}
+{"loss": 0.06761512, "token_acc": 0.97575107, "grad_norm": 1.46653569, "learning_rate": 4.463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235906, "epoch": 2.67131641, "global_step/max_steps": "35045/65595", "percentage": "53.43%", "elapsed_time": "1d 17h 15m 52s", "remaining_time": "1d 11h 58m 19s"}
+{"loss": 0.08903477, "token_acc": 0.96902566, "grad_norm": 0.61326325, "learning_rate": 4.462e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235906, "epoch": 2.67169754, "global_step/max_steps": "35050/65595", "percentage": "53.43%", "elapsed_time": "1d 17h 16m 14s", "remaining_time": "1d 11h 57m 57s"}
+{"loss": 0.10179684, "token_acc": 0.97084963, "grad_norm": 1.82865179, "learning_rate": 4.46e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235913, "epoch": 2.67207866, "global_step/max_steps": "35055/65595", "percentage": "53.44%", "elapsed_time": "1d 17h 16m 30s", "remaining_time": "1d 11h 57m 32s"}
+{"loss": 0.12122589, "token_acc": 0.95007281, "grad_norm": 0.4339956, "learning_rate": 4.459e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235921, "epoch": 2.67245979, "global_step/max_steps": "35060/65595", "percentage": "53.45%", "elapsed_time": "1d 17h 16m 46s", "remaining_time": "1d 11h 57m 6s"}
+{"loss": 0.09570226, "token_acc": 0.96732922, "grad_norm": 0.9354884, "learning_rate": 4.458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235928, "epoch": 2.67284092, "global_step/max_steps": "35065/65595", "percentage": "53.46%", "elapsed_time": "1d 17h 17m 3s", "remaining_time": "1d 11h 56m 41s"}
+{"loss": 0.11747571, "token_acc": 0.95576408, "grad_norm": 1.36616421, "learning_rate": 4.457e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235934, "epoch": 2.67322204, "global_step/max_steps": "35070/65595", "percentage": "53.46%", "elapsed_time": "1d 17h 17m 21s", "remaining_time": "1d 11h 56m 17s"}
+{"loss": 0.16360346, "token_acc": 0.94041596, "grad_norm": 0.70411438, "learning_rate": 4.456e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235943, "epoch": 2.67360317, "global_step/max_steps": "35075/65595", "percentage": "53.47%", "elapsed_time": "1d 17h 17m 36s", "remaining_time": "1d 11h 55m 51s"}
+{"loss": 0.07659585, "token_acc": 0.96767988, "grad_norm": 1.03606856, "learning_rate": 4.455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235953, "epoch": 2.6739843, "global_step/max_steps": "35080/65595", "percentage": "53.48%", "elapsed_time": "1d 17h 17m 51s", "remaining_time": "1d 11h 55m 24s"}
+{"loss": 0.10948672, "token_acc": 0.95701245, "grad_norm": 0.93097234, "learning_rate": 4.453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235958, "epoch": 2.67436542, "global_step/max_steps": "35085/65595", "percentage": "53.49%", "elapsed_time": "1d 17h 18m 9s", "remaining_time": "1d 11h 55m 0s"}
+{"loss": 0.08245309, "token_acc": 0.96568762, "grad_norm": 0.90386993, "learning_rate": 4.452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235966, "epoch": 2.67474655, "global_step/max_steps": "35090/65595", "percentage": "53.49%", "elapsed_time": "1d 17h 18m 25s", "remaining_time": "1d 11h 54m 34s"}
+{"loss": 0.11698804, "token_acc": 0.9545177, "grad_norm": 0.83272809, "learning_rate": 4.451e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235974, "epoch": 2.67512768, "global_step/max_steps": "35095/65595", "percentage": "53.50%", "elapsed_time": "1d 17h 18m 41s", "remaining_time": "1d 11h 54m 9s"}
+{"loss": 0.08347608, "token_acc": 0.96184038, "grad_norm": 0.59157664, "learning_rate": 4.45e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235983, "epoch": 2.6755088, "global_step/max_steps": "35100/65595", "percentage": "53.51%", "elapsed_time": "1d 17h 18m 57s", "remaining_time": "1d 11h 53m 43s"}
+{"loss": 0.07888558, "token_acc": 0.96986655, "grad_norm": 0.95118874, "learning_rate": 4.449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235986, "epoch": 2.67588993, "global_step/max_steps": "35105/65595", "percentage": "53.52%", "elapsed_time": "1d 17h 19m 16s", "remaining_time": "1d 11h 53m 20s"}
+{"loss": 0.10269246, "token_acc": 0.96310135, "grad_norm": 1.04517889, "learning_rate": 4.447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235992, "epoch": 2.67627106, "global_step/max_steps": "35110/65595", "percentage": "53.53%", "elapsed_time": "1d 17h 19m 33s", "remaining_time": "1d 11h 52m 56s"}
+{"loss": 0.11112785, "token_acc": 0.95281307, "grad_norm": 1.03181279, "learning_rate": 4.446e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235999, "epoch": 2.67665218, "global_step/max_steps": "35115/65595", "percentage": "53.53%", "elapsed_time": "1d 17h 19m 50s", "remaining_time": "1d 11h 52m 31s"}
+{"loss": 0.07435341, "token_acc": 0.96728118, "grad_norm": 0.59850419, "learning_rate": 4.445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236007, "epoch": 2.67703331, "global_step/max_steps": "35120/65595", "percentage": "53.54%", "elapsed_time": "1d 17h 20m 7s", "remaining_time": "1d 11h 52m 5s"}
+{"loss": 0.09671497, "token_acc": 0.96594957, "grad_norm": 1.14067948, "learning_rate": 4.444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236009, "epoch": 2.67741444, "global_step/max_steps": "35125/65595", "percentage": "53.55%", "elapsed_time": "1d 17h 20m 26s", "remaining_time": "1d 11h 51m 43s"}
+{"loss": 0.09976692, "token_acc": 0.96293279, "grad_norm": 0.70004815, "learning_rate": 4.443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236016, "epoch": 2.67779556, "global_step/max_steps": "35130/65595", "percentage": "53.56%", "elapsed_time": "1d 17h 20m 43s", "remaining_time": "1d 11h 51m 18s"}
+{"loss": 0.08998606, "token_acc": 0.97134123, "grad_norm": 1.34624732, "learning_rate": 4.441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23602, "epoch": 2.67817669, "global_step/max_steps": "35135/65595", "percentage": "53.56%", "elapsed_time": "1d 17h 21m 1s", "remaining_time": "1d 11h 50m 54s"}
+{"loss": 0.06629633, "token_acc": 0.97162596, "grad_norm": 0.65524453, "learning_rate": 4.44e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236028, "epoch": 2.67855782, "global_step/max_steps": "35140/65595", "percentage": "53.57%", "elapsed_time": "1d 17h 21m 18s", "remaining_time": "1d 11h 50m 29s"}
+{"loss": 0.07014609, "token_acc": 0.97275823, "grad_norm": 1.84151542, "learning_rate": 4.439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236036, "epoch": 2.67893894, "global_step/max_steps": "35145/65595", "percentage": "53.58%", "elapsed_time": "1d 17h 21m 34s", "remaining_time": "1d 11h 50m 3s"}
+{"loss": 0.07307874, "token_acc": 0.96944621, "grad_norm": 0.61693507, "learning_rate": 4.438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236044, "epoch": 2.67932007, "global_step/max_steps": "35150/65595", "percentage": "53.59%", "elapsed_time": "1d 17h 21m 50s", "remaining_time": "1d 11h 49m 38s"}
+{"loss": 0.07986956, "token_acc": 0.95967444, "grad_norm": 0.94018275, "learning_rate": 4.437e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236054, "epoch": 2.6797012, "global_step/max_steps": "35155/65595", "percentage": "53.59%", "elapsed_time": "1d 17h 22m 5s", "remaining_time": "1d 11h 49m 11s"}
+{"loss": 0.06940812, "token_acc": 0.97165992, "grad_norm": 0.65539759, "learning_rate": 4.435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236058, "epoch": 2.68008232, "global_step/max_steps": "35160/65595", "percentage": "53.60%", "elapsed_time": "1d 17h 22m 24s", "remaining_time": "1d 11h 48m 48s"}
+{"loss": 0.08336496, "token_acc": 0.9704126, "grad_norm": 0.96119946, "learning_rate": 4.434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236065, "epoch": 2.68046345, "global_step/max_steps": "35165/65595", "percentage": "53.61%", "elapsed_time": "1d 17h 22m 40s", "remaining_time": "1d 11h 48m 23s"}
+{"loss": 0.14030875, "token_acc": 0.96187642, "grad_norm": 1.97116709, "learning_rate": 4.433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236069, "epoch": 2.68084458, "global_step/max_steps": "35170/65595", "percentage": "53.62%", "elapsed_time": "1d 17h 22m 59s", "remaining_time": "1d 11h 48m 0s"}
+{"loss": 0.10978789, "token_acc": 0.95487053, "grad_norm": 0.95865399, "learning_rate": 4.432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236077, "epoch": 2.6812257, "global_step/max_steps": "35175/65595", "percentage": "53.62%", "elapsed_time": "1d 17h 23m 15s", "remaining_time": "1d 11h 47m 34s"}
+{"loss": 0.05561673, "token_acc": 0.97672139, "grad_norm": 0.97086334, "learning_rate": 4.431e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236083, "epoch": 2.68160683, "global_step/max_steps": "35180/65595", "percentage": "53.63%", "elapsed_time": "1d 17h 23m 32s", "remaining_time": "1d 11h 47m 9s"}
+{"loss": 0.08995945, "token_acc": 0.9654671, "grad_norm": 1.68553329, "learning_rate": 4.43e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236088, "epoch": 2.68198796, "global_step/max_steps": "35185/65595", "percentage": "53.64%", "elapsed_time": "1d 17h 23m 51s", "remaining_time": "1d 11h 46m 45s"}
+{"loss": 0.0829021, "token_acc": 0.96927204, "grad_norm": 1.0304209, "learning_rate": 4.428e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236089, "epoch": 2.68236908, "global_step/max_steps": "35190/65595", "percentage": "53.65%", "elapsed_time": "1d 17h 24m 11s", "remaining_time": "1d 11h 46m 24s"}
+{"loss": 0.08793768, "token_acc": 0.9703631, "grad_norm": 1.30226076, "learning_rate": 4.427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236093, "epoch": 2.68275021, "global_step/max_steps": "35195/65595", "percentage": "53.66%", "elapsed_time": "1d 17h 24m 30s", "remaining_time": "1d 11h 46m 0s"}
+{"loss": 0.05441788, "token_acc": 0.97965451, "grad_norm": 1.46070731, "learning_rate": 4.426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236103, "epoch": 2.68313134, "global_step/max_steps": "35200/65595", "percentage": "53.66%", "elapsed_time": "1d 17h 24m 44s", "remaining_time": "1d 11h 45m 34s"}
+{"eval_loss": 0.07838716, "eval_token_acc": 0.96590567, "eval_runtime": 221.4811, "eval_samples_per_second": 2.393, "eval_steps_per_second": 2.393, "epoch": 2.68313134, "global_step/max_steps": "35200/65595", "percentage": "53.66%", "elapsed_time": "1d 17h 28m 26s", "remaining_time": "1d 11h 48m 45s"}
+{"loss": 0.09090142, "token_acc": 0.96592747, "grad_norm": 1.01648724, "learning_rate": 4.425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23576, "epoch": 2.68351246, "global_step/max_steps": "35205/65595", "percentage": "53.67%", "elapsed_time": "1d 17h 28m 43s", "remaining_time": "1d 11h 48m 20s"}
+{"loss": 0.09625782, "token_acc": 0.95697897, "grad_norm": 1.01698685, "learning_rate": 4.424e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235768, "epoch": 2.68389359, "global_step/max_steps": "35210/65595", "percentage": "53.68%", "elapsed_time": "1d 17h 28m 59s", "remaining_time": "1d 11h 47m 54s"}
+{"loss": 0.07743847, "token_acc": 0.96568502, "grad_norm": 1.00604057, "learning_rate": 4.422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235776, "epoch": 2.68427472, "global_step/max_steps": "35215/65595", "percentage": "53.69%", "elapsed_time": "1d 17h 29m 15s", "remaining_time": "1d 11h 47m 29s"}
+{"loss": 0.12534357, "token_acc": 0.9616989, "grad_norm": 0.92065293, "learning_rate": 4.421e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235786, "epoch": 2.68465584, "global_step/max_steps": "35220/65595", "percentage": "53.69%", "elapsed_time": "1d 17h 29m 30s", "remaining_time": "1d 11h 47m 2s"}
+{"loss": 0.08128911, "token_acc": 0.95949571, "grad_norm": 0.88826817, "learning_rate": 4.42e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235794, "epoch": 2.68503697, "global_step/max_steps": "35225/65595", "percentage": "53.70%", "elapsed_time": "1d 17h 29m 46s", "remaining_time": "1d 11h 46m 36s"}
+{"loss": 0.09914634, "token_acc": 0.95843829, "grad_norm": 0.95355827, "learning_rate": 4.419e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235802, "epoch": 2.6854181, "global_step/max_steps": "35230/65595", "percentage": "53.71%", "elapsed_time": "1d 17h 30m 3s", "remaining_time": "1d 11h 46m 11s"}
+{"loss": 0.06210626, "token_acc": 0.97322435, "grad_norm": 0.84575111, "learning_rate": 4.418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23581, "epoch": 2.68579922, "global_step/max_steps": "35235/65595", "percentage": "53.72%", "elapsed_time": "1d 17h 30m 19s", "remaining_time": "1d 11h 45m 45s"}
+{"loss": 0.05522759, "token_acc": 0.96869773, "grad_norm": 0.74572331, "learning_rate": 4.416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235815, "epoch": 2.68618035, "global_step/max_steps": "35240/65595", "percentage": "53.72%", "elapsed_time": "1d 17h 30m 36s", "remaining_time": "1d 11h 45m 21s"}
+{"loss": 0.06324334, "token_acc": 0.97850013, "grad_norm": 0.76934534, "learning_rate": 4.415e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235823, "epoch": 2.68656148, "global_step/max_steps": "35245/65595", "percentage": "53.73%", "elapsed_time": "1d 17h 30m 53s", "remaining_time": "1d 11h 44m 56s"}
+{"loss": 0.0638448, "token_acc": 0.96850552, "grad_norm": 0.88350689, "learning_rate": 4.414e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235829, "epoch": 2.6869426, "global_step/max_steps": "35250/65595", "percentage": "53.74%", "elapsed_time": "1d 17h 31m 10s", "remaining_time": "1d 11h 44m 31s"}
+{"loss": 0.09133311, "token_acc": 0.97094771, "grad_norm": 1.21292877, "learning_rate": 4.413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235833, "epoch": 2.68732373, "global_step/max_steps": "35255/65595", "percentage": "53.75%", "elapsed_time": "1d 17h 31m 28s", "remaining_time": "1d 11h 44m 8s"}
+{"loss": 0.07776566, "token_acc": 0.96851815, "grad_norm": 0.84288985, "learning_rate": 4.412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235839, "epoch": 2.68770486, "global_step/max_steps": "35260/65595", "percentage": "53.75%", "elapsed_time": "1d 17h 31m 46s", "remaining_time": "1d 11h 43m 43s"}
+{"loss": 0.07144678, "token_acc": 0.96629213, "grad_norm": 0.72389096, "learning_rate": 4.41e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235848, "epoch": 2.68808598, "global_step/max_steps": "35265/65595", "percentage": "53.76%", "elapsed_time": "1d 17h 32m 1s", "remaining_time": "1d 11h 43m 17s"}
+{"loss": 0.0719164, "token_acc": 0.96608892, "grad_norm": 1.44849706, "learning_rate": 4.409e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235858, "epoch": 2.68846711, "global_step/max_steps": "35270/65595", "percentage": "53.77%", "elapsed_time": "1d 17h 32m 16s", "remaining_time": "1d 11h 42m 50s"}
+{"loss": 0.08877196, "token_acc": 0.96363297, "grad_norm": 0.74430245, "learning_rate": 4.408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235864, "epoch": 2.68884824, "global_step/max_steps": "35275/65595", "percentage": "53.78%", "elapsed_time": "1d 17h 32m 34s", "remaining_time": "1d 11h 42m 26s"}
+{"loss": 0.1061381, "token_acc": 0.96899759, "grad_norm": 0.63002807, "learning_rate": 4.407e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235874, "epoch": 2.68922936, "global_step/max_steps": "35280/65595", "percentage": "53.78%", "elapsed_time": "1d 17h 32m 49s", "remaining_time": "1d 11h 42m 0s"}
+{"loss": 0.08017803, "token_acc": 0.96809735, "grad_norm": 0.66337591, "learning_rate": 4.406e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235878, "epoch": 2.68961049, "global_step/max_steps": "35285/65595", "percentage": "53.79%", "elapsed_time": "1d 17h 33m 7s", "remaining_time": "1d 11h 41m 36s"}
+{"loss": 0.16422526, "token_acc": 0.95711959, "grad_norm": 1.46975183, "learning_rate": 4.405e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235882, "epoch": 2.68999162, "global_step/max_steps": "35290/65595", "percentage": "53.80%", "elapsed_time": "1d 17h 33m 26s", "remaining_time": "1d 11h 41m 13s"}
+{"loss": 0.0947178, "token_acc": 0.96544774, "grad_norm": 1.19845772, "learning_rate": 4.403e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235885, "epoch": 2.69037274, "global_step/max_steps": "35295/65595", "percentage": "53.81%", "elapsed_time": "1d 17h 33m 45s", "remaining_time": "1d 11h 40m 50s"}
+{"loss": 0.08634262, "token_acc": 0.96114309, "grad_norm": 1.1482563, "learning_rate": 4.402e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235893, "epoch": 2.69075387, "global_step/max_steps": "35300/65595", "percentage": "53.82%", "elapsed_time": "1d 17h 34m 1s", "remaining_time": "1d 11h 40m 24s"}
+{"loss": 0.13199711, "token_acc": 0.95581587, "grad_norm": 1.16811693, "learning_rate": 4.401e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2359, "epoch": 2.691135, "global_step/max_steps": "35305/65595", "percentage": "53.82%", "elapsed_time": "1d 17h 34m 18s", "remaining_time": "1d 11h 40m 0s"}
+{"loss": 0.06836973, "token_acc": 0.97336533, "grad_norm": 0.67071784, "learning_rate": 4.4e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235903, "epoch": 2.69151612, "global_step/max_steps": "35310/65595", "percentage": "53.83%", "elapsed_time": "1d 17h 34m 38s", "remaining_time": "1d 11h 39m 37s"}
+{"loss": 0.05711746, "token_acc": 0.97783982, "grad_norm": 0.91654515, "learning_rate": 4.399e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235909, "epoch": 2.69189725, "global_step/max_steps": "35315/65595", "percentage": "53.84%", "elapsed_time": "1d 17h 34m 55s", "remaining_time": "1d 11h 39m 12s"}
+{"loss": 0.1039546, "token_acc": 0.96373874, "grad_norm": 1.80331504, "learning_rate": 4.397e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235916, "epoch": 2.69227837, "global_step/max_steps": "35320/65595", "percentage": "53.85%", "elapsed_time": "1d 17h 35m 11s", "remaining_time": "1d 11h 38m 47s"}
+{"loss": 0.05258958, "token_acc": 0.97114151, "grad_norm": 0.81631738, "learning_rate": 4.396e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235923, "epoch": 2.6926595, "global_step/max_steps": "35325/65595", "percentage": "53.85%", "elapsed_time": "1d 17h 35m 28s", "remaining_time": "1d 11h 38m 22s"}
+{"loss": 0.09913858, "token_acc": 0.94869846, "grad_norm": 0.90083182, "learning_rate": 4.395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235931, "epoch": 2.69304063, "global_step/max_steps": "35330/65595", "percentage": "53.86%", "elapsed_time": "1d 17h 35m 45s", "remaining_time": "1d 11h 37m 57s"}
+{"loss": 0.10175211, "token_acc": 0.95871226, "grad_norm": 0.90781617, "learning_rate": 4.394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235935, "epoch": 2.69342175, "global_step/max_steps": "35335/65595", "percentage": "53.87%", "elapsed_time": "1d 17h 36m 3s", "remaining_time": "1d 11h 37m 33s"}
+{"loss": 0.12729686, "token_acc": 0.95843847, "grad_norm": 1.05694759, "learning_rate": 4.393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235938, "epoch": 2.69380288, "global_step/max_steps": "35340/65595", "percentage": "53.88%", "elapsed_time": "1d 17h 36m 22s", "remaining_time": "1d 11h 37m 10s"}
+{"loss": 0.09144845, "token_acc": 0.95660586, "grad_norm": 1.52046919, "learning_rate": 4.391e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235946, "epoch": 2.69418401, "global_step/max_steps": "35345/65595", "percentage": "53.88%", "elapsed_time": "1d 17h 36m 38s", "remaining_time": "1d 11h 36m 45s"}
+{"loss": 0.09276121, "token_acc": 0.96547315, "grad_norm": 1.05466175, "learning_rate": 4.39e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235951, "epoch": 2.69456513, "global_step/max_steps": "35350/65595", "percentage": "53.89%", "elapsed_time": "1d 17h 36m 56s", "remaining_time": "1d 11h 36m 21s"}
+{"loss": 0.0787215, "token_acc": 0.97085002, "grad_norm": 0.92062294, "learning_rate": 4.389e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23596, "epoch": 2.69494626, "global_step/max_steps": "35355/65595", "percentage": "53.90%", "elapsed_time": "1d 17h 37m 12s", "remaining_time": "1d 11h 35m 55s"}
+{"loss": 0.09731523, "token_acc": 0.9547619, "grad_norm": 0.46435466, "learning_rate": 4.388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235968, "epoch": 2.69532739, "global_step/max_steps": "35360/65595", "percentage": "53.91%", "elapsed_time": "1d 17h 37m 28s", "remaining_time": "1d 11h 35m 29s"}
+{"loss": 0.0803318, "token_acc": 0.9697763, "grad_norm": 1.05776203, "learning_rate": 4.387e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235975, "epoch": 2.69570851, "global_step/max_steps": "35365/65595", "percentage": "53.91%", "elapsed_time": "1d 17h 37m 45s", "remaining_time": "1d 11h 35m 4s"}
+{"loss": 0.07029535, "token_acc": 0.97512654, "grad_norm": 0.63516766, "learning_rate": 4.386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235977, "epoch": 2.69608964, "global_step/max_steps": "35370/65595", "percentage": "53.92%", "elapsed_time": "1d 17h 38m 5s", "remaining_time": "1d 11h 34m 42s"}
+{"loss": 0.08743615, "token_acc": 0.96929008, "grad_norm": 0.73729813, "learning_rate": 4.384e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23598, "epoch": 2.69647077, "global_step/max_steps": "35375/65595", "percentage": "53.93%", "elapsed_time": "1d 17h 38m 24s", "remaining_time": "1d 11h 34m 19s"}
+{"loss": 0.07841693, "token_acc": 0.97440191, "grad_norm": 0.86379725, "learning_rate": 4.383e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235986, "epoch": 2.69685189, "global_step/max_steps": "35380/65595", "percentage": "53.94%", "elapsed_time": "1d 17h 38m 42s", "remaining_time": "1d 11h 33m 55s"}
+{"loss": 0.12298245, "token_acc": 0.94909478, "grad_norm": 1.3424542, "learning_rate": 4.382e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235994, "epoch": 2.69723302, "global_step/max_steps": "35385/65595", "percentage": "53.94%", "elapsed_time": "1d 17h 38m 57s", "remaining_time": "1d 11h 33m 29s"}
+{"loss": 0.04612144, "token_acc": 0.97288503, "grad_norm": 0.06202472, "learning_rate": 4.381e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236002, "epoch": 2.69761415, "global_step/max_steps": "35390/65595", "percentage": "53.95%", "elapsed_time": "1d 17h 39m 13s", "remaining_time": "1d 11h 33m 4s"}
+{"loss": 0.07536575, "token_acc": 0.97240738, "grad_norm": 1.13433158, "learning_rate": 4.38e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236004, "epoch": 2.69799527, "global_step/max_steps": "35395/65595", "percentage": "53.96%", "elapsed_time": "1d 17h 39m 33s", "remaining_time": "1d 11h 32m 41s"}
+{"loss": 0.06245092, "token_acc": 0.97508591, "grad_norm": 0.5838272, "learning_rate": 4.378e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236012, "epoch": 2.6983764, "global_step/max_steps": "35400/65595", "percentage": "53.97%", "elapsed_time": "1d 17h 39m 50s", "remaining_time": "1d 11h 32m 16s"}
+{"eval_loss": 0.07676771, "eval_token_acc": 0.96668875, "eval_runtime": 221.0225, "eval_samples_per_second": 2.398, "eval_steps_per_second": 2.398, "epoch": 2.6983764, "global_step/max_steps": "35400/65595", "percentage": "53.97%", "elapsed_time": "1d 17h 43m 31s", "remaining_time": "1d 11h 35m 25s"}
+{"loss": 0.07267065, "token_acc": 0.96676388, "grad_norm": 0.63212627, "learning_rate": 4.377e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235667, "epoch": 2.69875753, "global_step/max_steps": "35405/65595", "percentage": "53.98%", "elapsed_time": "1d 17h 43m 51s", "remaining_time": "1d 11h 35m 2s"}
+{"loss": 0.10444469, "token_acc": 0.96567835, "grad_norm": 0.63172257, "learning_rate": 4.376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235673, "epoch": 2.69913865, "global_step/max_steps": "35410/65595", "percentage": "53.98%", "elapsed_time": "1d 17h 44m 8s", "remaining_time": "1d 11h 34m 38s"}
+{"loss": 0.07969511, "token_acc": 0.9730958, "grad_norm": 0.75785148, "learning_rate": 4.375e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235676, "epoch": 2.69951978, "global_step/max_steps": "35415/65595", "percentage": "53.99%", "elapsed_time": "1d 17h 44m 27s", "remaining_time": "1d 11h 34m 15s"}
+{"loss": 0.07491014, "token_acc": 0.97196365, "grad_norm": 0.6820761, "learning_rate": 4.374e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235677, "epoch": 2.69990091, "global_step/max_steps": "35420/65595", "percentage": "54.00%", "elapsed_time": "1d 17h 44m 48s", "remaining_time": "1d 11h 33m 53s"}
+{"loss": 0.07084067, "token_acc": 0.97309594, "grad_norm": 0.57686424, "learning_rate": 4.372e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235676, "epoch": 2.70028203, "global_step/max_steps": "35425/65595", "percentage": "54.01%", "elapsed_time": "1d 17h 45m 10s", "remaining_time": "1d 11h 33m 32s"}
+{"loss": 0.0826247, "token_acc": 0.96688103, "grad_norm": 1.33603156, "learning_rate": 4.371e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23568, "epoch": 2.70066316, "global_step/max_steps": "35430/65595", "percentage": "54.01%", "elapsed_time": "1d 17h 45m 28s", "remaining_time": "1d 11h 33m 9s"}
+{"loss": 0.11395291, "token_acc": 0.96125117, "grad_norm": 1.95612705, "learning_rate": 4.37e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23569, "epoch": 2.70104429, "global_step/max_steps": "35435/65595", "percentage": "54.02%", "elapsed_time": "1d 17h 45m 43s", "remaining_time": "1d 11h 32m 42s"}
+{"loss": 0.08316537, "token_acc": 0.9677377, "grad_norm": 0.57222039, "learning_rate": 4.369e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235693, "epoch": 2.70142541, "global_step/max_steps": "35440/65595", "percentage": "54.03%", "elapsed_time": "1d 17h 46m 2s", "remaining_time": "1d 11h 32m 19s"}
+{"loss": 0.09825537, "token_acc": 0.95800424, "grad_norm": 1.0655967, "learning_rate": 4.368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235699, "epoch": 2.70180654, "global_step/max_steps": "35445/65595", "percentage": "54.04%", "elapsed_time": "1d 17h 46m 20s", "remaining_time": "1d 11h 31m 55s"}
+{"loss": 0.11071167, "token_acc": 0.96498516, "grad_norm": 0.67102939, "learning_rate": 4.367e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235705, "epoch": 2.70218767, "global_step/max_steps": "35450/65595", "percentage": "54.04%", "elapsed_time": "1d 17h 46m 37s", "remaining_time": "1d 11h 31m 30s"}
+{"loss": 0.06675156, "token_acc": 0.97303544, "grad_norm": 1.0139358, "learning_rate": 4.365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235711, "epoch": 2.70256879, "global_step/max_steps": "35455/65595", "percentage": "54.05%", "elapsed_time": "1d 17h 46m 55s", "remaining_time": "1d 11h 31m 6s"}
+{"loss": 0.06650227, "token_acc": 0.97769481, "grad_norm": 0.4084222, "learning_rate": 4.364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235711, "epoch": 2.70294992, "global_step/max_steps": "35460/65595", "percentage": "54.06%", "elapsed_time": "1d 17h 47m 16s", "remaining_time": "1d 11h 30m 45s"}
+{"loss": 0.10579249, "token_acc": 0.97024276, "grad_norm": 1.17182326, "learning_rate": 4.363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235718, "epoch": 2.70333105, "global_step/max_steps": "35465/65595", "percentage": "54.07%", "elapsed_time": "1d 17h 47m 32s", "remaining_time": "1d 11h 30m 20s"}
+{"loss": 0.07406132, "token_acc": 0.96856158, "grad_norm": 0.88719237, "learning_rate": 4.362e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235726, "epoch": 2.70371217, "global_step/max_steps": "35470/65595", "percentage": "54.07%", "elapsed_time": "1d 17h 47m 49s", "remaining_time": "1d 11h 29m 54s"}
+{"loss": 0.05730893, "token_acc": 0.97799132, "grad_norm": 1.29774094, "learning_rate": 4.361e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235735, "epoch": 2.7040933, "global_step/max_steps": "35475/65595", "percentage": "54.08%", "elapsed_time": "1d 17h 48m 4s", "remaining_time": "1d 11h 29m 28s"}
+{"loss": 0.06825004, "token_acc": 0.97189363, "grad_norm": 0.53090453, "learning_rate": 4.359e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235736, "epoch": 2.70447443, "global_step/max_steps": "35480/65595", "percentage": "54.09%", "elapsed_time": "1d 17h 48m 25s", "remaining_time": "1d 11h 29m 7s"}
+{"loss": 0.1171031, "token_acc": 0.94525083, "grad_norm": 1.56213188, "learning_rate": 4.358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235744, "epoch": 2.70485555, "global_step/max_steps": "35485/65595", "percentage": "54.10%", "elapsed_time": "1d 17h 48m 41s", "remaining_time": "1d 11h 28m 41s"}
+{"loss": 0.08137758, "token_acc": 0.96312555, "grad_norm": 0.88140678, "learning_rate": 4.357e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235749, "epoch": 2.70523668, "global_step/max_steps": "35490/65595", "percentage": "54.10%", "elapsed_time": "1d 17h 48m 59s", "remaining_time": "1d 11h 28m 17s"}
+{"loss": 0.06542729, "token_acc": 0.97879342, "grad_norm": 0.44718263, "learning_rate": 4.356e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235754, "epoch": 2.70561781, "global_step/max_steps": "35495/65595", "percentage": "54.11%", "elapsed_time": "1d 17h 49m 17s", "remaining_time": "1d 11h 27m 53s"}
+{"loss": 0.09437135, "token_acc": 0.95895682, "grad_norm": 1.28745484, "learning_rate": 4.355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235766, "epoch": 2.70599893, "global_step/max_steps": "35500/65595", "percentage": "54.12%", "elapsed_time": "1d 17h 49m 31s", "remaining_time": "1d 11h 27m 26s"}
+{"loss": 0.08073941, "token_acc": 0.97204228, "grad_norm": 0.63465422, "learning_rate": 4.353e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235762, "epoch": 2.70638006, "global_step/max_steps": "35505/65595", "percentage": "54.13%", "elapsed_time": "1d 17h 49m 54s", "remaining_time": "1d 11h 27m 6s"}
+{"loss": 0.08905957, "token_acc": 0.96040438, "grad_norm": 0.81582505, "learning_rate": 4.352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235771, "epoch": 2.70676119, "global_step/max_steps": "35510/65595", "percentage": "54.14%", "elapsed_time": "1d 17h 50m 10s", "remaining_time": "1d 11h 26m 41s"}
+{"loss": 0.08909804, "token_acc": 0.95957011, "grad_norm": 1.48637819, "learning_rate": 4.351e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235778, "epoch": 2.70714231, "global_step/max_steps": "35515/65595", "percentage": "54.14%", "elapsed_time": "1d 17h 50m 26s", "remaining_time": "1d 11h 26m 15s"}
+{"loss": 0.07356291, "token_acc": 0.97321209, "grad_norm": 1.2774781, "learning_rate": 4.35e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235787, "epoch": 2.70752344, "global_step/max_steps": "35520/65595", "percentage": "54.15%", "elapsed_time": "1d 17h 50m 42s", "remaining_time": "1d 11h 25m 49s"}
+{"loss": 0.07424222, "token_acc": 0.96707472, "grad_norm": 0.25067008, "learning_rate": 4.349e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235795, "epoch": 2.70790457, "global_step/max_steps": "35525/65595", "percentage": "54.16%", "elapsed_time": "1d 17h 50m 58s", "remaining_time": "1d 11h 25m 23s"}
+{"loss": 0.06941035, "token_acc": 0.96640195, "grad_norm": 0.23121044, "learning_rate": 4.348e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235805, "epoch": 2.70828569, "global_step/max_steps": "35530/65595", "percentage": "54.17%", "elapsed_time": "1d 17h 51m 12s", "remaining_time": "1d 11h 24m 57s"}
+{"loss": 0.04191495, "token_acc": 0.97540288, "grad_norm": 0.59197724, "learning_rate": 4.346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235815, "epoch": 2.70866682, "global_step/max_steps": "35535/65595", "percentage": "54.17%", "elapsed_time": "1d 17h 51m 28s", "remaining_time": "1d 11h 24m 31s"}
+{"loss": 0.05605158, "token_acc": 0.98293994, "grad_norm": 1.6588589, "learning_rate": 4.345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235823, "epoch": 2.70904795, "global_step/max_steps": "35540/65595", "percentage": "54.18%", "elapsed_time": "1d 17h 51m 44s", "remaining_time": "1d 11h 24m 5s"}
+{"loss": 0.08185315, "token_acc": 0.97043364, "grad_norm": 0.56521493, "learning_rate": 4.344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23583, "epoch": 2.70942907, "global_step/max_steps": "35545/65595", "percentage": "54.19%", "elapsed_time": "1d 17h 52m 0s", "remaining_time": "1d 11h 23m 40s"}
+{"loss": 0.08300834, "token_acc": 0.97504129, "grad_norm": 0.7423209, "learning_rate": 4.343e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235837, "epoch": 2.7098102, "global_step/max_steps": "35550/65595", "percentage": "54.20%", "elapsed_time": "1d 17h 52m 17s", "remaining_time": "1d 11h 23m 15s"}
+{"loss": 0.08577765, "token_acc": 0.97053807, "grad_norm": 0.66409671, "learning_rate": 4.342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235841, "epoch": 2.71019133, "global_step/max_steps": "35555/65595", "percentage": "54.20%", "elapsed_time": "1d 17h 52m 35s", "remaining_time": "1d 11h 22m 51s"}
+{"loss": 0.08674957, "token_acc": 0.96529284, "grad_norm": 2.084167, "learning_rate": 4.34e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23585, "epoch": 2.71057245, "global_step/max_steps": "35560/65595", "percentage": "54.21%", "elapsed_time": "1d 17h 52m 51s", "remaining_time": "1d 11h 22m 26s"}
+{"loss": 0.09079452, "token_acc": 0.97165742, "grad_norm": 2.40540147, "learning_rate": 4.339e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235858, "epoch": 2.71095358, "global_step/max_steps": "35565/65595", "percentage": "54.22%", "elapsed_time": "1d 17h 53m 7s", "remaining_time": "1d 11h 22m 0s"}
+{"loss": 0.06017959, "token_acc": 0.97508494, "grad_norm": 1.65013707, "learning_rate": 4.338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235869, "epoch": 2.71133471, "global_step/max_steps": "35570/65595", "percentage": "54.23%", "elapsed_time": "1d 17h 53m 21s", "remaining_time": "1d 11h 21m 33s"}
+{"loss": 0.11018457, "token_acc": 0.95993252, "grad_norm": 0.94082224, "learning_rate": 4.337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235877, "epoch": 2.71171583, "global_step/max_steps": "35575/65595", "percentage": "54.23%", "elapsed_time": "1d 17h 53m 38s", "remaining_time": "1d 11h 21m 7s"}
+{"loss": 0.12338459, "token_acc": 0.9590801, "grad_norm": 1.26730359, "learning_rate": 4.336e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235883, "epoch": 2.71209696, "global_step/max_steps": "35580/65595", "percentage": "54.24%", "elapsed_time": "1d 17h 53m 55s", "remaining_time": "1d 11h 20m 43s"}
+{"loss": 0.07662172, "token_acc": 0.96978295, "grad_norm": 0.98633909, "learning_rate": 4.334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235887, "epoch": 2.71247809, "global_step/max_steps": "35585/65595", "percentage": "54.25%", "elapsed_time": "1d 17h 54m 13s", "remaining_time": "1d 11h 20m 19s"}
+{"loss": 0.1071923, "token_acc": 0.97330298, "grad_norm": 1.69987512, "learning_rate": 4.333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235893, "epoch": 2.71285921, "global_step/max_steps": "35590/65595", "percentage": "54.26%", "elapsed_time": "1d 17h 54m 31s", "remaining_time": "1d 11h 19m 55s"}
+{"loss": 0.06603131, "token_acc": 0.97649412, "grad_norm": 0.53789705, "learning_rate": 4.332e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2359, "epoch": 2.71324034, "global_step/max_steps": "35595/65595", "percentage": "54.26%", "elapsed_time": "1d 17h 54m 47s", "remaining_time": "1d 11h 19m 30s"}
+{"loss": 0.06301345, "token_acc": 0.97520473, "grad_norm": 1.06974971, "learning_rate": 4.331e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235907, "epoch": 2.71362147, "global_step/max_steps": "35600/65595", "percentage": "54.27%", "elapsed_time": "1d 17h 55m 4s", "remaining_time": "1d 11h 19m 5s"}
+{"eval_loss": 0.07654815, "eval_token_acc": 0.96695229, "eval_runtime": 222.3236, "eval_samples_per_second": 2.384, "eval_steps_per_second": 2.384, "epoch": 2.71362147, "global_step/max_steps": "35600/65595", "percentage": "54.27%", "elapsed_time": "1d 17h 58m 47s", "remaining_time": "1d 11h 22m 13s"}
+{"loss": 0.07763549, "token_acc": 0.96717861, "grad_norm": 1.00579429, "learning_rate": 4.33e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235559, "epoch": 2.71400259, "global_step/max_steps": "35605/65595", "percentage": "54.28%", "elapsed_time": "1d 17h 59m 8s", "remaining_time": "1d 11h 21m 52s"}
+{"loss": 0.09439861, "token_acc": 0.96546808, "grad_norm": 1.74710178, "learning_rate": 4.329e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235563, "epoch": 2.71438372, "global_step/max_steps": "35610/65595", "percentage": "54.29%", "elapsed_time": "1d 17h 59m 27s", "remaining_time": "1d 11h 21m 28s"}
+{"loss": 0.10359672, "token_acc": 0.96385328, "grad_norm": 1.30447125, "learning_rate": 4.327e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235571, "epoch": 2.71476484, "global_step/max_steps": "35615/65595", "percentage": "54.30%", "elapsed_time": "1d 17h 59m 43s", "remaining_time": "1d 11h 21m 3s"}
+{"loss": 0.09638741, "token_acc": 0.96045347, "grad_norm": 0.95826465, "learning_rate": 4.326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235579, "epoch": 2.71514597, "global_step/max_steps": "35620/65595", "percentage": "54.30%", "elapsed_time": "1d 17h 59m 59s", "remaining_time": "1d 11h 20m 37s"}
+{"loss": 0.09296507, "token_acc": 0.96336038, "grad_norm": 1.5063864, "learning_rate": 4.325e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235586, "epoch": 2.7155271, "global_step/max_steps": "35625/65595", "percentage": "54.31%", "elapsed_time": "1d 18h 0m 16s", "remaining_time": "1d 11h 20m 12s"}
+{"loss": 0.08713528, "token_acc": 0.94759171, "grad_norm": 2.13002539, "learning_rate": 4.324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235595, "epoch": 2.71590822, "global_step/max_steps": "35630/65595", "percentage": "54.32%", "elapsed_time": "1d 18h 0m 32s", "remaining_time": "1d 11h 19m 46s"}
+{"loss": 0.07735422, "token_acc": 0.95930881, "grad_norm": 1.25944805, "learning_rate": 4.323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235604, "epoch": 2.71628935, "global_step/max_steps": "35635/65595", "percentage": "54.33%", "elapsed_time": "1d 18h 0m 47s", "remaining_time": "1d 11h 19m 20s"}
+{"loss": 0.09126785, "token_acc": 0.95799442, "grad_norm": 0.67733556, "learning_rate": 4.321e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235606, "epoch": 2.71667048, "global_step/max_steps": "35640/65595", "percentage": "54.33%", "elapsed_time": "1d 18h 1m 7s", "remaining_time": "1d 11h 18m 58s"}
+{"loss": 0.07618552, "token_acc": 0.97248288, "grad_norm": 0.98876905, "learning_rate": 4.32e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235611, "epoch": 2.7170516, "global_step/max_steps": "35645/65595", "percentage": "54.34%", "elapsed_time": "1d 18h 1m 25s", "remaining_time": "1d 11h 18m 34s"}
+{"loss": 0.10555519, "token_acc": 0.96427563, "grad_norm": 0.55628324, "learning_rate": 4.319e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235611, "epoch": 2.71743273, "global_step/max_steps": "35650/65595", "percentage": "54.35%", "elapsed_time": "1d 18h 1m 46s", "remaining_time": "1d 11h 18m 13s"}
+{"loss": 0.09457231, "token_acc": 0.96801737, "grad_norm": 0.85245383, "learning_rate": 4.318e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235615, "epoch": 2.71781386, "global_step/max_steps": "35655/65595", "percentage": "54.36%", "elapsed_time": "1d 18h 2m 5s", "remaining_time": "1d 11h 17m 49s"}
+{"loss": 0.09357575, "token_acc": 0.96855646, "grad_norm": 1.82323158, "learning_rate": 4.317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235622, "epoch": 2.71819498, "global_step/max_steps": "35660/65595", "percentage": "54.36%", "elapsed_time": "1d 18h 2m 21s", "remaining_time": "1d 11h 17m 24s"}
+{"loss": 0.09518301, "token_acc": 0.95845834, "grad_norm": 0.72948796, "learning_rate": 4.315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23563, "epoch": 2.71857611, "global_step/max_steps": "35665/65595", "percentage": "54.37%", "elapsed_time": "1d 18h 2m 37s", "remaining_time": "1d 11h 16m 59s"}
+{"loss": 0.08640878, "token_acc": 0.96630859, "grad_norm": 0.92758912, "learning_rate": 4.314e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23564, "epoch": 2.71895724, "global_step/max_steps": "35670/65595", "percentage": "54.38%", "elapsed_time": "1d 18h 2m 52s", "remaining_time": "1d 11h 16m 32s"}
+{"loss": 0.08236033, "token_acc": 0.97032528, "grad_norm": 0.68891507, "learning_rate": 4.313e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235645, "epoch": 2.71933836, "global_step/max_steps": "35675/65595", "percentage": "54.39%", "elapsed_time": "1d 18h 3m 10s", "remaining_time": "1d 11h 16m 8s"}
+{"loss": 0.07088986, "token_acc": 0.97096189, "grad_norm": 1.75702369, "learning_rate": 4.312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235655, "epoch": 2.71971949, "global_step/max_steps": "35680/65595", "percentage": "54.39%", "elapsed_time": "1d 18h 3m 25s", "remaining_time": "1d 11h 15m 42s"}
+{"loss": 0.06675441, "token_acc": 0.96674129, "grad_norm": 1.91966343, "learning_rate": 4.311e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235664, "epoch": 2.72010062, "global_step/max_steps": "35685/65595", "percentage": "54.40%", "elapsed_time": "1d 18h 3m 41s", "remaining_time": "1d 11h 15m 16s"}
+{"loss": 0.0746109, "token_acc": 0.9665, "grad_norm": 1.07582617, "learning_rate": 4.31e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235671, "epoch": 2.72048174, "global_step/max_steps": "35690/65595", "percentage": "54.41%", "elapsed_time": "1d 18h 3m 57s", "remaining_time": "1d 11h 14m 51s"}
+{"loss": 0.07521391, "token_acc": 0.97303634, "grad_norm": 0.07010714, "learning_rate": 4.308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235677, "epoch": 2.72086287, "global_step/max_steps": "35695/65595", "percentage": "54.42%", "elapsed_time": "1d 18h 4m 15s", "remaining_time": "1d 11h 14m 26s"}
+{"loss": 0.08875989, "token_acc": 0.96452068, "grad_norm": 0.94377035, "learning_rate": 4.307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235684, "epoch": 2.721244, "global_step/max_steps": "35700/65595", "percentage": "54.42%", "elapsed_time": "1d 18h 4m 31s", "remaining_time": "1d 11h 14m 1s"}
+{"loss": 0.05708191, "token_acc": 0.97499119, "grad_norm": 1.41508317, "learning_rate": 4.306e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235694, "epoch": 2.72162512, "global_step/max_steps": "35705/65595", "percentage": "54.43%", "elapsed_time": "1d 18h 4m 46s", "remaining_time": "1d 11h 13m 35s"}
+{"loss": 0.04332681, "token_acc": 0.98147076, "grad_norm": 0.63975328, "learning_rate": 4.305e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235698, "epoch": 2.72200625, "global_step/max_steps": "35710/65595", "percentage": "54.44%", "elapsed_time": "1d 18h 5m 5s", "remaining_time": "1d 11h 13m 11s"}
+{"loss": 0.08643835, "token_acc": 0.96513038, "grad_norm": 0.648103, "learning_rate": 4.304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235707, "epoch": 2.72238738, "global_step/max_steps": "35715/65595", "percentage": "54.45%", "elapsed_time": "1d 18h 5m 20s", "remaining_time": "1d 11h 12m 45s"}
+{"loss": 0.08062859, "token_acc": 0.96818494, "grad_norm": 0.26835653, "learning_rate": 4.302e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235715, "epoch": 2.7227685, "global_step/max_steps": "35720/65595", "percentage": "54.46%", "elapsed_time": "1d 18h 5m 36s", "remaining_time": "1d 11h 12m 20s"}
+{"loss": 0.11361411, "token_acc": 0.953457, "grad_norm": 0.95892578, "learning_rate": 4.301e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235721, "epoch": 2.72314963, "global_step/max_steps": "35725/65595", "percentage": "54.46%", "elapsed_time": "1d 18h 5m 54s", "remaining_time": "1d 11h 11m 55s"}
+{"loss": 0.08955263, "token_acc": 0.96363204, "grad_norm": 0.68097848, "learning_rate": 4.3e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235729, "epoch": 2.72353076, "global_step/max_steps": "35730/65595", "percentage": "54.47%", "elapsed_time": "1d 18h 6m 10s", "remaining_time": "1d 11h 11m 30s"}
+{"loss": 0.09896026, "token_acc": 0.95877476, "grad_norm": 1.03723001, "learning_rate": 4.299e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235736, "epoch": 2.72391188, "global_step/max_steps": "35735/65595", "percentage": "54.48%", "elapsed_time": "1d 18h 6m 27s", "remaining_time": "1d 11h 11m 5s"}
+{"loss": 0.06577343, "token_acc": 0.97601287, "grad_norm": 0.56397969, "learning_rate": 4.298e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235738, "epoch": 2.72429301, "global_step/max_steps": "35740/65595", "percentage": "54.49%", "elapsed_time": "1d 18h 6m 46s", "remaining_time": "1d 11h 10m 42s"}
+{"loss": 0.05340852, "token_acc": 0.97804243, "grad_norm": 0.2767669, "learning_rate": 4.297e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235747, "epoch": 2.72467414, "global_step/max_steps": "35745/65595", "percentage": "54.49%", "elapsed_time": "1d 18h 7m 2s", "remaining_time": "1d 11h 10m 17s"}
+{"loss": 0.08273829, "token_acc": 0.97031652, "grad_norm": 0.72382176, "learning_rate": 4.295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235749, "epoch": 2.72505526, "global_step/max_steps": "35750/65595", "percentage": "54.50%", "elapsed_time": "1d 18h 7m 21s", "remaining_time": "1d 11h 9m 54s"}
+{"loss": 0.0830669, "token_acc": 0.96510229, "grad_norm": 0.90386009, "learning_rate": 4.294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235756, "epoch": 2.72543639, "global_step/max_steps": "35755/65595", "percentage": "54.51%", "elapsed_time": "1d 18h 7m 39s", "remaining_time": "1d 11h 9m 29s"}
+{"loss": 0.05955403, "token_acc": 0.97467835, "grad_norm": 1.01528943, "learning_rate": 4.293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235761, "epoch": 2.72581752, "global_step/max_steps": "35760/65595", "percentage": "54.52%", "elapsed_time": "1d 18h 7m 56s", "remaining_time": "1d 11h 9m 5s"}
+{"loss": 0.1054239, "token_acc": 0.96154839, "grad_norm": 1.44071484, "learning_rate": 4.292e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235769, "epoch": 2.72619864, "global_step/max_steps": "35765/65595", "percentage": "54.52%", "elapsed_time": "1d 18h 8m 13s", "remaining_time": "1d 11h 8m 40s"}
+{"loss": 0.08945836, "token_acc": 0.95853871, "grad_norm": 1.57235098, "learning_rate": 4.291e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235777, "epoch": 2.72657977, "global_step/max_steps": "35770/65595", "percentage": "54.53%", "elapsed_time": "1d 18h 8m 29s", "remaining_time": "1d 11h 8m 14s"}
+{"loss": 0.09040668, "token_acc": 0.96481999, "grad_norm": 0.7911796, "learning_rate": 4.289e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235783, "epoch": 2.7269609, "global_step/max_steps": "35775/65595", "percentage": "54.54%", "elapsed_time": "1d 18h 8m 46s", "remaining_time": "1d 11h 7m 50s"}
+{"loss": 0.0920125, "token_acc": 0.96424852, "grad_norm": 0.65241396, "learning_rate": 4.288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235789, "epoch": 2.72734202, "global_step/max_steps": "35780/65595", "percentage": "54.55%", "elapsed_time": "1d 18h 9m 3s", "remaining_time": "1d 11h 7m 26s"}
+{"loss": 0.08140147, "token_acc": 0.97024454, "grad_norm": 1.84826243, "learning_rate": 4.287e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23579, "epoch": 2.72772315, "global_step/max_steps": "35785/65595", "percentage": "54.55%", "elapsed_time": "1d 18h 9m 24s", "remaining_time": "1d 11h 7m 4s"}
+{"loss": 0.0873054, "token_acc": 0.96009975, "grad_norm": 1.29523575, "learning_rate": 4.286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235798, "epoch": 2.72810428, "global_step/max_steps": "35790/65595", "percentage": "54.56%", "elapsed_time": "1d 18h 9m 40s", "remaining_time": "1d 11h 6m 38s"}
+{"loss": 0.09840134, "token_acc": 0.96751443, "grad_norm": 2.18517637, "learning_rate": 4.285e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235805, "epoch": 2.7284854, "global_step/max_steps": "35795/65595", "percentage": "54.57%", "elapsed_time": "1d 18h 9m 57s", "remaining_time": "1d 11h 6m 13s"}
+{"loss": 0.09352934, "token_acc": 0.95881896, "grad_norm": 1.33291471, "learning_rate": 4.283e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235815, "epoch": 2.72886653, "global_step/max_steps": "35800/65595", "percentage": "54.58%", "elapsed_time": "1d 18h 10m 11s", "remaining_time": "1d 11h 5m 47s"}
+{"eval_loss": 0.07659797, "eval_token_acc": 0.96730619, "eval_runtime": 221.8952, "eval_samples_per_second": 2.389, "eval_steps_per_second": 2.389, "epoch": 2.72886653, "global_step/max_steps": "35800/65595", "percentage": "54.58%", "elapsed_time": "1d 18h 13m 53s", "remaining_time": "1d 11h 8m 52s"}
+{"loss": 0.12913265, "token_acc": 0.96673813, "grad_norm": 1.18926835, "learning_rate": 4.282e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235479, "epoch": 2.72924766, "global_step/max_steps": "35805/65595", "percentage": "54.58%", "elapsed_time": "1d 18h 14m 9s", "remaining_time": "1d 11h 8m 26s"}
+{"loss": 0.08970249, "token_acc": 0.96536241, "grad_norm": 1.71731389, "learning_rate": 4.281e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235488, "epoch": 2.72962878, "global_step/max_steps": "35810/65595", "percentage": "54.59%", "elapsed_time": "1d 18h 14m 24s", "remaining_time": "1d 11h 7m 59s"}
+{"loss": 0.10853819, "token_acc": 0.95839196, "grad_norm": 1.14612257, "learning_rate": 4.28e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235495, "epoch": 2.73000991, "global_step/max_steps": "35815/65595", "percentage": "54.60%", "elapsed_time": "1d 18h 14m 41s", "remaining_time": "1d 11h 7m 35s"}
+{"loss": 0.08615018, "token_acc": 0.97128965, "grad_norm": 1.73090947, "learning_rate": 4.279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235501, "epoch": 2.73039104, "global_step/max_steps": "35820/65595", "percentage": "54.61%", "elapsed_time": "1d 18h 14m 58s", "remaining_time": "1d 11h 7m 10s"}
+{"loss": 0.07479964, "token_acc": 0.95481807, "grad_norm": 0.33034655, "learning_rate": 4.278e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235512, "epoch": 2.73077216, "global_step/max_steps": "35825/65595", "percentage": "54.62%", "elapsed_time": "1d 18h 15m 13s", "remaining_time": "1d 11h 6m 43s"}
+{"loss": 0.0964329, "token_acc": 0.96458372, "grad_norm": 1.22930551, "learning_rate": 4.276e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23552, "epoch": 2.73115329, "global_step/max_steps": "35830/65595", "percentage": "54.62%", "elapsed_time": "1d 18h 15m 29s", "remaining_time": "1d 11h 6m 18s"}
+{"loss": 0.0546894, "token_acc": 0.9758794, "grad_norm": 0.81708157, "learning_rate": 4.275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235525, "epoch": 2.73153442, "global_step/max_steps": "35835/65595", "percentage": "54.63%", "elapsed_time": "1d 18h 15m 47s", "remaining_time": "1d 11h 5m 53s"}
+{"loss": 0.10435469, "token_acc": 0.9631219, "grad_norm": 0.65216041, "learning_rate": 4.274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235528, "epoch": 2.73191554, "global_step/max_steps": "35840/65595", "percentage": "54.64%", "elapsed_time": "1d 18h 16m 6s", "remaining_time": "1d 11h 5m 31s"}
+{"loss": 0.07631124, "token_acc": 0.96948218, "grad_norm": 0.96443808, "learning_rate": 4.273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235533, "epoch": 2.73229667, "global_step/max_steps": "35845/65595", "percentage": "54.65%", "elapsed_time": "1d 18h 16m 24s", "remaining_time": "1d 11h 5m 7s"}
+{"loss": 0.0804001, "token_acc": 0.96689994, "grad_norm": 0.59214687, "learning_rate": 4.272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235541, "epoch": 2.7326778, "global_step/max_steps": "35850/65595", "percentage": "54.65%", "elapsed_time": "1d 18h 16m 40s", "remaining_time": "1d 11h 4m 41s"}
+{"loss": 0.09538316, "token_acc": 0.9527404, "grad_norm": 2.4007864, "learning_rate": 4.27e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235551, "epoch": 2.73305892, "global_step/max_steps": "35855/65595", "percentage": "54.66%", "elapsed_time": "1d 18h 16m 55s", "remaining_time": "1d 11h 4m 15s"}
+{"loss": 0.08161607, "token_acc": 0.96868378, "grad_norm": 0.48921812, "learning_rate": 4.269e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23556, "epoch": 2.73344005, "global_step/max_steps": "35860/65595", "percentage": "54.67%", "elapsed_time": "1d 18h 17m 10s", "remaining_time": "1d 11h 3m 49s"}
+{"loss": 0.09424227, "token_acc": 0.96580427, "grad_norm": 0.4930099, "learning_rate": 4.268e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235568, "epoch": 2.73382118, "global_step/max_steps": "35865/65595", "percentage": "54.68%", "elapsed_time": "1d 18h 17m 26s", "remaining_time": "1d 11h 3m 23s"}
+{"loss": 0.06082688, "token_acc": 0.97203728, "grad_norm": 0.65634471, "learning_rate": 4.267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235576, "epoch": 2.7342023, "global_step/max_steps": "35870/65595", "percentage": "54.68%", "elapsed_time": "1d 18h 17m 42s", "remaining_time": "1d 11h 2m 58s"}
+{"loss": 0.10046892, "token_acc": 0.95673166, "grad_norm": 1.03801465, "learning_rate": 4.266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235582, "epoch": 2.73458343, "global_step/max_steps": "35875/65595", "percentage": "54.69%", "elapsed_time": "1d 18h 18m 0s", "remaining_time": "1d 11h 2m 33s"}
+{"loss": 0.08002878, "token_acc": 0.96733094, "grad_norm": 0.78147286, "learning_rate": 4.265e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235592, "epoch": 2.73496456, "global_step/max_steps": "35880/65595", "percentage": "54.70%", "elapsed_time": "1d 18h 18m 15s", "remaining_time": "1d 11h 2m 7s"}
+{"loss": 0.11272075, "token_acc": 0.9558075, "grad_norm": 0.69513214, "learning_rate": 4.263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2356, "epoch": 2.73534568, "global_step/max_steps": "35885/65595", "percentage": "54.71%", "elapsed_time": "1d 18h 18m 31s", "remaining_time": "1d 11h 1m 41s"}
+{"loss": 0.12675643, "token_acc": 0.95626991, "grad_norm": 1.09050179, "learning_rate": 4.262e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235609, "epoch": 2.73572681, "global_step/max_steps": "35890/65595", "percentage": "54.71%", "elapsed_time": "1d 18h 18m 46s", "remaining_time": "1d 11h 1m 15s"}
+{"loss": 0.08950303, "token_acc": 0.96555162, "grad_norm": 0.77026772, "learning_rate": 4.261e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235611, "epoch": 2.73610794, "global_step/max_steps": "35895/65595", "percentage": "54.72%", "elapsed_time": "1d 18h 19m 6s", "remaining_time": "1d 11h 0m 53s"}
+{"loss": 0.06723723, "token_acc": 0.97469197, "grad_norm": 1.26905096, "learning_rate": 4.26e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23562, "epoch": 2.73648906, "global_step/max_steps": "35900/65595", "percentage": "54.73%", "elapsed_time": "1d 18h 19m 21s", "remaining_time": "1d 11h 0m 27s"}
+{"loss": 0.09514663, "token_acc": 0.96868987, "grad_norm": 0.87461358, "learning_rate": 4.259e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235625, "epoch": 2.73687019, "global_step/max_steps": "35905/65595", "percentage": "54.74%", "elapsed_time": "1d 18h 19m 39s", "remaining_time": "1d 11h 0m 3s"}
+{"loss": 0.08544286, "token_acc": 0.95645447, "grad_norm": 1.23193407, "learning_rate": 4.257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235632, "epoch": 2.73725131, "global_step/max_steps": "35910/65595", "percentage": "54.75%", "elapsed_time": "1d 18h 19m 56s", "remaining_time": "1d 10h 59m 38s"}
+{"loss": 0.11443559, "token_acc": 0.95642749, "grad_norm": 2.42610097, "learning_rate": 4.256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235639, "epoch": 2.73763244, "global_step/max_steps": "35915/65595", "percentage": "54.75%", "elapsed_time": "1d 18h 20m 13s", "remaining_time": "1d 10h 59m 13s"}
+{"loss": 0.050571, "token_acc": 0.97930219, "grad_norm": 0.57687521, "learning_rate": 4.255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235644, "epoch": 2.73801357, "global_step/max_steps": "35920/65595", "percentage": "54.76%", "elapsed_time": "1d 18h 20m 30s", "remaining_time": "1d 10h 58m 49s"}
+{"loss": 0.07122112, "token_acc": 0.96795442, "grad_norm": 0.68360114, "learning_rate": 4.254e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235649, "epoch": 2.73839469, "global_step/max_steps": "35925/65595", "percentage": "54.77%", "elapsed_time": "1d 18h 20m 49s", "remaining_time": "1d 10h 58m 25s"}
+{"loss": 0.07857913, "token_acc": 0.96063931, "grad_norm": 0.95484662, "learning_rate": 4.253e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235657, "epoch": 2.73877582, "global_step/max_steps": "35930/65595", "percentage": "54.78%", "elapsed_time": "1d 18h 21m 5s", "remaining_time": "1d 10h 58m 0s"}
+{"loss": 0.10118836, "token_acc": 0.95951892, "grad_norm": 1.54404211, "learning_rate": 4.251e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235666, "epoch": 2.73915695, "global_step/max_steps": "35935/65595", "percentage": "54.78%", "elapsed_time": "1d 18h 21m 20s", "remaining_time": "1d 10h 57m 34s"}
+{"loss": 0.06204729, "token_acc": 0.9608091, "grad_norm": 0.41163689, "learning_rate": 4.25e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235676, "epoch": 2.73953807, "global_step/max_steps": "35940/65595", "percentage": "54.79%", "elapsed_time": "1d 18h 21m 35s", "remaining_time": "1d 10h 57m 7s"}
+{"loss": 0.09960611, "token_acc": 0.95824036, "grad_norm": 0.75056839, "learning_rate": 4.249e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23568, "epoch": 2.7399192, "global_step/max_steps": "35945/65595", "percentage": "54.80%", "elapsed_time": "1d 18h 21m 54s", "remaining_time": "1d 10h 56m 44s"}
+{"loss": 0.10817515, "token_acc": 0.96453901, "grad_norm": 1.24477255, "learning_rate": 4.248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235685, "epoch": 2.74030033, "global_step/max_steps": "35950/65595", "percentage": "54.81%", "elapsed_time": "1d 18h 22m 11s", "remaining_time": "1d 10h 56m 20s"}
+{"loss": 0.09425818, "token_acc": 0.96491713, "grad_norm": 0.77936304, "learning_rate": 4.247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235695, "epoch": 2.74068145, "global_step/max_steps": "35955/65595", "percentage": "54.81%", "elapsed_time": "1d 18h 22m 26s", "remaining_time": "1d 10h 55m 54s"}
+{"loss": 0.10564165, "token_acc": 0.95795032, "grad_norm": 0.65279055, "learning_rate": 4.246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235702, "epoch": 2.74106258, "global_step/max_steps": "35960/65595", "percentage": "54.82%", "elapsed_time": "1d 18h 22m 43s", "remaining_time": "1d 10h 55m 28s"}
+{"loss": 0.05614689, "token_acc": 0.97768631, "grad_norm": 1.14045548, "learning_rate": 4.244e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235707, "epoch": 2.74144371, "global_step/max_steps": "35965/65595", "percentage": "54.83%", "elapsed_time": "1d 18h 23m 1s", "remaining_time": "1d 10h 55m 4s"}
+{"loss": 0.08530695, "token_acc": 0.96011396, "grad_norm": 0.86852121, "learning_rate": 4.243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235713, "epoch": 2.74182483, "global_step/max_steps": "35970/65595", "percentage": "54.84%", "elapsed_time": "1d 18h 23m 18s", "remaining_time": "1d 10h 54m 40s"}
+{"loss": 0.07745405, "token_acc": 0.96593768, "grad_norm": 1.15479672, "learning_rate": 4.242e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235721, "epoch": 2.74220596, "global_step/max_steps": "35975/65595", "percentage": "54.84%", "elapsed_time": "1d 18h 23m 34s", "remaining_time": "1d 10h 54m 15s"}
+{"loss": 0.10731509, "token_acc": 0.96157858, "grad_norm": 1.09244096, "learning_rate": 4.241e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235725, "epoch": 2.74258709, "global_step/max_steps": "35980/65595", "percentage": "54.85%", "elapsed_time": "1d 18h 23m 53s", "remaining_time": "1d 10h 53m 51s"}
+{"loss": 0.11150246, "token_acc": 0.96667515, "grad_norm": 1.27241349, "learning_rate": 4.24e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235734, "epoch": 2.74296821, "global_step/max_steps": "35985/65595", "percentage": "54.86%", "elapsed_time": "1d 18h 24m 8s", "remaining_time": "1d 10h 53m 25s"}
+{"loss": 0.1146552, "token_acc": 0.95543951, "grad_norm": 3.86501002, "learning_rate": 4.238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235737, "epoch": 2.74334934, "global_step/max_steps": "35990/65595", "percentage": "54.87%", "elapsed_time": "1d 18h 24m 27s", "remaining_time": "1d 10h 53m 2s"}
+{"loss": 0.07770416, "token_acc": 0.96733751, "grad_norm": 1.47811544, "learning_rate": 4.237e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235746, "epoch": 2.74373047, "global_step/max_steps": "35995/65595", "percentage": "54.87%", "elapsed_time": "1d 18h 24m 43s", "remaining_time": "1d 10h 52m 37s"}
+{"loss": 0.10138874, "token_acc": 0.97237903, "grad_norm": 2.05965567, "learning_rate": 4.236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235754, "epoch": 2.74411159, "global_step/max_steps": "36000/65595", "percentage": "54.88%", "elapsed_time": "1d 18h 24m 59s", "remaining_time": "1d 10h 52m 11s"}
+{"eval_loss": 0.07742891, "eval_token_acc": 0.96669628, "eval_runtime": 221.8175, "eval_samples_per_second": 2.389, "eval_steps_per_second": 2.389, "epoch": 2.74411159, "global_step/max_steps": "36000/65595", "percentage": "54.88%", "elapsed_time": "1d 18h 28m 40s", "remaining_time": "1d 10h 55m 13s"}
+{"loss": 0.10316757, "token_acc": 0.96637774, "grad_norm": 0.50091195, "learning_rate": 4.235e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235419, "epoch": 2.74449272, "global_step/max_steps": "36005/65595", "percentage": "54.89%", "elapsed_time": "1d 18h 28m 57s", "remaining_time": "1d 10h 54m 48s"}
+{"loss": 0.0958513, "token_acc": 0.96553114, "grad_norm": 1.06361258, "learning_rate": 4.234e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235425, "epoch": 2.74487385, "global_step/max_steps": "36010/65595", "percentage": "54.90%", "elapsed_time": "1d 18h 29m 15s", "remaining_time": "1d 10h 54m 24s"}
+{"loss": 0.09847974, "token_acc": 0.95994002, "grad_norm": 0.89221293, "learning_rate": 4.233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235432, "epoch": 2.74525497, "global_step/max_steps": "36015/65595", "percentage": "54.91%", "elapsed_time": "1d 18h 29m 31s", "remaining_time": "1d 10h 53m 59s"}
+{"loss": 0.10700086, "token_acc": 0.96024942, "grad_norm": 1.1830281, "learning_rate": 4.231e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23544, "epoch": 2.7456361, "global_step/max_steps": "36020/65595", "percentage": "54.91%", "elapsed_time": "1d 18h 29m 48s", "remaining_time": "1d 10h 53m 34s"}
+{"loss": 0.06363804, "token_acc": 0.9823338, "grad_norm": 0.5644654, "learning_rate": 4.23e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235451, "epoch": 2.74601723, "global_step/max_steps": "36025/65595", "percentage": "54.92%", "elapsed_time": "1d 18h 30m 2s", "remaining_time": "1d 10h 53m 7s"}
+{"loss": 0.07743685, "token_acc": 0.96925593, "grad_norm": 0.86294585, "learning_rate": 4.229e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235455, "epoch": 2.74639835, "global_step/max_steps": "36030/65595", "percentage": "54.93%", "elapsed_time": "1d 18h 30m 20s", "remaining_time": "1d 10h 52m 43s"}
+{"loss": 0.09857756, "token_acc": 0.95584989, "grad_norm": 0.7974512, "learning_rate": 4.228e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235463, "epoch": 2.74677948, "global_step/max_steps": "36035/65595", "percentage": "54.94%", "elapsed_time": "1d 18h 30m 36s", "remaining_time": "1d 10h 52m 18s"}
+{"loss": 0.10738776, "token_acc": 0.9682818, "grad_norm": 1.68772006, "learning_rate": 4.227e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235467, "epoch": 2.74716061, "global_step/max_steps": "36040/65595", "percentage": "54.94%", "elapsed_time": "1d 18h 30m 55s", "remaining_time": "1d 10h 51m 54s"}
+{"loss": 0.10633817, "token_acc": 0.95966765, "grad_norm": 0.81870246, "learning_rate": 4.225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235473, "epoch": 2.74754173, "global_step/max_steps": "36045/65595", "percentage": "54.95%", "elapsed_time": "1d 18h 31m 12s", "remaining_time": "1d 10h 51m 30s"}
+{"loss": 0.09708261, "token_acc": 0.96314164, "grad_norm": 1.00246501, "learning_rate": 4.224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235478, "epoch": 2.74792286, "global_step/max_steps": "36050/65595", "percentage": "54.96%", "elapsed_time": "1d 18h 31m 30s", "remaining_time": "1d 10h 51m 6s"}
+{"loss": 0.05363469, "token_acc": 0.97572296, "grad_norm": 1.09969127, "learning_rate": 4.223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235488, "epoch": 2.74830399, "global_step/max_steps": "36055/65595", "percentage": "54.97%", "elapsed_time": "1d 18h 31m 45s", "remaining_time": "1d 10h 50m 39s"}
+{"loss": 0.08813729, "token_acc": 0.96640827, "grad_norm": 1.71373057, "learning_rate": 4.222e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235494, "epoch": 2.74868511, "global_step/max_steps": "36060/65595", "percentage": "54.97%", "elapsed_time": "1d 18h 32m 2s", "remaining_time": "1d 10h 50m 15s"}
+{"loss": 0.08112078, "token_acc": 0.95727166, "grad_norm": 0.76874793, "learning_rate": 4.221e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235501, "epoch": 2.74906624, "global_step/max_steps": "36065/65595", "percentage": "54.98%", "elapsed_time": "1d 18h 32m 19s", "remaining_time": "1d 10h 49m 50s"}
+{"loss": 0.06631267, "token_acc": 0.97759674, "grad_norm": 0.84188765, "learning_rate": 4.22e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235507, "epoch": 2.74944737, "global_step/max_steps": "36070/65595", "percentage": "54.99%", "elapsed_time": "1d 18h 32m 36s", "remaining_time": "1d 10h 49m 26s"}
+{"loss": 0.07221703, "token_acc": 0.97105606, "grad_norm": 1.98109031, "learning_rate": 4.218e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235513, "epoch": 2.74982849, "global_step/max_steps": "36075/65595", "percentage": "55.00%", "elapsed_time": "1d 18h 32m 53s", "remaining_time": "1d 10h 49m 1s"}
+{"loss": 0.09562355, "token_acc": 0.97258236, "grad_norm": 1.42381263, "learning_rate": 4.217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235522, "epoch": 2.75020962, "global_step/max_steps": "36080/65595", "percentage": "55.00%", "elapsed_time": "1d 18h 33m 9s", "remaining_time": "1d 10h 48m 35s"}
+{"loss": 0.06820365, "token_acc": 0.97207501, "grad_norm": 1.03497088, "learning_rate": 4.216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23553, "epoch": 2.75059075, "global_step/max_steps": "36085/65595", "percentage": "55.01%", "elapsed_time": "1d 18h 33m 25s", "remaining_time": "1d 10h 48m 10s"}
+{"loss": 0.1069283, "token_acc": 0.95725364, "grad_norm": 1.49656868, "learning_rate": 4.215e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235537, "epoch": 2.75097187, "global_step/max_steps": "36090/65595", "percentage": "55.02%", "elapsed_time": "1d 18h 33m 42s", "remaining_time": "1d 10h 47m 45s"}
+{"loss": 0.10088773, "token_acc": 0.9628723, "grad_norm": 1.44449341, "learning_rate": 4.214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235546, "epoch": 2.751353, "global_step/max_steps": "36095/65595", "percentage": "55.03%", "elapsed_time": "1d 18h 33m 57s", "remaining_time": "1d 10h 47m 18s"}
+{"loss": 0.09247566, "token_acc": 0.96583779, "grad_norm": 0.78648418, "learning_rate": 4.212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235555, "epoch": 2.75173413, "global_step/max_steps": "36100/65595", "percentage": "55.03%", "elapsed_time": "1d 18h 34m 13s", "remaining_time": "1d 10h 46m 53s"}
+{"loss": 0.07707127, "token_acc": 0.96758426, "grad_norm": 1.0814358, "learning_rate": 4.211e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235562, "epoch": 2.75211525, "global_step/max_steps": "36105/65595", "percentage": "55.04%", "elapsed_time": "1d 18h 34m 29s", "remaining_time": "1d 10h 46m 28s"}
+{"loss": 0.06944128, "token_acc": 0.96836483, "grad_norm": 1.9760977, "learning_rate": 4.21e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235572, "epoch": 2.75249638, "global_step/max_steps": "36110/65595", "percentage": "55.05%", "elapsed_time": "1d 18h 34m 44s", "remaining_time": "1d 10h 46m 1s"}
+{"loss": 0.05857297, "token_acc": 0.98057121, "grad_norm": 0.4425748, "learning_rate": 4.209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235576, "epoch": 2.75287751, "global_step/max_steps": "36115/65595", "percentage": "55.06%", "elapsed_time": "1d 18h 35m 2s", "remaining_time": "1d 10h 45m 38s"}
+{"loss": 0.10856098, "token_acc": 0.9571256, "grad_norm": 1.30396974, "learning_rate": 4.208e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235585, "epoch": 2.75325863, "global_step/max_steps": "36120/65595", "percentage": "55.07%", "elapsed_time": "1d 18h 35m 18s", "remaining_time": "1d 10h 45m 12s"}
+{"loss": 0.04390966, "token_acc": 0.97980085, "grad_norm": 1.57248187, "learning_rate": 4.207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235594, "epoch": 2.75363976, "global_step/max_steps": "36125/65595", "percentage": "55.07%", "elapsed_time": "1d 18h 35m 33s", "remaining_time": "1d 10h 44m 46s"}
+{"loss": 0.12620035, "token_acc": 0.94847775, "grad_norm": 2.18611741, "learning_rate": 4.205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235604, "epoch": 2.75402089, "global_step/max_steps": "36130/65595", "percentage": "55.08%", "elapsed_time": "1d 18h 35m 48s", "remaining_time": "1d 10h 44m 19s"}
+{"loss": 0.04816741, "token_acc": 0.97388714, "grad_norm": 0.78876042, "learning_rate": 4.204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235608, "epoch": 2.75440201, "global_step/max_steps": "36135/65595", "percentage": "55.09%", "elapsed_time": "1d 18h 36m 6s", "remaining_time": "1d 10h 43m 56s"}
+{"loss": 0.093388, "token_acc": 0.96330448, "grad_norm": 1.87222612, "learning_rate": 4.203e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235613, "epoch": 2.75478314, "global_step/max_steps": "36140/65595", "percentage": "55.10%", "elapsed_time": "1d 18h 36m 24s", "remaining_time": "1d 10h 43m 32s"}
+{"loss": 0.06579349, "token_acc": 0.96668366, "grad_norm": 0.8806178, "learning_rate": 4.202e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235621, "epoch": 2.75516427, "global_step/max_steps": "36145/65595", "percentage": "55.10%", "elapsed_time": "1d 18h 36m 40s", "remaining_time": "1d 10h 43m 6s"}
+{"loss": 0.1080187, "token_acc": 0.94628099, "grad_norm": 1.2966193, "learning_rate": 4.201e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235631, "epoch": 2.75554539, "global_step/max_steps": "36150/65595", "percentage": "55.11%", "elapsed_time": "1d 18h 36m 55s", "remaining_time": "1d 10h 42m 40s"}
+{"loss": 0.08398632, "token_acc": 0.96469949, "grad_norm": 0.76778036, "learning_rate": 4.199e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235638, "epoch": 2.75592652, "global_step/max_steps": "36155/65595", "percentage": "55.12%", "elapsed_time": "1d 18h 37m 12s", "remaining_time": "1d 10h 42m 15s"}
+{"loss": 0.08445631, "token_acc": 0.96687721, "grad_norm": 1.02506447, "learning_rate": 4.198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235642, "epoch": 2.75630765, "global_step/max_steps": "36160/65595", "percentage": "55.13%", "elapsed_time": "1d 18h 37m 30s", "remaining_time": "1d 10h 41m 52s"}
+{"loss": 0.11279771, "token_acc": 0.96068348, "grad_norm": 0.78254151, "learning_rate": 4.197e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23565, "epoch": 2.75668877, "global_step/max_steps": "36165/65595", "percentage": "55.13%", "elapsed_time": "1d 18h 37m 47s", "remaining_time": "1d 10h 41m 26s"}
+{"loss": 0.07024667, "token_acc": 0.97090623, "grad_norm": 0.92141938, "learning_rate": 4.196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235655, "epoch": 2.7570699, "global_step/max_steps": "36170/65595", "percentage": "55.14%", "elapsed_time": "1d 18h 38m 4s", "remaining_time": "1d 10h 41m 2s"}
+{"loss": 0.0918471, "token_acc": 0.96170286, "grad_norm": 1.08182824, "learning_rate": 4.195e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235662, "epoch": 2.75745103, "global_step/max_steps": "36175/65595", "percentage": "55.15%", "elapsed_time": "1d 18h 38m 21s", "remaining_time": "1d 10h 40m 38s"}
+{"loss": 0.10770206, "token_acc": 0.95611372, "grad_norm": 1.37674642, "learning_rate": 4.194e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23567, "epoch": 2.75783215, "global_step/max_steps": "36180/65595", "percentage": "55.16%", "elapsed_time": "1d 18h 38m 37s", "remaining_time": "1d 10h 40m 12s"}
+{"loss": 0.05257563, "token_acc": 0.97800159, "grad_norm": 0.49568397, "learning_rate": 4.192e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235676, "epoch": 2.75821328, "global_step/max_steps": "36185/65595", "percentage": "55.16%", "elapsed_time": "1d 18h 38m 54s", "remaining_time": "1d 10h 39m 48s"}
+{"loss": 0.11206559, "token_acc": 0.95974235, "grad_norm": 1.73000443, "learning_rate": 4.191e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235684, "epoch": 2.75859441, "global_step/max_steps": "36190/65595", "percentage": "55.17%", "elapsed_time": "1d 18h 39m 10s", "remaining_time": "1d 10h 39m 22s"}
+{"loss": 0.09584532, "token_acc": 0.96016305, "grad_norm": 1.39687192, "learning_rate": 4.19e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235688, "epoch": 2.75897553, "global_step/max_steps": "36195/65595", "percentage": "55.18%", "elapsed_time": "1d 18h 39m 29s", "remaining_time": "1d 10h 38m 59s"}
+{"loss": 0.07150693, "token_acc": 0.97599451, "grad_norm": 1.2060411, "learning_rate": 4.189e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235699, "epoch": 2.75935666, "global_step/max_steps": "36200/65595", "percentage": "55.19%", "elapsed_time": "1d 18h 39m 43s", "remaining_time": "1d 10h 38m 32s"}
+{"eval_loss": 0.07753386, "eval_token_acc": 0.96701253, "eval_runtime": 220.4791, "eval_samples_per_second": 2.404, "eval_steps_per_second": 2.404, "epoch": 2.75935666, "global_step/max_steps": "36200/65595", "percentage": "55.19%", "elapsed_time": "1d 18h 43m 23s", "remaining_time": "1d 10h 41m 31s"}
+{"loss": 0.06384858, "token_acc": 0.96733592, "grad_norm": 0.66072196, "learning_rate": 4.188e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235367, "epoch": 2.75973778, "global_step/max_steps": "36205/65595", "percentage": "55.19%", "elapsed_time": "1d 18h 43m 41s", "remaining_time": "1d 10h 41m 6s"}
+{"loss": 0.06676794, "token_acc": 0.97096189, "grad_norm": 1.08109045, "learning_rate": 4.186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235375, "epoch": 2.76011891, "global_step/max_steps": "36210/65595", "percentage": "55.20%", "elapsed_time": "1d 18h 43m 57s", "remaining_time": "1d 10h 40m 41s"}
+{"loss": 0.09877267, "token_acc": 0.96999531, "grad_norm": 0.55884951, "learning_rate": 4.185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235375, "epoch": 2.76050004, "global_step/max_steps": "36215/65595", "percentage": "55.21%", "elapsed_time": "1d 18h 44m 18s", "remaining_time": "1d 10h 40m 20s"}
+{"loss": 0.07206476, "token_acc": 0.97049068, "grad_norm": 0.82071811, "learning_rate": 4.184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235377, "epoch": 2.76088116, "global_step/max_steps": "36220/65595", "percentage": "55.22%", "elapsed_time": "1d 18h 44m 38s", "remaining_time": "1d 10h 39m 57s"}
+{"loss": 0.09352295, "token_acc": 0.96253932, "grad_norm": 0.92700022, "learning_rate": 4.183e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235386, "epoch": 2.76126229, "global_step/max_steps": "36225/65595", "percentage": "55.23%", "elapsed_time": "1d 18h 44m 54s", "remaining_time": "1d 10h 39m 32s"}
+{"loss": 0.07189087, "token_acc": 0.96908213, "grad_norm": 0.87648165, "learning_rate": 4.182e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235397, "epoch": 2.76164342, "global_step/max_steps": "36230/65595", "percentage": "55.23%", "elapsed_time": "1d 18h 45m 7s", "remaining_time": "1d 10h 39m 4s"}
+{"loss": 0.08117685, "token_acc": 0.96837607, "grad_norm": 1.34167707, "learning_rate": 4.181e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235404, "epoch": 2.76202454, "global_step/max_steps": "36235/65595", "percentage": "55.24%", "elapsed_time": "1d 18h 45m 24s", "remaining_time": "1d 10h 38m 39s"}
+{"loss": 0.10312105, "token_acc": 0.95590637, "grad_norm": 0.96070659, "learning_rate": 4.179e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235413, "epoch": 2.76240567, "global_step/max_steps": "36240/65595", "percentage": "55.25%", "elapsed_time": "1d 18h 45m 39s", "remaining_time": "1d 10h 38m 13s"}
+{"loss": 0.08235691, "token_acc": 0.97009967, "grad_norm": 1.08957267, "learning_rate": 4.178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23542, "epoch": 2.7627868, "global_step/max_steps": "36245/65595", "percentage": "55.26%", "elapsed_time": "1d 18h 45m 56s", "remaining_time": "1d 10h 37m 48s"}
+{"loss": 0.06402267, "token_acc": 0.98086124, "grad_norm": 0.39658496, "learning_rate": 4.177e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23543, "epoch": 2.76316792, "global_step/max_steps": "36250/65595", "percentage": "55.26%", "elapsed_time": "1d 18h 46m 11s", "remaining_time": "1d 10h 37m 22s"}
+{"loss": 0.09143427, "token_acc": 0.96287328, "grad_norm": 1.45722842, "learning_rate": 4.176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235439, "epoch": 2.76354905, "global_step/max_steps": "36255/65595", "percentage": "55.27%", "elapsed_time": "1d 18h 46m 26s", "remaining_time": "1d 10h 36m 56s"}
+{"loss": 0.05890406, "token_acc": 0.97409126, "grad_norm": 0.86893845, "learning_rate": 4.175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235445, "epoch": 2.76393018, "global_step/max_steps": "36260/65595", "percentage": "55.28%", "elapsed_time": "1d 18h 46m 43s", "remaining_time": "1d 10h 36m 31s"}
+{"loss": 0.06836044, "token_acc": 0.97784951, "grad_norm": 0.46016544, "learning_rate": 4.173e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235448, "epoch": 2.7643113, "global_step/max_steps": "36265/65595", "percentage": "55.29%", "elapsed_time": "1d 18h 47m 3s", "remaining_time": "1d 10h 36m 9s"}
+{"loss": 0.06093084, "token_acc": 0.97207679, "grad_norm": 0.81732339, "learning_rate": 4.172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235455, "epoch": 2.76469243, "global_step/max_steps": "36270/65595", "percentage": "55.29%", "elapsed_time": "1d 18h 47m 20s", "remaining_time": "1d 10h 35m 44s"}
+{"loss": 0.08112999, "token_acc": 0.97109375, "grad_norm": 1.00838208, "learning_rate": 4.171e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235464, "epoch": 2.76507356, "global_step/max_steps": "36275/65595", "percentage": "55.30%", "elapsed_time": "1d 18h 47m 34s", "remaining_time": "1d 10h 35m 18s"}
+{"loss": 0.06332105, "token_acc": 0.97397361, "grad_norm": 2.17698455, "learning_rate": 4.17e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23547, "epoch": 2.76545468, "global_step/max_steps": "36280/65595", "percentage": "55.31%", "elapsed_time": "1d 18h 47m 52s", "remaining_time": "1d 10h 34m 53s"}
+{"loss": 0.05588276, "token_acc": 0.98186446, "grad_norm": 0.9891212, "learning_rate": 4.169e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235479, "epoch": 2.76583581, "global_step/max_steps": "36285/65595", "percentage": "55.32%", "elapsed_time": "1d 18h 48m 7s", "remaining_time": "1d 10h 34m 27s"}
+{"loss": 0.09946985, "token_acc": 0.96865913, "grad_norm": 2.37349486, "learning_rate": 4.168e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235487, "epoch": 2.76621694, "global_step/max_steps": "36290/65595", "percentage": "55.32%", "elapsed_time": "1d 18h 48m 23s", "remaining_time": "1d 10h 34m 2s"}
+{"loss": 0.07894559, "token_acc": 0.96823228, "grad_norm": 0.92233968, "learning_rate": 4.166e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235492, "epoch": 2.76659806, "global_step/max_steps": "36295/65595", "percentage": "55.33%", "elapsed_time": "1d 18h 48m 41s", "remaining_time": "1d 10h 33m 38s"}
+{"loss": 0.06232334, "token_acc": 0.97260274, "grad_norm": 0.22008441, "learning_rate": 4.165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2355, "epoch": 2.76697919, "global_step/max_steps": "36300/65595", "percentage": "55.34%", "elapsed_time": "1d 18h 48m 57s", "remaining_time": "1d 10h 33m 12s"}
+{"loss": 0.07008576, "token_acc": 0.97835033, "grad_norm": 1.7589947, "learning_rate": 4.164e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235507, "epoch": 2.76736032, "global_step/max_steps": "36305/65595", "percentage": "55.35%", "elapsed_time": "1d 18h 49m 14s", "remaining_time": "1d 10h 32m 48s"}
+{"loss": 0.09704723, "token_acc": 0.96577999, "grad_norm": 0.90901661, "learning_rate": 4.163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235509, "epoch": 2.76774144, "global_step/max_steps": "36310/65595", "percentage": "55.35%", "elapsed_time": "1d 18h 49m 34s", "remaining_time": "1d 10h 32m 25s"}
+{"loss": 0.09053519, "token_acc": 0.96801916, "grad_norm": 1.92845058, "learning_rate": 4.162e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235514, "epoch": 2.76812257, "global_step/max_steps": "36315/65595", "percentage": "55.36%", "elapsed_time": "1d 18h 49m 52s", "remaining_time": "1d 10h 32m 2s"}
+{"loss": 0.13967348, "token_acc": 0.94740109, "grad_norm": 1.56050205, "learning_rate": 4.16e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235519, "epoch": 2.7685037, "global_step/max_steps": "36320/65595", "percentage": "55.37%", "elapsed_time": "1d 18h 50m 10s", "remaining_time": "1d 10h 31m 38s"}
+{"loss": 0.07417197, "token_acc": 0.969737, "grad_norm": 0.62113321, "learning_rate": 4.159e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235521, "epoch": 2.76888482, "global_step/max_steps": "36325/65595", "percentage": "55.38%", "elapsed_time": "1d 18h 50m 30s", "remaining_time": "1d 10h 31m 15s"}
+{"loss": 0.08970253, "token_acc": 0.96184561, "grad_norm": 0.80666351, "learning_rate": 4.158e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235529, "epoch": 2.76926595, "global_step/max_steps": "36330/65595", "percentage": "55.39%", "elapsed_time": "1d 18h 50m 46s", "remaining_time": "1d 10h 30m 50s"}
+{"loss": 0.08030767, "token_acc": 0.96790446, "grad_norm": 1.28915417, "learning_rate": 4.157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235535, "epoch": 2.76964708, "global_step/max_steps": "36335/65595", "percentage": "55.39%", "elapsed_time": "1d 18h 51m 3s", "remaining_time": "1d 10h 30m 25s"}
+{"loss": 0.08223112, "token_acc": 0.96749711, "grad_norm": 0.82876074, "learning_rate": 4.156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235539, "epoch": 2.7700282, "global_step/max_steps": "36340/65595", "percentage": "55.40%", "elapsed_time": "1d 18h 51m 22s", "remaining_time": "1d 10h 30m 2s"}
+{"loss": 0.08237577, "token_acc": 0.97485876, "grad_norm": 0.57883847, "learning_rate": 4.155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235546, "epoch": 2.77040933, "global_step/max_steps": "36345/65595", "percentage": "55.41%", "elapsed_time": "1d 18h 51m 38s", "remaining_time": "1d 10h 29m 37s"}
+{"loss": 0.09160761, "token_acc": 0.9666374, "grad_norm": 0.89582723, "learning_rate": 4.153e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235551, "epoch": 2.77079046, "global_step/max_steps": "36350/65595", "percentage": "55.42%", "elapsed_time": "1d 18h 51m 56s", "remaining_time": "1d 10h 29m 14s"}
+{"loss": 0.06918644, "token_acc": 0.9744046, "grad_norm": 0.75094998, "learning_rate": 4.152e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235552, "epoch": 2.77117158, "global_step/max_steps": "36355/65595", "percentage": "55.42%", "elapsed_time": "1d 18h 52m 17s", "remaining_time": "1d 10h 28m 52s"}
+{"loss": 0.09540314, "token_acc": 0.97161142, "grad_norm": 0.71899068, "learning_rate": 4.151e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235559, "epoch": 2.77155271, "global_step/max_steps": "36360/65595", "percentage": "55.43%", "elapsed_time": "1d 18h 52m 34s", "remaining_time": "1d 10h 28m 27s"}
+{"loss": 0.06851948, "token_acc": 0.97208684, "grad_norm": 0.88402843, "learning_rate": 4.15e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235564, "epoch": 2.77193384, "global_step/max_steps": "36365/65595", "percentage": "55.44%", "elapsed_time": "1d 18h 52m 51s", "remaining_time": "1d 10h 28m 3s"}
+{"loss": 0.11777945, "token_acc": 0.95723098, "grad_norm": 1.65658736, "learning_rate": 4.149e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235568, "epoch": 2.77231496, "global_step/max_steps": "36370/65595", "percentage": "55.45%", "elapsed_time": "1d 18h 53m 10s", "remaining_time": "1d 10h 27m 39s"}
+{"loss": 0.07789106, "token_acc": 0.96680498, "grad_norm": 1.02899075, "learning_rate": 4.147e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235574, "epoch": 2.77269609, "global_step/max_steps": "36375/65595", "percentage": "55.45%", "elapsed_time": "1d 18h 53m 28s", "remaining_time": "1d 10h 27m 15s"}
+{"loss": 0.08800235, "token_acc": 0.9632785, "grad_norm": 0.55981785, "learning_rate": 4.146e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235579, "epoch": 2.77307722, "global_step/max_steps": "36380/65595", "percentage": "55.46%", "elapsed_time": "1d 18h 53m 45s", "remaining_time": "1d 10h 26m 51s"}
+{"loss": 0.05817946, "token_acc": 0.97852077, "grad_norm": 0.60306787, "learning_rate": 4.145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235586, "epoch": 2.77345834, "global_step/max_steps": "36385/65595", "percentage": "55.47%", "elapsed_time": "1d 18h 54m 2s", "remaining_time": "1d 10h 26m 26s"}
+{"loss": 0.10248604, "token_acc": 0.97303485, "grad_norm": 0.25762659, "learning_rate": 4.144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235594, "epoch": 2.77383947, "global_step/max_steps": "36390/65595", "percentage": "55.48%", "elapsed_time": "1d 18h 54m 18s", "remaining_time": "1d 10h 26m 1s"}
+{"loss": 0.07895774, "token_acc": 0.96747967, "grad_norm": 1.3151499, "learning_rate": 4.143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2356, "epoch": 2.7742206, "global_step/max_steps": "36395/65595", "percentage": "55.48%", "elapsed_time": "1d 18h 54m 35s", "remaining_time": "1d 10h 25m 36s"}
+{"loss": 0.07168622, "token_acc": 0.97270789, "grad_norm": 0.52224308, "learning_rate": 4.142e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235601, "epoch": 2.77460172, "global_step/max_steps": "36400/65595", "percentage": "55.49%", "elapsed_time": "1d 18h 54m 56s", "remaining_time": "1d 10h 25m 15s"}
+{"eval_loss": 0.07645304, "eval_token_acc": 0.96769773, "eval_runtime": 220.8907, "eval_samples_per_second": 2.399, "eval_steps_per_second": 2.399, "epoch": 2.77460172, "global_step/max_steps": "36400/65595", "percentage": "55.49%", "elapsed_time": "1d 18h 58m 36s", "remaining_time": "1d 10h 28m 12s"}
+{"loss": 0.13256524, "token_acc": 0.96755353, "grad_norm": 1.21621692, "learning_rate": 4.14e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235274, "epoch": 2.77498285, "global_step/max_steps": "36405/65595", "percentage": "55.50%", "elapsed_time": "1d 18h 58m 51s", "remaining_time": "1d 10h 27m 46s"}
+{"loss": 0.0812441, "token_acc": 0.96952064, "grad_norm": 0.67554194, "learning_rate": 4.139e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235283, "epoch": 2.77536398, "global_step/max_steps": "36410/65595", "percentage": "55.51%", "elapsed_time": "1d 18h 59m 7s", "remaining_time": "1d 10h 27m 20s"}
+{"loss": 0.08577424, "token_acc": 0.97135636, "grad_norm": 2.68153644, "learning_rate": 4.138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235292, "epoch": 2.7757451, "global_step/max_steps": "36415/65595", "percentage": "55.51%", "elapsed_time": "1d 18h 59m 22s", "remaining_time": "1d 10h 26m 54s"}
+{"loss": 0.11509519, "token_acc": 0.96405812, "grad_norm": 1.83312452, "learning_rate": 4.137e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235296, "epoch": 2.77612623, "global_step/max_steps": "36420/65595", "percentage": "55.52%", "elapsed_time": "1d 18h 59m 41s", "remaining_time": "1d 10h 26m 30s"}
+{"loss": 0.0686245, "token_acc": 0.96995945, "grad_norm": 0.49438673, "learning_rate": 4.136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235303, "epoch": 2.77650736, "global_step/max_steps": "36425/65595", "percentage": "55.53%", "elapsed_time": "1d 18h 59m 58s", "remaining_time": "1d 10h 26m 6s"}
+{"loss": 0.09330293, "token_acc": 0.96961326, "grad_norm": 1.25159276, "learning_rate": 4.135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235313, "epoch": 2.77688848, "global_step/max_steps": "36430/65595", "percentage": "55.54%", "elapsed_time": "1d 19h 0m 12s", "remaining_time": "1d 10h 25m 39s"}
+{"loss": 0.09444935, "token_acc": 0.96451204, "grad_norm": 0.70310181, "learning_rate": 4.133e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235314, "epoch": 2.77726961, "global_step/max_steps": "36435/65595", "percentage": "55.55%", "elapsed_time": "1d 19h 0m 33s", "remaining_time": "1d 10h 25m 17s"}
+{"loss": 0.06731322, "token_acc": 0.96812454, "grad_norm": 0.02503097, "learning_rate": 4.132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235322, "epoch": 2.77765074, "global_step/max_steps": "36440/65595", "percentage": "55.55%", "elapsed_time": "1d 19h 0m 49s", "remaining_time": "1d 10h 24m 52s"}
+{"loss": 0.11034375, "token_acc": 0.95364238, "grad_norm": 0.88490802, "learning_rate": 4.131e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235332, "epoch": 2.77803186, "global_step/max_steps": "36445/65595", "percentage": "55.56%", "elapsed_time": "1d 19h 1m 4s", "remaining_time": "1d 10h 24m 25s"}
+{"loss": 0.07208908, "token_acc": 0.97581945, "grad_norm": 0.66362971, "learning_rate": 4.13e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23534, "epoch": 2.77841299, "global_step/max_steps": "36450/65595", "percentage": "55.57%", "elapsed_time": "1d 19h 1m 20s", "remaining_time": "1d 10h 24m 0s"}
+{"loss": 0.06330386, "token_acc": 0.97708696, "grad_norm": 1.60186112, "learning_rate": 4.129e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23534, "epoch": 2.77879412, "global_step/max_steps": "36455/65595", "percentage": "55.58%", "elapsed_time": "1d 19h 1m 41s", "remaining_time": "1d 10h 23m 39s"}
+{"loss": 0.06758405, "token_acc": 0.96984033, "grad_norm": 1.10942745, "learning_rate": 4.127e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23535, "epoch": 2.77917524, "global_step/max_steps": "36460/65595", "percentage": "55.58%", "elapsed_time": "1d 19h 1m 56s", "remaining_time": "1d 10h 23m 12s"}
+{"loss": 0.12711004, "token_acc": 0.95856546, "grad_norm": 1.91388154, "learning_rate": 4.126e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235359, "epoch": 2.77955637, "global_step/max_steps": "36465/65595", "percentage": "55.59%", "elapsed_time": "1d 19h 2m 11s", "remaining_time": "1d 10h 22m 46s"}
+{"loss": 0.1031065, "token_acc": 0.95403321, "grad_norm": 1.77875936, "learning_rate": 4.125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235367, "epoch": 2.7799375, "global_step/max_steps": "36470/65595", "percentage": "55.60%", "elapsed_time": "1d 19h 2m 26s", "remaining_time": "1d 10h 22m 20s"}
+{"loss": 0.08938018, "token_acc": 0.96568627, "grad_norm": 0.87327003, "learning_rate": 4.124e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235378, "epoch": 2.78031862, "global_step/max_steps": "36475/65595", "percentage": "55.61%", "elapsed_time": "1d 19h 2m 41s", "remaining_time": "1d 10h 21m 54s"}
+{"loss": 0.0510335, "token_acc": 0.97346664, "grad_norm": 0.73073101, "learning_rate": 4.123e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235382, "epoch": 2.78069975, "global_step/max_steps": "36480/65595", "percentage": "55.61%", "elapsed_time": "1d 19h 2m 59s", "remaining_time": "1d 10h 21m 30s"}
+{"loss": 0.07958241, "token_acc": 0.97420448, "grad_norm": 1.1933583, "learning_rate": 4.122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235388, "epoch": 2.78108088, "global_step/max_steps": "36485/65595", "percentage": "55.62%", "elapsed_time": "1d 19h 3m 16s", "remaining_time": "1d 10h 21m 6s"}
+{"loss": 0.11204243, "token_acc": 0.95034247, "grad_norm": 1.08623099, "learning_rate": 4.12e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235397, "epoch": 2.781462, "global_step/max_steps": "36490/65595", "percentage": "55.63%", "elapsed_time": "1d 19h 3m 32s", "remaining_time": "1d 10h 20m 40s"}
+{"loss": 0.08108473, "token_acc": 0.97209302, "grad_norm": 1.25443852, "learning_rate": 4.119e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235401, "epoch": 2.78184313, "global_step/max_steps": "36495/65595", "percentage": "55.64%", "elapsed_time": "1d 19h 3m 50s", "remaining_time": "1d 10h 20m 16s"}
+{"loss": 0.06436741, "token_acc": 0.96845124, "grad_norm": 0.70427299, "learning_rate": 4.118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235413, "epoch": 2.78222425, "global_step/max_steps": "36500/65595", "percentage": "55.64%", "elapsed_time": "1d 19h 4m 4s", "remaining_time": "1d 10h 19m 49s"}
+{"loss": 0.08787984, "token_acc": 0.96622123, "grad_norm": 0.99440616, "learning_rate": 4.117e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235418, "epoch": 2.78260538, "global_step/max_steps": "36505/65595", "percentage": "55.65%", "elapsed_time": "1d 19h 4m 22s", "remaining_time": "1d 10h 19m 25s"}
+{"loss": 0.11848341, "token_acc": 0.95324242, "grad_norm": 1.34543169, "learning_rate": 4.116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235426, "epoch": 2.78298651, "global_step/max_steps": "36510/65595", "percentage": "55.66%", "elapsed_time": "1d 19h 4m 38s", "remaining_time": "1d 10h 19m 0s"}
+{"loss": 0.0904099, "token_acc": 0.96625403, "grad_norm": 1.07676613, "learning_rate": 4.114e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235431, "epoch": 2.78336763, "global_step/max_steps": "36515/65595", "percentage": "55.67%", "elapsed_time": "1d 19h 4m 56s", "remaining_time": "1d 10h 18m 36s"}
+{"loss": 0.10079788, "token_acc": 0.96211653, "grad_norm": 1.26599908, "learning_rate": 4.113e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235437, "epoch": 2.78374876, "global_step/max_steps": "36520/65595", "percentage": "55.67%", "elapsed_time": "1d 19h 5m 13s", "remaining_time": "1d 10h 18m 11s"}
+{"loss": 0.11501826, "token_acc": 0.95829179, "grad_norm": 0.74942946, "learning_rate": 4.112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235444, "epoch": 2.78412989, "global_step/max_steps": "36525/65595", "percentage": "55.68%", "elapsed_time": "1d 19h 5m 30s", "remaining_time": "1d 10h 17m 47s"}
+{"loss": 0.08875986, "token_acc": 0.9589931, "grad_norm": 1.05854177, "learning_rate": 4.111e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23545, "epoch": 2.78451101, "global_step/max_steps": "36530/65595", "percentage": "55.69%", "elapsed_time": "1d 19h 5m 47s", "remaining_time": "1d 10h 17m 22s"}
+{"loss": 0.06088383, "token_acc": 0.97723803, "grad_norm": 1.01657462, "learning_rate": 4.11e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235453, "epoch": 2.78489214, "global_step/max_steps": "36535/65595", "percentage": "55.70%", "elapsed_time": "1d 19h 6m 6s", "remaining_time": "1d 10h 16m 59s"}
+{"loss": 0.05042704, "token_acc": 0.97523778, "grad_norm": 0.97419477, "learning_rate": 4.109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235457, "epoch": 2.78527327, "global_step/max_steps": "36540/65595", "percentage": "55.71%", "elapsed_time": "1d 19h 6m 25s", "remaining_time": "1d 10h 16m 36s"}
+{"loss": 0.11738068, "token_acc": 0.95033113, "grad_norm": 0.73848879, "learning_rate": 4.107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235464, "epoch": 2.78565439, "global_step/max_steps": "36545/65595", "percentage": "55.71%", "elapsed_time": "1d 19h 6m 41s", "remaining_time": "1d 10h 16m 11s"}
+{"loss": 0.08514463, "token_acc": 0.96651733, "grad_norm": 0.7410152, "learning_rate": 4.106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235472, "epoch": 2.78603552, "global_step/max_steps": "36550/65595", "percentage": "55.72%", "elapsed_time": "1d 19h 6m 57s", "remaining_time": "1d 10h 15m 46s"}
+{"loss": 0.07792996, "token_acc": 0.97887992, "grad_norm": 0.60201532, "learning_rate": 4.105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235479, "epoch": 2.78641665, "global_step/max_steps": "36555/65595", "percentage": "55.73%", "elapsed_time": "1d 19h 7m 14s", "remaining_time": "1d 10h 15m 21s"}
+{"loss": 0.09622241, "token_acc": 0.96236449, "grad_norm": 0.82105708, "learning_rate": 4.104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235486, "epoch": 2.78679777, "global_step/max_steps": "36560/65595", "percentage": "55.74%", "elapsed_time": "1d 19h 7m 31s", "remaining_time": "1d 10h 14m 56s"}
+{"loss": 0.0959157, "token_acc": 0.96440384, "grad_norm": 0.92968422, "learning_rate": 4.103e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23549, "epoch": 2.7871789, "global_step/max_steps": "36565/65595", "percentage": "55.74%", "elapsed_time": "1d 19h 7m 49s", "remaining_time": "1d 10h 14m 32s"}
+{"loss": 0.09500134, "token_acc": 0.95733718, "grad_norm": 1.17067635, "learning_rate": 4.102e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235497, "epoch": 2.78756003, "global_step/max_steps": "36570/65595", "percentage": "55.75%", "elapsed_time": "1d 19h 8m 6s", "remaining_time": "1d 10h 14m 8s"}
+{"loss": 0.10960228, "token_acc": 0.95461488, "grad_norm": 1.43199193, "learning_rate": 4.1e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235503, "epoch": 2.78794115, "global_step/max_steps": "36575/65595", "percentage": "55.76%", "elapsed_time": "1d 19h 8m 23s", "remaining_time": "1d 10h 13m 43s"}
+{"loss": 0.05863608, "token_acc": 0.96137223, "grad_norm": 0.70241702, "learning_rate": 4.099e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235513, "epoch": 2.78832228, "global_step/max_steps": "36580/65595", "percentage": "55.77%", "elapsed_time": "1d 19h 8m 38s", "remaining_time": "1d 10h 13m 17s"}
+{"loss": 0.09685714, "token_acc": 0.95980826, "grad_norm": 1.49785352, "learning_rate": 4.098e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235518, "epoch": 2.78870341, "global_step/max_steps": "36585/65595", "percentage": "55.77%", "elapsed_time": "1d 19h 8m 56s", "remaining_time": "1d 10h 12m 53s"}
+{"loss": 0.09787539, "token_acc": 0.96281741, "grad_norm": 1.44919872, "learning_rate": 4.097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235526, "epoch": 2.78908453, "global_step/max_steps": "36590/65595", "percentage": "55.78%", "elapsed_time": "1d 19h 9m 12s", "remaining_time": "1d 10h 12m 28s"}
+{"loss": 0.0904083, "token_acc": 0.96556291, "grad_norm": 1.37274921, "learning_rate": 4.096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235535, "epoch": 2.78946566, "global_step/max_steps": "36595/65595", "percentage": "55.79%", "elapsed_time": "1d 19h 9m 27s", "remaining_time": "1d 10h 12m 2s"}
+{"loss": 0.13016137, "token_acc": 0.95250227, "grad_norm": 1.04672396, "learning_rate": 4.094e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235541, "epoch": 2.78984679, "global_step/max_steps": "36600/65595", "percentage": "55.80%", "elapsed_time": "1d 19h 9m 44s", "remaining_time": "1d 10h 11m 37s"}
+{"eval_loss": 0.07642733, "eval_token_acc": 0.96783326, "eval_runtime": 216.2575, "eval_samples_per_second": 2.451, "eval_steps_per_second": 2.451, "epoch": 2.78984679, "global_step/max_steps": "36600/65595", "percentage": "55.80%", "elapsed_time": "1d 19h 13m 20s", "remaining_time": "1d 10h 14m 29s"}
+{"loss": 0.06338746, "token_acc": 0.96771597, "grad_norm": 0.40056518, "learning_rate": 4.093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235222, "epoch": 2.79022791, "global_step/max_steps": "36605/65595", "percentage": "55.80%", "elapsed_time": "1d 19h 13m 37s", "remaining_time": "1d 10h 14m 3s"}
+{"loss": 0.04842616, "token_acc": 0.98079306, "grad_norm": 1.15156758, "learning_rate": 4.092e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235229, "epoch": 2.79060904, "global_step/max_steps": "36610/65595", "percentage": "55.81%", "elapsed_time": "1d 19h 13m 53s", "remaining_time": "1d 10h 13m 38s"}
+{"loss": 0.06429334, "token_acc": 0.96607843, "grad_norm": 1.42944396, "learning_rate": 4.091e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235237, "epoch": 2.79099017, "global_step/max_steps": "36615/65595", "percentage": "55.82%", "elapsed_time": "1d 19h 14m 9s", "remaining_time": "1d 10h 13m 12s"}
+{"loss": 0.06859901, "token_acc": 0.97708783, "grad_norm": 0.67676038, "learning_rate": 4.09e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235242, "epoch": 2.79137129, "global_step/max_steps": "36620/65595", "percentage": "55.83%", "elapsed_time": "1d 19h 14m 27s", "remaining_time": "1d 10h 12m 49s"}
+{"loss": 0.0822593, "token_acc": 0.97160983, "grad_norm": 0.64187837, "learning_rate": 4.089e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235246, "epoch": 2.79175242, "global_step/max_steps": "36625/65595", "percentage": "55.84%", "elapsed_time": "1d 19h 14m 45s", "remaining_time": "1d 10h 12m 25s"}
+{"loss": 0.07174616, "token_acc": 0.96737123, "grad_norm": 1.09250259, "learning_rate": 4.087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235252, "epoch": 2.79213355, "global_step/max_steps": "36630/65595", "percentage": "55.84%", "elapsed_time": "1d 19h 15m 2s", "remaining_time": "1d 10h 12m 1s"}
+{"loss": 0.06293715, "token_acc": 0.97667185, "grad_norm": 0.99112147, "learning_rate": 4.086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235261, "epoch": 2.79251467, "global_step/max_steps": "36635/65595", "percentage": "55.85%", "elapsed_time": "1d 19h 15m 18s", "remaining_time": "1d 10h 11m 35s"}
+{"loss": 0.07545195, "token_acc": 0.95356177, "grad_norm": 0.57982224, "learning_rate": 4.085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235271, "epoch": 2.7928958, "global_step/max_steps": "36640/65595", "percentage": "55.86%", "elapsed_time": "1d 19h 15m 32s", "remaining_time": "1d 10h 11m 8s"}
+{"loss": 0.09164856, "token_acc": 0.97348852, "grad_norm": 0.65621549, "learning_rate": 4.084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23528, "epoch": 2.79327693, "global_step/max_steps": "36645/65595", "percentage": "55.87%", "elapsed_time": "1d 19h 15m 48s", "remaining_time": "1d 10h 10m 42s"}
+{"loss": 0.09737059, "token_acc": 0.96663673, "grad_norm": 0.86687964, "learning_rate": 4.083e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235283, "epoch": 2.79365805, "global_step/max_steps": "36650/65595", "percentage": "55.87%", "elapsed_time": "1d 19h 16m 7s", "remaining_time": "1d 10h 10m 20s"}
+{"loss": 0.1280009, "token_acc": 0.95969873, "grad_norm": 0.91038734, "learning_rate": 4.081e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235289, "epoch": 2.79403918, "global_step/max_steps": "36655/65595", "percentage": "55.88%", "elapsed_time": "1d 19h 16m 24s", "remaining_time": "1d 10h 9m 55s"}
+{"loss": 0.09216012, "token_acc": 0.96377055, "grad_norm": 1.07171488, "learning_rate": 4.08e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235299, "epoch": 2.79442031, "global_step/max_steps": "36660/65595", "percentage": "55.89%", "elapsed_time": "1d 19h 16m 39s", "remaining_time": "1d 10h 9m 29s"}
+{"loss": 0.0476186, "token_acc": 0.97572402, "grad_norm": 0.7615875, "learning_rate": 4.079e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23531, "epoch": 2.79480143, "global_step/max_steps": "36665/65595", "percentage": "55.90%", "elapsed_time": "1d 19h 16m 53s", "remaining_time": "1d 10h 9m 2s"}
+{"loss": 0.08474367, "token_acc": 0.96580484, "grad_norm": 1.02406299, "learning_rate": 4.078e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23532, "epoch": 2.79518256, "global_step/max_steps": "36670/65595", "percentage": "55.90%", "elapsed_time": "1d 19h 17m 7s", "remaining_time": "1d 10h 8m 35s"}
+{"loss": 0.12462332, "token_acc": 0.95922619, "grad_norm": 1.54935801, "learning_rate": 4.077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235326, "epoch": 2.79556369, "global_step/max_steps": "36675/65595", "percentage": "55.91%", "elapsed_time": "1d 19h 17m 25s", "remaining_time": "1d 10h 8m 11s"}
+{"loss": 0.06435212, "token_acc": 0.97029703, "grad_norm": 0.59427768, "learning_rate": 4.076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235331, "epoch": 2.79594481, "global_step/max_steps": "36680/65595", "percentage": "55.92%", "elapsed_time": "1d 19h 17m 43s", "remaining_time": "1d 10h 7m 47s"}
+{"loss": 0.07752467, "token_acc": 0.97265909, "grad_norm": 0.9140352, "learning_rate": 4.074e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23534, "epoch": 2.79632594, "global_step/max_steps": "36685/65595", "percentage": "55.93%", "elapsed_time": "1d 19h 17m 58s", "remaining_time": "1d 10h 7m 22s"}
+{"loss": 0.10140367, "token_acc": 0.96702731, "grad_norm": 2.73876524, "learning_rate": 4.073e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235349, "epoch": 2.79670707, "global_step/max_steps": "36690/65595", "percentage": "55.93%", "elapsed_time": "1d 19h 18m 14s", "remaining_time": "1d 10h 6m 55s"}
+{"loss": 0.10834967, "token_acc": 0.9661235, "grad_norm": 1.40332234, "learning_rate": 4.072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235358, "epoch": 2.79708819, "global_step/max_steps": "36695/65595", "percentage": "55.94%", "elapsed_time": "1d 19h 18m 28s", "remaining_time": "1d 10h 6m 29s"}
+{"loss": 0.0815749, "token_acc": 0.96554531, "grad_norm": 0.92910773, "learning_rate": 4.071e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235361, "epoch": 2.79746932, "global_step/max_steps": "36700/65595", "percentage": "55.95%", "elapsed_time": "1d 19h 18m 48s", "remaining_time": "1d 10h 6m 7s"}
+{"loss": 0.08174354, "token_acc": 0.9724359, "grad_norm": 0.63912255, "learning_rate": 4.07e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23537, "epoch": 2.79785045, "global_step/max_steps": "36705/65595", "percentage": "55.96%", "elapsed_time": "1d 19h 19m 3s", "remaining_time": "1d 10h 5m 41s"}
+{"loss": 0.06498482, "token_acc": 0.97293261, "grad_norm": 1.03028142, "learning_rate": 4.069e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235375, "epoch": 2.79823157, "global_step/max_steps": "36710/65595", "percentage": "55.96%", "elapsed_time": "1d 19h 19m 21s", "remaining_time": "1d 10h 5m 17s"}
+{"loss": 0.09835392, "token_acc": 0.9571193, "grad_norm": 1.01476526, "learning_rate": 4.067e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235387, "epoch": 2.7986127, "global_step/max_steps": "36715/65595", "percentage": "55.97%", "elapsed_time": "1d 19h 19m 35s", "remaining_time": "1d 10h 4m 49s"}
+{"loss": 0.08342959, "token_acc": 0.96176071, "grad_norm": 1.10754192, "learning_rate": 4.066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235393, "epoch": 2.79899383, "global_step/max_steps": "36720/65595", "percentage": "55.98%", "elapsed_time": "1d 19h 19m 52s", "remaining_time": "1d 10h 4m 25s"}
+{"loss": 0.1190514, "token_acc": 0.95031638, "grad_norm": 1.32266164, "learning_rate": 4.065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235401, "epoch": 2.79937495, "global_step/max_steps": "36725/65595", "percentage": "55.99%", "elapsed_time": "1d 19h 20m 7s", "remaining_time": "1d 10h 3m 59s"}
+{"loss": 0.08005785, "token_acc": 0.98059618, "grad_norm": 1.4942261, "learning_rate": 4.064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23541, "epoch": 2.79975608, "global_step/max_steps": "36730/65595", "percentage": "56.00%", "elapsed_time": "1d 19h 20m 23s", "remaining_time": "1d 10h 3m 34s"}
+{"loss": 0.09067998, "token_acc": 0.96542828, "grad_norm": 1.01935959, "learning_rate": 4.063e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235416, "epoch": 2.80013721, "global_step/max_steps": "36735/65595", "percentage": "56.00%", "elapsed_time": "1d 19h 20m 40s", "remaining_time": "1d 10h 3m 9s"}
+{"loss": 0.11200918, "token_acc": 0.95260814, "grad_norm": 0.97891736, "learning_rate": 4.061e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235425, "epoch": 2.80051833, "global_step/max_steps": "36740/65595", "percentage": "56.01%", "elapsed_time": "1d 19h 20m 55s", "remaining_time": "1d 10h 2m 43s"}
+{"loss": 0.11819676, "token_acc": 0.95455605, "grad_norm": 1.67096746, "learning_rate": 4.06e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235432, "epoch": 2.80089946, "global_step/max_steps": "36745/65595", "percentage": "56.02%", "elapsed_time": "1d 19h 21m 12s", "remaining_time": "1d 10h 2m 18s"}
+{"loss": 0.11247263, "token_acc": 0.9625, "grad_norm": 1.00028467, "learning_rate": 4.059e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235435, "epoch": 2.80128059, "global_step/max_steps": "36750/65595", "percentage": "56.03%", "elapsed_time": "1d 19h 21m 31s", "remaining_time": "1d 10h 1m 55s"}
+{"loss": 0.09238089, "token_acc": 0.95739171, "grad_norm": 1.20626688, "learning_rate": 4.058e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235443, "epoch": 2.80166171, "global_step/max_steps": "36755/65595", "percentage": "56.03%", "elapsed_time": "1d 19h 21m 48s", "remaining_time": "1d 10h 1m 30s"}
+{"loss": 0.08172243, "token_acc": 0.96675629, "grad_norm": 1.23904526, "learning_rate": 4.057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235449, "epoch": 2.80204284, "global_step/max_steps": "36760/65595", "percentage": "56.04%", "elapsed_time": "1d 19h 22m 4s", "remaining_time": "1d 10h 1m 6s"}
+{"loss": 0.07683833, "token_acc": 0.97043121, "grad_norm": 0.66571724, "learning_rate": 4.056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235456, "epoch": 2.80242397, "global_step/max_steps": "36765/65595", "percentage": "56.05%", "elapsed_time": "1d 19h 22m 21s", "remaining_time": "1d 10h 0m 41s"}
+{"loss": 0.05522103, "token_acc": 0.97612225, "grad_norm": 1.44840467, "learning_rate": 4.054e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235465, "epoch": 2.80280509, "global_step/max_steps": "36770/65595", "percentage": "56.06%", "elapsed_time": "1d 19h 22m 36s", "remaining_time": "1d 10h 0m 15s"}
+{"loss": 0.08206046, "token_acc": 0.96191207, "grad_norm": 0.80078882, "learning_rate": 4.053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235474, "epoch": 2.80318622, "global_step/max_steps": "36775/65595", "percentage": "56.06%", "elapsed_time": "1d 19h 22m 52s", "remaining_time": "1d 9h 59m 49s"}
+{"loss": 0.06869338, "token_acc": 0.98169399, "grad_norm": 1.50438797, "learning_rate": 4.052e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235482, "epoch": 2.80356735, "global_step/max_steps": "36780/65595", "percentage": "56.07%", "elapsed_time": "1d 19h 23m 8s", "remaining_time": "1d 9h 59m 24s"}
+{"loss": 0.06745746, "token_acc": 0.96261682, "grad_norm": 1.84316087, "learning_rate": 4.051e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235489, "epoch": 2.80394847, "global_step/max_steps": "36785/65595", "percentage": "56.08%", "elapsed_time": "1d 19h 23m 24s", "remaining_time": "1d 9h 58m 59s"}
+{"loss": 0.08040391, "token_acc": 0.9733292, "grad_norm": 0.8834179, "learning_rate": 4.05e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235494, "epoch": 2.8043296, "global_step/max_steps": "36790/65595", "percentage": "56.09%", "elapsed_time": "1d 19h 23m 42s", "remaining_time": "1d 9h 58m 35s"}
+{"loss": 0.06423368, "token_acc": 0.9733742, "grad_norm": 0.72221661, "learning_rate": 4.049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235495, "epoch": 2.80471072, "global_step/max_steps": "36795/65595", "percentage": "56.09%", "elapsed_time": "1d 19h 24m 3s", "remaining_time": "1d 9h 58m 13s"}
+{"loss": 0.0973181, "token_acc": 0.95200168, "grad_norm": 0.91379112, "learning_rate": 4.047e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235501, "epoch": 2.80509185, "global_step/max_steps": "36800/65595", "percentage": "56.10%", "elapsed_time": "1d 19h 24m 20s", "remaining_time": "1d 9h 57m 49s"}
+{"eval_loss": 0.07635237, "eval_token_acc": 0.96814198, "eval_runtime": 215.1752, "eval_samples_per_second": 2.463, "eval_steps_per_second": 2.463, "epoch": 2.80509185, "global_step/max_steps": "36800/65595", "percentage": "56.10%", "elapsed_time": "1d 19h 27m 55s", "remaining_time": "1d 10h 0m 37s"}
+{"loss": 0.08730719, "token_acc": 0.96819486, "grad_norm": 1.15742207, "learning_rate": 4.046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235185, "epoch": 2.80547298, "global_step/max_steps": "36805/65595", "percentage": "56.11%", "elapsed_time": "1d 19h 28m 11s", "remaining_time": "1d 10h 0m 12s"}
+{"loss": 0.04637258, "token_acc": 0.97858672, "grad_norm": 0.48719183, "learning_rate": 4.045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235196, "epoch": 2.8058541, "global_step/max_steps": "36810/65595", "percentage": "56.12%", "elapsed_time": "1d 19h 28m 25s", "remaining_time": "1d 9h 59m 45s"}
+{"loss": 0.07167523, "token_acc": 0.97058824, "grad_norm": 1.24976349, "learning_rate": 4.044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2352, "epoch": 2.80623523, "global_step/max_steps": "36815/65595", "percentage": "56.12%", "elapsed_time": "1d 19h 28m 43s", "remaining_time": "1d 9h 59m 21s"}
+{"loss": 0.08512197, "token_acc": 0.96919315, "grad_norm": 0.74331015, "learning_rate": 4.043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235205, "epoch": 2.80661636, "global_step/max_steps": "36820/65595", "percentage": "56.13%", "elapsed_time": "1d 19h 29m 1s", "remaining_time": "1d 9h 58m 58s"}
+{"loss": 0.06816704, "token_acc": 0.97183549, "grad_norm": 0.92542505, "learning_rate": 4.042e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235212, "epoch": 2.80699748, "global_step/max_steps": "36825/65595", "percentage": "56.14%", "elapsed_time": "1d 19h 29m 18s", "remaining_time": "1d 9h 58m 33s"}
+{"loss": 0.09206664, "token_acc": 0.95780498, "grad_norm": 1.37567008, "learning_rate": 4.04e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235218, "epoch": 2.80737861, "global_step/max_steps": "36830/65595", "percentage": "56.15%", "elapsed_time": "1d 19h 29m 35s", "remaining_time": "1d 9h 58m 9s"}
+{"loss": 0.0833748, "token_acc": 0.97459385, "grad_norm": 0.55420643, "learning_rate": 4.039e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235223, "epoch": 2.80775974, "global_step/max_steps": "36835/65595", "percentage": "56.16%", "elapsed_time": "1d 19h 29m 53s", "remaining_time": "1d 9h 57m 45s"}
+{"loss": 0.10555912, "token_acc": 0.96638996, "grad_norm": 2.03701687, "learning_rate": 4.038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235231, "epoch": 2.80814086, "global_step/max_steps": "36840/65595", "percentage": "56.16%", "elapsed_time": "1d 19h 30m 9s", "remaining_time": "1d 9h 57m 19s"}
+{"loss": 0.10478427, "token_acc": 0.96065487, "grad_norm": 2.37304974, "learning_rate": 4.037e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23524, "epoch": 2.80852199, "global_step/max_steps": "36845/65595", "percentage": "56.17%", "elapsed_time": "1d 19h 30m 24s", "remaining_time": "1d 9h 56m 53s"}
+{"loss": 0.09056482, "token_acc": 0.96997234, "grad_norm": 1.20215213, "learning_rate": 4.036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235247, "epoch": 2.80890312, "global_step/max_steps": "36850/65595", "percentage": "56.18%", "elapsed_time": "1d 19h 30m 41s", "remaining_time": "1d 9h 56m 28s"}
+{"loss": 0.04267766, "token_acc": 0.97733968, "grad_norm": 0.75445664, "learning_rate": 4.034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235255, "epoch": 2.80928424, "global_step/max_steps": "36855/65595", "percentage": "56.19%", "elapsed_time": "1d 19h 30m 57s", "remaining_time": "1d 9h 56m 3s"}
+{"loss": 0.10294344, "token_acc": 0.96399153, "grad_norm": 1.01636076, "learning_rate": 4.033e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235263, "epoch": 2.80966537, "global_step/max_steps": "36860/65595", "percentage": "56.19%", "elapsed_time": "1d 19h 31m 13s", "remaining_time": "1d 9h 55m 38s"}
+{"loss": 0.04769116, "token_acc": 0.97795637, "grad_norm": 1.21481133, "learning_rate": 4.032e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23527, "epoch": 2.8100465, "global_step/max_steps": "36865/65595", "percentage": "56.20%", "elapsed_time": "1d 19h 31m 30s", "remaining_time": "1d 9h 55m 13s"}
+{"loss": 0.08967609, "token_acc": 0.96374979, "grad_norm": 0.79057866, "learning_rate": 4.031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235277, "epoch": 2.81042762, "global_step/max_steps": "36870/65595", "percentage": "56.21%", "elapsed_time": "1d 19h 31m 46s", "remaining_time": "1d 9h 54m 48s"}
+{"loss": 0.0614336, "token_acc": 0.98122066, "grad_norm": 0.60323238, "learning_rate": 4.03e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235283, "epoch": 2.81080875, "global_step/max_steps": "36875/65595", "percentage": "56.22%", "elapsed_time": "1d 19h 32m 4s", "remaining_time": "1d 9h 54m 24s"}
+{"loss": 0.07176466, "token_acc": 0.97414619, "grad_norm": 1.20431292, "learning_rate": 4.029e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235291, "epoch": 2.81118988, "global_step/max_steps": "36880/65595", "percentage": "56.22%", "elapsed_time": "1d 19h 32m 20s", "remaining_time": "1d 9h 53m 58s"}
+{"loss": 0.10287641, "token_acc": 0.96903114, "grad_norm": 0.64965081, "learning_rate": 4.027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235296, "epoch": 2.811571, "global_step/max_steps": "36885/65595", "percentage": "56.23%", "elapsed_time": "1d 19h 32m 37s", "remaining_time": "1d 9h 53m 34s"}
+{"loss": 0.12701424, "token_acc": 0.94497979, "grad_norm": 1.04075563, "learning_rate": 4.026e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235305, "epoch": 2.81195213, "global_step/max_steps": "36890/65595", "percentage": "56.24%", "elapsed_time": "1d 19h 32m 52s", "remaining_time": "1d 9h 53m 8s"}
+{"loss": 0.09326013, "token_acc": 0.97094431, "grad_norm": 0.84681845, "learning_rate": 4.025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235311, "epoch": 2.81233326, "global_step/max_steps": "36895/65595", "percentage": "56.25%", "elapsed_time": "1d 19h 33m 10s", "remaining_time": "1d 9h 52m 44s"}
+{"loss": 0.09739107, "token_acc": 0.9736919, "grad_norm": 0.72148448, "learning_rate": 4.024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235321, "epoch": 2.81271438, "global_step/max_steps": "36900/65595", "percentage": "56.25%", "elapsed_time": "1d 19h 33m 25s", "remaining_time": "1d 9h 52m 18s"}
+{"loss": 0.06845536, "token_acc": 0.97452935, "grad_norm": 1.21490765, "learning_rate": 4.023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235328, "epoch": 2.81309551, "global_step/max_steps": "36905/65595", "percentage": "56.26%", "elapsed_time": "1d 19h 33m 41s", "remaining_time": "1d 9h 51m 53s"}
+{"loss": 0.09929979, "token_acc": 0.96305041, "grad_norm": 0.83315432, "learning_rate": 4.022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235326, "epoch": 2.81347664, "global_step/max_steps": "36910/65595", "percentage": "56.27%", "elapsed_time": "1d 19h 34m 3s", "remaining_time": "1d 9h 51m 32s"}
+{"loss": 0.06204451, "token_acc": 0.97020262, "grad_norm": 1.24910462, "learning_rate": 4.02e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235335, "epoch": 2.81385776, "global_step/max_steps": "36915/65595", "percentage": "56.28%", "elapsed_time": "1d 19h 34m 18s", "remaining_time": "1d 9h 51m 6s"}
+{"loss": 0.0553548, "token_acc": 0.9789675, "grad_norm": 0.70157635, "learning_rate": 4.019e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235345, "epoch": 2.81423889, "global_step/max_steps": "36920/65595", "percentage": "56.28%", "elapsed_time": "1d 19h 34m 33s", "remaining_time": "1d 9h 50m 40s"}
+{"loss": 0.08181743, "token_acc": 0.9627031, "grad_norm": 0.89018726, "learning_rate": 4.018e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235354, "epoch": 2.81462002, "global_step/max_steps": "36925/65595", "percentage": "56.29%", "elapsed_time": "1d 19h 34m 49s", "remaining_time": "1d 9h 50m 14s"}
+{"loss": 0.06646875, "token_acc": 0.97587502, "grad_norm": 0.75334615, "learning_rate": 4.017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23536, "epoch": 2.81500114, "global_step/max_steps": "36930/65595", "percentage": "56.30%", "elapsed_time": "1d 19h 35m 6s", "remaining_time": "1d 9h 49m 50s"}
+{"loss": 0.08506078, "token_acc": 0.96698113, "grad_norm": 1.0599215, "learning_rate": 4.016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235368, "epoch": 2.81538227, "global_step/max_steps": "36935/65595", "percentage": "56.31%", "elapsed_time": "1d 19h 35m 21s", "remaining_time": "1d 9h 49m 24s"}
+{"loss": 0.10604053, "token_acc": 0.97001949, "grad_norm": 1.15676248, "learning_rate": 4.014e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235373, "epoch": 2.8157634, "global_step/max_steps": "36940/65595", "percentage": "56.32%", "elapsed_time": "1d 19h 35m 40s", "remaining_time": "1d 9h 49m 1s"}
+{"loss": 0.06804064, "token_acc": 0.97509126, "grad_norm": 1.08268571, "learning_rate": 4.013e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235378, "epoch": 2.81614452, "global_step/max_steps": "36945/65595", "percentage": "56.32%", "elapsed_time": "1d 19h 35m 58s", "remaining_time": "1d 9h 48m 37s"}
+{"loss": 0.06095673, "token_acc": 0.96803265, "grad_norm": 0.66405368, "learning_rate": 4.012e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235383, "epoch": 2.81652565, "global_step/max_steps": "36950/65595", "percentage": "56.33%", "elapsed_time": "1d 19h 36m 16s", "remaining_time": "1d 9h 48m 13s"}
+{"loss": 0.12544754, "token_acc": 0.95387189, "grad_norm": 0.69612151, "learning_rate": 4.011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235392, "epoch": 2.81690678, "global_step/max_steps": "36955/65595", "percentage": "56.34%", "elapsed_time": "1d 19h 36m 31s", "remaining_time": "1d 9h 47m 47s"}
+{"loss": 0.08206925, "token_acc": 0.96631271, "grad_norm": 0.5102222, "learning_rate": 4.01e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235397, "epoch": 2.8172879, "global_step/max_steps": "36960/65595", "percentage": "56.35%", "elapsed_time": "1d 19h 36m 49s", "remaining_time": "1d 9h 47m 24s"}
+{"loss": 0.04682015, "token_acc": 0.97815603, "grad_norm": 0.04526061, "learning_rate": 4.009e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235406, "epoch": 2.81766903, "global_step/max_steps": "36965/65595", "percentage": "56.35%", "elapsed_time": "1d 19h 37m 4s", "remaining_time": "1d 9h 46m 58s"}
+{"loss": 0.10248687, "token_acc": 0.96981973, "grad_norm": 1.44306958, "learning_rate": 4.007e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235411, "epoch": 2.81805016, "global_step/max_steps": "36970/65595", "percentage": "56.36%", "elapsed_time": "1d 19h 37m 21s", "remaining_time": "1d 9h 46m 33s"}
+{"loss": 0.07119889, "token_acc": 0.97542902, "grad_norm": 1.552109, "learning_rate": 4.006e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235422, "epoch": 2.81843128, "global_step/max_steps": "36975/65595", "percentage": "56.37%", "elapsed_time": "1d 19h 37m 36s", "remaining_time": "1d 9h 46m 7s"}
+{"loss": 0.07963992, "token_acc": 0.96979796, "grad_norm": 0.55294967, "learning_rate": 4.005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235429, "epoch": 2.81881241, "global_step/max_steps": "36980/65595", "percentage": "56.38%", "elapsed_time": "1d 19h 37m 52s", "remaining_time": "1d 9h 45m 42s"}
+{"loss": 0.07668165, "token_acc": 0.97014563, "grad_norm": 0.82167143, "learning_rate": 4.004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235436, "epoch": 2.81919354, "global_step/max_steps": "36985/65595", "percentage": "56.38%", "elapsed_time": "1d 19h 38m 9s", "remaining_time": "1d 9h 45m 17s"}
+{"loss": 0.1049383, "token_acc": 0.96048193, "grad_norm": 0.97176641, "learning_rate": 4.003e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235442, "epoch": 2.81957466, "global_step/max_steps": "36990/65595", "percentage": "56.39%", "elapsed_time": "1d 19h 38m 26s", "remaining_time": "1d 9h 44m 53s"}
+{"loss": 0.08855851, "token_acc": 0.96615385, "grad_norm": 1.07944393, "learning_rate": 4.002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235451, "epoch": 2.81995579, "global_step/max_steps": "36995/65595", "percentage": "56.40%", "elapsed_time": "1d 19h 38m 41s", "remaining_time": "1d 9h 44m 27s"}
+{"loss": 0.12776586, "token_acc": 0.95492424, "grad_norm": 3.25041366, "learning_rate": 4e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235461, "epoch": 2.82033692, "global_step/max_steps": "37000/65595", "percentage": "56.41%", "elapsed_time": "1d 19h 38m 56s", "remaining_time": "1d 9h 44m 1s"}
+{"eval_loss": 0.07391707, "eval_token_acc": 0.96833022, "eval_runtime": 219.3961, "eval_samples_per_second": 2.416, "eval_steps_per_second": 2.416, "epoch": 2.82033692, "global_step/max_steps": "37000/65595", "percentage": "56.41%", "elapsed_time": "1d 19h 42m 35s", "remaining_time": "1d 9h 46m 50s"}
+{"loss": 0.1311519, "token_acc": 0.96793761, "grad_norm": 1.17519999, "learning_rate": 3.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235137, "epoch": 2.82071804, "global_step/max_steps": "37005/65595", "percentage": "56.41%", "elapsed_time": "1d 19h 42m 53s", "remaining_time": "1d 9h 46m 26s"}
+{"loss": 0.06140064, "token_acc": 0.96699801, "grad_norm": 0.53552628, "learning_rate": 3.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235147, "epoch": 2.82109917, "global_step/max_steps": "37010/65595", "percentage": "56.42%", "elapsed_time": "1d 19h 43m 8s", "remaining_time": "1d 9h 46m 0s"}
+{"loss": 0.05486927, "token_acc": 0.97382199, "grad_norm": 0.90672445, "learning_rate": 3.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235151, "epoch": 2.8214803, "global_step/max_steps": "37015/65595", "percentage": "56.43%", "elapsed_time": "1d 19h 43m 26s", "remaining_time": "1d 9h 45m 36s"}
+{"loss": 0.08770846, "token_acc": 0.96456618, "grad_norm": 1.18223786, "learning_rate": 3.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235157, "epoch": 2.82186142, "global_step/max_steps": "37020/65595", "percentage": "56.44%", "elapsed_time": "1d 19h 43m 44s", "remaining_time": "1d 9h 45m 12s"}
+{"loss": 0.06765682, "token_acc": 0.97092813, "grad_norm": 1.61479712, "learning_rate": 3.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235162, "epoch": 2.82224255, "global_step/max_steps": "37025/65595", "percentage": "56.44%", "elapsed_time": "1d 19h 44m 2s", "remaining_time": "1d 9h 44m 48s"}
+{"loss": 0.08962969, "token_acc": 0.96938169, "grad_norm": 2.57998681, "learning_rate": 3.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235168, "epoch": 2.82262368, "global_step/max_steps": "37030/65595", "percentage": "56.45%", "elapsed_time": "1d 19h 44m 19s", "remaining_time": "1d 9h 44m 24s"}
+{"loss": 0.07182465, "token_acc": 0.97399836, "grad_norm": 0.4994626, "learning_rate": 3.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235171, "epoch": 2.8230048, "global_step/max_steps": "37035/65595", "percentage": "56.46%", "elapsed_time": "1d 19h 44m 38s", "remaining_time": "1d 9h 44m 1s"}
+{"loss": 0.07686096, "token_acc": 0.96759384, "grad_norm": 1.1397965, "learning_rate": 3.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23518, "epoch": 2.82338593, "global_step/max_steps": "37040/65595", "percentage": "56.47%", "elapsed_time": "1d 19h 44m 54s", "remaining_time": "1d 9h 43m 36s"}
+{"loss": 0.08141154, "token_acc": 0.97143343, "grad_norm": 1.58724535, "learning_rate": 3.99e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235183, "epoch": 2.82376706, "global_step/max_steps": "37045/65595", "percentage": "56.48%", "elapsed_time": "1d 19h 45m 13s", "remaining_time": "1d 9h 43m 12s"}
+{"loss": 0.08121343, "token_acc": 0.9753888, "grad_norm": 0.81422877, "learning_rate": 3.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235188, "epoch": 2.82414818, "global_step/max_steps": "37050/65595", "percentage": "56.48%", "elapsed_time": "1d 19h 45m 31s", "remaining_time": "1d 9h 42m 49s"}
+{"loss": 0.11091704, "token_acc": 0.96155303, "grad_norm": 0.74224389, "learning_rate": 3.988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235194, "epoch": 2.82452931, "global_step/max_steps": "37055/65595", "percentage": "56.49%", "elapsed_time": "1d 19h 45m 48s", "remaining_time": "1d 9h 42m 25s"}
+{"loss": 0.08091415, "token_acc": 0.97070312, "grad_norm": 1.07991505, "learning_rate": 3.986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235201, "epoch": 2.82491044, "global_step/max_steps": "37060/65595", "percentage": "56.50%", "elapsed_time": "1d 19h 46m 5s", "remaining_time": "1d 9h 41m 59s"}
+{"loss": 0.13060143, "token_acc": 0.94033544, "grad_norm": 1.38358819, "learning_rate": 3.985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235211, "epoch": 2.82529156, "global_step/max_steps": "37065/65595", "percentage": "56.51%", "elapsed_time": "1d 19h 46m 19s", "remaining_time": "1d 9h 41m 33s"}
+{"loss": 0.09031331, "token_acc": 0.97218678, "grad_norm": 1.13184905, "learning_rate": 3.984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235219, "epoch": 2.82567269, "global_step/max_steps": "37070/65595", "percentage": "56.51%", "elapsed_time": "1d 19h 46m 35s", "remaining_time": "1d 9h 41m 8s"}
+{"loss": 0.08069726, "token_acc": 0.97224992, "grad_norm": 0.83602738, "learning_rate": 3.983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235222, "epoch": 2.82605382, "global_step/max_steps": "37075/65595", "percentage": "56.52%", "elapsed_time": "1d 19h 46m 54s", "remaining_time": "1d 9h 40m 45s"}
+{"loss": 0.10121493, "token_acc": 0.96129692, "grad_norm": 0.87361842, "learning_rate": 3.982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235227, "epoch": 2.82643494, "global_step/max_steps": "37080/65595", "percentage": "56.53%", "elapsed_time": "1d 19h 47m 12s", "remaining_time": "1d 9h 40m 21s"}
+{"loss": 0.08203987, "token_acc": 0.97288039, "grad_norm": 1.17842364, "learning_rate": 3.98e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235234, "epoch": 2.82681607, "global_step/max_steps": "37085/65595", "percentage": "56.54%", "elapsed_time": "1d 19h 47m 29s", "remaining_time": "1d 9h 39m 56s"}
+{"loss": 0.08631514, "token_acc": 0.96723549, "grad_norm": 1.54383945, "learning_rate": 3.979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235246, "epoch": 2.82719719, "global_step/max_steps": "37090/65595", "percentage": "56.54%", "elapsed_time": "1d 19h 47m 42s", "remaining_time": "1d 9h 39m 29s"}
+{"loss": 0.07424244, "token_acc": 0.97639344, "grad_norm": 1.99432552, "learning_rate": 3.978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235253, "epoch": 2.82757832, "global_step/max_steps": "37095/65595", "percentage": "56.55%", "elapsed_time": "1d 19h 47m 58s", "remaining_time": "1d 9h 39m 4s"}
+{"loss": 0.11411021, "token_acc": 0.95572977, "grad_norm": 1.29278469, "learning_rate": 3.977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235261, "epoch": 2.82795945, "global_step/max_steps": "37100/65595", "percentage": "56.56%", "elapsed_time": "1d 19h 48m 15s", "remaining_time": "1d 9h 38m 39s"}
+{"loss": 0.10129849, "token_acc": 0.97094211, "grad_norm": 1.09053659, "learning_rate": 3.976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235267, "epoch": 2.82834057, "global_step/max_steps": "37105/65595", "percentage": "56.57%", "elapsed_time": "1d 19h 48m 31s", "remaining_time": "1d 9h 38m 14s"}
+{"loss": 0.08270696, "token_acc": 0.96661211, "grad_norm": 0.55658394, "learning_rate": 3.975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23527, "epoch": 2.8287217, "global_step/max_steps": "37110/65595", "percentage": "56.57%", "elapsed_time": "1d 19h 48m 51s", "remaining_time": "1d 9h 37m 51s"}
+{"loss": 0.11617907, "token_acc": 0.95619867, "grad_norm": 0.78084064, "learning_rate": 3.973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235278, "epoch": 2.82910283, "global_step/max_steps": "37115/65595", "percentage": "56.58%", "elapsed_time": "1d 19h 49m 7s", "remaining_time": "1d 9h 37m 26s"}
+{"loss": 0.05223644, "token_acc": 0.97637271, "grad_norm": 0.46499619, "learning_rate": 3.972e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235287, "epoch": 2.82948395, "global_step/max_steps": "37120/65595", "percentage": "56.59%", "elapsed_time": "1d 19h 49m 22s", "remaining_time": "1d 9h 37m 0s"}
+{"loss": 0.07091, "token_acc": 0.96744309, "grad_norm": 0.76609027, "learning_rate": 3.971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235294, "epoch": 2.82986508, "global_step/max_steps": "37125/65595", "percentage": "56.60%", "elapsed_time": "1d 19h 49m 38s", "remaining_time": "1d 9h 36m 35s"}
+{"loss": 0.10268214, "token_acc": 0.96051687, "grad_norm": 1.27472067, "learning_rate": 3.97e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235303, "epoch": 2.83024621, "global_step/max_steps": "37130/65595", "percentage": "56.60%", "elapsed_time": "1d 19h 49m 54s", "remaining_time": "1d 9h 36m 10s"}
+{"loss": 0.07852542, "token_acc": 0.96270558, "grad_norm": 1.05063212, "learning_rate": 3.969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23531, "epoch": 2.83062733, "global_step/max_steps": "37135/65595", "percentage": "56.61%", "elapsed_time": "1d 19h 50m 10s", "remaining_time": "1d 9h 35m 45s"}
+{"loss": 0.07245815, "token_acc": 0.97332016, "grad_norm": 0.65926361, "learning_rate": 3.968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235316, "epoch": 2.83100846, "global_step/max_steps": "37140/65595", "percentage": "56.62%", "elapsed_time": "1d 19h 50m 27s", "remaining_time": "1d 9h 35m 20s"}
+{"loss": 0.09650664, "token_acc": 0.9565307, "grad_norm": 1.00488555, "learning_rate": 3.966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235323, "epoch": 2.83138959, "global_step/max_steps": "37145/65595", "percentage": "56.63%", "elapsed_time": "1d 19h 50m 44s", "remaining_time": "1d 9h 34m 56s"}
+{"loss": 0.11208385, "token_acc": 0.96557301, "grad_norm": 1.38322389, "learning_rate": 3.965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235329, "epoch": 2.83177071, "global_step/max_steps": "37150/65595", "percentage": "56.64%", "elapsed_time": "1d 19h 51m 1s", "remaining_time": "1d 9h 34m 31s"}
+{"loss": 0.07781385, "token_acc": 0.96017223, "grad_norm": 0.88618797, "learning_rate": 3.964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235339, "epoch": 2.83215184, "global_step/max_steps": "37155/65595", "percentage": "56.64%", "elapsed_time": "1d 19h 51m 16s", "remaining_time": "1d 9h 34m 5s"}
+{"loss": 0.04949743, "token_acc": 0.96985682, "grad_norm": 1.29238486, "learning_rate": 3.963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235347, "epoch": 2.83253297, "global_step/max_steps": "37160/65595", "percentage": "56.65%", "elapsed_time": "1d 19h 51m 32s", "remaining_time": "1d 9h 33m 39s"}
+{"loss": 0.06599857, "token_acc": 0.97908452, "grad_norm": 0.5005874, "learning_rate": 3.962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235352, "epoch": 2.83291409, "global_step/max_steps": "37165/65595", "percentage": "56.66%", "elapsed_time": "1d 19h 51m 50s", "remaining_time": "1d 9h 33m 16s"}
+{"loss": 0.04505499, "token_acc": 0.98060018, "grad_norm": 0.47089097, "learning_rate": 3.961e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235356, "epoch": 2.83329522, "global_step/max_steps": "37170/65595", "percentage": "56.67%", "elapsed_time": "1d 19h 52m 8s", "remaining_time": "1d 9h 32m 52s"}
+{"loss": 0.09503658, "token_acc": 0.9631518, "grad_norm": 0.84572238, "learning_rate": 3.959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235364, "epoch": 2.83367635, "global_step/max_steps": "37175/65595", "percentage": "56.67%", "elapsed_time": "1d 19h 52m 24s", "remaining_time": "1d 9h 32m 27s"}
+{"loss": 0.0913251, "token_acc": 0.97076435, "grad_norm": 1.16161335, "learning_rate": 3.958e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23537, "epoch": 2.83405747, "global_step/max_steps": "37180/65595", "percentage": "56.68%", "elapsed_time": "1d 19h 52m 41s", "remaining_time": "1d 9h 32m 3s"}
+{"loss": 0.10978184, "token_acc": 0.96275342, "grad_norm": 1.63235319, "learning_rate": 3.957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235377, "epoch": 2.8344386, "global_step/max_steps": "37185/65595", "percentage": "56.69%", "elapsed_time": "1d 19h 52m 58s", "remaining_time": "1d 9h 31m 38s"}
+{"loss": 0.09096361, "token_acc": 0.96191161, "grad_norm": 0.3786152, "learning_rate": 3.956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235387, "epoch": 2.83481973, "global_step/max_steps": "37190/65595", "percentage": "56.70%", "elapsed_time": "1d 19h 53m 12s", "remaining_time": "1d 9h 31m 11s"}
+{"loss": 0.05273026, "token_acc": 0.97283019, "grad_norm": 1.03730798, "learning_rate": 3.955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235396, "epoch": 2.83520085, "global_step/max_steps": "37195/65595", "percentage": "56.70%", "elapsed_time": "1d 19h 53m 28s", "remaining_time": "1d 9h 30m 46s"}
+{"loss": 0.08107392, "token_acc": 0.97112299, "grad_norm": 1.0132798, "learning_rate": 3.954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235402, "epoch": 2.83558198, "global_step/max_steps": "37200/65595", "percentage": "56.71%", "elapsed_time": "1d 19h 53m 45s", "remaining_time": "1d 9h 30m 21s"}
+{"eval_loss": 0.07531843, "eval_token_acc": 0.96811186, "eval_runtime": 220.8145, "eval_samples_per_second": 2.4, "eval_steps_per_second": 2.4, "epoch": 2.83558198, "global_step/max_steps": "37200/65595", "percentage": "56.71%", "elapsed_time": "1d 19h 57m 26s", "remaining_time": "1d 9h 33m 10s"}
+{"loss": 0.11442897, "token_acc": 0.96793593, "grad_norm": 0.79248077, "learning_rate": 3.952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235081, "epoch": 2.83596311, "global_step/max_steps": "37205/65595", "percentage": "56.72%", "elapsed_time": "1d 19h 57m 42s", "remaining_time": "1d 9h 32m 44s"}
+{"loss": 0.08184804, "token_acc": 0.97163636, "grad_norm": 0.66892338, "learning_rate": 3.951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235085, "epoch": 2.83634423, "global_step/max_steps": "37210/65595", "percentage": "56.73%", "elapsed_time": "1d 19h 58m 0s", "remaining_time": "1d 9h 32m 21s"}
+{"loss": 0.07830573, "token_acc": 0.96946565, "grad_norm": 0.60198748, "learning_rate": 3.95e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23509, "epoch": 2.83672536, "global_step/max_steps": "37215/65595", "percentage": "56.73%", "elapsed_time": "1d 19h 58m 18s", "remaining_time": "1d 9h 31m 58s"}
+{"loss": 0.0711294, "token_acc": 0.97579716, "grad_norm": 0.66773981, "learning_rate": 3.949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2351, "epoch": 2.83710649, "global_step/max_steps": "37220/65595", "percentage": "56.74%", "elapsed_time": "1d 19h 58m 33s", "remaining_time": "1d 9h 31m 31s"}
+{"loss": 0.09261087, "token_acc": 0.97279965, "grad_norm": 0.69301057, "learning_rate": 3.948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235107, "epoch": 2.83748761, "global_step/max_steps": "37225/65595", "percentage": "56.75%", "elapsed_time": "1d 19h 58m 49s", "remaining_time": "1d 9h 31m 6s"}
+{"loss": 0.08557368, "token_acc": 0.96089009, "grad_norm": 1.85444951, "learning_rate": 3.947e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235114, "epoch": 2.83786874, "global_step/max_steps": "37230/65595", "percentage": "56.76%", "elapsed_time": "1d 19h 59m 6s", "remaining_time": "1d 9h 30m 41s"}
+{"loss": 0.05204768, "token_acc": 0.97613365, "grad_norm": 0.76792103, "learning_rate": 3.945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235123, "epoch": 2.83824987, "global_step/max_steps": "37235/65595", "percentage": "56.76%", "elapsed_time": "1d 19h 59m 21s", "remaining_time": "1d 9h 30m 15s"}
+{"loss": 0.05148593, "token_acc": 0.97538181, "grad_norm": 0.80507845, "learning_rate": 3.944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23513, "epoch": 2.83863099, "global_step/max_steps": "37240/65595", "percentage": "56.77%", "elapsed_time": "1d 19h 59m 38s", "remaining_time": "1d 9h 29m 51s"}
+{"loss": 0.07024246, "token_acc": 0.97831545, "grad_norm": 1.53138125, "learning_rate": 3.943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23513, "epoch": 2.83901212, "global_step/max_steps": "37245/65595", "percentage": "56.78%", "elapsed_time": "1d 19h 59m 59s", "remaining_time": "1d 9h 29m 29s"}
+{"loss": 0.06141211, "token_acc": 0.96775638, "grad_norm": 1.62154329, "learning_rate": 3.942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235141, "epoch": 2.83939325, "global_step/max_steps": "37250/65595", "percentage": "56.79%", "elapsed_time": "1d 20h 0m 13s", "remaining_time": "1d 9h 29m 3s"}
+{"loss": 0.1106184, "token_acc": 0.96070212, "grad_norm": 1.34092104, "learning_rate": 3.941e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235149, "epoch": 2.83977437, "global_step/max_steps": "37255/65595", "percentage": "56.80%", "elapsed_time": "1d 20h 0m 29s", "remaining_time": "1d 9h 28m 37s"}
+{"loss": 0.08258527, "token_acc": 0.96426638, "grad_norm": 0.79053926, "learning_rate": 3.939e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235156, "epoch": 2.8401555, "global_step/max_steps": "37260/65595", "percentage": "56.80%", "elapsed_time": "1d 20h 0m 45s", "remaining_time": "1d 9h 28m 12s"}
+{"loss": 0.11182752, "token_acc": 0.96202532, "grad_norm": 0.4760766, "learning_rate": 3.938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235168, "epoch": 2.84053663, "global_step/max_steps": "37265/65595", "percentage": "56.81%", "elapsed_time": "1d 20h 0m 59s", "remaining_time": "1d 9h 27m 45s"}
+{"loss": 0.10456566, "token_acc": 0.95115681, "grad_norm": 2.42731309, "learning_rate": 3.937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235176, "epoch": 2.84091775, "global_step/max_steps": "37270/65595", "percentage": "56.82%", "elapsed_time": "1d 20h 1m 14s", "remaining_time": "1d 9h 27m 19s"}
+{"loss": 0.08522037, "token_acc": 0.96863304, "grad_norm": 1.2171694, "learning_rate": 3.936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235182, "epoch": 2.84129888, "global_step/max_steps": "37275/65595", "percentage": "56.83%", "elapsed_time": "1d 20h 1m 31s", "remaining_time": "1d 9h 26m 55s"}
+{"loss": 0.08187427, "token_acc": 0.96418182, "grad_norm": 1.31088352, "learning_rate": 3.935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235187, "epoch": 2.84168001, "global_step/max_steps": "37280/65595", "percentage": "56.83%", "elapsed_time": "1d 20h 1m 50s", "remaining_time": "1d 9h 26m 31s"}
+{"loss": 0.08537745, "token_acc": 0.95468484, "grad_norm": 1.19760787, "learning_rate": 3.934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235196, "epoch": 2.84206113, "global_step/max_steps": "37285/65595", "percentage": "56.84%", "elapsed_time": "1d 20h 2m 5s", "remaining_time": "1d 9h 26m 6s"}
+{"loss": 0.09837605, "token_acc": 0.95404636, "grad_norm": 1.24709809, "learning_rate": 3.932e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235205, "epoch": 2.84244226, "global_step/max_steps": "37290/65595", "percentage": "56.85%", "elapsed_time": "1d 20h 2m 20s", "remaining_time": "1d 9h 25m 40s"}
+{"loss": 0.10673337, "token_acc": 0.95904914, "grad_norm": 1.48972988, "learning_rate": 3.931e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235212, "epoch": 2.84282339, "global_step/max_steps": "37295/65595", "percentage": "56.86%", "elapsed_time": "1d 20h 2m 37s", "remaining_time": "1d 9h 25m 15s"}
+{"loss": 0.10267217, "token_acc": 0.96041909, "grad_norm": 1.44186366, "learning_rate": 3.93e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235221, "epoch": 2.84320451, "global_step/max_steps": "37300/65595", "percentage": "56.86%", "elapsed_time": "1d 20h 2m 51s", "remaining_time": "1d 9h 24m 49s"}
+{"loss": 0.0649897, "token_acc": 0.97039126, "grad_norm": 0.89479089, "learning_rate": 3.929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235231, "epoch": 2.84358564, "global_step/max_steps": "37305/65595", "percentage": "56.87%", "elapsed_time": "1d 20h 3m 6s", "remaining_time": "1d 9h 24m 22s"}
+{"loss": 0.08120714, "token_acc": 0.9669649, "grad_norm": 0.99557781, "learning_rate": 3.928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235234, "epoch": 2.84396677, "global_step/max_steps": "37310/65595", "percentage": "56.88%", "elapsed_time": "1d 20h 3m 25s", "remaining_time": "1d 9h 24m 0s"}
+{"loss": 0.07952762, "token_acc": 0.96056955, "grad_norm": 1.22457254, "learning_rate": 3.927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235242, "epoch": 2.84434789, "global_step/max_steps": "37315/65595", "percentage": "56.89%", "elapsed_time": "1d 20h 3m 41s", "remaining_time": "1d 9h 23m 34s"}
+{"loss": 0.09536066, "token_acc": 0.96379371, "grad_norm": 0.87016875, "learning_rate": 3.925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235249, "epoch": 2.84472902, "global_step/max_steps": "37320/65595", "percentage": "56.89%", "elapsed_time": "1d 20h 3m 58s", "remaining_time": "1d 9h 23m 10s"}
+{"loss": 0.06593763, "token_acc": 0.97560368, "grad_norm": 1.59130847, "learning_rate": 3.924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235256, "epoch": 2.84511015, "global_step/max_steps": "37325/65595", "percentage": "56.90%", "elapsed_time": "1d 20h 4m 14s", "remaining_time": "1d 9h 22m 45s"}
+{"loss": 0.06542204, "token_acc": 0.96966912, "grad_norm": 0.40904456, "learning_rate": 3.923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235263, "epoch": 2.84549127, "global_step/max_steps": "37330/65595", "percentage": "56.91%", "elapsed_time": "1d 20h 4m 31s", "remaining_time": "1d 9h 22m 20s"}
+{"loss": 0.09544023, "token_acc": 0.96834873, "grad_norm": 0.74156541, "learning_rate": 3.922e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235266, "epoch": 2.8458724, "global_step/max_steps": "37335/65595", "percentage": "56.92%", "elapsed_time": "1d 20h 4m 50s", "remaining_time": "1d 9h 21m 57s"}
+{"loss": 0.13083355, "token_acc": 0.94475319, "grad_norm": 1.740991, "learning_rate": 3.921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235274, "epoch": 2.84625353, "global_step/max_steps": "37340/65595", "percentage": "56.93%", "elapsed_time": "1d 20h 5m 6s", "remaining_time": "1d 9h 21m 32s"}
+{"loss": 0.05408849, "token_acc": 0.9752776, "grad_norm": 0.83609504, "learning_rate": 3.92e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235279, "epoch": 2.84663465, "global_step/max_steps": "37345/65595", "percentage": "56.93%", "elapsed_time": "1d 20h 5m 23s", "remaining_time": "1d 9h 21m 8s"}
+{"loss": 0.09584521, "token_acc": 0.96580659, "grad_norm": 2.11460996, "learning_rate": 3.918e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235284, "epoch": 2.84701578, "global_step/max_steps": "37350/65595", "percentage": "56.94%", "elapsed_time": "1d 20h 5m 42s", "remaining_time": "1d 9h 20m 44s"}
+{"loss": 0.07180578, "token_acc": 0.9726894, "grad_norm": 0.74242014, "learning_rate": 3.917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23529, "epoch": 2.84739691, "global_step/max_steps": "37355/65595", "percentage": "56.95%", "elapsed_time": "1d 20h 5m 59s", "remaining_time": "1d 9h 20m 20s"}
+{"loss": 0.07142413, "token_acc": 0.97514499, "grad_norm": 0.54991055, "learning_rate": 3.916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235295, "epoch": 2.84777803, "global_step/max_steps": "37360/65595", "percentage": "56.96%", "elapsed_time": "1d 20h 6m 17s", "remaining_time": "1d 9h 19m 56s"}
+{"loss": 0.08360522, "token_acc": 0.96424938, "grad_norm": 1.56727719, "learning_rate": 3.915e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235299, "epoch": 2.84815916, "global_step/max_steps": "37365/65595", "percentage": "56.96%", "elapsed_time": "1d 20h 6m 35s", "remaining_time": "1d 9h 19m 33s"}
+{"loss": 0.06911306, "token_acc": 0.97623909, "grad_norm": 0.50810212, "learning_rate": 3.914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235304, "epoch": 2.84854029, "global_step/max_steps": "37370/65595", "percentage": "56.97%", "elapsed_time": "1d 20h 6m 53s", "remaining_time": "1d 9h 19m 9s"}
+{"loss": 0.09038309, "token_acc": 0.96426222, "grad_norm": 1.22336042, "learning_rate": 3.913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235309, "epoch": 2.84892141, "global_step/max_steps": "37375/65595", "percentage": "56.98%", "elapsed_time": "1d 20h 7m 11s", "remaining_time": "1d 9h 18m 45s"}
+{"loss": 0.08762488, "token_acc": 0.96102771, "grad_norm": 0.79396695, "learning_rate": 3.911e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235318, "epoch": 2.84930254, "global_step/max_steps": "37380/65595", "percentage": "56.99%", "elapsed_time": "1d 20h 7m 26s", "remaining_time": "1d 9h 18m 19s"}
+{"loss": 0.08891032, "token_acc": 0.96399369, "grad_norm": 1.61487091, "learning_rate": 3.91e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235324, "epoch": 2.84968366, "global_step/max_steps": "37385/65595", "percentage": "56.99%", "elapsed_time": "1d 20h 7m 44s", "remaining_time": "1d 9h 17m 55s"}
+{"loss": 0.07568166, "token_acc": 0.96901121, "grad_norm": 0.59986043, "learning_rate": 3.909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23533, "epoch": 2.85006479, "global_step/max_steps": "37390/65595", "percentage": "57.00%", "elapsed_time": "1d 20h 8m 1s", "remaining_time": "1d 9h 17m 31s"}
+{"loss": 0.08821362, "token_acc": 0.96143528, "grad_norm": 1.01007652, "learning_rate": 3.908e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23534, "epoch": 2.85044592, "global_step/max_steps": "37395/65595", "percentage": "57.01%", "elapsed_time": "1d 20h 8m 15s", "remaining_time": "1d 9h 17m 5s"}
+{"loss": 0.12524908, "token_acc": 0.95261285, "grad_norm": 1.64588392, "learning_rate": 3.907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235346, "epoch": 2.85082704, "global_step/max_steps": "37400/65595", "percentage": "57.02%", "elapsed_time": "1d 20h 8m 32s", "remaining_time": "1d 9h 16m 40s"}
+{"eval_loss": 0.07392237, "eval_token_acc": 0.96812692, "eval_runtime": 221.274, "eval_samples_per_second": 2.395, "eval_steps_per_second": 2.395, "epoch": 2.85082704, "global_step/max_steps": "37400/65595", "percentage": "57.02%", "elapsed_time": "1d 20h 12m 14s", "remaining_time": "1d 9h 19m 27s"}
+{"loss": 0.09801878, "token_acc": 0.96815609, "grad_norm": 1.02302396, "learning_rate": 3.906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235026, "epoch": 2.85120817, "global_step/max_steps": "37405/65595", "percentage": "57.02%", "elapsed_time": "1d 20h 12m 30s", "remaining_time": "1d 9h 19m 2s"}
+{"loss": 0.08635572, "token_acc": 0.97203511, "grad_norm": 0.83884311, "learning_rate": 3.904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235033, "epoch": 2.8515893, "global_step/max_steps": "37410/65595", "percentage": "57.03%", "elapsed_time": "1d 20h 12m 46s", "remaining_time": "1d 9h 18m 37s"}
+{"loss": 0.09397612, "token_acc": 0.96114071, "grad_norm": 1.26183999, "learning_rate": 3.903e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235041, "epoch": 2.85197042, "global_step/max_steps": "37415/65595", "percentage": "57.04%", "elapsed_time": "1d 20h 13m 2s", "remaining_time": "1d 9h 18m 12s"}
+{"loss": 0.08769039, "token_acc": 0.96687937, "grad_norm": 0.74728799, "learning_rate": 3.902e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235046, "epoch": 2.85235155, "global_step/max_steps": "37420/65595", "percentage": "57.05%", "elapsed_time": "1d 20h 13m 20s", "remaining_time": "1d 9h 17m 48s"}
+{"loss": 0.07200249, "token_acc": 0.97331621, "grad_norm": 1.82954955, "learning_rate": 3.901e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235049, "epoch": 2.85273268, "global_step/max_steps": "37425/65595", "percentage": "57.05%", "elapsed_time": "1d 20h 13m 39s", "remaining_time": "1d 9h 17m 25s"}
+{"loss": 0.06193676, "token_acc": 0.97525635, "grad_norm": 0.74573916, "learning_rate": 3.9e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235056, "epoch": 2.8531138, "global_step/max_steps": "37430/65595", "percentage": "57.06%", "elapsed_time": "1d 20h 13m 56s", "remaining_time": "1d 9h 17m 0s"}
+{"loss": 0.11662843, "token_acc": 0.96285673, "grad_norm": 0.50315863, "learning_rate": 3.899e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235062, "epoch": 2.85349493, "global_step/max_steps": "37435/65595", "percentage": "57.07%", "elapsed_time": "1d 20h 14m 13s", "remaining_time": "1d 9h 16m 36s"}
+{"loss": 0.07669078, "token_acc": 0.9683708, "grad_norm": 0.72604442, "learning_rate": 3.897e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235066, "epoch": 2.85387606, "global_step/max_steps": "37440/65595", "percentage": "57.08%", "elapsed_time": "1d 20h 14m 31s", "remaining_time": "1d 9h 16m 12s"}
+{"loss": 0.06116015, "token_acc": 0.97603834, "grad_norm": 0.57034993, "learning_rate": 3.896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23507, "epoch": 2.85425718, "global_step/max_steps": "37445/65595", "percentage": "57.09%", "elapsed_time": "1d 20h 14m 50s", "remaining_time": "1d 9h 15m 49s"}
+{"loss": 0.06857154, "token_acc": 0.96896217, "grad_norm": 1.29579103, "learning_rate": 3.895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23508, "epoch": 2.85463831, "global_step/max_steps": "37450/65595", "percentage": "57.09%", "elapsed_time": "1d 20h 15m 5s", "remaining_time": "1d 9h 15m 23s"}
+{"loss": 0.10757467, "token_acc": 0.96713615, "grad_norm": 1.04018044, "learning_rate": 3.894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235085, "epoch": 2.85501944, "global_step/max_steps": "37455/65595", "percentage": "57.10%", "elapsed_time": "1d 20h 15m 22s", "remaining_time": "1d 9h 14m 59s"}
+{"loss": 0.09515454, "token_acc": 0.96406284, "grad_norm": 1.59040534, "learning_rate": 3.893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235091, "epoch": 2.85540056, "global_step/max_steps": "37460/65595", "percentage": "57.11%", "elapsed_time": "1d 20h 15m 40s", "remaining_time": "1d 9h 14m 35s"}
+{"loss": 0.07712589, "token_acc": 0.97078064, "grad_norm": 0.90201724, "learning_rate": 3.892e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2351, "epoch": 2.85578169, "global_step/max_steps": "37465/65595", "percentage": "57.12%", "elapsed_time": "1d 20h 15m 55s", "remaining_time": "1d 9h 14m 9s"}
+{"loss": 0.07396082, "token_acc": 0.96622033, "grad_norm": 1.31820226, "learning_rate": 3.89e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235108, "epoch": 2.85616282, "global_step/max_steps": "37470/65595", "percentage": "57.12%", "elapsed_time": "1d 20h 16m 11s", "remaining_time": "1d 9h 13m 44s"}
+{"loss": 0.06605539, "token_acc": 0.9739777, "grad_norm": 1.76376379, "learning_rate": 3.889e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235119, "epoch": 2.85654394, "global_step/max_steps": "37475/65595", "percentage": "57.13%", "elapsed_time": "1d 20h 16m 25s", "remaining_time": "1d 9h 13m 17s"}
+{"loss": 0.08866017, "token_acc": 0.96182611, "grad_norm": 0.89496577, "learning_rate": 3.888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235124, "epoch": 2.85692507, "global_step/max_steps": "37480/65595", "percentage": "57.14%", "elapsed_time": "1d 20h 16m 43s", "remaining_time": "1d 9h 12m 53s"}
+{"loss": 0.07980451, "token_acc": 0.97529471, "grad_norm": 0.76151592, "learning_rate": 3.887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235128, "epoch": 2.8573062, "global_step/max_steps": "37485/65595", "percentage": "57.15%", "elapsed_time": "1d 20h 17m 1s", "remaining_time": "1d 9h 12m 30s"}
+{"loss": 0.09254344, "token_acc": 0.9654072, "grad_norm": 0.53381175, "learning_rate": 3.886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235131, "epoch": 2.85768732, "global_step/max_steps": "37490/65595", "percentage": "57.15%", "elapsed_time": "1d 20h 17m 21s", "remaining_time": "1d 9h 12m 7s"}
+{"loss": 0.06830714, "token_acc": 0.97405281, "grad_norm": 1.24376619, "learning_rate": 3.885e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235137, "epoch": 2.85806845, "global_step/max_steps": "37495/65595", "percentage": "57.16%", "elapsed_time": "1d 20h 17m 37s", "remaining_time": "1d 9h 11m 42s"}
+{"loss": 0.05515642, "token_acc": 0.97752222, "grad_norm": 0.67804378, "learning_rate": 3.883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235142, "epoch": 2.85844958, "global_step/max_steps": "37500/65595", "percentage": "57.17%", "elapsed_time": "1d 20h 17m 55s", "remaining_time": "1d 9h 11m 19s"}
+{"loss": 0.11557214, "token_acc": 0.96543874, "grad_norm": 0.98789644, "learning_rate": 3.882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235146, "epoch": 2.8588307, "global_step/max_steps": "37505/65595", "percentage": "57.18%", "elapsed_time": "1d 20h 18m 14s", "remaining_time": "1d 9h 10m 56s"}
+{"loss": 0.09238015, "token_acc": 0.97143894, "grad_norm": 1.63798416, "learning_rate": 3.881e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235148, "epoch": 2.85921183, "global_step/max_steps": "37510/65595", "percentage": "57.18%", "elapsed_time": "1d 20h 18m 34s", "remaining_time": "1d 9h 10m 33s"}
+{"loss": 0.09083805, "token_acc": 0.95936336, "grad_norm": 3.08330154, "learning_rate": 3.88e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235156, "epoch": 2.85959296, "global_step/max_steps": "37515/65595", "percentage": "57.19%", "elapsed_time": "1d 20h 18m 50s", "remaining_time": "1d 9h 10m 8s"}
+{"loss": 0.08880418, "token_acc": 0.97682446, "grad_norm": 1.56040132, "learning_rate": 3.879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235162, "epoch": 2.85997408, "global_step/max_steps": "37520/65595", "percentage": "57.20%", "elapsed_time": "1d 20h 19m 7s", "remaining_time": "1d 9h 9m 44s"}
+{"loss": 0.09186558, "token_acc": 0.96432719, "grad_norm": 0.82983941, "learning_rate": 3.878e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235167, "epoch": 2.86035521, "global_step/max_steps": "37525/65595", "percentage": "57.21%", "elapsed_time": "1d 20h 19m 24s", "remaining_time": "1d 9h 9m 20s"}
+{"loss": 0.06606681, "token_acc": 0.97506925, "grad_norm": 0.72135043, "learning_rate": 3.876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235174, "epoch": 2.86073634, "global_step/max_steps": "37530/65595", "percentage": "57.21%", "elapsed_time": "1d 20h 19m 41s", "remaining_time": "1d 9h 8m 55s"}
+{"loss": 0.10126534, "token_acc": 0.96108767, "grad_norm": 1.09718084, "learning_rate": 3.875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235181, "epoch": 2.86111746, "global_step/max_steps": "37535/65595", "percentage": "57.22%", "elapsed_time": "1d 20h 19m 58s", "remaining_time": "1d 9h 8m 30s"}
+{"loss": 0.08379967, "token_acc": 0.97110775, "grad_norm": 0.48849267, "learning_rate": 3.874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235181, "epoch": 2.86149859, "global_step/max_steps": "37540/65595", "percentage": "57.23%", "elapsed_time": "1d 20h 20m 19s", "remaining_time": "1d 9h 8m 9s"}
+{"loss": 0.08777063, "token_acc": 0.96501957, "grad_norm": 1.40507507, "learning_rate": 3.873e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235188, "epoch": 2.86187972, "global_step/max_steps": "37545/65595", "percentage": "57.24%", "elapsed_time": "1d 20h 20m 36s", "remaining_time": "1d 9h 7m 44s"}
+{"loss": 0.13713667, "token_acc": 0.95916526, "grad_norm": 0.85044473, "learning_rate": 3.872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235192, "epoch": 2.86226084, "global_step/max_steps": "37550/65595", "percentage": "57.25%", "elapsed_time": "1d 20h 20m 54s", "remaining_time": "1d 9h 7m 21s"}
+{"loss": 0.08787783, "token_acc": 0.97282447, "grad_norm": 0.91923994, "learning_rate": 3.871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235195, "epoch": 2.86264197, "global_step/max_steps": "37555/65595", "percentage": "57.25%", "elapsed_time": "1d 20h 21m 13s", "remaining_time": "1d 9h 6m 58s"}
+{"loss": 0.09883487, "token_acc": 0.95872912, "grad_norm": 0.69136, "learning_rate": 3.869e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235204, "epoch": 2.8630231, "global_step/max_steps": "37560/65595", "percentage": "57.26%", "elapsed_time": "1d 20h 21m 29s", "remaining_time": "1d 9h 6m 32s"}
+{"loss": 0.08358967, "token_acc": 0.96370823, "grad_norm": 2.49480152, "learning_rate": 3.868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235213, "epoch": 2.86340422, "global_step/max_steps": "37565/65595", "percentage": "57.27%", "elapsed_time": "1d 20h 21m 43s", "remaining_time": "1d 9h 6m 6s"}
+{"loss": 0.07112234, "token_acc": 0.97056931, "grad_norm": 0.76210445, "learning_rate": 3.867e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23522, "epoch": 2.86378535, "global_step/max_steps": "37570/65595", "percentage": "57.28%", "elapsed_time": "1d 20h 22m 0s", "remaining_time": "1d 9h 5m 42s"}
+{"loss": 0.06059027, "token_acc": 0.97419096, "grad_norm": 0.90778589, "learning_rate": 3.866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235221, "epoch": 2.86416648, "global_step/max_steps": "37575/65595", "percentage": "57.28%", "elapsed_time": "1d 20h 22m 21s", "remaining_time": "1d 9h 5m 20s"}
+{"loss": 0.07616848, "token_acc": 0.96449881, "grad_norm": 1.48396373, "learning_rate": 3.865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23523, "epoch": 2.8645476, "global_step/max_steps": "37580/65595", "percentage": "57.29%", "elapsed_time": "1d 20h 22m 36s", "remaining_time": "1d 9h 4m 54s"}
+{"loss": 0.06423194, "token_acc": 0.97468092, "grad_norm": 0.60791433, "learning_rate": 3.864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235231, "epoch": 2.86492873, "global_step/max_steps": "37585/65595", "percentage": "57.30%", "elapsed_time": "1d 20h 22m 56s", "remaining_time": "1d 9h 4m 32s"}
+{"loss": 0.05817865, "token_acc": 0.97611026, "grad_norm": 1.69621384, "learning_rate": 3.862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235241, "epoch": 2.86530986, "global_step/max_steps": "37590/65595", "percentage": "57.31%", "elapsed_time": "1d 20h 23m 11s", "remaining_time": "1d 9h 4m 6s"}
+{"loss": 0.08919512, "token_acc": 0.96680851, "grad_norm": 0.79180264, "learning_rate": 3.861e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235249, "epoch": 2.86569098, "global_step/max_steps": "37595/65595", "percentage": "57.31%", "elapsed_time": "1d 20h 23m 27s", "remaining_time": "1d 9h 3m 41s"}
+{"loss": 0.07795864, "token_acc": 0.96914701, "grad_norm": 1.19966364, "learning_rate": 3.86e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235257, "epoch": 2.86607211, "global_step/max_steps": "37600/65595", "percentage": "57.32%", "elapsed_time": "1d 20h 23m 42s", "remaining_time": "1d 9h 3m 15s"}
+{"eval_loss": 0.0733844, "eval_token_acc": 0.96867659, "eval_runtime": 221.5313, "eval_samples_per_second": 2.392, "eval_steps_per_second": 2.392, "epoch": 2.86607211, "global_step/max_steps": "37600/65595", "percentage": "57.32%", "elapsed_time": "1d 20h 27m 24s", "remaining_time": "1d 9h 6m 0s"}
+{"loss": 0.07049527, "token_acc": 0.96853432, "grad_norm": 0.68253976, "learning_rate": 3.859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234937, "epoch": 2.86645324, "global_step/max_steps": "37605/65595", "percentage": "57.33%", "elapsed_time": "1d 20h 27m 42s", "remaining_time": "1d 9h 5m 36s"}
+{"loss": 0.04430015, "token_acc": 0.98461538, "grad_norm": 0.8457135, "learning_rate": 3.858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234947, "epoch": 2.86683436, "global_step/max_steps": "37610/65595", "percentage": "57.34%", "elapsed_time": "1d 20h 27m 56s", "remaining_time": "1d 9h 5m 10s"}
+{"loss": 0.08750039, "token_acc": 0.96287643, "grad_norm": 1.44012201, "learning_rate": 3.857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234956, "epoch": 2.86721549, "global_step/max_steps": "37615/65595", "percentage": "57.34%", "elapsed_time": "1d 20h 28m 11s", "remaining_time": "1d 9h 4m 44s"}
+{"loss": 0.06733075, "token_acc": 0.97103838, "grad_norm": 0.70183837, "learning_rate": 3.855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234964, "epoch": 2.86759662, "global_step/max_steps": "37620/65595", "percentage": "57.35%", "elapsed_time": "1d 20h 28m 27s", "remaining_time": "1d 9h 4m 19s"}
+{"loss": 0.10761547, "token_acc": 0.95911004, "grad_norm": 1.07677436, "learning_rate": 3.854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234971, "epoch": 2.86797774, "global_step/max_steps": "37625/65595", "percentage": "57.36%", "elapsed_time": "1d 20h 28m 43s", "remaining_time": "1d 9h 3m 54s"}
+{"loss": 0.07416891, "token_acc": 0.97428012, "grad_norm": 1.58762038, "learning_rate": 3.853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234979, "epoch": 2.86835887, "global_step/max_steps": "37630/65595", "percentage": "57.37%", "elapsed_time": "1d 20h 29m 0s", "remaining_time": "1d 9h 3m 29s"}
+{"loss": 0.16404305, "token_acc": 0.94392705, "grad_norm": 2.08518577, "learning_rate": 3.852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234983, "epoch": 2.86874, "global_step/max_steps": "37635/65595", "percentage": "57.37%", "elapsed_time": "1d 20h 29m 18s", "remaining_time": "1d 9h 3m 5s"}
+{"loss": 0.05104566, "token_acc": 0.97775145, "grad_norm": 0.58066702, "learning_rate": 3.851e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234983, "epoch": 2.86912112, "global_step/max_steps": "37640/65595", "percentage": "57.38%", "elapsed_time": "1d 20h 29m 39s", "remaining_time": "1d 9h 2m 44s"}
+{"loss": 0.06266066, "token_acc": 0.97859456, "grad_norm": 0.58020306, "learning_rate": 3.85e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234987, "epoch": 2.86950225, "global_step/max_steps": "37645/65595", "percentage": "57.39%", "elapsed_time": "1d 20h 29m 58s", "remaining_time": "1d 9h 2m 21s"}
+{"loss": 0.06567036, "token_acc": 0.97275923, "grad_norm": 0.87982512, "learning_rate": 3.848e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23499, "epoch": 2.86988338, "global_step/max_steps": "37650/65595", "percentage": "57.40%", "elapsed_time": "1d 20h 30m 17s", "remaining_time": "1d 9h 1m 58s"}
+{"loss": 0.08284961, "token_acc": 0.96998455, "grad_norm": 1.11156809, "learning_rate": 3.847e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234998, "epoch": 2.8702645, "global_step/max_steps": "37655/65595", "percentage": "57.41%", "elapsed_time": "1d 20h 30m 33s", "remaining_time": "1d 9h 1m 33s"}
+{"loss": 0.0791006, "token_acc": 0.96041172, "grad_norm": 0.85855097, "learning_rate": 3.846e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235004, "epoch": 2.87064563, "global_step/max_steps": "37660/65595", "percentage": "57.41%", "elapsed_time": "1d 20h 30m 50s", "remaining_time": "1d 9h 1m 8s"}
+{"loss": 0.04260802, "token_acc": 0.98147041, "grad_norm": 1.0320909, "learning_rate": 3.845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235013, "epoch": 2.87102676, "global_step/max_steps": "37665/65595", "percentage": "57.42%", "elapsed_time": "1d 20h 31m 5s", "remaining_time": "1d 9h 0m 43s"}
+{"loss": 0.0982346, "token_acc": 0.96966161, "grad_norm": 0.9491744, "learning_rate": 3.844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235017, "epoch": 2.87140788, "global_step/max_steps": "37670/65595", "percentage": "57.43%", "elapsed_time": "1d 20h 31m 23s", "remaining_time": "1d 9h 0m 19s"}
+{"loss": 0.06122907, "token_acc": 0.97739178, "grad_norm": 1.15838563, "learning_rate": 3.843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235026, "epoch": 2.87178901, "global_step/max_steps": "37675/65595", "percentage": "57.44%", "elapsed_time": "1d 20h 31m 39s", "remaining_time": "1d 8h 59m 53s"}
+{"loss": 0.05883993, "token_acc": 0.9758982, "grad_norm": 0.96225208, "learning_rate": 3.841e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235027, "epoch": 2.87217013, "global_step/max_steps": "37680/65595", "percentage": "57.44%", "elapsed_time": "1d 20h 31m 59s", "remaining_time": "1d 8h 59m 31s"}
+{"loss": 0.0706448, "token_acc": 0.96266156, "grad_norm": 1.32259989, "learning_rate": 3.84e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235034, "epoch": 2.87255126, "global_step/max_steps": "37685/65595", "percentage": "57.45%", "elapsed_time": "1d 20h 32m 16s", "remaining_time": "1d 8h 59m 7s"}
+{"loss": 0.10583727, "token_acc": 0.96363867, "grad_norm": 0.62045217, "learning_rate": 3.839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235036, "epoch": 2.87293239, "global_step/max_steps": "37690/65595", "percentage": "57.46%", "elapsed_time": "1d 20h 32m 36s", "remaining_time": "1d 8h 58m 45s"}
+{"loss": 0.09766957, "token_acc": 0.97029984, "grad_norm": 0.49020872, "learning_rate": 3.838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235038, "epoch": 2.87331351, "global_step/max_steps": "37695/65595", "percentage": "57.47%", "elapsed_time": "1d 20h 32m 55s", "remaining_time": "1d 8h 58m 22s"}
+{"loss": 0.08696631, "token_acc": 0.968209, "grad_norm": 1.18338275, "learning_rate": 3.837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235042, "epoch": 2.87369464, "global_step/max_steps": "37700/65595", "percentage": "57.47%", "elapsed_time": "1d 20h 33m 14s", "remaining_time": "1d 8h 57m 59s"}
+{"loss": 0.09079868, "token_acc": 0.96424975, "grad_norm": 1.47366965, "learning_rate": 3.836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235047, "epoch": 2.87407577, "global_step/max_steps": "37705/65595", "percentage": "57.48%", "elapsed_time": "1d 20h 33m 32s", "remaining_time": "1d 8h 57m 35s"}
+{"loss": 0.08161353, "token_acc": 0.9718894, "grad_norm": 0.60441524, "learning_rate": 3.834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235054, "epoch": 2.87445689, "global_step/max_steps": "37710/65595", "percentage": "57.49%", "elapsed_time": "1d 20h 33m 48s", "remaining_time": "1d 8h 57m 10s"}
+{"loss": 0.08416851, "token_acc": 0.96793093, "grad_norm": 1.34269309, "learning_rate": 3.833e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235058, "epoch": 2.87483802, "global_step/max_steps": "37715/65595", "percentage": "57.50%", "elapsed_time": "1d 20h 34m 7s", "remaining_time": "1d 8h 56m 47s"}
+{"loss": 0.08411678, "token_acc": 0.97557921, "grad_norm": 2.53303766, "learning_rate": 3.832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235064, "epoch": 2.87521915, "global_step/max_steps": "37720/65595", "percentage": "57.50%", "elapsed_time": "1d 20h 34m 24s", "remaining_time": "1d 8h 56m 22s"}
+{"loss": 0.08168487, "token_acc": 0.96680434, "grad_norm": 0.03720681, "learning_rate": 3.831e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23507, "epoch": 2.87560027, "global_step/max_steps": "37725/65595", "percentage": "57.51%", "elapsed_time": "1d 20h 34m 41s", "remaining_time": "1d 8h 55m 58s"}
+{"loss": 0.09484231, "token_acc": 0.95892377, "grad_norm": 1.24875879, "learning_rate": 3.83e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235075, "epoch": 2.8759814, "global_step/max_steps": "37730/65595", "percentage": "57.52%", "elapsed_time": "1d 20h 34m 59s", "remaining_time": "1d 8h 55m 34s"}
+{"loss": 0.07753747, "token_acc": 0.97266949, "grad_norm": 2.02140498, "learning_rate": 3.829e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235081, "epoch": 2.87636253, "global_step/max_steps": "37735/65595", "percentage": "57.53%", "elapsed_time": "1d 20h 35m 16s", "remaining_time": "1d 8h 55m 10s"}
+{"loss": 0.10608423, "token_acc": 0.95913072, "grad_norm": 1.10657191, "learning_rate": 3.827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235091, "epoch": 2.87674365, "global_step/max_steps": "37740/65595", "percentage": "57.53%", "elapsed_time": "1d 20h 35m 31s", "remaining_time": "1d 8h 54m 44s"}
+{"loss": 0.0775803, "token_acc": 0.97038391, "grad_norm": 0.75973344, "learning_rate": 3.826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235098, "epoch": 2.87712478, "global_step/max_steps": "37745/65595", "percentage": "57.54%", "elapsed_time": "1d 20h 35m 48s", "remaining_time": "1d 8h 54m 19s"}
+{"loss": 0.08207585, "token_acc": 0.9663373, "grad_norm": 0.6588161, "learning_rate": 3.825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235102, "epoch": 2.87750591, "global_step/max_steps": "37750/65595", "percentage": "57.55%", "elapsed_time": "1d 20h 36m 6s", "remaining_time": "1d 8h 53m 56s"}
+{"loss": 0.08710498, "token_acc": 0.96967524, "grad_norm": 0.4801119, "learning_rate": 3.824e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235104, "epoch": 2.87788703, "global_step/max_steps": "37755/65595", "percentage": "57.56%", "elapsed_time": "1d 20h 36m 26s", "remaining_time": "1d 8h 53m 34s"}
+{"loss": 0.04682545, "token_acc": 0.97553744, "grad_norm": 1.2707535, "learning_rate": 3.823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235112, "epoch": 2.87826816, "global_step/max_steps": "37760/65595", "percentage": "57.57%", "elapsed_time": "1d 20h 36m 42s", "remaining_time": "1d 8h 53m 8s"}
+{"loss": 0.1135581, "token_acc": 0.95543429, "grad_norm": 0.99179447, "learning_rate": 3.822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235117, "epoch": 2.87864929, "global_step/max_steps": "37765/65595", "percentage": "57.57%", "elapsed_time": "1d 20h 37m 0s", "remaining_time": "1d 8h 52m 45s"}
+{"loss": 0.0865594, "token_acc": 0.9701087, "grad_norm": 0.79820299, "learning_rate": 3.82e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235121, "epoch": 2.87903041, "global_step/max_steps": "37770/65595", "percentage": "57.58%", "elapsed_time": "1d 20h 37m 18s", "remaining_time": "1d 8h 52m 21s"}
+{"loss": 0.08331149, "token_acc": 0.96477414, "grad_norm": 1.55203629, "learning_rate": 3.819e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235131, "epoch": 2.87941154, "global_step/max_steps": "37775/65595", "percentage": "57.59%", "elapsed_time": "1d 20h 37m 32s", "remaining_time": "1d 8h 51m 55s"}
+{"loss": 0.03714727, "token_acc": 0.98591319, "grad_norm": 0.55558968, "learning_rate": 3.818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235135, "epoch": 2.87979267, "global_step/max_steps": "37780/65595", "percentage": "57.60%", "elapsed_time": "1d 20h 37m 51s", "remaining_time": "1d 8h 51m 31s"}
+{"loss": 0.11949472, "token_acc": 0.95868324, "grad_norm": 2.053339, "learning_rate": 3.817e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235143, "epoch": 2.88017379, "global_step/max_steps": "37785/65595", "percentage": "57.60%", "elapsed_time": "1d 20h 38m 7s", "remaining_time": "1d 8h 51m 6s"}
+{"loss": 0.08377432, "token_acc": 0.96859972, "grad_norm": 0.85493857, "learning_rate": 3.816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235147, "epoch": 2.88055492, "global_step/max_steps": "37790/65595", "percentage": "57.61%", "elapsed_time": "1d 20h 38m 26s", "remaining_time": "1d 8h 50m 43s"}
+{"loss": 0.09465957, "token_acc": 0.97106605, "grad_norm": 1.06792772, "learning_rate": 3.815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235152, "epoch": 2.88093605, "global_step/max_steps": "37795/65595", "percentage": "57.62%", "elapsed_time": "1d 20h 38m 43s", "remaining_time": "1d 8h 50m 19s"}
+{"loss": 0.06335614, "token_acc": 0.96882811, "grad_norm": 0.78137851, "learning_rate": 3.813e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235155, "epoch": 2.88131717, "global_step/max_steps": "37800/65595", "percentage": "57.63%", "elapsed_time": "1d 20h 39m 2s", "remaining_time": "1d 8h 49m 56s"}
+{"eval_loss": 0.07429222, "eval_token_acc": 0.96860882, "eval_runtime": 221.252, "eval_samples_per_second": 2.395, "eval_steps_per_second": 2.395, "epoch": 2.88131717, "global_step/max_steps": "37800/65595", "percentage": "57.63%", "elapsed_time": "1d 20h 42m 43s", "remaining_time": "1d 8h 52m 39s"}
+{"loss": 0.06352437, "token_acc": 0.96879871, "grad_norm": 0.74909675, "learning_rate": 3.812e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234835, "epoch": 2.8816983, "global_step/max_steps": "37805/65595", "percentage": "57.63%", "elapsed_time": "1d 20h 43m 2s", "remaining_time": "1d 8h 52m 16s"}
+{"loss": 0.05955099, "token_acc": 0.97703843, "grad_norm": 1.46417093, "learning_rate": 3.811e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234845, "epoch": 2.88207943, "global_step/max_steps": "37810/65595", "percentage": "57.64%", "elapsed_time": "1d 20h 43m 17s", "remaining_time": "1d 8h 51m 50s"}
+{"loss": 0.05088302, "token_acc": 0.98027795, "grad_norm": 0.74087346, "learning_rate": 3.81e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234844, "epoch": 2.88246055, "global_step/max_steps": "37815/65595", "percentage": "57.65%", "elapsed_time": "1d 20h 43m 39s", "remaining_time": "1d 8h 51m 29s"}
+{"loss": 0.06532366, "token_acc": 0.97474476, "grad_norm": 0.5694012, "learning_rate": 3.809e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234847, "epoch": 2.88284168, "global_step/max_steps": "37820/65595", "percentage": "57.66%", "elapsed_time": "1d 20h 43m 58s", "remaining_time": "1d 8h 51m 6s"}
+{"loss": 0.07660976, "token_acc": 0.96995405, "grad_norm": 2.13411546, "learning_rate": 3.808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234856, "epoch": 2.88322281, "global_step/max_steps": "37825/65595", "percentage": "57.66%", "elapsed_time": "1d 20h 44m 13s", "remaining_time": "1d 8h 50m 40s"}
+{"loss": 0.0709426, "token_acc": 0.97069051, "grad_norm": 0.34800366, "learning_rate": 3.807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234864, "epoch": 2.88360393, "global_step/max_steps": "37830/65595", "percentage": "57.67%", "elapsed_time": "1d 20h 44m 30s", "remaining_time": "1d 8h 50m 15s"}
+{"loss": 0.08238839, "token_acc": 0.97067933, "grad_norm": 0.98638594, "learning_rate": 3.805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234868, "epoch": 2.88398506, "global_step/max_steps": "37835/65595", "percentage": "57.68%", "elapsed_time": "1d 20h 44m 48s", "remaining_time": "1d 8h 49m 52s"}
+{"loss": 0.09837762, "token_acc": 0.96658477, "grad_norm": 1.20169413, "learning_rate": 3.804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234874, "epoch": 2.88436619, "global_step/max_steps": "37840/65595", "percentage": "57.69%", "elapsed_time": "1d 20h 45m 5s", "remaining_time": "1d 8h 49m 28s"}
+{"loss": 0.09818059, "token_acc": 0.9620743, "grad_norm": 0.73102182, "learning_rate": 3.803e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23488, "epoch": 2.88474731, "global_step/max_steps": "37845/65595", "percentage": "57.69%", "elapsed_time": "1d 20h 45m 22s", "remaining_time": "1d 8h 49m 3s"}
+{"loss": 0.08409084, "token_acc": 0.96577599, "grad_norm": 1.33464277, "learning_rate": 3.802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234885, "epoch": 2.88512844, "global_step/max_steps": "37850/65595", "percentage": "57.70%", "elapsed_time": "1d 20h 45m 40s", "remaining_time": "1d 8h 48m 39s"}
+{"loss": 0.09427949, "token_acc": 0.96396278, "grad_norm": 1.49788153, "learning_rate": 3.801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234889, "epoch": 2.88550957, "global_step/max_steps": "37855/65595", "percentage": "57.71%", "elapsed_time": "1d 20h 45m 58s", "remaining_time": "1d 8h 48m 16s"}
+{"loss": 0.05612734, "token_acc": 0.9784592, "grad_norm": 0.28101993, "learning_rate": 3.8e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234897, "epoch": 2.88589069, "global_step/max_steps": "37860/65595", "percentage": "57.72%", "elapsed_time": "1d 20h 46m 14s", "remaining_time": "1d 8h 47m 51s"}
+{"loss": 0.06277437, "token_acc": 0.97421942, "grad_norm": 1.61716926, "learning_rate": 3.798e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234905, "epoch": 2.88627182, "global_step/max_steps": "37865/65595", "percentage": "57.73%", "elapsed_time": "1d 20h 46m 30s", "remaining_time": "1d 8h 47m 25s"}
+{"loss": 0.09869596, "token_acc": 0.9654059, "grad_norm": 1.56837261, "learning_rate": 3.797e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234913, "epoch": 2.88665295, "global_step/max_steps": "37870/65595", "percentage": "57.73%", "elapsed_time": "1d 20h 46m 46s", "remaining_time": "1d 8h 47m 0s"}
+{"loss": 0.09572099, "token_acc": 0.96286371, "grad_norm": 0.53801221, "learning_rate": 3.796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234914, "epoch": 2.88703407, "global_step/max_steps": "37875/65595", "percentage": "57.74%", "elapsed_time": "1d 20h 47m 7s", "remaining_time": "1d 8h 46m 39s"}
+{"loss": 0.08300415, "token_acc": 0.96798628, "grad_norm": 0.81022459, "learning_rate": 3.795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23492, "epoch": 2.8874152, "global_step/max_steps": "37880/65595", "percentage": "57.75%", "elapsed_time": "1d 20h 47m 24s", "remaining_time": "1d 8h 46m 14s"}
+{"loss": 0.09912624, "token_acc": 0.96916566, "grad_norm": 1.09018803, "learning_rate": 3.794e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234928, "epoch": 2.88779633, "global_step/max_steps": "37885/65595", "percentage": "57.76%", "elapsed_time": "1d 20h 47m 39s", "remaining_time": "1d 8h 45m 49s"}
+{"loss": 0.06892263, "token_acc": 0.97265096, "grad_norm": 0.94310981, "learning_rate": 3.793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234929, "epoch": 2.88817745, "global_step/max_steps": "37890/65595", "percentage": "57.76%", "elapsed_time": "1d 20h 48m 0s", "remaining_time": "1d 8h 45m 27s"}
+{"loss": 0.08288503, "token_acc": 0.96195203, "grad_norm": 1.36351001, "learning_rate": 3.791e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23494, "epoch": 2.88855858, "global_step/max_steps": "37895/65595", "percentage": "57.77%", "elapsed_time": "1d 20h 48m 14s", "remaining_time": "1d 8h 45m 0s"}
+{"loss": 0.12587124, "token_acc": 0.95464602, "grad_norm": 0.77229756, "learning_rate": 3.79e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234948, "epoch": 2.88893971, "global_step/max_steps": "37900/65595", "percentage": "57.78%", "elapsed_time": "1d 20h 48m 29s", "remaining_time": "1d 8h 44m 35s"}
+{"loss": 0.1120681, "token_acc": 0.96626807, "grad_norm": 2.1903038, "learning_rate": 3.789e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234953, "epoch": 2.88932083, "global_step/max_steps": "37905/65595", "percentage": "57.79%", "elapsed_time": "1d 20h 48m 48s", "remaining_time": "1d 8h 44m 11s"}
+{"loss": 0.10055528, "token_acc": 0.95227047, "grad_norm": 1.01337516, "learning_rate": 3.788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234962, "epoch": 2.88970196, "global_step/max_steps": "37910/65595", "percentage": "57.79%", "elapsed_time": "1d 20h 49m 2s", "remaining_time": "1d 8h 43m 45s"}
+{"loss": 0.08179387, "token_acc": 0.96479771, "grad_norm": 0.90829116, "learning_rate": 3.787e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234966, "epoch": 2.89008309, "global_step/max_steps": "37915/65595", "percentage": "57.80%", "elapsed_time": "1d 20h 49m 21s", "remaining_time": "1d 8h 43m 22s"}
+{"loss": 0.05942943, "token_acc": 0.97704243, "grad_norm": 0.9624173, "learning_rate": 3.786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234969, "epoch": 2.89046421, "global_step/max_steps": "37920/65595", "percentage": "57.81%", "elapsed_time": "1d 20h 49m 40s", "remaining_time": "1d 8h 42m 59s"}
+{"loss": 0.09542832, "token_acc": 0.97598829, "grad_norm": 1.36982822, "learning_rate": 3.784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234978, "epoch": 2.89084534, "global_step/max_steps": "37925/65595", "percentage": "57.82%", "elapsed_time": "1d 20h 49m 55s", "remaining_time": "1d 8h 42m 34s"}
+{"loss": 0.04904534, "token_acc": 0.97159444, "grad_norm": 0.97613347, "learning_rate": 3.783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234985, "epoch": 2.89122647, "global_step/max_steps": "37930/65595", "percentage": "57.82%", "elapsed_time": "1d 20h 50m 12s", "remaining_time": "1d 8h 42m 9s"}
+{"loss": 0.10533129, "token_acc": 0.96009242, "grad_norm": 1.12057579, "learning_rate": 3.782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234991, "epoch": 2.89160759, "global_step/max_steps": "37935/65595", "percentage": "57.83%", "elapsed_time": "1d 20h 50m 29s", "remaining_time": "1d 8h 41m 45s"}
+{"loss": 0.08248489, "token_acc": 0.97125097, "grad_norm": 0.7117846, "learning_rate": 3.781e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234994, "epoch": 2.89198872, "global_step/max_steps": "37940/65595", "percentage": "57.84%", "elapsed_time": "1d 20h 50m 48s", "remaining_time": "1d 8h 41m 22s"}
+{"loss": 0.06780541, "token_acc": 0.97675103, "grad_norm": 0.55529988, "learning_rate": 3.78e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234996, "epoch": 2.89236985, "global_step/max_steps": "37945/65595", "percentage": "57.85%", "elapsed_time": "1d 20h 51m 8s", "remaining_time": "1d 8h 40m 59s"}
+{"loss": 0.10284035, "token_acc": 0.96822572, "grad_norm": 0.79380381, "learning_rate": 3.779e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235004, "epoch": 2.89275097, "global_step/max_steps": "37950/65595", "percentage": "57.86%", "elapsed_time": "1d 20h 51m 24s", "remaining_time": "1d 8h 40m 34s"}
+{"loss": 0.0637525, "token_acc": 0.97349513, "grad_norm": 0.49102765, "learning_rate": 3.777e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235012, "epoch": 2.8931321, "global_step/max_steps": "37955/65595", "percentage": "57.86%", "elapsed_time": "1d 20h 51m 40s", "remaining_time": "1d 8h 40m 9s"}
+{"loss": 0.0954779, "token_acc": 0.9666374, "grad_norm": 1.29802537, "learning_rate": 3.776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235013, "epoch": 2.89351323, "global_step/max_steps": "37960/65595", "percentage": "57.87%", "elapsed_time": "1d 20h 52m 0s", "remaining_time": "1d 8h 39m 47s"}
+{"loss": 0.08412294, "token_acc": 0.97053753, "grad_norm": 1.53325844, "learning_rate": 3.775e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235019, "epoch": 2.89389435, "global_step/max_steps": "37965/65595", "percentage": "57.88%", "elapsed_time": "1d 20h 52m 18s", "remaining_time": "1d 8h 39m 23s"}
+{"loss": 0.05844996, "token_acc": 0.97722327, "grad_norm": 1.33422565, "learning_rate": 3.774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235021, "epoch": 2.89427548, "global_step/max_steps": "37970/65595", "percentage": "57.89%", "elapsed_time": "1d 20h 52m 37s", "remaining_time": "1d 8h 39m 0s"}
+{"loss": 0.08247338, "token_acc": 0.96592273, "grad_norm": 2.37974286, "learning_rate": 3.773e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23503, "epoch": 2.8946566, "global_step/max_steps": "37975/65595", "percentage": "57.89%", "elapsed_time": "1d 20h 52m 53s", "remaining_time": "1d 8h 38m 35s"}
+{"loss": 0.08626751, "token_acc": 0.97233202, "grad_norm": 2.22391725, "learning_rate": 3.772e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235039, "epoch": 2.89503773, "global_step/max_steps": "37980/65595", "percentage": "57.90%", "elapsed_time": "1d 20h 53m 7s", "remaining_time": "1d 8h 38m 9s"}
+{"loss": 0.07824155, "token_acc": 0.97117379, "grad_norm": 0.49933919, "learning_rate": 3.77e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235045, "epoch": 2.89541886, "global_step/max_steps": "37985/65595", "percentage": "57.91%", "elapsed_time": "1d 20h 53m 25s", "remaining_time": "1d 8h 37m 45s"}
+{"loss": 0.057392, "token_acc": 0.97713021, "grad_norm": 0.84814095, "learning_rate": 3.769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235053, "epoch": 2.89579998, "global_step/max_steps": "37990/65595", "percentage": "57.92%", "elapsed_time": "1d 20h 53m 40s", "remaining_time": "1d 8h 37m 19s"}
+{"loss": 0.08061132, "token_acc": 0.97047314, "grad_norm": 1.44533944, "learning_rate": 3.768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235054, "epoch": 2.89618111, "global_step/max_steps": "37995/65595", "percentage": "57.92%", "elapsed_time": "1d 20h 54m 1s", "remaining_time": "1d 8h 36m 58s"}
+{"loss": 0.07005183, "token_acc": 0.97699517, "grad_norm": 1.84692574, "learning_rate": 3.767e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23506, "epoch": 2.89656224, "global_step/max_steps": "38000/65595", "percentage": "57.93%", "elapsed_time": "1d 20h 54m 18s", "remaining_time": "1d 8h 36m 33s"}
+{"eval_loss": 0.07313371, "eval_token_acc": 0.96891001, "eval_runtime": 221.3149, "eval_samples_per_second": 2.395, "eval_steps_per_second": 2.395, "epoch": 2.89656224, "global_step/max_steps": "38000/65595", "percentage": "57.93%", "elapsed_time": "1d 20h 57m 59s", "remaining_time": "1d 8h 39m 14s"}
+{"loss": 0.05372971, "token_acc": 0.96909168, "grad_norm": 0.8806771, "learning_rate": 3.766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234746, "epoch": 2.89694336, "global_step/max_steps": "38005/65595", "percentage": "57.94%", "elapsed_time": "1d 20h 58m 15s", "remaining_time": "1d 8h 38m 49s"}
+{"loss": 0.06655731, "token_acc": 0.97466332, "grad_norm": 0.87625664, "learning_rate": 3.765e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234753, "epoch": 2.89732449, "global_step/max_steps": "38010/65595", "percentage": "57.95%", "elapsed_time": "1d 20h 58m 32s", "remaining_time": "1d 8h 38m 24s"}
+{"loss": 0.0997197, "token_acc": 0.95623433, "grad_norm": 1.78680897, "learning_rate": 3.764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234761, "epoch": 2.89770562, "global_step/max_steps": "38015/65595", "percentage": "57.95%", "elapsed_time": "1d 20h 58m 48s", "remaining_time": "1d 8h 37m 59s"}
+{"loss": 0.06087129, "token_acc": 0.97935641, "grad_norm": 0.91621405, "learning_rate": 3.762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234767, "epoch": 2.89808674, "global_step/max_steps": "38020/65595", "percentage": "57.96%", "elapsed_time": "1d 20h 59m 5s", "remaining_time": "1d 8h 37m 35s"}
+{"loss": 0.0576678, "token_acc": 0.96849627, "grad_norm": 0.81918854, "learning_rate": 3.761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234772, "epoch": 2.89846787, "global_step/max_steps": "38025/65595", "percentage": "57.97%", "elapsed_time": "1d 20h 59m 23s", "remaining_time": "1d 8h 37m 11s"}
+{"loss": 0.07932934, "token_acc": 0.96432818, "grad_norm": 0.53132004, "learning_rate": 3.76e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234776, "epoch": 2.898849, "global_step/max_steps": "38030/65595", "percentage": "57.98%", "elapsed_time": "1d 20h 59m 42s", "remaining_time": "1d 8h 36m 48s"}
+{"loss": 0.05417178, "token_acc": 0.97767352, "grad_norm": 0.75608802, "learning_rate": 3.759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234778, "epoch": 2.89923012, "global_step/max_steps": "38035/65595", "percentage": "57.98%", "elapsed_time": "1d 21h 0m 1s", "remaining_time": "1d 8h 36m 25s"}
+{"loss": 0.07130923, "token_acc": 0.96142607, "grad_norm": 0.67844176, "learning_rate": 3.758e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234787, "epoch": 2.89961125, "global_step/max_steps": "38040/65595", "percentage": "57.99%", "elapsed_time": "1d 21h 0m 16s", "remaining_time": "1d 8h 36m 0s"}
+{"loss": 0.06712146, "token_acc": 0.97150373, "grad_norm": 0.38170069, "learning_rate": 3.757e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234795, "epoch": 2.89999238, "global_step/max_steps": "38045/65595", "percentage": "58.00%", "elapsed_time": "1d 21h 0m 32s", "remaining_time": "1d 8h 35m 34s"}
+{"loss": 0.08635418, "token_acc": 0.96497306, "grad_norm": 1.37353337, "learning_rate": 3.755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2348, "epoch": 2.9003735, "global_step/max_steps": "38050/65595", "percentage": "58.01%", "elapsed_time": "1d 21h 0m 50s", "remaining_time": "1d 8h 35m 10s"}
+{"loss": 0.09077118, "token_acc": 0.95942214, "grad_norm": 1.04916346, "learning_rate": 3.754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234807, "epoch": 2.90075463, "global_step/max_steps": "38055/65595", "percentage": "58.02%", "elapsed_time": "1d 21h 1m 6s", "remaining_time": "1d 8h 34m 45s"}
+{"loss": 0.0730277, "token_acc": 0.96411743, "grad_norm": 0.83414167, "learning_rate": 3.753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234813, "epoch": 2.90113576, "global_step/max_steps": "38060/65595", "percentage": "58.02%", "elapsed_time": "1d 21h 1m 23s", "remaining_time": "1d 8h 34m 21s"}
+{"loss": 0.07721442, "token_acc": 0.97087912, "grad_norm": 1.44602334, "learning_rate": 3.752e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234824, "epoch": 2.90151688, "global_step/max_steps": "38065/65595", "percentage": "58.03%", "elapsed_time": "1d 21h 1m 37s", "remaining_time": "1d 8h 33m 54s"}
+{"loss": 0.103005, "token_acc": 0.95772532, "grad_norm": 0.699229, "learning_rate": 3.751e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234831, "epoch": 2.90189801, "global_step/max_steps": "38070/65595", "percentage": "58.04%", "elapsed_time": "1d 21h 1m 54s", "remaining_time": "1d 8h 33m 30s"}
+{"loss": 0.07815058, "token_acc": 0.9757085, "grad_norm": 0.44520548, "learning_rate": 3.75e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234838, "epoch": 2.90227914, "global_step/max_steps": "38075/65595", "percentage": "58.05%", "elapsed_time": "1d 21h 2m 11s", "remaining_time": "1d 8h 33m 5s"}
+{"loss": 0.08511798, "token_acc": 0.96379027, "grad_norm": 1.95318222, "learning_rate": 3.748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234843, "epoch": 2.90266026, "global_step/max_steps": "38080/65595", "percentage": "58.05%", "elapsed_time": "1d 21h 2m 28s", "remaining_time": "1d 8h 32m 41s"}
+{"loss": 0.08823171, "token_acc": 0.96315402, "grad_norm": 0.66688615, "learning_rate": 3.747e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234851, "epoch": 2.90304139, "global_step/max_steps": "38085/65595", "percentage": "58.06%", "elapsed_time": "1d 21h 2m 44s", "remaining_time": "1d 8h 32m 16s"}
+{"loss": 0.08319063, "token_acc": 0.97285449, "grad_norm": 0.76343322, "learning_rate": 3.746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234856, "epoch": 2.90342252, "global_step/max_steps": "38090/65595", "percentage": "58.07%", "elapsed_time": "1d 21h 3m 1s", "remaining_time": "1d 8h 31m 52s"}
+{"loss": 0.07657725, "token_acc": 0.9720232, "grad_norm": 1.02096534, "learning_rate": 3.745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234863, "epoch": 2.90380364, "global_step/max_steps": "38095/65595", "percentage": "58.08%", "elapsed_time": "1d 21h 3m 18s", "remaining_time": "1d 8h 31m 27s"}
+{"loss": 0.07149126, "token_acc": 0.97109827, "grad_norm": 1.34185112, "learning_rate": 3.744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234874, "epoch": 2.90418477, "global_step/max_steps": "38100/65595", "percentage": "58.08%", "elapsed_time": "1d 21h 3m 32s", "remaining_time": "1d 8h 31m 1s"}
+{"loss": 0.08186355, "token_acc": 0.97210924, "grad_norm": 1.80572164, "learning_rate": 3.743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234877, "epoch": 2.9045659, "global_step/max_steps": "38105/65595", "percentage": "58.09%", "elapsed_time": "1d 21h 3m 51s", "remaining_time": "1d 8h 30m 38s"}
+{"loss": 0.07275183, "token_acc": 0.97777024, "grad_norm": 0.89517081, "learning_rate": 3.742e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234881, "epoch": 2.90494702, "global_step/max_steps": "38110/65595", "percentage": "58.10%", "elapsed_time": "1d 21h 4m 10s", "remaining_time": "1d 8h 30m 15s"}
+{"loss": 0.10987312, "token_acc": 0.96759377, "grad_norm": 1.24571431, "learning_rate": 3.74e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234888, "epoch": 2.90532815, "global_step/max_steps": "38115/65595", "percentage": "58.11%", "elapsed_time": "1d 21h 4m 26s", "remaining_time": "1d 8h 29m 50s"}
+{"loss": 0.08784856, "token_acc": 0.95521962, "grad_norm": 0.94208115, "learning_rate": 3.739e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234895, "epoch": 2.90570928, "global_step/max_steps": "38120/65595", "percentage": "58.11%", "elapsed_time": "1d 21h 4m 43s", "remaining_time": "1d 8h 29m 25s"}
+{"loss": 0.08441099, "token_acc": 0.9646557, "grad_norm": 1.68611622, "learning_rate": 3.738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234902, "epoch": 2.9060904, "global_step/max_steps": "38125/65595", "percentage": "58.12%", "elapsed_time": "1d 21h 4m 59s", "remaining_time": "1d 8h 29m 0s"}
+{"loss": 0.09057918, "token_acc": 0.96898132, "grad_norm": 0.65861422, "learning_rate": 3.737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234902, "epoch": 2.90647153, "global_step/max_steps": "38130/65595", "percentage": "58.13%", "elapsed_time": "1d 21h 5m 20s", "remaining_time": "1d 8h 28m 39s"}
+{"loss": 0.06134577, "token_acc": 0.97379165, "grad_norm": 0.4160403, "learning_rate": 3.736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234905, "epoch": 2.90685266, "global_step/max_steps": "38135/65595", "percentage": "58.14%", "elapsed_time": "1d 21h 5m 39s", "remaining_time": "1d 8h 28m 16s"}
+{"loss": 0.10116395, "token_acc": 0.95415617, "grad_norm": 1.32242143, "learning_rate": 3.735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234913, "epoch": 2.90723378, "global_step/max_steps": "38140/65595", "percentage": "58.14%", "elapsed_time": "1d 21h 5m 55s", "remaining_time": "1d 8h 27m 51s"}
+{"loss": 0.08961165, "token_acc": 0.97330245, "grad_norm": 0.87383819, "learning_rate": 3.733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234918, "epoch": 2.90761491, "global_step/max_steps": "38145/65595", "percentage": "58.15%", "elapsed_time": "1d 21h 6m 13s", "remaining_time": "1d 8h 27m 27s"}
+{"loss": 0.08586804, "token_acc": 0.97062873, "grad_norm": 1.38546324, "learning_rate": 3.732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234924, "epoch": 2.90799604, "global_step/max_steps": "38150/65595", "percentage": "58.16%", "elapsed_time": "1d 21h 6m 30s", "remaining_time": "1d 8h 27m 3s"}
+{"loss": 0.07355606, "token_acc": 0.96983296, "grad_norm": 1.63236034, "learning_rate": 3.731e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234932, "epoch": 2.90837716, "global_step/max_steps": "38155/65595", "percentage": "58.17%", "elapsed_time": "1d 21h 6m 46s", "remaining_time": "1d 8h 26m 38s"}
+{"loss": 0.08693128, "token_acc": 0.97630112, "grad_norm": 1.80983329, "learning_rate": 3.73e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234937, "epoch": 2.90875829, "global_step/max_steps": "38160/65595", "percentage": "58.18%", "elapsed_time": "1d 21h 7m 4s", "remaining_time": "1d 8h 26m 14s"}
+{"loss": 0.08074189, "token_acc": 0.96972344, "grad_norm": 0.91288054, "learning_rate": 3.729e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234946, "epoch": 2.90913942, "global_step/max_steps": "38165/65595", "percentage": "58.18%", "elapsed_time": "1d 21h 7m 19s", "remaining_time": "1d 8h 25m 48s"}
+{"loss": 0.08652945, "token_acc": 0.96422487, "grad_norm": 1.37749219, "learning_rate": 3.728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234955, "epoch": 2.90952054, "global_step/max_steps": "38170/65595", "percentage": "58.19%", "elapsed_time": "1d 21h 7m 34s", "remaining_time": "1d 8h 25m 22s"}
+{"loss": 0.08608655, "token_acc": 0.96676543, "grad_norm": 1.05640519, "learning_rate": 3.726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23496, "epoch": 2.90990167, "global_step/max_steps": "38175/65595", "percentage": "58.20%", "elapsed_time": "1d 21h 7m 52s", "remaining_time": "1d 8h 24m 59s"}
+{"loss": 0.11052887, "token_acc": 0.96034264, "grad_norm": 1.67871749, "learning_rate": 3.725e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234969, "epoch": 2.9102828, "global_step/max_steps": "38180/65595", "percentage": "58.21%", "elapsed_time": "1d 21h 8m 7s", "remaining_time": "1d 8h 24m 33s"}
+{"loss": 0.1554657, "token_acc": 0.94875637, "grad_norm": 2.17622089, "learning_rate": 3.724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234977, "epoch": 2.91066392, "global_step/max_steps": "38185/65595", "percentage": "58.21%", "elapsed_time": "1d 21h 8m 23s", "remaining_time": "1d 8h 24m 8s"}
+{"loss": 0.08318414, "token_acc": 0.96793859, "grad_norm": 0.95327383, "learning_rate": 3.723e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234984, "epoch": 2.91104505, "global_step/max_steps": "38190/65595", "percentage": "58.22%", "elapsed_time": "1d 21h 8m 39s", "remaining_time": "1d 8h 23m 43s"}
+{"loss": 0.10271082, "token_acc": 0.96469105, "grad_norm": 0.56487328, "learning_rate": 3.722e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234988, "epoch": 2.91142618, "global_step/max_steps": "38195/65595", "percentage": "58.23%", "elapsed_time": "1d 21h 8m 58s", "remaining_time": "1d 8h 23m 20s"}
+{"loss": 0.11269646, "token_acc": 0.95835449, "grad_norm": 1.33305573, "learning_rate": 3.721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234991, "epoch": 2.9118073, "global_step/max_steps": "38200/65595", "percentage": "58.24%", "elapsed_time": "1d 21h 9m 17s", "remaining_time": "1d 8h 22m 57s"}
+{"eval_loss": 0.07321149, "eval_token_acc": 0.96930908, "eval_runtime": 220.7733, "eval_samples_per_second": 2.401, "eval_steps_per_second": 2.401, "epoch": 2.9118073, "global_step/max_steps": "38200/65595", "percentage": "58.24%", "elapsed_time": "1d 21h 12m 58s", "remaining_time": "1d 8h 25m 35s"}
+{"loss": 0.09346675, "token_acc": 0.96935927, "grad_norm": 2.22139645, "learning_rate": 3.719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23468, "epoch": 2.91218843, "global_step/max_steps": "38205/65595", "percentage": "58.24%", "elapsed_time": "1d 21h 13m 14s", "remaining_time": "1d 8h 25m 10s"}
+{"loss": 0.13624398, "token_acc": 0.9478673, "grad_norm": 2.36645007, "learning_rate": 3.718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234689, "epoch": 2.91256956, "global_step/max_steps": "38210/65595", "percentage": "58.25%", "elapsed_time": "1d 21h 13m 29s", "remaining_time": "1d 8h 24m 44s"}
+{"loss": 0.07193233, "token_acc": 0.96812254, "grad_norm": 1.06131709, "learning_rate": 3.717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234695, "epoch": 2.91295068, "global_step/max_steps": "38215/65595", "percentage": "58.26%", "elapsed_time": "1d 21h 13m 46s", "remaining_time": "1d 8h 24m 20s"}
+{"loss": 0.07799142, "token_acc": 0.96632444, "grad_norm": 0.95184505, "learning_rate": 3.716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234701, "epoch": 2.91333181, "global_step/max_steps": "38220/65595", "percentage": "58.27%", "elapsed_time": "1d 21h 14m 3s", "remaining_time": "1d 8h 23m 56s"}
+{"loss": 0.08137395, "token_acc": 0.96905767, "grad_norm": 0.73882407, "learning_rate": 3.715e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23471, "epoch": 2.91371294, "global_step/max_steps": "38225/65595", "percentage": "58.27%", "elapsed_time": "1d 21h 14m 18s", "remaining_time": "1d 8h 23m 30s"}
+{"loss": 0.0820425, "token_acc": 0.96623072, "grad_norm": 0.80969596, "learning_rate": 3.714e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234718, "epoch": 2.91409406, "global_step/max_steps": "38230/65595", "percentage": "58.28%", "elapsed_time": "1d 21h 14m 34s", "remaining_time": "1d 8h 23m 5s"}
+{"loss": 0.12630217, "token_acc": 0.95162251, "grad_norm": 1.10092962, "learning_rate": 3.713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234723, "epoch": 2.91447519, "global_step/max_steps": "38235/65595", "percentage": "58.29%", "elapsed_time": "1d 21h 14m 51s", "remaining_time": "1d 8h 22m 41s"}
+{"loss": 0.08991179, "token_acc": 0.96194825, "grad_norm": 0.8815313, "learning_rate": 3.711e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234732, "epoch": 2.91485632, "global_step/max_steps": "38240/65595", "percentage": "58.30%", "elapsed_time": "1d 21h 15m 7s", "remaining_time": "1d 8h 22m 15s"}
+{"loss": 0.08665409, "token_acc": 0.97087542, "grad_norm": 0.80392355, "learning_rate": 3.71e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234736, "epoch": 2.91523744, "global_step/max_steps": "38245/65595", "percentage": "58.30%", "elapsed_time": "1d 21h 15m 25s", "remaining_time": "1d 8h 21m 52s"}
+{"loss": 0.09391171, "token_acc": 0.9597758, "grad_norm": 0.88188928, "learning_rate": 3.709e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234745, "epoch": 2.91561857, "global_step/max_steps": "38250/65595", "percentage": "58.31%", "elapsed_time": "1d 21h 15m 40s", "remaining_time": "1d 8h 21m 26s"}
+{"loss": 0.08970773, "token_acc": 0.96384181, "grad_norm": 0.54808134, "learning_rate": 3.708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23475, "epoch": 2.9159997, "global_step/max_steps": "38255/65595", "percentage": "58.32%", "elapsed_time": "1d 21h 15m 58s", "remaining_time": "1d 8h 21m 2s"}
+{"loss": 0.12065159, "token_acc": 0.94652856, "grad_norm": 1.08318508, "learning_rate": 3.707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234759, "epoch": 2.91638082, "global_step/max_steps": "38260/65595", "percentage": "58.33%", "elapsed_time": "1d 21h 16m 13s", "remaining_time": "1d 8h 20m 36s"}
+{"loss": 0.0991025, "token_acc": 0.96216769, "grad_norm": 1.37245262, "learning_rate": 3.706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234766, "epoch": 2.91676195, "global_step/max_steps": "38265/65595", "percentage": "58.34%", "elapsed_time": "1d 21h 16m 30s", "remaining_time": "1d 8h 20m 12s"}
+{"loss": 0.11622238, "token_acc": 0.95169713, "grad_norm": 1.31334054, "learning_rate": 3.704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234774, "epoch": 2.91714307, "global_step/max_steps": "38270/65595", "percentage": "58.34%", "elapsed_time": "1d 21h 16m 45s", "remaining_time": "1d 8h 19m 47s"}
+{"loss": 0.07822608, "token_acc": 0.96679266, "grad_norm": 1.09027147, "learning_rate": 3.703e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234781, "epoch": 2.9175242, "global_step/max_steps": "38275/65595", "percentage": "58.35%", "elapsed_time": "1d 21h 17m 1s", "remaining_time": "1d 8h 19m 21s"}
+{"loss": 0.06858867, "token_acc": 0.96833333, "grad_norm": 1.27095854, "learning_rate": 3.702e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234789, "epoch": 2.91790533, "global_step/max_steps": "38280/65595", "percentage": "58.36%", "elapsed_time": "1d 21h 17m 17s", "remaining_time": "1d 8h 18m 56s"}
+{"loss": 0.06464377, "token_acc": 0.97204969, "grad_norm": 0.79642153, "learning_rate": 3.701e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234797, "epoch": 2.91828645, "global_step/max_steps": "38285/65595", "percentage": "58.37%", "elapsed_time": "1d 21h 17m 33s", "remaining_time": "1d 8h 18m 31s"}
+{"loss": 0.06996945, "token_acc": 0.97783985, "grad_norm": 0.70765513, "learning_rate": 3.7e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234801, "epoch": 2.91866758, "global_step/max_steps": "38290/65595", "percentage": "58.37%", "elapsed_time": "1d 21h 17m 52s", "remaining_time": "1d 8h 18m 8s"}
+{"loss": 0.10109897, "token_acc": 0.96105227, "grad_norm": 1.10678279, "learning_rate": 3.699e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234809, "epoch": 2.91904871, "global_step/max_steps": "38295/65595", "percentage": "58.38%", "elapsed_time": "1d 21h 18m 7s", "remaining_time": "1d 8h 17m 43s"}
+{"loss": 0.09507867, "token_acc": 0.96270645, "grad_norm": 1.19734883, "learning_rate": 3.698e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234818, "epoch": 2.91942983, "global_step/max_steps": "38300/65595", "percentage": "58.39%", "elapsed_time": "1d 21h 18m 22s", "remaining_time": "1d 8h 17m 17s"}
+{"loss": 0.09561291, "token_acc": 0.96806304, "grad_norm": 1.34341097, "learning_rate": 3.696e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234822, "epoch": 2.91981096, "global_step/max_steps": "38305/65595", "percentage": "58.40%", "elapsed_time": "1d 21h 18m 41s", "remaining_time": "1d 8h 16m 54s"}
+{"loss": 0.11114062, "token_acc": 0.95400677, "grad_norm": 1.54863906, "learning_rate": 3.695e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234829, "epoch": 2.92019209, "global_step/max_steps": "38310/65595", "percentage": "58.40%", "elapsed_time": "1d 21h 18m 57s", "remaining_time": "1d 8h 16m 29s"}
+{"loss": 0.07182212, "token_acc": 0.96550179, "grad_norm": 0.94529909, "learning_rate": 3.694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234836, "epoch": 2.92057321, "global_step/max_steps": "38315/65595", "percentage": "58.41%", "elapsed_time": "1d 21h 19m 14s", "remaining_time": "1d 8h 16m 4s"}
+{"loss": 0.08025587, "token_acc": 0.97132838, "grad_norm": 0.81895673, "learning_rate": 3.693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234842, "epoch": 2.92095434, "global_step/max_steps": "38320/65595", "percentage": "58.42%", "elapsed_time": "1d 21h 19m 31s", "remaining_time": "1d 8h 15m 40s"}
+{"loss": 0.09171322, "token_acc": 0.96733895, "grad_norm": 1.96530211, "learning_rate": 3.692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234847, "epoch": 2.92133547, "global_step/max_steps": "38325/65595", "percentage": "58.43%", "elapsed_time": "1d 21h 19m 48s", "remaining_time": "1d 8h 15m 16s"}
+{"loss": 0.0715463, "token_acc": 0.9754993, "grad_norm": 1.25700271, "learning_rate": 3.691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234848, "epoch": 2.92171659, "global_step/max_steps": "38330/65595", "percentage": "58.43%", "elapsed_time": "1d 21h 20m 9s", "remaining_time": "1d 8h 14m 54s"}
+{"loss": 0.06225066, "token_acc": 0.97463002, "grad_norm": 1.95041525, "learning_rate": 3.689e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234858, "epoch": 2.92209772, "global_step/max_steps": "38335/65595", "percentage": "58.44%", "elapsed_time": "1d 21h 20m 24s", "remaining_time": "1d 8h 14m 28s"}
+{"loss": 0.0983692, "token_acc": 0.95564712, "grad_norm": 1.17794156, "learning_rate": 3.688e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234865, "epoch": 2.92247885, "global_step/max_steps": "38340/65595", "percentage": "58.45%", "elapsed_time": "1d 21h 20m 40s", "remaining_time": "1d 8h 14m 3s"}
+{"loss": 0.08379369, "token_acc": 0.9689441, "grad_norm": 0.63199943, "learning_rate": 3.687e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234868, "epoch": 2.92285997, "global_step/max_steps": "38345/65595", "percentage": "58.46%", "elapsed_time": "1d 21h 20m 59s", "remaining_time": "1d 8h 13m 40s"}
+{"loss": 0.06321192, "token_acc": 0.97316616, "grad_norm": 0.58864248, "learning_rate": 3.686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234871, "epoch": 2.9232411, "global_step/max_steps": "38350/65595", "percentage": "58.46%", "elapsed_time": "1d 21h 21m 18s", "remaining_time": "1d 8h 13m 18s"}
+{"loss": 0.08437078, "token_acc": 0.96335541, "grad_norm": 0.86088037, "learning_rate": 3.685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234879, "epoch": 2.92362223, "global_step/max_steps": "38355/65595", "percentage": "58.47%", "elapsed_time": "1d 21h 21m 34s", "remaining_time": "1d 8h 12m 52s"}
+{"loss": 0.0482413, "token_acc": 0.97880008, "grad_norm": 0.64679998, "learning_rate": 3.684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234885, "epoch": 2.92400335, "global_step/max_steps": "38360/65595", "percentage": "58.48%", "elapsed_time": "1d 21h 21m 51s", "remaining_time": "1d 8h 12m 28s"}
+{"loss": 0.08278735, "token_acc": 0.96069663, "grad_norm": 0.74746162, "learning_rate": 3.683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234892, "epoch": 2.92438448, "global_step/max_steps": "38365/65595", "percentage": "58.49%", "elapsed_time": "1d 21h 22m 7s", "remaining_time": "1d 8h 12m 3s"}
+{"loss": 0.06328598, "token_acc": 0.97674021, "grad_norm": 0.84095633, "learning_rate": 3.681e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234901, "epoch": 2.92476561, "global_step/max_steps": "38370/65595", "percentage": "58.50%", "elapsed_time": "1d 21h 22m 23s", "remaining_time": "1d 8h 11m 38s"}
+{"loss": 0.11127491, "token_acc": 0.95849208, "grad_norm": 0.97441453, "learning_rate": 3.68e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234906, "epoch": 2.92514673, "global_step/max_steps": "38375/65595", "percentage": "58.50%", "elapsed_time": "1d 21h 22m 40s", "remaining_time": "1d 8h 11m 14s"}
+{"loss": 0.08497669, "token_acc": 0.96802429, "grad_norm": 1.04729009, "learning_rate": 3.679e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234912, "epoch": 2.92552786, "global_step/max_steps": "38380/65595", "percentage": "58.51%", "elapsed_time": "1d 21h 22m 58s", "remaining_time": "1d 8h 10m 50s"}
+{"loss": 0.06863973, "token_acc": 0.97681159, "grad_norm": 0.80465174, "learning_rate": 3.678e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23492, "epoch": 2.92590899, "global_step/max_steps": "38385/65595", "percentage": "58.52%", "elapsed_time": "1d 21h 23m 13s", "remaining_time": "1d 8h 10m 24s"}
+{"loss": 0.06295665, "token_acc": 0.98129106, "grad_norm": 1.10333407, "learning_rate": 3.677e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234924, "epoch": 2.92629011, "global_step/max_steps": "38390/65595", "percentage": "58.53%", "elapsed_time": "1d 21h 23m 32s", "remaining_time": "1d 8h 10m 1s"}
+{"loss": 0.12579107, "token_acc": 0.96151985, "grad_norm": 1.19332325, "learning_rate": 3.676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234926, "epoch": 2.92667124, "global_step/max_steps": "38395/65595", "percentage": "58.53%", "elapsed_time": "1d 21h 23m 51s", "remaining_time": "1d 8h 9m 39s"}
+{"loss": 0.0710309, "token_acc": 0.97537118, "grad_norm": 0.60695201, "learning_rate": 3.674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234931, "epoch": 2.92705237, "global_step/max_steps": "38400/65595", "percentage": "58.54%", "elapsed_time": "1d 21h 24m 9s", "remaining_time": "1d 8h 9m 15s"}
+{"eval_loss": 0.07321581, "eval_token_acc": 0.96904554, "eval_runtime": 221.6204, "eval_samples_per_second": 2.391, "eval_steps_per_second": 2.391, "epoch": 2.92705237, "global_step/max_steps": "38400/65595", "percentage": "58.54%", "elapsed_time": "1d 21h 27m 51s", "remaining_time": "1d 8h 11m 52s"}
+{"loss": 0.0906354, "token_acc": 0.96922342, "grad_norm": 0.60161275, "learning_rate": 3.673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234619, "epoch": 2.92743349, "global_step/max_steps": "38405/65595", "percentage": "58.55%", "elapsed_time": "1d 21h 28m 9s", "remaining_time": "1d 8h 11m 28s"}
+{"loss": 0.07516387, "token_acc": 0.97395043, "grad_norm": 0.85545963, "learning_rate": 3.672e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234625, "epoch": 2.92781462, "global_step/max_steps": "38410/65595", "percentage": "58.56%", "elapsed_time": "1d 21h 28m 25s", "remaining_time": "1d 8h 11m 4s"}
+{"loss": 0.06845005, "token_acc": 0.97773125, "grad_norm": 0.64027202, "learning_rate": 3.671e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234629, "epoch": 2.92819575, "global_step/max_steps": "38415/65595", "percentage": "58.56%", "elapsed_time": "1d 21h 28m 44s", "remaining_time": "1d 8h 10m 40s"}
+{"loss": 0.10728366, "token_acc": 0.95759263, "grad_norm": 1.70305943, "learning_rate": 3.67e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234636, "epoch": 2.92857687, "global_step/max_steps": "38420/65595", "percentage": "58.57%", "elapsed_time": "1d 21h 29m 0s", "remaining_time": "1d 8h 10m 15s"}
+{"loss": 0.11867262, "token_acc": 0.95163278, "grad_norm": 1.35678029, "learning_rate": 3.669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234645, "epoch": 2.928958, "global_step/max_steps": "38425/65595", "percentage": "58.58%", "elapsed_time": "1d 21h 29m 15s", "remaining_time": "1d 8h 9m 50s"}
+{"loss": 0.07756888, "token_acc": 0.96727868, "grad_norm": 0.86587548, "learning_rate": 3.667e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234651, "epoch": 2.92933913, "global_step/max_steps": "38430/65595", "percentage": "58.59%", "elapsed_time": "1d 21h 29m 33s", "remaining_time": "1d 8h 9m 26s"}
+{"loss": 0.08433717, "token_acc": 0.96448005, "grad_norm": 0.79649794, "learning_rate": 3.666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234657, "epoch": 2.92972025, "global_step/max_steps": "38435/65595", "percentage": "58.59%", "elapsed_time": "1d 21h 29m 50s", "remaining_time": "1d 8h 9m 1s"}
+{"loss": 0.06971489, "token_acc": 0.96961326, "grad_norm": 1.0031805, "learning_rate": 3.665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234664, "epoch": 2.93010138, "global_step/max_steps": "38440/65595", "percentage": "58.60%", "elapsed_time": "1d 21h 30m 6s", "remaining_time": "1d 8h 8m 37s"}
+{"loss": 0.07812337, "token_acc": 0.96384627, "grad_norm": 0.62815589, "learning_rate": 3.664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234669, "epoch": 2.93048251, "global_step/max_steps": "38445/65595", "percentage": "58.61%", "elapsed_time": "1d 21h 30m 24s", "remaining_time": "1d 8h 8m 13s"}
+{"loss": 0.07443419, "token_acc": 0.97431876, "grad_norm": 1.60453856, "learning_rate": 3.663e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234674, "epoch": 2.93086363, "global_step/max_steps": "38450/65595", "percentage": "58.62%", "elapsed_time": "1d 21h 30m 42s", "remaining_time": "1d 8h 7m 49s"}
+{"loss": 0.12446836, "token_acc": 0.94063181, "grad_norm": 1.88538599, "learning_rate": 3.662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234685, "epoch": 2.93124476, "global_step/max_steps": "38455/65595", "percentage": "58.62%", "elapsed_time": "1d 21h 30m 55s", "remaining_time": "1d 8h 7m 22s"}
+{"loss": 0.11873755, "token_acc": 0.96261128, "grad_norm": 0.66184014, "learning_rate": 3.661e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234693, "epoch": 2.93162589, "global_step/max_steps": "38460/65595", "percentage": "58.63%", "elapsed_time": "1d 21h 31m 11s", "remaining_time": "1d 8h 6m 57s"}
+{"loss": 0.091951, "token_acc": 0.96415328, "grad_norm": 0.35117802, "learning_rate": 3.659e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234701, "epoch": 2.93200701, "global_step/max_steps": "38465/65595", "percentage": "58.64%", "elapsed_time": "1d 21h 31m 27s", "remaining_time": "1d 8h 6m 32s"}
+{"loss": 0.07881757, "token_acc": 0.96550012, "grad_norm": 1.09342647, "learning_rate": 3.658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234708, "epoch": 2.93238814, "global_step/max_steps": "38470/65595", "percentage": "58.65%", "elapsed_time": "1d 21h 31m 43s", "remaining_time": "1d 8h 6m 7s"}
+{"loss": 0.08198113, "token_acc": 0.96893788, "grad_norm": 1.2915144, "learning_rate": 3.657e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234713, "epoch": 2.93276927, "global_step/max_steps": "38475/65595", "percentage": "58.66%", "elapsed_time": "1d 21h 32m 1s", "remaining_time": "1d 8h 5m 43s"}
+{"loss": 0.0640312, "token_acc": 0.97746813, "grad_norm": 0.77287281, "learning_rate": 3.656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234721, "epoch": 2.93315039, "global_step/max_steps": "38480/65595", "percentage": "58.66%", "elapsed_time": "1d 21h 32m 16s", "remaining_time": "1d 8h 5m 18s"}
+{"loss": 0.11854577, "token_acc": 0.94760283, "grad_norm": 0.8432132, "learning_rate": 3.655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23473, "epoch": 2.93353152, "global_step/max_steps": "38485/65595", "percentage": "58.67%", "elapsed_time": "1d 21h 32m 32s", "remaining_time": "1d 8h 4m 52s"}
+{"loss": 0.09074968, "token_acc": 0.95611193, "grad_norm": 1.30685937, "learning_rate": 3.654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234738, "epoch": 2.93391265, "global_step/max_steps": "38490/65595", "percentage": "58.68%", "elapsed_time": "1d 21h 32m 47s", "remaining_time": "1d 8h 4m 27s"}
+{"loss": 0.06467161, "token_acc": 0.97823166, "grad_norm": 0.73914599, "learning_rate": 3.652e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234746, "epoch": 2.93429377, "global_step/max_steps": "38495/65595", "percentage": "58.69%", "elapsed_time": "1d 21h 33m 3s", "remaining_time": "1d 8h 4m 2s"}
+{"loss": 0.10729163, "token_acc": 0.95549451, "grad_norm": 1.70095754, "learning_rate": 3.651e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234752, "epoch": 2.9346749, "global_step/max_steps": "38500/65595", "percentage": "58.69%", "elapsed_time": "1d 21h 33m 20s", "remaining_time": "1d 8h 3m 38s"}
+{"loss": 0.08538493, "token_acc": 0.96874633, "grad_norm": 0.54399359, "learning_rate": 3.65e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234752, "epoch": 2.93505603, "global_step/max_steps": "38505/65595", "percentage": "58.70%", "elapsed_time": "1d 21h 33m 42s", "remaining_time": "1d 8h 3m 17s"}
+{"loss": 0.10654066, "token_acc": 0.94977843, "grad_norm": 1.17368507, "learning_rate": 3.649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234761, "epoch": 2.93543715, "global_step/max_steps": "38510/65595", "percentage": "58.71%", "elapsed_time": "1d 21h 33m 57s", "remaining_time": "1d 8h 2m 51s"}
+{"loss": 0.06769155, "token_acc": 0.97119458, "grad_norm": 0.78120297, "learning_rate": 3.648e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23477, "epoch": 2.93581828, "global_step/max_steps": "38515/65595", "percentage": "58.72%", "elapsed_time": "1d 21h 34m 11s", "remaining_time": "1d 8h 2m 25s"}
+{"loss": 0.0734384, "token_acc": 0.97038948, "grad_norm": 0.8242234, "learning_rate": 3.647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234772, "epoch": 2.93619941, "global_step/max_steps": "38520/65595", "percentage": "58.72%", "elapsed_time": "1d 21h 34m 31s", "remaining_time": "1d 8h 2m 3s"}
+{"loss": 0.08858415, "token_acc": 0.95704918, "grad_norm": 2.03234792, "learning_rate": 3.646e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234781, "epoch": 2.93658053, "global_step/max_steps": "38525/65595", "percentage": "58.73%", "elapsed_time": "1d 21h 34m 46s", "remaining_time": "1d 8h 1m 37s"}
+{"loss": 0.07953287, "token_acc": 0.97443494, "grad_norm": 1.09696436, "learning_rate": 3.644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234782, "epoch": 2.93696166, "global_step/max_steps": "38530/65595", "percentage": "58.74%", "elapsed_time": "1d 21h 35m 7s", "remaining_time": "1d 8h 1m 15s"}
+{"loss": 0.05935895, "token_acc": 0.97204792, "grad_norm": 0.53961813, "learning_rate": 3.643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234791, "epoch": 2.93734279, "global_step/max_steps": "38535/65595", "percentage": "58.75%", "elapsed_time": "1d 21h 35m 22s", "remaining_time": "1d 8h 0m 50s"}
+{"loss": 0.08878918, "token_acc": 0.96903809, "grad_norm": 1.02479851, "learning_rate": 3.642e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234796, "epoch": 2.93772391, "global_step/max_steps": "38540/65595", "percentage": "58.75%", "elapsed_time": "1d 21h 35m 39s", "remaining_time": "1d 8h 0m 25s"}
+{"loss": 0.05096613, "token_acc": 0.97879007, "grad_norm": 0.73201877, "learning_rate": 3.641e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234804, "epoch": 2.93810504, "global_step/max_steps": "38545/65595", "percentage": "58.76%", "elapsed_time": "1d 21h 35m 56s", "remaining_time": "1d 8h 0m 1s"}
+{"loss": 0.08514778, "token_acc": 0.97196738, "grad_norm": 0.62229979, "learning_rate": 3.64e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234808, "epoch": 2.93848617, "global_step/max_steps": "38550/65595", "percentage": "58.77%", "elapsed_time": "1d 21h 36m 14s", "remaining_time": "1d 7h 59m 37s"}
+{"loss": 0.07821988, "token_acc": 0.96785512, "grad_norm": 1.0242666, "learning_rate": 3.639e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234806, "epoch": 2.93886729, "global_step/max_steps": "38555/65595", "percentage": "58.78%", "elapsed_time": "1d 21h 36m 36s", "remaining_time": "1d 7h 59m 17s"}
+{"loss": 0.08289741, "token_acc": 0.97047018, "grad_norm": 0.64176965, "learning_rate": 3.638e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234812, "epoch": 2.93924842, "global_step/max_steps": "38560/65595", "percentage": "58.78%", "elapsed_time": "1d 21h 36m 54s", "remaining_time": "1d 7h 58m 53s"}
+{"loss": 0.04867103, "token_acc": 0.98026698, "grad_norm": 0.81669647, "learning_rate": 3.636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23482, "epoch": 2.93962954, "global_step/max_steps": "38565/65595", "percentage": "58.79%", "elapsed_time": "1d 21h 37m 9s", "remaining_time": "1d 7h 58m 27s"}
+{"loss": 0.0752479, "token_acc": 0.97422389, "grad_norm": 1.57456803, "learning_rate": 3.635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234827, "epoch": 2.94001067, "global_step/max_steps": "38570/65595", "percentage": "58.80%", "elapsed_time": "1d 21h 37m 26s", "remaining_time": "1d 7h 58m 3s"}
+{"loss": 0.06160653, "token_acc": 0.97995029, "grad_norm": 0.56926948, "learning_rate": 3.634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234834, "epoch": 2.9403918, "global_step/max_steps": "38575/65595", "percentage": "58.81%", "elapsed_time": "1d 21h 37m 43s", "remaining_time": "1d 7h 57m 38s"}
+{"loss": 0.09089514, "token_acc": 0.96810773, "grad_norm": 1.28979218, "learning_rate": 3.633e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234833, "epoch": 2.94077292, "global_step/max_steps": "38580/65595", "percentage": "58.82%", "elapsed_time": "1d 21h 38m 4s", "remaining_time": "1d 7h 57m 17s"}
+{"loss": 0.0741105, "token_acc": 0.97431044, "grad_norm": 2.20423055, "learning_rate": 3.632e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234836, "epoch": 2.94115405, "global_step/max_steps": "38585/65595", "percentage": "58.82%", "elapsed_time": "1d 21h 38m 23s", "remaining_time": "1d 7h 56m 54s"}
+{"loss": 0.07833276, "token_acc": 0.97484076, "grad_norm": 0.58120102, "learning_rate": 3.631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234845, "epoch": 2.94153518, "global_step/max_steps": "38590/65595", "percentage": "58.83%", "elapsed_time": "1d 21h 38m 38s", "remaining_time": "1d 7h 56m 29s"}
+{"loss": 0.11124432, "token_acc": 0.96080067, "grad_norm": 0.91222316, "learning_rate": 3.629e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234852, "epoch": 2.9419163, "global_step/max_steps": "38595/65595", "percentage": "58.84%", "elapsed_time": "1d 21h 38m 55s", "remaining_time": "1d 7h 56m 4s"}
+{"loss": 0.04806003, "token_acc": 0.97852029, "grad_norm": 0.13897181, "learning_rate": 3.628e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234858, "epoch": 2.94229743, "global_step/max_steps": "38600/65595", "percentage": "58.85%", "elapsed_time": "1d 21h 39m 12s", "remaining_time": "1d 7h 55m 40s"}
+{"eval_loss": 0.07308616, "eval_token_acc": 0.96927896, "eval_runtime": 221.3702, "eval_samples_per_second": 2.394, "eval_steps_per_second": 2.394, "epoch": 2.94229743, "global_step/max_steps": "38600/65595", "percentage": "58.85%", "elapsed_time": "1d 21h 42m 54s", "remaining_time": "1d 7h 58m 15s"}
+{"loss": 0.07586143, "token_acc": 0.96928737, "grad_norm": 0.81703514, "learning_rate": 3.627e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23455, "epoch": 2.94267856, "global_step/max_steps": "38605/65595", "percentage": "58.85%", "elapsed_time": "1d 21h 43m 9s", "remaining_time": "1d 7h 57m 49s"}
+{"loss": 0.10368453, "token_acc": 0.96022608, "grad_norm": 0.58089006, "learning_rate": 3.626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234556, "epoch": 2.94305968, "global_step/max_steps": "38610/65595", "percentage": "58.86%", "elapsed_time": "1d 21h 43m 26s", "remaining_time": "1d 7h 57m 25s"}
+{"loss": 0.06232612, "token_acc": 0.97491749, "grad_norm": 1.08077192, "learning_rate": 3.625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234561, "epoch": 2.94344081, "global_step/max_steps": "38615/65595", "percentage": "58.87%", "elapsed_time": "1d 21h 43m 44s", "remaining_time": "1d 7h 57m 1s"}
+{"loss": 0.05861049, "token_acc": 0.97992014, "grad_norm": 0.624403, "learning_rate": 3.624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23456, "epoch": 2.94382194, "global_step/max_steps": "38620/65595", "percentage": "58.88%", "elapsed_time": "1d 21h 44m 6s", "remaining_time": "1d 7h 56m 40s"}
+{"loss": 0.06806414, "token_acc": 0.9653069, "grad_norm": 0.68953121, "learning_rate": 3.623e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234567, "epoch": 2.94420306, "global_step/max_steps": "38625/65595", "percentage": "58.88%", "elapsed_time": "1d 21h 44m 22s", "remaining_time": "1d 7h 56m 16s"}
+{"loss": 0.07100957, "token_acc": 0.97114794, "grad_norm": 0.95825326, "learning_rate": 3.621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234574, "epoch": 2.94458419, "global_step/max_steps": "38630/65595", "percentage": "58.89%", "elapsed_time": "1d 21h 44m 39s", "remaining_time": "1d 7h 55m 51s"}
+{"loss": 0.07467643, "token_acc": 0.95885686, "grad_norm": 0.75460404, "learning_rate": 3.62e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234582, "epoch": 2.94496532, "global_step/max_steps": "38635/65595", "percentage": "58.90%", "elapsed_time": "1d 21h 44m 55s", "remaining_time": "1d 7h 55m 26s"}
+{"loss": 0.08365092, "token_acc": 0.96576862, "grad_norm": 1.04740667, "learning_rate": 3.619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234591, "epoch": 2.94534644, "global_step/max_steps": "38640/65595", "percentage": "58.91%", "elapsed_time": "1d 21h 45m 10s", "remaining_time": "1d 7h 55m 0s"}
+{"loss": 0.06738827, "token_acc": 0.96759738, "grad_norm": 0.04862584, "learning_rate": 3.618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2346, "epoch": 2.94572757, "global_step/max_steps": "38645/65595", "percentage": "58.91%", "elapsed_time": "1d 21h 45m 25s", "remaining_time": "1d 7h 54m 35s"}
+{"loss": 0.07072599, "token_acc": 0.97305974, "grad_norm": 0.90680009, "learning_rate": 3.617e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234605, "epoch": 2.9461087, "global_step/max_steps": "38650/65595", "percentage": "58.92%", "elapsed_time": "1d 21h 45m 43s", "remaining_time": "1d 7h 54m 11s"}
+{"loss": 0.09277918, "token_acc": 0.96111254, "grad_norm": 0.95954144, "learning_rate": 3.616e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234612, "epoch": 2.94648982, "global_step/max_steps": "38655/65595", "percentage": "58.93%", "elapsed_time": "1d 21h 45m 59s", "remaining_time": "1d 7h 53m 46s"}
+{"loss": 0.06875664, "token_acc": 0.97284701, "grad_norm": 0.74408507, "learning_rate": 3.614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234618, "epoch": 2.94687095, "global_step/max_steps": "38660/65595", "percentage": "58.94%", "elapsed_time": "1d 21h 46m 16s", "remaining_time": "1d 7h 53m 22s"}
+{"loss": 0.07529481, "token_acc": 0.9744898, "grad_norm": 0.92171228, "learning_rate": 3.613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234624, "epoch": 2.94725208, "global_step/max_steps": "38665/65595", "percentage": "58.95%", "elapsed_time": "1d 21h 46m 33s", "remaining_time": "1d 7h 52m 57s"}
+{"loss": 0.06124262, "token_acc": 0.96945193, "grad_norm": 0.6697253, "learning_rate": 3.612e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234632, "epoch": 2.9476332, "global_step/max_steps": "38670/65595", "percentage": "58.95%", "elapsed_time": "1d 21h 46m 49s", "remaining_time": "1d 7h 52m 32s"}
+{"loss": 0.08065415, "token_acc": 0.96470069, "grad_norm": 0.70841837, "learning_rate": 3.611e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234636, "epoch": 2.94801433, "global_step/max_steps": "38675/65595", "percentage": "58.96%", "elapsed_time": "1d 21h 47m 7s", "remaining_time": "1d 7h 52m 9s"}
+{"loss": 0.10098352, "token_acc": 0.9640242, "grad_norm": 1.59746671, "learning_rate": 3.61e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234641, "epoch": 2.94839546, "global_step/max_steps": "38680/65595", "percentage": "58.97%", "elapsed_time": "1d 21h 47m 25s", "remaining_time": "1d 7h 51m 45s"}
+{"loss": 0.1001297, "token_acc": 0.96704737, "grad_norm": 1.35207498, "learning_rate": 3.609e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234648, "epoch": 2.94877658, "global_step/max_steps": "38685/65595", "percentage": "58.98%", "elapsed_time": "1d 21h 47m 41s", "remaining_time": "1d 7h 51m 20s"}
+{"loss": 0.08925758, "token_acc": 0.95912807, "grad_norm": 0.0370535, "learning_rate": 3.608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234658, "epoch": 2.94915771, "global_step/max_steps": "38690/65595", "percentage": "58.98%", "elapsed_time": "1d 21h 47m 56s", "remaining_time": "1d 7h 50m 54s"}
+{"loss": 0.09105642, "token_acc": 0.96696367, "grad_norm": 0.74193645, "learning_rate": 3.606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23466, "epoch": 2.94953884, "global_step/max_steps": "38695/65595", "percentage": "58.99%", "elapsed_time": "1d 21h 48m 15s", "remaining_time": "1d 7h 50m 32s"}
+{"loss": 0.07510015, "token_acc": 0.97446706, "grad_norm": 0.59345138, "learning_rate": 3.605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234661, "epoch": 2.94991996, "global_step/max_steps": "38700/65595", "percentage": "59.00%", "elapsed_time": "1d 21h 48m 36s", "remaining_time": "1d 7h 50m 10s"}
+{"loss": 0.05762845, "token_acc": 0.98008949, "grad_norm": 0.84180307, "learning_rate": 3.604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234668, "epoch": 2.95030109, "global_step/max_steps": "38705/65595", "percentage": "59.01%", "elapsed_time": "1d 21h 48m 53s", "remaining_time": "1d 7h 49m 45s"}
+{"loss": 0.0894222, "token_acc": 0.96453007, "grad_norm": 0.84368587, "learning_rate": 3.603e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234671, "epoch": 2.95068222, "global_step/max_steps": "38710/65595", "percentage": "59.01%", "elapsed_time": "1d 21h 49m 11s", "remaining_time": "1d 7h 49m 22s"}
+{"loss": 0.0944638, "token_acc": 0.96275436, "grad_norm": 1.23505127, "learning_rate": 3.602e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234677, "epoch": 2.95106334, "global_step/max_steps": "38715/65595", "percentage": "59.02%", "elapsed_time": "1d 21h 49m 28s", "remaining_time": "1d 7h 48m 58s"}
+{"loss": 0.09501761, "token_acc": 0.96164553, "grad_norm": 1.44008338, "learning_rate": 3.601e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234687, "epoch": 2.95144447, "global_step/max_steps": "38720/65595", "percentage": "59.03%", "elapsed_time": "1d 21h 49m 43s", "remaining_time": "1d 7h 48m 32s"}
+{"loss": 0.07629832, "token_acc": 0.96569783, "grad_norm": 2.04819608, "learning_rate": 3.6e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234697, "epoch": 2.9518256, "global_step/max_steps": "38725/65595", "percentage": "59.04%", "elapsed_time": "1d 21h 49m 57s", "remaining_time": "1d 7h 48m 6s"}
+{"loss": 0.08238789, "token_acc": 0.9648049, "grad_norm": 1.04537177, "learning_rate": 3.598e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234704, "epoch": 2.95220672, "global_step/max_steps": "38730/65595", "percentage": "59.04%", "elapsed_time": "1d 21h 50m 13s", "remaining_time": "1d 7h 47m 41s"}
+{"loss": 0.12514473, "token_acc": 0.95276981, "grad_norm": 2.31489658, "learning_rate": 3.597e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234712, "epoch": 2.95258785, "global_step/max_steps": "38735/65595", "percentage": "59.05%", "elapsed_time": "1d 21h 50m 29s", "remaining_time": "1d 7h 47m 16s"}
+{"loss": 0.06875689, "token_acc": 0.97111034, "grad_norm": 1.46360123, "learning_rate": 3.596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234721, "epoch": 2.95296898, "global_step/max_steps": "38740/65595", "percentage": "59.06%", "elapsed_time": "1d 21h 50m 44s", "remaining_time": "1d 7h 46m 50s"}
+{"loss": 0.04716564, "token_acc": 0.98277718, "grad_norm": 0.99403304, "learning_rate": 3.595e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234725, "epoch": 2.9533501, "global_step/max_steps": "38745/65595", "percentage": "59.07%", "elapsed_time": "1d 21h 51m 3s", "remaining_time": "1d 7h 46m 27s"}
+{"loss": 0.06783498, "token_acc": 0.96594835, "grad_norm": 1.05051196, "learning_rate": 3.594e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234731, "epoch": 2.95373123, "global_step/max_steps": "38750/65595", "percentage": "59.07%", "elapsed_time": "1d 21h 51m 20s", "remaining_time": "1d 7h 46m 3s"}
+{"loss": 0.11112429, "token_acc": 0.95850433, "grad_norm": 1.51093411, "learning_rate": 3.593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234741, "epoch": 2.95411236, "global_step/max_steps": "38755/65595", "percentage": "59.08%", "elapsed_time": "1d 21h 51m 34s", "remaining_time": "1d 7h 45m 37s"}
+{"loss": 0.08223534, "token_acc": 0.96706224, "grad_norm": 1.2430681, "learning_rate": 3.591e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234748, "epoch": 2.95449348, "global_step/max_steps": "38760/65595", "percentage": "59.09%", "elapsed_time": "1d 21h 51m 50s", "remaining_time": "1d 7h 45m 12s"}
+{"loss": 0.05034451, "token_acc": 0.98041693, "grad_norm": 0.82812947, "learning_rate": 3.59e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234758, "epoch": 2.95487461, "global_step/max_steps": "38765/65595", "percentage": "59.10%", "elapsed_time": "1d 21h 52m 5s", "remaining_time": "1d 7h 44m 46s"}
+{"loss": 0.06878971, "token_acc": 0.970767, "grad_norm": 1.16607833, "learning_rate": 3.589e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234761, "epoch": 2.95525574, "global_step/max_steps": "38770/65595", "percentage": "59.11%", "elapsed_time": "1d 21h 52m 24s", "remaining_time": "1d 7h 44m 23s"}
+{"loss": 0.07143347, "token_acc": 0.97732678, "grad_norm": 0.79932928, "learning_rate": 3.588e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234765, "epoch": 2.95563686, "global_step/max_steps": "38775/65595", "percentage": "59.11%", "elapsed_time": "1d 21h 52m 42s", "remaining_time": "1d 7h 44m 0s"}
+{"loss": 0.09173146, "token_acc": 0.96209123, "grad_norm": 1.0744499, "learning_rate": 3.587e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234771, "epoch": 2.95601799, "global_step/max_steps": "38780/65595", "percentage": "59.12%", "elapsed_time": "1d 21h 53m 0s", "remaining_time": "1d 7h 43m 36s"}
+{"loss": 0.07905872, "token_acc": 0.96936704, "grad_norm": 0.85075414, "learning_rate": 3.586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234774, "epoch": 2.95639912, "global_step/max_steps": "38785/65595", "percentage": "59.13%", "elapsed_time": "1d 21h 53m 18s", "remaining_time": "1d 7h 43m 13s"}
+{"loss": 0.07194556, "token_acc": 0.96839866, "grad_norm": 0.73726165, "learning_rate": 3.585e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234784, "epoch": 2.95678024, "global_step/max_steps": "38790/65595", "percentage": "59.14%", "elapsed_time": "1d 21h 53m 33s", "remaining_time": "1d 7h 42m 47s"}
+{"loss": 0.08714135, "token_acc": 0.96968884, "grad_norm": 0.73693585, "learning_rate": 3.583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234791, "epoch": 2.95716137, "global_step/max_steps": "38795/65595", "percentage": "59.14%", "elapsed_time": "1d 21h 53m 49s", "remaining_time": "1d 7h 42m 22s"}
+{"loss": 0.05474861, "token_acc": 0.97614991, "grad_norm": 0.71168506, "learning_rate": 3.582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234797, "epoch": 2.9575425, "global_step/max_steps": "38800/65595", "percentage": "59.15%", "elapsed_time": "1d 21h 54m 7s", "remaining_time": "1d 7h 41m 58s"}
+{"eval_loss": 0.07327984, "eval_token_acc": 0.96895518, "eval_runtime": 221.0396, "eval_samples_per_second": 2.398, "eval_steps_per_second": 2.398, "epoch": 2.9575425, "global_step/max_steps": "38800/65595", "percentage": "59.15%", "elapsed_time": "1d 21h 57m 48s", "remaining_time": "1d 7h 44m 31s"}
+{"loss": 0.04817004, "token_acc": 0.96951981, "grad_norm": 1.40975833, "learning_rate": 3.581e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234486, "epoch": 2.95792362, "global_step/max_steps": "38805/65595", "percentage": "59.16%", "elapsed_time": "1d 21h 58m 7s", "remaining_time": "1d 7h 44m 8s"}
+{"loss": 0.06719812, "token_acc": 0.97434211, "grad_norm": 0.73299223, "learning_rate": 3.58e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234493, "epoch": 2.95830475, "global_step/max_steps": "38810/65595", "percentage": "59.17%", "elapsed_time": "1d 21h 58m 23s", "remaining_time": "1d 7h 43m 43s"}
+{"loss": 0.10910841, "token_acc": 0.96439549, "grad_norm": 0.65244496, "learning_rate": 3.579e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234501, "epoch": 2.95868588, "global_step/max_steps": "38815/65595", "percentage": "59.17%", "elapsed_time": "1d 21h 58m 39s", "remaining_time": "1d 7h 43m 18s"}
+{"loss": 0.08297204, "token_acc": 0.96714447, "grad_norm": 1.00332308, "learning_rate": 3.578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234507, "epoch": 2.959067, "global_step/max_steps": "38820/65595", "percentage": "59.18%", "elapsed_time": "1d 21h 58m 56s", "remaining_time": "1d 7h 42m 54s"}
+{"loss": 0.10434581, "token_acc": 0.95794702, "grad_norm": 0.85258949, "learning_rate": 3.577e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23451, "epoch": 2.95944813, "global_step/max_steps": "38825/65595", "percentage": "59.19%", "elapsed_time": "1d 21h 59m 15s", "remaining_time": "1d 7h 42m 31s"}
+{"loss": 0.04660627, "token_acc": 0.98004304, "grad_norm": 0.52012628, "learning_rate": 3.575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234516, "epoch": 2.95982926, "global_step/max_steps": "38830/65595", "percentage": "59.20%", "elapsed_time": "1d 21h 59m 32s", "remaining_time": "1d 7h 42m 6s"}
+{"loss": 0.07012735, "token_acc": 0.97177419, "grad_norm": 0.59722608, "learning_rate": 3.574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234525, "epoch": 2.96021038, "global_step/max_steps": "38835/65595", "percentage": "59.20%", "elapsed_time": "1d 21h 59m 47s", "remaining_time": "1d 7h 41m 41s"}
+{"loss": 0.08342503, "token_acc": 0.96868045, "grad_norm": 0.75991774, "learning_rate": 3.573e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234528, "epoch": 2.96059151, "global_step/max_steps": "38840/65595", "percentage": "59.21%", "elapsed_time": "1d 22h 0m 6s", "remaining_time": "1d 7h 41m 18s"}
+{"loss": 0.08164891, "token_acc": 0.96734567, "grad_norm": 0.44625753, "learning_rate": 3.572e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234534, "epoch": 2.96097264, "global_step/max_steps": "38845/65595", "percentage": "59.22%", "elapsed_time": "1d 22h 0m 23s", "remaining_time": "1d 7h 40m 54s"}
+{"loss": 0.07861298, "token_acc": 0.9653277, "grad_norm": 0.92074096, "learning_rate": 3.571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234541, "epoch": 2.96135376, "global_step/max_steps": "38850/65595", "percentage": "59.23%", "elapsed_time": "1d 22h 0m 40s", "remaining_time": "1d 7h 40m 29s"}
+{"loss": 0.04996067, "token_acc": 0.97896926, "grad_norm": 0.57120728, "learning_rate": 3.57e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234549, "epoch": 2.96173489, "global_step/max_steps": "38855/65595", "percentage": "59.23%", "elapsed_time": "1d 22h 0m 56s", "remaining_time": "1d 7h 40m 4s"}
+{"loss": 0.07683678, "token_acc": 0.97363083, "grad_norm": 1.09672904, "learning_rate": 3.569e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234555, "epoch": 2.96211601, "global_step/max_steps": "38860/65595", "percentage": "59.24%", "elapsed_time": "1d 22h 1m 12s", "remaining_time": "1d 7h 39m 40s"}
+{"loss": 0.0822751, "token_acc": 0.97261307, "grad_norm": 1.30385578, "learning_rate": 3.567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234562, "epoch": 2.96249714, "global_step/max_steps": "38865/65595", "percentage": "59.25%", "elapsed_time": "1d 22h 1m 29s", "remaining_time": "1d 7h 39m 15s"}
+{"loss": 0.12806182, "token_acc": 0.95700824, "grad_norm": 1.88530207, "learning_rate": 3.566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23457, "epoch": 2.96287827, "global_step/max_steps": "38870/65595", "percentage": "59.26%", "elapsed_time": "1d 22h 1m 45s", "remaining_time": "1d 7h 38m 50s"}
+{"loss": 0.12048228, "token_acc": 0.95966193, "grad_norm": 1.20649087, "learning_rate": 3.565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234579, "epoch": 2.96325939, "global_step/max_steps": "38875/65595", "percentage": "59.27%", "elapsed_time": "1d 22h 1m 59s", "remaining_time": "1d 7h 38m 24s"}
+{"loss": 0.07434582, "token_acc": 0.97445168, "grad_norm": 0.63855612, "learning_rate": 3.564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234585, "epoch": 2.96364052, "global_step/max_steps": "38880/65595", "percentage": "59.27%", "elapsed_time": "1d 22h 2m 17s", "remaining_time": "1d 7h 38m 0s"}
+{"loss": 0.07883183, "token_acc": 0.96838319, "grad_norm": 1.28632009, "learning_rate": 3.563e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234591, "epoch": 2.96402165, "global_step/max_steps": "38885/65595", "percentage": "59.28%", "elapsed_time": "1d 22h 2m 34s", "remaining_time": "1d 7h 37m 36s"}
+{"loss": 0.06824737, "token_acc": 0.96845794, "grad_norm": 1.07791209, "learning_rate": 3.562e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234601, "epoch": 2.96440277, "global_step/max_steps": "38890/65595", "percentage": "59.29%", "elapsed_time": "1d 22h 2m 48s", "remaining_time": "1d 7h 37m 9s"}
+{"loss": 0.06643468, "token_acc": 0.97494961, "grad_norm": 0.99737692, "learning_rate": 3.561e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234605, "epoch": 2.9647839, "global_step/max_steps": "38895/65595", "percentage": "59.30%", "elapsed_time": "1d 22h 3m 7s", "remaining_time": "1d 7h 36m 46s"}
+{"loss": 0.09061163, "token_acc": 0.96529521, "grad_norm": 0.70817095, "learning_rate": 3.559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234605, "epoch": 2.96516503, "global_step/max_steps": "38900/65595", "percentage": "59.30%", "elapsed_time": "1d 22h 3m 28s", "remaining_time": "1d 7h 36m 25s"}
+{"loss": 0.07906377, "token_acc": 0.96944816, "grad_norm": 0.87211776, "learning_rate": 3.558e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234609, "epoch": 2.96554615, "global_step/max_steps": "38905/65595", "percentage": "59.31%", "elapsed_time": "1d 22h 3m 47s", "remaining_time": "1d 7h 36m 2s"}
+{"loss": 0.06460951, "token_acc": 0.96695515, "grad_norm": 0.98864323, "learning_rate": 3.557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234616, "epoch": 2.96592728, "global_step/max_steps": "38910/65595", "percentage": "59.32%", "elapsed_time": "1d 22h 4m 3s", "remaining_time": "1d 7h 35m 37s"}
+{"loss": 0.08273128, "token_acc": 0.97421603, "grad_norm": 0.69452369, "learning_rate": 3.556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234621, "epoch": 2.96630841, "global_step/max_steps": "38915/65595", "percentage": "59.33%", "elapsed_time": "1d 22h 4m 21s", "remaining_time": "1d 7h 35m 13s"}
+{"loss": 0.08158943, "token_acc": 0.97549159, "grad_norm": 0.80743843, "learning_rate": 3.555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234625, "epoch": 2.96668953, "global_step/max_steps": "38920/65595", "percentage": "59.33%", "elapsed_time": "1d 22h 4m 39s", "remaining_time": "1d 7h 34m 50s"}
+{"loss": 0.08944888, "token_acc": 0.97017592, "grad_norm": 0.89860046, "learning_rate": 3.554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234627, "epoch": 2.96707066, "global_step/max_steps": "38925/65595", "percentage": "59.34%", "elapsed_time": "1d 22h 4m 59s", "remaining_time": "1d 7h 34m 28s"}
+{"loss": 0.06634051, "token_acc": 0.97563276, "grad_norm": 0.6507867, "learning_rate": 3.552e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234632, "epoch": 2.96745179, "global_step/max_steps": "38930/65595", "percentage": "59.35%", "elapsed_time": "1d 22h 5m 17s", "remaining_time": "1d 7h 34m 4s"}
+{"loss": 0.03285872, "token_acc": 0.98398577, "grad_norm": 0.74155277, "learning_rate": 3.551e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234641, "epoch": 2.96783291, "global_step/max_steps": "38935/65595", "percentage": "59.36%", "elapsed_time": "1d 22h 5m 32s", "remaining_time": "1d 7h 33m 38s"}
+{"loss": 0.09051663, "token_acc": 0.97356215, "grad_norm": 0.93992209, "learning_rate": 3.55e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234647, "epoch": 2.96821404, "global_step/max_steps": "38940/65595", "percentage": "59.36%", "elapsed_time": "1d 22h 5m 49s", "remaining_time": "1d 7h 33m 14s"}
+{"loss": 0.05635908, "token_acc": 0.98336214, "grad_norm": 2.71759892, "learning_rate": 3.549e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234652, "epoch": 2.96859517, "global_step/max_steps": "38945/65595", "percentage": "59.37%", "elapsed_time": "1d 22h 6m 6s", "remaining_time": "1d 7h 32m 50s"}
+{"loss": 0.10753806, "token_acc": 0.96304797, "grad_norm": 1.0740937, "learning_rate": 3.548e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23466, "epoch": 2.96897629, "global_step/max_steps": "38950/65595", "percentage": "59.38%", "elapsed_time": "1d 22h 6m 22s", "remaining_time": "1d 7h 32m 25s"}
+{"loss": 0.06662009, "token_acc": 0.97348972, "grad_norm": 1.46217167, "learning_rate": 3.547e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234661, "epoch": 2.96935742, "global_step/max_steps": "38955/65595", "percentage": "59.39%", "elapsed_time": "1d 22h 6m 43s", "remaining_time": "1d 7h 32m 3s"}
+{"loss": 0.0946004, "token_acc": 0.9650285, "grad_norm": 1.04325283, "learning_rate": 3.546e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234666, "epoch": 2.96973855, "global_step/max_steps": "38960/65595", "percentage": "59.39%", "elapsed_time": "1d 22h 7m 0s", "remaining_time": "1d 7h 31m 40s"}
+{"loss": 0.07019053, "token_acc": 0.97317579, "grad_norm": 1.38810694, "learning_rate": 3.544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23467, "epoch": 2.97011967, "global_step/max_steps": "38965/65595", "percentage": "59.40%", "elapsed_time": "1d 22h 7m 19s", "remaining_time": "1d 7h 31m 17s"}
+{"loss": 0.05511276, "token_acc": 0.97498579, "grad_norm": 0.53982854, "learning_rate": 3.543e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234677, "epoch": 2.9705008, "global_step/max_steps": "38970/65595", "percentage": "59.41%", "elapsed_time": "1d 22h 7m 35s", "remaining_time": "1d 7h 30m 52s"}
+{"loss": 0.0830508, "token_acc": 0.96417542, "grad_norm": 1.08595324, "learning_rate": 3.542e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234682, "epoch": 2.97088193, "global_step/max_steps": "38975/65595", "percentage": "59.42%", "elapsed_time": "1d 22h 7m 53s", "remaining_time": "1d 7h 30m 28s"}
+{"loss": 0.04208918, "token_acc": 0.9803263, "grad_norm": 1.69402957, "learning_rate": 3.541e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234688, "epoch": 2.97126305, "global_step/max_steps": "38980/65595", "percentage": "59.43%", "elapsed_time": "1d 22h 8m 10s", "remaining_time": "1d 7h 30m 4s"}
+{"loss": 0.07224466, "token_acc": 0.97352025, "grad_norm": 0.47869697, "learning_rate": 3.54e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234687, "epoch": 2.97164418, "global_step/max_steps": "38985/65595", "percentage": "59.43%", "elapsed_time": "1d 22h 8m 32s", "remaining_time": "1d 7h 29m 43s"}
+{"loss": 0.04666823, "token_acc": 0.98301727, "grad_norm": 0.6289643, "learning_rate": 3.539e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234695, "epoch": 2.97202531, "global_step/max_steps": "38990/65595", "percentage": "59.44%", "elapsed_time": "1d 22h 8m 48s", "remaining_time": "1d 7h 29m 18s"}
+{"loss": 0.09473057, "token_acc": 0.96470891, "grad_norm": 0.96651459, "learning_rate": 3.538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234699, "epoch": 2.97240643, "global_step/max_steps": "38995/65595", "percentage": "59.45%", "elapsed_time": "1d 22h 9m 6s", "remaining_time": "1d 7h 28m 55s"}
+{"loss": 0.07951099, "token_acc": 0.97019904, "grad_norm": 0.64852774, "learning_rate": 3.536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234699, "epoch": 2.97278756, "global_step/max_steps": "39000/65595", "percentage": "59.46%", "elapsed_time": "1d 22h 9m 27s", "remaining_time": "1d 7h 28m 33s"}
+{"eval_loss": 0.07230939, "eval_token_acc": 0.96958015, "eval_runtime": 219.4103, "eval_samples_per_second": 2.416, "eval_steps_per_second": 2.416, "epoch": 2.97278756, "global_step/max_steps": "39000/65595", "percentage": "59.46%", "elapsed_time": "1d 22h 13m 7s", "remaining_time": "1d 7h 31m 3s"}
+{"loss": 0.07749907, "token_acc": 0.96976285, "grad_norm": 1.01077211, "learning_rate": 3.535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234392, "epoch": 2.97316869, "global_step/max_steps": "39005/65595", "percentage": "59.46%", "elapsed_time": "1d 22h 13m 27s", "remaining_time": "1d 7h 30m 41s"}
+{"loss": 0.09255664, "token_acc": 0.96877252, "grad_norm": 0.83446217, "learning_rate": 3.534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234398, "epoch": 2.97354981, "global_step/max_steps": "39010/65595", "percentage": "59.47%", "elapsed_time": "1d 22h 13m 43s", "remaining_time": "1d 7h 30m 16s"}
+{"loss": 0.05484062, "token_acc": 0.97862531, "grad_norm": 1.3069582, "learning_rate": 3.533e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234407, "epoch": 2.97393094, "global_step/max_steps": "39015/65595", "percentage": "59.48%", "elapsed_time": "1d 22h 13m 59s", "remaining_time": "1d 7h 29m 51s"}
+{"loss": 0.1205616, "token_acc": 0.95481644, "grad_norm": 1.72662938, "learning_rate": 3.532e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234415, "epoch": 2.97431207, "global_step/max_steps": "39020/65595", "percentage": "59.49%", "elapsed_time": "1d 22h 14m 14s", "remaining_time": "1d 7h 29m 25s"}
+{"loss": 0.08566504, "token_acc": 0.96186994, "grad_norm": 1.14148557, "learning_rate": 3.531e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234422, "epoch": 2.97469319, "global_step/max_steps": "39025/65595", "percentage": "59.49%", "elapsed_time": "1d 22h 14m 30s", "remaining_time": "1d 7h 29m 0s"}
+{"loss": 0.09134766, "token_acc": 0.96358154, "grad_norm": 0.99912542, "learning_rate": 3.53e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234431, "epoch": 2.97507432, "global_step/max_steps": "39030/65595", "percentage": "59.50%", "elapsed_time": "1d 22h 14m 46s", "remaining_time": "1d 7h 28m 35s"}
+{"loss": 0.06121724, "token_acc": 0.97197563, "grad_norm": 1.12573826, "learning_rate": 3.528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234437, "epoch": 2.97545545, "global_step/max_steps": "39035/65595", "percentage": "59.51%", "elapsed_time": "1d 22h 15m 2s", "remaining_time": "1d 7h 28m 10s"}
+{"loss": 0.06954473, "token_acc": 0.97605746, "grad_norm": 1.15939713, "learning_rate": 3.527e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234443, "epoch": 2.97583657, "global_step/max_steps": "39040/65595", "percentage": "59.52%", "elapsed_time": "1d 22h 15m 19s", "remaining_time": "1d 7h 27m 46s"}
+{"loss": 0.06359246, "token_acc": 0.9759275, "grad_norm": 1.66287649, "learning_rate": 3.526e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234451, "epoch": 2.9762177, "global_step/max_steps": "39045/65595", "percentage": "59.52%", "elapsed_time": "1d 22h 15m 35s", "remaining_time": "1d 7h 27m 21s"}
+{"loss": 0.10594902, "token_acc": 0.9626705, "grad_norm": 1.30459595, "learning_rate": 3.525e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234458, "epoch": 2.97659883, "global_step/max_steps": "39050/65595", "percentage": "59.53%", "elapsed_time": "1d 22h 15m 52s", "remaining_time": "1d 7h 26m 57s"}
+{"loss": 0.06611075, "token_acc": 0.97176439, "grad_norm": 1.17971051, "learning_rate": 3.524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234462, "epoch": 2.97697995, "global_step/max_steps": "39055/65595", "percentage": "59.54%", "elapsed_time": "1d 22h 16m 10s", "remaining_time": "1d 7h 26m 33s"}
+{"loss": 0.08016995, "token_acc": 0.96575012, "grad_norm": 0.88769394, "learning_rate": 3.523e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234471, "epoch": 2.97736108, "global_step/max_steps": "39060/65595", "percentage": "59.55%", "elapsed_time": "1d 22h 16m 25s", "remaining_time": "1d 7h 26m 7s"}
+{"loss": 0.07160007, "token_acc": 0.97642192, "grad_norm": 1.60868382, "learning_rate": 3.522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234476, "epoch": 2.97774221, "global_step/max_steps": "39065/65595", "percentage": "59.55%", "elapsed_time": "1d 22h 16m 43s", "remaining_time": "1d 7h 25m 44s"}
+{"loss": 0.09208373, "token_acc": 0.96186136, "grad_norm": 1.34995866, "learning_rate": 3.52e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234483, "epoch": 2.97812333, "global_step/max_steps": "39070/65595", "percentage": "59.56%", "elapsed_time": "1d 22h 16m 59s", "remaining_time": "1d 7h 25m 19s"}
+{"loss": 0.07049931, "token_acc": 0.97053892, "grad_norm": 1.67369342, "learning_rate": 3.519e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234491, "epoch": 2.97850446, "global_step/max_steps": "39075/65595", "percentage": "59.57%", "elapsed_time": "1d 22h 17m 15s", "remaining_time": "1d 7h 24m 54s"}
+{"loss": 0.07858411, "token_acc": 0.97053528, "grad_norm": 0.69098943, "learning_rate": 3.518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234496, "epoch": 2.97888559, "global_step/max_steps": "39080/65595", "percentage": "59.58%", "elapsed_time": "1d 22h 17m 33s", "remaining_time": "1d 7h 24m 30s"}
+{"loss": 0.07957221, "token_acc": 0.97015735, "grad_norm": 1.30957687, "learning_rate": 3.517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2345, "epoch": 2.97926671, "global_step/max_steps": "39085/65595", "percentage": "59.59%", "elapsed_time": "1d 22h 17m 51s", "remaining_time": "1d 7h 24m 7s"}
+{"loss": 0.08474057, "token_acc": 0.96761739, "grad_norm": 0.65472591, "learning_rate": 3.516e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2345, "epoch": 2.97964784, "global_step/max_steps": "39090/65595", "percentage": "59.59%", "elapsed_time": "1d 22h 18m 12s", "remaining_time": "1d 7h 23m 46s"}
+{"loss": 0.07835097, "token_acc": 0.96817493, "grad_norm": 0.78980267, "learning_rate": 3.515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234507, "epoch": 2.98002897, "global_step/max_steps": "39095/65595", "percentage": "59.60%", "elapsed_time": "1d 22h 18m 29s", "remaining_time": "1d 7h 23m 21s"}
+{"loss": 0.06380346, "token_acc": 0.97753665, "grad_norm": 0.61757779, "learning_rate": 3.514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234513, "epoch": 2.98041009, "global_step/max_steps": "39100/65595", "percentage": "59.61%", "elapsed_time": "1d 22h 18m 46s", "remaining_time": "1d 7h 22m 57s"}
+{"loss": 0.07493142, "token_acc": 0.96671042, "grad_norm": 0.66883606, "learning_rate": 3.512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234515, "epoch": 2.98079122, "global_step/max_steps": "39105/65595", "percentage": "59.62%", "elapsed_time": "1d 22h 19m 6s", "remaining_time": "1d 7h 22m 35s"}
+{"loss": 0.07798659, "token_acc": 0.97599705, "grad_norm": 1.4546802, "learning_rate": 3.511e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234522, "epoch": 2.98117235, "global_step/max_steps": "39110/65595", "percentage": "59.62%", "elapsed_time": "1d 22h 19m 22s", "remaining_time": "1d 7h 22m 10s"}
+{"loss": 0.06060404, "token_acc": 0.9743554, "grad_norm": 0.95834959, "learning_rate": 3.51e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234525, "epoch": 2.98155347, "global_step/max_steps": "39115/65595", "percentage": "59.63%", "elapsed_time": "1d 22h 19m 41s", "remaining_time": "1d 7h 21m 47s"}
+{"loss": 0.08515781, "token_acc": 0.96979568, "grad_norm": 1.16184223, "learning_rate": 3.509e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234529, "epoch": 2.9819346, "global_step/max_steps": "39120/65595", "percentage": "59.64%", "elapsed_time": "1d 22h 19m 59s", "remaining_time": "1d 7h 21m 24s"}
+{"loss": 0.07220359, "token_acc": 0.9740634, "grad_norm": 1.30127001, "learning_rate": 3.508e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234538, "epoch": 2.98231573, "global_step/max_steps": "39125/65595", "percentage": "59.65%", "elapsed_time": "1d 22h 20m 15s", "remaining_time": "1d 7h 20m 58s"}
+{"loss": 0.088903, "token_acc": 0.96252625, "grad_norm": 1.38368475, "learning_rate": 3.507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234541, "epoch": 2.98269685, "global_step/max_steps": "39130/65595", "percentage": "59.65%", "elapsed_time": "1d 22h 20m 33s", "remaining_time": "1d 7h 20m 35s"}
+{"loss": 0.06516097, "token_acc": 0.96806723, "grad_norm": 0.59724486, "learning_rate": 3.506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234551, "epoch": 2.98307798, "global_step/max_steps": "39135/65595", "percentage": "59.66%", "elapsed_time": "1d 22h 20m 48s", "remaining_time": "1d 7h 20m 9s"}
+{"loss": 0.06103958, "token_acc": 0.97477687, "grad_norm": 0.87126607, "learning_rate": 3.504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23456, "epoch": 2.98345911, "global_step/max_steps": "39140/65595", "percentage": "59.67%", "elapsed_time": "1d 22h 21m 3s", "remaining_time": "1d 7h 19m 43s"}
+{"loss": 0.05538129, "token_acc": 0.97974359, "grad_norm": 0.92811781, "learning_rate": 3.503e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234567, "epoch": 2.98384023, "global_step/max_steps": "39145/65595", "percentage": "59.68%", "elapsed_time": "1d 22h 21m 19s", "remaining_time": "1d 7h 19m 19s"}
+{"loss": 0.0980576, "token_acc": 0.96773299, "grad_norm": 1.97136962, "learning_rate": 3.502e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234567, "epoch": 2.98422136, "global_step/max_steps": "39150/65595", "percentage": "59.68%", "elapsed_time": "1d 22h 21m 41s", "remaining_time": "1d 7h 18m 58s"}
+{"loss": 0.07481738, "token_acc": 0.97550262, "grad_norm": 0.74720639, "learning_rate": 3.501e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234572, "epoch": 2.98460248, "global_step/max_steps": "39155/65595", "percentage": "59.69%", "elapsed_time": "1d 22h 21m 58s", "remaining_time": "1d 7h 18m 34s"}
+{"loss": 0.06893887, "token_acc": 0.97668913, "grad_norm": 0.71776646, "learning_rate": 3.5e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234578, "epoch": 2.98498361, "global_step/max_steps": "39160/65595", "percentage": "59.70%", "elapsed_time": "1d 22h 22m 16s", "remaining_time": "1d 7h 18m 10s"}
+{"loss": 0.10198855, "token_acc": 0.96143387, "grad_norm": 0.64510667, "learning_rate": 3.499e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234586, "epoch": 2.98536474, "global_step/max_steps": "39165/65595", "percentage": "59.71%", "elapsed_time": "1d 22h 22m 31s", "remaining_time": "1d 7h 17m 45s"}
+{"loss": 0.09753261, "token_acc": 0.96152125, "grad_norm": 1.84789026, "learning_rate": 3.498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234592, "epoch": 2.98574586, "global_step/max_steps": "39170/65595", "percentage": "59.71%", "elapsed_time": "1d 22h 22m 48s", "remaining_time": "1d 7h 17m 20s"}
+{"loss": 0.06039793, "token_acc": 0.9799808, "grad_norm": 1.1897918, "learning_rate": 3.496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234595, "epoch": 2.98612699, "global_step/max_steps": "39175/65595", "percentage": "59.72%", "elapsed_time": "1d 22h 23m 7s", "remaining_time": "1d 7h 16m 58s"}
+{"loss": 0.07277787, "token_acc": 0.97692757, "grad_norm": 0.7621637, "learning_rate": 3.495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234602, "epoch": 2.98650812, "global_step/max_steps": "39180/65595", "percentage": "59.73%", "elapsed_time": "1d 22h 23m 23s", "remaining_time": "1d 7h 16m 33s"}
+{"loss": 0.07517489, "token_acc": 0.97302613, "grad_norm": 0.92614084, "learning_rate": 3.494e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23461, "epoch": 2.98688924, "global_step/max_steps": "39185/65595", "percentage": "59.74%", "elapsed_time": "1d 22h 23m 39s", "remaining_time": "1d 7h 16m 8s"}
+{"loss": 0.10181841, "token_acc": 0.96002237, "grad_norm": 0.66300035, "learning_rate": 3.493e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234618, "epoch": 2.98727037, "global_step/max_steps": "39190/65595", "percentage": "59.75%", "elapsed_time": "1d 22h 23m 55s", "remaining_time": "1d 7h 15m 43s"}
+{"loss": 0.06566199, "token_acc": 0.96736011, "grad_norm": 1.27349424, "learning_rate": 3.492e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234627, "epoch": 2.9876515, "global_step/max_steps": "39195/65595", "percentage": "59.75%", "elapsed_time": "1d 22h 24m 10s", "remaining_time": "1d 7h 15m 17s"}
+{"loss": 0.10563346, "token_acc": 0.96958964, "grad_norm": 1.3208195, "learning_rate": 3.491e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234628, "epoch": 2.98803262, "global_step/max_steps": "39200/65595", "percentage": "59.76%", "elapsed_time": "1d 22h 24m 30s", "remaining_time": "1d 7h 14m 55s"}
+{"eval_loss": 0.07265514, "eval_token_acc": 0.96953497, "eval_runtime": 221.3628, "eval_samples_per_second": 2.394, "eval_steps_per_second": 2.394, "epoch": 2.98803262, "global_step/max_steps": "39200/65595", "percentage": "59.76%", "elapsed_time": "1d 22h 28m 12s", "remaining_time": "1d 7h 17m 24s"}
+{"loss": 0.06479206, "token_acc": 0.96956778, "grad_norm": 1.05662131, "learning_rate": 3.49e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234324, "epoch": 2.98841375, "global_step/max_steps": "39205/65595", "percentage": "59.77%", "elapsed_time": "1d 22h 28m 28s", "remaining_time": "1d 7h 17m 0s"}
+{"loss": 0.05413353, "token_acc": 0.97695759, "grad_norm": 0.76108557, "learning_rate": 3.488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23433, "epoch": 2.98879488, "global_step/max_steps": "39210/65595", "percentage": "59.78%", "elapsed_time": "1d 22h 28m 45s", "remaining_time": "1d 7h 16m 36s"}
+{"loss": 0.06215957, "token_acc": 0.97744361, "grad_norm": 0.99315125, "learning_rate": 3.487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234333, "epoch": 2.989176, "global_step/max_steps": "39215/65595", "percentage": "59.78%", "elapsed_time": "1d 22h 29m 4s", "remaining_time": "1d 7h 16m 13s"}
+{"loss": 0.06274345, "token_acc": 0.97816349, "grad_norm": 0.94652647, "learning_rate": 3.486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234338, "epoch": 2.98955713, "global_step/max_steps": "39220/65595", "percentage": "59.79%", "elapsed_time": "1d 22h 29m 23s", "remaining_time": "1d 7h 15m 49s"}
+{"loss": 0.05273018, "token_acc": 0.98247197, "grad_norm": 0.71440774, "learning_rate": 3.485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234337, "epoch": 2.98993826, "global_step/max_steps": "39225/65595", "percentage": "59.80%", "elapsed_time": "1d 22h 29m 45s", "remaining_time": "1d 7h 15m 28s"}
+{"loss": 0.07220151, "token_acc": 0.97605285, "grad_norm": 2.22300386, "learning_rate": 3.484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234341, "epoch": 2.99031938, "global_step/max_steps": "39230/65595", "percentage": "59.81%", "elapsed_time": "1d 22h 30m 3s", "remaining_time": "1d 7h 15m 5s"}
+{"loss": 0.07949203, "token_acc": 0.97291297, "grad_norm": 1.07915008, "learning_rate": 3.483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234342, "epoch": 2.99070051, "global_step/max_steps": "39235/65595", "percentage": "59.81%", "elapsed_time": "1d 22h 30m 23s", "remaining_time": "1d 7h 14m 43s"}
+{"loss": 0.07493293, "token_acc": 0.97476273, "grad_norm": 1.72849548, "learning_rate": 3.482e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234349, "epoch": 2.99108164, "global_step/max_steps": "39240/65595", "percentage": "59.82%", "elapsed_time": "1d 22h 30m 40s", "remaining_time": "1d 7h 14m 18s"}
+{"loss": 0.10468073, "token_acc": 0.96381182, "grad_norm": 0.6211915, "learning_rate": 3.48e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234353, "epoch": 2.99146276, "global_step/max_steps": "39245/65595", "percentage": "59.83%", "elapsed_time": "1d 22h 30m 59s", "remaining_time": "1d 7h 13m 55s"}
+{"loss": 0.06595179, "token_acc": 0.96866715, "grad_norm": 0.64164752, "learning_rate": 3.479e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234361, "epoch": 2.99184389, "global_step/max_steps": "39250/65595", "percentage": "59.84%", "elapsed_time": "1d 22h 31m 14s", "remaining_time": "1d 7h 13m 30s"}
+{"loss": 0.09969189, "token_acc": 0.96538045, "grad_norm": 0.85853648, "learning_rate": 3.478e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234371, "epoch": 2.99222502, "global_step/max_steps": "39255/65595", "percentage": "59.84%", "elapsed_time": "1d 22h 31m 28s", "remaining_time": "1d 7h 13m 4s"}
+{"loss": 0.08854771, "token_acc": 0.96962741, "grad_norm": 1.26081026, "learning_rate": 3.477e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234375, "epoch": 2.99260614, "global_step/max_steps": "39260/65595", "percentage": "59.85%", "elapsed_time": "1d 22h 31m 47s", "remaining_time": "1d 7h 12m 41s"}
+{"loss": 0.082568, "token_acc": 0.97183516, "grad_norm": 1.75295639, "learning_rate": 3.476e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234383, "epoch": 2.99298727, "global_step/max_steps": "39265/65595", "percentage": "59.86%", "elapsed_time": "1d 22h 32m 2s", "remaining_time": "1d 7h 12m 15s"}
+{"loss": 0.08310781, "token_acc": 0.96621787, "grad_norm": 1.07728362, "learning_rate": 3.475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234386, "epoch": 2.9933684, "global_step/max_steps": "39270/65595", "percentage": "59.87%", "elapsed_time": "1d 22h 32m 22s", "remaining_time": "1d 7h 11m 53s"}
+{"loss": 0.08885326, "token_acc": 0.95971042, "grad_norm": 1.92000103, "learning_rate": 3.474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234394, "epoch": 2.99374952, "global_step/max_steps": "39275/65595", "percentage": "59.87%", "elapsed_time": "1d 22h 32m 37s", "remaining_time": "1d 7h 11m 28s"}
+{"loss": 0.07030993, "token_acc": 0.97345643, "grad_norm": 1.02719617, "learning_rate": 3.472e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234399, "epoch": 2.99413065, "global_step/max_steps": "39280/65595", "percentage": "59.88%", "elapsed_time": "1d 22h 32m 55s", "remaining_time": "1d 7h 11m 4s"}
+{"loss": 0.07844567, "token_acc": 0.97103275, "grad_norm": 0.81189948, "learning_rate": 3.471e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234406, "epoch": 2.99451178, "global_step/max_steps": "39285/65595", "percentage": "59.89%", "elapsed_time": "1d 22h 33m 11s", "remaining_time": "1d 7h 10m 39s"}
+{"loss": 0.09177594, "token_acc": 0.96326255, "grad_norm": 1.32924366, "learning_rate": 3.47e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234411, "epoch": 2.9948929, "global_step/max_steps": "39290/65595", "percentage": "59.90%", "elapsed_time": "1d 22h 33m 29s", "remaining_time": "1d 7h 10m 15s"}
+{"loss": 0.09355546, "token_acc": 0.96441948, "grad_norm": 0.62804109, "learning_rate": 3.469e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234419, "epoch": 2.99527403, "global_step/max_steps": "39295/65595", "percentage": "59.91%", "elapsed_time": "1d 22h 33m 45s", "remaining_time": "1d 7h 9m 50s"}
+{"loss": 0.12040142, "token_acc": 0.94919544, "grad_norm": 1.3419441, "learning_rate": 3.468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234425, "epoch": 2.99565516, "global_step/max_steps": "39300/65595", "percentage": "59.91%", "elapsed_time": "1d 22h 34m 2s", "remaining_time": "1d 7h 9m 26s"}
+{"loss": 0.12129837, "token_acc": 0.95833333, "grad_norm": 1.0595063, "learning_rate": 3.467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234433, "epoch": 2.99603628, "global_step/max_steps": "39305/65595", "percentage": "59.92%", "elapsed_time": "1d 22h 34m 17s", "remaining_time": "1d 7h 9m 1s"}
+{"loss": 0.08626198, "token_acc": 0.96622475, "grad_norm": 0.93151098, "learning_rate": 3.466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234438, "epoch": 2.99641741, "global_step/max_steps": "39310/65595", "percentage": "59.93%", "elapsed_time": "1d 22h 34m 35s", "remaining_time": "1d 7h 8m 37s"}
+{"loss": 0.08997769, "token_acc": 0.97509924, "grad_norm": 0.99643892, "learning_rate": 3.464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234447, "epoch": 2.99679854, "global_step/max_steps": "39315/65595", "percentage": "59.94%", "elapsed_time": "1d 22h 34m 50s", "remaining_time": "1d 7h 8m 12s"}
+{"loss": 0.05476815, "token_acc": 0.98060029, "grad_norm": 0.63241065, "learning_rate": 3.463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234455, "epoch": 2.99717966, "global_step/max_steps": "39320/65595", "percentage": "59.94%", "elapsed_time": "1d 22h 35m 5s", "remaining_time": "1d 7h 7m 46s"}
+{"loss": 0.0991896, "token_acc": 0.96450561, "grad_norm": 1.15162575, "learning_rate": 3.462e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23446, "epoch": 2.99756079, "global_step/max_steps": "39325/65595", "percentage": "59.95%", "elapsed_time": "1d 22h 35m 23s", "remaining_time": "1d 7h 7m 23s"}
+{"loss": 0.07015915, "token_acc": 0.9744, "grad_norm": 1.09222555, "learning_rate": 3.461e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234467, "epoch": 2.99794192, "global_step/max_steps": "39330/65595", "percentage": "59.96%", "elapsed_time": "1d 22h 35m 39s", "remaining_time": "1d 7h 6m 58s"}
+{"loss": 0.06108701, "token_acc": 0.97684773, "grad_norm": 0.76412404, "learning_rate": 3.46e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234472, "epoch": 2.99832304, "global_step/max_steps": "39335/65595", "percentage": "59.97%", "elapsed_time": "1d 22h 35m 57s", "remaining_time": "1d 7h 6m 34s"}
+{"loss": 0.08173504, "token_acc": 0.9639076, "grad_norm": 1.30362868, "learning_rate": 3.459e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234479, "epoch": 2.99870417, "global_step/max_steps": "39340/65595", "percentage": "59.97%", "elapsed_time": "1d 22h 36m 14s", "remaining_time": "1d 7h 6m 10s"}
+{"loss": 0.12164016, "token_acc": 0.95831063, "grad_norm": 2.03142881, "learning_rate": 3.458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234486, "epoch": 2.9990853, "global_step/max_steps": "39345/65595", "percentage": "59.98%", "elapsed_time": "1d 22h 36m 30s", "remaining_time": "1d 7h 5m 45s"}
+{"loss": 0.07482206, "token_acc": 0.97326091, "grad_norm": 1.25421381, "learning_rate": 3.457e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234493, "epoch": 2.99946642, "global_step/max_steps": "39350/65595", "percentage": "59.99%", "elapsed_time": "1d 22h 36m 46s", "remaining_time": "1d 7h 5m 20s"}
+{"loss": 0.10698557, "token_acc": 0.96674719, "grad_norm": 1.28084242, "learning_rate": 3.455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234499, "epoch": 2.99984755, "global_step/max_steps": "39355/65595", "percentage": "60.00%", "elapsed_time": "1d 22h 37m 3s", "remaining_time": "1d 7h 4m 56s"}
+{"loss": 0.08201568, "token_acc": 0.97226952, "grad_norm": 0.65979314, "learning_rate": 3.454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234506, "epoch": 3.00022868, "global_step/max_steps": "39360/65595", "percentage": "60.00%", "elapsed_time": "1d 22h 37m 19s", "remaining_time": "1d 7h 4m 31s"}
+{"loss": 0.07789177, "token_acc": 0.9737541, "grad_norm": 0.89681202, "learning_rate": 3.453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234511, "epoch": 3.0006098, "global_step/max_steps": "39365/65595", "percentage": "60.01%", "elapsed_time": "1d 22h 37m 37s", "remaining_time": "1d 7h 4m 8s"}
+{"loss": 0.10934781, "token_acc": 0.96155818, "grad_norm": 1.52383816, "learning_rate": 3.452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234518, "epoch": 3.00099093, "global_step/max_steps": "39370/65595", "percentage": "60.02%", "elapsed_time": "1d 22h 37m 53s", "remaining_time": "1d 7h 3m 43s"}
+{"loss": 0.0701261, "token_acc": 0.97098707, "grad_norm": 0.79198897, "learning_rate": 3.451e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234526, "epoch": 3.00137206, "global_step/max_steps": "39375/65595", "percentage": "60.03%", "elapsed_time": "1d 22h 38m 9s", "remaining_time": "1d 7h 3m 18s"}
+{"loss": 0.06657161, "token_acc": 0.97437673, "grad_norm": 0.93849653, "learning_rate": 3.45e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234536, "epoch": 3.00175318, "global_step/max_steps": "39380/65595", "percentage": "60.04%", "elapsed_time": "1d 22h 38m 23s", "remaining_time": "1d 7h 2m 52s"}
+{"loss": 0.05467992, "token_acc": 0.98069912, "grad_norm": 0.96579832, "learning_rate": 3.449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234543, "epoch": 3.00213431, "global_step/max_steps": "39385/65595", "percentage": "60.04%", "elapsed_time": "1d 22h 38m 40s", "remaining_time": "1d 7h 2m 27s"}
+{"loss": 0.08483917, "token_acc": 0.96698933, "grad_norm": 0.9216153, "learning_rate": 3.447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23455, "epoch": 3.00251544, "global_step/max_steps": "39390/65595", "percentage": "60.05%", "elapsed_time": "1d 22h 38m 56s", "remaining_time": "1d 7h 2m 2s"}
+{"loss": 0.05708733, "token_acc": 0.9744898, "grad_norm": 0.94674474, "learning_rate": 3.446e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234556, "epoch": 3.00289656, "global_step/max_steps": "39395/65595", "percentage": "60.06%", "elapsed_time": "1d 22h 39m 13s", "remaining_time": "1d 7h 1m 38s"}
+{"loss": 0.0778314, "token_acc": 0.96754408, "grad_norm": 1.38600004, "learning_rate": 3.445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234563, "epoch": 3.00327769, "global_step/max_steps": "39400/65595", "percentage": "60.07%", "elapsed_time": "1d 22h 39m 29s", "remaining_time": "1d 7h 1m 14s"}
+{"eval_loss": 0.07260935, "eval_token_acc": 0.96944461, "eval_runtime": 221.2813, "eval_samples_per_second": 2.395, "eval_steps_per_second": 2.395, "epoch": 3.00327769, "global_step/max_steps": "39400/65595", "percentage": "60.07%", "elapsed_time": "1d 22h 43m 10s", "remaining_time": "1d 7h 3m 41s"}
+{"loss": 0.08239893, "token_acc": 0.96942915, "grad_norm": 1.53888345, "learning_rate": 3.444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234263, "epoch": 3.00365882, "global_step/max_steps": "39405/65595", "percentage": "60.07%", "elapsed_time": "1d 22h 43m 26s", "remaining_time": "1d 7h 3m 16s"}
+{"loss": 0.06583165, "token_acc": 0.97731931, "grad_norm": 1.20241868, "learning_rate": 3.443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234263, "epoch": 3.00403994, "global_step/max_steps": "39410/65595", "percentage": "60.08%", "elapsed_time": "1d 22h 43m 47s", "remaining_time": "1d 7h 2m 54s"}
+{"loss": 0.05454905, "token_acc": 0.98009347, "grad_norm": 0.92872822, "learning_rate": 3.442e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234269, "epoch": 3.00442107, "global_step/max_steps": "39415/65595", "percentage": "60.09%", "elapsed_time": "1d 22h 44m 4s", "remaining_time": "1d 7h 2m 30s"}
+{"loss": 0.061428, "token_acc": 0.9798749, "grad_norm": 1.65320492, "learning_rate": 3.441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234276, "epoch": 3.0048022, "global_step/max_steps": "39420/65595", "percentage": "60.10%", "elapsed_time": "1d 22h 44m 20s", "remaining_time": "1d 7h 2m 5s"}
+{"loss": 0.07788003, "token_acc": 0.97425583, "grad_norm": 0.56674945, "learning_rate": 3.439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234281, "epoch": 3.00518332, "global_step/max_steps": "39425/65595", "percentage": "60.10%", "elapsed_time": "1d 22h 44m 38s", "remaining_time": "1d 7h 1m 42s"}
+{"loss": 0.08365688, "token_acc": 0.9653952, "grad_norm": 1.40403998, "learning_rate": 3.438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234288, "epoch": 3.00556445, "global_step/max_steps": "39430/65595", "percentage": "60.11%", "elapsed_time": "1d 22h 44m 55s", "remaining_time": "1d 7h 1m 17s"}
+{"loss": 0.05659925, "token_acc": 0.97317597, "grad_norm": 1.12807834, "learning_rate": 3.437e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234293, "epoch": 3.00594558, "global_step/max_steps": "39435/65595", "percentage": "60.12%", "elapsed_time": "1d 22h 45m 12s", "remaining_time": "1d 7h 0m 53s"}
+{"loss": 0.08752325, "token_acc": 0.96627907, "grad_norm": 0.52374923, "learning_rate": 3.436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234299, "epoch": 3.0063267, "global_step/max_steps": "39440/65595", "percentage": "60.13%", "elapsed_time": "1d 22h 45m 29s", "remaining_time": "1d 7h 0m 29s"}
+{"loss": 0.06097019, "token_acc": 0.97692763, "grad_norm": 0.9218803, "learning_rate": 3.435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234306, "epoch": 3.00670783, "global_step/max_steps": "39445/65595", "percentage": "60.13%", "elapsed_time": "1d 22h 45m 46s", "remaining_time": "1d 7h 0m 4s"}
+{"loss": 0.05646784, "token_acc": 0.975, "grad_norm": 1.21747577, "learning_rate": 3.434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234315, "epoch": 3.00708895, "global_step/max_steps": "39450/65595", "percentage": "60.14%", "elapsed_time": "1d 22h 46m 1s", "remaining_time": "1d 6h 59m 39s"}
+{"loss": 0.06315624, "token_acc": 0.97461321, "grad_norm": 0.63924038, "learning_rate": 3.433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234316, "epoch": 3.00747008, "global_step/max_steps": "39455/65595", "percentage": "60.15%", "elapsed_time": "1d 22h 46m 21s", "remaining_time": "1d 6h 59m 17s"}
+{"loss": 0.038261, "token_acc": 0.9845815, "grad_norm": 0.67182958, "learning_rate": 3.431e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234316, "epoch": 3.00785121, "global_step/max_steps": "39460/65595", "percentage": "60.16%", "elapsed_time": "1d 22h 46m 42s", "remaining_time": "1d 6h 58m 55s"}
+{"loss": 0.0700797, "token_acc": 0.97378277, "grad_norm": 0.91576678, "learning_rate": 3.43e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234321, "epoch": 3.00823233, "global_step/max_steps": "39465/65595", "percentage": "60.16%", "elapsed_time": "1d 22h 47m 0s", "remaining_time": "1d 6h 58m 32s"}
+{"loss": 0.07612475, "token_acc": 0.97771035, "grad_norm": 0.91055042, "learning_rate": 3.429e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234322, "epoch": 3.00861346, "global_step/max_steps": "39470/65595", "percentage": "60.17%", "elapsed_time": "1d 22h 47m 21s", "remaining_time": "1d 6h 58m 10s"}
+{"loss": 0.05890547, "token_acc": 0.97070346, "grad_norm": 1.08373022, "learning_rate": 3.428e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234329, "epoch": 3.00899459, "global_step/max_steps": "39475/65595", "percentage": "60.18%", "elapsed_time": "1d 22h 47m 37s", "remaining_time": "1d 6h 57m 45s"}
+{"loss": 0.05693359, "token_acc": 0.97680642, "grad_norm": 0.6902436, "learning_rate": 3.427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234336, "epoch": 3.00937571, "global_step/max_steps": "39480/65595", "percentage": "60.19%", "elapsed_time": "1d 22h 47m 54s", "remaining_time": "1d 6h 57m 21s"}
+{"loss": 0.05612483, "token_acc": 0.97505543, "grad_norm": 1.3131634, "learning_rate": 3.426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234343, "epoch": 3.00975684, "global_step/max_steps": "39485/65595", "percentage": "60.20%", "elapsed_time": "1d 22h 48m 10s", "remaining_time": "1d 6h 56m 56s"}
+{"loss": 0.03711814, "token_acc": 0.98696265, "grad_norm": 0.78055215, "learning_rate": 3.425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234352, "epoch": 3.01013797, "global_step/max_steps": "39490/65595", "percentage": "60.20%", "elapsed_time": "1d 22h 48m 25s", "remaining_time": "1d 6h 56m 30s"}
+{"loss": 0.07974357, "token_acc": 0.97765171, "grad_norm": 1.31480241, "learning_rate": 3.424e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234357, "epoch": 3.01051909, "global_step/max_steps": "39495/65595", "percentage": "60.21%", "elapsed_time": "1d 22h 48m 42s", "remaining_time": "1d 6h 56m 7s"}
+{"loss": 0.07749973, "token_acc": 0.95555556, "grad_norm": 1.29694963, "learning_rate": 3.422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234366, "epoch": 3.01090022, "global_step/max_steps": "39500/65595", "percentage": "60.22%", "elapsed_time": "1d 22h 48m 57s", "remaining_time": "1d 6h 55m 41s"}
+{"loss": 0.06747925, "token_acc": 0.97609195, "grad_norm": 1.33888876, "learning_rate": 3.421e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234369, "epoch": 3.01128135, "global_step/max_steps": "39505/65595", "percentage": "60.23%", "elapsed_time": "1d 22h 49m 16s", "remaining_time": "1d 6h 55m 18s"}
+{"loss": 0.06820609, "token_acc": 0.98001, "grad_norm": 1.11669695, "learning_rate": 3.42e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234379, "epoch": 3.01166247, "global_step/max_steps": "39510/65595", "percentage": "60.23%", "elapsed_time": "1d 22h 49m 31s", "remaining_time": "1d 6h 54m 52s"}
+{"loss": 0.09187993, "token_acc": 0.95873937, "grad_norm": 1.69228256, "learning_rate": 3.419e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234385, "epoch": 3.0120436, "global_step/max_steps": "39515/65595", "percentage": "60.24%", "elapsed_time": "1d 22h 49m 48s", "remaining_time": "1d 6h 54m 28s"}
+{"loss": 0.04682412, "token_acc": 0.98484848, "grad_norm": 0.99510086, "learning_rate": 3.418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234391, "epoch": 3.01242473, "global_step/max_steps": "39520/65595", "percentage": "60.25%", "elapsed_time": "1d 22h 50m 5s", "remaining_time": "1d 6h 54m 4s"}
+{"loss": 0.0730591, "token_acc": 0.97555258, "grad_norm": 1.00134099, "learning_rate": 3.417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2344, "epoch": 3.01280585, "global_step/max_steps": "39525/65595", "percentage": "60.26%", "elapsed_time": "1d 22h 50m 19s", "remaining_time": "1d 6h 53m 38s"}
+{"loss": 0.07594524, "token_acc": 0.97218797, "grad_norm": 1.98840964, "learning_rate": 3.416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234405, "epoch": 3.01318698, "global_step/max_steps": "39530/65595", "percentage": "60.26%", "elapsed_time": "1d 22h 50m 37s", "remaining_time": "1d 6h 53m 14s"}
+{"loss": 0.07913766, "token_acc": 0.9642582, "grad_norm": 1.56271839, "learning_rate": 3.414e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23441, "epoch": 3.01356811, "global_step/max_steps": "39535/65595", "percentage": "60.27%", "elapsed_time": "1d 22h 50m 55s", "remaining_time": "1d 6h 52m 51s"}
+{"loss": 0.06119677, "token_acc": 0.97579758, "grad_norm": 1.71014285, "learning_rate": 3.413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234417, "epoch": 3.01394923, "global_step/max_steps": "39540/65595", "percentage": "60.28%", "elapsed_time": "1d 22h 51m 11s", "remaining_time": "1d 6h 52m 26s"}
+{"loss": 0.08163259, "token_acc": 0.96831169, "grad_norm": 1.19236863, "learning_rate": 3.412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234425, "epoch": 3.01433036, "global_step/max_steps": "39545/65595", "percentage": "60.29%", "elapsed_time": "1d 22h 51m 27s", "remaining_time": "1d 6h 52m 1s"}
+{"loss": 0.0577656, "token_acc": 0.96670702, "grad_norm": 1.31079876, "learning_rate": 3.411e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234432, "epoch": 3.01471149, "global_step/max_steps": "39550/65595", "percentage": "60.29%", "elapsed_time": "1d 22h 51m 43s", "remaining_time": "1d 6h 51m 36s"}
+{"loss": 0.06792814, "token_acc": 0.97560976, "grad_norm": 0.51813179, "learning_rate": 3.41e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234441, "epoch": 3.01509261, "global_step/max_steps": "39555/65595", "percentage": "60.30%", "elapsed_time": "1d 22h 51m 58s", "remaining_time": "1d 6h 51m 11s"}
+{"loss": 0.04460353, "token_acc": 0.98457088, "grad_norm": 0.55516237, "learning_rate": 3.409e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234447, "epoch": 3.01547374, "global_step/max_steps": "39560/65595", "percentage": "60.31%", "elapsed_time": "1d 22h 52m 15s", "remaining_time": "1d 6h 50m 47s"}
+{"loss": 0.09473436, "token_acc": 0.95911031, "grad_norm": 0.64032716, "learning_rate": 3.408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234454, "epoch": 3.01585487, "global_step/max_steps": "39565/65595", "percentage": "60.32%", "elapsed_time": "1d 22h 52m 31s", "remaining_time": "1d 6h 50m 22s"}
+{"loss": 0.07535493, "token_acc": 0.97582105, "grad_norm": 1.92622161, "learning_rate": 3.406e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234453, "epoch": 3.01623599, "global_step/max_steps": "39570/65595", "percentage": "60.32%", "elapsed_time": "1d 22h 52m 53s", "remaining_time": "1d 6h 50m 1s"}
+{"loss": 0.05683559, "token_acc": 0.97805365, "grad_norm": 1.36324954, "learning_rate": 3.405e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23446, "epoch": 3.01661712, "global_step/max_steps": "39575/65595", "percentage": "60.33%", "elapsed_time": "1d 22h 53m 9s", "remaining_time": "1d 6h 49m 36s"}
+{"loss": 0.07645566, "token_acc": 0.96473029, "grad_norm": 1.5143106, "learning_rate": 3.404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234468, "epoch": 3.01699825, "global_step/max_steps": "39580/65595", "percentage": "60.34%", "elapsed_time": "1d 22h 53m 25s", "remaining_time": "1d 6h 49m 12s"}
+{"loss": 0.04687687, "token_acc": 0.98256803, "grad_norm": 1.28512967, "learning_rate": 3.403e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234472, "epoch": 3.01737937, "global_step/max_steps": "39585/65595", "percentage": "60.35%", "elapsed_time": "1d 22h 53m 43s", "remaining_time": "1d 6h 48m 48s"}
+{"loss": 0.05242878, "token_acc": 0.98159691, "grad_norm": 0.58828425, "learning_rate": 3.402e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234476, "epoch": 3.0177605, "global_step/max_steps": "39590/65595", "percentage": "60.36%", "elapsed_time": "1d 22h 54m 2s", "remaining_time": "1d 6h 48m 25s"}
+{"loss": 0.0491722, "token_acc": 0.97535597, "grad_norm": 0.95426184, "learning_rate": 3.401e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234483, "epoch": 3.01814163, "global_step/max_steps": "39595/65595", "percentage": "60.36%", "elapsed_time": "1d 22h 54m 18s", "remaining_time": "1d 6h 48m 0s"}
+{"loss": 0.03304168, "token_acc": 0.98818316, "grad_norm": 0.44225007, "learning_rate": 3.4e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234489, "epoch": 3.01852275, "global_step/max_steps": "39600/65595", "percentage": "60.37%", "elapsed_time": "1d 22h 54m 35s", "remaining_time": "1d 6h 47m 36s"}
+{"eval_loss": 0.07239663, "eval_token_acc": 0.96963285, "eval_runtime": 221.0759, "eval_samples_per_second": 2.397, "eval_steps_per_second": 2.397, "epoch": 3.01852275, "global_step/max_steps": "39600/65595", "percentage": "60.37%", "elapsed_time": "1d 22h 58m 16s", "remaining_time": "1d 6h 50m 1s"}
+{"loss": 0.0725424, "token_acc": 0.96985262, "grad_norm": 1.56172442, "learning_rate": 3.399e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234188, "epoch": 3.01890388, "global_step/max_steps": "39605/65595", "percentage": "60.38%", "elapsed_time": "1d 22h 58m 33s", "remaining_time": "1d 6h 49m 37s"}
+{"loss": 0.07168787, "token_acc": 0.97047856, "grad_norm": 1.3559612, "learning_rate": 3.397e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234193, "epoch": 3.01928501, "global_step/max_steps": "39610/65595", "percentage": "60.39%", "elapsed_time": "1d 22h 58m 51s", "remaining_time": "1d 6h 49m 13s"}
+{"loss": 0.06324221, "token_acc": 0.97324804, "grad_norm": 1.29058945, "learning_rate": 3.396e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234201, "epoch": 3.01966613, "global_step/max_steps": "39615/65595", "percentage": "60.39%", "elapsed_time": "1d 22h 59m 7s", "remaining_time": "1d 6h 48m 48s"}
+{"loss": 0.07209588, "token_acc": 0.97241512, "grad_norm": 0.80124515, "learning_rate": 3.395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234206, "epoch": 3.02004726, "global_step/max_steps": "39620/65595", "percentage": "60.40%", "elapsed_time": "1d 22h 59m 25s", "remaining_time": "1d 6h 48m 25s"}
+{"loss": 0.07420333, "token_acc": 0.96845313, "grad_norm": 1.11177051, "learning_rate": 3.394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234211, "epoch": 3.02042839, "global_step/max_steps": "39625/65595", "percentage": "60.41%", "elapsed_time": "1d 22h 59m 43s", "remaining_time": "1d 6h 48m 1s"}
+{"loss": 0.08121558, "token_acc": 0.97331054, "grad_norm": 1.03999317, "learning_rate": 3.393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234211, "epoch": 3.02080951, "global_step/max_steps": "39630/65595", "percentage": "60.42%", "elapsed_time": "1d 23h 0m 3s", "remaining_time": "1d 6h 47m 39s"}
+{"loss": 0.05303125, "token_acc": 0.9711446, "grad_norm": 1.17144775, "learning_rate": 3.392e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234221, "epoch": 3.02119064, "global_step/max_steps": "39635/65595", "percentage": "60.42%", "elapsed_time": "1d 23h 0m 18s", "remaining_time": "1d 6h 47m 14s"}
+{"loss": 0.06085293, "token_acc": 0.97999183, "grad_norm": 0.72704005, "learning_rate": 3.391e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234229, "epoch": 3.02157177, "global_step/max_steps": "39640/65595", "percentage": "60.43%", "elapsed_time": "1d 23h 0m 33s", "remaining_time": "1d 6h 46m 48s"}
+{"loss": 0.06372825, "token_acc": 0.97557497, "grad_norm": 0.78144538, "learning_rate": 3.389e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234233, "epoch": 3.02195289, "global_step/max_steps": "39645/65595", "percentage": "60.44%", "elapsed_time": "1d 23h 0m 52s", "remaining_time": "1d 6h 46m 25s"}
+{"loss": 0.03833314, "token_acc": 0.98378329, "grad_norm": 0.7135666, "learning_rate": 3.388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234232, "epoch": 3.02233402, "global_step/max_steps": "39650/65595", "percentage": "60.45%", "elapsed_time": "1d 23h 1m 14s", "remaining_time": "1d 6h 46m 4s"}
+{"loss": 0.07526067, "token_acc": 0.96735905, "grad_norm": 1.03521967, "learning_rate": 3.387e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234239, "epoch": 3.02271515, "global_step/max_steps": "39655/65595", "percentage": "60.45%", "elapsed_time": "1d 23h 1m 30s", "remaining_time": "1d 6h 45m 39s"}
+{"loss": 0.06705438, "token_acc": 0.97215039, "grad_norm": 0.90092236, "learning_rate": 3.386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234247, "epoch": 3.02309627, "global_step/max_steps": "39660/65595", "percentage": "60.46%", "elapsed_time": "1d 23h 1m 46s", "remaining_time": "1d 6h 45m 15s"}
+{"loss": 0.06422205, "token_acc": 0.97282204, "grad_norm": 1.40925395, "learning_rate": 3.385e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234255, "epoch": 3.0234774, "global_step/max_steps": "39665/65595", "percentage": "60.47%", "elapsed_time": "1d 23h 2m 1s", "remaining_time": "1d 6h 44m 49s"}
+{"loss": 0.04898895, "token_acc": 0.98268601, "grad_norm": 0.56673193, "learning_rate": 3.384e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234263, "epoch": 3.02385853, "global_step/max_steps": "39670/65595", "percentage": "60.48%", "elapsed_time": "1d 23h 2m 17s", "remaining_time": "1d 6h 44m 24s"}
+{"loss": 0.08209805, "token_acc": 0.97174626, "grad_norm": 1.88429582, "learning_rate": 3.383e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234268, "epoch": 3.02423965, "global_step/max_steps": "39675/65595", "percentage": "60.48%", "elapsed_time": "1d 23h 2m 34s", "remaining_time": "1d 6h 44m 0s"}
+{"loss": 0.05828458, "token_acc": 0.97076878, "grad_norm": 0.30776149, "learning_rate": 3.382e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234277, "epoch": 3.02462078, "global_step/max_steps": "39680/65595", "percentage": "60.49%", "elapsed_time": "1d 23h 2m 49s", "remaining_time": "1d 6h 43m 35s"}
+{"loss": 0.06342192, "token_acc": 0.9785, "grad_norm": 1.74996674, "learning_rate": 3.38e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234284, "epoch": 3.02500191, "global_step/max_steps": "39685/65595", "percentage": "60.50%", "elapsed_time": "1d 23h 3m 6s", "remaining_time": "1d 6h 43m 10s"}
+{"loss": 0.0432952, "token_acc": 0.98248848, "grad_norm": 0.62141001, "learning_rate": 3.379e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234288, "epoch": 3.02538303, "global_step/max_steps": "39690/65595", "percentage": "60.51%", "elapsed_time": "1d 23h 3m 24s", "remaining_time": "1d 6h 42m 47s"}
+{"loss": 0.08212856, "token_acc": 0.96020806, "grad_norm": 1.7571069, "learning_rate": 3.378e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234296, "epoch": 3.02576416, "global_step/max_steps": "39695/65595", "percentage": "60.52%", "elapsed_time": "1d 23h 3m 40s", "remaining_time": "1d 6h 42m 22s"}
+{"loss": 0.04668758, "token_acc": 0.97691154, "grad_norm": 0.89710194, "learning_rate": 3.377e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234304, "epoch": 3.02614529, "global_step/max_steps": "39700/65595", "percentage": "60.52%", "elapsed_time": "1d 23h 3m 55s", "remaining_time": "1d 6h 41m 57s"}
+{"loss": 0.05405146, "token_acc": 0.98190488, "grad_norm": 0.57569128, "learning_rate": 3.376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234306, "epoch": 3.02652641, "global_step/max_steps": "39705/65595", "percentage": "60.53%", "elapsed_time": "1d 23h 4m 15s", "remaining_time": "1d 6h 41m 35s"}
+{"loss": 0.04907852, "token_acc": 0.98037677, "grad_norm": 1.53401709, "learning_rate": 3.375e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234312, "epoch": 3.02690754, "global_step/max_steps": "39710/65595", "percentage": "60.54%", "elapsed_time": "1d 23h 4m 32s", "remaining_time": "1d 6h 41m 10s"}
+{"loss": 0.06088903, "token_acc": 0.97322468, "grad_norm": 2.0387609, "learning_rate": 3.374e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234321, "epoch": 3.02728867, "global_step/max_steps": "39715/65595", "percentage": "60.55%", "elapsed_time": "1d 23h 4m 47s", "remaining_time": "1d 6h 40m 45s"}
+{"loss": 0.0717183, "token_acc": 0.97732634, "grad_norm": 0.67705816, "learning_rate": 3.372e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234326, "epoch": 3.02766979, "global_step/max_steps": "39720/65595", "percentage": "60.55%", "elapsed_time": "1d 23h 5m 5s", "remaining_time": "1d 6h 40m 21s"}
+{"loss": 0.04229764, "token_acc": 0.98013245, "grad_norm": 1.40314257, "learning_rate": 3.371e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234337, "epoch": 3.02805092, "global_step/max_steps": "39725/65595", "percentage": "60.56%", "elapsed_time": "1d 23h 5m 18s", "remaining_time": "1d 6h 39m 55s"}
+{"loss": 0.05656819, "token_acc": 0.97988179, "grad_norm": 1.05136299, "learning_rate": 3.37e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234339, "epoch": 3.02843205, "global_step/max_steps": "39730/65595", "percentage": "60.57%", "elapsed_time": "1d 23h 5m 38s", "remaining_time": "1d 6h 39m 32s"}
+{"loss": 0.04761789, "token_acc": 0.98306189, "grad_norm": 1.92320168, "learning_rate": 3.369e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234343, "epoch": 3.02881317, "global_step/max_steps": "39735/65595", "percentage": "60.58%", "elapsed_time": "1d 23h 5m 56s", "remaining_time": "1d 6h 39m 9s"}
+{"loss": 0.07205019, "token_acc": 0.98246445, "grad_norm": 1.26450002, "learning_rate": 3.368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234349, "epoch": 3.0291943, "global_step/max_steps": "39740/65595", "percentage": "60.58%", "elapsed_time": "1d 23h 6m 14s", "remaining_time": "1d 6h 38m 45s"}
+{"loss": 0.0479062, "token_acc": 0.98346457, "grad_norm": 0.65052766, "learning_rate": 3.367e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234356, "epoch": 3.02957542, "global_step/max_steps": "39745/65595", "percentage": "60.59%", "elapsed_time": "1d 23h 6m 30s", "remaining_time": "1d 6h 38m 20s"}
+{"loss": 0.07938245, "token_acc": 0.97297297, "grad_norm": 0.81909633, "learning_rate": 3.366e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234362, "epoch": 3.02995655, "global_step/max_steps": "39750/65595", "percentage": "60.60%", "elapsed_time": "1d 23h 6m 47s", "remaining_time": "1d 6h 37m 56s"}
+{"loss": 0.07830352, "token_acc": 0.96953897, "grad_norm": 0.76702106, "learning_rate": 3.365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234371, "epoch": 3.03033768, "global_step/max_steps": "39755/65595", "percentage": "60.61%", "elapsed_time": "1d 23h 7m 2s", "remaining_time": "1d 6h 37m 31s"}
+{"loss": 0.06114376, "token_acc": 0.97444589, "grad_norm": 1.63805199, "learning_rate": 3.363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23438, "epoch": 3.0307188, "global_step/max_steps": "39760/65595", "percentage": "60.61%", "elapsed_time": "1d 23h 7m 17s", "remaining_time": "1d 6h 37m 5s"}
+{"loss": 0.08804128, "token_acc": 0.96549931, "grad_norm": 1.44998598, "learning_rate": 3.362e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234384, "epoch": 3.03109993, "global_step/max_steps": "39765/65595", "percentage": "60.62%", "elapsed_time": "1d 23h 7m 35s", "remaining_time": "1d 6h 36m 42s"}
+{"loss": 0.07820584, "token_acc": 0.96956829, "grad_norm": 1.96442521, "learning_rate": 3.361e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234393, "epoch": 3.03148106, "global_step/max_steps": "39770/65595", "percentage": "60.63%", "elapsed_time": "1d 23h 7m 50s", "remaining_time": "1d 6h 36m 16s"}
+{"loss": 0.06245818, "token_acc": 0.97560232, "grad_norm": 1.82571197, "learning_rate": 3.36e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234397, "epoch": 3.03186218, "global_step/max_steps": "39775/65595", "percentage": "60.64%", "elapsed_time": "1d 23h 8m 8s", "remaining_time": "1d 6h 35m 53s"}
+{"loss": 0.06365446, "token_acc": 0.97835033, "grad_norm": 0.67519045, "learning_rate": 3.359e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234404, "epoch": 3.03224331, "global_step/max_steps": "39780/65595", "percentage": "60.64%", "elapsed_time": "1d 23h 8m 24s", "remaining_time": "1d 6h 35m 28s"}
+{"loss": 0.07140828, "token_acc": 0.97876317, "grad_norm": 0.61211985, "learning_rate": 3.358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234408, "epoch": 3.03262444, "global_step/max_steps": "39785/65595", "percentage": "60.65%", "elapsed_time": "1d 23h 8m 42s", "remaining_time": "1d 6h 35m 5s"}
+{"loss": 0.07932466, "token_acc": 0.97146046, "grad_norm": 1.61589217, "learning_rate": 3.357e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234413, "epoch": 3.03300556, "global_step/max_steps": "39790/65595", "percentage": "60.66%", "elapsed_time": "1d 23h 9m 0s", "remaining_time": "1d 6h 34m 41s"}
+{"loss": 0.06883134, "token_acc": 0.97339867, "grad_norm": 1.2993952, "learning_rate": 3.356e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234414, "epoch": 3.03338669, "global_step/max_steps": "39795/65595", "percentage": "60.67%", "elapsed_time": "1d 23h 9m 21s", "remaining_time": "1d 6h 34m 20s"}
+{"loss": 0.04524898, "token_acc": 0.98303006, "grad_norm": 0.82590783, "learning_rate": 3.354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23442, "epoch": 3.03376782, "global_step/max_steps": "39800/65595", "percentage": "60.68%", "elapsed_time": "1d 23h 9m 38s", "remaining_time": "1d 6h 33m 56s"}
+{"eval_loss": 0.07258981, "eval_token_acc": 0.97028793, "eval_runtime": 221.2895, "eval_samples_per_second": 2.395, "eval_steps_per_second": 2.395, "epoch": 3.03376782, "global_step/max_steps": "39800/65595", "percentage": "60.68%", "elapsed_time": "1d 23h 13m 19s", "remaining_time": "1d 6h 36m 19s"}
+{"loss": 0.06945026, "token_acc": 0.97041773, "grad_norm": 1.77626252, "learning_rate": 3.353e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234121, "epoch": 3.03414894, "global_step/max_steps": "39805/65595", "percentage": "60.68%", "elapsed_time": "1d 23h 13m 36s", "remaining_time": "1d 6h 35m 55s"}
+{"loss": 0.06532583, "token_acc": 0.97302405, "grad_norm": 0.92091006, "learning_rate": 3.352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234127, "epoch": 3.03453007, "global_step/max_steps": "39810/65595", "percentage": "60.69%", "elapsed_time": "1d 23h 13m 53s", "remaining_time": "1d 6h 35m 31s"}
+{"loss": 0.05521163, "token_acc": 0.98074904, "grad_norm": 0.67569274, "learning_rate": 3.351e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234133, "epoch": 3.0349112, "global_step/max_steps": "39815/65595", "percentage": "60.70%", "elapsed_time": "1d 23h 14m 10s", "remaining_time": "1d 6h 35m 6s"}
+{"loss": 0.05121314, "token_acc": 0.98611412, "grad_norm": 1.17614985, "learning_rate": 3.35e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234138, "epoch": 3.03529232, "global_step/max_steps": "39820/65595", "percentage": "60.71%", "elapsed_time": "1d 23h 14m 28s", "remaining_time": "1d 6h 34m 43s"}
+{"loss": 0.05240284, "token_acc": 0.97864602, "grad_norm": 0.70023179, "learning_rate": 3.349e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234138, "epoch": 3.03567345, "global_step/max_steps": "39825/65595", "percentage": "60.71%", "elapsed_time": "1d 23h 14m 49s", "remaining_time": "1d 6h 34m 21s"}
+{"loss": 0.0544459, "token_acc": 0.98155156, "grad_norm": 0.7214281, "learning_rate": 3.348e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234147, "epoch": 3.03605458, "global_step/max_steps": "39830/65595", "percentage": "60.72%", "elapsed_time": "1d 23h 15m 4s", "remaining_time": "1d 6h 33m 56s"}
+{"loss": 0.05238337, "token_acc": 0.97735106, "grad_norm": 0.80757546, "learning_rate": 3.346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234153, "epoch": 3.0364357, "global_step/max_steps": "39835/65595", "percentage": "60.73%", "elapsed_time": "1d 23h 15m 21s", "remaining_time": "1d 6h 33m 32s"}
+{"loss": 0.08340584, "token_acc": 0.97236003, "grad_norm": 0.57907802, "learning_rate": 3.345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234159, "epoch": 3.03681683, "global_step/max_steps": "39840/65595", "percentage": "60.74%", "elapsed_time": "1d 23h 15m 38s", "remaining_time": "1d 6h 33m 7s"}
+{"loss": 0.04336692, "token_acc": 0.98596882, "grad_norm": 0.5245856, "learning_rate": 3.344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234165, "epoch": 3.03719796, "global_step/max_steps": "39845/65595", "percentage": "60.74%", "elapsed_time": "1d 23h 15m 55s", "remaining_time": "1d 6h 32m 43s"}
+{"loss": 0.08442256, "token_acc": 0.97192643, "grad_norm": 0.81408668, "learning_rate": 3.343e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234171, "epoch": 3.03757908, "global_step/max_steps": "39850/65595", "percentage": "60.75%", "elapsed_time": "1d 23h 16m 12s", "remaining_time": "1d 6h 32m 19s"}
+{"loss": 0.05792513, "token_acc": 0.97934494, "grad_norm": 1.09959555, "learning_rate": 3.342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234181, "epoch": 3.03796021, "global_step/max_steps": "39855/65595", "percentage": "60.76%", "elapsed_time": "1d 23h 16m 26s", "remaining_time": "1d 6h 31m 53s"}
+{"loss": 0.09112204, "token_acc": 0.96679047, "grad_norm": 1.86793602, "learning_rate": 3.341e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234188, "epoch": 3.03834134, "global_step/max_steps": "39860/65595", "percentage": "60.77%", "elapsed_time": "1d 23h 16m 42s", "remaining_time": "1d 6h 31m 28s"}
+{"loss": 0.05870478, "token_acc": 0.9763857, "grad_norm": 1.1673696, "learning_rate": 3.34e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234194, "epoch": 3.03872246, "global_step/max_steps": "39865/65595", "percentage": "60.77%", "elapsed_time": "1d 23h 17m 0s", "remaining_time": "1d 6h 31m 4s"}
+{"loss": 0.06191736, "token_acc": 0.98018494, "grad_norm": 1.99400067, "learning_rate": 3.339e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234201, "epoch": 3.03910359, "global_step/max_steps": "39870/65595", "percentage": "60.78%", "elapsed_time": "1d 23h 17m 16s", "remaining_time": "1d 6h 30m 40s"}
+{"loss": 0.04444847, "token_acc": 0.98097412, "grad_norm": 0.62737906, "learning_rate": 3.337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234201, "epoch": 3.03948472, "global_step/max_steps": "39875/65595", "percentage": "60.79%", "elapsed_time": "1d 23h 17m 37s", "remaining_time": "1d 6h 30m 18s"}
+{"loss": 0.07316847, "token_acc": 0.97820124, "grad_norm": 1.25528598, "learning_rate": 3.336e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234206, "epoch": 3.03986584, "global_step/max_steps": "39880/65595", "percentage": "60.80%", "elapsed_time": "1d 23h 17m 55s", "remaining_time": "1d 6h 29m 55s"}
+{"loss": 0.09549397, "token_acc": 0.9709423, "grad_norm": 3.12441254, "learning_rate": 3.335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234214, "epoch": 3.04024697, "global_step/max_steps": "39885/65595", "percentage": "60.80%", "elapsed_time": "1d 23h 18m 10s", "remaining_time": "1d 6h 29m 29s"}
+{"loss": 0.06104463, "token_acc": 0.96793349, "grad_norm": 1.0998261, "learning_rate": 3.334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23422, "epoch": 3.0406281, "global_step/max_steps": "39890/65595", "percentage": "60.81%", "elapsed_time": "1d 23h 18m 27s", "remaining_time": "1d 6h 29m 5s"}
+{"loss": 0.11186855, "token_acc": 0.97160989, "grad_norm": 0.64289171, "learning_rate": 3.333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234226, "epoch": 3.04100922, "global_step/max_steps": "39895/65595", "percentage": "60.82%", "elapsed_time": "1d 23h 18m 44s", "remaining_time": "1d 6h 28m 41s"}
+{"loss": 0.06021246, "token_acc": 0.97078883, "grad_norm": 0.96534103, "learning_rate": 3.332e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234228, "epoch": 3.04139035, "global_step/max_steps": "39900/65595", "percentage": "60.83%", "elapsed_time": "1d 23h 19m 4s", "remaining_time": "1d 6h 28m 19s"}
+{"loss": 0.07211907, "token_acc": 0.97620751, "grad_norm": 0.78132361, "learning_rate": 3.331e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234234, "epoch": 3.04177148, "global_step/max_steps": "39905/65595", "percentage": "60.84%", "elapsed_time": "1d 23h 19m 21s", "remaining_time": "1d 6h 27m 55s"}
+{"loss": 0.05818065, "token_acc": 0.97849642, "grad_norm": 2.00678301, "learning_rate": 3.33e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23424, "epoch": 3.0421526, "global_step/max_steps": "39910/65595", "percentage": "60.84%", "elapsed_time": "1d 23h 19m 38s", "remaining_time": "1d 6h 27m 30s"}
+{"loss": 0.07647414, "token_acc": 0.97396401, "grad_norm": 0.69095159, "learning_rate": 3.328e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234246, "epoch": 3.04253373, "global_step/max_steps": "39915/65595", "percentage": "60.85%", "elapsed_time": "1d 23h 19m 55s", "remaining_time": "1d 6h 27m 7s"}
+{"loss": 0.0546468, "token_acc": 0.97859327, "grad_norm": 0.74796295, "learning_rate": 3.327e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234253, "epoch": 3.04291486, "global_step/max_steps": "39920/65595", "percentage": "60.86%", "elapsed_time": "1d 23h 20m 11s", "remaining_time": "1d 6h 26m 42s"}
+{"loss": 0.06046765, "token_acc": 0.97504417, "grad_norm": 0.58882612, "learning_rate": 3.326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234259, "epoch": 3.04329598, "global_step/max_steps": "39925/65595", "percentage": "60.87%", "elapsed_time": "1d 23h 20m 29s", "remaining_time": "1d 6h 26m 18s"}
+{"loss": 0.07042725, "token_acc": 0.96858808, "grad_norm": 1.07295644, "learning_rate": 3.325e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234266, "epoch": 3.04367711, "global_step/max_steps": "39930/65595", "percentage": "60.87%", "elapsed_time": "1d 23h 20m 44s", "remaining_time": "1d 6h 25m 53s"}
+{"loss": 0.0546046, "token_acc": 0.98251748, "grad_norm": 1.33643341, "learning_rate": 3.324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234275, "epoch": 3.04405824, "global_step/max_steps": "39935/65595", "percentage": "60.88%", "elapsed_time": "1d 23h 20m 59s", "remaining_time": "1d 6h 25m 27s"}
+{"loss": 0.05734869, "token_acc": 0.97444175, "grad_norm": 0.79857123, "learning_rate": 3.323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234278, "epoch": 3.04443936, "global_step/max_steps": "39940/65595", "percentage": "60.89%", "elapsed_time": "1d 23h 21m 19s", "remaining_time": "1d 6h 25m 5s"}
+{"loss": 0.05019629, "token_acc": 0.98076923, "grad_norm": 1.11729622, "learning_rate": 3.322e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234279, "epoch": 3.04482049, "global_step/max_steps": "39945/65595", "percentage": "60.90%", "elapsed_time": "1d 23h 21m 39s", "remaining_time": "1d 6h 24m 43s"}
+{"loss": 0.07328346, "token_acc": 0.96816168, "grad_norm": 1.2852577, "learning_rate": 3.321e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234287, "epoch": 3.04520162, "global_step/max_steps": "39950/65595", "percentage": "60.90%", "elapsed_time": "1d 23h 21m 55s", "remaining_time": "1d 6h 24m 18s"}
+{"loss": 0.06209992, "token_acc": 0.97382199, "grad_norm": 0.70594621, "learning_rate": 3.319e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234294, "epoch": 3.04558274, "global_step/max_steps": "39955/65595", "percentage": "60.91%", "elapsed_time": "1d 23h 22m 11s", "remaining_time": "1d 6h 23m 53s"}
+{"loss": 0.06008191, "token_acc": 0.97648316, "grad_norm": 1.03933167, "learning_rate": 3.318e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234299, "epoch": 3.04596387, "global_step/max_steps": "39960/65595", "percentage": "60.92%", "elapsed_time": "1d 23h 22m 29s", "remaining_time": "1d 6h 23m 30s"}
+{"loss": 0.06531715, "token_acc": 0.97289973, "grad_norm": 1.75705588, "learning_rate": 3.317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23431, "epoch": 3.046345, "global_step/max_steps": "39965/65595", "percentage": "60.93%", "elapsed_time": "1d 23h 22m 42s", "remaining_time": "1d 6h 23m 3s"}
+{"loss": 0.06962726, "token_acc": 0.96256684, "grad_norm": 0.29155061, "learning_rate": 3.316e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234319, "epoch": 3.04672612, "global_step/max_steps": "39970/65595", "percentage": "60.93%", "elapsed_time": "1d 23h 22m 57s", "remaining_time": "1d 6h 22m 37s"}
+{"loss": 0.06097676, "token_acc": 0.97900404, "grad_norm": 1.11754799, "learning_rate": 3.315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234328, "epoch": 3.04710725, "global_step/max_steps": "39975/65595", "percentage": "60.94%", "elapsed_time": "1d 23h 23m 11s", "remaining_time": "1d 6h 22m 12s"}
+{"loss": 0.05729676, "token_acc": 0.97619851, "grad_norm": 1.12730467, "learning_rate": 3.314e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234333, "epoch": 3.04748838, "global_step/max_steps": "39980/65595", "percentage": "60.95%", "elapsed_time": "1d 23h 23m 29s", "remaining_time": "1d 6h 21m 48s"}
+{"loss": 0.09189997, "token_acc": 0.96801476, "grad_norm": 0.59205347, "learning_rate": 3.313e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234336, "epoch": 3.0478695, "global_step/max_steps": "39985/65595", "percentage": "60.96%", "elapsed_time": "1d 23h 23m 49s", "remaining_time": "1d 6h 21m 26s"}
+{"loss": 0.05302718, "token_acc": 0.98311273, "grad_norm": 0.62319958, "learning_rate": 3.311e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234341, "epoch": 3.04825063, "global_step/max_steps": "39990/65595", "percentage": "60.97%", "elapsed_time": "1d 23h 24m 6s", "remaining_time": "1d 6h 21m 2s"}
+{"loss": 0.07021919, "token_acc": 0.97137044, "grad_norm": 1.36458778, "learning_rate": 3.31e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234343, "epoch": 3.04863176, "global_step/max_steps": "39995/65595", "percentage": "60.97%", "elapsed_time": "1d 23h 24m 26s", "remaining_time": "1d 6h 20m 40s"}
+{"loss": 0.05050834, "token_acc": 0.98149149, "grad_norm": 0.93735504, "learning_rate": 3.309e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234345, "epoch": 3.04901288, "global_step/max_steps": "40000/65595", "percentage": "60.98%", "elapsed_time": "1d 23h 24m 46s", "remaining_time": "1d 6h 20m 17s"}
+{"eval_loss": 0.07042609, "eval_token_acc": 0.97053641, "eval_runtime": 221.5179, "eval_samples_per_second": 2.393, "eval_steps_per_second": 2.393, "epoch": 3.04901288, "global_step/max_steps": "40000/65595", "percentage": "60.98%", "elapsed_time": "1d 23h 28m 27s", "remaining_time": "1d 6h 22m 39s"}
+{"loss": 0.04246957, "token_acc": 0.97102892, "grad_norm": 0.50628889, "learning_rate": 3.308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234046, "epoch": 3.04939401, "global_step/max_steps": "40005/65595", "percentage": "60.99%", "elapsed_time": "1d 23h 28m 45s", "remaining_time": "1d 6h 22m 16s"}
+{"loss": 0.0543653, "token_acc": 0.97782003, "grad_norm": 1.21625543, "learning_rate": 3.307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234049, "epoch": 3.04977514, "global_step/max_steps": "40010/65595", "percentage": "61.00%", "elapsed_time": "1d 23h 29m 5s", "remaining_time": "1d 6h 21m 53s"}
+{"loss": 0.09657677, "token_acc": 0.96700508, "grad_norm": 0.95945936, "learning_rate": 3.306e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234056, "epoch": 3.05015626, "global_step/max_steps": "40015/65595", "percentage": "61.00%", "elapsed_time": "1d 23h 29m 20s", "remaining_time": "1d 6h 21m 28s"}
+{"loss": 0.05550401, "token_acc": 0.98028364, "grad_norm": 0.73526281, "learning_rate": 3.305e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234061, "epoch": 3.05053739, "global_step/max_steps": "40020/65595", "percentage": "61.01%", "elapsed_time": "1d 23h 29m 39s", "remaining_time": "1d 6h 21m 5s"}
+{"loss": 0.03913738, "token_acc": 0.97564504, "grad_norm": 0.55699229, "learning_rate": 3.304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234066, "epoch": 3.05091852, "global_step/max_steps": "40025/65595", "percentage": "61.02%", "elapsed_time": "1d 23h 29m 56s", "remaining_time": "1d 6h 20m 41s"}
+{"loss": 0.05039856, "token_acc": 0.97855422, "grad_norm": 1.09573734, "learning_rate": 3.302e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234075, "epoch": 3.05129964, "global_step/max_steps": "40030/65595", "percentage": "61.03%", "elapsed_time": "1d 23h 30m 11s", "remaining_time": "1d 6h 20m 15s"}
+{"loss": 0.04310442, "token_acc": 0.97675763, "grad_norm": 0.53881925, "learning_rate": 3.301e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234077, "epoch": 3.05168077, "global_step/max_steps": "40035/65595", "percentage": "61.03%", "elapsed_time": "1d 23h 30m 31s", "remaining_time": "1d 6h 19m 53s"}
+{"loss": 0.05553782, "token_acc": 0.97348221, "grad_norm": 0.72553843, "learning_rate": 3.3e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234082, "epoch": 3.05206189, "global_step/max_steps": "40040/65595", "percentage": "61.04%", "elapsed_time": "1d 23h 30m 49s", "remaining_time": "1d 6h 19m 29s"}
+{"loss": 0.06187506, "token_acc": 0.98086802, "grad_norm": 1.34838092, "learning_rate": 3.299e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234087, "epoch": 3.05244302, "global_step/max_steps": "40045/65595", "percentage": "61.05%", "elapsed_time": "1d 23h 31m 6s", "remaining_time": "1d 6h 19m 5s"}
+{"loss": 0.04636028, "token_acc": 0.97124157, "grad_norm": 0.2374333, "learning_rate": 3.298e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234094, "epoch": 3.05282415, "global_step/max_steps": "40050/65595", "percentage": "61.06%", "elapsed_time": "1d 23h 31m 22s", "remaining_time": "1d 6h 18m 41s"}
+{"loss": 0.06030193, "token_acc": 0.97852583, "grad_norm": 1.6220355, "learning_rate": 3.297e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234103, "epoch": 3.05320527, "global_step/max_steps": "40055/65595", "percentage": "61.06%", "elapsed_time": "1d 23h 31m 37s", "remaining_time": "1d 6h 18m 15s"}
+{"loss": 0.05875038, "token_acc": 0.97767411, "grad_norm": 1.08412826, "learning_rate": 3.296e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23411, "epoch": 3.0535864, "global_step/max_steps": "40060/65595", "percentage": "61.07%", "elapsed_time": "1d 23h 31m 54s", "remaining_time": "1d 6h 17m 51s"}
+{"loss": 0.044831, "token_acc": 0.97561516, "grad_norm": 0.61315268, "learning_rate": 3.295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234118, "epoch": 3.05396753, "global_step/max_steps": "40065/65595", "percentage": "61.08%", "elapsed_time": "1d 23h 32m 9s", "remaining_time": "1d 6h 17m 26s"}
+{"loss": 0.06236227, "token_acc": 0.9750223, "grad_norm": 0.16994025, "learning_rate": 3.293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234123, "epoch": 3.05434865, "global_step/max_steps": "40070/65595", "percentage": "61.09%", "elapsed_time": "1d 23h 32m 26s", "remaining_time": "1d 6h 17m 2s"}
+{"loss": 0.07814798, "token_acc": 0.96593503, "grad_norm": 1.10658824, "learning_rate": 3.292e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234128, "epoch": 3.05472978, "global_step/max_steps": "40075/65595", "percentage": "61.09%", "elapsed_time": "1d 23h 32m 44s", "remaining_time": "1d 6h 16m 38s"}
+{"loss": 0.04784272, "token_acc": 0.97883183, "grad_norm": 1.3531698, "learning_rate": 3.291e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234137, "epoch": 3.05511091, "global_step/max_steps": "40080/65595", "percentage": "61.10%", "elapsed_time": "1d 23h 32m 59s", "remaining_time": "1d 6h 16m 13s"}
+{"loss": 0.08367095, "token_acc": 0.95337159, "grad_norm": 2.43633318, "learning_rate": 3.29e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234145, "epoch": 3.05549203, "global_step/max_steps": "40085/65595", "percentage": "61.11%", "elapsed_time": "1d 23h 33m 14s", "remaining_time": "1d 6h 15m 47s"}
+{"loss": 0.06922163, "token_acc": 0.97441567, "grad_norm": 1.68333554, "learning_rate": 3.289e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23415, "epoch": 3.05587316, "global_step/max_steps": "40090/65595", "percentage": "61.12%", "elapsed_time": "1d 23h 33m 32s", "remaining_time": "1d 6h 15m 24s"}
+{"loss": 0.06491246, "token_acc": 0.97614907, "grad_norm": 0.99910241, "learning_rate": 3.288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234152, "epoch": 3.05625429, "global_step/max_steps": "40095/65595", "percentage": "61.13%", "elapsed_time": "1d 23h 33m 52s", "remaining_time": "1d 6h 15m 2s"}
+{"loss": 0.06463883, "token_acc": 0.97539468, "grad_norm": 0.99381316, "learning_rate": 3.287e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234156, "epoch": 3.05663541, "global_step/max_steps": "40100/65595", "percentage": "61.13%", "elapsed_time": "1d 23h 34m 11s", "remaining_time": "1d 6h 14m 38s"}
+{"loss": 0.06782611, "token_acc": 0.97502498, "grad_norm": 1.27267087, "learning_rate": 3.286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234165, "epoch": 3.05701654, "global_step/max_steps": "40105/65595", "percentage": "61.14%", "elapsed_time": "1d 23h 34m 26s", "remaining_time": "1d 6h 14m 13s"}
+{"loss": 0.07725061, "token_acc": 0.97093229, "grad_norm": 0.9784106, "learning_rate": 3.284e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234169, "epoch": 3.05739767, "global_step/max_steps": "40110/65595", "percentage": "61.15%", "elapsed_time": "1d 23h 34m 44s", "remaining_time": "1d 6h 13m 50s"}
+{"loss": 0.07126542, "token_acc": 0.96058315, "grad_norm": 1.22725916, "learning_rate": 3.283e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234179, "epoch": 3.05777879, "global_step/max_steps": "40115/65595", "percentage": "61.16%", "elapsed_time": "1d 23h 34m 58s", "remaining_time": "1d 6h 13m 24s"}
+{"loss": 0.06153575, "token_acc": 0.97738966, "grad_norm": 0.58368492, "learning_rate": 3.282e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234182, "epoch": 3.05815992, "global_step/max_steps": "40120/65595", "percentage": "61.16%", "elapsed_time": "1d 23h 35m 17s", "remaining_time": "1d 6h 13m 1s"}
+{"loss": 0.07264307, "token_acc": 0.97111742, "grad_norm": 1.00872612, "learning_rate": 3.281e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23419, "epoch": 3.05854105, "global_step/max_steps": "40125/65595", "percentage": "61.17%", "elapsed_time": "1d 23h 35m 33s", "remaining_time": "1d 6h 12m 36s"}
+{"loss": 0.07261946, "token_acc": 0.97167225, "grad_norm": 0.64760166, "learning_rate": 3.28e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234198, "epoch": 3.05892217, "global_step/max_steps": "40130/65595", "percentage": "61.18%", "elapsed_time": "1d 23h 35m 48s", "remaining_time": "1d 6h 12m 11s"}
+{"loss": 0.05332715, "token_acc": 0.98358821, "grad_norm": 1.21443784, "learning_rate": 3.279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234201, "epoch": 3.0593033, "global_step/max_steps": "40135/65595", "percentage": "61.19%", "elapsed_time": "1d 23h 36m 7s", "remaining_time": "1d 6h 11m 48s"}
+{"loss": 0.07927499, "token_acc": 0.97114958, "grad_norm": 0.89271671, "learning_rate": 3.278e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234211, "epoch": 3.05968443, "global_step/max_steps": "40140/65595", "percentage": "61.19%", "elapsed_time": "1d 23h 36m 21s", "remaining_time": "1d 6h 11m 22s"}
+{"loss": 0.04439227, "token_acc": 0.98187415, "grad_norm": 0.59237522, "learning_rate": 3.277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234215, "epoch": 3.06006555, "global_step/max_steps": "40145/65595", "percentage": "61.20%", "elapsed_time": "1d 23h 36m 39s", "remaining_time": "1d 6h 10m 59s"}
+{"loss": 0.04353593, "token_acc": 0.977364, "grad_norm": 0.97383511, "learning_rate": 3.275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234224, "epoch": 3.06044668, "global_step/max_steps": "40150/65595", "percentage": "61.21%", "elapsed_time": "1d 23h 36m 54s", "remaining_time": "1d 6h 10m 33s"}
+{"loss": 0.05864319, "token_acc": 0.97761911, "grad_norm": 1.04243362, "learning_rate": 3.274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234226, "epoch": 3.06082781, "global_step/max_steps": "40155/65595", "percentage": "61.22%", "elapsed_time": "1d 23h 37m 14s", "remaining_time": "1d 6h 10m 11s"}
+{"loss": 0.06144073, "token_acc": 0.97626067, "grad_norm": 0.7142992, "learning_rate": 3.273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234229, "epoch": 3.06120893, "global_step/max_steps": "40160/65595", "percentage": "61.22%", "elapsed_time": "1d 23h 37m 33s", "remaining_time": "1d 6h 9m 48s"}
+{"loss": 0.06509497, "token_acc": 0.96564531, "grad_norm": 1.36693025, "learning_rate": 3.272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234237, "epoch": 3.06159006, "global_step/max_steps": "40165/65595", "percentage": "61.23%", "elapsed_time": "1d 23h 37m 49s", "remaining_time": "1d 6h 9m 23s"}
+{"loss": 0.06185005, "token_acc": 0.97697757, "grad_norm": 3.16952801, "learning_rate": 3.271e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234246, "epoch": 3.06197119, "global_step/max_steps": "40170/65595", "percentage": "61.24%", "elapsed_time": "1d 23h 38m 4s", "remaining_time": "1d 6h 8m 58s"}
+{"loss": 0.07717486, "token_acc": 0.97129187, "grad_norm": 1.00401831, "learning_rate": 3.27e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234253, "epoch": 3.06235231, "global_step/max_steps": "40175/65595", "percentage": "61.25%", "elapsed_time": "1d 23h 38m 20s", "remaining_time": "1d 6h 8m 33s"}
+{"loss": 0.07158399, "token_acc": 0.97451167, "grad_norm": 1.43444812, "learning_rate": 3.269e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23426, "epoch": 3.06273344, "global_step/max_steps": "40180/65595", "percentage": "61.25%", "elapsed_time": "1d 23h 38m 36s", "remaining_time": "1d 6h 8m 9s"}
+{"loss": 0.04182473, "token_acc": 0.98112204, "grad_norm": 0.79079479, "learning_rate": 3.268e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234265, "epoch": 3.06311457, "global_step/max_steps": "40185/65595", "percentage": "61.26%", "elapsed_time": "1d 23h 38m 54s", "remaining_time": "1d 6h 7m 45s"}
+{"loss": 0.08315824, "token_acc": 0.96675451, "grad_norm": 1.15649092, "learning_rate": 3.266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234272, "epoch": 3.06349569, "global_step/max_steps": "40190/65595", "percentage": "61.27%", "elapsed_time": "1d 23h 39m 10s", "remaining_time": "1d 6h 7m 20s"}
+{"loss": 0.06905867, "token_acc": 0.97262126, "grad_norm": 0.74445003, "learning_rate": 3.265e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234277, "epoch": 3.06387682, "global_step/max_steps": "40195/65595", "percentage": "61.28%", "elapsed_time": "1d 23h 39m 28s", "remaining_time": "1d 6h 6m 57s"}
+{"loss": 0.03727503, "token_acc": 0.98630589, "grad_norm": 0.63998383, "learning_rate": 3.264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23428, "epoch": 3.06425795, "global_step/max_steps": "40200/65595", "percentage": "61.29%", "elapsed_time": "1d 23h 39m 47s", "remaining_time": "1d 6h 6m 34s"}
+{"eval_loss": 0.07084307, "eval_token_acc": 0.97025782, "eval_runtime": 220.8269, "eval_samples_per_second": 2.4, "eval_steps_per_second": 2.4, "epoch": 3.06425795, "global_step/max_steps": "40200/65595", "percentage": "61.29%", "elapsed_time": "1d 23h 43m 27s", "remaining_time": "1d 6h 8m 53s"}
+{"loss": 0.07506142, "token_acc": 0.97025627, "grad_norm": 1.57821953, "learning_rate": 3.263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233987, "epoch": 3.06463907, "global_step/max_steps": "40205/65595", "percentage": "61.29%", "elapsed_time": "1d 23h 43m 43s", "remaining_time": "1d 6h 8m 28s"}
+{"loss": 0.04253175, "token_acc": 0.98041513, "grad_norm": 0.66438925, "learning_rate": 3.262e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23399, "epoch": 3.0650202, "global_step/max_steps": "40210/65595", "percentage": "61.30%", "elapsed_time": "1d 23h 44m 2s", "remaining_time": "1d 6h 8m 5s"}
+{"loss": 0.08559785, "token_acc": 0.96177285, "grad_norm": 1.33515, "learning_rate": 3.261e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234, "epoch": 3.06540133, "global_step/max_steps": "40215/65595", "percentage": "61.31%", "elapsed_time": "1d 23h 44m 16s", "remaining_time": "1d 6h 7m 39s"}
+{"loss": 0.09768768, "token_acc": 0.961509, "grad_norm": 0.99739188, "learning_rate": 3.26e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234006, "epoch": 3.06578245, "global_step/max_steps": "40220/65595", "percentage": "61.32%", "elapsed_time": "1d 23h 44m 33s", "remaining_time": "1d 6h 7m 16s"}
+{"loss": 0.06199509, "token_acc": 0.98016878, "grad_norm": 2.34578228, "learning_rate": 3.259e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234015, "epoch": 3.06616358, "global_step/max_steps": "40225/65595", "percentage": "61.32%", "elapsed_time": "1d 23h 44m 48s", "remaining_time": "1d 6h 6m 50s"}
+{"loss": 0.06035818, "token_acc": 0.97974611, "grad_norm": 1.00931811, "learning_rate": 3.257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23402, "epoch": 3.06654471, "global_step/max_steps": "40230/65595", "percentage": "61.33%", "elapsed_time": "1d 23h 45m 6s", "remaining_time": "1d 6h 6m 26s"}
+{"loss": 0.04835549, "token_acc": 0.98491199, "grad_norm": 0.58869791, "learning_rate": 3.256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234026, "epoch": 3.06692583, "global_step/max_steps": "40235/65595", "percentage": "61.34%", "elapsed_time": "1d 23h 45m 23s", "remaining_time": "1d 6h 6m 2s"}
+{"loss": 0.08188051, "token_acc": 0.96923077, "grad_norm": 0.00036715, "learning_rate": 3.255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234035, "epoch": 3.06730696, "global_step/max_steps": "40240/65595", "percentage": "61.35%", "elapsed_time": "1d 23h 45m 37s", "remaining_time": "1d 6h 5m 36s"}
+{"loss": 0.05557176, "token_acc": 0.97629854, "grad_norm": 0.66235965, "learning_rate": 3.254e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234041, "epoch": 3.06768809, "global_step/max_steps": "40245/65595", "percentage": "61.35%", "elapsed_time": "1d 23h 45m 55s", "remaining_time": "1d 6h 5m 13s"}
+{"loss": 0.06265113, "token_acc": 0.97190166, "grad_norm": 0.93401694, "learning_rate": 3.253e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234048, "epoch": 3.06806921, "global_step/max_steps": "40250/65595", "percentage": "61.36%", "elapsed_time": "1d 23h 46m 11s", "remaining_time": "1d 6h 4m 48s"}
+{"loss": 0.05410281, "token_acc": 0.98052873, "grad_norm": 0.62453264, "learning_rate": 3.252e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234052, "epoch": 3.06845034, "global_step/max_steps": "40255/65595", "percentage": "61.37%", "elapsed_time": "1d 23h 46m 29s", "remaining_time": "1d 6h 4m 25s"}
+{"loss": 0.05541174, "token_acc": 0.9811216, "grad_norm": 3.94295287, "learning_rate": 3.251e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234062, "epoch": 3.06883147, "global_step/max_steps": "40260/65595", "percentage": "61.38%", "elapsed_time": "1d 23h 46m 43s", "remaining_time": "1d 6h 3m 59s"}
+{"loss": 0.04952536, "token_acc": 0.9845482, "grad_norm": 1.45706367, "learning_rate": 3.25e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234067, "epoch": 3.06921259, "global_step/max_steps": "40265/65595", "percentage": "61.38%", "elapsed_time": "1d 23h 47m 0s", "remaining_time": "1d 6h 3m 35s"}
+{"loss": 0.05081298, "token_acc": 0.97976969, "grad_norm": 1.3044591, "learning_rate": 3.249e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234072, "epoch": 3.06959372, "global_step/max_steps": "40270/65595", "percentage": "61.39%", "elapsed_time": "1d 23h 47m 18s", "remaining_time": "1d 6h 3m 11s"}
+{"loss": 0.06445258, "token_acc": 0.9750085, "grad_norm": 0.52104932, "learning_rate": 3.247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234079, "epoch": 3.06997485, "global_step/max_steps": "40275/65595", "percentage": "61.40%", "elapsed_time": "1d 23h 47m 35s", "remaining_time": "1d 6h 2m 47s"}
+{"loss": 0.09065453, "token_acc": 0.96854305, "grad_norm": 1.59209669, "learning_rate": 3.246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234087, "epoch": 3.07035597, "global_step/max_steps": "40280/65595", "percentage": "61.41%", "elapsed_time": "1d 23h 47m 50s", "remaining_time": "1d 6h 2m 22s"}
+{"loss": 0.07094126, "token_acc": 0.97548852, "grad_norm": 1.48250246, "learning_rate": 3.245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234092, "epoch": 3.0707371, "global_step/max_steps": "40285/65595", "percentage": "61.41%", "elapsed_time": "1d 23h 48m 8s", "remaining_time": "1d 6h 1m 58s"}
+{"loss": 0.06890535, "token_acc": 0.97464153, "grad_norm": 1.02720261, "learning_rate": 3.244e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234093, "epoch": 3.07111823, "global_step/max_steps": "40290/65595", "percentage": "61.42%", "elapsed_time": "1d 23h 48m 28s", "remaining_time": "1d 6h 1m 36s"}
+{"loss": 0.07823985, "token_acc": 0.97192319, "grad_norm": 1.15269709, "learning_rate": 3.243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234097, "epoch": 3.07149935, "global_step/max_steps": "40295/65595", "percentage": "61.43%", "elapsed_time": "1d 23h 48m 47s", "remaining_time": "1d 6h 1m 13s"}
+{"loss": 0.05898801, "token_acc": 0.97784416, "grad_norm": 1.03539634, "learning_rate": 3.242e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234104, "epoch": 3.07188048, "global_step/max_steps": "40300/65595", "percentage": "61.44%", "elapsed_time": "1d 23h 49m 3s", "remaining_time": "1d 6h 0m 48s"}
+{"loss": 0.07748908, "token_acc": 0.96810599, "grad_norm": 0.13280115, "learning_rate": 3.241e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234113, "epoch": 3.07226161, "global_step/max_steps": "40305/65595", "percentage": "61.45%", "elapsed_time": "1d 23h 49m 18s", "remaining_time": "1d 6h 0m 23s"}
+{"loss": 0.07444315, "token_acc": 0.96938032, "grad_norm": 1.04741931, "learning_rate": 3.24e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234121, "epoch": 3.07264273, "global_step/max_steps": "40310/65595", "percentage": "61.45%", "elapsed_time": "1d 23h 49m 34s", "remaining_time": "1d 5h 59m 58s"}
+{"loss": 0.09595106, "token_acc": 0.97698356, "grad_norm": 2.98307228, "learning_rate": 3.238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234124, "epoch": 3.07302386, "global_step/max_steps": "40315/65595", "percentage": "61.46%", "elapsed_time": "1d 23h 49m 53s", "remaining_time": "1d 5h 59m 35s"}
+{"loss": 0.05965987, "token_acc": 0.9770526, "grad_norm": 0.68391657, "learning_rate": 3.237e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234128, "epoch": 3.07340499, "global_step/max_steps": "40320/65595", "percentage": "61.47%", "elapsed_time": "1d 23h 50m 11s", "remaining_time": "1d 5h 59m 12s"}
+{"loss": 0.05979993, "token_acc": 0.97649326, "grad_norm": 1.813169, "learning_rate": 3.236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234137, "epoch": 3.07378611, "global_step/max_steps": "40325/65595", "percentage": "61.48%", "elapsed_time": "1d 23h 50m 26s", "remaining_time": "1d 5h 58m 47s"}
+{"loss": 0.04233308, "token_acc": 0.9818553, "grad_norm": 0.90687358, "learning_rate": 3.235e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234138, "epoch": 3.07416724, "global_step/max_steps": "40330/65595", "percentage": "61.48%", "elapsed_time": "1d 23h 50m 46s", "remaining_time": "1d 5h 58m 25s"}
+{"loss": 0.05729679, "token_acc": 0.97502548, "grad_norm": 0.80889475, "learning_rate": 3.234e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234144, "epoch": 3.07454836, "global_step/max_steps": "40335/65595", "percentage": "61.49%", "elapsed_time": "1d 23h 51m 3s", "remaining_time": "1d 5h 58m 1s"}
+{"loss": 0.03824906, "token_acc": 0.98058467, "grad_norm": 0.98446614, "learning_rate": 3.233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234147, "epoch": 3.07492949, "global_step/max_steps": "40340/65595", "percentage": "61.50%", "elapsed_time": "1d 23h 51m 22s", "remaining_time": "1d 5h 57m 38s"}
+{"loss": 0.06647344, "token_acc": 0.97395609, "grad_norm": 0.97179592, "learning_rate": 3.232e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234154, "epoch": 3.07531062, "global_step/max_steps": "40345/65595", "percentage": "61.51%", "elapsed_time": "1d 23h 51m 39s", "remaining_time": "1d 5h 57m 13s"}
+{"loss": 0.04170198, "token_acc": 0.97862892, "grad_norm": 0.86212653, "learning_rate": 3.231e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234162, "epoch": 3.07569174, "global_step/max_steps": "40350/65595", "percentage": "61.51%", "elapsed_time": "1d 23h 51m 54s", "remaining_time": "1d 5h 56m 48s"}
+{"loss": 0.05285308, "token_acc": 0.97819063, "grad_norm": 1.2580446, "learning_rate": 3.229e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234169, "epoch": 3.07607287, "global_step/max_steps": "40355/65595", "percentage": "61.52%", "elapsed_time": "1d 23h 52m 10s", "remaining_time": "1d 5h 56m 24s"}
+{"loss": 0.03480274, "token_acc": 0.98948254, "grad_norm": 1.16583085, "learning_rate": 3.228e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234171, "epoch": 3.076454, "global_step/max_steps": "40360/65595", "percentage": "61.53%", "elapsed_time": "1d 23h 52m 30s", "remaining_time": "1d 5h 56m 1s"}
+{"loss": 0.04455807, "token_acc": 0.97914838, "grad_norm": 0.86182278, "learning_rate": 3.227e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234178, "epoch": 3.07683512, "global_step/max_steps": "40365/65595", "percentage": "61.54%", "elapsed_time": "1d 23h 52m 46s", "remaining_time": "1d 5h 55m 37s"}
+{"loss": 0.04117244, "token_acc": 0.97377472, "grad_norm": 1.17599225, "learning_rate": 3.226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234188, "epoch": 3.07721625, "global_step/max_steps": "40370/65595", "percentage": "61.54%", "elapsed_time": "1d 23h 53m 0s", "remaining_time": "1d 5h 55m 11s"}
+{"loss": 0.05116206, "token_acc": 0.98143813, "grad_norm": 0.71002775, "learning_rate": 3.225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234193, "epoch": 3.07759738, "global_step/max_steps": "40375/65595", "percentage": "61.55%", "elapsed_time": "1d 23h 53m 18s", "remaining_time": "1d 5h 54m 47s"}
+{"loss": 0.0680838, "token_acc": 0.96477692, "grad_norm": 1.4321022, "learning_rate": 3.224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234201, "epoch": 3.0779785, "global_step/max_steps": "40380/65595", "percentage": "61.56%", "elapsed_time": "1d 23h 53m 33s", "remaining_time": "1d 5h 54m 22s"}
+{"loss": 0.08876791, "token_acc": 0.97187866, "grad_norm": 0.86414033, "learning_rate": 3.223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234204, "epoch": 3.07835963, "global_step/max_steps": "40385/65595", "percentage": "61.57%", "elapsed_time": "1d 23h 53m 53s", "remaining_time": "1d 5h 53m 59s"}
+{"loss": 0.0491451, "token_acc": 0.97894737, "grad_norm": 1.90839863, "learning_rate": 3.222e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234208, "epoch": 3.07874076, "global_step/max_steps": "40390/65595", "percentage": "61.57%", "elapsed_time": "1d 23h 54m 11s", "remaining_time": "1d 5h 53m 36s"}
+{"loss": 0.07798879, "token_acc": 0.97151899, "grad_norm": 1.0334971, "learning_rate": 3.221e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234216, "epoch": 3.07912188, "global_step/max_steps": "40395/65595", "percentage": "61.58%", "elapsed_time": "1d 23h 54m 26s", "remaining_time": "1d 5h 53m 11s"}
+{"loss": 0.06794584, "token_acc": 0.96754564, "grad_norm": 0.48327476, "learning_rate": 3.219e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234223, "epoch": 3.07950301, "global_step/max_steps": "40400/65595", "percentage": "61.59%", "elapsed_time": "1d 23h 54m 42s", "remaining_time": "1d 5h 52m 46s"}
+{"eval_loss": 0.06965148, "eval_token_acc": 0.97024276, "eval_runtime": 220.8708, "eval_samples_per_second": 2.4, "eval_steps_per_second": 2.4, "epoch": 3.07950301, "global_step/max_steps": "40400/65595", "percentage": "61.59%", "elapsed_time": "1d 23h 58m 23s", "remaining_time": "1d 5h 55m 4s"}
+{"loss": 0.04645905, "token_acc": 0.97078115, "grad_norm": 0.63588876, "learning_rate": 3.218e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233929, "epoch": 3.07988414, "global_step/max_steps": "40405/65595", "percentage": "61.60%", "elapsed_time": "1d 23h 58m 41s", "remaining_time": "1d 5h 54m 41s"}
+{"loss": 0.07580754, "token_acc": 0.98471761, "grad_norm": 2.55283523, "learning_rate": 3.217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233936, "epoch": 3.08026526, "global_step/max_steps": "40410/65595", "percentage": "61.61%", "elapsed_time": "1d 23h 58m 56s", "remaining_time": "1d 5h 54m 16s"}
+{"loss": 0.07883179, "token_acc": 0.97164537, "grad_norm": 0.79296929, "learning_rate": 3.216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233946, "epoch": 3.08064639, "global_step/max_steps": "40415/65595", "percentage": "61.61%", "elapsed_time": "1d 23h 59m 11s", "remaining_time": "1d 5h 53m 50s"}
+{"loss": 0.07411405, "token_acc": 0.97247271, "grad_norm": 1.3298558, "learning_rate": 3.215e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233949, "epoch": 3.08102752, "global_step/max_steps": "40420/65595", "percentage": "61.62%", "elapsed_time": "1d 23h 59m 30s", "remaining_time": "1d 5h 53m 27s"}
+{"loss": 0.05589293, "token_acc": 0.97863861, "grad_norm": 0.89655602, "learning_rate": 3.214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233952, "epoch": 3.08140864, "global_step/max_steps": "40425/65595", "percentage": "61.63%", "elapsed_time": "1d 23h 59m 49s", "remaining_time": "1d 5h 53m 4s"}
+{"loss": 0.10183897, "token_acc": 0.96709772, "grad_norm": 0.97052747, "learning_rate": 3.213e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233956, "epoch": 3.08178977, "global_step/max_steps": "40430/65595", "percentage": "61.64%", "elapsed_time": "2d 0h 0m 8s", "remaining_time": "1d 5h 52m 41s"}
+{"loss": 0.05804526, "token_acc": 0.97667265, "grad_norm": 1.32179892, "learning_rate": 3.212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233957, "epoch": 3.0821709, "global_step/max_steps": "40435/65595", "percentage": "61.64%", "elapsed_time": "2d 0h 0m 29s", "remaining_time": "1d 5h 52m 19s"}
+{"loss": 0.11575267, "token_acc": 0.96422956, "grad_norm": 0.83201593, "learning_rate": 3.21e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233962, "epoch": 3.08255202, "global_step/max_steps": "40440/65595", "percentage": "61.65%", "elapsed_time": "2d 0h 0m 46s", "remaining_time": "1d 5h 51m 55s"}
+{"loss": 0.0900473, "token_acc": 0.97261745, "grad_norm": 2.1697104, "learning_rate": 3.209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23397, "epoch": 3.08293315, "global_step/max_steps": "40445/65595", "percentage": "61.66%", "elapsed_time": "2d 0h 1m 1s", "remaining_time": "1d 5h 51m 31s"}
+{"loss": 0.04818302, "token_acc": 0.97751022, "grad_norm": 1.13678229, "learning_rate": 3.208e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233975, "epoch": 3.08331428, "global_step/max_steps": "40450/65595", "percentage": "61.67%", "elapsed_time": "2d 0h 1m 19s", "remaining_time": "1d 5h 51m 7s"}
+{"loss": 0.06039579, "token_acc": 0.97910195, "grad_norm": 0.95156699, "learning_rate": 3.207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233978, "epoch": 3.0836954, "global_step/max_steps": "40455/65595", "percentage": "61.67%", "elapsed_time": "2d 0h 1m 38s", "remaining_time": "1d 5h 50m 44s"}
+{"loss": 0.04501517, "token_acc": 0.97784271, "grad_norm": 0.84315562, "learning_rate": 3.206e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233986, "epoch": 3.08407653, "global_step/max_steps": "40460/65595", "percentage": "61.68%", "elapsed_time": "2d 0h 1m 54s", "remaining_time": "1d 5h 50m 19s"}
+{"loss": 0.05063981, "token_acc": 0.97732817, "grad_norm": 0.62392038, "learning_rate": 3.205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233988, "epoch": 3.08445766, "global_step/max_steps": "40465/65595", "percentage": "61.69%", "elapsed_time": "2d 0h 2m 13s", "remaining_time": "1d 5h 49m 57s"}
+{"loss": 0.03927751, "token_acc": 0.98074018, "grad_norm": 1.6774987, "learning_rate": 3.204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233996, "epoch": 3.08483878, "global_step/max_steps": "40470/65595", "percentage": "61.70%", "elapsed_time": "2d 0h 2m 29s", "remaining_time": "1d 5h 49m 32s"}
+{"loss": 0.07997773, "token_acc": 0.97249304, "grad_norm": 1.4304409, "learning_rate": 3.203e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234004, "epoch": 3.08521991, "global_step/max_steps": "40475/65595", "percentage": "61.70%", "elapsed_time": "2d 0h 2m 44s", "remaining_time": "1d 5h 49m 7s"}
+{"loss": 0.05356724, "token_acc": 0.98000784, "grad_norm": 0.9831953, "learning_rate": 3.202e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234009, "epoch": 3.08560104, "global_step/max_steps": "40480/65595", "percentage": "61.71%", "elapsed_time": "2d 0h 3m 2s", "remaining_time": "1d 5h 48m 43s"}
+{"loss": 0.06834285, "token_acc": 0.97408796, "grad_norm": 1.01314676, "learning_rate": 3.2e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234014, "epoch": 3.08598216, "global_step/max_steps": "40485/65595", "percentage": "61.72%", "elapsed_time": "2d 0h 3m 20s", "remaining_time": "1d 5h 48m 20s"}
+{"loss": 0.10797681, "token_acc": 0.95657866, "grad_norm": 1.28272808, "learning_rate": 3.199e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234021, "epoch": 3.08636329, "global_step/max_steps": "40490/65595", "percentage": "61.73%", "elapsed_time": "2d 0h 3m 36s", "remaining_time": "1d 5h 47m 55s"}
+{"loss": 0.08195744, "token_acc": 0.97873918, "grad_norm": 0.8202343, "learning_rate": 3.198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234028, "epoch": 3.08674442, "global_step/max_steps": "40495/65595", "percentage": "61.73%", "elapsed_time": "2d 0h 3m 52s", "remaining_time": "1d 5h 47m 30s"}
+{"loss": 0.07763302, "token_acc": 0.97193793, "grad_norm": 1.32555139, "learning_rate": 3.197e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234033, "epoch": 3.08712554, "global_step/max_steps": "40500/65595", "percentage": "61.74%", "elapsed_time": "2d 0h 4m 10s", "remaining_time": "1d 5h 47m 7s"}
+{"loss": 0.05142998, "token_acc": 0.97904052, "grad_norm": 0.50395906, "learning_rate": 3.196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234038, "epoch": 3.08750667, "global_step/max_steps": "40505/65595", "percentage": "61.75%", "elapsed_time": "2d 0h 4m 28s", "remaining_time": "1d 5h 46m 43s"}
+{"loss": 0.06830112, "token_acc": 0.97289973, "grad_norm": 0.90618855, "learning_rate": 3.195e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234043, "epoch": 3.0878878, "global_step/max_steps": "40510/65595", "percentage": "61.76%", "elapsed_time": "2d 0h 4m 45s", "remaining_time": "1d 5h 46m 19s"}
+{"loss": 0.04603073, "token_acc": 0.98192771, "grad_norm": 0.71969163, "learning_rate": 3.194e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234048, "epoch": 3.08826892, "global_step/max_steps": "40515/65595", "percentage": "61.77%", "elapsed_time": "2d 0h 5m 3s", "remaining_time": "1d 5h 45m 56s"}
+{"loss": 0.08834623, "token_acc": 0.95824935, "grad_norm": 1.47202861, "learning_rate": 3.193e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234056, "epoch": 3.08865005, "global_step/max_steps": "40520/65595", "percentage": "61.77%", "elapsed_time": "2d 0h 5m 18s", "remaining_time": "1d 5h 45m 30s"}
+{"loss": 0.09731672, "token_acc": 0.96333286, "grad_norm": 1.75392187, "learning_rate": 3.191e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23406, "epoch": 3.08903118, "global_step/max_steps": "40525/65595", "percentage": "61.78%", "elapsed_time": "2d 0h 5m 37s", "remaining_time": "1d 5h 45m 7s"}
+{"loss": 0.11673032, "token_acc": 0.96051188, "grad_norm": 2.04270744, "learning_rate": 3.19e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234069, "epoch": 3.0894123, "global_step/max_steps": "40530/65595", "percentage": "61.79%", "elapsed_time": "2d 0h 5m 52s", "remaining_time": "1d 5h 44m 42s"}
+{"loss": 0.05711507, "token_acc": 0.97947761, "grad_norm": 0.16970775, "learning_rate": 3.189e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234077, "epoch": 3.08979343, "global_step/max_steps": "40535/65595", "percentage": "61.80%", "elapsed_time": "2d 0h 6m 7s", "remaining_time": "1d 5h 44m 17s"}
+{"loss": 0.04919119, "token_acc": 0.97903743, "grad_norm": 0.51235843, "learning_rate": 3.188e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234084, "epoch": 3.09017456, "global_step/max_steps": "40540/65595", "percentage": "61.80%", "elapsed_time": "2d 0h 6m 23s", "remaining_time": "1d 5h 43m 52s"}
+{"loss": 0.05811744, "token_acc": 0.97418412, "grad_norm": 1.76622641, "learning_rate": 3.187e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234093, "epoch": 3.09055568, "global_step/max_steps": "40545/65595", "percentage": "61.81%", "elapsed_time": "2d 0h 6m 37s", "remaining_time": "1d 5h 43m 27s"}
+{"loss": 0.05687412, "token_acc": 0.97451852, "grad_norm": 1.19878638, "learning_rate": 3.186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234101, "epoch": 3.09093681, "global_step/max_steps": "40550/65595", "percentage": "61.82%", "elapsed_time": "2d 0h 6m 53s", "remaining_time": "1d 5h 43m 2s"}
+{"loss": 0.07776988, "token_acc": 0.97313182, "grad_norm": 2.21167994, "learning_rate": 3.185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234109, "epoch": 3.09131794, "global_step/max_steps": "40555/65595", "percentage": "61.83%", "elapsed_time": "2d 0h 7m 8s", "remaining_time": "1d 5h 42m 37s"}
+{"loss": 0.05249854, "token_acc": 0.97289106, "grad_norm": 1.10248303, "learning_rate": 3.184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234114, "epoch": 3.09169906, "global_step/max_steps": "40560/65595", "percentage": "61.83%", "elapsed_time": "2d 0h 7m 26s", "remaining_time": "1d 5h 42m 13s"}
+{"loss": 0.04919757, "token_acc": 0.98238358, "grad_norm": 0.95093399, "learning_rate": 3.183e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234115, "epoch": 3.09208019, "global_step/max_steps": "40565/65595", "percentage": "61.84%", "elapsed_time": "2d 0h 7m 47s", "remaining_time": "1d 5h 41m 51s"}
+{"loss": 0.07038125, "token_acc": 0.97037158, "grad_norm": 0.6877324, "learning_rate": 3.181e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23412, "epoch": 3.09246132, "global_step/max_steps": "40570/65595", "percentage": "61.85%", "elapsed_time": "2d 0h 8m 4s", "remaining_time": "1d 5h 41m 28s"}
+{"loss": 0.08202229, "token_acc": 0.97334845, "grad_norm": 6.65828323, "learning_rate": 3.18e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234127, "epoch": 3.09284244, "global_step/max_steps": "40575/65595", "percentage": "61.86%", "elapsed_time": "2d 0h 8m 21s", "remaining_time": "1d 5h 41m 3s"}
+{"loss": 0.05167947, "token_acc": 0.97883356, "grad_norm": 0.67676121, "learning_rate": 3.179e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234129, "epoch": 3.09322357, "global_step/max_steps": "40580/65595", "percentage": "61.86%", "elapsed_time": "2d 0h 8m 40s", "remaining_time": "1d 5h 40m 41s"}
+{"loss": 0.0714173, "token_acc": 0.97208761, "grad_norm": 1.53478312, "learning_rate": 3.178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234135, "epoch": 3.0936047, "global_step/max_steps": "40585/65595", "percentage": "61.87%", "elapsed_time": "2d 0h 8m 57s", "remaining_time": "1d 5h 40m 17s"}
+{"loss": 0.08700929, "token_acc": 0.97723603, "grad_norm": 0.65009868, "learning_rate": 3.177e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234139, "epoch": 3.09398582, "global_step/max_steps": "40590/65595", "percentage": "61.88%", "elapsed_time": "2d 0h 9m 16s", "remaining_time": "1d 5h 39m 54s"}
+{"loss": 0.06951172, "token_acc": 0.97640182, "grad_norm": 1.16775429, "learning_rate": 3.176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234144, "epoch": 3.09436695, "global_step/max_steps": "40595/65595", "percentage": "61.89%", "elapsed_time": "2d 0h 9m 34s", "remaining_time": "1d 5h 39m 30s"}
+{"loss": 0.06538565, "token_acc": 0.97076681, "grad_norm": 1.21280849, "learning_rate": 3.175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23415, "epoch": 3.09474808, "global_step/max_steps": "40600/65595", "percentage": "61.89%", "elapsed_time": "2d 0h 9m 50s", "remaining_time": "1d 5h 39m 6s"}
+{"eval_loss": 0.07009057, "eval_token_acc": 0.97014487, "eval_runtime": 219.7654, "eval_samples_per_second": 2.412, "eval_steps_per_second": 2.412, "epoch": 3.09474808, "global_step/max_steps": "40600/65595", "percentage": "61.89%", "elapsed_time": "2d 0h 13m 30s", "remaining_time": "1d 5h 41m 21s"}
+{"loss": 0.07111892, "token_acc": 0.97018135, "grad_norm": 1.19371998, "learning_rate": 3.174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233862, "epoch": 3.0951292, "global_step/max_steps": "40605/65595", "percentage": "61.90%", "elapsed_time": "2d 0h 13m 46s", "remaining_time": "1d 5h 40m 56s"}
+{"loss": 0.05958819, "token_acc": 0.97910545, "grad_norm": 1.39452481, "learning_rate": 3.172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233866, "epoch": 3.09551033, "global_step/max_steps": "40610/65595", "percentage": "61.91%", "elapsed_time": "2d 0h 14m 3s", "remaining_time": "1d 5h 40m 33s"}
+{"loss": 0.03982596, "token_acc": 0.97939358, "grad_norm": 0.83732307, "learning_rate": 3.171e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233874, "epoch": 3.09589146, "global_step/max_steps": "40615/65595", "percentage": "61.92%", "elapsed_time": "2d 0h 14m 19s", "remaining_time": "1d 5h 40m 8s"}
+{"loss": 0.07809517, "token_acc": 0.9684265, "grad_norm": 2.24304056, "learning_rate": 3.17e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233883, "epoch": 3.09627258, "global_step/max_steps": "40620/65595", "percentage": "61.93%", "elapsed_time": "2d 0h 14m 34s", "remaining_time": "1d 5h 39m 42s"}
+{"loss": 0.07574229, "token_acc": 0.9685621, "grad_norm": 1.1688149, "learning_rate": 3.169e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233887, "epoch": 3.09665371, "global_step/max_steps": "40625/65595", "percentage": "61.93%", "elapsed_time": "2d 0h 14m 52s", "remaining_time": "1d 5h 39m 19s"}
+{"loss": 0.07978164, "token_acc": 0.96925076, "grad_norm": 1.18694508, "learning_rate": 3.168e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233894, "epoch": 3.09703483, "global_step/max_steps": "40630/65595", "percentage": "61.94%", "elapsed_time": "2d 0h 15m 8s", "remaining_time": "1d 5h 38m 54s"}
+{"loss": 0.04399622, "token_acc": 0.9863542, "grad_norm": 2.04594183, "learning_rate": 3.167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233902, "epoch": 3.09741596, "global_step/max_steps": "40635/65595", "percentage": "61.95%", "elapsed_time": "2d 0h 15m 24s", "remaining_time": "1d 5h 38m 29s"}
+{"loss": 0.08150098, "token_acc": 0.96950219, "grad_norm": 1.89172971, "learning_rate": 3.166e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233906, "epoch": 3.09779709, "global_step/max_steps": "40640/65595", "percentage": "61.96%", "elapsed_time": "2d 0h 15m 42s", "remaining_time": "1d 5h 38m 6s"}
+{"loss": 0.08462851, "token_acc": 0.97327189, "grad_norm": 1.25875986, "learning_rate": 3.165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233914, "epoch": 3.09817821, "global_step/max_steps": "40645/65595", "percentage": "61.96%", "elapsed_time": "2d 0h 15m 58s", "remaining_time": "1d 5h 37m 41s"}
+{"loss": 0.0969257, "token_acc": 0.96611673, "grad_norm": 2.32293916, "learning_rate": 3.164e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23392, "epoch": 3.09855934, "global_step/max_steps": "40650/65595", "percentage": "61.97%", "elapsed_time": "2d 0h 16m 15s", "remaining_time": "1d 5h 37m 17s"}
+{"loss": 0.0515224, "token_acc": 0.98070696, "grad_norm": 0.7375257, "learning_rate": 3.162e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233922, "epoch": 3.09894047, "global_step/max_steps": "40655/65595", "percentage": "61.98%", "elapsed_time": "2d 0h 16m 35s", "remaining_time": "1d 5h 36m 55s"}
+{"loss": 0.04377132, "token_acc": 0.98126098, "grad_norm": 0.90181005, "learning_rate": 3.161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233927, "epoch": 3.09932159, "global_step/max_steps": "40660/65595", "percentage": "61.99%", "elapsed_time": "2d 0h 16m 52s", "remaining_time": "1d 5h 36m 31s"}
+{"loss": 0.08011203, "token_acc": 0.95999227, "grad_norm": 1.01823223, "learning_rate": 3.16e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233934, "epoch": 3.09970272, "global_step/max_steps": "40665/65595", "percentage": "61.99%", "elapsed_time": "2d 0h 17m 9s", "remaining_time": "1d 5h 36m 7s"}
+{"loss": 0.04439844, "token_acc": 0.98036716, "grad_norm": 0.5748077, "learning_rate": 3.159e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233941, "epoch": 3.10008385, "global_step/max_steps": "40670/65595", "percentage": "62.00%", "elapsed_time": "2d 0h 17m 25s", "remaining_time": "1d 5h 35m 42s"}
+{"loss": 0.0726226, "token_acc": 0.96904762, "grad_norm": 1.01454401, "learning_rate": 3.158e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233946, "epoch": 3.10046497, "global_step/max_steps": "40675/65595", "percentage": "62.01%", "elapsed_time": "2d 0h 17m 42s", "remaining_time": "1d 5h 35m 19s"}
+{"loss": 0.05023208, "token_acc": 0.98386708, "grad_norm": 0.6751973, "learning_rate": 3.157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233951, "epoch": 3.1008461, "global_step/max_steps": "40680/65595", "percentage": "62.02%", "elapsed_time": "2d 0h 18m 0s", "remaining_time": "1d 5h 34m 55s"}
+{"loss": 0.07174451, "token_acc": 0.97244094, "grad_norm": 0.94156551, "learning_rate": 3.156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233957, "epoch": 3.10122723, "global_step/max_steps": "40685/65595", "percentage": "62.02%", "elapsed_time": "2d 0h 18m 17s", "remaining_time": "1d 5h 34m 31s"}
+{"loss": 0.06050864, "token_acc": 0.97679285, "grad_norm": 1.25940716, "learning_rate": 3.155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233963, "epoch": 3.10160835, "global_step/max_steps": "40690/65595", "percentage": "62.03%", "elapsed_time": "2d 0h 18m 34s", "remaining_time": "1d 5h 34m 7s"}
+{"loss": 0.04644063, "token_acc": 0.98130312, "grad_norm": 1.56845999, "learning_rate": 3.154e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233969, "epoch": 3.10198948, "global_step/max_steps": "40695/65595", "percentage": "62.04%", "elapsed_time": "2d 0h 18m 51s", "remaining_time": "1d 5h 33m 43s"}
+{"loss": 0.06398333, "token_acc": 0.97203883, "grad_norm": 0.77195543, "learning_rate": 3.152e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233978, "epoch": 3.10237061, "global_step/max_steps": "40700/65595", "percentage": "62.05%", "elapsed_time": "2d 0h 19m 5s", "remaining_time": "1d 5h 33m 17s"}
+{"loss": 0.04918454, "token_acc": 0.97924405, "grad_norm": 0.9517346, "learning_rate": 3.151e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233982, "epoch": 3.10275173, "global_step/max_steps": "40705/65595", "percentage": "62.06%", "elapsed_time": "2d 0h 19m 23s", "remaining_time": "1d 5h 32m 54s"}
+{"loss": 0.06018695, "token_acc": 0.97713527, "grad_norm": 0.8249827, "learning_rate": 3.15e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233986, "epoch": 3.10313286, "global_step/max_steps": "40710/65595", "percentage": "62.06%", "elapsed_time": "2d 0h 19m 42s", "remaining_time": "1d 5h 32m 30s"}
+{"loss": 0.06072782, "token_acc": 0.97524752, "grad_norm": 0.67130435, "learning_rate": 3.149e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233994, "epoch": 3.10351399, "global_step/max_steps": "40715/65595", "percentage": "62.07%", "elapsed_time": "2d 0h 19m 58s", "remaining_time": "1d 5h 32m 6s"}
+{"loss": 0.06459769, "token_acc": 0.96475771, "grad_norm": 1.20949852, "learning_rate": 3.148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234001, "epoch": 3.10389511, "global_step/max_steps": "40720/65595", "percentage": "62.08%", "elapsed_time": "2d 0h 20m 14s", "remaining_time": "1d 5h 31m 41s"}
+{"loss": 0.05072464, "token_acc": 0.98456057, "grad_norm": 0.5747515, "learning_rate": 3.147e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234005, "epoch": 3.10427624, "global_step/max_steps": "40725/65595", "percentage": "62.09%", "elapsed_time": "2d 0h 20m 32s", "remaining_time": "1d 5h 31m 18s"}
+{"loss": 0.05884581, "token_acc": 0.98280494, "grad_norm": 0.88177919, "learning_rate": 3.146e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234011, "epoch": 3.10465737, "global_step/max_steps": "40730/65595", "percentage": "62.09%", "elapsed_time": "2d 0h 20m 49s", "remaining_time": "1d 5h 30m 54s"}
+{"loss": 0.08230016, "token_acc": 0.97347253, "grad_norm": 0.76126003, "learning_rate": 3.145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234016, "epoch": 3.10503849, "global_step/max_steps": "40735/65595", "percentage": "62.10%", "elapsed_time": "2d 0h 21m 6s", "remaining_time": "1d 5h 30m 30s"}
+{"loss": 0.06947978, "token_acc": 0.97183099, "grad_norm": 1.09032476, "learning_rate": 3.144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234024, "epoch": 3.10541962, "global_step/max_steps": "40740/65595", "percentage": "62.11%", "elapsed_time": "2d 0h 21m 22s", "remaining_time": "1d 5h 30m 5s"}
+{"loss": 0.04508733, "token_acc": 0.98134328, "grad_norm": 0.93128574, "learning_rate": 3.142e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234031, "epoch": 3.10580075, "global_step/max_steps": "40745/65595", "percentage": "62.12%", "elapsed_time": "2d 0h 21m 38s", "remaining_time": "1d 5h 29m 40s"}
+{"loss": 0.09056665, "token_acc": 0.96609248, "grad_norm": 0.76101559, "learning_rate": 3.141e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234039, "epoch": 3.10618187, "global_step/max_steps": "40750/65595", "percentage": "62.12%", "elapsed_time": "2d 0h 21m 53s", "remaining_time": "1d 5h 29m 16s"}
+{"loss": 0.09071981, "token_acc": 0.97146064, "grad_norm": 0.64026487, "learning_rate": 3.14e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234043, "epoch": 3.106563, "global_step/max_steps": "40755/65595", "percentage": "62.13%", "elapsed_time": "2d 0h 22m 12s", "remaining_time": "1d 5h 28m 53s"}
+{"loss": 0.03416938, "token_acc": 0.98269079, "grad_norm": 1.20604622, "learning_rate": 3.139e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234052, "epoch": 3.10694413, "global_step/max_steps": "40760/65595", "percentage": "62.14%", "elapsed_time": "2d 0h 22m 27s", "remaining_time": "1d 5h 28m 27s"}
+{"loss": 0.04066527, "token_acc": 0.97756488, "grad_norm": 0.72769791, "learning_rate": 3.138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234054, "epoch": 3.10732525, "global_step/max_steps": "40765/65595", "percentage": "62.15%", "elapsed_time": "2d 0h 22m 47s", "remaining_time": "1d 5h 28m 5s"}
+{"loss": 0.06596564, "token_acc": 0.97114775, "grad_norm": 1.02206361, "learning_rate": 3.137e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234061, "epoch": 3.10770638, "global_step/max_steps": "40770/65595", "percentage": "62.15%", "elapsed_time": "2d 0h 23m 3s", "remaining_time": "1d 5h 27m 40s"}
+{"loss": 0.05785114, "token_acc": 0.9758936, "grad_norm": 1.18488121, "learning_rate": 3.136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234072, "epoch": 3.10808751, "global_step/max_steps": "40775/65595", "percentage": "62.16%", "elapsed_time": "2d 0h 23m 16s", "remaining_time": "1d 5h 27m 14s"}
+{"loss": 0.07946354, "token_acc": 0.97434916, "grad_norm": 1.15630114, "learning_rate": 3.135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234074, "epoch": 3.10846863, "global_step/max_steps": "40780/65595", "percentage": "62.17%", "elapsed_time": "2d 0h 23m 35s", "remaining_time": "1d 5h 26m 51s"}
+{"loss": 0.05938659, "token_acc": 0.97350851, "grad_norm": 0.64807731, "learning_rate": 3.134e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23408, "epoch": 3.10884976, "global_step/max_steps": "40785/65595", "percentage": "62.18%", "elapsed_time": "2d 0h 23m 52s", "remaining_time": "1d 5h 26m 27s"}
+{"loss": 0.03987506, "token_acc": 0.98407046, "grad_norm": 0.62478769, "learning_rate": 3.132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234085, "epoch": 3.10923089, "global_step/max_steps": "40790/65595", "percentage": "62.18%", "elapsed_time": "2d 0h 24m 10s", "remaining_time": "1d 5h 26m 4s"}
+{"loss": 0.05139464, "token_acc": 0.97418244, "grad_norm": 1.18545461, "learning_rate": 3.131e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234095, "epoch": 3.10961201, "global_step/max_steps": "40795/65595", "percentage": "62.19%", "elapsed_time": "2d 0h 24m 24s", "remaining_time": "1d 5h 25m 38s"}
+{"loss": 0.04961843, "token_acc": 0.97657213, "grad_norm": 1.3080126, "learning_rate": 3.13e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234101, "epoch": 3.10999314, "global_step/max_steps": "40800/65595", "percentage": "62.20%", "elapsed_time": "2d 0h 24m 41s", "remaining_time": "1d 5h 25m 14s"}
+{"eval_loss": 0.07041679, "eval_token_acc": 0.97081501, "eval_runtime": 221.6091, "eval_samples_per_second": 2.392, "eval_steps_per_second": 2.392, "epoch": 3.10999314, "global_step/max_steps": "40800/65595", "percentage": "62.20%", "elapsed_time": "2d 0h 28m 22s", "remaining_time": "1d 5h 27m 29s"}
+{"loss": 0.07187274, "token_acc": 0.97093559, "grad_norm": 1.104972, "learning_rate": 3.129e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233809, "epoch": 3.11037427, "global_step/max_steps": "40805/65595", "percentage": "62.21%", "elapsed_time": "2d 0h 28m 40s", "remaining_time": "1d 5h 27m 5s"}
+{"loss": 0.08159439, "token_acc": 0.97171576, "grad_norm": 1.61730063, "learning_rate": 3.128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233815, "epoch": 3.11075539, "global_step/max_steps": "40810/65595", "percentage": "62.22%", "elapsed_time": "2d 0h 28m 57s", "remaining_time": "1d 5h 26m 41s"}
+{"loss": 0.04699928, "token_acc": 0.98127178, "grad_norm": 0.80918902, "learning_rate": 3.127e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233822, "epoch": 3.11113652, "global_step/max_steps": "40815/65595", "percentage": "62.22%", "elapsed_time": "2d 0h 29m 13s", "remaining_time": "1d 5h 26m 16s"}
+{"loss": 0.05123596, "token_acc": 0.97157267, "grad_norm": 0.95776832, "learning_rate": 3.126e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23383, "epoch": 3.11151765, "global_step/max_steps": "40820/65595", "percentage": "62.23%", "elapsed_time": "2d 0h 29m 28s", "remaining_time": "1d 5h 25m 51s"}
+{"loss": 0.09420149, "token_acc": 0.96423816, "grad_norm": 0.95691162, "learning_rate": 3.125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233836, "epoch": 3.11189877, "global_step/max_steps": "40825/65595", "percentage": "62.24%", "elapsed_time": "2d 0h 29m 45s", "remaining_time": "1d 5h 25m 27s"}
+{"loss": 0.06678685, "token_acc": 0.97682472, "grad_norm": 3.640903, "learning_rate": 3.124e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233844, "epoch": 3.1122799, "global_step/max_steps": "40830/65595", "percentage": "62.25%", "elapsed_time": "2d 0h 30m 1s", "remaining_time": "1d 5h 25m 2s"}
+{"loss": 0.04060501, "token_acc": 0.98176774, "grad_norm": 0.66081488, "learning_rate": 3.122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23385, "epoch": 3.11266103, "global_step/max_steps": "40835/65595", "percentage": "62.25%", "elapsed_time": "2d 0h 30m 17s", "remaining_time": "1d 5h 24m 38s"}
+{"loss": 0.07134704, "token_acc": 0.97663642, "grad_norm": 0.84836638, "learning_rate": 3.121e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233856, "epoch": 3.11304215, "global_step/max_steps": "40840/65595", "percentage": "62.26%", "elapsed_time": "2d 0h 30m 35s", "remaining_time": "1d 5h 24m 14s"}
+{"loss": 0.05601825, "token_acc": 0.97963858, "grad_norm": 0.86163163, "learning_rate": 3.12e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233863, "epoch": 3.11342328, "global_step/max_steps": "40845/65595", "percentage": "62.27%", "elapsed_time": "2d 0h 30m 51s", "remaining_time": "1d 5h 23m 50s"}
+{"loss": 0.05354935, "token_acc": 0.97691818, "grad_norm": 1.13323855, "learning_rate": 3.119e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233867, "epoch": 3.11380441, "global_step/max_steps": "40850/65595", "percentage": "62.28%", "elapsed_time": "2d 0h 31m 9s", "remaining_time": "1d 5h 23m 26s"}
+{"loss": 0.05413526, "token_acc": 0.97648625, "grad_norm": 0.87571675, "learning_rate": 3.118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233877, "epoch": 3.11418553, "global_step/max_steps": "40855/65595", "percentage": "62.28%", "elapsed_time": "2d 0h 31m 23s", "remaining_time": "1d 5h 23m 0s"}
+{"loss": 0.04940585, "token_acc": 0.97740267, "grad_norm": 1.08489752, "learning_rate": 3.117e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233883, "epoch": 3.11456666, "global_step/max_steps": "40860/65595", "percentage": "62.29%", "elapsed_time": "2d 0h 31m 40s", "remaining_time": "1d 5h 22m 36s"}
+{"loss": 0.07470814, "token_acc": 0.97013935, "grad_norm": 1.1350956, "learning_rate": 3.116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233893, "epoch": 3.11494779, "global_step/max_steps": "40865/65595", "percentage": "62.30%", "elapsed_time": "2d 0h 31m 54s", "remaining_time": "1d 5h 22m 10s"}
+{"loss": 0.07117047, "token_acc": 0.96963423, "grad_norm": 1.25624979, "learning_rate": 3.115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233899, "epoch": 3.11532891, "global_step/max_steps": "40870/65595", "percentage": "62.31%", "elapsed_time": "2d 0h 32m 10s", "remaining_time": "1d 5h 21m 46s"}
+{"loss": 0.06778972, "token_acc": 0.97590688, "grad_norm": 0.58673155, "learning_rate": 3.114e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233901, "epoch": 3.11571004, "global_step/max_steps": "40875/65595", "percentage": "62.31%", "elapsed_time": "2d 0h 32m 31s", "remaining_time": "1d 5h 21m 24s"}
+{"loss": 0.06975761, "token_acc": 0.97030555, "grad_norm": 0.00058032, "learning_rate": 3.112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233904, "epoch": 3.11609117, "global_step/max_steps": "40880/65595", "percentage": "62.32%", "elapsed_time": "2d 0h 32m 50s", "remaining_time": "1d 5h 21m 1s"}
+{"loss": 0.10597016, "token_acc": 0.96932953, "grad_norm": 1.78324759, "learning_rate": 3.111e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233914, "epoch": 3.11647229, "global_step/max_steps": "40885/65595", "percentage": "62.33%", "elapsed_time": "2d 0h 33m 4s", "remaining_time": "1d 5h 20m 35s"}
+{"loss": 0.05830283, "token_acc": 0.97746244, "grad_norm": 0.90052122, "learning_rate": 3.11e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233914, "epoch": 3.11685342, "global_step/max_steps": "40890/65595", "percentage": "62.34%", "elapsed_time": "2d 0h 33m 25s", "remaining_time": "1d 5h 20m 14s"}
+{"loss": 0.06409926, "token_acc": 0.97413793, "grad_norm": 1.75539291, "learning_rate": 3.109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233923, "epoch": 3.11723455, "global_step/max_steps": "40895/65595", "percentage": "62.34%", "elapsed_time": "2d 0h 33m 40s", "remaining_time": "1d 5h 19m 49s"}
+{"loss": 0.06992838, "token_acc": 0.97082289, "grad_norm": 1.6358856, "learning_rate": 3.108e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233929, "epoch": 3.11761567, "global_step/max_steps": "40900/65595", "percentage": "62.35%", "elapsed_time": "2d 0h 33m 57s", "remaining_time": "1d 5h 19m 24s"}
+{"loss": 0.05138227, "token_acc": 0.97902098, "grad_norm": 0.59595698, "learning_rate": 3.107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233935, "epoch": 3.1179968, "global_step/max_steps": "40905/65595", "percentage": "62.36%", "elapsed_time": "2d 0h 34m 13s", "remaining_time": "1d 5h 19m 0s"}
+{"loss": 0.08401998, "token_acc": 0.96217343, "grad_norm": 0.71052331, "learning_rate": 3.106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233942, "epoch": 3.11837793, "global_step/max_steps": "40910/65595", "percentage": "62.37%", "elapsed_time": "2d 0h 34m 30s", "remaining_time": "1d 5h 18m 36s"}
+{"loss": 0.04868377, "token_acc": 0.97827298, "grad_norm": 0.38864061, "learning_rate": 3.105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233949, "epoch": 3.11875905, "global_step/max_steps": "40915/65595", "percentage": "62.38%", "elapsed_time": "2d 0h 34m 46s", "remaining_time": "1d 5h 18m 11s"}
+{"loss": 0.0583768, "token_acc": 0.98188938, "grad_norm": 0.51797181, "learning_rate": 3.104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233955, "epoch": 3.11914018, "global_step/max_steps": "40920/65595", "percentage": "62.38%", "elapsed_time": "2d 0h 35m 2s", "remaining_time": "1d 5h 17m 47s"}
+{"loss": 0.08188855, "token_acc": 0.97048406, "grad_norm": 0.69084835, "learning_rate": 3.102e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233964, "epoch": 3.1195213, "global_step/max_steps": "40925/65595", "percentage": "62.39%", "elapsed_time": "2d 0h 35m 18s", "remaining_time": "1d 5h 17m 22s"}
+{"loss": 0.07655901, "token_acc": 0.97076681, "grad_norm": 1.1881845, "learning_rate": 3.101e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23397, "epoch": 3.11990243, "global_step/max_steps": "40930/65595", "percentage": "62.40%", "elapsed_time": "2d 0h 35m 34s", "remaining_time": "1d 5h 16m 58s"}
+{"loss": 0.0481853, "token_acc": 0.98544736, "grad_norm": 1.00436115, "learning_rate": 3.1e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233974, "epoch": 3.12028356, "global_step/max_steps": "40935/65595", "percentage": "62.41%", "elapsed_time": "2d 0h 35m 53s", "remaining_time": "1d 5h 16m 35s"}
+{"loss": 0.07683064, "token_acc": 0.97352614, "grad_norm": 2.98021293, "learning_rate": 3.099e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233979, "epoch": 3.12066468, "global_step/max_steps": "40940/65595", "percentage": "62.41%", "elapsed_time": "2d 0h 36m 10s", "remaining_time": "1d 5h 16m 11s"}
+{"loss": 0.05451888, "token_acc": 0.97907569, "grad_norm": 1.59077942, "learning_rate": 3.098e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233983, "epoch": 3.12104581, "global_step/max_steps": "40945/65595", "percentage": "62.42%", "elapsed_time": "2d 0h 36m 28s", "remaining_time": "1d 5h 15m 47s"}
+{"loss": 0.07730039, "token_acc": 0.97444519, "grad_norm": 0.6149835, "learning_rate": 3.097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233989, "epoch": 3.12142694, "global_step/max_steps": "40950/65595", "percentage": "62.43%", "elapsed_time": "2d 0h 36m 45s", "remaining_time": "1d 5h 15m 23s"}
+{"loss": 0.05806472, "token_acc": 0.98021676, "grad_norm": 0.47936231, "learning_rate": 3.096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233997, "epoch": 3.12180806, "global_step/max_steps": "40955/65595", "percentage": "62.44%", "elapsed_time": "2d 0h 37m 1s", "remaining_time": "1d 5h 14m 59s"}
+{"loss": 0.04200972, "token_acc": 0.97712418, "grad_norm": 1.06946051, "learning_rate": 3.095e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234003, "epoch": 3.12218919, "global_step/max_steps": "40960/65595", "percentage": "62.44%", "elapsed_time": "2d 0h 37m 18s", "remaining_time": "1d 5h 14m 34s"}
+{"loss": 0.08496562, "token_acc": 0.966046, "grad_norm": 1.72359502, "learning_rate": 3.094e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234011, "epoch": 3.12257032, "global_step/max_steps": "40965/65595", "percentage": "62.45%", "elapsed_time": "2d 0h 37m 33s", "remaining_time": "1d 5h 14m 10s"}
+{"loss": 0.08178526, "token_acc": 0.9742237, "grad_norm": 1.11728907, "learning_rate": 3.093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234015, "epoch": 3.12295144, "global_step/max_steps": "40970/65595", "percentage": "62.46%", "elapsed_time": "2d 0h 37m 52s", "remaining_time": "1d 5h 13m 46s"}
+{"loss": 0.05247173, "token_acc": 0.978767, "grad_norm": 1.25709689, "learning_rate": 3.091e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23402, "epoch": 3.12333257, "global_step/max_steps": "40975/65595", "percentage": "62.47%", "elapsed_time": "2d 0h 38m 9s", "remaining_time": "1d 5h 13m 23s"}
+{"loss": 0.07378085, "token_acc": 0.97137637, "grad_norm": 1.25204933, "learning_rate": 3.09e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234026, "epoch": 3.1237137, "global_step/max_steps": "40980/65595", "percentage": "62.47%", "elapsed_time": "2d 0h 38m 26s", "remaining_time": "1d 5h 12m 59s"}
+{"loss": 0.08498408, "token_acc": 0.96908245, "grad_norm": 0.86138463, "learning_rate": 3.089e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23403, "epoch": 3.12409482, "global_step/max_steps": "40985/65595", "percentage": "62.48%", "elapsed_time": "2d 0h 38m 44s", "remaining_time": "1d 5h 12m 35s"}
+{"loss": 0.11203494, "token_acc": 0.95770065, "grad_norm": 2.4823308, "learning_rate": 3.088e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234037, "epoch": 3.12447595, "global_step/max_steps": "40990/65595", "percentage": "62.49%", "elapsed_time": "2d 0h 39m 1s", "remaining_time": "1d 5h 12m 11s"}
+{"loss": 0.0530244, "token_acc": 0.97842449, "grad_norm": 1.17446804, "learning_rate": 3.087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234044, "epoch": 3.12485708, "global_step/max_steps": "40995/65595", "percentage": "62.50%", "elapsed_time": "2d 0h 39m 17s", "remaining_time": "1d 5h 11m 47s"}
+{"loss": 0.08466702, "token_acc": 0.97224792, "grad_norm": 1.59452236, "learning_rate": 3.086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23405, "epoch": 3.1252382, "global_step/max_steps": "41000/65595", "percentage": "62.50%", "elapsed_time": "2d 0h 39m 34s", "remaining_time": "1d 5h 11m 23s"}
+{"eval_loss": 0.06894331, "eval_token_acc": 0.9709129, "eval_runtime": 221.6041, "eval_samples_per_second": 2.392, "eval_steps_per_second": 2.392, "epoch": 3.1252382, "global_step/max_steps": "41000/65595", "percentage": "62.50%", "elapsed_time": "2d 0h 43m 15s", "remaining_time": "1d 5h 13m 36s"}
+{"loss": 0.05713074, "token_acc": 0.97115826, "grad_norm": 1.29550767, "learning_rate": 3.085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233757, "epoch": 3.12561933, "global_step/max_steps": "41005/65595", "percentage": "62.51%", "elapsed_time": "2d 0h 43m 34s", "remaining_time": "1d 5h 13m 13s"}
+{"loss": 0.04344964, "token_acc": 0.98381295, "grad_norm": 0.63177288, "learning_rate": 3.084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233765, "epoch": 3.12600046, "global_step/max_steps": "41010/65595", "percentage": "62.52%", "elapsed_time": "2d 0h 43m 50s", "remaining_time": "1d 5h 12m 48s"}
+{"loss": 0.05624483, "token_acc": 0.97508571, "grad_norm": 0.40359828, "learning_rate": 3.083e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233771, "epoch": 3.12638158, "global_step/max_steps": "41015/65595", "percentage": "62.53%", "elapsed_time": "2d 0h 44m 6s", "remaining_time": "1d 5h 12m 24s"}
+{"loss": 0.06375554, "token_acc": 0.97406195, "grad_norm": 1.37055528, "learning_rate": 3.081e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233778, "epoch": 3.12676271, "global_step/max_steps": "41020/65595", "percentage": "62.54%", "elapsed_time": "2d 0h 44m 23s", "remaining_time": "1d 5h 11m 59s"}
+{"loss": 0.06079743, "token_acc": 0.97112431, "grad_norm": 1.5133611, "learning_rate": 3.08e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233785, "epoch": 3.12714384, "global_step/max_steps": "41025/65595", "percentage": "62.54%", "elapsed_time": "2d 0h 44m 39s", "remaining_time": "1d 5h 11m 35s"}
+{"loss": 0.06026759, "token_acc": 0.9785489, "grad_norm": 5.29687262, "learning_rate": 3.079e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233793, "epoch": 3.12752496, "global_step/max_steps": "41030/65595", "percentage": "62.55%", "elapsed_time": "2d 0h 44m 54s", "remaining_time": "1d 5h 11m 10s"}
+{"loss": 0.08776463, "token_acc": 0.9666077, "grad_norm": 2.39344668, "learning_rate": 3.078e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233799, "epoch": 3.12790609, "global_step/max_steps": "41035/65595", "percentage": "62.56%", "elapsed_time": "2d 0h 45m 11s", "remaining_time": "1d 5h 10m 45s"}
+{"loss": 0.06124183, "token_acc": 0.976, "grad_norm": 1.82825875, "learning_rate": 3.077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233806, "epoch": 3.12828722, "global_step/max_steps": "41040/65595", "percentage": "62.57%", "elapsed_time": "2d 0h 45m 27s", "remaining_time": "1d 5h 10m 21s"}
+{"loss": 0.09893736, "token_acc": 0.97062642, "grad_norm": 2.1934936, "learning_rate": 3.076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233809, "epoch": 3.12866834, "global_step/max_steps": "41045/65595", "percentage": "62.57%", "elapsed_time": "2d 0h 45m 46s", "remaining_time": "1d 5h 9m 58s"}
+{"loss": 0.10050392, "token_acc": 0.96261261, "grad_norm": 1.69739628, "learning_rate": 3.075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233814, "epoch": 3.12904947, "global_step/max_steps": "41050/65595", "percentage": "62.58%", "elapsed_time": "2d 0h 46m 4s", "remaining_time": "1d 5h 9m 35s"}
+{"loss": 0.08656327, "token_acc": 0.97068677, "grad_norm": 2.2159524, "learning_rate": 3.074e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233823, "epoch": 3.1294306, "global_step/max_steps": "41055/65595", "percentage": "62.59%", "elapsed_time": "2d 0h 46m 19s", "remaining_time": "1d 5h 9m 9s"}
+{"loss": 0.05281065, "token_acc": 0.97802529, "grad_norm": 0.80305624, "learning_rate": 3.073e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23383, "epoch": 3.12981172, "global_step/max_steps": "41060/65595", "percentage": "62.60%", "elapsed_time": "2d 0h 46m 35s", "remaining_time": "1d 5h 8m 45s"}
+{"loss": 0.03762416, "token_acc": 0.98385689, "grad_norm": 0.85244411, "learning_rate": 3.072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233837, "epoch": 3.13019285, "global_step/max_steps": "41065/65595", "percentage": "62.60%", "elapsed_time": "2d 0h 46m 51s", "remaining_time": "1d 5h 8m 20s"}
+{"loss": 0.04519851, "token_acc": 0.98267834, "grad_norm": 2.02739573, "learning_rate": 3.07e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233842, "epoch": 3.13057398, "global_step/max_steps": "41070/65595", "percentage": "62.61%", "elapsed_time": "2d 0h 47m 9s", "remaining_time": "1d 5h 7m 57s"}
+{"loss": 0.06948146, "token_acc": 0.97689554, "grad_norm": 2.054636, "learning_rate": 3.069e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233846, "epoch": 3.1309551, "global_step/max_steps": "41075/65595", "percentage": "62.62%", "elapsed_time": "2d 0h 47m 27s", "remaining_time": "1d 5h 7m 33s"}
+{"loss": 0.07127684, "token_acc": 0.96581197, "grad_norm": 4.33488607, "learning_rate": 3.068e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233856, "epoch": 3.13133623, "global_step/max_steps": "41080/65595", "percentage": "62.63%", "elapsed_time": "2d 0h 47m 41s", "remaining_time": "1d 5h 7m 8s"}
+{"loss": 0.04780671, "token_acc": 0.98245047, "grad_norm": 0.8018356, "learning_rate": 3.067e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233858, "epoch": 3.13171736, "global_step/max_steps": "41085/65595", "percentage": "62.63%", "elapsed_time": "2d 0h 48m 1s", "remaining_time": "1d 5h 6m 45s"}
+{"loss": 0.07857391, "token_acc": 0.96966092, "grad_norm": 1.93568838, "learning_rate": 3.066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233862, "epoch": 3.13209848, "global_step/max_steps": "41090/65595", "percentage": "62.64%", "elapsed_time": "2d 0h 48m 19s", "remaining_time": "1d 5h 6m 22s"}
+{"loss": 0.10466886, "token_acc": 0.96048341, "grad_norm": 0.76460648, "learning_rate": 3.065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233866, "epoch": 3.13247961, "global_step/max_steps": "41095/65595", "percentage": "62.65%", "elapsed_time": "2d 0h 48m 38s", "remaining_time": "1d 5h 5m 59s"}
+{"loss": 0.08575916, "token_acc": 0.96979866, "grad_norm": 1.80197716, "learning_rate": 3.064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233874, "epoch": 3.13286074, "global_step/max_steps": "41100/65595", "percentage": "62.66%", "elapsed_time": "2d 0h 48m 53s", "remaining_time": "1d 5h 5m 34s"}
+{"loss": 0.05940816, "token_acc": 0.97960199, "grad_norm": 0.91445959, "learning_rate": 3.063e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23388, "epoch": 3.13324186, "global_step/max_steps": "41105/65595", "percentage": "62.66%", "elapsed_time": "2d 0h 49m 10s", "remaining_time": "1d 5h 5m 10s"}
+{"loss": 0.04400671, "token_acc": 0.97651246, "grad_norm": 0.83464259, "learning_rate": 3.062e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233888, "epoch": 3.13362299, "global_step/max_steps": "41110/65595", "percentage": "62.67%", "elapsed_time": "2d 0h 49m 25s", "remaining_time": "1d 5h 4m 45s"}
+{"loss": 0.09113327, "token_acc": 0.96325184, "grad_norm": 0.78692943, "learning_rate": 3.06e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233894, "epoch": 3.13400412, "global_step/max_steps": "41115/65595", "percentage": "62.68%", "elapsed_time": "2d 0h 49m 42s", "remaining_time": "1d 5h 4m 21s"}
+{"loss": 0.09717616, "token_acc": 0.95650012, "grad_norm": 1.66718888, "learning_rate": 3.059e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233901, "epoch": 3.13438524, "global_step/max_steps": "41120/65595", "percentage": "62.69%", "elapsed_time": "2d 0h 49m 58s", "remaining_time": "1d 5h 3m 56s"}
+{"loss": 0.05329739, "token_acc": 0.96787517, "grad_norm": 0.93863338, "learning_rate": 3.058e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233909, "epoch": 3.13476637, "global_step/max_steps": "41125/65595", "percentage": "62.70%", "elapsed_time": "2d 0h 50m 14s", "remaining_time": "1d 5h 3m 32s"}
+{"loss": 0.10676794, "token_acc": 0.95686409, "grad_norm": 1.77485609, "learning_rate": 3.057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233917, "epoch": 3.1351475, "global_step/max_steps": "41130/65595", "percentage": "62.70%", "elapsed_time": "2d 0h 50m 29s", "remaining_time": "1d 5h 3m 7s"}
+{"loss": 0.05804199, "token_acc": 0.97547503, "grad_norm": 1.12423933, "learning_rate": 3.056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233923, "epoch": 3.13552862, "global_step/max_steps": "41135/65595", "percentage": "62.71%", "elapsed_time": "2d 0h 50m 45s", "remaining_time": "1d 5h 2m 42s"}
+{"loss": 0.05337295, "token_acc": 0.9807971, "grad_norm": 1.21281755, "learning_rate": 3.055e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233927, "epoch": 3.13590975, "global_step/max_steps": "41140/65595", "percentage": "62.72%", "elapsed_time": "2d 0h 51m 4s", "remaining_time": "1d 5h 2m 19s"}
+{"loss": 0.0401511, "token_acc": 0.98786039, "grad_norm": 0.21051447, "learning_rate": 3.054e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233933, "epoch": 3.13629088, "global_step/max_steps": "41145/65595", "percentage": "62.73%", "elapsed_time": "2d 0h 51m 21s", "remaining_time": "1d 5h 1m 55s"}
+{"loss": 0.04489314, "token_acc": 0.98380652, "grad_norm": 0.91522712, "learning_rate": 3.053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233938, "epoch": 3.136672, "global_step/max_steps": "41150/65595", "percentage": "62.73%", "elapsed_time": "2d 0h 51m 38s", "remaining_time": "1d 5h 1m 32s"}
+{"loss": 0.0516598, "token_acc": 0.97644991, "grad_norm": 1.44212341, "learning_rate": 3.052e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233946, "epoch": 3.13705313, "global_step/max_steps": "41155/65595", "percentage": "62.74%", "elapsed_time": "2d 0h 51m 54s", "remaining_time": "1d 5h 1m 7s"}
+{"loss": 0.04382171, "token_acc": 0.98023715, "grad_norm": 1.34329545, "learning_rate": 3.051e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233955, "epoch": 3.13743426, "global_step/max_steps": "41160/65595", "percentage": "62.75%", "elapsed_time": "2d 0h 52m 9s", "remaining_time": "1d 5h 0m 41s"}
+{"loss": 0.05401742, "token_acc": 0.98038032, "grad_norm": 1.24263966, "learning_rate": 3.049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233957, "epoch": 3.13781538, "global_step/max_steps": "41165/65595", "percentage": "62.76%", "elapsed_time": "2d 0h 52m 28s", "remaining_time": "1d 5h 0m 19s"}
+{"loss": 0.06951777, "token_acc": 0.96932735, "grad_norm": 2.21574187, "learning_rate": 3.048e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233963, "epoch": 3.13819651, "global_step/max_steps": "41170/65595", "percentage": "62.76%", "elapsed_time": "2d 0h 52m 45s", "remaining_time": "1d 4h 59m 55s"}
+{"loss": 0.08610002, "token_acc": 0.96363636, "grad_norm": 1.05984128, "learning_rate": 3.047e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233969, "epoch": 3.13857764, "global_step/max_steps": "41175/65595", "percentage": "62.77%", "elapsed_time": "2d 0h 53m 2s", "remaining_time": "1d 4h 59m 31s"}
+{"loss": 0.0643083, "token_acc": 0.97603355, "grad_norm": 0.53565013, "learning_rate": 3.046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233969, "epoch": 3.13895876, "global_step/max_steps": "41180/65595", "percentage": "62.78%", "elapsed_time": "2d 0h 53m 23s", "remaining_time": "1d 4h 59m 9s"}
+{"loss": 0.09535632, "token_acc": 0.9622724, "grad_norm": 1.24098766, "learning_rate": 3.045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233974, "epoch": 3.13933989, "global_step/max_steps": "41185/65595", "percentage": "62.79%", "elapsed_time": "2d 0h 53m 41s", "remaining_time": "1d 4h 58m 46s"}
+{"loss": 0.09209308, "token_acc": 0.96851852, "grad_norm": 0.93501526, "learning_rate": 3.044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23398, "epoch": 3.13972102, "global_step/max_steps": "41190/65595", "percentage": "62.79%", "elapsed_time": "2d 0h 53m 58s", "remaining_time": "1d 4h 58m 22s"}
+{"loss": 0.07395252, "token_acc": 0.97212544, "grad_norm": 1.53080118, "learning_rate": 3.043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233988, "epoch": 3.14010214, "global_step/max_steps": "41195/65595", "percentage": "62.80%", "elapsed_time": "2d 0h 54m 13s", "remaining_time": "1d 4h 57m 57s"}
+{"loss": 0.08258944, "token_acc": 0.95904075, "grad_norm": 1.71247935, "learning_rate": 3.042e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233994, "epoch": 3.14048327, "global_step/max_steps": "41200/65595", "percentage": "62.81%", "elapsed_time": "2d 0h 54m 30s", "remaining_time": "1d 4h 57m 33s"}
+{"eval_loss": 0.06769045, "eval_token_acc": 0.97115385, "eval_runtime": 220.0738, "eval_samples_per_second": 2.408, "eval_steps_per_second": 2.408, "epoch": 3.14048327, "global_step/max_steps": "41200/65595", "percentage": "62.81%", "elapsed_time": "2d 0h 58m 10s", "remaining_time": "1d 4h 59m 43s"}
+{"loss": 0.06759367, "token_acc": 0.97139307, "grad_norm": 0.69314855, "learning_rate": 3.041e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233703, "epoch": 3.1408644, "global_step/max_steps": "41205/65595", "percentage": "62.82%", "elapsed_time": "2d 0h 58m 31s", "remaining_time": "1d 4h 59m 21s"}
+{"loss": 0.10035172, "token_acc": 0.96646087, "grad_norm": 0.76038343, "learning_rate": 3.04e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233707, "epoch": 3.14124552, "global_step/max_steps": "41210/65595", "percentage": "62.82%", "elapsed_time": "2d 0h 58m 49s", "remaining_time": "1d 4h 58m 58s"}
+{"loss": 0.04833589, "token_acc": 0.97869696, "grad_norm": 0.78732705, "learning_rate": 3.038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233713, "epoch": 3.14162665, "global_step/max_steps": "41215/65595", "percentage": "62.83%", "elapsed_time": "2d 0h 59m 6s", "remaining_time": "1d 4h 58m 34s"}
+{"loss": 0.06658475, "token_acc": 0.97212086, "grad_norm": 0.96131599, "learning_rate": 3.037e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233716, "epoch": 3.14200777, "global_step/max_steps": "41220/65595", "percentage": "62.84%", "elapsed_time": "2d 0h 59m 25s", "remaining_time": "1d 4h 58m 12s"}
+{"loss": 0.05706589, "token_acc": 0.97620355, "grad_norm": 0.50195032, "learning_rate": 3.036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233722, "epoch": 3.1423889, "global_step/max_steps": "41225/65595", "percentage": "62.85%", "elapsed_time": "2d 0h 59m 42s", "remaining_time": "1d 4h 57m 47s"}
+{"loss": 0.0677669, "token_acc": 0.9668775, "grad_norm": 0.98795623, "learning_rate": 3.035e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233725, "epoch": 3.14277003, "global_step/max_steps": "41230/65595", "percentage": "62.86%", "elapsed_time": "2d 1h 0m 1s", "remaining_time": "1d 4h 57m 24s"}
+{"loss": 0.06462484, "token_acc": 0.97909968, "grad_norm": 0.53493226, "learning_rate": 3.034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233732, "epoch": 3.14315115, "global_step/max_steps": "41235/65595", "percentage": "62.86%", "elapsed_time": "2d 1h 0m 17s", "remaining_time": "1d 4h 57m 0s"}
+{"loss": 0.06500528, "token_acc": 0.97170242, "grad_norm": 1.47151196, "learning_rate": 3.033e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233739, "epoch": 3.14353228, "global_step/max_steps": "41240/65595", "percentage": "62.87%", "elapsed_time": "2d 1h 0m 34s", "remaining_time": "1d 4h 56m 36s"}
+{"loss": 0.04652838, "token_acc": 0.98055291, "grad_norm": 0.84997296, "learning_rate": 3.032e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233743, "epoch": 3.14391341, "global_step/max_steps": "41245/65595", "percentage": "62.88%", "elapsed_time": "2d 1h 0m 52s", "remaining_time": "1d 4h 56m 12s"}
+{"loss": 0.06890681, "token_acc": 0.97409326, "grad_norm": 1.63243651, "learning_rate": 3.031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233749, "epoch": 3.14429453, "global_step/max_steps": "41250/65595", "percentage": "62.89%", "elapsed_time": "2d 1h 1m 9s", "remaining_time": "1d 4h 55m 48s"}
+{"loss": 0.07449865, "token_acc": 0.96911663, "grad_norm": 1.36802411, "learning_rate": 3.03e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233753, "epoch": 3.14467566, "global_step/max_steps": "41255/65595", "percentage": "62.89%", "elapsed_time": "2d 1h 1m 27s", "remaining_time": "1d 4h 55m 25s"}
+{"loss": 0.08250809, "token_acc": 0.96182874, "grad_norm": 1.03842175, "learning_rate": 3.029e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233757, "epoch": 3.14505679, "global_step/max_steps": "41260/65595", "percentage": "62.90%", "elapsed_time": "2d 1h 1m 45s", "remaining_time": "1d 4h 55m 2s"}
+{"loss": 0.05253629, "token_acc": 0.98002141, "grad_norm": 0.41949376, "learning_rate": 3.027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233761, "epoch": 3.14543791, "global_step/max_steps": "41265/65595", "percentage": "62.91%", "elapsed_time": "2d 1h 2m 4s", "remaining_time": "1d 4h 54m 39s"}
+{"loss": 0.07180822, "token_acc": 0.9712936, "grad_norm": 0.87825143, "learning_rate": 3.026e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233766, "epoch": 3.14581904, "global_step/max_steps": "41270/65595", "percentage": "62.92%", "elapsed_time": "2d 1h 2m 22s", "remaining_time": "1d 4h 54m 15s"}
+{"loss": 0.06300634, "token_acc": 0.9719657, "grad_norm": 1.0488013, "learning_rate": 3.025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233771, "epoch": 3.14620017, "global_step/max_steps": "41275/65595", "percentage": "62.92%", "elapsed_time": "2d 1h 2m 39s", "remaining_time": "1d 4h 53m 52s"}
+{"loss": 0.06545565, "token_acc": 0.97432352, "grad_norm": 1.26160824, "learning_rate": 3.024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233776, "epoch": 3.14658129, "global_step/max_steps": "41280/65595", "percentage": "62.93%", "elapsed_time": "2d 1h 2m 57s", "remaining_time": "1d 4h 53m 28s"}
+{"loss": 0.07151328, "token_acc": 0.97486937, "grad_norm": 0.82364792, "learning_rate": 3.023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233782, "epoch": 3.14696242, "global_step/max_steps": "41285/65595", "percentage": "62.94%", "elapsed_time": "2d 1h 3m 13s", "remaining_time": "1d 4h 53m 4s"}
+{"loss": 0.05326, "token_acc": 0.9806904, "grad_norm": 0.84674966, "learning_rate": 3.022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233783, "epoch": 3.14734355, "global_step/max_steps": "41290/65595", "percentage": "62.95%", "elapsed_time": "2d 1h 3m 34s", "remaining_time": "1d 4h 52m 42s"}
+{"loss": 0.09105113, "token_acc": 0.96493576, "grad_norm": 1.935588, "learning_rate": 3.021e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233789, "epoch": 3.14772467, "global_step/max_steps": "41295/65595", "percentage": "62.95%", "elapsed_time": "2d 1h 3m 51s", "remaining_time": "1d 4h 52m 18s"}
+{"loss": 0.04970097, "token_acc": 0.97913648, "grad_norm": 0.98341, "learning_rate": 3.02e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233796, "epoch": 3.1481058, "global_step/max_steps": "41300/65595", "percentage": "62.96%", "elapsed_time": "2d 1h 4m 7s", "remaining_time": "1d 4h 51m 53s"}
+{"loss": 0.07985422, "token_acc": 0.96842878, "grad_norm": 1.12450075, "learning_rate": 3.019e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233804, "epoch": 3.14848693, "global_step/max_steps": "41305/65595", "percentage": "62.97%", "elapsed_time": "2d 1h 4m 22s", "remaining_time": "1d 4h 51m 29s"}
+{"loss": 0.07230067, "token_acc": 0.96767744, "grad_norm": 1.97349644, "learning_rate": 3.018e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233812, "epoch": 3.14886805, "global_step/max_steps": "41310/65595", "percentage": "62.98%", "elapsed_time": "2d 1h 4m 38s", "remaining_time": "1d 4h 51m 4s"}
+{"loss": 0.05986018, "token_acc": 0.97700575, "grad_norm": 1.09820783, "learning_rate": 3.016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233813, "epoch": 3.14924918, "global_step/max_steps": "41315/65595", "percentage": "62.98%", "elapsed_time": "2d 1h 4m 58s", "remaining_time": "1d 4h 50m 42s"}
+{"loss": 0.0510577, "token_acc": 0.9772989, "grad_norm": 0.59683788, "learning_rate": 3.015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233819, "epoch": 3.14963031, "global_step/max_steps": "41320/65595", "percentage": "62.99%", "elapsed_time": "2d 1h 5m 15s", "remaining_time": "1d 4h 50m 18s"}
+{"loss": 0.05596069, "token_acc": 0.97634346, "grad_norm": 1.10037053, "learning_rate": 3.014e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233823, "epoch": 3.15001143, "global_step/max_steps": "41325/65595", "percentage": "63.00%", "elapsed_time": "2d 1h 5m 34s", "remaining_time": "1d 4h 49m 55s"}
+{"loss": 0.0492007, "token_acc": 0.97819654, "grad_norm": 1.68253636, "learning_rate": 3.013e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233826, "epoch": 3.15039256, "global_step/max_steps": "41330/65595", "percentage": "63.01%", "elapsed_time": "2d 1h 5m 53s", "remaining_time": "1d 4h 49m 32s"}
+{"loss": 0.08356298, "token_acc": 0.96775712, "grad_norm": 0.89213759, "learning_rate": 3.012e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233834, "epoch": 3.15077369, "global_step/max_steps": "41335/65595", "percentage": "63.02%", "elapsed_time": "2d 1h 6m 8s", "remaining_time": "1d 4h 49m 7s"}
+{"loss": 0.04998571, "token_acc": 0.97521301, "grad_norm": 0.65630311, "learning_rate": 3.011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233843, "epoch": 3.15115481, "global_step/max_steps": "41340/65595", "percentage": "63.02%", "elapsed_time": "2d 1h 6m 23s", "remaining_time": "1d 4h 48m 42s"}
+{"loss": 0.06513535, "token_acc": 0.97523325, "grad_norm": 1.42054105, "learning_rate": 3.01e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233849, "epoch": 3.15153594, "global_step/max_steps": "41345/65595", "percentage": "63.03%", "elapsed_time": "2d 1h 6m 39s", "remaining_time": "1d 4h 48m 17s"}
+{"loss": 0.09504803, "token_acc": 0.96538312, "grad_norm": 1.34063017, "learning_rate": 3.009e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233858, "epoch": 3.15191707, "global_step/max_steps": "41350/65595", "percentage": "63.04%", "elapsed_time": "2d 1h 6m 54s", "remaining_time": "1d 4h 47m 52s"}
+{"loss": 0.05497165, "token_acc": 0.98008901, "grad_norm": 0.85566229, "learning_rate": 3.008e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233859, "epoch": 3.15229819, "global_step/max_steps": "41355/65595", "percentage": "63.05%", "elapsed_time": "2d 1h 7m 15s", "remaining_time": "1d 4h 47m 30s"}
+{"loss": 0.05001155, "token_acc": 0.98025599, "grad_norm": 0.37950411, "learning_rate": 3.007e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233861, "epoch": 3.15267932, "global_step/max_steps": "41360/65595", "percentage": "63.05%", "elapsed_time": "2d 1h 7m 34s", "remaining_time": "1d 4h 47m 8s"}
+{"loss": 0.04677251, "token_acc": 0.97654001, "grad_norm": 0.83916891, "learning_rate": 3.005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233866, "epoch": 3.15306045, "global_step/max_steps": "41365/65595", "percentage": "63.06%", "elapsed_time": "2d 1h 7m 52s", "remaining_time": "1d 4h 46m 45s"}
+{"loss": 0.05238469, "token_acc": 0.97834126, "grad_norm": 1.31827307, "learning_rate": 3.004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233873, "epoch": 3.15344157, "global_step/max_steps": "41370/65595", "percentage": "63.07%", "elapsed_time": "2d 1h 8m 8s", "remaining_time": "1d 4h 46m 20s"}
+{"loss": 0.06720551, "token_acc": 0.97410913, "grad_norm": 0.99100614, "learning_rate": 3.003e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233881, "epoch": 3.1538227, "global_step/max_steps": "41375/65595", "percentage": "63.08%", "elapsed_time": "2d 1h 8m 24s", "remaining_time": "1d 4h 45m 55s"}
+{"loss": 0.05850544, "token_acc": 0.97866731, "grad_norm": 1.17016423, "learning_rate": 3.002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233884, "epoch": 3.15420383, "global_step/max_steps": "41380/65595", "percentage": "63.08%", "elapsed_time": "2d 1h 8m 42s", "remaining_time": "1d 4h 45m 32s"}
+{"loss": 0.05734307, "token_acc": 0.9680068, "grad_norm": 1.19801092, "learning_rate": 3.001e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233892, "epoch": 3.15458495, "global_step/max_steps": "41385/65595", "percentage": "63.09%", "elapsed_time": "2d 1h 8m 58s", "remaining_time": "1d 4h 45m 7s"}
+{"loss": 0.09713571, "token_acc": 0.96563408, "grad_norm": 1.47223246, "learning_rate": 3e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233899, "epoch": 3.15496608, "global_step/max_steps": "41390/65595", "percentage": "63.10%", "elapsed_time": "2d 1h 9m 14s", "remaining_time": "1d 4h 44m 43s"}
+{"loss": 0.06012205, "token_acc": 0.98006932, "grad_norm": 0.47783902, "learning_rate": 2.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233901, "epoch": 3.15534721, "global_step/max_steps": "41395/65595", "percentage": "63.11%", "elapsed_time": "2d 1h 9m 34s", "remaining_time": "1d 4h 44m 21s"}
+{"loss": 0.05116603, "token_acc": 0.98237339, "grad_norm": 0.53916782, "learning_rate": 2.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233909, "epoch": 3.15572833, "global_step/max_steps": "41400/65595", "percentage": "63.11%", "elapsed_time": "2d 1h 9m 50s", "remaining_time": "1d 4h 43m 56s"}
+{"eval_loss": 0.0684848, "eval_token_acc": 0.9718014, "eval_runtime": 220.5993, "eval_samples_per_second": 2.403, "eval_steps_per_second": 2.403, "epoch": 3.15572833, "global_step/max_steps": "41400/65595", "percentage": "63.11%", "elapsed_time": "2d 1h 13m 30s", "remaining_time": "1d 4h 46m 5s"}
+{"loss": 0.07701043, "token_acc": 0.97153224, "grad_norm": 1.65864766, "learning_rate": 2.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233625, "epoch": 3.15610946, "global_step/max_steps": "41405/65595", "percentage": "63.12%", "elapsed_time": "2d 1h 13m 46s", "remaining_time": "1d 4h 45m 40s"}
+{"loss": 0.06349784, "token_acc": 0.97016212, "grad_norm": 2.02029395, "learning_rate": 2.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233632, "epoch": 3.15649059, "global_step/max_steps": "41410/65595", "percentage": "63.13%", "elapsed_time": "2d 1h 14m 2s", "remaining_time": "1d 4h 45m 16s"}
+{"loss": 0.06132028, "token_acc": 0.97409326, "grad_norm": 1.10429764, "learning_rate": 2.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233637, "epoch": 3.15687171, "global_step/max_steps": "41415/65595", "percentage": "63.14%", "elapsed_time": "2d 1h 14m 20s", "remaining_time": "1d 4h 44m 52s"}
+{"loss": 0.08311035, "token_acc": 0.97581493, "grad_norm": 1.66523743, "learning_rate": 2.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233644, "epoch": 3.15725284, "global_step/max_steps": "41420/65595", "percentage": "63.15%", "elapsed_time": "2d 1h 14m 35s", "remaining_time": "1d 4h 44m 28s"}
+{"loss": 0.05910236, "token_acc": 0.97426982, "grad_norm": 1.0442605, "learning_rate": 2.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233649, "epoch": 3.15763397, "global_step/max_steps": "41425/65595", "percentage": "63.15%", "elapsed_time": "2d 1h 14m 53s", "remaining_time": "1d 4h 44m 4s"}
+{"loss": 0.06987745, "token_acc": 0.97706124, "grad_norm": 2.10141134, "learning_rate": 2.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233655, "epoch": 3.15801509, "global_step/max_steps": "41430/65595", "percentage": "63.16%", "elapsed_time": "2d 1h 15m 10s", "remaining_time": "1d 4h 43m 40s"}
+{"loss": 0.07011342, "token_acc": 0.97742588, "grad_norm": 1.05672276, "learning_rate": 2.99e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233664, "epoch": 3.15839622, "global_step/max_steps": "41435/65595", "percentage": "63.17%", "elapsed_time": "2d 1h 15m 25s", "remaining_time": "1d 4h 43m 15s"}
+{"loss": 0.07259178, "token_acc": 0.97156937, "grad_norm": 0.77862197, "learning_rate": 2.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233673, "epoch": 3.15877735, "global_step/max_steps": "41440/65595", "percentage": "63.18%", "elapsed_time": "2d 1h 15m 39s", "remaining_time": "1d 4h 42m 49s"}
+{"loss": 0.04783483, "token_acc": 0.98425494, "grad_norm": 0.54903913, "learning_rate": 2.988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233675, "epoch": 3.15915847, "global_step/max_steps": "41445/65595", "percentage": "63.18%", "elapsed_time": "2d 1h 15m 59s", "remaining_time": "1d 4h 42m 27s"}
+{"loss": 0.06064156, "token_acc": 0.97741273, "grad_norm": 0.59002066, "learning_rate": 2.987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233679, "epoch": 3.1595396, "global_step/max_steps": "41450/65595", "percentage": "63.19%", "elapsed_time": "2d 1h 16m 17s", "remaining_time": "1d 4h 42m 4s"}
+{"loss": 0.07627586, "token_acc": 0.96945055, "grad_norm": 1.44144046, "learning_rate": 2.986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233685, "epoch": 3.15992073, "global_step/max_steps": "41455/65595", "percentage": "63.20%", "elapsed_time": "2d 1h 16m 34s", "remaining_time": "1d 4h 41m 40s"}
+{"loss": 0.05195194, "token_acc": 0.97841459, "grad_norm": 0.27093622, "learning_rate": 2.985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233694, "epoch": 3.16030185, "global_step/max_steps": "41460/65595", "percentage": "63.21%", "elapsed_time": "2d 1h 16m 49s", "remaining_time": "1d 4h 41m 14s"}
+{"loss": 0.10714271, "token_acc": 0.95582707, "grad_norm": 1.66695297, "learning_rate": 2.984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233703, "epoch": 3.16068298, "global_step/max_steps": "41465/65595", "percentage": "63.21%", "elapsed_time": "2d 1h 17m 3s", "remaining_time": "1d 4h 40m 49s"}
+{"loss": 0.06858885, "token_acc": 0.97077732, "grad_norm": 0.91140157, "learning_rate": 2.982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233709, "epoch": 3.16106411, "global_step/max_steps": "41470/65595", "percentage": "63.22%", "elapsed_time": "2d 1h 17m 20s", "remaining_time": "1d 4h 40m 25s"}
+{"loss": 0.03859151, "token_acc": 0.98465193, "grad_norm": 0.79327768, "learning_rate": 2.981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233714, "epoch": 3.16144523, "global_step/max_steps": "41475/65595", "percentage": "63.23%", "elapsed_time": "2d 1h 17m 38s", "remaining_time": "1d 4h 40m 1s"}
+{"loss": 0.06561846, "token_acc": 0.97481108, "grad_norm": 1.27048814, "learning_rate": 2.98e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233721, "epoch": 3.16182636, "global_step/max_steps": "41480/65595", "percentage": "63.24%", "elapsed_time": "2d 1h 17m 54s", "remaining_time": "1d 4h 39m 37s"}
+{"loss": 0.07014964, "token_acc": 0.97159787, "grad_norm": 0.85124844, "learning_rate": 2.979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233726, "epoch": 3.16220749, "global_step/max_steps": "41485/65595", "percentage": "63.24%", "elapsed_time": "2d 1h 18m 11s", "remaining_time": "1d 4h 39m 13s"}
+{"loss": 0.08682125, "token_acc": 0.97092022, "grad_norm": 1.22305346, "learning_rate": 2.978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233731, "epoch": 3.16258861, "global_step/max_steps": "41490/65595", "percentage": "63.25%", "elapsed_time": "2d 1h 18m 29s", "remaining_time": "1d 4h 38m 50s"}
+{"loss": 0.07740953, "token_acc": 0.96779004, "grad_norm": 1.189152, "learning_rate": 2.977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233739, "epoch": 3.16296974, "global_step/max_steps": "41495/65595", "percentage": "63.26%", "elapsed_time": "2d 1h 18m 44s", "remaining_time": "1d 4h 38m 25s"}
+{"loss": 0.0407351, "token_acc": 0.98512801, "grad_norm": 1.45578563, "learning_rate": 2.976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233745, "epoch": 3.16335087, "global_step/max_steps": "41500/65595", "percentage": "63.27%", "elapsed_time": "2d 1h 19m 1s", "remaining_time": "1d 4h 38m 1s"}
+{"loss": 0.05300735, "token_acc": 0.97138421, "grad_norm": 0.65808302, "learning_rate": 2.975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23375, "epoch": 3.16373199, "global_step/max_steps": "41505/65595", "percentage": "63.27%", "elapsed_time": "2d 1h 19m 19s", "remaining_time": "1d 4h 37m 37s"}
+{"loss": 0.06453022, "token_acc": 0.97220101, "grad_norm": 0.9973852, "learning_rate": 2.974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233753, "epoch": 3.16411312, "global_step/max_steps": "41510/65595", "percentage": "63.28%", "elapsed_time": "2d 1h 19m 38s", "remaining_time": "1d 4h 37m 14s"}
+{"loss": 0.06635385, "token_acc": 0.96192831, "grad_norm": 1.14613199, "learning_rate": 2.973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233761, "epoch": 3.16449424, "global_step/max_steps": "41515/65595", "percentage": "63.29%", "elapsed_time": "2d 1h 19m 53s", "remaining_time": "1d 4h 36m 49s"}
+{"loss": 0.07365566, "token_acc": 0.9651094, "grad_norm": 1.52166498, "learning_rate": 2.971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23377, "epoch": 3.16487537, "global_step/max_steps": "41520/65595", "percentage": "63.30%", "elapsed_time": "2d 1h 20m 8s", "remaining_time": "1d 4h 36m 24s"}
+{"loss": 0.07407852, "token_acc": 0.97802637, "grad_norm": 1.06450772, "learning_rate": 2.97e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233772, "epoch": 3.1652565, "global_step/max_steps": "41525/65595", "percentage": "63.31%", "elapsed_time": "2d 1h 20m 28s", "remaining_time": "1d 4h 36m 2s"}
+{"loss": 0.06713279, "token_acc": 0.97237861, "grad_norm": 0.83086073, "learning_rate": 2.969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233777, "epoch": 3.16563762, "global_step/max_steps": "41530/65595", "percentage": "63.31%", "elapsed_time": "2d 1h 20m 45s", "remaining_time": "1d 4h 35m 38s"}
+{"loss": 0.04068242, "token_acc": 0.97860762, "grad_norm": 1.03740847, "learning_rate": 2.968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233782, "epoch": 3.16601875, "global_step/max_steps": "41535/65595", "percentage": "63.32%", "elapsed_time": "2d 1h 21m 3s", "remaining_time": "1d 4h 35m 15s"}
+{"loss": 0.06180089, "token_acc": 0.9754902, "grad_norm": 0.5918451, "learning_rate": 2.967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233783, "epoch": 3.16639988, "global_step/max_steps": "41540/65595", "percentage": "63.33%", "elapsed_time": "2d 1h 21m 23s", "remaining_time": "1d 4h 34m 53s"}
+{"loss": 0.05979889, "token_acc": 0.97411003, "grad_norm": 0.76285821, "learning_rate": 2.966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233789, "epoch": 3.166781, "global_step/max_steps": "41545/65595", "percentage": "63.34%", "elapsed_time": "2d 1h 21m 40s", "remaining_time": "1d 4h 34m 29s"}
+{"loss": 0.06691375, "token_acc": 0.97262925, "grad_norm": 1.07063043, "learning_rate": 2.965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233797, "epoch": 3.16716213, "global_step/max_steps": "41550/65595", "percentage": "63.34%", "elapsed_time": "2d 1h 21m 55s", "remaining_time": "1d 4h 34m 4s"}
+{"loss": 0.04292539, "token_acc": 0.9775475, "grad_norm": 0.8511281, "learning_rate": 2.964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233806, "epoch": 3.16754326, "global_step/max_steps": "41555/65595", "percentage": "63.35%", "elapsed_time": "2d 1h 22m 10s", "remaining_time": "1d 4h 33m 39s"}
+{"loss": 0.03765739, "token_acc": 0.9830451, "grad_norm": 0.39529854, "learning_rate": 2.963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233814, "epoch": 3.16792438, "global_step/max_steps": "41560/65595", "percentage": "63.36%", "elapsed_time": "2d 1h 22m 25s", "remaining_time": "1d 4h 33m 14s"}
+{"loss": 0.05728347, "token_acc": 0.98200144, "grad_norm": 0.66653937, "learning_rate": 2.962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233824, "epoch": 3.16830551, "global_step/max_steps": "41565/65595", "percentage": "63.37%", "elapsed_time": "2d 1h 22m 39s", "remaining_time": "1d 4h 32m 48s"}
+{"loss": 0.06592147, "token_acc": 0.97512577, "grad_norm": 1.41502345, "learning_rate": 2.961e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233831, "epoch": 3.16868664, "global_step/max_steps": "41570/65595", "percentage": "63.37%", "elapsed_time": "2d 1h 22m 55s", "remaining_time": "1d 4h 32m 23s"}
+{"loss": 0.06450959, "token_acc": 0.97992424, "grad_norm": 1.45627117, "learning_rate": 2.959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23384, "epoch": 3.16906776, "global_step/max_steps": "41575/65595", "percentage": "63.38%", "elapsed_time": "2d 1h 23m 10s", "remaining_time": "1d 4h 31m 58s"}
+{"loss": 0.05517424, "token_acc": 0.97304768, "grad_norm": 0.15288378, "learning_rate": 2.958e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233851, "epoch": 3.16944889, "global_step/max_steps": "41580/65595", "percentage": "63.39%", "elapsed_time": "2d 1h 23m 23s", "remaining_time": "1d 4h 31m 32s"}
+{"loss": 0.06157075, "token_acc": 0.97353056, "grad_norm": 0.66924167, "learning_rate": 2.957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233856, "epoch": 3.16983002, "global_step/max_steps": "41585/65595", "percentage": "63.40%", "elapsed_time": "2d 1h 23m 40s", "remaining_time": "1d 4h 31m 8s"}
+{"loss": 0.05766245, "token_acc": 0.97640077, "grad_norm": 1.43608916, "learning_rate": 2.956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233862, "epoch": 3.17021114, "global_step/max_steps": "41590/65595", "percentage": "63.40%", "elapsed_time": "2d 1h 23m 57s", "remaining_time": "1d 4h 30m 44s"}
+{"loss": 0.08509247, "token_acc": 0.96766825, "grad_norm": 2.03236055, "learning_rate": 2.955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233868, "epoch": 3.17059227, "global_step/max_steps": "41595/65595", "percentage": "63.41%", "elapsed_time": "2d 1h 24m 14s", "remaining_time": "1d 4h 30m 20s"}
+{"loss": 0.07540404, "token_acc": 0.97600809, "grad_norm": 0.60616004, "learning_rate": 2.954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233872, "epoch": 3.1709734, "global_step/max_steps": "41600/65595", "percentage": "63.42%", "elapsed_time": "2d 1h 24m 33s", "remaining_time": "1d 4h 29m 57s"}
+{"eval_loss": 0.06945877, "eval_token_acc": 0.97150021, "eval_runtime": 221.3335, "eval_samples_per_second": 2.395, "eval_steps_per_second": 2.395, "epoch": 3.1709734, "global_step/max_steps": "41600/65595", "percentage": "63.42%", "elapsed_time": "2d 1h 28m 14s", "remaining_time": "1d 4h 32m 5s"}
+{"loss": 0.07248306, "token_acc": 0.97170951, "grad_norm": 1.01554477, "learning_rate": 2.953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233584, "epoch": 3.17135452, "global_step/max_steps": "41605/65595", "percentage": "63.43%", "elapsed_time": "2d 1h 28m 33s", "remaining_time": "1d 4h 31m 42s"}
+{"loss": 0.10081007, "token_acc": 0.96339779, "grad_norm": 1.20934391, "learning_rate": 2.952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233591, "epoch": 3.17173565, "global_step/max_steps": "41610/65595", "percentage": "63.43%", "elapsed_time": "2d 1h 28m 49s", "remaining_time": "1d 4h 31m 18s"}
+{"loss": 0.05906712, "token_acc": 0.97723577, "grad_norm": 0.94524246, "learning_rate": 2.951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233597, "epoch": 3.17211678, "global_step/max_steps": "41615/65595", "percentage": "63.44%", "elapsed_time": "2d 1h 29m 6s", "remaining_time": "1d 4h 30m 54s"}
+{"loss": 0.06283023, "token_acc": 0.97433888, "grad_norm": 1.15663493, "learning_rate": 2.95e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233603, "epoch": 3.1724979, "global_step/max_steps": "41620/65595", "percentage": "63.45%", "elapsed_time": "2d 1h 29m 23s", "remaining_time": "1d 4h 30m 30s"}
+{"loss": 0.04935286, "token_acc": 0.98382142, "grad_norm": 1.19247043, "learning_rate": 2.949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23361, "epoch": 3.17287903, "global_step/max_steps": "41625/65595", "percentage": "63.46%", "elapsed_time": "2d 1h 29m 39s", "remaining_time": "1d 4h 30m 5s"}
+{"loss": 0.06599261, "token_acc": 0.97246059, "grad_norm": 0.86302453, "learning_rate": 2.947e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233614, "epoch": 3.17326016, "global_step/max_steps": "41630/65595", "percentage": "63.47%", "elapsed_time": "2d 1h 29m 57s", "remaining_time": "1d 4h 29m 42s"}
+{"loss": 0.04272205, "token_acc": 0.97773616, "grad_norm": 0.3605915, "learning_rate": 2.946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233621, "epoch": 3.17364128, "global_step/max_steps": "41635/65595", "percentage": "63.47%", "elapsed_time": "2d 1h 30m 13s", "remaining_time": "1d 4h 29m 17s"}
+{"loss": 0.05727453, "token_acc": 0.9750088, "grad_norm": 0.92691362, "learning_rate": 2.945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23363, "epoch": 3.17402241, "global_step/max_steps": "41640/65595", "percentage": "63.48%", "elapsed_time": "2d 1h 30m 28s", "remaining_time": "1d 4h 28m 52s"}
+{"loss": 0.06212894, "token_acc": 0.97601918, "grad_norm": 1.13807952, "learning_rate": 2.944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233631, "epoch": 3.17440354, "global_step/max_steps": "41645/65595", "percentage": "63.49%", "elapsed_time": "2d 1h 30m 49s", "remaining_time": "1d 4h 28m 30s"}
+{"loss": 0.07609432, "token_acc": 0.97504324, "grad_norm": 0.6806705, "learning_rate": 2.943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233638, "epoch": 3.17478466, "global_step/max_steps": "41650/65595", "percentage": "63.50%", "elapsed_time": "2d 1h 31m 4s", "remaining_time": "1d 4h 28m 6s"}
+{"loss": 0.03069033, "token_acc": 0.98655233, "grad_norm": 0.64533585, "learning_rate": 2.942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233644, "epoch": 3.17516579, "global_step/max_steps": "41655/65595", "percentage": "63.50%", "elapsed_time": "2d 1h 31m 21s", "remaining_time": "1d 4h 27m 42s"}
+{"loss": 0.07085552, "token_acc": 0.97211425, "grad_norm": 0.64782488, "learning_rate": 2.941e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233647, "epoch": 3.17554692, "global_step/max_steps": "41660/65595", "percentage": "63.51%", "elapsed_time": "2d 1h 31m 41s", "remaining_time": "1d 4h 27m 19s"}
+{"loss": 0.06327408, "token_acc": 0.98099326, "grad_norm": 1.64946735, "learning_rate": 2.94e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233654, "epoch": 3.17592804, "global_step/max_steps": "41665/65595", "percentage": "63.52%", "elapsed_time": "2d 1h 31m 56s", "remaining_time": "1d 4h 26m 55s"}
+{"loss": 0.06317006, "token_acc": 0.98262943, "grad_norm": 2.36442876, "learning_rate": 2.939e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233659, "epoch": 3.17630917, "global_step/max_steps": "41670/65595", "percentage": "63.53%", "elapsed_time": "2d 1h 32m 14s", "remaining_time": "1d 4h 26m 31s"}
+{"loss": 0.04597945, "token_acc": 0.98447368, "grad_norm": 0.60075277, "learning_rate": 2.938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233666, "epoch": 3.1766903, "global_step/max_steps": "41675/65595", "percentage": "63.53%", "elapsed_time": "2d 1h 32m 30s", "remaining_time": "1d 4h 26m 7s"}
+{"loss": 0.05808383, "token_acc": 0.97098129, "grad_norm": 1.35215235, "learning_rate": 2.936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233672, "epoch": 3.17707142, "global_step/max_steps": "41680/65595", "percentage": "63.54%", "elapsed_time": "2d 1h 32m 47s", "remaining_time": "1d 4h 25m 42s"}
+{"loss": 0.07504408, "token_acc": 0.97207304, "grad_norm": 1.88014579, "learning_rate": 2.935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233679, "epoch": 3.17745255, "global_step/max_steps": "41685/65595", "percentage": "63.55%", "elapsed_time": "2d 1h 33m 3s", "remaining_time": "1d 4h 25m 18s"}
+{"loss": 0.05344175, "token_acc": 0.97583788, "grad_norm": 0.56373662, "learning_rate": 2.934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233682, "epoch": 3.17783368, "global_step/max_steps": "41690/65595", "percentage": "63.56%", "elapsed_time": "2d 1h 33m 22s", "remaining_time": "1d 4h 24m 55s"}
+{"loss": 0.05543902, "token_acc": 0.9733871, "grad_norm": 0.75791937, "learning_rate": 2.933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233691, "epoch": 3.1782148, "global_step/max_steps": "41695/65595", "percentage": "63.56%", "elapsed_time": "2d 1h 33m 37s", "remaining_time": "1d 4h 24m 30s"}
+{"loss": 0.06089034, "token_acc": 0.97363204, "grad_norm": 0.99869394, "learning_rate": 2.932e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233696, "epoch": 3.17859593, "global_step/max_steps": "41700/65595", "percentage": "63.57%", "elapsed_time": "2d 1h 33m 54s", "remaining_time": "1d 4h 24m 6s"}
+{"loss": 0.0539035, "token_acc": 0.98005908, "grad_norm": 0.60063833, "learning_rate": 2.931e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233699, "epoch": 3.17897706, "global_step/max_steps": "41705/65595", "percentage": "63.58%", "elapsed_time": "2d 1h 34m 13s", "remaining_time": "1d 4h 23m 44s"}
+{"loss": 0.0906221, "token_acc": 0.9751007, "grad_norm": 1.65363312, "learning_rate": 2.93e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233708, "epoch": 3.17935818, "global_step/max_steps": "41710/65595", "percentage": "63.59%", "elapsed_time": "2d 1h 34m 28s", "remaining_time": "1d 4h 23m 19s"}
+{"loss": 0.04719462, "token_acc": 0.98370993, "grad_norm": 0.8072086, "learning_rate": 2.929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233712, "epoch": 3.17973931, "global_step/max_steps": "41715/65595", "percentage": "63.59%", "elapsed_time": "2d 1h 34m 46s", "remaining_time": "1d 4h 22m 55s"}
+{"loss": 0.05514799, "token_acc": 0.97982063, "grad_norm": 0.63613516, "learning_rate": 2.928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233716, "epoch": 3.18012044, "global_step/max_steps": "41720/65595", "percentage": "63.60%", "elapsed_time": "2d 1h 35m 4s", "remaining_time": "1d 4h 22m 32s"}
+{"loss": 0.0712715, "token_acc": 0.96520803, "grad_norm": 1.68613172, "learning_rate": 2.927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233724, "epoch": 3.18050156, "global_step/max_steps": "41725/65595", "percentage": "63.61%", "elapsed_time": "2d 1h 35m 20s", "remaining_time": "1d 4h 22m 7s"}
+{"loss": 0.0697921, "token_acc": 0.96880527, "grad_norm": 0.67053497, "learning_rate": 2.926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233728, "epoch": 3.18088269, "global_step/max_steps": "41730/65595", "percentage": "63.62%", "elapsed_time": "2d 1h 35m 38s", "remaining_time": "1d 4h 21m 44s"}
+{"loss": 0.08325999, "token_acc": 0.9748996, "grad_norm": 1.55478358, "learning_rate": 2.925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233736, "epoch": 3.18126382, "global_step/max_steps": "41735/65595", "percentage": "63.63%", "elapsed_time": "2d 1h 35m 54s", "remaining_time": "1d 4h 21m 19s"}
+{"loss": 0.04538442, "token_acc": 0.97953108, "grad_norm": 1.43924987, "learning_rate": 2.923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233744, "epoch": 3.18164494, "global_step/max_steps": "41740/65595", "percentage": "63.63%", "elapsed_time": "2d 1h 36m 8s", "remaining_time": "1d 4h 20m 54s"}
+{"loss": 0.05833116, "token_acc": 0.97415507, "grad_norm": 0.8866992, "learning_rate": 2.922e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233754, "epoch": 3.18202607, "global_step/max_steps": "41745/65595", "percentage": "63.64%", "elapsed_time": "2d 1h 36m 22s", "remaining_time": "1d 4h 20m 28s"}
+{"loss": 0.05486855, "token_acc": 0.97786575, "grad_norm": 0.6320008, "learning_rate": 2.921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233761, "epoch": 3.1824072, "global_step/max_steps": "41750/65595", "percentage": "63.65%", "elapsed_time": "2d 1h 36m 39s", "remaining_time": "1d 4h 20m 4s"}
+{"loss": 0.06429152, "token_acc": 0.97602941, "grad_norm": 1.47028506, "learning_rate": 2.92e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233764, "epoch": 3.18278832, "global_step/max_steps": "41755/65595", "percentage": "63.66%", "elapsed_time": "2d 1h 36m 57s", "remaining_time": "1d 4h 19m 41s"}
+{"loss": 0.06327551, "token_acc": 0.97711268, "grad_norm": 0.67324865, "learning_rate": 2.919e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233772, "epoch": 3.18316945, "global_step/max_steps": "41760/65595", "percentage": "63.66%", "elapsed_time": "2d 1h 37m 13s", "remaining_time": "1d 4h 19m 17s"}
+{"loss": 0.0520316, "token_acc": 0.97815502, "grad_norm": 0.94156301, "learning_rate": 2.918e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233774, "epoch": 3.18355058, "global_step/max_steps": "41765/65595", "percentage": "63.67%", "elapsed_time": "2d 1h 37m 33s", "remaining_time": "1d 4h 18m 54s"}
+{"loss": 0.07148418, "token_acc": 0.97469405, "grad_norm": 1.26988459, "learning_rate": 2.917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233779, "epoch": 3.1839317, "global_step/max_steps": "41770/65595", "percentage": "63.68%", "elapsed_time": "2d 1h 37m 50s", "remaining_time": "1d 4h 18m 31s"}
+{"loss": 0.03702531, "token_acc": 0.98277225, "grad_norm": 0.58883619, "learning_rate": 2.916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233783, "epoch": 3.18431283, "global_step/max_steps": "41775/65595", "percentage": "63.69%", "elapsed_time": "2d 1h 38m 8s", "remaining_time": "1d 4h 18m 7s"}
+{"loss": 0.08921311, "token_acc": 0.96913799, "grad_norm": 1.53274918, "learning_rate": 2.915e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233791, "epoch": 3.18469396, "global_step/max_steps": "41780/65595", "percentage": "63.69%", "elapsed_time": "2d 1h 38m 24s", "remaining_time": "1d 4h 17m 43s"}
+{"loss": 0.09791937, "token_acc": 0.9635097, "grad_norm": 1.02207732, "learning_rate": 2.914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233795, "epoch": 3.18507508, "global_step/max_steps": "41785/65595", "percentage": "63.70%", "elapsed_time": "2d 1h 38m 42s", "remaining_time": "1d 4h 17m 19s"}
+{"loss": 0.04858252, "token_acc": 0.98002945, "grad_norm": 0.80324107, "learning_rate": 2.913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233796, "epoch": 3.18545621, "global_step/max_steps": "41790/65595", "percentage": "63.71%", "elapsed_time": "2d 1h 39m 3s", "remaining_time": "1d 4h 16m 58s"}
+{"loss": 0.10475491, "token_acc": 0.97034596, "grad_norm": 2.02234244, "learning_rate": 2.911e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233804, "epoch": 3.18583734, "global_step/max_steps": "41795/65595", "percentage": "63.72%", "elapsed_time": "2d 1h 39m 18s", "remaining_time": "1d 4h 16m 33s"}
+{"loss": 0.05963802, "token_acc": 0.98574257, "grad_norm": 1.55672145, "learning_rate": 2.91e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233812, "epoch": 3.18621846, "global_step/max_steps": "41800/65595", "percentage": "63.72%", "elapsed_time": "2d 1h 39m 33s", "remaining_time": "1d 4h 16m 8s"}
+{"eval_loss": 0.06655236, "eval_token_acc": 0.9718014, "eval_runtime": 221.0681, "eval_samples_per_second": 2.397, "eval_steps_per_second": 2.397, "epoch": 3.18621846, "global_step/max_steps": "41800/65595", "percentage": "63.72%", "elapsed_time": "2d 1h 43m 14s", "remaining_time": "1d 4h 18m 14s"}
+{"loss": 0.06731876, "token_acc": 0.97206583, "grad_norm": 0.72518599, "learning_rate": 2.909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233529, "epoch": 3.18659959, "global_step/max_steps": "41805/65595", "percentage": "63.73%", "elapsed_time": "2d 1h 43m 31s", "remaining_time": "1d 4h 17m 50s"}
+{"loss": 0.0708696, "token_acc": 0.97489083, "grad_norm": 1.72491968, "learning_rate": 2.908e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233536, "epoch": 3.18698071, "global_step/max_steps": "41810/65595", "percentage": "63.74%", "elapsed_time": "2d 1h 43m 47s", "remaining_time": "1d 4h 17m 25s"}
+{"loss": 0.04972983, "token_acc": 0.98049512, "grad_norm": 1.13049865, "learning_rate": 2.907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233545, "epoch": 3.18736184, "global_step/max_steps": "41815/65595", "percentage": "63.75%", "elapsed_time": "2d 1h 44m 2s", "remaining_time": "1d 4h 17m 0s"}
+{"loss": 0.07715477, "token_acc": 0.97691875, "grad_norm": 2.14369583, "learning_rate": 2.906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23355, "epoch": 3.18774297, "global_step/max_steps": "41820/65595", "percentage": "63.75%", "elapsed_time": "2d 1h 44m 19s", "remaining_time": "1d 4h 16m 36s"}
+{"loss": 0.06092799, "token_acc": 0.98055747, "grad_norm": 1.06803989, "learning_rate": 2.905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233555, "epoch": 3.18812409, "global_step/max_steps": "41825/65595", "percentage": "63.76%", "elapsed_time": "2d 1h 44m 37s", "remaining_time": "1d 4h 16m 13s"}
+{"loss": 0.07473057, "token_acc": 0.97086926, "grad_norm": 1.12364686, "learning_rate": 2.904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233561, "epoch": 3.18850522, "global_step/max_steps": "41830/65595", "percentage": "63.77%", "elapsed_time": "2d 1h 44m 54s", "remaining_time": "1d 4h 15m 49s"}
+{"loss": 0.0367801, "token_acc": 0.97974461, "grad_norm": 1.32426286, "learning_rate": 2.903e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233571, "epoch": 3.18888635, "global_step/max_steps": "41835/65595", "percentage": "63.78%", "elapsed_time": "2d 1h 45m 8s", "remaining_time": "1d 4h 15m 23s"}
+{"loss": 0.04504353, "token_acc": 0.97799697, "grad_norm": 0.83222479, "learning_rate": 2.902e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233576, "epoch": 3.18926747, "global_step/max_steps": "41840/65595", "percentage": "63.79%", "elapsed_time": "2d 1h 45m 25s", "remaining_time": "1d 4h 15m 0s"}
+{"loss": 0.05141535, "token_acc": 0.98478016, "grad_norm": 0.64458692, "learning_rate": 2.901e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233581, "epoch": 3.1896486, "global_step/max_steps": "41845/65595", "percentage": "63.79%", "elapsed_time": "2d 1h 45m 43s", "remaining_time": "1d 4h 14m 36s"}
+{"loss": 0.0357148, "token_acc": 0.98359833, "grad_norm": 0.8549161, "learning_rate": 2.899e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233584, "epoch": 3.19002973, "global_step/max_steps": "41850/65595", "percentage": "63.80%", "elapsed_time": "2d 1h 46m 2s", "remaining_time": "1d 4h 14m 13s"}
+{"loss": 0.0974081, "token_acc": 0.96992905, "grad_norm": 0.54228842, "learning_rate": 2.898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233586, "epoch": 3.19041085, "global_step/max_steps": "41855/65595", "percentage": "63.81%", "elapsed_time": "2d 1h 46m 22s", "remaining_time": "1d 4h 13m 51s"}
+{"loss": 0.08486743, "token_acc": 0.96072508, "grad_norm": 1.18109393, "learning_rate": 2.897e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233593, "epoch": 3.19079198, "global_step/max_steps": "41860/65595", "percentage": "63.82%", "elapsed_time": "2d 1h 46m 38s", "remaining_time": "1d 4h 13m 27s"}
+{"loss": 0.05925178, "token_acc": 0.98208955, "grad_norm": 2.1350708, "learning_rate": 2.896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233599, "epoch": 3.19117311, "global_step/max_steps": "41865/65595", "percentage": "63.82%", "elapsed_time": "2d 1h 46m 54s", "remaining_time": "1d 4h 13m 2s"}
+{"loss": 0.05158517, "token_acc": 0.97433602, "grad_norm": 0.86950445, "learning_rate": 2.895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233608, "epoch": 3.19155423, "global_step/max_steps": "41870/65595", "percentage": "63.83%", "elapsed_time": "2d 1h 47m 9s", "remaining_time": "1d 4h 12m 37s"}
+{"loss": 0.05161842, "token_acc": 0.98001276, "grad_norm": 1.53241885, "learning_rate": 2.894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233614, "epoch": 3.19193536, "global_step/max_steps": "41875/65595", "percentage": "63.84%", "elapsed_time": "2d 1h 47m 26s", "remaining_time": "1d 4h 12m 13s"}
+{"loss": 0.059789, "token_acc": 0.97731173, "grad_norm": 0.9871915, "learning_rate": 2.893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233619, "epoch": 3.19231649, "global_step/max_steps": "41880/65595", "percentage": "63.85%", "elapsed_time": "2d 1h 47m 43s", "remaining_time": "1d 4h 11m 50s"}
+{"loss": 0.06493679, "token_acc": 0.97021871, "grad_norm": 1.7186482, "learning_rate": 2.892e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233628, "epoch": 3.19269761, "global_step/max_steps": "41885/65595", "percentage": "63.85%", "elapsed_time": "2d 1h 47m 58s", "remaining_time": "1d 4h 11m 25s"}
+{"loss": 0.06620515, "token_acc": 0.9721694, "grad_norm": 0.33100444, "learning_rate": 2.891e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233633, "epoch": 3.19307874, "global_step/max_steps": "41890/65595", "percentage": "63.86%", "elapsed_time": "2d 1h 48m 15s", "remaining_time": "1d 4h 11m 1s"}
+{"loss": 0.0615375, "token_acc": 0.97391304, "grad_norm": 0.85639751, "learning_rate": 2.89e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23364, "epoch": 3.19345987, "global_step/max_steps": "41895/65595", "percentage": "63.87%", "elapsed_time": "2d 1h 48m 31s", "remaining_time": "1d 4h 10m 36s"}
+{"loss": 0.06620625, "token_acc": 0.9684719, "grad_norm": 1.35704505, "learning_rate": 2.889e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233647, "epoch": 3.19384099, "global_step/max_steps": "41900/65595", "percentage": "63.88%", "elapsed_time": "2d 1h 48m 47s", "remaining_time": "1d 4h 10m 12s"}
+{"loss": 0.05374351, "token_acc": 0.98615518, "grad_norm": 1.49983919, "learning_rate": 2.888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233656, "epoch": 3.19422212, "global_step/max_steps": "41905/65595", "percentage": "63.88%", "elapsed_time": "2d 1h 49m 2s", "remaining_time": "1d 4h 9m 47s"}
+{"loss": 0.05220014, "token_acc": 0.97773353, "grad_norm": 0.79525828, "learning_rate": 2.886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23366, "epoch": 3.19460325, "global_step/max_steps": "41910/65595", "percentage": "63.89%", "elapsed_time": "2d 1h 49m 20s", "remaining_time": "1d 4h 9m 23s"}
+{"loss": 0.05643334, "token_acc": 0.97525448, "grad_norm": 0.89392269, "learning_rate": 2.885e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233664, "epoch": 3.19498437, "global_step/max_steps": "41915/65595", "percentage": "63.90%", "elapsed_time": "2d 1h 49m 38s", "remaining_time": "1d 4h 9m 0s"}
+{"loss": 0.08442362, "token_acc": 0.96817504, "grad_norm": 1.53973985, "learning_rate": 2.884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23367, "epoch": 3.1953655, "global_step/max_steps": "41920/65595", "percentage": "63.91%", "elapsed_time": "2d 1h 49m 55s", "remaining_time": "1d 4h 8m 36s"}
+{"loss": 0.07817187, "token_acc": 0.96791862, "grad_norm": 1.60883558, "learning_rate": 2.883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233677, "epoch": 3.19574663, "global_step/max_steps": "41925/65595", "percentage": "63.91%", "elapsed_time": "2d 1h 50m 12s", "remaining_time": "1d 4h 8m 12s"}
+{"loss": 0.07331654, "token_acc": 0.97292353, "grad_norm": 0.69099504, "learning_rate": 2.882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233684, "epoch": 3.19612775, "global_step/max_steps": "41930/65595", "percentage": "63.92%", "elapsed_time": "2d 1h 50m 28s", "remaining_time": "1d 4h 7m 48s"}
+{"loss": 0.04861036, "token_acc": 0.98043478, "grad_norm": 0.9355821, "learning_rate": 2.881e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233693, "epoch": 3.19650888, "global_step/max_steps": "41935/65595", "percentage": "63.93%", "elapsed_time": "2d 1h 50m 42s", "remaining_time": "1d 4h 7m 22s"}
+{"loss": 0.08451087, "token_acc": 0.9718564, "grad_norm": 2.23332667, "learning_rate": 2.88e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233697, "epoch": 3.19689001, "global_step/max_steps": "41940/65595", "percentage": "63.94%", "elapsed_time": "2d 1h 51m 0s", "remaining_time": "1d 4h 6m 59s"}
+{"loss": 0.04003895, "token_acc": 0.98103792, "grad_norm": 1.58349371, "learning_rate": 2.879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233702, "epoch": 3.19727113, "global_step/max_steps": "41945/65595", "percentage": "63.95%", "elapsed_time": "2d 1h 51m 18s", "remaining_time": "1d 4h 6m 36s"}
+{"loss": 0.06693894, "token_acc": 0.97834765, "grad_norm": 1.08761835, "learning_rate": 2.878e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233702, "epoch": 3.19765226, "global_step/max_steps": "41950/65595", "percentage": "63.95%", "elapsed_time": "2d 1h 51m 39s", "remaining_time": "1d 4h 6m 14s"}
+{"loss": 0.0746919, "token_acc": 0.97395243, "grad_norm": 0.85555404, "learning_rate": 2.877e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233709, "epoch": 3.19803339, "global_step/max_steps": "41955/65595", "percentage": "63.96%", "elapsed_time": "2d 1h 51m 55s", "remaining_time": "1d 4h 5m 50s"}
+{"loss": 0.07296594, "token_acc": 0.97460372, "grad_norm": 0.82661539, "learning_rate": 2.876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233713, "epoch": 3.19841451, "global_step/max_steps": "41960/65595", "percentage": "63.97%", "elapsed_time": "2d 1h 52m 14s", "remaining_time": "1d 4h 5m 27s"}
+{"loss": 0.0490708, "token_acc": 0.9845747, "grad_norm": 0.57093728, "learning_rate": 2.875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233717, "epoch": 3.19879564, "global_step/max_steps": "41965/65595", "percentage": "63.98%", "elapsed_time": "2d 1h 52m 32s", "remaining_time": "1d 4h 5m 3s"}
+{"loss": 0.0666255, "token_acc": 0.97434641, "grad_norm": 1.15347481, "learning_rate": 2.873e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23372, "epoch": 3.19917677, "global_step/max_steps": "41970/65595", "percentage": "63.98%", "elapsed_time": "2d 1h 52m 51s", "remaining_time": "1d 4h 4m 41s"}
+{"loss": 0.04213246, "token_acc": 0.97835616, "grad_norm": 1.16921937, "learning_rate": 2.872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233727, "epoch": 3.19955789, "global_step/max_steps": "41975/65595", "percentage": "63.99%", "elapsed_time": "2d 1h 53m 7s", "remaining_time": "1d 4h 4m 16s"}
+{"loss": 0.06523093, "token_acc": 0.97811402, "grad_norm": 0.85109252, "learning_rate": 2.871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233734, "epoch": 3.19993902, "global_step/max_steps": "41980/65595", "percentage": "64.00%", "elapsed_time": "2d 1h 53m 23s", "remaining_time": "1d 4h 3m 52s"}
+{"loss": 0.08090448, "token_acc": 0.97418478, "grad_norm": 1.78319299, "learning_rate": 2.87e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233741, "epoch": 3.20032015, "global_step/max_steps": "41985/65595", "percentage": "64.01%", "elapsed_time": "2d 1h 53m 39s", "remaining_time": "1d 4h 3m 28s"}
+{"loss": 0.06469687, "token_acc": 0.97901915, "grad_norm": 0.95721602, "learning_rate": 2.869e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233748, "epoch": 3.20070127, "global_step/max_steps": "41990/65595", "percentage": "64.01%", "elapsed_time": "2d 1h 53m 55s", "remaining_time": "1d 4h 3m 3s"}
+{"loss": 0.08029439, "token_acc": 0.9722579, "grad_norm": 0.76881415, "learning_rate": 2.868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233756, "epoch": 3.2010824, "global_step/max_steps": "41995/65595", "percentage": "64.02%", "elapsed_time": "2d 1h 54m 10s", "remaining_time": "1d 4h 2m 38s"}
+{"loss": 0.10112119, "token_acc": 0.95885714, "grad_norm": 1.14388657, "learning_rate": 2.867e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233766, "epoch": 3.20146353, "global_step/max_steps": "42000/65595", "percentage": "64.03%", "elapsed_time": "2d 1h 54m 24s", "remaining_time": "1d 4h 2m 12s"}
+{"eval_loss": 0.06670879, "eval_token_acc": 0.97181646, "eval_runtime": 223.0341, "eval_samples_per_second": 2.376, "eval_steps_per_second": 2.376, "epoch": 3.20146353, "global_step/max_steps": "42000/65595", "percentage": "64.03%", "elapsed_time": "2d 1h 58m 7s", "remaining_time": "1d 4h 4m 18s"}
+{"loss": 0.06921271, "token_acc": 0.9718211, "grad_norm": 0.67265397, "learning_rate": 2.866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23348, "epoch": 3.20184465, "global_step/max_steps": "42005/65595", "percentage": "64.04%", "elapsed_time": "2d 1h 58m 26s", "remaining_time": "1d 4h 3m 55s"}
+{"loss": 0.07723053, "token_acc": 0.98093059, "grad_norm": 1.57860518, "learning_rate": 2.865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233481, "epoch": 3.20222578, "global_step/max_steps": "42010/65595", "percentage": "64.04%", "elapsed_time": "2d 1h 58m 46s", "remaining_time": "1d 4h 3m 33s"}
+{"loss": 0.04806656, "token_acc": 0.98055717, "grad_norm": 2.87734985, "learning_rate": 2.864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233489, "epoch": 3.20260691, "global_step/max_steps": "42015/65595", "percentage": "64.05%", "elapsed_time": "2d 1h 59m 1s", "remaining_time": "1d 4h 3m 8s"}
+{"loss": 0.07134389, "token_acc": 0.97082405, "grad_norm": 1.21908724, "learning_rate": 2.863e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233496, "epoch": 3.20298803, "global_step/max_steps": "42020/65595", "percentage": "64.06%", "elapsed_time": "2d 1h 59m 18s", "remaining_time": "1d 4h 2m 44s"}
+{"loss": 0.05651551, "token_acc": 0.98150639, "grad_norm": 0.72494465, "learning_rate": 2.862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233504, "epoch": 3.20336916, "global_step/max_steps": "42025/65595", "percentage": "64.07%", "elapsed_time": "2d 1h 59m 33s", "remaining_time": "1d 4h 2m 19s"}
+{"loss": 0.05923241, "token_acc": 0.97701428, "grad_norm": 0.7617386, "learning_rate": 2.86e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23351, "epoch": 3.20375029, "global_step/max_steps": "42030/65595", "percentage": "64.08%", "elapsed_time": "2d 1h 59m 50s", "remaining_time": "1d 4h 1m 55s"}
+{"loss": 0.0505187, "token_acc": 0.97561651, "grad_norm": 0.59108049, "learning_rate": 2.859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233517, "epoch": 3.20413141, "global_step/max_steps": "42035/65595", "percentage": "64.08%", "elapsed_time": "2d 2h 0m 6s", "remaining_time": "1d 4h 1m 30s"}
+{"loss": 0.06211641, "token_acc": 0.97931904, "grad_norm": 0.49599621, "learning_rate": 2.858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23352, "epoch": 3.20451254, "global_step/max_steps": "42040/65595", "percentage": "64.09%", "elapsed_time": "2d 2h 0m 25s", "remaining_time": "1d 4h 1m 8s"}
+{"loss": 0.04299565, "token_acc": 0.98123827, "grad_norm": 0.80376709, "learning_rate": 2.857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233523, "epoch": 3.20489367, "global_step/max_steps": "42045/65595", "percentage": "64.10%", "elapsed_time": "2d 2h 0m 44s", "remaining_time": "1d 4h 0m 45s"}
+{"loss": 0.07040913, "token_acc": 0.96861594, "grad_norm": 0.95559925, "learning_rate": 2.856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233531, "epoch": 3.20527479, "global_step/max_steps": "42050/65595", "percentage": "64.11%", "elapsed_time": "2d 2h 0m 59s", "remaining_time": "1d 4h 0m 20s"}
+{"loss": 0.08210672, "token_acc": 0.97430992, "grad_norm": 1.84703052, "learning_rate": 2.855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233538, "epoch": 3.20565592, "global_step/max_steps": "42055/65595", "percentage": "64.11%", "elapsed_time": "2d 2h 1m 15s", "remaining_time": "1d 3h 59m 56s"}
+{"loss": 0.05146594, "token_acc": 0.97556207, "grad_norm": 0.85175049, "learning_rate": 2.854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233546, "epoch": 3.20603705, "global_step/max_steps": "42060/65595", "percentage": "64.12%", "elapsed_time": "2d 2h 1m 30s", "remaining_time": "1d 3h 59m 31s"}
+{"loss": 0.06202307, "token_acc": 0.97526113, "grad_norm": 1.42708838, "learning_rate": 2.853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233552, "epoch": 3.20641817, "global_step/max_steps": "42065/65595", "percentage": "64.13%", "elapsed_time": "2d 2h 1m 47s", "remaining_time": "1d 3h 59m 7s"}
+{"loss": 0.0605336, "token_acc": 0.97431676, "grad_norm": 1.75162446, "learning_rate": 2.852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233561, "epoch": 3.2067993, "global_step/max_steps": "42070/65595", "percentage": "64.14%", "elapsed_time": "2d 2h 2m 2s", "remaining_time": "1d 3h 58m 42s"}
+{"loss": 0.07278724, "token_acc": 0.97290042, "grad_norm": 0.45535177, "learning_rate": 2.851e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233563, "epoch": 3.20718043, "global_step/max_steps": "42075/65595", "percentage": "64.14%", "elapsed_time": "2d 2h 2m 22s", "remaining_time": "1d 3h 58m 19s"}
+{"loss": 0.07626963, "token_acc": 0.97185668, "grad_norm": 1.18126929, "learning_rate": 2.85e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233565, "epoch": 3.20756155, "global_step/max_steps": "42080/65595", "percentage": "64.15%", "elapsed_time": "2d 2h 2m 41s", "remaining_time": "1d 3h 57m 57s"}
+{"loss": 0.0713596, "token_acc": 0.97087379, "grad_norm": 0.85614175, "learning_rate": 2.849e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233571, "epoch": 3.20794268, "global_step/max_steps": "42085/65595", "percentage": "64.16%", "elapsed_time": "2d 2h 2m 58s", "remaining_time": "1d 3h 57m 33s"}
+{"loss": 0.05540143, "token_acc": 0.97382199, "grad_norm": 1.28272212, "learning_rate": 2.847e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233581, "epoch": 3.20832381, "global_step/max_steps": "42090/65595", "percentage": "64.17%", "elapsed_time": "2d 2h 3m 12s", "remaining_time": "1d 3h 57m 7s"}
+{"loss": 0.06007002, "token_acc": 0.98255487, "grad_norm": 0.84014767, "learning_rate": 2.846e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233588, "epoch": 3.20870493, "global_step/max_steps": "42095/65595", "percentage": "64.17%", "elapsed_time": "2d 2h 3m 28s", "remaining_time": "1d 3h 56m 43s"}
+{"loss": 0.06009445, "token_acc": 0.97984175, "grad_norm": 1.54324269, "learning_rate": 2.845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233593, "epoch": 3.20908606, "global_step/max_steps": "42100/65595", "percentage": "64.18%", "elapsed_time": "2d 2h 3m 46s", "remaining_time": "1d 3h 56m 19s"}
+{"loss": 0.04187193, "token_acc": 0.98201936, "grad_norm": 0.66091782, "learning_rate": 2.844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233603, "epoch": 3.20946718, "global_step/max_steps": "42105/65595", "percentage": "64.19%", "elapsed_time": "2d 2h 3m 59s", "remaining_time": "1d 3h 55m 54s"}
+{"loss": 0.07802796, "token_acc": 0.97500568, "grad_norm": 1.10936439, "learning_rate": 2.843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23361, "epoch": 3.20984831, "global_step/max_steps": "42110/65595", "percentage": "64.20%", "elapsed_time": "2d 2h 4m 15s", "remaining_time": "1d 3h 55m 29s"}
+{"loss": 0.07058386, "token_acc": 0.96633079, "grad_norm": 0.98332632, "learning_rate": 2.842e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233617, "epoch": 3.21022944, "global_step/max_steps": "42115/65595", "percentage": "64.20%", "elapsed_time": "2d 2h 4m 31s", "remaining_time": "1d 3h 55m 5s"}
+{"loss": 0.05179968, "token_acc": 0.98532551, "grad_norm": 1.29112375, "learning_rate": 2.841e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233624, "epoch": 3.21061056, "global_step/max_steps": "42120/65595", "percentage": "64.21%", "elapsed_time": "2d 2h 4m 47s", "remaining_time": "1d 3h 54m 40s"}
+{"loss": 0.09086738, "token_acc": 0.96760116, "grad_norm": 1.90369022, "learning_rate": 2.84e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233627, "epoch": 3.21099169, "global_step/max_steps": "42125/65595", "percentage": "64.22%", "elapsed_time": "2d 2h 5m 6s", "remaining_time": "1d 3h 54m 18s"}
+{"loss": 0.05754185, "token_acc": 0.98281361, "grad_norm": 0.81919271, "learning_rate": 2.839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23363, "epoch": 3.21137282, "global_step/max_steps": "42130/65595", "percentage": "64.23%", "elapsed_time": "2d 2h 5m 25s", "remaining_time": "1d 3h 53m 55s"}
+{"loss": 0.05979266, "token_acc": 0.97224862, "grad_norm": 0.73039871, "learning_rate": 2.838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233636, "epoch": 3.21175394, "global_step/max_steps": "42135/65595", "percentage": "64.24%", "elapsed_time": "2d 2h 5m 42s", "remaining_time": "1d 3h 53m 31s"}
+{"loss": 0.07706949, "token_acc": 0.97380041, "grad_norm": 1.91575897, "learning_rate": 2.837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233639, "epoch": 3.21213507, "global_step/max_steps": "42140/65595", "percentage": "64.24%", "elapsed_time": "2d 2h 6m 1s", "remaining_time": "1d 3h 53m 8s"}
+{"loss": 0.07527622, "token_acc": 0.96607398, "grad_norm": 2.50694489, "learning_rate": 2.836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233645, "epoch": 3.2125162, "global_step/max_steps": "42145/65595", "percentage": "64.25%", "elapsed_time": "2d 2h 6m 18s", "remaining_time": "1d 3h 52m 44s"}
+{"loss": 0.05311764, "token_acc": 0.9786542, "grad_norm": 0.0732225, "learning_rate": 2.835e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233649, "epoch": 3.21289732, "global_step/max_steps": "42150/65595", "percentage": "64.26%", "elapsed_time": "2d 2h 6m 36s", "remaining_time": "1d 3h 52m 21s"}
+{"loss": 0.06552187, "token_acc": 0.97293141, "grad_norm": 1.09493077, "learning_rate": 2.833e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233652, "epoch": 3.21327845, "global_step/max_steps": "42155/65595", "percentage": "64.27%", "elapsed_time": "2d 2h 6m 55s", "remaining_time": "1d 3h 51m 58s"}
+{"loss": 0.10028721, "token_acc": 0.95459837, "grad_norm": 1.50637603, "learning_rate": 2.832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233661, "epoch": 3.21365958, "global_step/max_steps": "42160/65595", "percentage": "64.27%", "elapsed_time": "2d 2h 7m 10s", "remaining_time": "1d 3h 51m 33s"}
+{"loss": 0.05393578, "token_acc": 0.97875688, "grad_norm": 0.90936768, "learning_rate": 2.831e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233664, "epoch": 3.2140407, "global_step/max_steps": "42165/65595", "percentage": "64.28%", "elapsed_time": "2d 2h 7m 29s", "remaining_time": "1d 3h 51m 10s"}
+{"loss": 0.04539737, "token_acc": 0.98196286, "grad_norm": 1.20355797, "learning_rate": 2.83e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233668, "epoch": 3.21442183, "global_step/max_steps": "42170/65595", "percentage": "64.29%", "elapsed_time": "2d 2h 7m 47s", "remaining_time": "1d 3h 50m 47s"}
+{"loss": 0.06551145, "token_acc": 0.97644095, "grad_norm": 1.80145061, "learning_rate": 2.829e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233673, "epoch": 3.21480296, "global_step/max_steps": "42175/65595", "percentage": "64.30%", "elapsed_time": "2d 2h 8m 5s", "remaining_time": "1d 3h 50m 24s"}
+{"loss": 0.04845597, "token_acc": 0.9808232, "grad_norm": 1.40175104, "learning_rate": 2.828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233682, "epoch": 3.21518408, "global_step/max_steps": "42180/65595", "percentage": "64.30%", "elapsed_time": "2d 2h 8m 19s", "remaining_time": "1d 3h 49m 59s"}
+{"loss": 0.06078876, "token_acc": 0.96808857, "grad_norm": 1.54049766, "learning_rate": 2.827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23369, "epoch": 3.21556521, "global_step/max_steps": "42185/65595", "percentage": "64.31%", "elapsed_time": "2d 2h 8m 34s", "remaining_time": "1d 3h 49m 34s"}
+{"loss": 0.05747076, "token_acc": 0.98293963, "grad_norm": 0.9111979, "learning_rate": 2.826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233697, "epoch": 3.21594634, "global_step/max_steps": "42190/65595", "percentage": "64.32%", "elapsed_time": "2d 2h 8m 50s", "remaining_time": "1d 3h 49m 9s"}
+{"loss": 0.08016112, "token_acc": 0.96252998, "grad_norm": 2.23387647, "learning_rate": 2.825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233704, "epoch": 3.21632746, "global_step/max_steps": "42195/65595", "percentage": "64.33%", "elapsed_time": "2d 2h 9m 6s", "remaining_time": "1d 3h 48m 45s"}
+{"loss": 0.05830413, "token_acc": 0.97162681, "grad_norm": 0.86191857, "learning_rate": 2.824e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233708, "epoch": 3.21670859, "global_step/max_steps": "42200/65595", "percentage": "64.33%", "elapsed_time": "2d 2h 9m 25s", "remaining_time": "1d 3h 48m 22s"}
+{"eval_loss": 0.0659182, "eval_token_acc": 0.97218541, "eval_runtime": 220.1876, "eval_samples_per_second": 2.407, "eval_steps_per_second": 2.407, "epoch": 3.21670859, "global_step/max_steps": "42200/65595", "percentage": "64.33%", "elapsed_time": "2d 2h 13m 5s", "remaining_time": "1d 3h 50m 24s"}
+{"loss": 0.06179656, "token_acc": 0.97258422, "grad_norm": 0.68213761, "learning_rate": 2.823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233426, "epoch": 3.21708972, "global_step/max_steps": "42205/65595", "percentage": "64.34%", "elapsed_time": "2d 2h 13m 24s", "remaining_time": "1d 3h 50m 2s"}
+{"loss": 0.08358234, "token_acc": 0.97589928, "grad_norm": 1.06808031, "learning_rate": 2.822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233429, "epoch": 3.21747084, "global_step/max_steps": "42210/65595", "percentage": "64.35%", "elapsed_time": "2d 2h 13m 43s", "remaining_time": "1d 3h 49m 39s"}
+{"loss": 0.04245546, "token_acc": 0.97938144, "grad_norm": 1.09400773, "learning_rate": 2.82e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233437, "epoch": 3.21785197, "global_step/max_steps": "42215/65595", "percentage": "64.36%", "elapsed_time": "2d 2h 13m 58s", "remaining_time": "1d 3h 49m 14s"}
+{"loss": 0.05985979, "token_acc": 0.97222222, "grad_norm": 1.37848663, "learning_rate": 2.819e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233447, "epoch": 3.2182331, "global_step/max_steps": "42220/65595", "percentage": "64.36%", "elapsed_time": "2d 2h 14m 12s", "remaining_time": "1d 3h 48m 48s"}
+{"loss": 0.05287977, "token_acc": 0.97850387, "grad_norm": 1.01870835, "learning_rate": 2.818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233452, "epoch": 3.21861422, "global_step/max_steps": "42225/65595", "percentage": "64.37%", "elapsed_time": "2d 2h 14m 30s", "remaining_time": "1d 3h 48m 25s"}
+{"loss": 0.09550298, "token_acc": 0.96539891, "grad_norm": 1.26050413, "learning_rate": 2.817e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23346, "epoch": 3.21899535, "global_step/max_steps": "42230/65595", "percentage": "64.38%", "elapsed_time": "2d 2h 14m 45s", "remaining_time": "1d 3h 48m 0s"}
+{"loss": 0.05231426, "token_acc": 0.97882268, "grad_norm": 0.35556787, "learning_rate": 2.816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233469, "epoch": 3.21937648, "global_step/max_steps": "42235/65595", "percentage": "64.39%", "elapsed_time": "2d 2h 14m 59s", "remaining_time": "1d 3h 47m 34s"}
+{"loss": 0.06829994, "token_acc": 0.97680158, "grad_norm": 1.63587046, "learning_rate": 2.815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233478, "epoch": 3.2197576, "global_step/max_steps": "42240/65595", "percentage": "64.40%", "elapsed_time": "2d 2h 15m 14s", "remaining_time": "1d 3h 47m 9s"}
+{"loss": 0.04397525, "token_acc": 0.98015436, "grad_norm": 0.89397991, "learning_rate": 2.814e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233484, "epoch": 3.22013873, "global_step/max_steps": "42245/65595", "percentage": "64.40%", "elapsed_time": "2d 2h 15m 30s", "remaining_time": "1d 3h 46m 45s"}
+{"loss": 0.0590513, "token_acc": 0.97550346, "grad_norm": 0.78554183, "learning_rate": 2.813e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233487, "epoch": 3.22051986, "global_step/max_steps": "42250/65595", "percentage": "64.41%", "elapsed_time": "2d 2h 15m 50s", "remaining_time": "1d 3h 46m 22s"}
+{"loss": 0.05921239, "token_acc": 0.97956846, "grad_norm": 0.59179997, "learning_rate": 2.812e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233491, "epoch": 3.22090098, "global_step/max_steps": "42255/65595", "percentage": "64.42%", "elapsed_time": "2d 2h 16m 8s", "remaining_time": "1d 3h 45m 59s"}
+{"loss": 0.04139952, "token_acc": 0.98214498, "grad_norm": 0.83292061, "learning_rate": 2.811e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233492, "epoch": 3.22128211, "global_step/max_steps": "42260/65595", "percentage": "64.43%", "elapsed_time": "2d 2h 16m 29s", "remaining_time": "1d 3h 45m 38s"}
+{"loss": 0.06436174, "token_acc": 0.97841338, "grad_norm": 1.259565, "learning_rate": 2.81e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233494, "epoch": 3.22166324, "global_step/max_steps": "42265/65595", "percentage": "64.43%", "elapsed_time": "2d 2h 16m 48s", "remaining_time": "1d 3h 45m 15s"}
+{"loss": 0.05489649, "token_acc": 0.97903609, "grad_norm": 0.66232473, "learning_rate": 2.809e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233501, "epoch": 3.22204436, "global_step/max_steps": "42270/65595", "percentage": "64.44%", "elapsed_time": "2d 2h 17m 4s", "remaining_time": "1d 3h 44m 51s"}
+{"loss": 0.07188607, "token_acc": 0.97087083, "grad_norm": 0.57245994, "learning_rate": 2.808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233505, "epoch": 3.22242549, "global_step/max_steps": "42275/65595", "percentage": "64.45%", "elapsed_time": "2d 2h 17m 23s", "remaining_time": "1d 3h 44m 28s"}
+{"loss": 0.09012957, "token_acc": 0.96454562, "grad_norm": 1.09173405, "learning_rate": 2.806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23351, "epoch": 3.22280662, "global_step/max_steps": "42280/65595", "percentage": "64.46%", "elapsed_time": "2d 2h 17m 40s", "remaining_time": "1d 3h 44m 4s"}
+{"loss": 0.10426208, "token_acc": 0.95495787, "grad_norm": 1.85483456, "learning_rate": 2.805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233518, "epoch": 3.22318774, "global_step/max_steps": "42285/65595", "percentage": "64.46%", "elapsed_time": "2d 2h 17m 56s", "remaining_time": "1d 3h 43m 39s"}
+{"loss": 0.04393183, "token_acc": 0.98182867, "grad_norm": 1.23814762, "learning_rate": 2.804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233526, "epoch": 3.22356887, "global_step/max_steps": "42290/65595", "percentage": "64.47%", "elapsed_time": "2d 2h 18m 11s", "remaining_time": "1d 3h 43m 15s"}
+{"loss": 0.07227839, "token_acc": 0.97086644, "grad_norm": 0.84727019, "learning_rate": 2.803e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233531, "epoch": 3.22395, "global_step/max_steps": "42295/65595", "percentage": "64.48%", "elapsed_time": "2d 2h 18m 28s", "remaining_time": "1d 3h 42m 51s"}
+{"loss": 0.06151996, "token_acc": 0.97481813, "grad_norm": 1.90964139, "learning_rate": 2.802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233539, "epoch": 3.22433112, "global_step/max_steps": "42300/65595", "percentage": "64.49%", "elapsed_time": "2d 2h 18m 43s", "remaining_time": "1d 3h 42m 26s"}
+{"loss": 0.09945294, "token_acc": 0.9646897, "grad_norm": 1.86320162, "learning_rate": 2.801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233544, "epoch": 3.22471225, "global_step/max_steps": "42305/65595", "percentage": "64.49%", "elapsed_time": "2d 2h 19m 1s", "remaining_time": "1d 3h 42m 2s"}
+{"loss": 0.05222654, "token_acc": 0.97961243, "grad_norm": 1.19670105, "learning_rate": 2.8e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233549, "epoch": 3.22509338, "global_step/max_steps": "42310/65595", "percentage": "64.50%", "elapsed_time": "2d 2h 19m 19s", "remaining_time": "1d 3h 41m 39s"}
+{"loss": 0.04334158, "token_acc": 0.98256538, "grad_norm": 1.32445931, "learning_rate": 2.799e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233556, "epoch": 3.2254745, "global_step/max_steps": "42315/65595", "percentage": "64.51%", "elapsed_time": "2d 2h 19m 34s", "remaining_time": "1d 3h 41m 15s"}
+{"loss": 0.08988656, "token_acc": 0.97109989, "grad_norm": 2.36303568, "learning_rate": 2.798e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233563, "epoch": 3.22585563, "global_step/max_steps": "42320/65595", "percentage": "64.52%", "elapsed_time": "2d 2h 19m 50s", "remaining_time": "1d 3h 40m 50s"}
+{"loss": 0.10488255, "token_acc": 0.96105805, "grad_norm": 1.04277372, "learning_rate": 2.797e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233572, "epoch": 3.22623676, "global_step/max_steps": "42325/65595", "percentage": "64.52%", "elapsed_time": "2d 2h 20m 5s", "remaining_time": "1d 3h 40m 25s"}
+{"loss": 0.08937157, "token_acc": 0.96685083, "grad_norm": 1.17029321, "learning_rate": 2.796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233579, "epoch": 3.22661788, "global_step/max_steps": "42330/65595", "percentage": "64.53%", "elapsed_time": "2d 2h 20m 20s", "remaining_time": "1d 3h 40m 0s"}
+{"loss": 0.04470755, "token_acc": 0.97877601, "grad_norm": 0.85190135, "learning_rate": 2.795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233585, "epoch": 3.22699901, "global_step/max_steps": "42335/65595", "percentage": "64.54%", "elapsed_time": "2d 2h 20m 38s", "remaining_time": "1d 3h 39m 37s"}
+{"loss": 0.08159133, "token_acc": 0.96810507, "grad_norm": 0.98879862, "learning_rate": 2.794e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233587, "epoch": 3.22738014, "global_step/max_steps": "42340/65595", "percentage": "64.55%", "elapsed_time": "2d 2h 20m 57s", "remaining_time": "1d 3h 39m 14s"}
+{"loss": 0.04901261, "token_acc": 0.9828751, "grad_norm": 0.56590867, "learning_rate": 2.793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233591, "epoch": 3.22776126, "global_step/max_steps": "42345/65595", "percentage": "64.56%", "elapsed_time": "2d 2h 21m 15s", "remaining_time": "1d 3h 38m 51s"}
+{"loss": 0.06212977, "token_acc": 0.9728, "grad_norm": 0.18376197, "learning_rate": 2.791e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233598, "epoch": 3.22814239, "global_step/max_steps": "42350/65595", "percentage": "64.56%", "elapsed_time": "2d 2h 21m 32s", "remaining_time": "1d 3h 38m 27s"}
+{"loss": 0.04733733, "token_acc": 0.98050434, "grad_norm": 0.92010832, "learning_rate": 2.79e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233604, "epoch": 3.22852352, "global_step/max_steps": "42355/65595", "percentage": "64.57%", "elapsed_time": "2d 2h 21m 48s", "remaining_time": "1d 3h 38m 3s"}
+{"loss": 0.08147131, "token_acc": 0.97385373, "grad_norm": 0.66143703, "learning_rate": 2.789e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233613, "epoch": 3.22890464, "global_step/max_steps": "42360/65595", "percentage": "64.58%", "elapsed_time": "2d 2h 22m 3s", "remaining_time": "1d 3h 37m 38s"}
+{"loss": 0.06097877, "token_acc": 0.97813374, "grad_norm": 0.94692671, "learning_rate": 2.788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233621, "epoch": 3.22928577, "global_step/max_steps": "42365/65595", "percentage": "64.59%", "elapsed_time": "2d 2h 22m 18s", "remaining_time": "1d 3h 37m 13s"}
+{"loss": 0.05720457, "token_acc": 0.97642266, "grad_norm": 0.76646757, "learning_rate": 2.787e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233624, "epoch": 3.2296669, "global_step/max_steps": "42370/65595", "percentage": "64.59%", "elapsed_time": "2d 2h 22m 37s", "remaining_time": "1d 3h 36m 50s"}
+{"loss": 0.04413673, "token_acc": 0.9811782, "grad_norm": 0.92396688, "learning_rate": 2.786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233632, "epoch": 3.23004802, "global_step/max_steps": "42375/65595", "percentage": "64.60%", "elapsed_time": "2d 2h 22m 52s", "remaining_time": "1d 3h 36m 25s"}
+{"loss": 0.07724674, "token_acc": 0.97887971, "grad_norm": 0.78369558, "learning_rate": 2.785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23363, "epoch": 3.23042915, "global_step/max_steps": "42380/65595", "percentage": "64.61%", "elapsed_time": "2d 2h 23m 15s", "remaining_time": "1d 3h 36m 5s"}
+{"loss": 0.06362406, "token_acc": 0.97701742, "grad_norm": 0.79790562, "learning_rate": 2.784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23363, "epoch": 3.23081028, "global_step/max_steps": "42385/65595", "percentage": "64.62%", "elapsed_time": "2d 2h 23m 36s", "remaining_time": "1d 3h 35m 43s"}
+{"loss": 0.05029806, "token_acc": 0.97978037, "grad_norm": 0.65465504, "learning_rate": 2.783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233635, "epoch": 3.2311914, "global_step/max_steps": "42390/65595", "percentage": "64.62%", "elapsed_time": "2d 2h 23m 54s", "remaining_time": "1d 3h 35m 20s"}
+{"loss": 0.07314504, "token_acc": 0.97133967, "grad_norm": 0.73442775, "learning_rate": 2.782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23364, "epoch": 3.23157253, "global_step/max_steps": "42395/65595", "percentage": "64.63%", "elapsed_time": "2d 2h 24m 12s", "remaining_time": "1d 3h 34m 56s"}
+{"loss": 0.05156984, "token_acc": 0.98174222, "grad_norm": 1.65473282, "learning_rate": 2.781e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233643, "epoch": 3.23195366, "global_step/max_steps": "42400/65595", "percentage": "64.64%", "elapsed_time": "2d 2h 24m 30s", "remaining_time": "1d 3h 34m 33s"}
+{"eval_loss": 0.06537575, "eval_token_acc": 0.97287061, "eval_runtime": 220.0535, "eval_samples_per_second": 2.409, "eval_steps_per_second": 2.409, "epoch": 3.23195366, "global_step/max_steps": "42400/65595", "percentage": "64.64%", "elapsed_time": "2d 2h 28m 10s", "remaining_time": "1d 3h 36m 34s"}
+{"loss": 0.06546039, "token_acc": 0.9729916, "grad_norm": 0.68331325, "learning_rate": 2.78e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233368, "epoch": 3.23233478, "global_step/max_steps": "42405/65595", "percentage": "64.65%", "elapsed_time": "2d 2h 28m 26s", "remaining_time": "1d 3h 36m 9s"}
+{"loss": 0.05036668, "token_acc": 0.97807877, "grad_norm": 1.19894934, "learning_rate": 2.779e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233373, "epoch": 3.23271591, "global_step/max_steps": "42410/65595", "percentage": "64.65%", "elapsed_time": "2d 2h 28m 44s", "remaining_time": "1d 3h 35m 46s"}
+{"loss": 0.07751496, "token_acc": 0.96800195, "grad_norm": 1.14193261, "learning_rate": 2.777e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233378, "epoch": 3.23309703, "global_step/max_steps": "42415/65595", "percentage": "64.66%", "elapsed_time": "2d 2h 29m 1s", "remaining_time": "1d 3h 35m 22s"}
+{"loss": 0.05963137, "token_acc": 0.97688858, "grad_norm": 0.72798491, "learning_rate": 2.776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233384, "epoch": 3.23347816, "global_step/max_steps": "42420/65595", "percentage": "64.67%", "elapsed_time": "2d 2h 29m 18s", "remaining_time": "1d 3h 34m 58s"}
+{"loss": 0.05672767, "token_acc": 0.97635494, "grad_norm": 0.71938789, "learning_rate": 2.775e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233391, "epoch": 3.23385929, "global_step/max_steps": "42425/65595", "percentage": "64.68%", "elapsed_time": "2d 2h 29m 33s", "remaining_time": "1d 3h 34m 34s"}
+{"loss": 0.09787142, "token_acc": 0.96428571, "grad_norm": 2.81243348, "learning_rate": 2.774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233398, "epoch": 3.23424041, "global_step/max_steps": "42430/65595", "percentage": "64.68%", "elapsed_time": "2d 2h 29m 50s", "remaining_time": "1d 3h 34m 9s"}
+{"loss": 0.05534396, "token_acc": 0.97960099, "grad_norm": 0.83583868, "learning_rate": 2.773e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233403, "epoch": 3.23462154, "global_step/max_steps": "42435/65595", "percentage": "64.69%", "elapsed_time": "2d 2h 30m 7s", "remaining_time": "1d 3h 33m 46s"}
+{"loss": 0.08611618, "token_acc": 0.96699467, "grad_norm": 0.94656414, "learning_rate": 2.772e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233409, "epoch": 3.23500267, "global_step/max_steps": "42440/65595", "percentage": "64.70%", "elapsed_time": "2d 2h 30m 24s", "remaining_time": "1d 3h 33m 22s"}
+{"loss": 0.05265695, "token_acc": 0.97588392, "grad_norm": 1.39811611, "learning_rate": 2.771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233417, "epoch": 3.23538379, "global_step/max_steps": "42445/65595", "percentage": "64.71%", "elapsed_time": "2d 2h 30m 39s", "remaining_time": "1d 3h 32m 57s"}
+{"loss": 0.05834961, "token_acc": 0.98133078, "grad_norm": 2.13339591, "learning_rate": 2.77e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233423, "epoch": 3.23576492, "global_step/max_steps": "42450/65595", "percentage": "64.72%", "elapsed_time": "2d 2h 30m 56s", "remaining_time": "1d 3h 32m 33s"}
+{"loss": 0.03567094, "token_acc": 0.9817016, "grad_norm": 0.84913391, "learning_rate": 2.769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233428, "epoch": 3.23614605, "global_step/max_steps": "42455/65595", "percentage": "64.72%", "elapsed_time": "2d 2h 31m 14s", "remaining_time": "1d 3h 32m 10s"}
+{"loss": 0.07583128, "token_acc": 0.97037643, "grad_norm": 1.25600863, "learning_rate": 2.768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233431, "epoch": 3.23652717, "global_step/max_steps": "42460/65595", "percentage": "64.73%", "elapsed_time": "2d 2h 31m 33s", "remaining_time": "1d 3h 31m 47s"}
+{"loss": 0.03927004, "token_acc": 0.98595183, "grad_norm": 1.1431241, "learning_rate": 2.767e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233437, "epoch": 3.2369083, "global_step/max_steps": "42465/65595", "percentage": "64.74%", "elapsed_time": "2d 2h 31m 49s", "remaining_time": "1d 3h 31m 23s"}
+{"loss": 0.05524343, "token_acc": 0.97473346, "grad_norm": 0.68231905, "learning_rate": 2.766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233438, "epoch": 3.23728943, "global_step/max_steps": "42470/65595", "percentage": "64.75%", "elapsed_time": "2d 2h 32m 10s", "remaining_time": "1d 3h 31m 1s"}
+{"loss": 0.05555487, "token_acc": 0.97513645, "grad_norm": 0.91509396, "learning_rate": 2.765e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233445, "epoch": 3.23767055, "global_step/max_steps": "42475/65595", "percentage": "64.75%", "elapsed_time": "2d 2h 32m 26s", "remaining_time": "1d 3h 30m 37s"}
+{"loss": 0.05763424, "token_acc": 0.97986077, "grad_norm": 0.16562843, "learning_rate": 2.764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233453, "epoch": 3.23805168, "global_step/max_steps": "42480/65595", "percentage": "64.76%", "elapsed_time": "2d 2h 32m 41s", "remaining_time": "1d 3h 30m 12s"}
+{"loss": 0.09004406, "token_acc": 0.97810634, "grad_norm": 0.1558966, "learning_rate": 2.762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233459, "epoch": 3.23843281, "global_step/max_steps": "42485/65595", "percentage": "64.77%", "elapsed_time": "2d 2h 32m 58s", "remaining_time": "1d 3h 29m 48s"}
+{"loss": 0.06885814, "token_acc": 0.97362539, "grad_norm": 2.23508334, "learning_rate": 2.761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233466, "epoch": 3.23881393, "global_step/max_steps": "42490/65595", "percentage": "64.78%", "elapsed_time": "2d 2h 33m 14s", "remaining_time": "1d 3h 29m 23s"}
+{"loss": 0.05394958, "token_acc": 0.9750597, "grad_norm": 0.71426398, "learning_rate": 2.76e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233471, "epoch": 3.23919506, "global_step/max_steps": "42495/65595", "percentage": "64.78%", "elapsed_time": "2d 2h 33m 32s", "remaining_time": "1d 3h 29m 0s"}
+{"loss": 0.06824738, "token_acc": 0.97457522, "grad_norm": 0.99521995, "learning_rate": 2.759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233473, "epoch": 3.23957619, "global_step/max_steps": "42500/65595", "percentage": "64.79%", "elapsed_time": "2d 2h 33m 51s", "remaining_time": "1d 3h 28m 38s"}
+{"loss": 0.10317123, "token_acc": 0.97248559, "grad_norm": 2.21818471, "learning_rate": 2.758e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233478, "epoch": 3.23995731, "global_step/max_steps": "42505/65595", "percentage": "64.80%", "elapsed_time": "2d 2h 34m 9s", "remaining_time": "1d 3h 28m 14s"}
+{"loss": 0.05135198, "token_acc": 0.9788764, "grad_norm": 1.12279201, "learning_rate": 2.757e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233482, "epoch": 3.24033844, "global_step/max_steps": "42510/65595", "percentage": "64.81%", "elapsed_time": "2d 2h 34m 27s", "remaining_time": "1d 3h 27m 51s"}
+{"loss": 0.06397299, "token_acc": 0.9758176, "grad_norm": 2.15670657, "learning_rate": 2.756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233488, "epoch": 3.24071957, "global_step/max_steps": "42515/65595", "percentage": "64.81%", "elapsed_time": "2d 2h 34m 43s", "remaining_time": "1d 3h 27m 27s"}
+{"loss": 0.05491307, "token_acc": 0.97736811, "grad_norm": 0.55768287, "learning_rate": 2.755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233494, "epoch": 3.24110069, "global_step/max_steps": "42520/65595", "percentage": "64.82%", "elapsed_time": "2d 2h 35m 1s", "remaining_time": "1d 3h 27m 3s"}
+{"loss": 0.06830212, "token_acc": 0.97062937, "grad_norm": 0.89512014, "learning_rate": 2.754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233495, "epoch": 3.24148182, "global_step/max_steps": "42525/65595", "percentage": "64.83%", "elapsed_time": "2d 2h 35m 21s", "remaining_time": "1d 3h 26m 41s"}
+{"loss": 0.04888616, "token_acc": 0.97961311, "grad_norm": 0.8029421, "learning_rate": 2.753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233498, "epoch": 3.24186295, "global_step/max_steps": "42530/65595", "percentage": "64.84%", "elapsed_time": "2d 2h 35m 40s", "remaining_time": "1d 3h 26m 19s"}
+{"loss": 0.06046299, "token_acc": 0.97904328, "grad_norm": 1.60240674, "learning_rate": 2.752e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233503, "epoch": 3.24224407, "global_step/max_steps": "42535/65595", "percentage": "64.84%", "elapsed_time": "2d 2h 35m 57s", "remaining_time": "1d 3h 25m 55s"}
+{"loss": 0.07005233, "token_acc": 0.97474661, "grad_norm": 1.32318771, "learning_rate": 2.751e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233509, "epoch": 3.2426252, "global_step/max_steps": "42540/65595", "percentage": "64.85%", "elapsed_time": "2d 2h 36m 15s", "remaining_time": "1d 3h 25m 31s"}
+{"loss": 0.06078174, "token_acc": 0.97676339, "grad_norm": 0.4790107, "learning_rate": 2.75e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233511, "epoch": 3.24300633, "global_step/max_steps": "42545/65595", "percentage": "64.86%", "elapsed_time": "2d 2h 36m 34s", "remaining_time": "1d 3h 25m 9s"}
+{"loss": 0.06068713, "token_acc": 0.96977947, "grad_norm": 1.60264444, "learning_rate": 2.749e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233518, "epoch": 3.24338745, "global_step/max_steps": "42550/65595", "percentage": "64.87%", "elapsed_time": "2d 2h 36m 50s", "remaining_time": "1d 3h 24m 44s"}
+{"loss": 0.06238077, "token_acc": 0.98039673, "grad_norm": 1.17633593, "learning_rate": 2.748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233524, "epoch": 3.24376858, "global_step/max_steps": "42555/65595", "percentage": "64.88%", "elapsed_time": "2d 2h 37m 7s", "remaining_time": "1d 3h 24m 20s"}
+{"loss": 0.05665229, "token_acc": 0.97674419, "grad_norm": 0.94702274, "learning_rate": 2.746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233528, "epoch": 3.24414971, "global_step/max_steps": "42560/65595", "percentage": "64.88%", "elapsed_time": "2d 2h 37m 26s", "remaining_time": "1d 3h 23m 58s"}
+{"loss": 0.06641061, "token_acc": 0.97595576, "grad_norm": 0.8338576, "learning_rate": 2.745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233535, "epoch": 3.24453083, "global_step/max_steps": "42565/65595", "percentage": "64.89%", "elapsed_time": "2d 2h 37m 41s", "remaining_time": "1d 3h 23m 33s"}
+{"loss": 0.05849202, "token_acc": 0.96486161, "grad_norm": 0.07081363, "learning_rate": 2.744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233541, "epoch": 3.24491196, "global_step/max_steps": "42570/65595", "percentage": "64.90%", "elapsed_time": "2d 2h 37m 58s", "remaining_time": "1d 3h 23m 9s"}
+{"loss": 0.07030619, "token_acc": 0.97100372, "grad_norm": 1.28438306, "learning_rate": 2.743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233548, "epoch": 3.24529309, "global_step/max_steps": "42575/65595", "percentage": "64.91%", "elapsed_time": "2d 2h 38m 14s", "remaining_time": "1d 3h 22m 45s"}
+{"loss": 0.07388638, "token_acc": 0.97225225, "grad_norm": 1.15584958, "learning_rate": 2.742e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233556, "epoch": 3.24567421, "global_step/max_steps": "42580/65595", "percentage": "64.91%", "elapsed_time": "2d 2h 38m 29s", "remaining_time": "1d 3h 22m 20s"}
+{"loss": 0.08492366, "token_acc": 0.96798179, "grad_norm": 0.72556037, "learning_rate": 2.741e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233559, "epoch": 3.24605534, "global_step/max_steps": "42585/65595", "percentage": "64.92%", "elapsed_time": "2d 2h 38m 48s", "remaining_time": "1d 3h 21m 57s"}
+{"loss": 0.05834152, "token_acc": 0.97052542, "grad_norm": 1.1885103, "learning_rate": 2.74e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233568, "epoch": 3.24643647, "global_step/max_steps": "42590/65595", "percentage": "64.93%", "elapsed_time": "2d 2h 39m 2s", "remaining_time": "1d 3h 21m 32s"}
+{"loss": 0.04601365, "token_acc": 0.98080134, "grad_norm": 1.64990509, "learning_rate": 2.739e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233577, "epoch": 3.24681759, "global_step/max_steps": "42595/65595", "percentage": "64.94%", "elapsed_time": "2d 2h 39m 17s", "remaining_time": "1d 3h 21m 7s"}
+{"loss": 0.07959501, "token_acc": 0.97352547, "grad_norm": 0.79770249, "learning_rate": 2.738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233585, "epoch": 3.24719872, "global_step/max_steps": "42600/65595", "percentage": "64.94%", "elapsed_time": "2d 2h 39m 32s", "remaining_time": "1d 3h 20m 42s"}
+{"eval_loss": 0.06596632, "eval_token_acc": 0.97232847, "eval_runtime": 220.2794, "eval_samples_per_second": 2.406, "eval_steps_per_second": 2.406, "epoch": 3.24719872, "global_step/max_steps": "42600/65595", "percentage": "64.94%", "elapsed_time": "2d 2h 43m 12s", "remaining_time": "1d 3h 22m 41s"}
+{"loss": 0.06116113, "token_acc": 0.97263164, "grad_norm": 0.69990569, "learning_rate": 2.737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233306, "epoch": 3.24757985, "global_step/max_steps": "42605/65595", "percentage": "64.95%", "elapsed_time": "2d 2h 43m 31s", "remaining_time": "1d 3h 22m 18s"}
+{"loss": 0.06276138, "token_acc": 0.97833869, "grad_norm": 1.77524221, "learning_rate": 2.736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233304, "epoch": 3.24796097, "global_step/max_steps": "42610/65595", "percentage": "64.96%", "elapsed_time": "2d 2h 43m 54s", "remaining_time": "1d 3h 21m 58s"}
+{"loss": 0.02867301, "token_acc": 0.98601806, "grad_norm": 2.7409358, "learning_rate": 2.735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233312, "epoch": 3.2483421, "global_step/max_steps": "42615/65595", "percentage": "64.97%", "elapsed_time": "2d 2h 44m 10s", "remaining_time": "1d 3h 21m 33s"}
+{"loss": 0.07028175, "token_acc": 0.97234392, "grad_norm": 1.02453434, "learning_rate": 2.734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233319, "epoch": 3.24872323, "global_step/max_steps": "42620/65595", "percentage": "64.97%", "elapsed_time": "2d 2h 44m 25s", "remaining_time": "1d 3h 21m 9s"}
+{"loss": 0.05863792, "token_acc": 0.98108747, "grad_norm": 0.64875317, "learning_rate": 2.733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233323, "epoch": 3.24910435, "global_step/max_steps": "42625/65595", "percentage": "64.98%", "elapsed_time": "2d 2h 44m 44s", "remaining_time": "1d 3h 20m 45s"}
+{"loss": 0.04603675, "token_acc": 0.97363281, "grad_norm": 1.08309543, "learning_rate": 2.731e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233331, "epoch": 3.24948548, "global_step/max_steps": "42630/65595", "percentage": "64.99%", "elapsed_time": "2d 2h 44m 59s", "remaining_time": "1d 3h 20m 21s"}
+{"loss": 0.08038964, "token_acc": 0.96157997, "grad_norm": 0.86886859, "learning_rate": 2.73e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233338, "epoch": 3.24986661, "global_step/max_steps": "42635/65595", "percentage": "65.00%", "elapsed_time": "2d 2h 45m 15s", "remaining_time": "1d 3h 19m 56s"}
+{"loss": 0.05064168, "token_acc": 0.97791682, "grad_norm": 1.68327415, "learning_rate": 2.729e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233347, "epoch": 3.25024773, "global_step/max_steps": "42640/65595", "percentage": "65.00%", "elapsed_time": "2d 2h 45m 29s", "remaining_time": "1d 3h 19m 31s"}
+{"loss": 0.04696687, "token_acc": 0.98382821, "grad_norm": 1.34690571, "learning_rate": 2.728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233353, "epoch": 3.25062886, "global_step/max_steps": "42645/65595", "percentage": "65.01%", "elapsed_time": "2d 2h 45m 46s", "remaining_time": "1d 3h 19m 7s"}
+{"loss": 0.05144244, "token_acc": 0.97534961, "grad_norm": 0.74589097, "learning_rate": 2.727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233361, "epoch": 3.25100999, "global_step/max_steps": "42650/65595", "percentage": "65.02%", "elapsed_time": "2d 2h 46m 2s", "remaining_time": "1d 3h 18m 43s"}
+{"loss": 0.08403071, "token_acc": 0.97065124, "grad_norm": 1.19281209, "learning_rate": 2.726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233368, "epoch": 3.25139111, "global_step/max_steps": "42655/65595", "percentage": "65.03%", "elapsed_time": "2d 2h 46m 18s", "remaining_time": "1d 3h 18m 18s"}
+{"loss": 0.0670455, "token_acc": 0.9752994, "grad_norm": 3.7232554, "learning_rate": 2.725e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233376, "epoch": 3.25177224, "global_step/max_steps": "42660/65595", "percentage": "65.04%", "elapsed_time": "2d 2h 46m 32s", "remaining_time": "1d 3h 17m 53s"}
+{"loss": 0.04871947, "token_acc": 0.98206449, "grad_norm": 1.17483616, "learning_rate": 2.724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233382, "epoch": 3.25215337, "global_step/max_steps": "42665/65595", "percentage": "65.04%", "elapsed_time": "2d 2h 46m 49s", "remaining_time": "1d 3h 17m 29s"}
+{"loss": 0.05559614, "token_acc": 0.97745381, "grad_norm": 0.64391166, "learning_rate": 2.723e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233386, "epoch": 3.25253449, "global_step/max_steps": "42670/65595", "percentage": "65.05%", "elapsed_time": "2d 2h 47m 7s", "remaining_time": "1d 3h 17m 6s"}
+{"loss": 0.05920272, "token_acc": 0.9757859, "grad_norm": 1.02947259, "learning_rate": 2.722e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233388, "epoch": 3.25291562, "global_step/max_steps": "42675/65595", "percentage": "65.06%", "elapsed_time": "2d 2h 47m 27s", "remaining_time": "1d 3h 16m 44s"}
+{"loss": 0.03812982, "token_acc": 0.98501959, "grad_norm": 1.2087512, "learning_rate": 2.721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233394, "epoch": 3.25329675, "global_step/max_steps": "42680/65595", "percentage": "65.07%", "elapsed_time": "2d 2h 47m 44s", "remaining_time": "1d 3h 16m 20s"}
+{"loss": 0.06293062, "token_acc": 0.97828253, "grad_norm": 0.99246103, "learning_rate": 2.72e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2334, "epoch": 3.25367787, "global_step/max_steps": "42685/65595", "percentage": "65.07%", "elapsed_time": "2d 2h 48m 1s", "remaining_time": "1d 3h 15m 56s"}
+{"loss": 0.04352408, "token_acc": 0.98171624, "grad_norm": 1.27288342, "learning_rate": 2.719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233407, "epoch": 3.254059, "global_step/max_steps": "42690/65595", "percentage": "65.08%", "elapsed_time": "2d 2h 48m 16s", "remaining_time": "1d 3h 15m 32s"}
+{"loss": 0.05131038, "token_acc": 0.97580838, "grad_norm": 1.3397119, "learning_rate": 2.718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233415, "epoch": 3.25444013, "global_step/max_steps": "42695/65595", "percentage": "65.09%", "elapsed_time": "2d 2h 48m 32s", "remaining_time": "1d 3h 15m 7s"}
+{"loss": 0.06458284, "token_acc": 0.97435331, "grad_norm": 0.74630004, "learning_rate": 2.717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23342, "epoch": 3.25482125, "global_step/max_steps": "42700/65595", "percentage": "65.10%", "elapsed_time": "2d 2h 48m 49s", "remaining_time": "1d 3h 14m 43s"}
+{"loss": 0.06538789, "token_acc": 0.97325207, "grad_norm": 1.04463935, "learning_rate": 2.715e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233427, "epoch": 3.25520238, "global_step/max_steps": "42705/65595", "percentage": "65.10%", "elapsed_time": "2d 2h 49m 5s", "remaining_time": "1d 3h 14m 19s"}
+{"loss": 0.05527141, "token_acc": 0.97663008, "grad_norm": 0.75068474, "learning_rate": 2.714e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23343, "epoch": 3.2555835, "global_step/max_steps": "42710/65595", "percentage": "65.11%", "elapsed_time": "2d 2h 49m 24s", "remaining_time": "1d 3h 13m 56s"}
+{"loss": 0.06855988, "token_acc": 0.97476066, "grad_norm": 1.18804395, "learning_rate": 2.713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233438, "epoch": 3.25596463, "global_step/max_steps": "42715/65595", "percentage": "65.12%", "elapsed_time": "2d 2h 49m 39s", "remaining_time": "1d 3h 13m 31s"}
+{"loss": 0.05160095, "token_acc": 0.97496467, "grad_norm": 1.87009168, "learning_rate": 2.712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233444, "epoch": 3.25634576, "global_step/max_steps": "42720/65595", "percentage": "65.13%", "elapsed_time": "2d 2h 49m 56s", "remaining_time": "1d 3h 13m 8s"}
+{"loss": 0.07144472, "token_acc": 0.96345946, "grad_norm": 1.02348816, "learning_rate": 2.711e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233451, "epoch": 3.25672688, "global_step/max_steps": "42725/65595", "percentage": "65.13%", "elapsed_time": "2d 2h 50m 12s", "remaining_time": "1d 3h 12m 43s"}
+{"loss": 0.06796007, "token_acc": 0.97539797, "grad_norm": 0.98881519, "learning_rate": 2.71e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233457, "epoch": 3.25710801, "global_step/max_steps": "42730/65595", "percentage": "65.14%", "elapsed_time": "2d 2h 50m 29s", "remaining_time": "1d 3h 12m 19s"}
+{"loss": 0.05806206, "token_acc": 0.97497356, "grad_norm": 1.03386009, "learning_rate": 2.709e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233465, "epoch": 3.25748914, "global_step/max_steps": "42735/65595", "percentage": "65.15%", "elapsed_time": "2d 2h 50m 44s", "remaining_time": "1d 3h 11m 55s"}
+{"loss": 0.06254868, "token_acc": 0.97331005, "grad_norm": 0.95012248, "learning_rate": 2.708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233472, "epoch": 3.25787026, "global_step/max_steps": "42740/65595", "percentage": "65.16%", "elapsed_time": "2d 2h 51m 0s", "remaining_time": "1d 3h 11m 30s"}
+{"loss": 0.04526399, "token_acc": 0.98591804, "grad_norm": 1.81767476, "learning_rate": 2.707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233476, "epoch": 3.25825139, "global_step/max_steps": "42745/65595", "percentage": "65.17%", "elapsed_time": "2d 2h 51m 18s", "remaining_time": "1d 3h 11m 7s"}
+{"loss": 0.0621918, "token_acc": 0.97623954, "grad_norm": 1.05737567, "learning_rate": 2.706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233476, "epoch": 3.25863252, "global_step/max_steps": "42750/65595", "percentage": "65.17%", "elapsed_time": "2d 2h 51m 39s", "remaining_time": "1d 3h 10m 46s"}
+{"loss": 0.0545941, "token_acc": 0.98134957, "grad_norm": 0.81912273, "learning_rate": 2.705e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23348, "epoch": 3.25901364, "global_step/max_steps": "42755/65595", "percentage": "65.18%", "elapsed_time": "2d 2h 51m 58s", "remaining_time": "1d 3h 10m 23s"}
+{"loss": 0.03740123, "token_acc": 0.98317484, "grad_norm": 0.57903558, "learning_rate": 2.704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233487, "epoch": 3.25939477, "global_step/max_steps": "42760/65595", "percentage": "65.19%", "elapsed_time": "2d 2h 52m 14s", "remaining_time": "1d 3h 9m 58s"}
+{"loss": 0.04637461, "token_acc": 0.97747307, "grad_norm": 2.11715865, "learning_rate": 2.703e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233494, "epoch": 3.2597759, "global_step/max_steps": "42765/65595", "percentage": "65.20%", "elapsed_time": "2d 2h 52m 30s", "remaining_time": "1d 3h 9m 34s"}
+{"loss": 0.07586174, "token_acc": 0.97123069, "grad_norm": 0.8658002, "learning_rate": 2.702e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233503, "epoch": 3.26015702, "global_step/max_steps": "42770/65595", "percentage": "65.20%", "elapsed_time": "2d 2h 52m 44s", "remaining_time": "1d 3h 9m 9s"}
+{"loss": 0.06472284, "token_acc": 0.97436857, "grad_norm": 1.00512314, "learning_rate": 2.701e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233507, "epoch": 3.26053815, "global_step/max_steps": "42775/65595", "percentage": "65.21%", "elapsed_time": "2d 2h 53m 2s", "remaining_time": "1d 3h 8m 46s"}
+{"loss": 0.04558103, "token_acc": 0.98573176, "grad_norm": 0.37233555, "learning_rate": 2.7e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233515, "epoch": 3.26091928, "global_step/max_steps": "42780/65595", "percentage": "65.22%", "elapsed_time": "2d 2h 53m 18s", "remaining_time": "1d 3h 8m 21s"}
+{"loss": 0.05501596, "token_acc": 0.97692741, "grad_norm": 0.64773875, "learning_rate": 2.698e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233523, "epoch": 3.2613004, "global_step/max_steps": "42785/65595", "percentage": "65.23%", "elapsed_time": "2d 2h 53m 32s", "remaining_time": "1d 3h 7m 56s"}
+{"loss": 0.04391325, "token_acc": 0.98192253, "grad_norm": 0.70466042, "learning_rate": 2.697e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233527, "epoch": 3.26168153, "global_step/max_steps": "42790/65595", "percentage": "65.23%", "elapsed_time": "2d 2h 53m 51s", "remaining_time": "1d 3h 7m 33s"}
+{"loss": 0.03562115, "token_acc": 0.98366921, "grad_norm": 0.04762738, "learning_rate": 2.696e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233534, "epoch": 3.26206266, "global_step/max_steps": "42795/65595", "percentage": "65.24%", "elapsed_time": "2d 2h 54m 7s", "remaining_time": "1d 3h 7m 9s"}
+{"loss": 0.06260007, "token_acc": 0.97437002, "grad_norm": 0.66239393, "learning_rate": 2.695e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23354, "epoch": 3.26244378, "global_step/max_steps": "42800/65595", "percentage": "65.25%", "elapsed_time": "2d 2h 54m 24s", "remaining_time": "1d 3h 6m 45s"}
+{"eval_loss": 0.06727106, "eval_token_acc": 0.97241883, "eval_runtime": 218.6048, "eval_samples_per_second": 2.424, "eval_steps_per_second": 2.424, "epoch": 3.26244378, "global_step/max_steps": "42800/65595", "percentage": "65.25%", "elapsed_time": "2d 2h 58m 2s", "remaining_time": "1d 3h 8m 41s"}
+{"loss": 0.08656785, "token_acc": 0.97239771, "grad_norm": 2.08615136, "learning_rate": 2.694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233269, "epoch": 3.26282491, "global_step/max_steps": "42805/65595", "percentage": "65.26%", "elapsed_time": "2d 2h 58m 18s", "remaining_time": "1d 3h 8m 17s"}
+{"loss": 0.0712567, "token_acc": 0.96686601, "grad_norm": 1.31194651, "learning_rate": 2.693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233275, "epoch": 3.26320604, "global_step/max_steps": "42810/65595", "percentage": "65.26%", "elapsed_time": "2d 2h 58m 34s", "remaining_time": "1d 3h 7m 53s"}
+{"loss": 0.06106267, "token_acc": 0.97160533, "grad_norm": 1.12517309, "learning_rate": 2.692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23328, "epoch": 3.26358716, "global_step/max_steps": "42815/65595", "percentage": "65.27%", "elapsed_time": "2d 2h 58m 52s", "remaining_time": "1d 3h 7m 29s"}
+{"loss": 0.04346319, "token_acc": 0.97997497, "grad_norm": 1.56686842, "learning_rate": 2.691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23329, "epoch": 3.26396829, "global_step/max_steps": "42820/65595", "percentage": "65.28%", "elapsed_time": "2d 2h 59m 5s", "remaining_time": "1d 3h 7m 3s"}
+{"loss": 0.06582842, "token_acc": 0.97363083, "grad_norm": 1.27741849, "learning_rate": 2.69e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233299, "epoch": 3.26434942, "global_step/max_steps": "42825/65595", "percentage": "65.29%", "elapsed_time": "2d 2h 59m 20s", "remaining_time": "1d 3h 6m 38s"}
+{"loss": 0.0769267, "token_acc": 0.97507465, "grad_norm": 1.12302125, "learning_rate": 2.689e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233303, "epoch": 3.26473054, "global_step/max_steps": "42830/65595", "percentage": "65.29%", "elapsed_time": "2d 2h 59m 38s", "remaining_time": "1d 3h 6m 15s"}
+{"loss": 0.06817191, "token_acc": 0.97455875, "grad_norm": 1.13868785, "learning_rate": 2.688e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233308, "epoch": 3.26511167, "global_step/max_steps": "42835/65595", "percentage": "65.30%", "elapsed_time": "2d 2h 59m 56s", "remaining_time": "1d 3h 5m 52s"}
+{"loss": 0.06460254, "token_acc": 0.97718584, "grad_norm": 0.86006063, "learning_rate": 2.687e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23331, "epoch": 3.2654928, "global_step/max_steps": "42840/65595", "percentage": "65.31%", "elapsed_time": "2d 3h 0m 15s", "remaining_time": "1d 3h 5m 29s"}
+{"loss": 0.05943437, "token_acc": 0.97047579, "grad_norm": 0.70397645, "learning_rate": 2.686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233312, "epoch": 3.26587392, "global_step/max_steps": "42845/65595", "percentage": "65.32%", "elapsed_time": "2d 3h 0m 35s", "remaining_time": "1d 3h 5m 7s"}
+{"loss": 0.05492423, "token_acc": 0.98037332, "grad_norm": 0.48147517, "learning_rate": 2.685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233312, "epoch": 3.26625505, "global_step/max_steps": "42850/65595", "percentage": "65.33%", "elapsed_time": "2d 3h 0m 57s", "remaining_time": "1d 3h 4m 46s"}
+{"loss": 0.05920307, "token_acc": 0.96711111, "grad_norm": 1.41902363, "learning_rate": 2.684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233321, "epoch": 3.26663618, "global_step/max_steps": "42855/65595", "percentage": "65.33%", "elapsed_time": "2d 3h 1m 12s", "remaining_time": "1d 3h 4m 21s"}
+{"loss": 0.05452497, "token_acc": 0.9803431, "grad_norm": 1.79447567, "learning_rate": 2.683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233329, "epoch": 3.2670173, "global_step/max_steps": "42860/65595", "percentage": "65.34%", "elapsed_time": "2d 3h 1m 26s", "remaining_time": "1d 3h 3m 56s"}
+{"loss": 0.07820319, "token_acc": 0.97085973, "grad_norm": 2.07452297, "learning_rate": 2.681e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233334, "epoch": 3.26739843, "global_step/max_steps": "42865/65595", "percentage": "65.35%", "elapsed_time": "2d 3h 1m 44s", "remaining_time": "1d 3h 3m 32s"}
+{"loss": 0.06902635, "token_acc": 0.97217144, "grad_norm": 0.68766743, "learning_rate": 2.68e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23334, "epoch": 3.26777956, "global_step/max_steps": "42870/65595", "percentage": "65.36%", "elapsed_time": "2d 3h 2m 1s", "remaining_time": "1d 3h 3m 8s"}
+{"loss": 0.10674506, "token_acc": 0.96696538, "grad_norm": 2.25521278, "learning_rate": 2.679e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233345, "epoch": 3.26816068, "global_step/max_steps": "42875/65595", "percentage": "65.36%", "elapsed_time": "2d 3h 2m 18s", "remaining_time": "1d 3h 2m 45s"}
+{"loss": 0.03793119, "token_acc": 0.98121086, "grad_norm": 0.76711971, "learning_rate": 2.678e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233351, "epoch": 3.26854181, "global_step/max_steps": "42880/65595", "percentage": "65.37%", "elapsed_time": "2d 3h 2m 35s", "remaining_time": "1d 3h 2m 21s"}
+{"loss": 0.06871197, "token_acc": 0.97675893, "grad_norm": 1.1196847, "learning_rate": 2.677e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233357, "epoch": 3.26892294, "global_step/max_steps": "42885/65595", "percentage": "65.38%", "elapsed_time": "2d 3h 2m 51s", "remaining_time": "1d 3h 1m 57s"}
+{"loss": 0.06854056, "token_acc": 0.96631206, "grad_norm": 0.62535304, "learning_rate": 2.676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233364, "epoch": 3.26930406, "global_step/max_steps": "42890/65595", "percentage": "65.39%", "elapsed_time": "2d 3h 3m 7s", "remaining_time": "1d 3h 1m 33s"}
+{"loss": 0.05753077, "token_acc": 0.9723133, "grad_norm": 1.39823389, "learning_rate": 2.675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233372, "epoch": 3.26968519, "global_step/max_steps": "42895/65595", "percentage": "65.39%", "elapsed_time": "2d 3h 3m 22s", "remaining_time": "1d 3h 1m 8s"}
+{"loss": 0.05774574, "token_acc": 0.9703125, "grad_norm": 0.00039035, "learning_rate": 2.674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233378, "epoch": 3.27006632, "global_step/max_steps": "42900/65595", "percentage": "65.40%", "elapsed_time": "2d 3h 3m 39s", "remaining_time": "1d 3h 0m 44s"}
+{"loss": 0.04635041, "token_acc": 0.96345515, "grad_norm": 0.52796406, "learning_rate": 2.673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233386, "epoch": 3.27044744, "global_step/max_steps": "42905/65595", "percentage": "65.41%", "elapsed_time": "2d 3h 3m 54s", "remaining_time": "1d 3h 0m 19s"}
+{"loss": 0.04155416, "token_acc": 0.97632777, "grad_norm": 1.23098207, "learning_rate": 2.672e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233395, "epoch": 3.27082857, "global_step/max_steps": "42910/65595", "percentage": "65.42%", "elapsed_time": "2d 3h 4m 9s", "remaining_time": "1d 2h 59m 54s"}
+{"loss": 0.06121847, "token_acc": 0.97715431, "grad_norm": 1.03799331, "learning_rate": 2.671e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233397, "epoch": 3.2712097, "global_step/max_steps": "42915/65595", "percentage": "65.42%", "elapsed_time": "2d 3h 4m 28s", "remaining_time": "1d 2h 59m 32s"}
+{"loss": 0.06739042, "token_acc": 0.97441403, "grad_norm": 1.73006809, "learning_rate": 2.67e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233402, "epoch": 3.27159082, "global_step/max_steps": "42920/65595", "percentage": "65.43%", "elapsed_time": "2d 3h 4m 46s", "remaining_time": "1d 2h 59m 8s"}
+{"loss": 0.08511364, "token_acc": 0.96760711, "grad_norm": 1.25575852, "learning_rate": 2.669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233408, "epoch": 3.27197195, "global_step/max_steps": "42925/65595", "percentage": "65.44%", "elapsed_time": "2d 3h 5m 3s", "remaining_time": "1d 2h 58m 44s"}
+{"loss": 0.03652409, "token_acc": 0.98381344, "grad_norm": 0.53445023, "learning_rate": 2.668e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233414, "epoch": 3.27235308, "global_step/max_steps": "42930/65595", "percentage": "65.45%", "elapsed_time": "2d 3h 5m 19s", "remaining_time": "1d 2h 58m 20s"}
+{"loss": 0.07466775, "token_acc": 0.96905001, "grad_norm": 1.25389433, "learning_rate": 2.667e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233419, "epoch": 3.2727342, "global_step/max_steps": "42935/65595", "percentage": "65.45%", "elapsed_time": "2d 3h 5m 37s", "remaining_time": "1d 2h 57m 57s"}
+{"loss": 0.05427144, "token_acc": 0.97973205, "grad_norm": 1.70725596, "learning_rate": 2.666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233422, "epoch": 3.27311533, "global_step/max_steps": "42940/65595", "percentage": "65.46%", "elapsed_time": "2d 3h 5m 56s", "remaining_time": "1d 2h 57m 34s"}
+{"loss": 0.05017709, "token_acc": 0.97396811, "grad_norm": 1.26046574, "learning_rate": 2.665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233429, "epoch": 3.27349646, "global_step/max_steps": "42945/65595", "percentage": "65.47%", "elapsed_time": "2d 3h 6m 12s", "remaining_time": "1d 2h 57m 10s"}
+{"loss": 0.0461731, "token_acc": 0.98147735, "grad_norm": 1.57125223, "learning_rate": 2.663e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233436, "epoch": 3.27387758, "global_step/max_steps": "42950/65595", "percentage": "65.48%", "elapsed_time": "2d 3h 6m 28s", "remaining_time": "1d 2h 56m 46s"}
+{"loss": 0.06701436, "token_acc": 0.97536349, "grad_norm": 1.03771961, "learning_rate": 2.662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233442, "epoch": 3.27425871, "global_step/max_steps": "42955/65595", "percentage": "65.49%", "elapsed_time": "2d 3h 6m 45s", "remaining_time": "1d 2h 56m 22s"}
+{"loss": 0.05004933, "token_acc": 0.98370131, "grad_norm": 1.12448335, "learning_rate": 2.661e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23344, "epoch": 3.27463984, "global_step/max_steps": "42960/65595", "percentage": "65.49%", "elapsed_time": "2d 3h 7m 7s", "remaining_time": "1d 2h 56m 1s"}
+{"loss": 0.07120345, "token_acc": 0.97299596, "grad_norm": 1.38816893, "learning_rate": 2.66e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233446, "epoch": 3.27502096, "global_step/max_steps": "42965/65595", "percentage": "65.50%", "elapsed_time": "2d 3h 7m 24s", "remaining_time": "1d 2h 55m 37s"}
+{"loss": 0.06625649, "token_acc": 0.97553887, "grad_norm": 1.13544893, "learning_rate": 2.659e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233453, "epoch": 3.27540209, "global_step/max_steps": "42970/65595", "percentage": "65.51%", "elapsed_time": "2d 3h 7m 40s", "remaining_time": "1d 2h 55m 13s"}
+{"loss": 0.0742312, "token_acc": 0.97817048, "grad_norm": 2.00300741, "learning_rate": 2.658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23346, "epoch": 3.27578322, "global_step/max_steps": "42975/65595", "percentage": "65.52%", "elapsed_time": "2d 3h 7m 56s", "remaining_time": "1d 2h 54m 48s"}
+{"loss": 0.04553977, "token_acc": 0.97799296, "grad_norm": 0.5491851, "learning_rate": 2.657e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23347, "epoch": 3.27616434, "global_step/max_steps": "42980/65595", "percentage": "65.52%", "elapsed_time": "2d 3h 8m 10s", "remaining_time": "1d 2h 54m 23s"}
+{"loss": 0.03942431, "token_acc": 0.98529812, "grad_norm": 0.86548686, "learning_rate": 2.656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233476, "epoch": 3.27654547, "global_step/max_steps": "42985/65595", "percentage": "65.53%", "elapsed_time": "2d 3h 8m 26s", "remaining_time": "1d 2h 53m 59s"}
+{"loss": 0.07932917, "token_acc": 0.96885503, "grad_norm": 1.44151199, "learning_rate": 2.655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233483, "epoch": 3.2769266, "global_step/max_steps": "42990/65595", "percentage": "65.54%", "elapsed_time": "2d 3h 8m 42s", "remaining_time": "1d 2h 53m 35s"}
+{"loss": 0.04906262, "token_acc": 0.97682439, "grad_norm": 0.78319108, "learning_rate": 2.654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233486, "epoch": 3.27730772, "global_step/max_steps": "42995/65595", "percentage": "65.55%", "elapsed_time": "2d 3h 9m 1s", "remaining_time": "1d 2h 53m 12s"}
+{"loss": 0.05242672, "token_acc": 0.98055556, "grad_norm": 2.09740973, "learning_rate": 2.653e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233494, "epoch": 3.27768885, "global_step/max_steps": "43000/65595", "percentage": "65.55%", "elapsed_time": "2d 3h 9m 16s", "remaining_time": "1d 2h 52m 48s"}
+{"eval_loss": 0.0662974, "eval_token_acc": 0.97267484, "eval_runtime": 220.0038, "eval_samples_per_second": 2.409, "eval_steps_per_second": 2.409, "epoch": 3.27768885, "global_step/max_steps": "43000/65595", "percentage": "65.55%", "elapsed_time": "2d 3h 12m 57s", "remaining_time": "1d 2h 54m 43s"}
+{"loss": 0.07164986, "token_acc": 0.97276411, "grad_norm": 1.38872385, "learning_rate": 2.652e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233217, "epoch": 3.27806997, "global_step/max_steps": "43005/65595", "percentage": "65.56%", "elapsed_time": "2d 3h 13m 16s", "remaining_time": "1d 2h 54m 21s"}
+{"loss": 0.05299915, "token_acc": 0.98121086, "grad_norm": 0.7943815, "learning_rate": 2.651e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233225, "epoch": 3.2784511, "global_step/max_steps": "43010/65595", "percentage": "65.57%", "elapsed_time": "2d 3h 13m 31s", "remaining_time": "1d 2h 53m 56s"}
+{"loss": 0.05487885, "token_acc": 0.97748107, "grad_norm": 1.3195895, "learning_rate": 2.65e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233232, "epoch": 3.27883223, "global_step/max_steps": "43015/65595", "percentage": "65.58%", "elapsed_time": "2d 3h 13m 47s", "remaining_time": "1d 2h 53m 32s"}
+{"loss": 0.07814643, "token_acc": 0.97345699, "grad_norm": 1.59973049, "learning_rate": 2.649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233241, "epoch": 3.27921335, "global_step/max_steps": "43020/65595", "percentage": "65.58%", "elapsed_time": "2d 3h 14m 2s", "remaining_time": "1d 2h 53m 7s"}
+{"loss": 0.03801571, "token_acc": 0.98441514, "grad_norm": 0.67143905, "learning_rate": 2.648e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233244, "epoch": 3.27959448, "global_step/max_steps": "43025/65595", "percentage": "65.59%", "elapsed_time": "2d 3h 14m 21s", "remaining_time": "1d 2h 52m 44s"}
+{"loss": 0.05601095, "token_acc": 0.97786522, "grad_norm": 0.66348755, "learning_rate": 2.647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233251, "epoch": 3.27997561, "global_step/max_steps": "43030/65595", "percentage": "65.60%", "elapsed_time": "2d 3h 14m 37s", "remaining_time": "1d 2h 52m 20s"}
+{"loss": 0.05309296, "token_acc": 0.97800866, "grad_norm": 0.52239794, "learning_rate": 2.645e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233257, "epoch": 3.28035673, "global_step/max_steps": "43035/65595", "percentage": "65.61%", "elapsed_time": "2d 3h 14m 53s", "remaining_time": "1d 2h 51m 56s"}
+{"loss": 0.07242035, "token_acc": 0.97677093, "grad_norm": 1.6771009, "learning_rate": 2.644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233263, "epoch": 3.28073786, "global_step/max_steps": "43040/65595", "percentage": "65.61%", "elapsed_time": "2d 3h 15m 10s", "remaining_time": "1d 2h 51m 32s"}
+{"loss": 0.05275624, "token_acc": 0.97814208, "grad_norm": 1.27863395, "learning_rate": 2.643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233271, "epoch": 3.28111899, "global_step/max_steps": "43045/65595", "percentage": "65.62%", "elapsed_time": "2d 3h 15m 25s", "remaining_time": "1d 2h 51m 7s"}
+{"loss": 0.0656232, "token_acc": 0.97620059, "grad_norm": 0.5493511, "learning_rate": 2.642e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233274, "epoch": 3.28150011, "global_step/max_steps": "43050/65595", "percentage": "65.63%", "elapsed_time": "2d 3h 15m 44s", "remaining_time": "1d 2h 50m 44s"}
+{"loss": 0.05222303, "token_acc": 0.97852622, "grad_norm": 0.85736006, "learning_rate": 2.641e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233279, "epoch": 3.28188124, "global_step/max_steps": "43055/65595", "percentage": "65.64%", "elapsed_time": "2d 3h 16m 1s", "remaining_time": "1d 2h 50m 21s"}
+{"loss": 0.07590823, "token_acc": 0.96920991, "grad_norm": 1.65091336, "learning_rate": 2.64e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233283, "epoch": 3.28226237, "global_step/max_steps": "43060/65595", "percentage": "65.65%", "elapsed_time": "2d 3h 16m 20s", "remaining_time": "1d 2h 49m 58s"}
+{"loss": 0.0787994, "token_acc": 0.9631929, "grad_norm": 0.83397222, "learning_rate": 2.639e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233291, "epoch": 3.28264349, "global_step/max_steps": "43065/65595", "percentage": "65.65%", "elapsed_time": "2d 3h 16m 35s", "remaining_time": "1d 2h 49m 33s"}
+{"loss": 0.05225976, "token_acc": 0.96434693, "grad_norm": 1.08288848, "learning_rate": 2.638e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2333, "epoch": 3.28302462, "global_step/max_steps": "43070/65595", "percentage": "65.66%", "elapsed_time": "2d 3h 16m 50s", "remaining_time": "1d 2h 49m 8s"}
+{"loss": 0.04365266, "token_acc": 0.97680583, "grad_norm": 0.74416435, "learning_rate": 2.637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233305, "epoch": 3.28340575, "global_step/max_steps": "43075/65595", "percentage": "65.67%", "elapsed_time": "2d 3h 17m 7s", "remaining_time": "1d 2h 48m 44s"}
+{"loss": 0.08483582, "token_acc": 0.97234568, "grad_norm": 2.90389419, "learning_rate": 2.636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233313, "epoch": 3.28378687, "global_step/max_steps": "43080/65595", "percentage": "65.68%", "elapsed_time": "2d 3h 17m 22s", "remaining_time": "1d 2h 48m 20s"}
+{"loss": 0.04635392, "token_acc": 0.98499025, "grad_norm": 0.97982258, "learning_rate": 2.635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233319, "epoch": 3.284168, "global_step/max_steps": "43085/65595", "percentage": "65.68%", "elapsed_time": "2d 3h 17m 38s", "remaining_time": "1d 2h 47m 56s"}
+{"loss": 0.06758824, "token_acc": 0.97304211, "grad_norm": 0.11799737, "learning_rate": 2.634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233325, "epoch": 3.28454913, "global_step/max_steps": "43090/65595", "percentage": "65.69%", "elapsed_time": "2d 3h 17m 55s", "remaining_time": "1d 2h 47m 32s"}
+{"loss": 0.07166142, "token_acc": 0.97106552, "grad_norm": 1.00119162, "learning_rate": 2.633e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233329, "epoch": 3.28493025, "global_step/max_steps": "43095/65595", "percentage": "65.70%", "elapsed_time": "2d 3h 18m 14s", "remaining_time": "1d 2h 47m 9s"}
+{"loss": 0.07425055, "token_acc": 0.96899225, "grad_norm": 1.16521132, "learning_rate": 2.632e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233334, "epoch": 3.28531138, "global_step/max_steps": "43100/65595", "percentage": "65.71%", "elapsed_time": "2d 3h 18m 31s", "remaining_time": "1d 2h 46m 45s"}
+{"loss": 0.05553842, "token_acc": 0.97856952, "grad_norm": 1.44470561, "learning_rate": 2.631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233341, "epoch": 3.28569251, "global_step/max_steps": "43105/65595", "percentage": "65.71%", "elapsed_time": "2d 3h 18m 47s", "remaining_time": "1d 2h 46m 21s"}
+{"loss": 0.05065526, "token_acc": 0.98094701, "grad_norm": 0.60727775, "learning_rate": 2.63e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233344, "epoch": 3.28607363, "global_step/max_steps": "43110/65595", "percentage": "65.72%", "elapsed_time": "2d 3h 19m 6s", "remaining_time": "1d 2h 45m 58s"}
+{"loss": 0.06505702, "token_acc": 0.97661233, "grad_norm": 1.98636711, "learning_rate": 2.629e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233351, "epoch": 3.28645476, "global_step/max_steps": "43115/65595", "percentage": "65.73%", "elapsed_time": "2d 3h 19m 22s", "remaining_time": "1d 2h 45m 34s"}
+{"loss": 0.06778401, "token_acc": 0.97790733, "grad_norm": 1.90658164, "learning_rate": 2.628e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233359, "epoch": 3.28683589, "global_step/max_steps": "43120/65595", "percentage": "65.74%", "elapsed_time": "2d 3h 19m 37s", "remaining_time": "1d 2h 45m 9s"}
+{"loss": 0.03966891, "token_acc": 0.98593506, "grad_norm": 0.83968717, "learning_rate": 2.627e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233364, "epoch": 3.28721701, "global_step/max_steps": "43125/65595", "percentage": "65.74%", "elapsed_time": "2d 3h 19m 55s", "remaining_time": "1d 2h 44m 46s"}
+{"loss": 0.08644756, "token_acc": 0.96063794, "grad_norm": 1.41016543, "learning_rate": 2.625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233372, "epoch": 3.28759814, "global_step/max_steps": "43130/65595", "percentage": "65.75%", "elapsed_time": "2d 3h 20m 10s", "remaining_time": "1d 2h 44m 21s"}
+{"loss": 0.0644574, "token_acc": 0.97396963, "grad_norm": 1.24345195, "learning_rate": 2.624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233379, "epoch": 3.28797927, "global_step/max_steps": "43135/65595", "percentage": "65.76%", "elapsed_time": "2d 3h 20m 26s", "remaining_time": "1d 2h 43m 57s"}
+{"loss": 0.09202951, "token_acc": 0.97135582, "grad_norm": 2.1101234, "learning_rate": 2.623e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233388, "epoch": 3.28836039, "global_step/max_steps": "43140/65595", "percentage": "65.77%", "elapsed_time": "2d 3h 20m 40s", "remaining_time": "1d 2h 43m 32s"}
+{"loss": 0.06035666, "token_acc": 0.97996795, "grad_norm": 0.91225034, "learning_rate": 2.622e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233395, "epoch": 3.28874152, "global_step/max_steps": "43145/65595", "percentage": "65.77%", "elapsed_time": "2d 3h 20m 56s", "remaining_time": "1d 2h 43m 7s"}
+{"loss": 0.04865882, "token_acc": 0.97940211, "grad_norm": 1.03732955, "learning_rate": 2.621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233399, "epoch": 3.28912265, "global_step/max_steps": "43150/65595", "percentage": "65.78%", "elapsed_time": "2d 3h 21m 14s", "remaining_time": "1d 2h 42m 44s"}
+{"loss": 0.05163889, "token_acc": 0.97816255, "grad_norm": 1.122787, "learning_rate": 2.62e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233404, "epoch": 3.28950377, "global_step/max_steps": "43155/65595", "percentage": "65.79%", "elapsed_time": "2d 3h 21m 31s", "remaining_time": "1d 2h 42m 21s"}
+{"loss": 0.06953897, "token_acc": 0.96966633, "grad_norm": 1.65637541, "learning_rate": 2.619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233411, "epoch": 3.2898849, "global_step/max_steps": "43160/65595", "percentage": "65.80%", "elapsed_time": "2d 3h 21m 47s", "remaining_time": "1d 2h 41m 56s"}
+{"loss": 0.04076177, "token_acc": 0.98532851, "grad_norm": 0.4903082, "learning_rate": 2.618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233418, "epoch": 3.29026603, "global_step/max_steps": "43165/65595", "percentage": "65.81%", "elapsed_time": "2d 3h 22m 3s", "remaining_time": "1d 2h 41m 32s"}
+{"loss": 0.05232385, "token_acc": 0.97917552, "grad_norm": 1.13288713, "learning_rate": 2.617e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233422, "epoch": 3.29064715, "global_step/max_steps": "43170/65595", "percentage": "65.81%", "elapsed_time": "2d 3h 22m 21s", "remaining_time": "1d 2h 41m 9s"}
+{"loss": 0.07925751, "token_acc": 0.97241793, "grad_norm": 1.38904083, "learning_rate": 2.616e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233426, "epoch": 3.29102828, "global_step/max_steps": "43175/65595", "percentage": "65.82%", "elapsed_time": "2d 3h 22m 40s", "remaining_time": "1d 2h 40m 46s"}
+{"loss": 0.05045233, "token_acc": 0.98273512, "grad_norm": 1.47198522, "learning_rate": 2.615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233432, "epoch": 3.29140941, "global_step/max_steps": "43180/65595", "percentage": "65.83%", "elapsed_time": "2d 3h 22m 56s", "remaining_time": "1d 2h 40m 22s"}
+{"loss": 0.03218897, "token_acc": 0.98323699, "grad_norm": 1.10746658, "learning_rate": 2.614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23344, "epoch": 3.29179053, "global_step/max_steps": "43185/65595", "percentage": "65.84%", "elapsed_time": "2d 3h 23m 12s", "remaining_time": "1d 2h 39m 58s"}
+{"loss": 0.02745143, "token_acc": 0.98538891, "grad_norm": 0.06933193, "learning_rate": 2.613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233448, "epoch": 3.29217166, "global_step/max_steps": "43190/65595", "percentage": "65.84%", "elapsed_time": "2d 3h 23m 26s", "remaining_time": "1d 2h 39m 33s"}
+{"loss": 0.08856773, "token_acc": 0.97164089, "grad_norm": 0.83180124, "learning_rate": 2.612e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233452, "epoch": 3.29255279, "global_step/max_steps": "43195/65595", "percentage": "65.85%", "elapsed_time": "2d 3h 23m 45s", "remaining_time": "1d 2h 39m 10s"}
+{"loss": 0.05897339, "token_acc": 0.97950942, "grad_norm": 1.15194643, "learning_rate": 2.611e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233455, "epoch": 3.29293391, "global_step/max_steps": "43200/65595", "percentage": "65.86%", "elapsed_time": "2d 3h 24m 4s", "remaining_time": "1d 2h 38m 47s"}
+{"eval_loss": 0.06555567, "eval_token_acc": 0.97299108, "eval_runtime": 218.1299, "eval_samples_per_second": 2.43, "eval_steps_per_second": 2.43, "epoch": 3.29293391, "global_step/max_steps": "43200/65595", "percentage": "65.86%", "elapsed_time": "2d 3h 27m 42s", "remaining_time": "1d 2h 40m 40s"}
+{"loss": 0.04675832, "token_acc": 0.97343171, "grad_norm": 1.30634022, "learning_rate": 2.61e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233185, "epoch": 3.29331504, "global_step/max_steps": "43205/65595", "percentage": "65.87%", "elapsed_time": "2d 3h 28m 0s", "remaining_time": "1d 2h 40m 17s"}
+{"loss": 0.07079952, "token_acc": 0.97632024, "grad_norm": 1.37950122, "learning_rate": 2.609e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23319, "epoch": 3.29369617, "global_step/max_steps": "43210/65595", "percentage": "65.87%", "elapsed_time": "2d 3h 28m 17s", "remaining_time": "1d 2h 39m 53s"}
+{"loss": 0.04436839, "token_acc": 0.97765265, "grad_norm": 0.83751553, "learning_rate": 2.608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233195, "epoch": 3.29407729, "global_step/max_steps": "43215/65595", "percentage": "65.88%", "elapsed_time": "2d 3h 28m 34s", "remaining_time": "1d 2h 39m 29s"}
+{"loss": 0.12098459, "token_acc": 0.95158501, "grad_norm": 1.87164724, "learning_rate": 2.607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233203, "epoch": 3.29445842, "global_step/max_steps": "43220/65595", "percentage": "65.89%", "elapsed_time": "2d 3h 28m 49s", "remaining_time": "1d 2h 39m 5s"}
+{"loss": 0.07459108, "token_acc": 0.96621622, "grad_norm": 1.55506992, "learning_rate": 2.605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233212, "epoch": 3.29483955, "global_step/max_steps": "43225/65595", "percentage": "65.90%", "elapsed_time": "2d 3h 29m 4s", "remaining_time": "1d 2h 38m 40s"}
+{"loss": 0.04448285, "token_acc": 0.98356208, "grad_norm": 1.31158543, "learning_rate": 2.604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233216, "epoch": 3.29522067, "global_step/max_steps": "43230/65595", "percentage": "65.90%", "elapsed_time": "2d 3h 29m 22s", "remaining_time": "1d 2h 38m 16s"}
+{"loss": 0.08005259, "token_acc": 0.97170947, "grad_norm": 0.59322828, "learning_rate": 2.603e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233222, "epoch": 3.2956018, "global_step/max_steps": "43235/65595", "percentage": "65.91%", "elapsed_time": "2d 3h 29m 39s", "remaining_time": "1d 2h 37m 53s"}
+{"loss": 0.05584621, "token_acc": 0.98506732, "grad_norm": 0.56317794, "learning_rate": 2.602e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233227, "epoch": 3.29598293, "global_step/max_steps": "43240/65595", "percentage": "65.92%", "elapsed_time": "2d 3h 29m 56s", "remaining_time": "1d 2h 37m 29s"}
+{"loss": 0.0775714, "token_acc": 0.96922401, "grad_norm": 1.03809094, "learning_rate": 2.601e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233234, "epoch": 3.29636405, "global_step/max_steps": "43245/65595", "percentage": "65.93%", "elapsed_time": "2d 3h 30m 12s", "remaining_time": "1d 2h 37m 5s"}
+{"loss": 0.07173246, "token_acc": 0.97908497, "grad_norm": 0.96851236, "learning_rate": 2.6e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233235, "epoch": 3.29674518, "global_step/max_steps": "43250/65595", "percentage": "65.93%", "elapsed_time": "2d 3h 30m 32s", "remaining_time": "1d 2h 36m 43s"}
+{"loss": 0.05635182, "token_acc": 0.97899011, "grad_norm": 2.27535868, "learning_rate": 2.599e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233239, "epoch": 3.29712631, "global_step/max_steps": "43255/65595", "percentage": "65.94%", "elapsed_time": "2d 3h 30m 51s", "remaining_time": "1d 2h 36m 20s"}
+{"loss": 0.04113635, "token_acc": 0.97933797, "grad_norm": 0.62875748, "learning_rate": 2.598e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233244, "epoch": 3.29750743, "global_step/max_steps": "43260/65595", "percentage": "65.95%", "elapsed_time": "2d 3h 31m 9s", "remaining_time": "1d 2h 35m 57s"}
+{"loss": 0.07683412, "token_acc": 0.97612078, "grad_norm": 0.39382011, "learning_rate": 2.597e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233247, "epoch": 3.29788856, "global_step/max_steps": "43265/65595", "percentage": "65.96%", "elapsed_time": "2d 3h 31m 27s", "remaining_time": "1d 2h 35m 34s"}
+{"loss": 0.06137613, "token_acc": 0.97419193, "grad_norm": 0.54080129, "learning_rate": 2.596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233254, "epoch": 3.29826969, "global_step/max_steps": "43270/65595", "percentage": "65.97%", "elapsed_time": "2d 3h 31m 43s", "remaining_time": "1d 2h 35m 10s"}
+{"loss": 0.04948975, "token_acc": 0.97879699, "grad_norm": 0.85082775, "learning_rate": 2.595e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233258, "epoch": 3.29865081, "global_step/max_steps": "43275/65595", "percentage": "65.97%", "elapsed_time": "2d 3h 32m 1s", "remaining_time": "1d 2h 34m 46s"}
+{"loss": 0.05962207, "token_acc": 0.98049216, "grad_norm": 0.41940755, "learning_rate": 2.594e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233261, "epoch": 3.29903194, "global_step/max_steps": "43280/65595", "percentage": "65.98%", "elapsed_time": "2d 3h 32m 20s", "remaining_time": "1d 2h 34m 24s"}
+{"loss": 0.05910829, "token_acc": 0.97837122, "grad_norm": 1.17344344, "learning_rate": 2.593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233268, "epoch": 3.29941307, "global_step/max_steps": "43285/65595", "percentage": "65.99%", "elapsed_time": "2d 3h 32m 37s", "remaining_time": "1d 2h 34m 0s"}
+{"loss": 0.05860029, "token_acc": 0.97838562, "grad_norm": 1.3188318, "learning_rate": 2.592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233273, "epoch": 3.29979419, "global_step/max_steps": "43290/65595", "percentage": "66.00%", "elapsed_time": "2d 3h 32m 54s", "remaining_time": "1d 2h 33m 36s"}
+{"loss": 0.05869207, "token_acc": 0.97731431, "grad_norm": 0.9537093, "learning_rate": 2.591e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233277, "epoch": 3.30017532, "global_step/max_steps": "43295/65595", "percentage": "66.00%", "elapsed_time": "2d 3h 33m 12s", "remaining_time": "1d 2h 33m 13s"}
+{"loss": 0.05696225, "token_acc": 0.98104929, "grad_norm": 0.5334658, "learning_rate": 2.59e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233279, "epoch": 3.30055644, "global_step/max_steps": "43300/65595", "percentage": "66.01%", "elapsed_time": "2d 3h 33m 32s", "remaining_time": "1d 2h 32m 51s"}
+{"loss": 0.07813243, "token_acc": 0.97380893, "grad_norm": 0.56534129, "learning_rate": 2.589e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233284, "epoch": 3.30093757, "global_step/max_steps": "43305/65595", "percentage": "66.02%", "elapsed_time": "2d 3h 33m 49s", "remaining_time": "1d 2h 32m 27s"}
+{"loss": 0.07212315, "token_acc": 0.97714286, "grad_norm": 1.15374219, "learning_rate": 2.588e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233289, "epoch": 3.3013187, "global_step/max_steps": "43310/65595", "percentage": "66.03%", "elapsed_time": "2d 3h 34m 7s", "remaining_time": "1d 2h 32m 4s"}
+{"loss": 0.03707319, "token_acc": 0.98424108, "grad_norm": 1.065189, "learning_rate": 2.587e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233293, "epoch": 3.30169982, "global_step/max_steps": "43315/65595", "percentage": "66.03%", "elapsed_time": "2d 3h 34m 25s", "remaining_time": "1d 2h 31m 41s"}
+{"loss": 0.04096525, "token_acc": 0.98404872, "grad_norm": 1.07397926, "learning_rate": 2.586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2333, "epoch": 3.30208095, "global_step/max_steps": "43320/65595", "percentage": "66.04%", "elapsed_time": "2d 3h 34m 41s", "remaining_time": "1d 2h 31m 16s"}
+{"loss": 0.1085003, "token_acc": 0.97241379, "grad_norm": 1.37518191, "learning_rate": 2.584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233306, "epoch": 3.30246208, "global_step/max_steps": "43325/65595", "percentage": "66.05%", "elapsed_time": "2d 3h 34m 57s", "remaining_time": "1d 2h 30m 52s"}
+{"loss": 0.06470044, "token_acc": 0.97863361, "grad_norm": 0.60074276, "learning_rate": 2.583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233311, "epoch": 3.3028432, "global_step/max_steps": "43330/65595", "percentage": "66.06%", "elapsed_time": "2d 3h 35m 15s", "remaining_time": "1d 2h 30m 29s"}
+{"loss": 0.0674091, "token_acc": 0.97385621, "grad_norm": 1.00738657, "learning_rate": 2.582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233314, "epoch": 3.30322433, "global_step/max_steps": "43335/65595", "percentage": "66.06%", "elapsed_time": "2d 3h 35m 34s", "remaining_time": "1d 2h 30m 6s"}
+{"loss": 0.07285399, "token_acc": 0.97588475, "grad_norm": 0.86627191, "learning_rate": 2.581e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233321, "epoch": 3.30360546, "global_step/max_steps": "43340/65595", "percentage": "66.07%", "elapsed_time": "2d 3h 35m 50s", "remaining_time": "1d 2h 29m 42s"}
+{"loss": 0.06057998, "token_acc": 0.97988296, "grad_norm": 1.23833859, "learning_rate": 2.58e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233327, "epoch": 3.30398658, "global_step/max_steps": "43345/65595", "percentage": "66.08%", "elapsed_time": "2d 3h 36m 7s", "remaining_time": "1d 2h 29m 18s"}
+{"loss": 0.06359029, "token_acc": 0.97106205, "grad_norm": 0.52371496, "learning_rate": 2.579e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23333, "epoch": 3.30436771, "global_step/max_steps": "43350/65595", "percentage": "66.09%", "elapsed_time": "2d 3h 36m 26s", "remaining_time": "1d 2h 28m 55s"}
+{"loss": 0.05311943, "token_acc": 0.98069009, "grad_norm": 2.28790784, "learning_rate": 2.578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233333, "epoch": 3.30474884, "global_step/max_steps": "43355/65595", "percentage": "66.09%", "elapsed_time": "2d 3h 36m 45s", "remaining_time": "1d 2h 28m 33s"}
+{"loss": 0.0695025, "token_acc": 0.96879473, "grad_norm": 0.89089954, "learning_rate": 2.577e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233341, "epoch": 3.30512996, "global_step/max_steps": "43360/65595", "percentage": "66.10%", "elapsed_time": "2d 3h 36m 59s", "remaining_time": "1d 2h 28m 8s"}
+{"loss": 0.06057101, "token_acc": 0.97737966, "grad_norm": 1.61181533, "learning_rate": 2.576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233348, "epoch": 3.30551109, "global_step/max_steps": "43365/65595", "percentage": "66.11%", "elapsed_time": "2d 3h 37m 16s", "remaining_time": "1d 2h 27m 44s"}
+{"loss": 0.05794336, "token_acc": 0.97486183, "grad_norm": 0.77758276, "learning_rate": 2.575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233352, "epoch": 3.30589222, "global_step/max_steps": "43370/65595", "percentage": "66.12%", "elapsed_time": "2d 3h 37m 34s", "remaining_time": "1d 2h 27m 21s"}
+{"loss": 0.04868713, "token_acc": 0.98251192, "grad_norm": 0.53063542, "learning_rate": 2.574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233358, "epoch": 3.30627334, "global_step/max_steps": "43375/65595", "percentage": "66.13%", "elapsed_time": "2d 3h 37m 51s", "remaining_time": "1d 2h 26m 57s"}
+{"loss": 0.04907885, "token_acc": 0.9792082, "grad_norm": 1.50218046, "learning_rate": 2.573e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233365, "epoch": 3.30665447, "global_step/max_steps": "43380/65595", "percentage": "66.13%", "elapsed_time": "2d 3h 38m 7s", "remaining_time": "1d 2h 26m 33s"}
+{"loss": 0.03942303, "token_acc": 0.98365883, "grad_norm": 0.94180149, "learning_rate": 2.572e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233373, "epoch": 3.3070356, "global_step/max_steps": "43385/65595", "percentage": "66.14%", "elapsed_time": "2d 3h 38m 22s", "remaining_time": "1d 2h 26m 8s"}
+{"loss": 0.05905721, "token_acc": 0.98163138, "grad_norm": 2.55793357, "learning_rate": 2.571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233381, "epoch": 3.30741672, "global_step/max_steps": "43390/65595", "percentage": "66.15%", "elapsed_time": "2d 3h 38m 37s", "remaining_time": "1d 2h 25m 43s"}
+{"loss": 0.05392873, "token_acc": 0.98062376, "grad_norm": 0.77122265, "learning_rate": 2.57e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233382, "epoch": 3.30779785, "global_step/max_steps": "43395/65595", "percentage": "66.16%", "elapsed_time": "2d 3h 38m 57s", "remaining_time": "1d 2h 25m 21s"}
+{"loss": 0.06741967, "token_acc": 0.97653722, "grad_norm": 0.81274599, "learning_rate": 2.569e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233388, "epoch": 3.30817898, "global_step/max_steps": "43400/65595", "percentage": "66.16%", "elapsed_time": "2d 3h 39m 14s", "remaining_time": "1d 2h 24m 58s"}
+{"eval_loss": 0.06446023, "eval_token_acc": 0.9732245, "eval_runtime": 218.51, "eval_samples_per_second": 2.426, "eval_steps_per_second": 2.426, "epoch": 3.30817898, "global_step/max_steps": "43400/65595", "percentage": "66.16%", "elapsed_time": "2d 3h 42m 52s", "remaining_time": "1d 2h 26m 49s"}
+{"loss": 0.04314883, "token_acc": 0.97334708, "grad_norm": 0.85701627, "learning_rate": 2.568e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233123, "epoch": 3.3085601, "global_step/max_steps": "43405/65595", "percentage": "66.17%", "elapsed_time": "2d 3h 43m 7s", "remaining_time": "1d 2h 26m 24s"}
+{"loss": 0.06737207, "token_acc": 0.97421032, "grad_norm": 2.0318408, "learning_rate": 2.567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233127, "epoch": 3.30894123, "global_step/max_steps": "43410/65595", "percentage": "66.18%", "elapsed_time": "2d 3h 43m 25s", "remaining_time": "1d 2h 26m 1s"}
+{"loss": 0.05435967, "token_acc": 0.97720307, "grad_norm": 1.23064733, "learning_rate": 2.566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233132, "epoch": 3.30932236, "global_step/max_steps": "43415/65595", "percentage": "66.19%", "elapsed_time": "2d 3h 43m 42s", "remaining_time": "1d 2h 25m 37s"}
+{"loss": 0.06132686, "token_acc": 0.97695531, "grad_norm": 1.89723122, "learning_rate": 2.565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233135, "epoch": 3.30970348, "global_step/max_steps": "43420/65595", "percentage": "66.19%", "elapsed_time": "2d 3h 44m 1s", "remaining_time": "1d 2h 25m 15s"}
+{"loss": 0.0614313, "token_acc": 0.97726036, "grad_norm": 0.8500514, "learning_rate": 2.564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233135, "epoch": 3.31008461, "global_step/max_steps": "43425/65595", "percentage": "66.20%", "elapsed_time": "2d 3h 44m 23s", "remaining_time": "1d 2h 24m 53s"}
+{"loss": 0.06796915, "token_acc": 0.9776013, "grad_norm": 1.09695911, "learning_rate": 2.562e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23314, "epoch": 3.31046574, "global_step/max_steps": "43430/65595", "percentage": "66.21%", "elapsed_time": "2d 3h 44m 40s", "remaining_time": "1d 2h 24m 30s"}
+{"loss": 0.05262932, "token_acc": 0.97565923, "grad_norm": 1.07784927, "learning_rate": 2.561e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233144, "epoch": 3.31084686, "global_step/max_steps": "43435/65595", "percentage": "66.22%", "elapsed_time": "2d 3h 44m 58s", "remaining_time": "1d 2h 24m 7s"}
+{"loss": 0.06116399, "token_acc": 0.97275347, "grad_norm": 1.81985426, "learning_rate": 2.56e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233151, "epoch": 3.31122799, "global_step/max_steps": "43440/65595", "percentage": "66.22%", "elapsed_time": "2d 3h 45m 14s", "remaining_time": "1d 2h 23m 42s"}
+{"loss": 0.06380571, "token_acc": 0.98164117, "grad_norm": 0.90052587, "learning_rate": 2.559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23316, "epoch": 3.31160912, "global_step/max_steps": "43445/65595", "percentage": "66.23%", "elapsed_time": "2d 3h 45m 28s", "remaining_time": "1d 2h 23m 17s"}
+{"loss": 0.05601559, "token_acc": 0.98169456, "grad_norm": 0.83175504, "learning_rate": 2.558e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23317, "epoch": 3.31199024, "global_step/max_steps": "43450/65595", "percentage": "66.24%", "elapsed_time": "2d 3h 45m 42s", "remaining_time": "1d 2h 22m 52s"}
+{"loss": 0.05815285, "token_acc": 0.97140152, "grad_norm": 1.48439503, "learning_rate": 2.557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233176, "epoch": 3.31237137, "global_step/max_steps": "43455/65595", "percentage": "66.25%", "elapsed_time": "2d 3h 45m 58s", "remaining_time": "1d 2h 22m 28s"}
+{"loss": 0.05655621, "token_acc": 0.98160589, "grad_norm": 0.46903965, "learning_rate": 2.556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23318, "epoch": 3.3127525, "global_step/max_steps": "43460/65595", "percentage": "66.26%", "elapsed_time": "2d 3h 46m 17s", "remaining_time": "1d 2h 22m 5s"}
+{"loss": 0.08724917, "token_acc": 0.96744429, "grad_norm": 0.84623134, "learning_rate": 2.555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233184, "epoch": 3.31313362, "global_step/max_steps": "43465/65595", "percentage": "66.26%", "elapsed_time": "2d 3h 46m 35s", "remaining_time": "1d 2h 21m 42s"}
+{"loss": 0.06701803, "token_acc": 0.97608262, "grad_norm": 2.01183391, "learning_rate": 2.554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23319, "epoch": 3.31351475, "global_step/max_steps": "43470/65595", "percentage": "66.27%", "elapsed_time": "2d 3h 46m 52s", "remaining_time": "1d 2h 21m 18s"}
+{"loss": 0.07009116, "token_acc": 0.97321635, "grad_norm": 1.06372809, "learning_rate": 2.553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233196, "epoch": 3.31389588, "global_step/max_steps": "43475/65595", "percentage": "66.28%", "elapsed_time": "2d 3h 47m 9s", "remaining_time": "1d 2h 20m 54s"}
+{"loss": 0.06631783, "token_acc": 0.96964286, "grad_norm": 1.18409538, "learning_rate": 2.552e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233204, "epoch": 3.314277, "global_step/max_steps": "43480/65595", "percentage": "66.29%", "elapsed_time": "2d 3h 47m 23s", "remaining_time": "1d 2h 20m 29s"}
+{"loss": 0.05648255, "token_acc": 0.97745142, "grad_norm": 1.11168921, "learning_rate": 2.551e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233207, "epoch": 3.31465813, "global_step/max_steps": "43485/65595", "percentage": "66.29%", "elapsed_time": "2d 3h 47m 43s", "remaining_time": "1d 2h 20m 7s"}
+{"loss": 0.05121688, "token_acc": 0.97922889, "grad_norm": 0.68690765, "learning_rate": 2.55e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23321, "epoch": 3.31503926, "global_step/max_steps": "43490/65595", "percentage": "66.30%", "elapsed_time": "2d 3h 48m 2s", "remaining_time": "1d 2h 19m 44s"}
+{"loss": 0.04465761, "token_acc": 0.97630842, "grad_norm": 0.84094781, "learning_rate": 2.549e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233217, "epoch": 3.31542038, "global_step/max_steps": "43495/65595", "percentage": "66.31%", "elapsed_time": "2d 3h 48m 18s", "remaining_time": "1d 2h 19m 20s"}
+{"loss": 0.08092774, "token_acc": 0.97330282, "grad_norm": 1.31259859, "learning_rate": 2.548e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233225, "epoch": 3.31580151, "global_step/max_steps": "43500/65595", "percentage": "66.32%", "elapsed_time": "2d 3h 48m 32s", "remaining_time": "1d 2h 18m 55s"}
+{"loss": 0.05103256, "token_acc": 0.98294922, "grad_norm": 0.62941718, "learning_rate": 2.547e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233227, "epoch": 3.31618264, "global_step/max_steps": "43505/65595", "percentage": "66.32%", "elapsed_time": "2d 3h 48m 52s", "remaining_time": "1d 2h 18m 33s"}
+{"loss": 0.05310462, "token_acc": 0.97801926, "grad_norm": 1.78568983, "learning_rate": 2.546e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233234, "epoch": 3.31656376, "global_step/max_steps": "43510/65595", "percentage": "66.33%", "elapsed_time": "2d 3h 49m 8s", "remaining_time": "1d 2h 18m 9s"}
+{"loss": 0.04610798, "token_acc": 0.98137267, "grad_norm": 0.72500646, "learning_rate": 2.545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233238, "epoch": 3.31694489, "global_step/max_steps": "43515/65595", "percentage": "66.34%", "elapsed_time": "2d 3h 49m 27s", "remaining_time": "1d 2h 17m 46s"}
+{"loss": 0.04469256, "token_acc": 0.97542839, "grad_norm": 0.60593706, "learning_rate": 2.544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233245, "epoch": 3.31732602, "global_step/max_steps": "43520/65595", "percentage": "66.35%", "elapsed_time": "2d 3h 49m 42s", "remaining_time": "1d 2h 17m 21s"}
+{"loss": 0.06653455, "token_acc": 0.97089453, "grad_norm": 1.53416955, "learning_rate": 2.543e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233251, "epoch": 3.31770714, "global_step/max_steps": "43525/65595", "percentage": "66.35%", "elapsed_time": "2d 3h 49m 59s", "remaining_time": "1d 2h 16m 57s"}
+{"loss": 0.07075355, "token_acc": 0.97381757, "grad_norm": 0.88133264, "learning_rate": 2.542e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233254, "epoch": 3.31808827, "global_step/max_steps": "43530/65595", "percentage": "66.36%", "elapsed_time": "2d 3h 50m 18s", "remaining_time": "1d 2h 16m 35s"}
+{"loss": 0.05609139, "token_acc": 0.98098859, "grad_norm": 1.37963116, "learning_rate": 2.541e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233257, "epoch": 3.3184694, "global_step/max_steps": "43535/65595", "percentage": "66.37%", "elapsed_time": "2d 3h 50m 37s", "remaining_time": "1d 2h 16m 12s"}
+{"loss": 0.06280604, "token_acc": 0.97735994, "grad_norm": 1.95101607, "learning_rate": 2.54e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233263, "epoch": 3.31885052, "global_step/max_steps": "43540/65595", "percentage": "66.38%", "elapsed_time": "2d 3h 50m 53s", "remaining_time": "1d 2h 15m 48s"}
+{"loss": 0.03851306, "token_acc": 0.98323446, "grad_norm": 0.82341325, "learning_rate": 2.538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233271, "epoch": 3.31923165, "global_step/max_steps": "43545/65595", "percentage": "66.38%", "elapsed_time": "2d 3h 51m 9s", "remaining_time": "1d 2h 15m 24s"}
+{"loss": 0.03776336, "token_acc": 0.98430469, "grad_norm": 0.72279191, "learning_rate": 2.537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23327, "epoch": 3.31961278, "global_step/max_steps": "43550/65595", "percentage": "66.39%", "elapsed_time": "2d 3h 51m 31s", "remaining_time": "1d 2h 15m 3s"}
+{"loss": 0.06556554, "token_acc": 0.97631325, "grad_norm": 1.10761678, "learning_rate": 2.536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233272, "epoch": 3.3199939, "global_step/max_steps": "43555/65595", "percentage": "66.40%", "elapsed_time": "2d 3h 51m 50s", "remaining_time": "1d 2h 14m 40s"}
+{"loss": 0.09332823, "token_acc": 0.97210256, "grad_norm": 2.25987649, "learning_rate": 2.535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233279, "epoch": 3.32037503, "global_step/max_steps": "43560/65595", "percentage": "66.41%", "elapsed_time": "2d 3h 52m 7s", "remaining_time": "1d 2h 14m 16s"}
+{"loss": 0.06744718, "token_acc": 0.97693986, "grad_norm": 0.77813858, "learning_rate": 2.534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233286, "epoch": 3.32075616, "global_step/max_steps": "43565/65595", "percentage": "66.42%", "elapsed_time": "2d 3h 52m 22s", "remaining_time": "1d 2h 13m 52s"}
+{"loss": 0.05404967, "token_acc": 0.96580817, "grad_norm": 3.37139654, "learning_rate": 2.533e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233295, "epoch": 3.32113728, "global_step/max_steps": "43570/65595", "percentage": "66.42%", "elapsed_time": "2d 3h 52m 36s", "remaining_time": "1d 2h 13m 27s"}
+{"loss": 0.0873967, "token_acc": 0.96391239, "grad_norm": 1.10221624, "learning_rate": 2.532e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233302, "epoch": 3.32151841, "global_step/max_steps": "43575/65595", "percentage": "66.43%", "elapsed_time": "2d 3h 52m 52s", "remaining_time": "1d 2h 13m 2s"}
+{"loss": 0.05427811, "token_acc": 0.97289586, "grad_norm": 1.28156328, "learning_rate": 2.531e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233307, "epoch": 3.32189954, "global_step/max_steps": "43580/65595", "percentage": "66.44%", "elapsed_time": "2d 3h 53m 10s", "remaining_time": "1d 2h 12m 39s"}
+{"loss": 0.05037151, "token_acc": 0.97954185, "grad_norm": 0.87987137, "learning_rate": 2.53e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233309, "epoch": 3.32228066, "global_step/max_steps": "43585/65595", "percentage": "66.45%", "elapsed_time": "2d 3h 53m 30s", "remaining_time": "1d 2h 12m 17s"}
+{"loss": 0.04453511, "token_acc": 0.9793137, "grad_norm": 1.91389966, "learning_rate": 2.529e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233314, "epoch": 3.32266179, "global_step/max_steps": "43590/65595", "percentage": "66.45%", "elapsed_time": "2d 3h 53m 47s", "remaining_time": "1d 2h 11m 53s"}
+{"loss": 0.06682539, "token_acc": 0.97002924, "grad_norm": 1.35479569, "learning_rate": 2.528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233322, "epoch": 3.32304291, "global_step/max_steps": "43595/65595", "percentage": "66.46%", "elapsed_time": "2d 3h 54m 2s", "remaining_time": "1d 2h 11m 29s"}
+{"loss": 0.05053053, "token_acc": 0.98052086, "grad_norm": 1.51122439, "learning_rate": 2.527e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233327, "epoch": 3.32342404, "global_step/max_steps": "43600/65595", "percentage": "66.47%", "elapsed_time": "2d 3h 54m 19s", "remaining_time": "1d 2h 11m 5s"}
+{"eval_loss": 0.06466752, "eval_token_acc": 0.9741883, "eval_runtime": 219.6808, "eval_samples_per_second": 2.413, "eval_steps_per_second": 2.413, "epoch": 3.32342404, "global_step/max_steps": "43600/65595", "percentage": "66.47%", "elapsed_time": "2d 3h 57m 59s", "remaining_time": "1d 2h 12m 56s"}
+{"loss": 0.05153729, "token_acc": 0.97454244, "grad_norm": 0.64493912, "learning_rate": 2.526e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233053, "epoch": 3.32380517, "global_step/max_steps": "43605/65595", "percentage": "66.48%", "elapsed_time": "2d 3h 58m 21s", "remaining_time": "1d 2h 12m 35s"}
+{"loss": 0.07762969, "token_acc": 0.96367521, "grad_norm": 1.33608735, "learning_rate": 2.525e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23306, "epoch": 3.32418629, "global_step/max_steps": "43610/65595", "percentage": "66.48%", "elapsed_time": "2d 3h 58m 36s", "remaining_time": "1d 2h 12m 10s"}
+{"loss": 0.06167712, "token_acc": 0.97513228, "grad_norm": 1.21558928, "learning_rate": 2.524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233067, "epoch": 3.32456742, "global_step/max_steps": "43615/65595", "percentage": "66.49%", "elapsed_time": "2d 3h 58m 52s", "remaining_time": "1d 2h 11m 46s"}
+{"loss": 0.06268685, "token_acc": 0.96709725, "grad_norm": 1.25897717, "learning_rate": 2.523e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233075, "epoch": 3.32494855, "global_step/max_steps": "43620/65595", "percentage": "66.50%", "elapsed_time": "2d 3h 59m 8s", "remaining_time": "1d 2h 11m 21s"}
+{"loss": 0.04129598, "token_acc": 0.98633257, "grad_norm": 0.45373172, "learning_rate": 2.522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233081, "epoch": 3.32532967, "global_step/max_steps": "43625/65595", "percentage": "66.51%", "elapsed_time": "2d 3h 59m 24s", "remaining_time": "1d 2h 10m 57s"}
+{"loss": 0.09216393, "token_acc": 0.96866908, "grad_norm": 1.11265767, "learning_rate": 2.521e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233089, "epoch": 3.3257108, "global_step/max_steps": "43630/65595", "percentage": "66.51%", "elapsed_time": "2d 3h 59m 39s", "remaining_time": "1d 2h 10m 33s"}
+{"loss": 0.0681134, "token_acc": 0.98178957, "grad_norm": 0.62290466, "learning_rate": 2.52e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233096, "epoch": 3.32609193, "global_step/max_steps": "43635/65595", "percentage": "66.52%", "elapsed_time": "2d 3h 59m 55s", "remaining_time": "1d 2h 10m 8s"}
+{"loss": 0.03471006, "token_acc": 0.9793251, "grad_norm": 0.31827554, "learning_rate": 2.519e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233103, "epoch": 3.32647305, "global_step/max_steps": "43640/65595", "percentage": "66.53%", "elapsed_time": "2d 4h 0m 11s", "remaining_time": "1d 2h 9m 44s"}
+{"loss": 0.06595908, "token_acc": 0.97883598, "grad_norm": 1.80507207, "learning_rate": 2.518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233111, "epoch": 3.32685418, "global_step/max_steps": "43645/65595", "percentage": "66.54%", "elapsed_time": "2d 4h 0m 26s", "remaining_time": "1d 2h 9m 20s"}
+{"loss": 0.05830009, "token_acc": 0.9747958, "grad_norm": 1.12467861, "learning_rate": 2.517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233114, "epoch": 3.32723531, "global_step/max_steps": "43650/65595", "percentage": "66.54%", "elapsed_time": "2d 4h 0m 44s", "remaining_time": "1d 2h 8m 57s"}
+{"loss": 0.06635287, "token_acc": 0.96947536, "grad_norm": 1.69825292, "learning_rate": 2.516e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233123, "epoch": 3.32761643, "global_step/max_steps": "43655/65595", "percentage": "66.55%", "elapsed_time": "2d 4h 0m 59s", "remaining_time": "1d 2h 8m 32s"}
+{"loss": 0.04445187, "token_acc": 0.9820333, "grad_norm": 1.55448186, "learning_rate": 2.515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233132, "epoch": 3.32799756, "global_step/max_steps": "43660/65595", "percentage": "66.56%", "elapsed_time": "2d 4h 1m 13s", "remaining_time": "1d 2h 8m 7s"}
+{"loss": 0.06762506, "token_acc": 0.97128444, "grad_norm": 1.85776532, "learning_rate": 2.513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23314, "epoch": 3.32837869, "global_step/max_steps": "43665/65595", "percentage": "66.57%", "elapsed_time": "2d 4h 1m 28s", "remaining_time": "1d 2h 7m 42s"}
+{"loss": 0.06840323, "token_acc": 0.97510981, "grad_norm": 0.55907601, "learning_rate": 2.512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233146, "epoch": 3.32875981, "global_step/max_steps": "43670/65595", "percentage": "66.58%", "elapsed_time": "2d 4h 1m 45s", "remaining_time": "1d 2h 7m 18s"}
+{"loss": 0.0512059, "token_acc": 0.97265625, "grad_norm": 0.60670865, "learning_rate": 2.511e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233155, "epoch": 3.32914094, "global_step/max_steps": "43675/65595", "percentage": "66.58%", "elapsed_time": "2d 4h 1m 59s", "remaining_time": "1d 2h 6m 53s"}
+{"loss": 0.06961936, "token_acc": 0.97496891, "grad_norm": 1.20949113, "learning_rate": 2.51e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233161, "epoch": 3.32952207, "global_step/max_steps": "43680/65595", "percentage": "66.59%", "elapsed_time": "2d 4h 2m 15s", "remaining_time": "1d 2h 6m 29s"}
+{"loss": 0.05126117, "token_acc": 0.98245383, "grad_norm": 0.97923809, "learning_rate": 2.509e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233166, "epoch": 3.32990319, "global_step/max_steps": "43685/65595", "percentage": "66.60%", "elapsed_time": "2d 4h 2m 33s", "remaining_time": "1d 2h 6m 6s"}
+{"loss": 0.06261125, "token_acc": 0.97791563, "grad_norm": 0.67298549, "learning_rate": 2.508e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233167, "epoch": 3.33028432, "global_step/max_steps": "43690/65595", "percentage": "66.61%", "elapsed_time": "2d 4h 2m 54s", "remaining_time": "1d 2h 5m 44s"}
+{"loss": 0.05964976, "token_acc": 0.97912713, "grad_norm": 0.68244749, "learning_rate": 2.507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233175, "epoch": 3.33066545, "global_step/max_steps": "43695/65595", "percentage": "66.61%", "elapsed_time": "2d 4h 3m 9s", "remaining_time": "1d 2h 5m 19s"}
+{"loss": 0.07836387, "token_acc": 0.97047725, "grad_norm": 1.76496089, "learning_rate": 2.506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23318, "epoch": 3.33104657, "global_step/max_steps": "43700/65595", "percentage": "66.62%", "elapsed_time": "2d 4h 3m 26s", "remaining_time": "1d 2h 4m 56s"}
+{"loss": 0.04979646, "token_acc": 0.98226037, "grad_norm": 1.37316656, "learning_rate": 2.505e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233183, "epoch": 3.3314277, "global_step/max_steps": "43705/65595", "percentage": "66.63%", "elapsed_time": "2d 4h 3m 45s", "remaining_time": "1d 2h 4m 33s"}
+{"loss": 0.03597826, "token_acc": 0.98458406, "grad_norm": 0.14401856, "learning_rate": 2.504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23319, "epoch": 3.33180883, "global_step/max_steps": "43710/65595", "percentage": "66.64%", "elapsed_time": "2d 4h 4m 1s", "remaining_time": "1d 2h 4m 9s"}
+{"loss": 0.06637261, "token_acc": 0.97687347, "grad_norm": 1.47362733, "learning_rate": 2.503e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233195, "epoch": 3.33218995, "global_step/max_steps": "43715/65595", "percentage": "66.64%", "elapsed_time": "2d 4h 4m 18s", "remaining_time": "1d 2h 3m 45s"}
+{"loss": 0.06989908, "token_acc": 0.97635605, "grad_norm": 0.65356696, "learning_rate": 2.502e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233204, "epoch": 3.33257108, "global_step/max_steps": "43720/65595", "percentage": "66.65%", "elapsed_time": "2d 4h 4m 32s", "remaining_time": "1d 2h 3m 20s"}
+{"loss": 0.04076791, "token_acc": 0.98641115, "grad_norm": 0.63717979, "learning_rate": 2.501e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233208, "epoch": 3.33295221, "global_step/max_steps": "43725/65595", "percentage": "66.66%", "elapsed_time": "2d 4h 4m 51s", "remaining_time": "1d 2h 2m 58s"}
+{"loss": 0.06601821, "token_acc": 0.97466605, "grad_norm": 1.54982531, "learning_rate": 2.5e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233217, "epoch": 3.33333333, "global_step/max_steps": "43730/65595", "percentage": "66.67%", "elapsed_time": "2d 4h 5m 5s", "remaining_time": "1d 2h 2m 32s"}
+{"loss": 0.04082042, "token_acc": 0.98066914, "grad_norm": 0.57612139, "learning_rate": 2.499e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233221, "epoch": 3.33371446, "global_step/max_steps": "43735/65595", "percentage": "66.67%", "elapsed_time": "2d 4h 5m 23s", "remaining_time": "1d 2h 2m 9s"}
+{"loss": 0.04720513, "token_acc": 0.98097911, "grad_norm": 1.50616157, "learning_rate": 2.498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233228, "epoch": 3.33409559, "global_step/max_steps": "43740/65595", "percentage": "66.68%", "elapsed_time": "2d 4h 5m 39s", "remaining_time": "1d 2h 1m 45s"}
+{"loss": 0.04943691, "token_acc": 0.98342434, "grad_norm": 0.80821383, "learning_rate": 2.497e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233233, "epoch": 3.33447671, "global_step/max_steps": "43745/65595", "percentage": "66.69%", "elapsed_time": "2d 4h 5m 56s", "remaining_time": "1d 2h 1m 21s"}
+{"loss": 0.07809496, "token_acc": 0.97088819, "grad_norm": 1.27533305, "learning_rate": 2.496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233238, "epoch": 3.33485784, "global_step/max_steps": "43750/65595", "percentage": "66.70%", "elapsed_time": "2d 4h 6m 14s", "remaining_time": "1d 2h 0m 58s"}
+{"loss": 0.08842989, "token_acc": 0.97112861, "grad_norm": 1.83426738, "learning_rate": 2.495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233245, "epoch": 3.33523897, "global_step/max_steps": "43755/65595", "percentage": "66.70%", "elapsed_time": "2d 4h 6m 30s", "remaining_time": "1d 2h 0m 34s"}
+{"loss": 0.06074564, "token_acc": 0.97334755, "grad_norm": 0.92544079, "learning_rate": 2.494e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233251, "epoch": 3.33562009, "global_step/max_steps": "43760/65595", "percentage": "66.71%", "elapsed_time": "2d 4h 6m 46s", "remaining_time": "1d 2h 0m 10s"}
+{"loss": 0.06560835, "token_acc": 0.96857523, "grad_norm": 0.91917646, "learning_rate": 2.493e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233252, "epoch": 3.33600122, "global_step/max_steps": "43765/65595", "percentage": "66.72%", "elapsed_time": "2d 4h 7m 7s", "remaining_time": "1d 1h 59m 48s"}
+{"loss": 0.06120676, "token_acc": 0.97925113, "grad_norm": 0.54839867, "learning_rate": 2.492e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233258, "epoch": 3.33638235, "global_step/max_steps": "43770/65595", "percentage": "66.73%", "elapsed_time": "2d 4h 7m 24s", "remaining_time": "1d 1h 59m 24s"}
+{"loss": 0.04695393, "token_acc": 0.9817734, "grad_norm": 1.50451934, "learning_rate": 2.491e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233263, "epoch": 3.33676347, "global_step/max_steps": "43775/65595", "percentage": "66.74%", "elapsed_time": "2d 4h 7m 41s", "remaining_time": "1d 1h 59m 1s"}
+{"loss": 0.05209738, "token_acc": 0.97801814, "grad_norm": 1.14708257, "learning_rate": 2.49e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23327, "epoch": 3.3371446, "global_step/max_steps": "43780/65595", "percentage": "66.74%", "elapsed_time": "2d 4h 7m 57s", "remaining_time": "1d 1h 58m 37s"}
+{"loss": 0.08785346, "token_acc": 0.97414604, "grad_norm": 1.26611304, "learning_rate": 2.489e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233274, "epoch": 3.33752573, "global_step/max_steps": "43785/65595", "percentage": "66.75%", "elapsed_time": "2d 4h 8m 15s", "remaining_time": "1d 1h 58m 14s"}
+{"loss": 0.05536339, "token_acc": 0.97746274, "grad_norm": 2.3851788, "learning_rate": 2.488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233278, "epoch": 3.33790685, "global_step/max_steps": "43790/65595", "percentage": "66.76%", "elapsed_time": "2d 4h 8m 33s", "remaining_time": "1d 1h 57m 51s"}
+{"loss": 0.05363719, "token_acc": 0.98119122, "grad_norm": 1.04409564, "learning_rate": 2.487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23328, "epoch": 3.33828798, "global_step/max_steps": "43795/65595", "percentage": "66.77%", "elapsed_time": "2d 4h 8m 53s", "remaining_time": "1d 1h 57m 28s"}
+{"loss": 0.04497694, "token_acc": 0.98071749, "grad_norm": 0.24311289, "learning_rate": 2.485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233289, "epoch": 3.33866911, "global_step/max_steps": "43800/65595", "percentage": "66.77%", "elapsed_time": "2d 4h 9m 7s", "remaining_time": "1d 1h 57m 3s"}
+{"eval_loss": 0.06455516, "eval_token_acc": 0.97384194, "eval_runtime": 219.0885, "eval_samples_per_second": 2.419, "eval_steps_per_second": 2.419, "epoch": 3.33866911, "global_step/max_steps": "43800/65595", "percentage": "66.77%", "elapsed_time": "2d 4h 12m 47s", "remaining_time": "1d 1h 58m 52s"}
+{"loss": 0.08300714, "token_acc": 0.97370816, "grad_norm": 1.20253766, "learning_rate": 2.484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233022, "epoch": 3.33905023, "global_step/max_steps": "43805/65595", "percentage": "66.78%", "elapsed_time": "2d 4h 13m 4s", "remaining_time": "1d 1h 58m 29s"}
+{"loss": 0.04550258, "token_acc": 0.98254419, "grad_norm": 0.64022267, "learning_rate": 2.483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233028, "epoch": 3.33943136, "global_step/max_steps": "43810/65595", "percentage": "66.79%", "elapsed_time": "2d 4h 13m 21s", "remaining_time": "1d 1h 58m 5s"}
+{"loss": 0.05181614, "token_acc": 0.98289454, "grad_norm": 0.93811762, "learning_rate": 2.482e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233031, "epoch": 3.33981249, "global_step/max_steps": "43815/65595", "percentage": "66.80%", "elapsed_time": "2d 4h 13m 39s", "remaining_time": "1d 1h 57m 42s"}
+{"loss": 0.08114227, "token_acc": 0.97121159, "grad_norm": 1.70827138, "learning_rate": 2.481e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233035, "epoch": 3.34019361, "global_step/max_steps": "43820/65595", "percentage": "66.80%", "elapsed_time": "2d 4h 13m 58s", "remaining_time": "1d 1h 57m 19s"}
+{"loss": 0.05699493, "token_acc": 0.97448015, "grad_norm": 1.58482873, "learning_rate": 2.48e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233043, "epoch": 3.34057474, "global_step/max_steps": "43825/65595", "percentage": "66.81%", "elapsed_time": "2d 4h 14m 12s", "remaining_time": "1d 1h 56m 54s"}
+{"loss": 0.07841584, "token_acc": 0.97666018, "grad_norm": 1.31957984, "learning_rate": 2.479e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23305, "epoch": 3.34095587, "global_step/max_steps": "43830/65595", "percentage": "66.82%", "elapsed_time": "2d 4h 14m 28s", "remaining_time": "1d 1h 56m 30s"}
+{"loss": 0.03273059, "token_acc": 0.98127389, "grad_norm": 0.61241221, "learning_rate": 2.478e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233052, "epoch": 3.34133699, "global_step/max_steps": "43835/65595", "percentage": "66.83%", "elapsed_time": "2d 4h 14m 49s", "remaining_time": "1d 1h 56m 8s"}
+{"loss": 0.06582073, "token_acc": 0.97078099, "grad_norm": 0.96735471, "learning_rate": 2.477e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233059, "epoch": 3.34171812, "global_step/max_steps": "43840/65595", "percentage": "66.83%", "elapsed_time": "2d 4h 15m 4s", "remaining_time": "1d 1h 55m 44s"}
+{"loss": 0.04536491, "token_acc": 0.98284781, "grad_norm": 1.58943307, "learning_rate": 2.476e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233067, "epoch": 3.34209925, "global_step/max_steps": "43845/65595", "percentage": "66.84%", "elapsed_time": "2d 4h 15m 19s", "remaining_time": "1d 1h 55m 19s"}
+{"loss": 0.06523985, "token_acc": 0.9682938, "grad_norm": 0.1019889, "learning_rate": 2.475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233074, "epoch": 3.34248037, "global_step/max_steps": "43850/65595", "percentage": "66.85%", "elapsed_time": "2d 4h 15m 35s", "remaining_time": "1d 1h 54m 55s"}
+{"loss": 0.05881528, "token_acc": 0.97956174, "grad_norm": 1.80428207, "learning_rate": 2.474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233078, "epoch": 3.3428615, "global_step/max_steps": "43855/65595", "percentage": "66.86%", "elapsed_time": "2d 4h 15m 53s", "remaining_time": "1d 1h 54m 32s"}
+{"loss": 0.06321936, "token_acc": 0.97714875, "grad_norm": 1.14933872, "learning_rate": 2.473e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233081, "epoch": 3.34324263, "global_step/max_steps": "43860/65595", "percentage": "66.86%", "elapsed_time": "2d 4h 16m 12s", "remaining_time": "1d 1h 54m 9s"}
+{"loss": 0.05889769, "token_acc": 0.97377249, "grad_norm": 0.99391955, "learning_rate": 2.472e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233088, "epoch": 3.34362375, "global_step/max_steps": "43865/65595", "percentage": "66.87%", "elapsed_time": "2d 4h 16m 28s", "remaining_time": "1d 1h 53m 45s"}
+{"loss": 0.12778213, "token_acc": 0.94769421, "grad_norm": 4.70218706, "learning_rate": 2.471e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233095, "epoch": 3.34400488, "global_step/max_steps": "43870/65595", "percentage": "66.88%", "elapsed_time": "2d 4h 16m 44s", "remaining_time": "1d 1h 53m 21s"}
+{"loss": 0.06970478, "token_acc": 0.97326853, "grad_norm": 1.40875256, "learning_rate": 2.47e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233105, "epoch": 3.34438601, "global_step/max_steps": "43875/65595", "percentage": "66.89%", "elapsed_time": "2d 4h 16m 57s", "remaining_time": "1d 1h 52m 55s"}
+{"loss": 0.05127745, "token_acc": 0.97659127, "grad_norm": 0.97563684, "learning_rate": 2.469e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233113, "epoch": 3.34476713, "global_step/max_steps": "43880/65595", "percentage": "66.90%", "elapsed_time": "2d 4h 17m 12s", "remaining_time": "1d 1h 52m 31s"}
+{"loss": 0.07531915, "token_acc": 0.96740671, "grad_norm": 0.94261026, "learning_rate": 2.468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233115, "epoch": 3.34514826, "global_step/max_steps": "43885/65595", "percentage": "66.90%", "elapsed_time": "2d 4h 17m 32s", "remaining_time": "1d 1h 52m 8s"}
+{"loss": 0.06596051, "token_acc": 0.97574377, "grad_norm": 0.69253224, "learning_rate": 2.467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23312, "epoch": 3.34552938, "global_step/max_steps": "43890/65595", "percentage": "66.91%", "elapsed_time": "2d 4h 17m 50s", "remaining_time": "1d 1h 51m 45s"}
+{"loss": 0.05557869, "token_acc": 0.9760695, "grad_norm": 1.15681601, "learning_rate": 2.466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233126, "epoch": 3.34591051, "global_step/max_steps": "43895/65595", "percentage": "66.92%", "elapsed_time": "2d 4h 18m 6s", "remaining_time": "1d 1h 51m 21s"}
+{"loss": 0.05713763, "token_acc": 0.98137123, "grad_norm": 1.75183463, "learning_rate": 2.465e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233132, "epoch": 3.34629164, "global_step/max_steps": "43900/65595", "percentage": "66.93%", "elapsed_time": "2d 4h 18m 23s", "remaining_time": "1d 1h 50m 57s"}
+{"loss": 0.05599834, "token_acc": 0.98185291, "grad_norm": 1.51525116, "learning_rate": 2.464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233139, "epoch": 3.34667276, "global_step/max_steps": "43905/65595", "percentage": "66.93%", "elapsed_time": "2d 4h 18m 38s", "remaining_time": "1d 1h 50m 33s"}
+{"loss": 0.0654936, "token_acc": 0.9740717, "grad_norm": 0.59668034, "learning_rate": 2.463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233147, "epoch": 3.34705389, "global_step/max_steps": "43910/65595", "percentage": "66.94%", "elapsed_time": "2d 4h 18m 53s", "remaining_time": "1d 1h 50m 8s"}
+{"loss": 0.05900737, "token_acc": 0.97742818, "grad_norm": 2.56820011, "learning_rate": 2.462e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233151, "epoch": 3.34743502, "global_step/max_steps": "43915/65595", "percentage": "66.95%", "elapsed_time": "2d 4h 19m 12s", "remaining_time": "1d 1h 49m 45s"}
+{"loss": 0.05490252, "token_acc": 0.98181818, "grad_norm": 0.89178884, "learning_rate": 2.461e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233157, "epoch": 3.34781614, "global_step/max_steps": "43920/65595", "percentage": "66.96%", "elapsed_time": "2d 4h 19m 28s", "remaining_time": "1d 1h 49m 21s"}
+{"loss": 0.05599033, "token_acc": 0.97434978, "grad_norm": 1.36325729, "learning_rate": 2.46e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233163, "epoch": 3.34819727, "global_step/max_steps": "43925/65595", "percentage": "66.96%", "elapsed_time": "2d 4h 19m 45s", "remaining_time": "1d 1h 48m 58s"}
+{"loss": 0.047246, "token_acc": 0.97787043, "grad_norm": 1.51592124, "learning_rate": 2.459e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23317, "epoch": 3.3485784, "global_step/max_steps": "43930/65595", "percentage": "66.97%", "elapsed_time": "2d 4h 20m 0s", "remaining_time": "1d 1h 48m 33s"}
+{"loss": 0.05322841, "token_acc": 0.97576231, "grad_norm": 1.19157004, "learning_rate": 2.458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233175, "epoch": 3.34895952, "global_step/max_steps": "43935/65595", "percentage": "66.98%", "elapsed_time": "2d 4h 20m 18s", "remaining_time": "1d 1h 48m 10s"}
+{"loss": 0.08379314, "token_acc": 0.97472456, "grad_norm": 2.30156517, "learning_rate": 2.457e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23318, "epoch": 3.34934065, "global_step/max_steps": "43940/65595", "percentage": "66.99%", "elapsed_time": "2d 4h 20m 35s", "remaining_time": "1d 1h 47m 46s"}
+{"loss": 0.08312182, "token_acc": 0.96559633, "grad_norm": 1.12306952, "learning_rate": 2.456e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233181, "epoch": 3.34972178, "global_step/max_steps": "43945/65595", "percentage": "66.99%", "elapsed_time": "2d 4h 20m 56s", "remaining_time": "1d 1h 47m 25s"}
+{"loss": 0.03673868, "token_acc": 0.97899513, "grad_norm": 0.05398151, "learning_rate": 2.455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233187, "epoch": 3.3501029, "global_step/max_steps": "43950/65595", "percentage": "67.00%", "elapsed_time": "2d 4h 21m 13s", "remaining_time": "1d 1h 47m 1s"}
+{"loss": 0.04009226, "token_acc": 0.98210981, "grad_norm": 1.30093765, "learning_rate": 2.453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233194, "epoch": 3.35048403, "global_step/max_steps": "43955/65595", "percentage": "67.01%", "elapsed_time": "2d 4h 21m 29s", "remaining_time": "1d 1h 46m 37s"}
+{"loss": 0.04388972, "token_acc": 0.97780518, "grad_norm": 0.72066009, "learning_rate": 2.452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233198, "epoch": 3.35086516, "global_step/max_steps": "43960/65595", "percentage": "67.02%", "elapsed_time": "2d 4h 21m 47s", "remaining_time": "1d 1h 46m 14s"}
+{"loss": 0.06156777, "token_acc": 0.96601124, "grad_norm": 1.75179923, "learning_rate": 2.451e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233206, "epoch": 3.35124628, "global_step/max_steps": "43965/65595", "percentage": "67.02%", "elapsed_time": "2d 4h 22m 2s", "remaining_time": "1d 1h 45m 49s"}
+{"loss": 0.04032197, "token_acc": 0.98612245, "grad_norm": 0.91293907, "learning_rate": 2.45e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233208, "epoch": 3.35162741, "global_step/max_steps": "43970/65595", "percentage": "67.03%", "elapsed_time": "2d 4h 22m 21s", "remaining_time": "1d 1h 45m 27s"}
+{"loss": 0.0591914, "token_acc": 0.97718297, "grad_norm": 0.66057855, "learning_rate": 2.449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233217, "epoch": 3.35200854, "global_step/max_steps": "43975/65595", "percentage": "67.04%", "elapsed_time": "2d 4h 22m 36s", "remaining_time": "1d 1h 45m 2s"}
+{"loss": 0.06732171, "token_acc": 0.97265203, "grad_norm": 0.79590142, "learning_rate": 2.448e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233223, "epoch": 3.35238966, "global_step/max_steps": "43980/65595", "percentage": "67.05%", "elapsed_time": "2d 4h 22m 52s", "remaining_time": "1d 1h 44m 38s"}
+{"loss": 0.06435588, "token_acc": 0.97588256, "grad_norm": 0.73981631, "learning_rate": 2.447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233231, "epoch": 3.35277079, "global_step/max_steps": "43985/65595", "percentage": "67.06%", "elapsed_time": "2d 4h 23m 7s", "remaining_time": "1d 1h 44m 13s"}
+{"loss": 0.06353882, "token_acc": 0.97676405, "grad_norm": 0.64806587, "learning_rate": 2.446e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233236, "epoch": 3.35315192, "global_step/max_steps": "43990/65595", "percentage": "67.06%", "elapsed_time": "2d 4h 23m 25s", "remaining_time": "1d 1h 43m 50s"}
+{"loss": 0.05610813, "token_acc": 0.98029557, "grad_norm": 1.91849637, "learning_rate": 2.445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233246, "epoch": 3.35353304, "global_step/max_steps": "43995/65595", "percentage": "67.07%", "elapsed_time": "2d 4h 23m 38s", "remaining_time": "1d 1h 43m 25s"}
+{"loss": 0.04954137, "token_acc": 0.98088569, "grad_norm": 0.86909562, "learning_rate": 2.444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233251, "epoch": 3.35391417, "global_step/max_steps": "44000/65595", "percentage": "67.08%", "elapsed_time": "2d 4h 23m 55s", "remaining_time": "1d 1h 43m 1s"}
+{"eval_loss": 0.06412083, "eval_token_acc": 0.97392476, "eval_runtime": 219.9004, "eval_samples_per_second": 2.41, "eval_steps_per_second": 2.41, "epoch": 3.35391417, "global_step/max_steps": "44000/65595", "percentage": "67.08%", "elapsed_time": "2d 4h 27m 35s", "remaining_time": "1d 1h 44m 49s"}
+{"loss": 0.06798669, "token_acc": 0.97389631, "grad_norm": 2.76120639, "learning_rate": 2.443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232986, "epoch": 3.3542953, "global_step/max_steps": "44005/65595", "percentage": "67.09%", "elapsed_time": "2d 4h 27m 51s", "remaining_time": "1d 1h 44m 25s"}
+{"loss": 0.06509631, "token_acc": 0.9722135, "grad_norm": 0.76989472, "learning_rate": 2.442e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23299, "epoch": 3.35467642, "global_step/max_steps": "44010/65595", "percentage": "67.09%", "elapsed_time": "2d 4h 28m 9s", "remaining_time": "1d 1h 44m 2s"}
+{"loss": 0.05350332, "token_acc": 0.98189415, "grad_norm": 0.89051008, "learning_rate": 2.441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232992, "epoch": 3.35505755, "global_step/max_steps": "44015/65595", "percentage": "67.10%", "elapsed_time": "2d 4h 28m 30s", "remaining_time": "1d 1h 43m 40s"}
+{"loss": 0.05743293, "token_acc": 0.97175325, "grad_norm": 1.14314389, "learning_rate": 2.44e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233, "epoch": 3.35543868, "global_step/max_steps": "44020/65595", "percentage": "67.11%", "elapsed_time": "2d 4h 28m 44s", "remaining_time": "1d 1h 43m 15s"}
+{"loss": 0.08503877, "token_acc": 0.96621466, "grad_norm": 1.58858764, "learning_rate": 2.439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233007, "epoch": 3.3558198, "global_step/max_steps": "44025/65595", "percentage": "67.12%", "elapsed_time": "2d 4h 29m 0s", "remaining_time": "1d 1h 42m 51s"}
+{"loss": 0.03536791, "token_acc": 0.98312919, "grad_norm": 1.32176292, "learning_rate": 2.438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233013, "epoch": 3.35620093, "global_step/max_steps": "44030/65595", "percentage": "67.12%", "elapsed_time": "2d 4h 29m 17s", "remaining_time": "1d 1h 42m 27s"}
+{"loss": 0.07088248, "token_acc": 0.97613397, "grad_norm": 1.44499362, "learning_rate": 2.437e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233016, "epoch": 3.35658206, "global_step/max_steps": "44035/65595", "percentage": "67.13%", "elapsed_time": "2d 4h 29m 35s", "remaining_time": "1d 1h 42m 4s"}
+{"loss": 0.06280833, "token_acc": 0.96922048, "grad_norm": 1.49853766, "learning_rate": 2.436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233023, "epoch": 3.35696318, "global_step/max_steps": "44040/65595", "percentage": "67.14%", "elapsed_time": "2d 4h 29m 51s", "remaining_time": "1d 1h 41m 40s"}
+{"loss": 0.05599725, "token_acc": 0.97918704, "grad_norm": 0.50515801, "learning_rate": 2.435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233026, "epoch": 3.35734431, "global_step/max_steps": "44045/65595", "percentage": "67.15%", "elapsed_time": "2d 4h 30m 10s", "remaining_time": "1d 1h 41m 17s"}
+{"loss": 0.04296435, "token_acc": 0.98029903, "grad_norm": 0.82347918, "learning_rate": 2.434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233031, "epoch": 3.35772544, "global_step/max_steps": "44050/65595", "percentage": "67.15%", "elapsed_time": "2d 4h 30m 28s", "remaining_time": "1d 1h 40m 54s"}
+{"loss": 0.0756291, "token_acc": 0.95787219, "grad_norm": 0.88422179, "learning_rate": 2.433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233039, "epoch": 3.35810656, "global_step/max_steps": "44055/65595", "percentage": "67.16%", "elapsed_time": "2d 4h 30m 43s", "remaining_time": "1d 1h 40m 29s"}
+{"loss": 0.04978635, "token_acc": 0.98595556, "grad_norm": 0.40543967, "learning_rate": 2.432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233044, "epoch": 3.35848769, "global_step/max_steps": "44060/65595", "percentage": "67.17%", "elapsed_time": "2d 4h 31m 1s", "remaining_time": "1d 1h 40m 6s"}
+{"loss": 0.07160643, "token_acc": 0.97685835, "grad_norm": 1.47488725, "learning_rate": 2.431e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233047, "epoch": 3.35886882, "global_step/max_steps": "44065/65595", "percentage": "67.18%", "elapsed_time": "2d 4h 31m 20s", "remaining_time": "1d 1h 39m 43s"}
+{"loss": 0.05800719, "token_acc": 0.9756056, "grad_norm": 1.58995414, "learning_rate": 2.43e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233052, "epoch": 3.35924994, "global_step/max_steps": "44070/65595", "percentage": "67.18%", "elapsed_time": "2d 4h 31m 37s", "remaining_time": "1d 1h 39m 20s"}
+{"loss": 0.06516411, "token_acc": 0.9716996, "grad_norm": 1.01993632, "learning_rate": 2.429e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233058, "epoch": 3.35963107, "global_step/max_steps": "44075/65595", "percentage": "67.19%", "elapsed_time": "2d 4h 31m 53s", "remaining_time": "1d 1h 38m 56s"}
+{"loss": 0.07612704, "token_acc": 0.98488534, "grad_norm": 0.82844019, "learning_rate": 2.428e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233061, "epoch": 3.3600122, "global_step/max_steps": "44080/65595", "percentage": "67.20%", "elapsed_time": "2d 4h 32m 12s", "remaining_time": "1d 1h 38m 33s"}
+{"loss": 0.04049389, "token_acc": 0.98441645, "grad_norm": 1.6373055, "learning_rate": 2.427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233069, "epoch": 3.36039332, "global_step/max_steps": "44085/65595", "percentage": "67.21%", "elapsed_time": "2d 4h 32m 27s", "remaining_time": "1d 1h 38m 9s"}
+{"loss": 0.03842378, "token_acc": 0.98049564, "grad_norm": 0.97013664, "learning_rate": 2.426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233076, "epoch": 3.36077445, "global_step/max_steps": "44090/65595", "percentage": "67.22%", "elapsed_time": "2d 4h 32m 43s", "remaining_time": "1d 1h 37m 45s"}
+{"loss": 0.04973369, "token_acc": 0.97677443, "grad_norm": 1.21291614, "learning_rate": 2.425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233083, "epoch": 3.36115558, "global_step/max_steps": "44095/65595", "percentage": "67.22%", "elapsed_time": "2d 4h 32m 59s", "remaining_time": "1d 1h 37m 20s"}
+{"loss": 0.05670593, "token_acc": 0.97104608, "grad_norm": 1.0093894, "learning_rate": 2.424e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23309, "epoch": 3.3615367, "global_step/max_steps": "44100/65595", "percentage": "67.23%", "elapsed_time": "2d 4h 33m 15s", "remaining_time": "1d 1h 36m 56s"}
+{"loss": 0.0902694, "token_acc": 0.96152238, "grad_norm": 1.32444417, "learning_rate": 2.423e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233095, "epoch": 3.36191783, "global_step/max_steps": "44105/65595", "percentage": "67.24%", "elapsed_time": "2d 4h 33m 32s", "remaining_time": "1d 1h 36m 33s"}
+{"loss": 0.04120636, "token_acc": 0.98171, "grad_norm": 0.57518059, "learning_rate": 2.422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233101, "epoch": 3.36229896, "global_step/max_steps": "44110/65595", "percentage": "67.25%", "elapsed_time": "2d 4h 33m 48s", "remaining_time": "1d 1h 36m 9s"}
+{"loss": 0.0450857, "token_acc": 0.98214903, "grad_norm": 0.47908026, "learning_rate": 2.421e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233102, "epoch": 3.36268008, "global_step/max_steps": "44115/65595", "percentage": "67.25%", "elapsed_time": "2d 4h 34m 9s", "remaining_time": "1d 1h 35m 47s"}
+{"loss": 0.04757299, "token_acc": 0.97413262, "grad_norm": 0.96487761, "learning_rate": 2.42e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233109, "epoch": 3.36306121, "global_step/max_steps": "44120/65595", "percentage": "67.26%", "elapsed_time": "2d 4h 34m 25s", "remaining_time": "1d 1h 35m 23s"}
+{"loss": 0.0489373, "token_acc": 0.97968176, "grad_norm": 1.36445415, "learning_rate": 2.419e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233116, "epoch": 3.36344234, "global_step/max_steps": "44125/65595", "percentage": "67.27%", "elapsed_time": "2d 4h 34m 41s", "remaining_time": "1d 1h 34m 59s"}
+{"loss": 0.04947633, "token_acc": 0.97900984, "grad_norm": 1.01982749, "learning_rate": 2.418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233118, "epoch": 3.36382346, "global_step/max_steps": "44130/65595", "percentage": "67.28%", "elapsed_time": "2d 4h 35m 1s", "remaining_time": "1d 1h 34m 36s"}
+{"loss": 0.07878044, "token_acc": 0.9683597, "grad_norm": 1.21923363, "learning_rate": 2.416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233126, "epoch": 3.36420459, "global_step/max_steps": "44135/65595", "percentage": "67.28%", "elapsed_time": "2d 4h 35m 16s", "remaining_time": "1d 1h 34m 12s"}
+{"loss": 0.0724621, "token_acc": 0.97379392, "grad_norm": 1.26900947, "learning_rate": 2.415e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233132, "epoch": 3.36458572, "global_step/max_steps": "44140/65595", "percentage": "67.29%", "elapsed_time": "2d 4h 35m 32s", "remaining_time": "1d 1h 33m 48s"}
+{"loss": 0.04112608, "token_acc": 0.98235053, "grad_norm": 0.75931489, "learning_rate": 2.414e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233132, "epoch": 3.36496684, "global_step/max_steps": "44145/65595", "percentage": "67.30%", "elapsed_time": "2d 4h 35m 53s", "remaining_time": "1d 1h 33m 26s"}
+{"loss": 0.06483138, "token_acc": 0.97495573, "grad_norm": 0.56824869, "learning_rate": 2.413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233136, "epoch": 3.36534797, "global_step/max_steps": "44150/65595", "percentage": "67.31%", "elapsed_time": "2d 4h 36m 12s", "remaining_time": "1d 1h 33m 3s"}
+{"loss": 0.06908537, "token_acc": 0.9738277, "grad_norm": 2.15680242, "learning_rate": 2.412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233145, "epoch": 3.3657291, "global_step/max_steps": "44155/65595", "percentage": "67.31%", "elapsed_time": "2d 4h 36m 26s", "remaining_time": "1d 1h 32m 38s"}
+{"loss": 0.03600887, "token_acc": 0.97789262, "grad_norm": 0.89539278, "learning_rate": 2.411e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233153, "epoch": 3.36611022, "global_step/max_steps": "44160/65595", "percentage": "67.32%", "elapsed_time": "2d 4h 36m 41s", "remaining_time": "1d 1h 32m 14s"}
+{"loss": 0.04886245, "token_acc": 0.98087432, "grad_norm": 2.86656165, "learning_rate": 2.41e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233161, "epoch": 3.36649135, "global_step/max_steps": "44165/65595", "percentage": "67.33%", "elapsed_time": "2d 4h 36m 56s", "remaining_time": "1d 1h 31m 49s"}
+{"loss": 0.04865662, "token_acc": 0.98392428, "grad_norm": 0.67282009, "learning_rate": 2.409e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233163, "epoch": 3.36687248, "global_step/max_steps": "44170/65595", "percentage": "67.34%", "elapsed_time": "2d 4h 37m 15s", "remaining_time": "1d 1h 31m 27s"}
+{"loss": 0.06595628, "token_acc": 0.9753886, "grad_norm": 1.12586784, "learning_rate": 2.408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23317, "epoch": 3.3672536, "global_step/max_steps": "44175/65595", "percentage": "67.35%", "elapsed_time": "2d 4h 37m 32s", "remaining_time": "1d 1h 31m 3s"}
+{"loss": 0.11055408, "token_acc": 0.95635868, "grad_norm": 2.0387094, "learning_rate": 2.407e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233177, "epoch": 3.36763473, "global_step/max_steps": "44180/65595", "percentage": "67.35%", "elapsed_time": "2d 4h 37m 47s", "remaining_time": "1d 1h 30m 38s"}
+{"loss": 0.05765062, "token_acc": 0.97844634, "grad_norm": 1.04239607, "learning_rate": 2.406e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233186, "epoch": 3.36801585, "global_step/max_steps": "44185/65595", "percentage": "67.36%", "elapsed_time": "2d 4h 38m 1s", "remaining_time": "1d 1h 30m 14s"}
+{"loss": 0.0488984, "token_acc": 0.98184818, "grad_norm": 1.14240563, "learning_rate": 2.405e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233191, "epoch": 3.36839698, "global_step/max_steps": "44190/65595", "percentage": "67.37%", "elapsed_time": "2d 4h 38m 19s", "remaining_time": "1d 1h 29m 50s"}
+{"loss": 0.0605924, "token_acc": 0.98047987, "grad_norm": 1.83519399, "learning_rate": 2.404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233196, "epoch": 3.36877811, "global_step/max_steps": "44195/65595", "percentage": "67.38%", "elapsed_time": "2d 4h 38m 36s", "remaining_time": "1d 1h 29m 27s"}
+{"loss": 0.03774245, "token_acc": 0.97724598, "grad_norm": 0.15207657, "learning_rate": 2.403e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233204, "epoch": 3.36915923, "global_step/max_steps": "44200/65595", "percentage": "67.38%", "elapsed_time": "2d 4h 38m 51s", "remaining_time": "1d 1h 29m 2s"}
+{"eval_loss": 0.06408893, "eval_token_acc": 0.97358593, "eval_runtime": 220.4716, "eval_samples_per_second": 2.404, "eval_steps_per_second": 2.404, "epoch": 3.36915923, "global_step/max_steps": "44200/65595", "percentage": "67.38%", "elapsed_time": "2d 4h 42m 31s", "remaining_time": "1d 1h 30m 49s"}
+{"loss": 0.06829191, "token_acc": 0.97360348, "grad_norm": 1.7002176, "learning_rate": 2.402e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232939, "epoch": 3.36954036, "global_step/max_steps": "44205/65595", "percentage": "67.39%", "elapsed_time": "2d 4h 42m 48s", "remaining_time": "1d 1h 30m 25s"}
+{"loss": 0.05858136, "token_acc": 0.97775629, "grad_norm": 0.73468906, "learning_rate": 2.401e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232942, "epoch": 3.36992149, "global_step/max_steps": "44210/65595", "percentage": "67.40%", "elapsed_time": "2d 4h 43m 7s", "remaining_time": "1d 1h 30m 2s"}
+{"loss": 0.0569419, "token_acc": 0.9747093, "grad_norm": 0.65478873, "learning_rate": 2.4e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232945, "epoch": 3.37030261, "global_step/max_steps": "44215/65595", "percentage": "67.41%", "elapsed_time": "2d 4h 43m 26s", "remaining_time": "1d 1h 29m 40s"}
+{"loss": 0.07741058, "token_acc": 0.97349398, "grad_norm": 0.58102912, "learning_rate": 2.399e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232952, "epoch": 3.37068374, "global_step/max_steps": "44220/65595", "percentage": "67.41%", "elapsed_time": "2d 4h 43m 42s", "remaining_time": "1d 1h 29m 16s"}
+{"loss": 0.09234346, "token_acc": 0.95362508, "grad_norm": 1.0284431, "learning_rate": 2.398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232958, "epoch": 3.37106487, "global_step/max_steps": "44225/65595", "percentage": "67.42%", "elapsed_time": "2d 4h 43m 58s", "remaining_time": "1d 1h 28m 52s"}
+{"loss": 0.05481499, "token_acc": 0.97787179, "grad_norm": 1.50881076, "learning_rate": 2.397e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232966, "epoch": 3.37144599, "global_step/max_steps": "44230/65595", "percentage": "67.43%", "elapsed_time": "2d 4h 44m 13s", "remaining_time": "1d 1h 28m 27s"}
+{"loss": 0.05730947, "token_acc": 0.97880911, "grad_norm": 0.9391526, "learning_rate": 2.396e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23297, "epoch": 3.37182712, "global_step/max_steps": "44235/65595", "percentage": "67.44%", "elapsed_time": "2d 4h 44m 32s", "remaining_time": "1d 1h 28m 4s"}
+{"loss": 0.03851886, "token_acc": 0.98353814, "grad_norm": 1.01503932, "learning_rate": 2.395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232976, "epoch": 3.37220825, "global_step/max_steps": "44240/65595", "percentage": "67.44%", "elapsed_time": "2d 4h 44m 48s", "remaining_time": "1d 1h 27m 40s"}
+{"loss": 0.0509324, "token_acc": 0.9800115, "grad_norm": 1.18087018, "learning_rate": 2.394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23298, "epoch": 3.37258937, "global_step/max_steps": "44245/65595", "percentage": "67.45%", "elapsed_time": "2d 4h 45m 6s", "remaining_time": "1d 1h 27m 17s"}
+{"loss": 0.07717097, "token_acc": 0.96987057, "grad_norm": 1.85496485, "learning_rate": 2.393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232986, "epoch": 3.3729705, "global_step/max_steps": "44250/65595", "percentage": "67.46%", "elapsed_time": "2d 4h 45m 23s", "remaining_time": "1d 1h 26m 53s"}
+{"loss": 0.07730629, "token_acc": 0.96270645, "grad_norm": 0.85496455, "learning_rate": 2.392e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232995, "epoch": 3.37335163, "global_step/max_steps": "44255/65595", "percentage": "67.47%", "elapsed_time": "2d 4h 45m 37s", "remaining_time": "1d 1h 26m 29s"}
+{"loss": 0.0382312, "token_acc": 0.98030508, "grad_norm": 0.89839154, "learning_rate": 2.391e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232999, "epoch": 3.37373275, "global_step/max_steps": "44260/65595", "percentage": "67.47%", "elapsed_time": "2d 4h 45m 55s", "remaining_time": "1d 1h 26m 5s"}
+{"loss": 0.05808987, "token_acc": 0.97924945, "grad_norm": 0.87315702, "learning_rate": 2.39e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233006, "epoch": 3.37411388, "global_step/max_steps": "44265/65595", "percentage": "67.48%", "elapsed_time": "2d 4h 46m 11s", "remaining_time": "1d 1h 25m 41s"}
+{"loss": 0.07657702, "token_acc": 0.97042683, "grad_norm": 1.77513289, "learning_rate": 2.389e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233014, "epoch": 3.37449501, "global_step/max_steps": "44270/65595", "percentage": "67.49%", "elapsed_time": "2d 4h 46m 26s", "remaining_time": "1d 1h 25m 16s"}
+{"loss": 0.10320592, "token_acc": 0.97692308, "grad_norm": 1.08583522, "learning_rate": 2.388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23302, "epoch": 3.37487613, "global_step/max_steps": "44275/65595", "percentage": "67.50%", "elapsed_time": "2d 4h 46m 42s", "remaining_time": "1d 1h 24m 53s"}
+{"loss": 0.07092752, "token_acc": 0.96585618, "grad_norm": 1.41261911, "learning_rate": 2.387e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233026, "epoch": 3.37525726, "global_step/max_steps": "44280/65595", "percentage": "67.51%", "elapsed_time": "2d 4h 46m 59s", "remaining_time": "1d 1h 24m 29s"}
+{"loss": 0.07554704, "token_acc": 0.97149433, "grad_norm": 1.09855115, "learning_rate": 2.386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233032, "epoch": 3.37563839, "global_step/max_steps": "44285/65595", "percentage": "67.51%", "elapsed_time": "2d 4h 47m 16s", "remaining_time": "1d 1h 24m 5s"}
+{"loss": 0.06717325, "token_acc": 0.96793003, "grad_norm": 0.87140304, "learning_rate": 2.385e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23304, "epoch": 3.37601951, "global_step/max_steps": "44290/65595", "percentage": "67.52%", "elapsed_time": "2d 4h 47m 31s", "remaining_time": "1d 1h 23m 41s"}
+{"loss": 0.06132111, "token_acc": 0.97742976, "grad_norm": 0.50480115, "learning_rate": 2.384e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233045, "epoch": 3.37640064, "global_step/max_steps": "44295/65595", "percentage": "67.53%", "elapsed_time": "2d 4h 47m 48s", "remaining_time": "1d 1h 23m 17s"}
+{"loss": 0.03653908, "token_acc": 0.98102041, "grad_norm": 0.47656399, "learning_rate": 2.383e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233051, "epoch": 3.37678177, "global_step/max_steps": "44300/65595", "percentage": "67.54%", "elapsed_time": "2d 4h 48m 5s", "remaining_time": "1d 1h 22m 53s"}
+{"loss": 0.04256724, "token_acc": 0.9799511, "grad_norm": 1.22962487, "learning_rate": 2.382e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233058, "epoch": 3.37716289, "global_step/max_steps": "44305/65595", "percentage": "67.54%", "elapsed_time": "2d 4h 48m 20s", "remaining_time": "1d 1h 22m 29s"}
+{"loss": 0.06137363, "token_acc": 0.96863665, "grad_norm": 0.23830271, "learning_rate": 2.381e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233064, "epoch": 3.37754402, "global_step/max_steps": "44310/65595", "percentage": "67.55%", "elapsed_time": "2d 4h 48m 37s", "remaining_time": "1d 1h 22m 5s"}
+{"loss": 0.07580692, "token_acc": 0.97469678, "grad_norm": 1.66339672, "learning_rate": 2.38e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233068, "epoch": 3.37792515, "global_step/max_steps": "44315/65595", "percentage": "67.56%", "elapsed_time": "2d 4h 48m 54s", "remaining_time": "1d 1h 21m 42s"}
+{"loss": 0.08400588, "token_acc": 0.95828636, "grad_norm": 1.34235001, "learning_rate": 2.379e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233076, "epoch": 3.37830627, "global_step/max_steps": "44320/65595", "percentage": "67.57%", "elapsed_time": "2d 4h 49m 10s", "remaining_time": "1d 1h 21m 18s"}
+{"loss": 0.06081105, "token_acc": 0.96935933, "grad_norm": 1.66826642, "learning_rate": 2.378e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233083, "epoch": 3.3786874, "global_step/max_steps": "44325/65595", "percentage": "67.57%", "elapsed_time": "2d 4h 49m 26s", "remaining_time": "1d 1h 20m 53s"}
+{"loss": 0.05179722, "token_acc": 0.97586754, "grad_norm": 0.80148292, "learning_rate": 2.377e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233088, "epoch": 3.37906853, "global_step/max_steps": "44330/65595", "percentage": "67.58%", "elapsed_time": "2d 4h 49m 43s", "remaining_time": "1d 1h 20m 30s"}
+{"loss": 0.05385288, "token_acc": 0.98014964, "grad_norm": 1.25063217, "learning_rate": 2.376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233092, "epoch": 3.37944965, "global_step/max_steps": "44335/65595", "percentage": "67.59%", "elapsed_time": "2d 4h 50m 1s", "remaining_time": "1d 1h 20m 7s"}
+{"loss": 0.04675308, "token_acc": 0.98080531, "grad_norm": 0.78148496, "learning_rate": 2.375e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233096, "epoch": 3.37983078, "global_step/max_steps": "44340/65595", "percentage": "67.60%", "elapsed_time": "2d 4h 50m 20s", "remaining_time": "1d 1h 19m 44s"}
+{"loss": 0.05378847, "token_acc": 0.9711668, "grad_norm": 0.94084471, "learning_rate": 2.374e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233103, "epoch": 3.38021191, "global_step/max_steps": "44345/65595", "percentage": "67.60%", "elapsed_time": "2d 4h 50m 35s", "remaining_time": "1d 1h 19m 20s"}
+{"loss": 0.07434042, "token_acc": 0.97193833, "grad_norm": 1.64449596, "learning_rate": 2.373e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233107, "epoch": 3.38059303, "global_step/max_steps": "44350/65595", "percentage": "67.61%", "elapsed_time": "2d 4h 50m 53s", "remaining_time": "1d 1h 18m 57s"}
+{"loss": 0.06055273, "token_acc": 0.97778463, "grad_norm": 1.66173148, "learning_rate": 2.372e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233115, "epoch": 3.38097416, "global_step/max_steps": "44355/65595", "percentage": "67.62%", "elapsed_time": "2d 4h 51m 9s", "remaining_time": "1d 1h 18m 32s"}
+{"loss": 0.07103415, "token_acc": 0.97560551, "grad_norm": 0.64138097, "learning_rate": 2.371e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23312, "epoch": 3.38135529, "global_step/max_steps": "44360/65595", "percentage": "67.63%", "elapsed_time": "2d 4h 51m 26s", "remaining_time": "1d 1h 18m 9s"}
+{"loss": 0.05187934, "token_acc": 0.96972789, "grad_norm": 1.55392301, "learning_rate": 2.369e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233127, "epoch": 3.38173641, "global_step/max_steps": "44365/65595", "percentage": "67.63%", "elapsed_time": "2d 4h 51m 41s", "remaining_time": "1d 1h 17m 45s"}
+{"loss": 0.04319286, "token_acc": 0.98293586, "grad_norm": 1.14275551, "learning_rate": 2.368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233133, "epoch": 3.38211754, "global_step/max_steps": "44370/65595", "percentage": "67.64%", "elapsed_time": "2d 4h 51m 58s", "remaining_time": "1d 1h 17m 21s"}
+{"loss": 0.06274942, "token_acc": 0.96968805, "grad_norm": 1.207026, "learning_rate": 2.367e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23314, "epoch": 3.38249867, "global_step/max_steps": "44375/65595", "percentage": "67.65%", "elapsed_time": "2d 4h 52m 13s", "remaining_time": "1d 1h 16m 57s"}
+{"loss": 0.0415301, "token_acc": 0.98172726, "grad_norm": 0.93062782, "learning_rate": 2.366e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233145, "epoch": 3.38287979, "global_step/max_steps": "44380/65595", "percentage": "67.66%", "elapsed_time": "2d 4h 52m 31s", "remaining_time": "1d 1h 16m 33s"}
+{"loss": 0.07101226, "token_acc": 0.96732607, "grad_norm": 1.70354664, "learning_rate": 2.365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23315, "epoch": 3.38326092, "global_step/max_steps": "44385/65595", "percentage": "67.67%", "elapsed_time": "2d 4h 52m 48s", "remaining_time": "1d 1h 16m 10s"}
+{"loss": 0.01939177, "token_acc": 0.99329181, "grad_norm": 0.53811473, "learning_rate": 2.364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23316, "epoch": 3.38364205, "global_step/max_steps": "44390/65595", "percentage": "67.67%", "elapsed_time": "2d 4h 53m 2s", "remaining_time": "1d 1h 15m 45s"}
+{"loss": 0.05936668, "token_acc": 0.97585644, "grad_norm": 1.13883984, "learning_rate": 2.363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233167, "epoch": 3.38402317, "global_step/max_steps": "44395/65595", "percentage": "67.68%", "elapsed_time": "2d 4h 53m 17s", "remaining_time": "1d 1h 15m 20s"}
+{"loss": 0.07222847, "token_acc": 0.97678418, "grad_norm": 4.06438208, "learning_rate": 2.362e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233167, "epoch": 3.3844043, "global_step/max_steps": "44400/65595", "percentage": "67.69%", "elapsed_time": "2d 4h 53m 39s", "remaining_time": "1d 1h 14m 59s"}
+{"eval_loss": 0.06438811, "eval_token_acc": 0.97336757, "eval_runtime": 219.0412, "eval_samples_per_second": 2.42, "eval_steps_per_second": 2.42, "epoch": 3.3844043, "global_step/max_steps": "44400/65595", "percentage": "67.69%", "elapsed_time": "2d 4h 57m 18s", "remaining_time": "1d 1h 16m 43s"}
+{"loss": 0.05603753, "token_acc": 0.97350834, "grad_norm": 0.66498756, "learning_rate": 2.361e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232906, "epoch": 3.38478543, "global_step/max_steps": "44405/65595", "percentage": "67.70%", "elapsed_time": "2d 4h 57m 34s", "remaining_time": "1d 1h 16m 19s"}
+{"loss": 0.05358045, "token_acc": 0.98303359, "grad_norm": 0.60384172, "learning_rate": 2.36e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232913, "epoch": 3.38516655, "global_step/max_steps": "44410/65595", "percentage": "67.70%", "elapsed_time": "2d 4h 57m 49s", "remaining_time": "1d 1h 15m 55s"}
+{"loss": 0.05416521, "token_acc": 0.98039216, "grad_norm": 0.76893902, "learning_rate": 2.359e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232918, "epoch": 3.38554768, "global_step/max_steps": "44415/65595", "percentage": "67.71%", "elapsed_time": "2d 4h 58m 7s", "remaining_time": "1d 1h 15m 32s"}
+{"loss": 0.0546137, "token_acc": 0.979006, "grad_norm": 1.38441443, "learning_rate": 2.358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232923, "epoch": 3.38592881, "global_step/max_steps": "44420/65595", "percentage": "67.72%", "elapsed_time": "2d 4h 58m 24s", "remaining_time": "1d 1h 15m 8s"}
+{"loss": 0.03764789, "token_acc": 0.97793021, "grad_norm": 1.82475185, "learning_rate": 2.357e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23293, "epoch": 3.38630993, "global_step/max_steps": "44425/65595", "percentage": "67.73%", "elapsed_time": "2d 4h 58m 39s", "remaining_time": "1d 1h 14m 44s"}
+{"loss": 0.07451212, "token_acc": 0.97005703, "grad_norm": 1.68936765, "learning_rate": 2.356e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232935, "epoch": 3.38669106, "global_step/max_steps": "44430/65595", "percentage": "67.73%", "elapsed_time": "2d 4h 58m 57s", "remaining_time": "1d 1h 14m 21s"}
+{"loss": 0.0472833, "token_acc": 0.98178431, "grad_norm": 1.48286366, "learning_rate": 2.355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23294, "epoch": 3.38707219, "global_step/max_steps": "44435/65595", "percentage": "67.74%", "elapsed_time": "2d 4h 59m 14s", "remaining_time": "1d 1h 13m 57s"}
+{"loss": 0.07907825, "token_acc": 0.97866149, "grad_norm": 1.31744933, "learning_rate": 2.354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232947, "epoch": 3.38745331, "global_step/max_steps": "44440/65595", "percentage": "67.75%", "elapsed_time": "2d 4h 59m 30s", "remaining_time": "1d 1h 13m 33s"}
+{"loss": 0.07729455, "token_acc": 0.98003863, "grad_norm": 2.80162811, "learning_rate": 2.353e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232951, "epoch": 3.38783444, "global_step/max_steps": "44445/65595", "percentage": "67.76%", "elapsed_time": "2d 4h 59m 49s", "remaining_time": "1d 1h 13m 10s"}
+{"loss": 0.06669471, "token_acc": 0.97272354, "grad_norm": 1.23095727, "learning_rate": 2.352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232955, "epoch": 3.38821557, "global_step/max_steps": "44450/65595", "percentage": "67.76%", "elapsed_time": "2d 5h 0m 7s", "remaining_time": "1d 1h 12m 47s"}
+{"loss": 0.04781973, "token_acc": 0.97930083, "grad_norm": 1.16108871, "learning_rate": 2.351e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23296, "epoch": 3.38859669, "global_step/max_steps": "44455/65595", "percentage": "67.77%", "elapsed_time": "2d 5h 0m 24s", "remaining_time": "1d 1h 12m 24s"}
+{"loss": 0.03716946, "token_acc": 0.9853129, "grad_norm": 0.61497533, "learning_rate": 2.35e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232962, "epoch": 3.38897782, "global_step/max_steps": "44460/65595", "percentage": "67.78%", "elapsed_time": "2d 5h 0m 44s", "remaining_time": "1d 1h 12m 1s"}
+{"loss": 0.04665668, "token_acc": 0.98077648, "grad_norm": 1.62576771, "learning_rate": 2.349e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232967, "epoch": 3.38935895, "global_step/max_steps": "44465/65595", "percentage": "67.79%", "elapsed_time": "2d 5h 1m 1s", "remaining_time": "1d 1h 11m 38s"}
+{"loss": 0.05168574, "token_acc": 0.97954719, "grad_norm": 0.4380582, "learning_rate": 2.348e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232968, "epoch": 3.38974007, "global_step/max_steps": "44470/65595", "percentage": "67.79%", "elapsed_time": "2d 5h 1m 22s", "remaining_time": "1d 1h 11m 16s"}
+{"loss": 0.07009706, "token_acc": 0.97120219, "grad_norm": 1.24225521, "learning_rate": 2.347e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232973, "epoch": 3.3901212, "global_step/max_steps": "44475/65595", "percentage": "67.80%", "elapsed_time": "2d 5h 1m 39s", "remaining_time": "1d 1h 10m 53s"}
+{"loss": 0.05807648, "token_acc": 0.97962782, "grad_norm": 1.92798197, "learning_rate": 2.346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23298, "epoch": 3.39050232, "global_step/max_steps": "44480/65595", "percentage": "67.81%", "elapsed_time": "2d 5h 1m 55s", "remaining_time": "1d 1h 10m 29s"}
+{"loss": 0.04055821, "token_acc": 0.9836617, "grad_norm": 1.1620388, "learning_rate": 2.345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232986, "epoch": 3.39088345, "global_step/max_steps": "44485/65595", "percentage": "67.82%", "elapsed_time": "2d 5h 2m 12s", "remaining_time": "1d 1h 10m 5s"}
+{"loss": 0.09555755, "token_acc": 0.96762393, "grad_norm": 1.70910645, "learning_rate": 2.344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232991, "epoch": 3.39126458, "global_step/max_steps": "44490/65595", "percentage": "67.83%", "elapsed_time": "2d 5h 2m 29s", "remaining_time": "1d 1h 9m 41s"}
+{"loss": 0.03114305, "token_acc": 0.98098145, "grad_norm": 1.77090096, "learning_rate": 2.343e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232998, "epoch": 3.3916457, "global_step/max_steps": "44495/65595", "percentage": "67.83%", "elapsed_time": "2d 5h 2m 44s", "remaining_time": "1d 1h 9m 17s"}
+{"loss": 0.06386518, "token_acc": 0.96311719, "grad_norm": 1.31839681, "learning_rate": 2.342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233006, "epoch": 3.39202683, "global_step/max_steps": "44500/65595", "percentage": "67.84%", "elapsed_time": "2d 5h 3m 0s", "remaining_time": "1d 1h 8m 53s"}
+{"loss": 0.0699611, "token_acc": 0.97909577, "grad_norm": 1.31383419, "learning_rate": 2.341e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233011, "epoch": 3.39240796, "global_step/max_steps": "44505/65595", "percentage": "67.85%", "elapsed_time": "2d 5h 3m 17s", "remaining_time": "1d 1h 8m 29s"}
+{"loss": 0.04021797, "token_acc": 0.9828839, "grad_norm": 0.48753279, "learning_rate": 2.34e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233016, "epoch": 3.39278908, "global_step/max_steps": "44510/65595", "percentage": "67.86%", "elapsed_time": "2d 5h 3m 34s", "remaining_time": "1d 1h 8m 6s"}
+{"loss": 0.07296998, "token_acc": 0.97951419, "grad_norm": 0.45836467, "learning_rate": 2.339e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233022, "epoch": 3.39317021, "global_step/max_steps": "44515/65595", "percentage": "67.86%", "elapsed_time": "2d 5h 3m 51s", "remaining_time": "1d 1h 7m 42s"}
+{"loss": 0.07423177, "token_acc": 0.97295374, "grad_norm": 1.02863526, "learning_rate": 2.338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233027, "epoch": 3.39355134, "global_step/max_steps": "44520/65595", "percentage": "67.87%", "elapsed_time": "2d 5h 4m 8s", "remaining_time": "1d 1h 7m 19s"}
+{"loss": 0.05165761, "token_acc": 0.98256915, "grad_norm": 0.9243927, "learning_rate": 2.337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233032, "epoch": 3.39393246, "global_step/max_steps": "44525/65595", "percentage": "67.88%", "elapsed_time": "2d 5h 4m 26s", "remaining_time": "1d 1h 6m 55s"}
+{"loss": 0.0663743, "token_acc": 0.967187, "grad_norm": 1.27968991, "learning_rate": 2.336e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233039, "epoch": 3.39431359, "global_step/max_steps": "44530/65595", "percentage": "67.89%", "elapsed_time": "2d 5h 4m 41s", "remaining_time": "1d 1h 6m 31s"}
+{"loss": 0.03917628, "token_acc": 0.98507947, "grad_norm": 0.72617531, "learning_rate": 2.335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233042, "epoch": 3.39469472, "global_step/max_steps": "44535/65595", "percentage": "67.89%", "elapsed_time": "2d 5h 5m 0s", "remaining_time": "1d 1h 6m 8s"}
+{"loss": 0.06909368, "token_acc": 0.97396492, "grad_norm": 1.37117052, "learning_rate": 2.334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233048, "epoch": 3.39507584, "global_step/max_steps": "44540/65595", "percentage": "67.90%", "elapsed_time": "2d 5h 5m 17s", "remaining_time": "1d 1h 5m 45s"}
+{"loss": 0.05773085, "token_acc": 0.9776086, "grad_norm": 1.69184685, "learning_rate": 2.333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233057, "epoch": 3.39545697, "global_step/max_steps": "44545/65595", "percentage": "67.91%", "elapsed_time": "2d 5h 5m 31s", "remaining_time": "1d 1h 5m 20s"}
+{"loss": 0.04473856, "token_acc": 0.9836301, "grad_norm": 1.08908355, "learning_rate": 2.332e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233064, "epoch": 3.3958381, "global_step/max_steps": "44550/65595", "percentage": "67.92%", "elapsed_time": "2d 5h 5m 47s", "remaining_time": "1d 1h 4m 56s"}
+{"loss": 0.0566279, "token_acc": 0.97861754, "grad_norm": 1.21649981, "learning_rate": 2.331e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233064, "epoch": 3.39621922, "global_step/max_steps": "44555/65595", "percentage": "67.92%", "elapsed_time": "2d 5h 6m 8s", "remaining_time": "1d 1h 4m 34s"}
+{"loss": 0.03355592, "token_acc": 0.9856305, "grad_norm": 1.15343571, "learning_rate": 2.33e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233071, "epoch": 3.39660035, "global_step/max_steps": "44560/65595", "percentage": "67.93%", "elapsed_time": "2d 5h 6m 24s", "remaining_time": "1d 1h 4m 10s"}
+{"loss": 0.05677015, "token_acc": 0.9792215, "grad_norm": 0.90106207, "learning_rate": 2.329e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233076, "epoch": 3.39698148, "global_step/max_steps": "44565/65595", "percentage": "67.94%", "elapsed_time": "2d 5h 6m 41s", "remaining_time": "1d 1h 3m 47s"}
+{"loss": 0.06329428, "token_acc": 0.97314329, "grad_norm": 0.8093636, "learning_rate": 2.328e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233078, "epoch": 3.3973626, "global_step/max_steps": "44570/65595", "percentage": "67.95%", "elapsed_time": "2d 5h 7m 0s", "remaining_time": "1d 1h 3m 24s"}
+{"loss": 0.05552844, "token_acc": 0.97921478, "grad_norm": 0.94021064, "learning_rate": 2.327e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233085, "epoch": 3.39774373, "global_step/max_steps": "44575/65595", "percentage": "67.95%", "elapsed_time": "2d 5h 7m 16s", "remaining_time": "1d 1h 3m 0s"}
+{"loss": 0.06237366, "token_acc": 0.98002189, "grad_norm": 0.75438082, "learning_rate": 2.326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233086, "epoch": 3.39812486, "global_step/max_steps": "44580/65595", "percentage": "67.96%", "elapsed_time": "2d 5h 7m 37s", "remaining_time": "1d 1h 2m 38s"}
+{"loss": 0.06986542, "token_acc": 0.97200187, "grad_norm": 0.96668851, "learning_rate": 2.325e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23309, "epoch": 3.39850598, "global_step/max_steps": "44585/65595", "percentage": "67.97%", "elapsed_time": "2d 5h 7m 55s", "remaining_time": "1d 1h 2m 15s"}
+{"loss": 0.05273802, "token_acc": 0.98159509, "grad_norm": 1.63970196, "learning_rate": 2.324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2331, "epoch": 3.39888711, "global_step/max_steps": "44590/65595", "percentage": "67.98%", "elapsed_time": "2d 5h 8m 9s", "remaining_time": "1d 1h 1m 50s"}
+{"loss": 0.05521996, "token_acc": 0.98039216, "grad_norm": 1.03830421, "learning_rate": 2.323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233104, "epoch": 3.39926824, "global_step/max_steps": "44595/65595", "percentage": "67.99%", "elapsed_time": "2d 5h 8m 26s", "remaining_time": "1d 1h 1m 27s"}
+{"loss": 0.03698551, "token_acc": 0.98467255, "grad_norm": 0.89563555, "learning_rate": 2.322e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233111, "epoch": 3.39964936, "global_step/max_steps": "44600/65595", "percentage": "67.99%", "elapsed_time": "2d 5h 8m 42s", "remaining_time": "1d 1h 1m 3s"}
+{"eval_loss": 0.06424329, "eval_token_acc": 0.97345039, "eval_runtime": 219.2037, "eval_samples_per_second": 2.418, "eval_steps_per_second": 2.418, "epoch": 3.39964936, "global_step/max_steps": "44600/65595", "percentage": "67.99%", "elapsed_time": "2d 5h 12m 21s", "remaining_time": "1d 1h 2m 46s"}
+{"loss": 0.02429651, "token_acc": 0.97373025, "grad_norm": 2.04734755, "learning_rate": 2.321e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232853, "epoch": 3.40003049, "global_step/max_steps": "44605/65595", "percentage": "68.00%", "elapsed_time": "2d 5h 12m 36s", "remaining_time": "1d 1h 2m 21s"}
+{"loss": 0.06062344, "token_acc": 0.97877674, "grad_norm": 0.58322281, "learning_rate": 2.32e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232859, "epoch": 3.40041162, "global_step/max_steps": "44610/65595", "percentage": "68.01%", "elapsed_time": "2d 5h 12m 52s", "remaining_time": "1d 1h 1m 57s"}
+{"loss": 0.07031777, "token_acc": 0.97006266, "grad_norm": 1.1779604, "learning_rate": 2.319e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232866, "epoch": 3.40079274, "global_step/max_steps": "44615/65595", "percentage": "68.02%", "elapsed_time": "2d 5h 13m 8s", "remaining_time": "1d 1h 1m 33s"}
+{"loss": 0.08158182, "token_acc": 0.97990031, "grad_norm": 2.64495206, "learning_rate": 2.318e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232871, "epoch": 3.40117387, "global_step/max_steps": "44620/65595", "percentage": "68.02%", "elapsed_time": "2d 5h 13m 25s", "remaining_time": "1d 1h 1m 10s"}
+{"loss": 0.08742862, "token_acc": 0.97436857, "grad_norm": 0.70984244, "learning_rate": 2.317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232875, "epoch": 3.401555, "global_step/max_steps": "44625/65595", "percentage": "68.03%", "elapsed_time": "2d 5h 13m 44s", "remaining_time": "1d 1h 0m 47s"}
+{"loss": 0.04337026, "token_acc": 0.98424069, "grad_norm": 2.29519892, "learning_rate": 2.316e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232883, "epoch": 3.40193612, "global_step/max_steps": "44630/65595", "percentage": "68.04%", "elapsed_time": "2d 5h 13m 58s", "remaining_time": "1d 1h 0m 22s"}
+{"loss": 0.0448716, "token_acc": 0.98412698, "grad_norm": 1.45408297, "learning_rate": 2.315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232888, "epoch": 3.40231725, "global_step/max_steps": "44635/65595", "percentage": "68.05%", "elapsed_time": "2d 5h 14m 16s", "remaining_time": "1d 0h 59m 59s"}
+{"loss": 0.08425555, "token_acc": 0.95679854, "grad_norm": 2.8458581, "learning_rate": 2.314e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232896, "epoch": 3.40269838, "global_step/max_steps": "44640/65595", "percentage": "68.05%", "elapsed_time": "2d 5h 14m 31s", "remaining_time": "1d 0h 59m 34s"}
+{"loss": 0.07356293, "token_acc": 0.96843537, "grad_norm": 1.87572277, "learning_rate": 2.313e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232904, "epoch": 3.4030795, "global_step/max_steps": "44645/65595", "percentage": "68.06%", "elapsed_time": "2d 5h 14m 46s", "remaining_time": "1d 0h 59m 10s"}
+{"loss": 0.05434445, "token_acc": 0.97678143, "grad_norm": 0.8478086, "learning_rate": 2.312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232911, "epoch": 3.40346063, "global_step/max_steps": "44650/65595", "percentage": "68.07%", "elapsed_time": "2d 5h 15m 1s", "remaining_time": "1d 0h 58m 45s"}
+{"loss": 0.06884437, "token_acc": 0.97501329, "grad_norm": 0.57398552, "learning_rate": 2.311e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23292, "epoch": 3.40384176, "global_step/max_steps": "44655/65595", "percentage": "68.08%", "elapsed_time": "2d 5h 15m 15s", "remaining_time": "1d 0h 58m 21s"}
+{"loss": 0.04070297, "token_acc": 0.98352982, "grad_norm": 0.53778952, "learning_rate": 2.31e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232925, "epoch": 3.40422288, "global_step/max_steps": "44660/65595", "percentage": "68.08%", "elapsed_time": "2d 5h 15m 33s", "remaining_time": "1d 0h 57m 57s"}
+{"loss": 0.06397372, "token_acc": 0.97317924, "grad_norm": 1.27026439, "learning_rate": 2.309e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232931, "epoch": 3.40460401, "global_step/max_steps": "44665/65595", "percentage": "68.09%", "elapsed_time": "2d 5h 15m 49s", "remaining_time": "1d 0h 57m 33s"}
+{"loss": 0.0805066, "token_acc": 0.96170107, "grad_norm": 0.27819112, "learning_rate": 2.308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232937, "epoch": 3.40498514, "global_step/max_steps": "44670/65595", "percentage": "68.10%", "elapsed_time": "2d 5h 16m 6s", "remaining_time": "1d 0h 57m 10s"}
+{"loss": 0.08782614, "token_acc": 0.97353064, "grad_norm": 0.74837136, "learning_rate": 2.307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232943, "epoch": 3.40536626, "global_step/max_steps": "44675/65595", "percentage": "68.11%", "elapsed_time": "2d 5h 16m 23s", "remaining_time": "1d 0h 56m 46s"}
+{"loss": 0.06701287, "token_acc": 0.97233468, "grad_norm": 1.40123022, "learning_rate": 2.306e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232946, "epoch": 3.40574739, "global_step/max_steps": "44680/65595", "percentage": "68.11%", "elapsed_time": "2d 5h 16m 41s", "remaining_time": "1d 0h 56m 23s"}
+{"loss": 0.062665, "token_acc": 0.97679293, "grad_norm": 1.09869277, "learning_rate": 2.305e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232949, "epoch": 3.40612852, "global_step/max_steps": "44685/65595", "percentage": "68.12%", "elapsed_time": "2d 5h 17m 0s", "remaining_time": "1d 0h 56m 1s"}
+{"loss": 0.04179559, "token_acc": 0.98085937, "grad_norm": 1.69171154, "learning_rate": 2.304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232956, "epoch": 3.40650964, "global_step/max_steps": "44690/65595", "percentage": "68.13%", "elapsed_time": "2d 5h 17m 16s", "remaining_time": "1d 0h 55m 36s"}
+{"loss": 0.05653186, "token_acc": 0.97760072, "grad_norm": 0.70558375, "learning_rate": 2.303e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23296, "epoch": 3.40689077, "global_step/max_steps": "44695/65595", "percentage": "68.14%", "elapsed_time": "2d 5h 17m 34s", "remaining_time": "1d 0h 55m 13s"}
+{"loss": 0.04407855, "token_acc": 0.98691901, "grad_norm": 0.46868837, "learning_rate": 2.302e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232967, "epoch": 3.4072719, "global_step/max_steps": "44700/65595", "percentage": "68.15%", "elapsed_time": "2d 5h 17m 50s", "remaining_time": "1d 0h 54m 49s"}
+{"loss": 0.06622194, "token_acc": 0.96346307, "grad_norm": 1.62382066, "learning_rate": 2.301e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232977, "epoch": 3.40765302, "global_step/max_steps": "44705/65595", "percentage": "68.15%", "elapsed_time": "2d 5h 18m 4s", "remaining_time": "1d 0h 54m 24s"}
+{"loss": 0.05243744, "token_acc": 0.98527656, "grad_norm": 1.2246685, "learning_rate": 2.3e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232985, "epoch": 3.40803415, "global_step/max_steps": "44710/65595", "percentage": "68.16%", "elapsed_time": "2d 5h 18m 18s", "remaining_time": "1d 0h 54m 0s"}
+{"loss": 0.04261349, "token_acc": 0.98242991, "grad_norm": 1.17161357, "learning_rate": 2.299e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232989, "epoch": 3.40841528, "global_step/max_steps": "44715/65595", "percentage": "68.17%", "elapsed_time": "2d 5h 18m 36s", "remaining_time": "1d 0h 53m 36s"}
+{"loss": 0.05059971, "token_acc": 0.97737841, "grad_norm": 0.65423614, "learning_rate": 2.298e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232993, "epoch": 3.4087964, "global_step/max_steps": "44720/65595", "percentage": "68.18%", "elapsed_time": "2d 5h 18m 54s", "remaining_time": "1d 0h 53m 13s"}
+{"loss": 0.0772777, "token_acc": 0.96970488, "grad_norm": 2.09052849, "learning_rate": 2.297e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232997, "epoch": 3.40917753, "global_step/max_steps": "44725/65595", "percentage": "68.18%", "elapsed_time": "2d 5h 19m 13s", "remaining_time": "1d 0h 52m 51s"}
+{"loss": 0.05204898, "token_acc": 0.97907762, "grad_norm": 1.36432207, "learning_rate": 2.296e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233003, "epoch": 3.40955866, "global_step/max_steps": "44730/65595", "percentage": "68.19%", "elapsed_time": "2d 5h 19m 29s", "remaining_time": "1d 0h 52m 27s"}
+{"loss": 0.03355906, "token_acc": 0.98409628, "grad_norm": 0.27613518, "learning_rate": 2.295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23301, "epoch": 3.40993978, "global_step/max_steps": "44735/65595", "percentage": "68.20%", "elapsed_time": "2d 5h 19m 45s", "remaining_time": "1d 0h 52m 3s"}
+{"loss": 0.04756623, "token_acc": 0.98257693, "grad_norm": 1.69537866, "learning_rate": 2.294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233013, "epoch": 3.41032091, "global_step/max_steps": "44740/65595", "percentage": "68.21%", "elapsed_time": "2d 5h 20m 4s", "remaining_time": "1d 0h 51m 40s"}
+{"loss": 0.06822892, "token_acc": 0.97456, "grad_norm": 2.61850715, "learning_rate": 2.293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233018, "epoch": 3.41070204, "global_step/max_steps": "44745/65595", "percentage": "68.21%", "elapsed_time": "2d 5h 20m 21s", "remaining_time": "1d 0h 51m 16s"}
+{"loss": 0.04379658, "token_acc": 0.98063624, "grad_norm": 0.86603767, "learning_rate": 2.292e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233027, "epoch": 3.41108316, "global_step/max_steps": "44750/65595", "percentage": "68.22%", "elapsed_time": "2d 5h 20m 35s", "remaining_time": "1d 0h 50m 52s"}
+{"loss": 0.05059829, "token_acc": 0.98406863, "grad_norm": 0.55103248, "learning_rate": 2.291e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233029, "epoch": 3.41146429, "global_step/max_steps": "44755/65595", "percentage": "68.23%", "elapsed_time": "2d 5h 20m 55s", "remaining_time": "1d 0h 50m 29s"}
+{"loss": 0.06807131, "token_acc": 0.9775641, "grad_norm": 2.30855441, "learning_rate": 2.29e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233036, "epoch": 3.41184542, "global_step/max_steps": "44760/65595", "percentage": "68.24%", "elapsed_time": "2d 5h 21m 10s", "remaining_time": "1d 0h 50m 5s"}
+{"loss": 0.04798198, "token_acc": 0.97728979, "grad_norm": 0.85815454, "learning_rate": 2.289e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233043, "epoch": 3.41222654, "global_step/max_steps": "44765/65595", "percentage": "68.24%", "elapsed_time": "2d 5h 21m 27s", "remaining_time": "1d 0h 49m 41s"}
+{"loss": 0.06051157, "token_acc": 0.97967052, "grad_norm": 1.09579718, "learning_rate": 2.288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233046, "epoch": 3.41260767, "global_step/max_steps": "44770/65595", "percentage": "68.25%", "elapsed_time": "2d 5h 21m 45s", "remaining_time": "1d 0h 49m 18s"}
+{"loss": 0.06653359, "token_acc": 0.97423313, "grad_norm": 1.32301068, "learning_rate": 2.287e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233053, "epoch": 3.41298879, "global_step/max_steps": "44775/65595", "percentage": "68.26%", "elapsed_time": "2d 5h 22m 1s", "remaining_time": "1d 0h 48m 54s"}
+{"loss": 0.05562457, "token_acc": 0.98218308, "grad_norm": 0.68169689, "learning_rate": 2.285e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233058, "epoch": 3.41336992, "global_step/max_steps": "44780/65595", "percentage": "68.27%", "elapsed_time": "2d 5h 22m 18s", "remaining_time": "1d 0h 48m 31s"}
+{"loss": 0.05120047, "token_acc": 0.97937634, "grad_norm": 1.0680263, "learning_rate": 2.284e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233063, "epoch": 3.41375105, "global_step/max_steps": "44785/65595", "percentage": "68.28%", "elapsed_time": "2d 5h 22m 36s", "remaining_time": "1d 0h 48m 8s"}
+{"loss": 0.08175615, "token_acc": 0.98068221, "grad_norm": 1.4870894, "learning_rate": 2.283e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233065, "epoch": 3.41413217, "global_step/max_steps": "44790/65595", "percentage": "68.28%", "elapsed_time": "2d 5h 22m 55s", "remaining_time": "1d 0h 47m 45s"}
+{"loss": 0.04437653, "token_acc": 0.98222457, "grad_norm": 0.97342426, "learning_rate": 2.282e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233069, "epoch": 3.4145133, "global_step/max_steps": "44795/65595", "percentage": "68.29%", "elapsed_time": "2d 5h 23m 13s", "remaining_time": "1d 0h 47m 22s"}
+{"loss": 0.0427544, "token_acc": 0.98018686, "grad_norm": 0.74415833, "learning_rate": 2.281e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233073, "epoch": 3.41489443, "global_step/max_steps": "44800/65595", "percentage": "68.30%", "elapsed_time": "2d 5h 23m 31s", "remaining_time": "1d 0h 46m 59s"}
+{"eval_loss": 0.06318889, "eval_token_acc": 0.97371393, "eval_runtime": 220.8465, "eval_samples_per_second": 2.4, "eval_steps_per_second": 2.4, "epoch": 3.41489443, "global_step/max_steps": "44800/65595", "percentage": "68.30%", "elapsed_time": "2d 5h 27m 12s", "remaining_time": "1d 0h 48m 42s"}
+{"loss": 0.05879397, "token_acc": 0.97350946, "grad_norm": 0.9297592, "learning_rate": 2.28e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232808, "epoch": 3.41527555, "global_step/max_steps": "44805/65595", "percentage": "68.31%", "elapsed_time": "2d 5h 27m 32s", "remaining_time": "1d 0h 48m 19s"}
+{"loss": 0.06794412, "token_acc": 0.96848621, "grad_norm": 1.76536632, "learning_rate": 2.279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232818, "epoch": 3.41565668, "global_step/max_steps": "44810/65595", "percentage": "68.31%", "elapsed_time": "2d 5h 27m 46s", "remaining_time": "1d 0h 47m 54s"}
+{"loss": 0.06415926, "token_acc": 0.9780639, "grad_norm": 2.3909812, "learning_rate": 2.278e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232827, "epoch": 3.41603781, "global_step/max_steps": "44815/65595", "percentage": "68.32%", "elapsed_time": "2d 5h 28m 0s", "remaining_time": "1d 0h 47m 29s"}
+{"loss": 0.03789883, "token_acc": 0.98590421, "grad_norm": 0.97076243, "learning_rate": 2.277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232829, "epoch": 3.41641893, "global_step/max_steps": "44820/65595", "percentage": "68.33%", "elapsed_time": "2d 5h 28m 19s", "remaining_time": "1d 0h 47m 7s"}
+{"loss": 0.04155534, "token_acc": 0.98397519, "grad_norm": 0.96007621, "learning_rate": 2.276e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232836, "epoch": 3.41680006, "global_step/max_steps": "44825/65595", "percentage": "68.34%", "elapsed_time": "2d 5h 28m 35s", "remaining_time": "1d 0h 46m 43s"}
+{"loss": 0.03346229, "token_acc": 0.98160204, "grad_norm": 0.3185662, "learning_rate": 2.275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232843, "epoch": 3.41718119, "global_step/max_steps": "44830/65595", "percentage": "68.34%", "elapsed_time": "2d 5h 28m 51s", "remaining_time": "1d 0h 46m 19s"}
+{"loss": 0.08135819, "token_acc": 0.97046681, "grad_norm": 1.70861626, "learning_rate": 2.274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232851, "epoch": 3.41756231, "global_step/max_steps": "44835/65595", "percentage": "68.35%", "elapsed_time": "2d 5h 29m 5s", "remaining_time": "1d 0h 45m 54s"}
+{"loss": 0.09969144, "token_acc": 0.96101871, "grad_norm": 2.27450681, "learning_rate": 2.273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232859, "epoch": 3.41794344, "global_step/max_steps": "44840/65595", "percentage": "68.36%", "elapsed_time": "2d 5h 29m 20s", "remaining_time": "1d 0h 45m 30s"}
+{"loss": 0.05807327, "token_acc": 0.97571993, "grad_norm": 0.84968281, "learning_rate": 2.272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232866, "epoch": 3.41832457, "global_step/max_steps": "44845/65595", "percentage": "68.37%", "elapsed_time": "2d 5h 29m 36s", "remaining_time": "1d 0h 45m 5s"}
+{"loss": 0.09426398, "token_acc": 0.96546808, "grad_norm": 2.07663894, "learning_rate": 2.271e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23287, "epoch": 3.41870569, "global_step/max_steps": "44850/65595", "percentage": "68.37%", "elapsed_time": "2d 5h 29m 54s", "remaining_time": "1d 0h 44m 43s"}
+{"loss": 0.11339769, "token_acc": 0.95866696, "grad_norm": 1.31968105, "learning_rate": 2.27e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232876, "epoch": 3.41908682, "global_step/max_steps": "44855/65595", "percentage": "68.38%", "elapsed_time": "2d 5h 30m 11s", "remaining_time": "1d 0h 44m 19s"}
+{"loss": 0.04080788, "token_acc": 0.98086735, "grad_norm": 0.80614477, "learning_rate": 2.269e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232881, "epoch": 3.41946795, "global_step/max_steps": "44860/65595", "percentage": "68.39%", "elapsed_time": "2d 5h 30m 28s", "remaining_time": "1d 0h 43m 55s"}
+{"loss": 0.05915133, "token_acc": 0.98195876, "grad_norm": 0.90806603, "learning_rate": 2.268e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232885, "epoch": 3.41984907, "global_step/max_steps": "44865/65595", "percentage": "68.40%", "elapsed_time": "2d 5h 30m 46s", "remaining_time": "1d 0h 43m 32s"}
+{"loss": 0.03982571, "token_acc": 0.98547052, "grad_norm": 1.13049316, "learning_rate": 2.267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232889, "epoch": 3.4202302, "global_step/max_steps": "44870/65595", "percentage": "68.40%", "elapsed_time": "2d 5h 31m 4s", "remaining_time": "1d 0h 43m 9s"}
+{"loss": 0.07359997, "token_acc": 0.97544643, "grad_norm": 1.89250481, "learning_rate": 2.266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232895, "epoch": 3.42061133, "global_step/max_steps": "44875/65595", "percentage": "68.41%", "elapsed_time": "2d 5h 31m 21s", "remaining_time": "1d 0h 42m 46s"}
+{"loss": 0.05020251, "token_acc": 0.9820489, "grad_norm": 1.00221586, "learning_rate": 2.265e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232902, "epoch": 3.42099245, "global_step/max_steps": "44880/65595", "percentage": "68.42%", "elapsed_time": "2d 5h 31m 37s", "remaining_time": "1d 0h 42m 22s"}
+{"loss": 0.06331338, "token_acc": 0.97194882, "grad_norm": 1.07105029, "learning_rate": 2.264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232907, "epoch": 3.42137358, "global_step/max_steps": "44885/65595", "percentage": "68.43%", "elapsed_time": "2d 5h 31m 54s", "remaining_time": "1d 0h 41m 58s"}
+{"loss": 0.05461919, "token_acc": 0.97617749, "grad_norm": 0.75160104, "learning_rate": 2.263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232912, "epoch": 3.42175471, "global_step/max_steps": "44890/65595", "percentage": "68.44%", "elapsed_time": "2d 5h 32m 11s", "remaining_time": "1d 0h 41m 35s"}
+{"loss": 0.06684126, "token_acc": 0.97033898, "grad_norm": 1.69208586, "learning_rate": 2.262e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23292, "epoch": 3.42213583, "global_step/max_steps": "44895/65595", "percentage": "68.44%", "elapsed_time": "2d 5h 32m 26s", "remaining_time": "1d 0h 41m 10s"}
+{"loss": 0.04922845, "token_acc": 0.98061724, "grad_norm": 1.64619958, "learning_rate": 2.261e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232925, "epoch": 3.42251696, "global_step/max_steps": "44900/65595", "percentage": "68.45%", "elapsed_time": "2d 5h 32m 43s", "remaining_time": "1d 0h 40m 47s"}
+{"loss": 0.06725165, "token_acc": 0.97434312, "grad_norm": 1.76403236, "learning_rate": 2.26e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232933, "epoch": 3.42289809, "global_step/max_steps": "44905/65595", "percentage": "68.46%", "elapsed_time": "2d 5h 32m 58s", "remaining_time": "1d 0h 40m 22s"}
+{"loss": 0.05656989, "token_acc": 0.98327759, "grad_norm": 2.21362829, "learning_rate": 2.259e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23294, "epoch": 3.42327921, "global_step/max_steps": "44910/65595", "percentage": "68.47%", "elapsed_time": "2d 5h 33m 14s", "remaining_time": "1d 0h 39m 58s"}
+{"loss": 0.06861869, "token_acc": 0.9728621, "grad_norm": 1.59484231, "learning_rate": 2.258e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232947, "epoch": 3.42366034, "global_step/max_steps": "44915/65595", "percentage": "68.47%", "elapsed_time": "2d 5h 33m 29s", "remaining_time": "1d 0h 39m 34s"}
+{"loss": 0.04585751, "token_acc": 0.98208573, "grad_norm": 1.02423131, "learning_rate": 2.257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232954, "epoch": 3.42404147, "global_step/max_steps": "44920/65595", "percentage": "68.48%", "elapsed_time": "2d 5h 33m 45s", "remaining_time": "1d 0h 39m 10s"}
+{"loss": 0.05965623, "token_acc": 0.98175182, "grad_norm": 1.57531297, "learning_rate": 2.256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232959, "epoch": 3.42442259, "global_step/max_steps": "44925/65595", "percentage": "68.49%", "elapsed_time": "2d 5h 34m 3s", "remaining_time": "1d 0h 38m 47s"}
+{"loss": 0.03679861, "token_acc": 0.9867829, "grad_norm": 0.84474665, "learning_rate": 2.255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232965, "epoch": 3.42480372, "global_step/max_steps": "44930/65595", "percentage": "68.50%", "elapsed_time": "2d 5h 34m 19s", "remaining_time": "1d 0h 38m 23s"}
+{"loss": 0.07781851, "token_acc": 0.97188662, "grad_norm": 1.39800823, "learning_rate": 2.254e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23297, "epoch": 3.42518485, "global_step/max_steps": "44935/65595", "percentage": "68.50%", "elapsed_time": "2d 5h 34m 36s", "remaining_time": "1d 0h 37m 59s"}
+{"loss": 0.05040096, "token_acc": 0.97654429, "grad_norm": 1.1355803, "learning_rate": 2.253e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232975, "epoch": 3.42556597, "global_step/max_steps": "44940/65595", "percentage": "68.51%", "elapsed_time": "2d 5h 34m 54s", "remaining_time": "1d 0h 37m 36s"}
+{"loss": 0.0735496, "token_acc": 0.97758112, "grad_norm": 2.07344341, "learning_rate": 2.252e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232979, "epoch": 3.4259471, "global_step/max_steps": "44945/65595", "percentage": "68.52%", "elapsed_time": "2d 5h 35m 12s", "remaining_time": "1d 0h 37m 13s"}
+{"loss": 0.04762394, "token_acc": 0.9750119, "grad_norm": 0.95402825, "learning_rate": 2.251e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232985, "epoch": 3.42632823, "global_step/max_steps": "44950/65595", "percentage": "68.53%", "elapsed_time": "2d 5h 35m 28s", "remaining_time": "1d 0h 36m 49s"}
+{"loss": 0.04844441, "token_acc": 0.98552321, "grad_norm": 0.47220561, "learning_rate": 2.25e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232989, "epoch": 3.42670935, "global_step/max_steps": "44955/65595", "percentage": "68.53%", "elapsed_time": "2d 5h 35m 46s", "remaining_time": "1d 0h 36m 26s"}
+{"loss": 0.04848337, "token_acc": 0.98705121, "grad_norm": 1.71178937, "learning_rate": 2.249e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232995, "epoch": 3.42709048, "global_step/max_steps": "44960/65595", "percentage": "68.54%", "elapsed_time": "2d 5h 36m 3s", "remaining_time": "1d 0h 36m 3s"}
+{"loss": 0.05712783, "token_acc": 0.97692775, "grad_norm": 1.13459313, "learning_rate": 2.248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232999, "epoch": 3.42747161, "global_step/max_steps": "44965/65595", "percentage": "68.55%", "elapsed_time": "2d 5h 36m 21s", "remaining_time": "1d 0h 35m 39s"}
+{"loss": 0.05551948, "token_acc": 0.97789451, "grad_norm": 0.95611298, "learning_rate": 2.247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233005, "epoch": 3.42785273, "global_step/max_steps": "44970/65595", "percentage": "68.56%", "elapsed_time": "2d 5h 36m 38s", "remaining_time": "1d 0h 35m 16s"}
+{"loss": 0.03807856, "token_acc": 0.98417468, "grad_norm": 0.97657508, "learning_rate": 2.246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233009, "epoch": 3.42823386, "global_step/max_steps": "44975/65595", "percentage": "68.56%", "elapsed_time": "2d 5h 36m 55s", "remaining_time": "1d 0h 34m 53s"}
+{"loss": 0.0308334, "token_acc": 0.98486886, "grad_norm": 0.75611496, "learning_rate": 2.245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233014, "epoch": 3.42861499, "global_step/max_steps": "44980/65595", "percentage": "68.57%", "elapsed_time": "2d 5h 37m 13s", "remaining_time": "1d 0h 34m 30s"}
+{"loss": 0.04865077, "token_acc": 0.97755703, "grad_norm": 1.45619416, "learning_rate": 2.244e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233021, "epoch": 3.42899611, "global_step/max_steps": "44985/65595", "percentage": "68.58%", "elapsed_time": "2d 5h 37m 28s", "remaining_time": "1d 0h 34m 5s"}
+{"loss": 0.05438899, "token_acc": 0.97854438, "grad_norm": 2.59099746, "learning_rate": 2.243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233029, "epoch": 3.42937724, "global_step/max_steps": "44990/65595", "percentage": "68.59%", "elapsed_time": "2d 5h 37m 43s", "remaining_time": "1d 0h 33m 41s"}
+{"loss": 0.06821859, "token_acc": 0.96995567, "grad_norm": 0.95425934, "learning_rate": 2.242e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233034, "epoch": 3.42975837, "global_step/max_steps": "44995/65595", "percentage": "68.60%", "elapsed_time": "2d 5h 38m 1s", "remaining_time": "1d 0h 33m 18s"}
+{"loss": 0.05988548, "token_acc": 0.97880691, "grad_norm": 2.17226315, "learning_rate": 2.241e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233041, "epoch": 3.43013949, "global_step/max_steps": "45000/65595", "percentage": "68.60%", "elapsed_time": "2d 5h 38m 17s", "remaining_time": "1d 0h 32m 54s"}
+{"eval_loss": 0.06367902, "eval_token_acc": 0.97387206, "eval_runtime": 222.2072, "eval_samples_per_second": 2.385, "eval_steps_per_second": 2.385, "epoch": 3.43013949, "global_step/max_steps": "45000/65595", "percentage": "68.60%", "elapsed_time": "2d 5h 41m 59s", "remaining_time": "1d 0h 34m 35s"}
+{"loss": 0.05831749, "token_acc": 0.97400044, "grad_norm": 1.07295465, "learning_rate": 2.24e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232778, "epoch": 3.43052062, "global_step/max_steps": "45005/65595", "percentage": "68.61%", "elapsed_time": "2d 5h 42m 16s", "remaining_time": "1d 0h 34m 12s"}
+{"loss": 0.08225315, "token_acc": 0.97387486, "grad_norm": 0.8300935, "learning_rate": 2.239e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232784, "epoch": 3.43090175, "global_step/max_steps": "45010/65595", "percentage": "68.62%", "elapsed_time": "2d 5h 42m 32s", "remaining_time": "1d 0h 33m 48s"}
+{"loss": 0.06296311, "token_acc": 0.97636448, "grad_norm": 0.79355073, "learning_rate": 2.238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232787, "epoch": 3.43128287, "global_step/max_steps": "45015/65595", "percentage": "68.63%", "elapsed_time": "2d 5h 42m 52s", "remaining_time": "1d 0h 33m 26s"}
+{"loss": 0.07846746, "token_acc": 0.97529324, "grad_norm": 1.48807859, "learning_rate": 2.237e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232794, "epoch": 3.431664, "global_step/max_steps": "45020/65595", "percentage": "68.63%", "elapsed_time": "2d 5h 43m 7s", "remaining_time": "1d 0h 33m 1s"}
+{"loss": 0.04911975, "token_acc": 0.98267967, "grad_norm": 1.22654986, "learning_rate": 2.236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2328, "epoch": 3.43204513, "global_step/max_steps": "45025/65595", "percentage": "68.64%", "elapsed_time": "2d 5h 43m 23s", "remaining_time": "1d 0h 32m 37s"}
+{"loss": 0.05825911, "token_acc": 0.97747748, "grad_norm": 0.85740334, "learning_rate": 2.235e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232806, "epoch": 3.43242625, "global_step/max_steps": "45030/65595", "percentage": "68.65%", "elapsed_time": "2d 5h 43m 40s", "remaining_time": "1d 0h 32m 14s"}
+{"loss": 0.06164218, "token_acc": 0.97987928, "grad_norm": 1.60665762, "learning_rate": 2.234e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23281, "epoch": 3.43280738, "global_step/max_steps": "45035/65595", "percentage": "68.66%", "elapsed_time": "2d 5h 43m 58s", "remaining_time": "1d 0h 31m 51s"}
+{"loss": 0.03807723, "token_acc": 0.98064116, "grad_norm": 0.61347914, "learning_rate": 2.233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232814, "epoch": 3.43318851, "global_step/max_steps": "45040/65595", "percentage": "68.66%", "elapsed_time": "2d 5h 44m 16s", "remaining_time": "1d 0h 31m 28s"}
+{"loss": 0.04955641, "token_acc": 0.98179272, "grad_norm": 1.4016031, "learning_rate": 2.232e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232822, "epoch": 3.43356963, "global_step/max_steps": "45045/65595", "percentage": "68.67%", "elapsed_time": "2d 5h 44m 31s", "remaining_time": "1d 0h 31m 3s"}
+{"loss": 0.05769634, "token_acc": 0.9779836, "grad_norm": 0.84413975, "learning_rate": 2.231e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232824, "epoch": 3.43395076, "global_step/max_steps": "45050/65595", "percentage": "68.68%", "elapsed_time": "2d 5h 44m 51s", "remaining_time": "1d 0h 30m 41s"}
+{"loss": 0.05947351, "token_acc": 0.97896613, "grad_norm": 0.91690773, "learning_rate": 2.23e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232832, "epoch": 3.43433189, "global_step/max_steps": "45055/65595", "percentage": "68.69%", "elapsed_time": "2d 5h 45m 6s", "remaining_time": "1d 0h 30m 17s"}
+{"loss": 0.07941018, "token_acc": 0.9668008, "grad_norm": 1.50641799, "learning_rate": 2.229e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23284, "epoch": 3.43471301, "global_step/max_steps": "45060/65595", "percentage": "68.69%", "elapsed_time": "2d 5h 45m 21s", "remaining_time": "1d 0h 29m 52s"}
+{"loss": 0.07426203, "token_acc": 0.9754386, "grad_norm": 1.87927353, "learning_rate": 2.228e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232846, "epoch": 3.43509414, "global_step/max_steps": "45065/65595", "percentage": "68.70%", "elapsed_time": "2d 5h 45m 37s", "remaining_time": "1d 0h 29m 28s"}
+{"loss": 0.06896369, "token_acc": 0.97304061, "grad_norm": 0.73551989, "learning_rate": 2.227e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232847, "epoch": 3.43547526, "global_step/max_steps": "45070/65595", "percentage": "68.71%", "elapsed_time": "2d 5h 45m 58s", "remaining_time": "1d 0h 29m 6s"}
+{"loss": 0.07325605, "token_acc": 0.97022446, "grad_norm": 1.05336821, "learning_rate": 2.226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232853, "epoch": 3.43585639, "global_step/max_steps": "45075/65595", "percentage": "68.72%", "elapsed_time": "2d 5h 46m 14s", "remaining_time": "1d 0h 28m 43s"}
+{"loss": 0.05115926, "token_acc": 0.98282408, "grad_norm": 0.80709457, "learning_rate": 2.225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232857, "epoch": 3.43623752, "global_step/max_steps": "45080/65595", "percentage": "68.72%", "elapsed_time": "2d 5h 46m 33s", "remaining_time": "1d 0h 28m 20s"}
+{"loss": 0.04727266, "token_acc": 0.98383988, "grad_norm": 0.9233098, "learning_rate": 2.224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23286, "epoch": 3.43661864, "global_step/max_steps": "45085/65595", "percentage": "68.73%", "elapsed_time": "2d 5h 46m 52s", "remaining_time": "1d 0h 27m 57s"}
+{"loss": 0.0607799, "token_acc": 0.97653472, "grad_norm": 1.51340532, "learning_rate": 2.223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232866, "epoch": 3.43699977, "global_step/max_steps": "45090/65595", "percentage": "68.74%", "elapsed_time": "2d 5h 47m 8s", "remaining_time": "1d 0h 27m 33s"}
+{"loss": 0.06186984, "token_acc": 0.98166877, "grad_norm": 1.02938104, "learning_rate": 2.222e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232873, "epoch": 3.4373809, "global_step/max_steps": "45095/65595", "percentage": "68.75%", "elapsed_time": "2d 5h 47m 23s", "remaining_time": "1d 0h 27m 9s"}
+{"loss": 0.03280589, "token_acc": 0.98489666, "grad_norm": 0.07360219, "learning_rate": 2.221e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232877, "epoch": 3.43776202, "global_step/max_steps": "45100/65595", "percentage": "68.76%", "elapsed_time": "2d 5h 47m 42s", "remaining_time": "1d 0h 26m 46s"}
+{"loss": 0.06110885, "token_acc": 0.97193114, "grad_norm": 3.41982126, "learning_rate": 2.22e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232885, "epoch": 3.43814315, "global_step/max_steps": "45105/65595", "percentage": "68.76%", "elapsed_time": "2d 5h 47m 56s", "remaining_time": "1d 0h 26m 22s"}
+{"loss": 0.07432514, "token_acc": 0.97064034, "grad_norm": 0.93955344, "learning_rate": 2.219e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232892, "epoch": 3.43852428, "global_step/max_steps": "45110/65595", "percentage": "68.77%", "elapsed_time": "2d 5h 48m 12s", "remaining_time": "1d 0h 25m 58s"}
+{"loss": 0.05283675, "token_acc": 0.97982515, "grad_norm": 0.87807077, "learning_rate": 2.218e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232896, "epoch": 3.4389054, "global_step/max_steps": "45115/65595", "percentage": "68.78%", "elapsed_time": "2d 5h 48m 30s", "remaining_time": "1d 0h 25m 35s"}
+{"loss": 0.0453149, "token_acc": 0.98086412, "grad_norm": 1.32693124, "learning_rate": 2.217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232899, "epoch": 3.43928653, "global_step/max_steps": "45120/65595", "percentage": "68.79%", "elapsed_time": "2d 5h 48m 50s", "remaining_time": "1d 0h 25m 12s"}
+{"loss": 0.03697278, "token_acc": 0.98430962, "grad_norm": 1.71305907, "learning_rate": 2.216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232906, "epoch": 3.43966766, "global_step/max_steps": "45125/65595", "percentage": "68.79%", "elapsed_time": "2d 5h 49m 5s", "remaining_time": "1d 0h 24m 48s"}
+{"loss": 0.05062277, "token_acc": 0.98333333, "grad_norm": 0.14971447, "learning_rate": 2.215e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232909, "epoch": 3.44004878, "global_step/max_steps": "45130/65595", "percentage": "68.80%", "elapsed_time": "2d 5h 49m 24s", "remaining_time": "1d 0h 24m 25s"}
+{"loss": 0.06038525, "token_acc": 0.96531646, "grad_norm": 1.56638491, "learning_rate": 2.215e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232916, "epoch": 3.44042991, "global_step/max_steps": "45135/65595", "percentage": "68.81%", "elapsed_time": "2d 5h 49m 40s", "remaining_time": "1d 0h 24m 1s"}
+{"loss": 0.07549288, "token_acc": 0.97030219, "grad_norm": 1.00632346, "learning_rate": 2.214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232919, "epoch": 3.44081104, "global_step/max_steps": "45140/65595", "percentage": "68.82%", "elapsed_time": "2d 5h 49m 58s", "remaining_time": "1d 0h 23m 39s"}
+{"loss": 0.05870129, "token_acc": 0.97900088, "grad_norm": 1.32757282, "learning_rate": 2.213e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232925, "epoch": 3.44119216, "global_step/max_steps": "45145/65595", "percentage": "68.82%", "elapsed_time": "2d 5h 50m 15s", "remaining_time": "1d 0h 23m 15s"}
+{"loss": 0.07459087, "token_acc": 0.96660757, "grad_norm": 3.06899452, "learning_rate": 2.212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232933, "epoch": 3.44157329, "global_step/max_steps": "45150/65595", "percentage": "68.83%", "elapsed_time": "2d 5h 50m 30s", "remaining_time": "1d 0h 22m 51s"}
+{"loss": 0.05880055, "token_acc": 0.97323888, "grad_norm": 1.15043402, "learning_rate": 2.211e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232941, "epoch": 3.44195442, "global_step/max_steps": "45155/65595", "percentage": "68.84%", "elapsed_time": "2d 5h 50m 45s", "remaining_time": "1d 0h 22m 26s"}
+{"loss": 0.07028624, "token_acc": 0.97268321, "grad_norm": 1.12740862, "learning_rate": 2.21e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232943, "epoch": 3.44233554, "global_step/max_steps": "45160/65595", "percentage": "68.85%", "elapsed_time": "2d 5h 51m 4s", "remaining_time": "1d 0h 22m 4s"}
+{"loss": 0.03891248, "token_acc": 0.98592849, "grad_norm": 1.66435921, "learning_rate": 2.209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23295, "epoch": 3.44271667, "global_step/max_steps": "45165/65595", "percentage": "68.85%", "elapsed_time": "2d 5h 51m 20s", "remaining_time": "1d 0h 21m 40s"}
+{"loss": 0.06343858, "token_acc": 0.97456954, "grad_norm": 1.98523664, "learning_rate": 2.208e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232957, "epoch": 3.4430978, "global_step/max_steps": "45170/65595", "percentage": "68.86%", "elapsed_time": "2d 5h 51m 36s", "remaining_time": "1d 0h 21m 16s"}
+{"loss": 0.05636727, "token_acc": 0.98053024, "grad_norm": 0.98709583, "learning_rate": 2.207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232962, "epoch": 3.44347892, "global_step/max_steps": "45175/65595", "percentage": "68.87%", "elapsed_time": "2d 5h 51m 53s", "remaining_time": "1d 0h 20m 52s"}
+{"loss": 0.07741479, "token_acc": 0.97281278, "grad_norm": 1.6161958, "learning_rate": 2.206e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232965, "epoch": 3.44386005, "global_step/max_steps": "45180/65595", "percentage": "68.88%", "elapsed_time": "2d 5h 52m 12s", "remaining_time": "1d 0h 20m 30s"}
+{"loss": 0.0662162, "token_acc": 0.97948939, "grad_norm": 1.8417623, "learning_rate": 2.205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232968, "epoch": 3.44424118, "global_step/max_steps": "45185/65595", "percentage": "68.88%", "elapsed_time": "2d 5h 52m 31s", "remaining_time": "1d 0h 20m 7s"}
+{"loss": 0.04340148, "token_acc": 0.98229814, "grad_norm": 1.91965389, "learning_rate": 2.204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232974, "epoch": 3.4446223, "global_step/max_steps": "45190/65595", "percentage": "68.89%", "elapsed_time": "2d 5h 52m 47s", "remaining_time": "1d 0h 19m 43s"}
+{"loss": 0.05473849, "token_acc": 0.98224116, "grad_norm": 2.32005596, "learning_rate": 2.203e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232978, "epoch": 3.44500343, "global_step/max_steps": "45195/65595", "percentage": "68.90%", "elapsed_time": "2d 5h 53m 5s", "remaining_time": "1d 0h 19m 20s"}
+{"loss": 0.05917547, "token_acc": 0.98140153, "grad_norm": 0.56182659, "learning_rate": 2.202e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232981, "epoch": 3.44538456, "global_step/max_steps": "45200/65595", "percentage": "68.91%", "elapsed_time": "2d 5h 53m 24s", "remaining_time": "1d 0h 18m 58s"}
+{"eval_loss": 0.06219212, "eval_token_acc": 0.9743916, "eval_runtime": 221.2737, "eval_samples_per_second": 2.395, "eval_steps_per_second": 2.395, "epoch": 3.44538456, "global_step/max_steps": "45200/65595", "percentage": "68.91%", "elapsed_time": "2d 5h 57m 6s", "remaining_time": "1d 0h 20m 38s"}
+{"loss": 0.04388138, "token_acc": 0.97454522, "grad_norm": 0.83136857, "learning_rate": 2.201e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232721, "epoch": 3.44576568, "global_step/max_steps": "45205/65595", "percentage": "68.92%", "elapsed_time": "2d 5h 57m 23s", "remaining_time": "1d 0h 20m 14s"}
+{"loss": 0.07583793, "token_acc": 0.97497547, "grad_norm": 0.48278126, "learning_rate": 2.2e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232724, "epoch": 3.44614681, "global_step/max_steps": "45210/65595", "percentage": "68.92%", "elapsed_time": "2d 5h 57m 42s", "remaining_time": "1d 0h 19m 52s"}
+{"loss": 0.05018749, "token_acc": 0.97919556, "grad_norm": 1.01613164, "learning_rate": 2.199e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23273, "epoch": 3.44652794, "global_step/max_steps": "45215/65595", "percentage": "68.93%", "elapsed_time": "2d 5h 57m 58s", "remaining_time": "1d 0h 19m 28s"}
+{"loss": 0.05433969, "token_acc": 0.97932007, "grad_norm": 1.43893754, "learning_rate": 2.198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232736, "epoch": 3.44690906, "global_step/max_steps": "45220/65595", "percentage": "68.94%", "elapsed_time": "2d 5h 58m 15s", "remaining_time": "1d 0h 19m 4s"}
+{"loss": 0.06922097, "token_acc": 0.97239949, "grad_norm": 1.01101601, "learning_rate": 2.197e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232741, "epoch": 3.44729019, "global_step/max_steps": "45225/65595", "percentage": "68.95%", "elapsed_time": "2d 5h 58m 32s", "remaining_time": "1d 0h 18m 41s"}
+{"loss": 0.05955634, "token_acc": 0.98182711, "grad_norm": 1.30812252, "learning_rate": 2.196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232749, "epoch": 3.44767132, "global_step/max_steps": "45230/65595", "percentage": "68.95%", "elapsed_time": "2d 5h 58m 47s", "remaining_time": "1d 0h 18m 16s"}
+{"loss": 0.06339813, "token_acc": 0.97523041, "grad_norm": 1.30907822, "learning_rate": 2.195e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232758, "epoch": 3.44805244, "global_step/max_steps": "45235/65595", "percentage": "68.96%", "elapsed_time": "2d 5h 59m 0s", "remaining_time": "1d 0h 17m 51s"}
+{"loss": 0.06343318, "token_acc": 0.97394506, "grad_norm": 1.51567757, "learning_rate": 2.194e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232766, "epoch": 3.44843357, "global_step/max_steps": "45240/65595", "percentage": "68.97%", "elapsed_time": "2d 5h 59m 16s", "remaining_time": "1d 0h 17m 27s"}
+{"loss": 0.03897995, "token_acc": 0.97950912, "grad_norm": 1.07096684, "learning_rate": 2.193e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232771, "epoch": 3.4488147, "global_step/max_steps": "45245/65595", "percentage": "68.98%", "elapsed_time": "2d 5h 59m 33s", "remaining_time": "1d 0h 17m 3s"}
+{"loss": 0.06364188, "token_acc": 0.96773202, "grad_norm": 1.28915441, "learning_rate": 2.192e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232779, "epoch": 3.44919582, "global_step/max_steps": "45250/65595", "percentage": "68.98%", "elapsed_time": "2d 5h 59m 48s", "remaining_time": "1d 0h 16m 39s"}
+{"loss": 0.06384529, "token_acc": 0.97620579, "grad_norm": 1.66057038, "learning_rate": 2.191e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232782, "epoch": 3.44957695, "global_step/max_steps": "45255/65595", "percentage": "68.99%", "elapsed_time": "2d 6h 0m 7s", "remaining_time": "1d 0h 16m 16s"}
+{"loss": 0.06739249, "token_acc": 0.96999077, "grad_norm": 1.29802942, "learning_rate": 2.19e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232791, "epoch": 3.44995808, "global_step/max_steps": "45260/65595", "percentage": "69.00%", "elapsed_time": "2d 6h 0m 21s", "remaining_time": "1d 0h 15m 52s"}
+{"loss": 0.065966, "token_acc": 0.97403453, "grad_norm": 2.11778402, "learning_rate": 2.189e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232794, "epoch": 3.4503392, "global_step/max_steps": "45265/65595", "percentage": "69.01%", "elapsed_time": "2d 6h 0m 39s", "remaining_time": "1d 0h 15m 29s"}
+{"loss": 0.03947869, "token_acc": 0.98535892, "grad_norm": 0.98836672, "learning_rate": 2.188e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232796, "epoch": 3.45072033, "global_step/max_steps": "45270/65595", "percentage": "69.01%", "elapsed_time": "2d 6h 1m 0s", "remaining_time": "1d 0h 15m 7s"}
+{"loss": 0.05245245, "token_acc": 0.97906553, "grad_norm": 1.35588026, "learning_rate": 2.187e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232803, "epoch": 3.45110146, "global_step/max_steps": "45275/65595", "percentage": "69.02%", "elapsed_time": "2d 6h 1m 15s", "remaining_time": "1d 0h 14m 43s"}
+{"loss": 0.08758134, "token_acc": 0.96800324, "grad_norm": 0.860825, "learning_rate": 2.186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232811, "epoch": 3.45148258, "global_step/max_steps": "45280/65595", "percentage": "69.03%", "elapsed_time": "2d 6h 1m 30s", "remaining_time": "1d 0h 14m 18s"}
+{"loss": 0.06350049, "token_acc": 0.979967, "grad_norm": 0.98180252, "learning_rate": 2.185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232816, "epoch": 3.45186371, "global_step/max_steps": "45285/65595", "percentage": "69.04%", "elapsed_time": "2d 6h 1m 47s", "remaining_time": "1d 0h 13m 55s"}
+{"loss": 0.0603919, "token_acc": 0.97203947, "grad_norm": 1.07674515, "learning_rate": 2.184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232824, "epoch": 3.45224484, "global_step/max_steps": "45290/65595", "percentage": "69.04%", "elapsed_time": "2d 6h 2m 2s", "remaining_time": "1d 0h 13m 30s"}
+{"loss": 0.05566367, "token_acc": 0.96349369, "grad_norm": 1.51627028, "learning_rate": 2.183e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232831, "epoch": 3.45262596, "global_step/max_steps": "45295/65595", "percentage": "69.05%", "elapsed_time": "2d 6h 2m 18s", "remaining_time": "1d 0h 13m 6s"}
+{"loss": 0.06623818, "token_acc": 0.98017285, "grad_norm": 1.83333707, "learning_rate": 2.182e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232837, "epoch": 3.45300709, "global_step/max_steps": "45300/65595", "percentage": "69.06%", "elapsed_time": "2d 6h 2m 34s", "remaining_time": "1d 0h 12m 43s"}
+{"loss": 0.08530397, "token_acc": 0.96357197, "grad_norm": 1.11910033, "learning_rate": 2.181e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232843, "epoch": 3.45338822, "global_step/max_steps": "45305/65595", "percentage": "69.07%", "elapsed_time": "2d 6h 2m 50s", "remaining_time": "1d 0h 12m 19s"}
+{"loss": 0.04689441, "token_acc": 0.98375132, "grad_norm": 1.37156427, "learning_rate": 2.18e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232851, "epoch": 3.45376934, "global_step/max_steps": "45310/65595", "percentage": "69.08%", "elapsed_time": "2d 6h 3m 6s", "remaining_time": "1d 0h 11m 54s"}
+{"loss": 0.05835525, "token_acc": 0.97110676, "grad_norm": 0.94337553, "learning_rate": 2.179e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232854, "epoch": 3.45415047, "global_step/max_steps": "45315/65595", "percentage": "69.08%", "elapsed_time": "2d 6h 3m 24s", "remaining_time": "1d 0h 11m 32s"}
+{"loss": 0.04084861, "token_acc": 0.985, "grad_norm": 0.97248578, "learning_rate": 2.178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232859, "epoch": 3.4545316, "global_step/max_steps": "45320/65595", "percentage": "69.09%", "elapsed_time": "2d 6h 3m 41s", "remaining_time": "1d 0h 11m 8s"}
+{"loss": 0.05940613, "token_acc": 0.97567114, "grad_norm": 2.25377822, "learning_rate": 2.177e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232867, "epoch": 3.45491272, "global_step/max_steps": "45325/65595", "percentage": "69.10%", "elapsed_time": "2d 6h 3m 56s", "remaining_time": "1d 0h 10m 44s"}
+{"loss": 0.06856382, "token_acc": 0.97354915, "grad_norm": 1.35413182, "learning_rate": 2.176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232876, "epoch": 3.45529385, "global_step/max_steps": "45330/65595", "percentage": "69.11%", "elapsed_time": "2d 6h 4m 10s", "remaining_time": "1d 0h 10m 19s"}
+{"loss": 0.06634035, "token_acc": 0.96888889, "grad_norm": 1.06505239, "learning_rate": 2.175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232883, "epoch": 3.45567498, "global_step/max_steps": "45335/65595", "percentage": "69.11%", "elapsed_time": "2d 6h 4m 26s", "remaining_time": "1d 0h 9m 55s"}
+{"loss": 0.03585314, "token_acc": 0.9855814, "grad_norm": 0.8153066, "learning_rate": 2.174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232889, "epoch": 3.4560561, "global_step/max_steps": "45340/65595", "percentage": "69.12%", "elapsed_time": "2d 6h 4m 42s", "remaining_time": "1d 0h 9m 31s"}
+{"loss": 0.04423661, "token_acc": 0.98316008, "grad_norm": 0.63279659, "learning_rate": 2.173e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232894, "epoch": 3.45643723, "global_step/max_steps": "45345/65595", "percentage": "69.13%", "elapsed_time": "2d 6h 5m 0s", "remaining_time": "1d 0h 9m 8s"}
+{"loss": 0.06785483, "token_acc": 0.97614648, "grad_norm": 0.52798098, "learning_rate": 2.172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232898, "epoch": 3.45681836, "global_step/max_steps": "45350/65595", "percentage": "69.14%", "elapsed_time": "2d 6h 5m 17s", "remaining_time": "1d 0h 8m 45s"}
+{"loss": 0.062383, "token_acc": 0.97546517, "grad_norm": 1.18101776, "learning_rate": 2.171e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232902, "epoch": 3.45719948, "global_step/max_steps": "45355/65595", "percentage": "69.14%", "elapsed_time": "2d 6h 5m 36s", "remaining_time": "1d 0h 8m 22s"}
+{"loss": 0.04913254, "token_acc": 0.97947865, "grad_norm": 0.76048863, "learning_rate": 2.17e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232908, "epoch": 3.45758061, "global_step/max_steps": "45360/65595", "percentage": "69.15%", "elapsed_time": "2d 6h 5m 52s", "remaining_time": "1d 0h 7m 58s"}
+{"loss": 0.03613583, "token_acc": 0.98445856, "grad_norm": 0.75149554, "learning_rate": 2.169e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23291, "epoch": 3.45796173, "global_step/max_steps": "45365/65595", "percentage": "69.16%", "elapsed_time": "2d 6h 6m 12s", "remaining_time": "1d 0h 7m 36s"}
+{"loss": 0.0778978, "token_acc": 0.97282018, "grad_norm": 0.90834701, "learning_rate": 2.168e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232914, "epoch": 3.45834286, "global_step/max_steps": "45370/65595", "percentage": "69.17%", "elapsed_time": "2d 6h 6m 30s", "remaining_time": "1d 0h 7m 13s"}
+{"loss": 0.03419223, "token_acc": 0.98353254, "grad_norm": 0.68129361, "learning_rate": 2.167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232915, "epoch": 3.45872399, "global_step/max_steps": "45375/65595", "percentage": "69.17%", "elapsed_time": "2d 6h 6m 51s", "remaining_time": "1d 0h 6m 51s"}
+{"loss": 0.0678126, "token_acc": 0.97520577, "grad_norm": 0.8549937, "learning_rate": 2.166e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232915, "epoch": 3.45910511, "global_step/max_steps": "45380/65595", "percentage": "69.18%", "elapsed_time": "2d 6h 7m 12s", "remaining_time": "1d 0h 6m 30s"}
+{"loss": 0.06904896, "token_acc": 0.97556949, "grad_norm": 1.64419997, "learning_rate": 2.165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23292, "epoch": 3.45948624, "global_step/max_steps": "45385/65595", "percentage": "69.19%", "elapsed_time": "2d 6h 7m 30s", "remaining_time": "1d 0h 6m 7s"}
+{"loss": 0.07576008, "token_acc": 0.96740741, "grad_norm": 0.93959385, "learning_rate": 2.164e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232928, "epoch": 3.45986737, "global_step/max_steps": "45390/65595", "percentage": "69.20%", "elapsed_time": "2d 6h 7m 45s", "remaining_time": "1d 0h 5m 42s"}
+{"loss": 0.04080158, "token_acc": 0.97760189, "grad_norm": 0.57149756, "learning_rate": 2.163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232934, "epoch": 3.46024849, "global_step/max_steps": "45395/65595", "percentage": "69.20%", "elapsed_time": "2d 6h 8m 1s", "remaining_time": "1d 0h 5m 19s"}
+{"loss": 0.06168677, "token_acc": 0.97947761, "grad_norm": 1.66909575, "learning_rate": 2.162e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232939, "epoch": 3.46062962, "global_step/max_steps": "45400/65595", "percentage": "69.21%", "elapsed_time": "2d 6h 8m 18s", "remaining_time": "1d 0h 4m 55s"}
+{"eval_loss": 0.06145572, "eval_token_acc": 0.97462502, "eval_runtime": 220.7587, "eval_samples_per_second": 2.401, "eval_steps_per_second": 2.401, "epoch": 3.46062962, "global_step/max_steps": "45400/65595", "percentage": "69.21%", "elapsed_time": "2d 6h 11m 59s", "remaining_time": "1d 0h 6m 33s"}
+{"loss": 0.05769318, "token_acc": 0.97486874, "grad_norm": 0.87169826, "learning_rate": 2.161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232681, "epoch": 3.46101075, "global_step/max_steps": "45405/65595", "percentage": "69.22%", "elapsed_time": "2d 6h 12m 16s", "remaining_time": "1d 0h 6m 10s"}
+{"loss": 0.0542403, "token_acc": 0.98142514, "grad_norm": 0.85242158, "learning_rate": 2.16e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232684, "epoch": 3.46139187, "global_step/max_steps": "45410/65595", "percentage": "69.23%", "elapsed_time": "2d 6h 12m 34s", "remaining_time": "1d 0h 5m 47s"}
+{"loss": 0.06508281, "token_acc": 0.97869718, "grad_norm": 0.78107232, "learning_rate": 2.159e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232689, "epoch": 3.461773, "global_step/max_steps": "45415/65595", "percentage": "69.24%", "elapsed_time": "2d 6h 12m 52s", "remaining_time": "1d 0h 5m 24s"}
+{"loss": 0.0689714, "token_acc": 0.97011033, "grad_norm": 1.45051575, "learning_rate": 2.158e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232694, "epoch": 3.46215413, "global_step/max_steps": "45420/65595", "percentage": "69.24%", "elapsed_time": "2d 6h 13m 9s", "remaining_time": "1d 0h 5m 0s"}
+{"loss": 0.06275313, "token_acc": 0.97759434, "grad_norm": 1.13093901, "learning_rate": 2.157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2327, "epoch": 3.46253525, "global_step/max_steps": "45425/65595", "percentage": "69.25%", "elapsed_time": "2d 6h 13m 26s", "remaining_time": "1d 0h 4m 37s"}
+{"loss": 0.05117927, "token_acc": 0.97616537, "grad_norm": 0.90292233, "learning_rate": 2.156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232706, "epoch": 3.46291638, "global_step/max_steps": "45430/65595", "percentage": "69.26%", "elapsed_time": "2d 6h 13m 42s", "remaining_time": "1d 0h 4m 13s"}
+{"loss": 0.06647626, "token_acc": 0.97890295, "grad_norm": 1.10341072, "learning_rate": 2.155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232715, "epoch": 3.46329751, "global_step/max_steps": "45435/65595", "percentage": "69.27%", "elapsed_time": "2d 6h 13m 56s", "remaining_time": "1d 0h 3m 48s"}
+{"loss": 0.0587945, "token_acc": 0.97164426, "grad_norm": 2.06468558, "learning_rate": 2.154e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23272, "epoch": 3.46367863, "global_step/max_steps": "45440/65595", "percentage": "69.27%", "elapsed_time": "2d 6h 14m 13s", "remaining_time": "1d 0h 3m 25s"}
+{"loss": 0.0319513, "token_acc": 0.98670544, "grad_norm": 0.76778996, "learning_rate": 2.153e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232726, "epoch": 3.46405976, "global_step/max_steps": "45445/65595", "percentage": "69.28%", "elapsed_time": "2d 6h 14m 30s", "remaining_time": "1d 0h 3m 1s"}
+{"loss": 0.05282139, "token_acc": 0.97579521, "grad_norm": 0.73231024, "learning_rate": 2.152e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232731, "epoch": 3.46444089, "global_step/max_steps": "45450/65595", "percentage": "69.29%", "elapsed_time": "2d 6h 14m 47s", "remaining_time": "1d 0h 2m 38s"}
+{"loss": 0.073416, "token_acc": 0.97354204, "grad_norm": 1.20354724, "learning_rate": 2.151e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232733, "epoch": 3.46482201, "global_step/max_steps": "45455/65595", "percentage": "69.30%", "elapsed_time": "2d 6h 15m 7s", "remaining_time": "1d 0h 2m 15s"}
+{"loss": 0.0551895, "token_acc": 0.97749604, "grad_norm": 1.30005634, "learning_rate": 2.15e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232738, "epoch": 3.46520314, "global_step/max_steps": "45460/65595", "percentage": "69.30%", "elapsed_time": "2d 6h 15m 24s", "remaining_time": "1d 0h 1m 52s"}
+{"loss": 0.11701295, "token_acc": 0.96118465, "grad_norm": 1.25492311, "learning_rate": 2.149e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232745, "epoch": 3.46558427, "global_step/max_steps": "45465/65595", "percentage": "69.31%", "elapsed_time": "2d 6h 15m 40s", "remaining_time": "1d 0h 1m 28s"}
+{"loss": 0.06862907, "token_acc": 0.97181616, "grad_norm": 1.00435472, "learning_rate": 2.148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232745, "epoch": 3.46596539, "global_step/max_steps": "45470/65595", "percentage": "69.32%", "elapsed_time": "2d 6h 16m 1s", "remaining_time": "1d 0h 1m 6s"}
+{"loss": 0.04723506, "token_acc": 0.97964681, "grad_norm": 0.97964525, "learning_rate": 2.147e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232748, "epoch": 3.46634652, "global_step/max_steps": "45475/65595", "percentage": "69.33%", "elapsed_time": "2d 6h 16m 20s", "remaining_time": "1d 0h 0m 44s"}
+{"loss": 0.06765291, "token_acc": 0.97491137, "grad_norm": 0.94450426, "learning_rate": 2.146e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232756, "epoch": 3.46672765, "global_step/max_steps": "45480/65595", "percentage": "69.33%", "elapsed_time": "2d 6h 16m 35s", "remaining_time": "1d 0h 0m 20s"}
+{"loss": 0.06539471, "token_acc": 0.97675906, "grad_norm": 0.64490151, "learning_rate": 2.145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23276, "epoch": 3.46710877, "global_step/max_steps": "45485/65595", "percentage": "69.34%", "elapsed_time": "2d 6h 16m 53s", "remaining_time": "23h 59m 56s"}
+{"loss": 0.05540565, "token_acc": 0.97364568, "grad_norm": 0.66713768, "learning_rate": 2.144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232765, "epoch": 3.4674899, "global_step/max_steps": "45490/65595", "percentage": "69.35%", "elapsed_time": "2d 6h 17m 10s", "remaining_time": "23h 59m 33s"}
+{"loss": 0.05598846, "token_acc": 0.98213836, "grad_norm": 1.65259266, "learning_rate": 2.143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232773, "epoch": 3.46787103, "global_step/max_steps": "45495/65595", "percentage": "69.36%", "elapsed_time": "2d 6h 17m 26s", "remaining_time": "23h 59m 9s"}
+{"loss": 0.04629413, "token_acc": 0.97820412, "grad_norm": 0.88788176, "learning_rate": 2.142e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232774, "epoch": 3.46825215, "global_step/max_steps": "45500/65595", "percentage": "69.37%", "elapsed_time": "2d 6h 17m 46s", "remaining_time": "23h 58m 47s"}
+{"loss": 0.04226996, "token_acc": 0.97915798, "grad_norm": 0.88097703, "learning_rate": 2.141e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23278, "epoch": 3.46863328, "global_step/max_steps": "45505/65595", "percentage": "69.37%", "elapsed_time": "2d 6h 18m 2s", "remaining_time": "23h 58m 23s"}
+{"loss": 0.06449524, "token_acc": 0.97393617, "grad_norm": 0.82979703, "learning_rate": 2.14e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232787, "epoch": 3.46901441, "global_step/max_steps": "45510/65595", "percentage": "69.38%", "elapsed_time": "2d 6h 18m 18s", "remaining_time": "23h 57m 59s"}
+{"loss": 0.10312068, "token_acc": 0.95803012, "grad_norm": 2.35861182, "learning_rate": 2.139e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232791, "epoch": 3.46939553, "global_step/max_steps": "45515/65595", "percentage": "69.39%", "elapsed_time": "2d 6h 18m 36s", "remaining_time": "23h 57m 36s"}
+{"loss": 0.04781648, "token_acc": 0.97997007, "grad_norm": 0.45927197, "learning_rate": 2.138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232792, "epoch": 3.46977666, "global_step/max_steps": "45520/65595", "percentage": "69.40%", "elapsed_time": "2d 6h 18m 57s", "remaining_time": "23h 57m 14s"}
+{"loss": 0.04691123, "token_acc": 0.9864019, "grad_norm": 0.96019351, "learning_rate": 2.137e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232797, "epoch": 3.47015779, "global_step/max_steps": "45525/65595", "percentage": "69.40%", "elapsed_time": "2d 6h 19m 14s", "remaining_time": "23h 56m 51s"}
+{"loss": 0.07405024, "token_acc": 0.9706441, "grad_norm": 1.29843223, "learning_rate": 2.136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232802, "epoch": 3.47053891, "global_step/max_steps": "45530/65595", "percentage": "69.41%", "elapsed_time": "2d 6h 19m 31s", "remaining_time": "23h 56m 28s"}
+{"loss": 0.04672653, "token_acc": 0.97785738, "grad_norm": 1.25764298, "learning_rate": 2.135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232808, "epoch": 3.47092004, "global_step/max_steps": "45535/65595", "percentage": "69.42%", "elapsed_time": "2d 6h 19m 47s", "remaining_time": "23h 56m 4s"}
+{"loss": 0.05680584, "token_acc": 0.9753937, "grad_norm": 0.71858227, "learning_rate": 2.134e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232814, "epoch": 3.47130117, "global_step/max_steps": "45540/65595", "percentage": "69.43%", "elapsed_time": "2d 6h 20m 4s", "remaining_time": "23h 55m 40s"}
+{"loss": 0.06901567, "token_acc": 0.97937715, "grad_norm": 0.79449904, "learning_rate": 2.134e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232814, "epoch": 3.47168229, "global_step/max_steps": "45545/65595", "percentage": "69.43%", "elapsed_time": "2d 6h 20m 25s", "remaining_time": "23h 55m 19s"}
+{"loss": 0.04543835, "token_acc": 0.98236883, "grad_norm": 0.8480202, "learning_rate": 2.133e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232818, "epoch": 3.47206342, "global_step/max_steps": "45550/65595", "percentage": "69.44%", "elapsed_time": "2d 6h 20m 44s", "remaining_time": "23h 54m 56s"}
+{"loss": 0.05409672, "token_acc": 0.9741206, "grad_norm": 0.56131178, "learning_rate": 2.132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232823, "epoch": 3.47244455, "global_step/max_steps": "45555/65595", "percentage": "69.45%", "elapsed_time": "2d 6h 21m 1s", "remaining_time": "23h 54m 33s"}
+{"loss": 0.04016848, "token_acc": 0.98024055, "grad_norm": 0.58664638, "learning_rate": 2.131e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232829, "epoch": 3.47282567, "global_step/max_steps": "45560/65595", "percentage": "69.46%", "elapsed_time": "2d 6h 21m 17s", "remaining_time": "23h 54m 9s"}
+{"loss": 0.03514874, "token_acc": 0.9848378, "grad_norm": 0.78971833, "learning_rate": 2.13e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232834, "epoch": 3.4732068, "global_step/max_steps": "45565/65595", "percentage": "69.46%", "elapsed_time": "2d 6h 21m 35s", "remaining_time": "23h 53m 46s"}
+{"loss": 0.04257304, "token_acc": 0.98007055, "grad_norm": 0.72942859, "learning_rate": 2.129e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232839, "epoch": 3.47358793, "global_step/max_steps": "45570/65595", "percentage": "69.47%", "elapsed_time": "2d 6h 21m 52s", "remaining_time": "23h 53m 22s"}
+{"loss": 0.05803643, "token_acc": 0.977813, "grad_norm": 1.83724892, "learning_rate": 2.128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232842, "epoch": 3.47396905, "global_step/max_steps": "45575/65595", "percentage": "69.48%", "elapsed_time": "2d 6h 22m 10s", "remaining_time": "23h 52m 59s"}
+{"loss": 0.05881203, "token_acc": 0.97648328, "grad_norm": 1.46334839, "learning_rate": 2.127e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232848, "epoch": 3.47435018, "global_step/max_steps": "45580/65595", "percentage": "69.49%", "elapsed_time": "2d 6h 22m 27s", "remaining_time": "23h 52m 36s"}
+{"loss": 0.04949098, "token_acc": 0.98599853, "grad_norm": 2.54295349, "learning_rate": 2.126e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232853, "epoch": 3.47473131, "global_step/max_steps": "45585/65595", "percentage": "69.49%", "elapsed_time": "2d 6h 22m 45s", "remaining_time": "23h 52m 13s"}
+{"loss": 0.06389385, "token_acc": 0.9766537, "grad_norm": 1.12192321, "learning_rate": 2.125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232859, "epoch": 3.47511243, "global_step/max_steps": "45590/65595", "percentage": "69.50%", "elapsed_time": "2d 6h 23m 1s", "remaining_time": "23h 51m 49s"}
+{"loss": 0.07849932, "token_acc": 0.96970414, "grad_norm": 1.30534434, "learning_rate": 2.124e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232866, "epoch": 3.47549356, "global_step/max_steps": "45595/65595", "percentage": "69.51%", "elapsed_time": "2d 6h 23m 16s", "remaining_time": "23h 51m 25s"}
+{"loss": 0.06763591, "token_acc": 0.97498697, "grad_norm": 0.93876058, "learning_rate": 2.123e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232873, "epoch": 3.47587469, "global_step/max_steps": "45600/65595", "percentage": "69.52%", "elapsed_time": "2d 6h 23m 32s", "remaining_time": "23h 51m 1s"}
+{"eval_loss": 0.06129448, "eval_token_acc": 0.97489609, "eval_runtime": 222.3326, "eval_samples_per_second": 2.384, "eval_steps_per_second": 2.384, "epoch": 3.47587469, "global_step/max_steps": "45600/65595", "percentage": "69.52%", "elapsed_time": "2d 6h 27m 15s", "remaining_time": "23h 52m 38s"}
+{"loss": 0.03238995, "token_acc": 0.97531558, "grad_norm": 0.54042691, "learning_rate": 2.122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232612, "epoch": 3.47625581, "global_step/max_steps": "45605/65595", "percentage": "69.53%", "elapsed_time": "2d 6h 27m 33s", "remaining_time": "23h 52m 16s"}
+{"loss": 0.05108104, "token_acc": 0.97725269, "grad_norm": 1.27973127, "learning_rate": 2.121e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232618, "epoch": 3.47663694, "global_step/max_steps": "45610/65595", "percentage": "69.53%", "elapsed_time": "2d 6h 27m 49s", "remaining_time": "23h 51m 52s"}
+{"loss": 0.07645491, "token_acc": 0.97252747, "grad_norm": 2.9462409, "learning_rate": 2.12e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232625, "epoch": 3.47701807, "global_step/max_steps": "45615/65595", "percentage": "69.54%", "elapsed_time": "2d 6h 28m 5s", "remaining_time": "23h 51m 28s"}
+{"loss": 0.05076542, "token_acc": 0.97367485, "grad_norm": 1.1436007, "learning_rate": 2.119e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232633, "epoch": 3.47739919, "global_step/max_steps": "45620/65595", "percentage": "69.55%", "elapsed_time": "2d 6h 28m 20s", "remaining_time": "23h 51m 3s"}
+{"loss": 0.06473852, "token_acc": 0.97644346, "grad_norm": 0.48035794, "learning_rate": 2.118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232633, "epoch": 3.47778032, "global_step/max_steps": "45625/65595", "percentage": "69.56%", "elapsed_time": "2d 6h 28m 41s", "remaining_time": "23h 50m 42s"}
+{"loss": 0.04859039, "token_acc": 0.97846656, "grad_norm": 0.05489281, "learning_rate": 2.117e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23264, "epoch": 3.47816145, "global_step/max_steps": "45630/65595", "percentage": "69.56%", "elapsed_time": "2d 6h 28m 57s", "remaining_time": "23h 50m 18s"}
+{"loss": 0.06078805, "token_acc": 0.9698204, "grad_norm": 1.38233459, "learning_rate": 2.116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232644, "epoch": 3.47854257, "global_step/max_steps": "45635/65595", "percentage": "69.57%", "elapsed_time": "2d 6h 29m 15s", "remaining_time": "23h 49m 55s"}
+{"loss": 0.06498831, "token_acc": 0.96518106, "grad_norm": 1.02059197, "learning_rate": 2.115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232651, "epoch": 3.4789237, "global_step/max_steps": "45640/65595", "percentage": "69.58%", "elapsed_time": "2d 6h 29m 31s", "remaining_time": "23h 49m 31s"}
+{"loss": 0.04394851, "token_acc": 0.98309815, "grad_norm": 0.42817277, "learning_rate": 2.114e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232655, "epoch": 3.47930483, "global_step/max_steps": "45645/65595", "percentage": "69.59%", "elapsed_time": "2d 6h 29m 49s", "remaining_time": "23h 49m 8s"}
+{"loss": 0.05586216, "token_acc": 0.97815031, "grad_norm": 1.06904042, "learning_rate": 2.113e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232659, "epoch": 3.47968595, "global_step/max_steps": "45650/65595", "percentage": "69.59%", "elapsed_time": "2d 6h 30m 7s", "remaining_time": "23h 48m 45s"}
+{"loss": 0.04871628, "token_acc": 0.98066088, "grad_norm": 0.68713349, "learning_rate": 2.112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232663, "epoch": 3.48006708, "global_step/max_steps": "45655/65595", "percentage": "69.60%", "elapsed_time": "2d 6h 30m 26s", "remaining_time": "23h 48m 22s"}
+{"loss": 0.06148748, "token_acc": 0.97636901, "grad_norm": 0.60855836, "learning_rate": 2.111e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232668, "epoch": 3.4804482, "global_step/max_steps": "45660/65595", "percentage": "69.61%", "elapsed_time": "2d 6h 30m 43s", "remaining_time": "23h 47m 59s"}
+{"loss": 0.07246443, "token_acc": 0.97347767, "grad_norm": 0.90814233, "learning_rate": 2.11e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232672, "epoch": 3.48082933, "global_step/max_steps": "45665/65595", "percentage": "69.62%", "elapsed_time": "2d 6h 31m 1s", "remaining_time": "23h 47m 36s"}
+{"loss": 0.04423972, "token_acc": 0.98370329, "grad_norm": 1.06676161, "learning_rate": 2.109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232678, "epoch": 3.48121046, "global_step/max_steps": "45670/65595", "percentage": "69.62%", "elapsed_time": "2d 6h 31m 17s", "remaining_time": "23h 47m 12s"}
+{"loss": 0.06769941, "token_acc": 0.97757783, "grad_norm": 0.98362142, "learning_rate": 2.108e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23268, "epoch": 3.48159158, "global_step/max_steps": "45675/65595", "percentage": "69.63%", "elapsed_time": "2d 6h 31m 37s", "remaining_time": "23h 46m 50s"}
+{"loss": 0.07319981, "token_acc": 0.97446881, "grad_norm": 0.67129654, "learning_rate": 2.107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232686, "epoch": 3.48197271, "global_step/max_steps": "45680/65595", "percentage": "69.64%", "elapsed_time": "2d 6h 31m 53s", "remaining_time": "23h 46m 26s"}
+{"loss": 0.0554301, "token_acc": 0.97397244, "grad_norm": 0.76780587, "learning_rate": 2.106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232689, "epoch": 3.48235384, "global_step/max_steps": "45685/65595", "percentage": "69.65%", "elapsed_time": "2d 6h 32m 12s", "remaining_time": "23h 46m 3s"}
+{"loss": 0.10301199, "token_acc": 0.96552625, "grad_norm": 3.5746038, "learning_rate": 2.105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232694, "epoch": 3.48273496, "global_step/max_steps": "45690/65595", "percentage": "69.65%", "elapsed_time": "2d 6h 32m 30s", "remaining_time": "23h 45m 40s"}
+{"loss": 0.05302752, "token_acc": 0.98259233, "grad_norm": 1.8791759, "learning_rate": 2.104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2327, "epoch": 3.48311609, "global_step/max_steps": "45695/65595", "percentage": "69.66%", "elapsed_time": "2d 6h 32m 46s", "remaining_time": "23h 45m 16s"}
+{"loss": 0.0717884, "token_acc": 0.97738446, "grad_norm": 0.63514602, "learning_rate": 2.103e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232702, "epoch": 3.48349722, "global_step/max_steps": "45700/65595", "percentage": "69.67%", "elapsed_time": "2d 6h 33m 5s", "remaining_time": "23h 44m 54s"}
+{"loss": 0.04540125, "token_acc": 0.97594502, "grad_norm": 0.89954907, "learning_rate": 2.102e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232709, "epoch": 3.48387834, "global_step/max_steps": "45705/65595", "percentage": "69.68%", "elapsed_time": "2d 6h 33m 21s", "remaining_time": "23h 44m 30s"}
+{"loss": 0.06787364, "token_acc": 0.97386018, "grad_norm": 1.63055682, "learning_rate": 2.101e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232713, "epoch": 3.48425947, "global_step/max_steps": "45710/65595", "percentage": "69.69%", "elapsed_time": "2d 6h 33m 39s", "remaining_time": "23h 44m 7s"}
+{"loss": 0.0731554, "token_acc": 0.96674113, "grad_norm": 1.30487478, "learning_rate": 2.1e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23272, "epoch": 3.4846406, "global_step/max_steps": "45715/65595", "percentage": "69.69%", "elapsed_time": "2d 6h 33m 55s", "remaining_time": "23h 43m 43s"}
+{"loss": 0.05162966, "token_acc": 0.97899321, "grad_norm": 1.13520706, "learning_rate": 2.099e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232721, "epoch": 3.48502172, "global_step/max_steps": "45720/65595", "percentage": "69.70%", "elapsed_time": "2d 6h 34m 16s", "remaining_time": "23h 43m 21s"}
+{"loss": 0.05077583, "token_acc": 0.97751837, "grad_norm": 1.19060361, "learning_rate": 2.098e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23273, "epoch": 3.48540285, "global_step/max_steps": "45725/65595", "percentage": "69.71%", "elapsed_time": "2d 6h 34m 30s", "remaining_time": "23h 42m 57s"}
+{"loss": 0.06823775, "token_acc": 0.97123202, "grad_norm": 1.11508787, "learning_rate": 2.097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232734, "epoch": 3.48578398, "global_step/max_steps": "45730/65595", "percentage": "69.72%", "elapsed_time": "2d 6h 34m 48s", "remaining_time": "23h 42m 34s"}
+{"loss": 0.05600859, "token_acc": 0.97944312, "grad_norm": 1.00028026, "learning_rate": 2.096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232733, "epoch": 3.4861651, "global_step/max_steps": "45735/65595", "percentage": "69.72%", "elapsed_time": "2d 6h 35m 10s", "remaining_time": "23h 42m 12s"}
+{"loss": 0.06474841, "token_acc": 0.98062284, "grad_norm": 3.48879552, "learning_rate": 2.095e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232739, "epoch": 3.48654623, "global_step/max_steps": "45740/65595", "percentage": "69.73%", "elapsed_time": "2d 6h 35m 26s", "remaining_time": "23h 41m 49s"}
+{"loss": 0.07057619, "token_acc": 0.97057045, "grad_norm": 1.49199486, "learning_rate": 2.094e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232745, "epoch": 3.48692736, "global_step/max_steps": "45745/65595", "percentage": "69.74%", "elapsed_time": "2d 6h 35m 43s", "remaining_time": "23h 41m 25s"}
+{"loss": 0.03718373, "token_acc": 0.98532547, "grad_norm": 0.93500322, "learning_rate": 2.093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232747, "epoch": 3.48730848, "global_step/max_steps": "45750/65595", "percentage": "69.75%", "elapsed_time": "2d 6h 36m 3s", "remaining_time": "23h 41m 3s"}
+{"loss": 0.05650555, "token_acc": 0.97506593, "grad_norm": 1.66851592, "learning_rate": 2.092e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232753, "epoch": 3.48768961, "global_step/max_steps": "45755/65595", "percentage": "69.75%", "elapsed_time": "2d 6h 36m 19s", "remaining_time": "23h 40m 39s"}
+{"loss": 0.04144163, "token_acc": 0.98421339, "grad_norm": 0.78170484, "learning_rate": 2.091e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23276, "epoch": 3.48807074, "global_step/max_steps": "45760/65595", "percentage": "69.76%", "elapsed_time": "2d 6h 36m 35s", "remaining_time": "23h 40m 15s"}
+{"loss": 0.0546095, "token_acc": 0.97598125, "grad_norm": 1.03399336, "learning_rate": 2.091e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232765, "epoch": 3.48845186, "global_step/max_steps": "45765/65595", "percentage": "69.77%", "elapsed_time": "2d 6h 36m 52s", "remaining_time": "23h 39m 52s"}
+{"loss": 0.0717321, "token_acc": 0.96882709, "grad_norm": 1.12459147, "learning_rate": 2.09e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232769, "epoch": 3.48883299, "global_step/max_steps": "45770/65595", "percentage": "69.78%", "elapsed_time": "2d 6h 37m 10s", "remaining_time": "23h 39m 29s"}
+{"loss": 0.03132465, "token_acc": 0.98733071, "grad_norm": 1.07216883, "learning_rate": 2.089e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232778, "epoch": 3.48921412, "global_step/max_steps": "45775/65595", "percentage": "69.78%", "elapsed_time": "2d 6h 37m 24s", "remaining_time": "23h 39m 4s"}
+{"loss": 0.04572804, "token_acc": 0.97876858, "grad_norm": 0.72946286, "learning_rate": 2.088e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232783, "epoch": 3.48959524, "global_step/max_steps": "45780/65595", "percentage": "69.79%", "elapsed_time": "2d 6h 37m 41s", "remaining_time": "23h 38m 41s"}
+{"loss": 0.06525866, "token_acc": 0.96946246, "grad_norm": 1.32198226, "learning_rate": 2.087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23279, "epoch": 3.48997637, "global_step/max_steps": "45785/65595", "percentage": "69.80%", "elapsed_time": "2d 6h 37m 56s", "remaining_time": "23h 38m 17s"}
+{"loss": 0.06442931, "token_acc": 0.97914875, "grad_norm": 0.71918893, "learning_rate": 2.086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232796, "epoch": 3.4903575, "global_step/max_steps": "45790/65595", "percentage": "69.81%", "elapsed_time": "2d 6h 38m 13s", "remaining_time": "23h 37m 53s"}
+{"loss": 0.08720421, "token_acc": 0.97299311, "grad_norm": 0.75143963, "learning_rate": 2.085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232802, "epoch": 3.49073862, "global_step/max_steps": "45795/65595", "percentage": "69.81%", "elapsed_time": "2d 6h 38m 29s", "remaining_time": "23h 37m 29s"}
+{"loss": 0.10561885, "token_acc": 0.95673383, "grad_norm": 0.95739782, "learning_rate": 2.084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232808, "epoch": 3.49111975, "global_step/max_steps": "45800/65595", "percentage": "69.82%", "elapsed_time": "2d 6h 38m 46s", "remaining_time": "23h 37m 6s"}
+{"eval_loss": 0.06182347, "eval_token_acc": 0.97515963, "eval_runtime": 226.3186, "eval_samples_per_second": 2.342, "eval_steps_per_second": 2.342, "epoch": 3.49111975, "global_step/max_steps": "45800/65595", "percentage": "69.82%", "elapsed_time": "2d 6h 42m 33s", "remaining_time": "23h 38m 44s"}
+{"loss": 0.04437752, "token_acc": 0.97539812, "grad_norm": 0.54853255, "learning_rate": 2.083e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232548, "epoch": 3.49150088, "global_step/max_steps": "45805/65595", "percentage": "69.83%", "elapsed_time": "2d 6h 42m 47s", "remaining_time": "23h 38m 19s"}
+{"loss": 0.03662385, "token_acc": 0.98501462, "grad_norm": 0.88837981, "learning_rate": 2.082e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232554, "epoch": 3.491882, "global_step/max_steps": "45810/65595", "percentage": "69.84%", "elapsed_time": "2d 6h 43m 4s", "remaining_time": "23h 37m 56s"}
+{"loss": 0.04357175, "token_acc": 0.98221489, "grad_norm": 0.56199461, "learning_rate": 2.081e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232557, "epoch": 3.49226313, "global_step/max_steps": "45815/65595", "percentage": "69.85%", "elapsed_time": "2d 6h 43m 23s", "remaining_time": "23h 37m 33s"}
+{"loss": 0.07643746, "token_acc": 0.96961278, "grad_norm": 1.26253676, "learning_rate": 2.08e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232561, "epoch": 3.49264426, "global_step/max_steps": "45820/65595", "percentage": "69.85%", "elapsed_time": "2d 6h 43m 41s", "remaining_time": "23h 37m 10s"}
+{"loss": 0.05671081, "token_acc": 0.96989192, "grad_norm": 1.31999826, "learning_rate": 2.079e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232567, "epoch": 3.49302538, "global_step/max_steps": "45825/65595", "percentage": "69.86%", "elapsed_time": "2d 6h 43m 58s", "remaining_time": "23h 36m 46s"}
+{"loss": 0.07261161, "token_acc": 0.97139329, "grad_norm": 0.82105708, "learning_rate": 2.078e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23257, "epoch": 3.49340651, "global_step/max_steps": "45830/65595", "percentage": "69.87%", "elapsed_time": "2d 6h 44m 16s", "remaining_time": "23h 36m 24s"}
+{"loss": 0.06137301, "token_acc": 0.97314675, "grad_norm": 0.97150785, "learning_rate": 2.077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232576, "epoch": 3.49378764, "global_step/max_steps": "45835/65595", "percentage": "69.88%", "elapsed_time": "2d 6h 44m 33s", "remaining_time": "23h 36m 0s"}
+{"loss": 0.0473595, "token_acc": 0.97894396, "grad_norm": 1.39199078, "learning_rate": 2.076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232583, "epoch": 3.49416876, "global_step/max_steps": "45840/65595", "percentage": "69.88%", "elapsed_time": "2d 6h 44m 48s", "remaining_time": "23h 35m 36s"}
+{"loss": 0.04717411, "token_acc": 0.97837628, "grad_norm": 0.87636143, "learning_rate": 2.075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232585, "epoch": 3.49454989, "global_step/max_steps": "45845/65595", "percentage": "69.89%", "elapsed_time": "2d 6h 45m 8s", "remaining_time": "23h 35m 14s"}
+{"loss": 0.05147503, "token_acc": 0.97755303, "grad_norm": 1.24437749, "learning_rate": 2.074e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232593, "epoch": 3.49493102, "global_step/max_steps": "45850/65595", "percentage": "69.90%", "elapsed_time": "2d 6h 45m 23s", "remaining_time": "23h 34m 49s"}
+{"loss": 0.05053727, "token_acc": 0.98027486, "grad_norm": 0.89947003, "learning_rate": 2.073e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232597, "epoch": 3.49531214, "global_step/max_steps": "45855/65595", "percentage": "69.91%", "elapsed_time": "2d 6h 45m 41s", "remaining_time": "23h 34m 26s"}
+{"loss": 0.04194929, "token_acc": 0.97693798, "grad_norm": 1.18697512, "learning_rate": 2.072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232602, "epoch": 3.49569327, "global_step/max_steps": "45860/65595", "percentage": "69.91%", "elapsed_time": "2d 6h 45m 58s", "remaining_time": "23h 34m 3s"}
+{"loss": 0.05754993, "token_acc": 0.97864192, "grad_norm": 1.64639556, "learning_rate": 2.071e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232606, "epoch": 3.4960744, "global_step/max_steps": "45865/65595", "percentage": "69.92%", "elapsed_time": "2d 6h 46m 16s", "remaining_time": "23h 33m 40s"}
+{"loss": 0.04725068, "token_acc": 0.97778636, "grad_norm": 0.98042881, "learning_rate": 2.07e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232611, "epoch": 3.49645552, "global_step/max_steps": "45870/65595", "percentage": "69.93%", "elapsed_time": "2d 6h 46m 33s", "remaining_time": "23h 33m 17s"}
+{"loss": 0.05442414, "token_acc": 0.97949037, "grad_norm": 0.50056624, "learning_rate": 2.069e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232617, "epoch": 3.49683665, "global_step/max_steps": "45875/65595", "percentage": "69.94%", "elapsed_time": "2d 6h 46m 50s", "remaining_time": "23h 32m 53s"}
+{"loss": 0.06093895, "token_acc": 0.97432792, "grad_norm": 1.17493045, "learning_rate": 2.068e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232624, "epoch": 3.49721778, "global_step/max_steps": "45880/65595", "percentage": "69.94%", "elapsed_time": "2d 6h 47m 6s", "remaining_time": "23h 32m 29s"}
+{"loss": 0.06457516, "token_acc": 0.98042553, "grad_norm": 1.31177676, "learning_rate": 2.067e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232632, "epoch": 3.4975989, "global_step/max_steps": "45885/65595", "percentage": "69.95%", "elapsed_time": "2d 6h 47m 20s", "remaining_time": "23h 32m 4s"}
+{"loss": 0.05853534, "token_acc": 0.97810945, "grad_norm": 3.54381824, "learning_rate": 2.066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232641, "epoch": 3.49798003, "global_step/max_steps": "45890/65595", "percentage": "69.96%", "elapsed_time": "2d 6h 47m 34s", "remaining_time": "23h 31m 40s"}
+{"loss": 0.05648674, "token_acc": 0.97785686, "grad_norm": 2.74362326, "learning_rate": 2.065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232649, "epoch": 3.49836116, "global_step/max_steps": "45895/65595", "percentage": "69.97%", "elapsed_time": "2d 6h 47m 48s", "remaining_time": "23h 31m 15s"}
+{"loss": 0.05645543, "token_acc": 0.97952019, "grad_norm": 1.35708022, "learning_rate": 2.064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232657, "epoch": 3.49874228, "global_step/max_steps": "45900/65595", "percentage": "69.97%", "elapsed_time": "2d 6h 48m 3s", "remaining_time": "23h 30m 51s"}
+{"loss": 0.05171968, "token_acc": 0.9800995, "grad_norm": 1.80199766, "learning_rate": 2.063e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232663, "epoch": 3.49912341, "global_step/max_steps": "45905/65595", "percentage": "69.98%", "elapsed_time": "2d 6h 48m 20s", "remaining_time": "23h 30m 27s"}
+{"loss": 0.06969367, "token_acc": 0.9796066, "grad_norm": 1.90659022, "learning_rate": 2.062e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232667, "epoch": 3.49950454, "global_step/max_steps": "45910/65595", "percentage": "69.99%", "elapsed_time": "2d 6h 48m 38s", "remaining_time": "23h 30m 4s"}
+{"loss": 0.06738217, "token_acc": 0.97775306, "grad_norm": 0.75001901, "learning_rate": 2.061e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232674, "epoch": 3.49988566, "global_step/max_steps": "45915/65595", "percentage": "70.00%", "elapsed_time": "2d 6h 48m 53s", "remaining_time": "23h 29m 40s"}
+{"loss": 0.06168021, "token_acc": 0.97814451, "grad_norm": 2.26503229, "learning_rate": 2.06e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23268, "epoch": 3.50026679, "global_step/max_steps": "45920/65595", "percentage": "70.01%", "elapsed_time": "2d 6h 49m 9s", "remaining_time": "23h 29m 17s"}
+{"loss": 0.038125, "token_acc": 0.98498377, "grad_norm": 0.7972579, "learning_rate": 2.059e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232689, "epoch": 3.50064792, "global_step/max_steps": "45925/65595", "percentage": "70.01%", "elapsed_time": "2d 6h 49m 24s", "remaining_time": "23h 28m 52s"}
+{"loss": 0.06808693, "token_acc": 0.97682927, "grad_norm": 1.95780253, "learning_rate": 2.058e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232693, "epoch": 3.50102904, "global_step/max_steps": "45930/65595", "percentage": "70.02%", "elapsed_time": "2d 6h 49m 42s", "remaining_time": "23h 28m 29s"}
+{"loss": 0.04897496, "token_acc": 0.98439086, "grad_norm": 1.00773537, "learning_rate": 2.057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232694, "epoch": 3.50141017, "global_step/max_steps": "45935/65595", "percentage": "70.03%", "elapsed_time": "2d 6h 50m 3s", "remaining_time": "23h 28m 7s"}
+{"loss": 0.05875344, "token_acc": 0.97934668, "grad_norm": 2.1537292, "learning_rate": 2.057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2327, "epoch": 3.5017913, "global_step/max_steps": "45940/65595", "percentage": "70.04%", "elapsed_time": "2d 6h 50m 19s", "remaining_time": "23h 27m 44s"}
+{"loss": 0.06040412, "token_acc": 0.97062424, "grad_norm": 0.01417518, "learning_rate": 2.056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232706, "epoch": 3.50217242, "global_step/max_steps": "45945/65595", "percentage": "70.04%", "elapsed_time": "2d 6h 50m 35s", "remaining_time": "23h 27m 20s"}
+{"loss": 0.07539055, "token_acc": 0.96864111, "grad_norm": 1.11682892, "learning_rate": 2.055e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232712, "epoch": 3.50255355, "global_step/max_steps": "45950/65595", "percentage": "70.05%", "elapsed_time": "2d 6h 50m 52s", "remaining_time": "23h 26m 56s"}
+{"loss": 0.07214448, "token_acc": 0.97675661, "grad_norm": 1.75536966, "learning_rate": 2.054e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232713, "epoch": 3.50293467, "global_step/max_steps": "45955/65595", "percentage": "70.06%", "elapsed_time": "2d 6h 51m 12s", "remaining_time": "23h 26m 34s"}
+{"loss": 0.06568966, "token_acc": 0.97108485, "grad_norm": 1.64719105, "learning_rate": 2.053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232718, "epoch": 3.5033158, "global_step/max_steps": "45960/65595", "percentage": "70.07%", "elapsed_time": "2d 6h 51m 29s", "remaining_time": "23h 26m 11s"}
+{"loss": 0.05126736, "token_acc": 0.97480136, "grad_norm": 1.29857838, "learning_rate": 2.052e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232724, "epoch": 3.50369693, "global_step/max_steps": "45965/65595", "percentage": "70.07%", "elapsed_time": "2d 6h 51m 46s", "remaining_time": "23h 25m 47s"}
+{"loss": 0.04899777, "token_acc": 0.97921337, "grad_norm": 0.75690979, "learning_rate": 2.051e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232725, "epoch": 3.50407805, "global_step/max_steps": "45970/65595", "percentage": "70.08%", "elapsed_time": "2d 6h 52m 6s", "remaining_time": "23h 25m 25s"}
+{"loss": 0.0999957, "token_acc": 0.96002988, "grad_norm": 1.3438226, "learning_rate": 2.05e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232732, "epoch": 3.50445918, "global_step/max_steps": "45975/65595", "percentage": "70.09%", "elapsed_time": "2d 6h 52m 22s", "remaining_time": "23h 25m 1s"}
+{"loss": 0.0586266, "token_acc": 0.97652964, "grad_norm": 0.69261795, "learning_rate": 2.049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232735, "epoch": 3.50484031, "global_step/max_steps": "45980/65595", "percentage": "70.10%", "elapsed_time": "2d 6h 52m 41s", "remaining_time": "23h 24m 39s"}
+{"loss": 0.05026582, "token_acc": 0.97718071, "grad_norm": 0.16106901, "learning_rate": 2.048e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232743, "epoch": 3.50522143, "global_step/max_steps": "45985/65595", "percentage": "70.10%", "elapsed_time": "2d 6h 52m 56s", "remaining_time": "23h 24m 15s"}
+{"loss": 0.04796984, "token_acc": 0.98135017, "grad_norm": 0.55697984, "learning_rate": 2.047e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232742, "epoch": 3.50560256, "global_step/max_steps": "45990/65595", "percentage": "70.11%", "elapsed_time": "2d 6h 53m 18s", "remaining_time": "23h 23m 53s"}
+{"loss": 0.03199463, "token_acc": 0.98191027, "grad_norm": 1.26433372, "learning_rate": 2.046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23275, "epoch": 3.50598369, "global_step/max_steps": "45995/65595", "percentage": "70.12%", "elapsed_time": "2d 6h 53m 32s", "remaining_time": "23h 23m 29s"}
+{"loss": 0.05693466, "token_acc": 0.97532808, "grad_norm": 0.76027334, "learning_rate": 2.045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232757, "epoch": 3.50636481, "global_step/max_steps": "46000/65595", "percentage": "70.13%", "elapsed_time": "2d 6h 53m 48s", "remaining_time": "23h 23m 5s"}
+{"eval_loss": 0.06152508, "eval_token_acc": 0.97492621, "eval_runtime": 224.0345, "eval_samples_per_second": 2.366, "eval_steps_per_second": 2.366, "epoch": 3.50636481, "global_step/max_steps": "46000/65595", "percentage": "70.13%", "elapsed_time": "2d 6h 57m 32s", "remaining_time": "23h 24m 40s"}
+{"loss": 0.07487395, "token_acc": 0.97501676, "grad_norm": 0.6322149, "learning_rate": 2.044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232496, "epoch": 3.50674594, "global_step/max_steps": "46005/65595", "percentage": "70.13%", "elapsed_time": "2d 6h 57m 52s", "remaining_time": "23h 24m 18s"}
+{"loss": 0.07756444, "token_acc": 0.96780993, "grad_norm": 1.70460212, "learning_rate": 2.043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232501, "epoch": 3.50712707, "global_step/max_steps": "46010/65595", "percentage": "70.14%", "elapsed_time": "2d 6h 58m 9s", "remaining_time": "23h 23m 55s"}
+{"loss": 0.07456347, "token_acc": 0.97435054, "grad_norm": 1.5571245, "learning_rate": 2.042e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232508, "epoch": 3.50750819, "global_step/max_steps": "46015/65595", "percentage": "70.15%", "elapsed_time": "2d 6h 58m 24s", "remaining_time": "23h 23m 31s"}
+{"loss": 0.05486255, "token_acc": 0.97466285, "grad_norm": 1.14273012, "learning_rate": 2.041e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232514, "epoch": 3.50788932, "global_step/max_steps": "46020/65595", "percentage": "70.16%", "elapsed_time": "2d 6h 58m 41s", "remaining_time": "23h 23m 7s"}
+{"loss": 0.0648174, "token_acc": 0.97901933, "grad_norm": 0.70113981, "learning_rate": 2.04e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232515, "epoch": 3.50827045, "global_step/max_steps": "46025/65595", "percentage": "70.17%", "elapsed_time": "2d 6h 59m 2s", "remaining_time": "23h 22m 45s"}
+{"loss": 0.05910538, "token_acc": 0.97757679, "grad_norm": 0.86046076, "learning_rate": 2.039e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23252, "epoch": 3.50865157, "global_step/max_steps": "46030/65595", "percentage": "70.17%", "elapsed_time": "2d 6h 59m 19s", "remaining_time": "23h 22m 22s"}
+{"loss": 0.04441819, "token_acc": 0.98227628, "grad_norm": 0.68178743, "learning_rate": 2.038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232525, "epoch": 3.5090327, "global_step/max_steps": "46035/65595", "percentage": "70.18%", "elapsed_time": "2d 6h 59m 36s", "remaining_time": "23h 21m 58s"}
+{"loss": 0.05625682, "token_acc": 0.97672969, "grad_norm": 2.00829959, "learning_rate": 2.037e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232532, "epoch": 3.50941383, "global_step/max_steps": "46040/65595", "percentage": "70.19%", "elapsed_time": "2d 6h 59m 51s", "remaining_time": "23h 21m 34s"}
+{"loss": 0.05906987, "token_acc": 0.97499362, "grad_norm": 0.59698737, "learning_rate": 2.036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232538, "epoch": 3.50979495, "global_step/max_steps": "46045/65595", "percentage": "70.20%", "elapsed_time": "2d 7h 0m 8s", "remaining_time": "23h 21m 11s"}
+{"loss": 0.05012604, "token_acc": 0.97896121, "grad_norm": 0.80756724, "learning_rate": 2.035e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23254, "epoch": 3.51017608, "global_step/max_steps": "46050/65595", "percentage": "70.20%", "elapsed_time": "2d 7h 0m 28s", "remaining_time": "23h 20m 49s"}
+{"loss": 0.0560068, "token_acc": 0.97444795, "grad_norm": 0.80698019, "learning_rate": 2.034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232548, "epoch": 3.51055721, "global_step/max_steps": "46055/65595", "percentage": "70.21%", "elapsed_time": "2d 7h 0m 42s", "remaining_time": "23h 20m 24s"}
+{"loss": 0.10414591, "token_acc": 0.96859903, "grad_norm": 0.88272625, "learning_rate": 2.033e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232551, "epoch": 3.51093833, "global_step/max_steps": "46060/65595", "percentage": "70.22%", "elapsed_time": "2d 7h 1m 1s", "remaining_time": "23h 20m 1s"}
+{"loss": 0.0401576, "token_acc": 0.98710925, "grad_norm": 0.78260398, "learning_rate": 2.032e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232559, "epoch": 3.51131946, "global_step/max_steps": "46065/65595", "percentage": "70.23%", "elapsed_time": "2d 7h 1m 16s", "remaining_time": "23h 19m 37s"}
+{"loss": 0.0634926, "token_acc": 0.97502059, "grad_norm": 2.47271633, "learning_rate": 2.031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232562, "epoch": 3.51170059, "global_step/max_steps": "46070/65595", "percentage": "70.23%", "elapsed_time": "2d 7h 1m 35s", "remaining_time": "23h 19m 15s"}
+{"loss": 0.05157173, "token_acc": 0.9753762, "grad_norm": 1.17743373, "learning_rate": 2.03e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232568, "epoch": 3.51208171, "global_step/max_steps": "46075/65595", "percentage": "70.24%", "elapsed_time": "2d 7h 1m 52s", "remaining_time": "23h 18m 51s"}
+{"loss": 0.08985299, "token_acc": 0.97706128, "grad_norm": 0.82293379, "learning_rate": 2.029e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232568, "epoch": 3.51246284, "global_step/max_steps": "46080/65595", "percentage": "70.25%", "elapsed_time": "2d 7h 2m 13s", "remaining_time": "23h 18m 29s"}
+{"loss": 0.07765599, "token_acc": 0.97694047, "grad_norm": 0.88539255, "learning_rate": 2.029e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232573, "epoch": 3.51284397, "global_step/max_steps": "46085/65595", "percentage": "70.26%", "elapsed_time": "2d 7h 2m 30s", "remaining_time": "23h 18m 6s"}
+{"loss": 0.05192396, "token_acc": 0.97944314, "grad_norm": 1.42338264, "learning_rate": 2.028e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23258, "epoch": 3.51322509, "global_step/max_steps": "46090/65595", "percentage": "70.26%", "elapsed_time": "2d 7h 2m 46s", "remaining_time": "23h 17m 42s"}
+{"loss": 0.04199601, "token_acc": 0.97772363, "grad_norm": 0.67097723, "learning_rate": 2.027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232583, "epoch": 3.51360622, "global_step/max_steps": "46095/65595", "percentage": "70.27%", "elapsed_time": "2d 7h 3m 4s", "remaining_time": "23h 17m 20s"}
+{"loss": 0.06281375, "token_acc": 0.9793618, "grad_norm": 0.6085887, "learning_rate": 2.026e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232586, "epoch": 3.51398735, "global_step/max_steps": "46100/65595", "percentage": "70.28%", "elapsed_time": "2d 7h 3m 24s", "remaining_time": "23h 16m 57s"}
+{"loss": 0.06833768, "token_acc": 0.97394174, "grad_norm": 1.5200026, "learning_rate": 2.025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232587, "epoch": 3.51436847, "global_step/max_steps": "46105/65595", "percentage": "70.29%", "elapsed_time": "2d 7h 3m 44s", "remaining_time": "23h 16m 35s"}
+{"loss": 0.0567298, "token_acc": 0.97612588, "grad_norm": 1.40219605, "learning_rate": 2.024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23259, "epoch": 3.5147496, "global_step/max_steps": "46110/65595", "percentage": "70.29%", "elapsed_time": "2d 7h 4m 3s", "remaining_time": "23h 16m 12s"}
+{"loss": 0.04986169, "token_acc": 0.98075241, "grad_norm": 0.07328074, "learning_rate": 2.023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232596, "epoch": 3.51513073, "global_step/max_steps": "46115/65595", "percentage": "70.30%", "elapsed_time": "2d 7h 4m 19s", "remaining_time": "23h 15m 49s"}
+{"loss": 0.0638801, "token_acc": 0.97567909, "grad_norm": 0.83164763, "learning_rate": 2.022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232599, "epoch": 3.51551185, "global_step/max_steps": "46120/65595", "percentage": "70.31%", "elapsed_time": "2d 7h 4m 39s", "remaining_time": "23h 15m 26s"}
+{"loss": 0.054143, "token_acc": 0.97639035, "grad_norm": 0.87905884, "learning_rate": 2.021e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232604, "epoch": 3.51589298, "global_step/max_steps": "46125/65595", "percentage": "70.32%", "elapsed_time": "2d 7h 4m 55s", "remaining_time": "23h 15m 3s"}
+{"loss": 0.03327068, "token_acc": 0.98227032, "grad_norm": 0.9695757, "learning_rate": 2.02e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232611, "epoch": 3.51627411, "global_step/max_steps": "46130/65595", "percentage": "70.33%", "elapsed_time": "2d 7h 5m 11s", "remaining_time": "23h 14m 39s"}
+{"loss": 0.05499973, "token_acc": 0.98284118, "grad_norm": 1.24682522, "learning_rate": 2.019e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232616, "epoch": 3.51665523, "global_step/max_steps": "46135/65595", "percentage": "70.33%", "elapsed_time": "2d 7h 5m 28s", "remaining_time": "23h 14m 16s"}
+{"loss": 0.05506914, "token_acc": 0.97714286, "grad_norm": 0.76766151, "learning_rate": 2.018e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232619, "epoch": 3.51703636, "global_step/max_steps": "46140/65595", "percentage": "70.34%", "elapsed_time": "2d 7h 5m 47s", "remaining_time": "23h 13m 53s"}
+{"loss": 0.05534221, "token_acc": 0.98002148, "grad_norm": 0.69862455, "learning_rate": 2.017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232627, "epoch": 3.51741749, "global_step/max_steps": "46145/65595", "percentage": "70.35%", "elapsed_time": "2d 7h 6m 2s", "remaining_time": "23h 13m 29s"}
+{"loss": 0.07410276, "token_acc": 0.97692953, "grad_norm": 1.21949291, "learning_rate": 2.016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232635, "epoch": 3.51779861, "global_step/max_steps": "46150/65595", "percentage": "70.36%", "elapsed_time": "2d 7h 6m 17s", "remaining_time": "23h 13m 5s"}
+{"loss": 0.05124073, "token_acc": 0.98224733, "grad_norm": 0.7096107, "learning_rate": 2.015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232641, "epoch": 3.51817974, "global_step/max_steps": "46155/65595", "percentage": "70.36%", "elapsed_time": "2d 7h 6m 33s", "remaining_time": "23h 12m 41s"}
+{"loss": 0.04515379, "token_acc": 0.98223801, "grad_norm": 1.4693346, "learning_rate": 2.014e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232648, "epoch": 3.51856087, "global_step/max_steps": "46160/65595", "percentage": "70.37%", "elapsed_time": "2d 7h 6m 49s", "remaining_time": "23h 12m 17s"}
+{"loss": 0.0505093, "token_acc": 0.98140298, "grad_norm": 1.47201383, "learning_rate": 2.013e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23265, "epoch": 3.51894199, "global_step/max_steps": "46165/65595", "percentage": "70.38%", "elapsed_time": "2d 7h 7m 9s", "remaining_time": "23h 11m 55s"}
+{"loss": 0.03953019, "token_acc": 0.98273641, "grad_norm": 2.22418809, "learning_rate": 2.012e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232657, "epoch": 3.51932312, "global_step/max_steps": "46170/65595", "percentage": "70.39%", "elapsed_time": "2d 7h 7m 24s", "remaining_time": "23h 11m 31s"}
+{"loss": 0.09225237, "token_acc": 0.9667912, "grad_norm": 3.78672266, "learning_rate": 2.011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232664, "epoch": 3.51970425, "global_step/max_steps": "46175/65595", "percentage": "70.39%", "elapsed_time": "2d 7h 7m 39s", "remaining_time": "23h 11m 6s"}
+{"loss": 0.06710941, "token_acc": 0.97325957, "grad_norm": 1.2564044, "learning_rate": 2.01e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232667, "epoch": 3.52008537, "global_step/max_steps": "46180/65595", "percentage": "70.40%", "elapsed_time": "2d 7h 7m 58s", "remaining_time": "23h 10m 44s"}
+{"loss": 0.05346476, "token_acc": 0.98123324, "grad_norm": 2.25818682, "learning_rate": 2.009e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232676, "epoch": 3.5204665, "global_step/max_steps": "46185/65595", "percentage": "70.41%", "elapsed_time": "2d 7h 8m 12s", "remaining_time": "23h 10m 19s"}
+{"loss": 0.08877884, "token_acc": 0.96933086, "grad_norm": 1.54578376, "learning_rate": 2.008e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23268, "epoch": 3.52084763, "global_step/max_steps": "46190/65595", "percentage": "70.42%", "elapsed_time": "2d 7h 8m 30s", "remaining_time": "23h 9m 56s"}
+{"loss": 0.08887674, "token_acc": 0.96742918, "grad_norm": 1.57690036, "learning_rate": 2.007e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232685, "epoch": 3.52122875, "global_step/max_steps": "46195/65595", "percentage": "70.42%", "elapsed_time": "2d 7h 8m 47s", "remaining_time": "23h 9m 33s"}
+{"loss": 0.05854358, "token_acc": 0.97519206, "grad_norm": 0.85704231, "learning_rate": 2.006e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232689, "epoch": 3.52160988, "global_step/max_steps": "46200/65595", "percentage": "70.43%", "elapsed_time": "2d 7h 9m 6s", "remaining_time": "23h 9m 10s"}
+{"eval_loss": 0.06178487, "eval_token_acc": 0.97485844, "eval_runtime": 220.9613, "eval_samples_per_second": 2.399, "eval_steps_per_second": 2.399, "epoch": 3.52160988, "global_step/max_steps": "46200/65595", "percentage": "70.43%", "elapsed_time": "2d 7h 12m 47s", "remaining_time": "23h 10m 43s"}
+{"loss": 0.03944113, "token_acc": 0.97496475, "grad_norm": 0.95468408, "learning_rate": 2.005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232437, "epoch": 3.52199101, "global_step/max_steps": "46205/65595", "percentage": "70.44%", "elapsed_time": "2d 7h 13m 2s", "remaining_time": "23h 10m 19s"}
+{"loss": 0.04989333, "token_acc": 0.9803198, "grad_norm": 1.3733474, "learning_rate": 2.005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232444, "epoch": 3.52237213, "global_step/max_steps": "46210/65595", "percentage": "70.45%", "elapsed_time": "2d 7h 13m 18s", "remaining_time": "23h 9m 55s"}
+{"loss": 0.06647968, "token_acc": 0.983161, "grad_norm": 4.39862061, "learning_rate": 2.004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232451, "epoch": 3.52275326, "global_step/max_steps": "46215/65595", "percentage": "70.46%", "elapsed_time": "2d 7h 13m 33s", "remaining_time": "23h 9m 31s"}
+{"loss": 0.05379895, "token_acc": 0.97573508, "grad_norm": 1.45403314, "learning_rate": 2.003e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232458, "epoch": 3.52313439, "global_step/max_steps": "46220/65595", "percentage": "70.46%", "elapsed_time": "2d 7h 13m 49s", "remaining_time": "23h 9m 7s"}
+{"loss": 0.04057296, "token_acc": 0.9811029, "grad_norm": 0.85113895, "learning_rate": 2.002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232465, "epoch": 3.52351551, "global_step/max_steps": "46225/65595", "percentage": "70.47%", "elapsed_time": "2d 7h 14m 4s", "remaining_time": "23h 8m 43s"}
+{"loss": 0.04477899, "token_acc": 0.98583878, "grad_norm": 2.45487857, "learning_rate": 2.001e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23247, "epoch": 3.52389664, "global_step/max_steps": "46230/65595", "percentage": "70.48%", "elapsed_time": "2d 7h 14m 22s", "remaining_time": "23h 8m 20s"}
+{"loss": 0.07031739, "token_acc": 0.98131478, "grad_norm": 0.78893858, "learning_rate": 2e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232473, "epoch": 3.52427777, "global_step/max_steps": "46235/65595", "percentage": "70.49%", "elapsed_time": "2d 7h 14m 40s", "remaining_time": "23h 7m 57s"}
+{"loss": 0.10136085, "token_acc": 0.95735422, "grad_norm": 2.13274693, "learning_rate": 1.999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232481, "epoch": 3.52465889, "global_step/max_steps": "46240/65595", "percentage": "70.49%", "elapsed_time": "2d 7h 14m 55s", "remaining_time": "23h 7m 33s"}
+{"loss": 0.05814367, "token_acc": 0.98155533, "grad_norm": 0.64663446, "learning_rate": 1.998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232484, "epoch": 3.52504002, "global_step/max_steps": "46245/65595", "percentage": "70.50%", "elapsed_time": "2d 7h 15m 14s", "remaining_time": "23h 7m 10s"}
+{"loss": 0.05039225, "token_acc": 0.97787873, "grad_norm": 0.91169977, "learning_rate": 1.997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232489, "epoch": 3.52542114, "global_step/max_steps": "46250/65595", "percentage": "70.51%", "elapsed_time": "2d 7h 15m 31s", "remaining_time": "23h 6m 47s"}
+{"loss": 0.05010126, "token_acc": 0.97954885, "grad_norm": 0.84821439, "learning_rate": 1.996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232487, "epoch": 3.52580227, "global_step/max_steps": "46255/65595", "percentage": "70.52%", "elapsed_time": "2d 7h 15m 55s", "remaining_time": "23h 6m 26s"}
+{"loss": 0.04483375, "token_acc": 0.98666667, "grad_norm": 0.4520686, "learning_rate": 1.995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23249, "epoch": 3.5261834, "global_step/max_steps": "46260/65595", "percentage": "70.52%", "elapsed_time": "2d 7h 16m 13s", "remaining_time": "23h 6m 3s"}
+{"loss": 0.07693614, "token_acc": 0.96784621, "grad_norm": 1.17086315, "learning_rate": 1.994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232494, "epoch": 3.52656452, "global_step/max_steps": "46265/65595", "percentage": "70.53%", "elapsed_time": "2d 7h 16m 32s", "remaining_time": "23h 5m 40s"}
+{"loss": 0.0590371, "token_acc": 0.98133333, "grad_norm": 1.24344158, "learning_rate": 1.993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2325, "epoch": 3.52694565, "global_step/max_steps": "46270/65595", "percentage": "70.54%", "elapsed_time": "2d 7h 16m 48s", "remaining_time": "23h 5m 17s"}
+{"loss": 0.0591539, "token_acc": 0.97341115, "grad_norm": 1.46941209, "learning_rate": 1.992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232505, "epoch": 3.52732678, "global_step/max_steps": "46275/65595", "percentage": "70.55%", "elapsed_time": "2d 7h 17m 5s", "remaining_time": "23h 4m 54s"}
+{"loss": 0.03972023, "token_acc": 0.98211314, "grad_norm": 1.34859669, "learning_rate": 1.991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232511, "epoch": 3.5277079, "global_step/max_steps": "46280/65595", "percentage": "70.55%", "elapsed_time": "2d 7h 17m 21s", "remaining_time": "23h 4m 30s"}
+{"loss": 0.0418954, "token_acc": 0.98079071, "grad_norm": 0.78720748, "learning_rate": 1.99e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232517, "epoch": 3.52808903, "global_step/max_steps": "46285/65595", "percentage": "70.56%", "elapsed_time": "2d 7h 17m 38s", "remaining_time": "23h 4m 6s"}
+{"loss": 0.05509365, "token_acc": 0.97604932, "grad_norm": 2.14496374, "learning_rate": 1.989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232523, "epoch": 3.52847016, "global_step/max_steps": "46290/65595", "percentage": "70.57%", "elapsed_time": "2d 7h 17m 54s", "remaining_time": "23h 3m 43s"}
+{"loss": 0.05309197, "token_acc": 0.97424242, "grad_norm": 0.88474023, "learning_rate": 1.988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23253, "epoch": 3.52885128, "global_step/max_steps": "46295/65595", "percentage": "70.58%", "elapsed_time": "2d 7h 18m 10s", "remaining_time": "23h 3m 19s"}
+{"loss": 0.06046194, "token_acc": 0.97694874, "grad_norm": 0.6113286, "learning_rate": 1.987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232533, "epoch": 3.52923241, "global_step/max_steps": "46300/65595", "percentage": "70.58%", "elapsed_time": "2d 7h 18m 28s", "remaining_time": "23h 2m 56s"}
+{"loss": 0.03028466, "token_acc": 0.98954984, "grad_norm": 1.40887785, "learning_rate": 1.986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232542, "epoch": 3.52961354, "global_step/max_steps": "46305/65595", "percentage": "70.59%", "elapsed_time": "2d 7h 18m 43s", "remaining_time": "23h 2m 31s"}
+{"loss": 0.07856907, "token_acc": 0.96687595, "grad_norm": 1.83033633, "learning_rate": 1.985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232547, "epoch": 3.52999466, "global_step/max_steps": "46310/65595", "percentage": "70.60%", "elapsed_time": "2d 7h 19m 0s", "remaining_time": "23h 2m 8s"}
+{"loss": 0.04973042, "token_acc": 0.98101846, "grad_norm": 0.84620368, "learning_rate": 1.984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232549, "epoch": 3.53037579, "global_step/max_steps": "46315/65595", "percentage": "70.61%", "elapsed_time": "2d 7h 19m 19s", "remaining_time": "23h 1m 46s"}
+{"loss": 0.06579682, "token_acc": 0.97668356, "grad_norm": 0.95287645, "learning_rate": 1.983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232552, "epoch": 3.53075692, "global_step/max_steps": "46320/65595", "percentage": "70.62%", "elapsed_time": "2d 7h 19m 39s", "remaining_time": "23h 1m 23s"}
+{"loss": 0.0813898, "token_acc": 0.97107204, "grad_norm": 2.54615569, "learning_rate": 1.983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23256, "epoch": 3.53113804, "global_step/max_steps": "46325/65595", "percentage": "70.62%", "elapsed_time": "2d 7h 19m 53s", "remaining_time": "23h 0m 59s"}
+{"loss": 0.06899614, "token_acc": 0.97420063, "grad_norm": 0.88015521, "learning_rate": 1.982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232562, "epoch": 3.53151917, "global_step/max_steps": "46330/65595", "percentage": "70.63%", "elapsed_time": "2d 7h 20m 13s", "remaining_time": "23h 0m 37s"}
+{"loss": 0.05653174, "token_acc": 0.96747166, "grad_norm": 1.26183915, "learning_rate": 1.981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232569, "epoch": 3.5319003, "global_step/max_steps": "46335/65595", "percentage": "70.64%", "elapsed_time": "2d 7h 20m 28s", "remaining_time": "23h 0m 13s"}
+{"loss": 0.05661578, "token_acc": 0.98039648, "grad_norm": 1.93780243, "learning_rate": 1.98e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232576, "epoch": 3.53228142, "global_step/max_steps": "46340/65595", "percentage": "70.65%", "elapsed_time": "2d 7h 20m 44s", "remaining_time": "22h 59m 49s"}
+{"loss": 0.05144315, "token_acc": 0.97811388, "grad_norm": 1.00682569, "learning_rate": 1.979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232581, "epoch": 3.53266255, "global_step/max_steps": "46345/65595", "percentage": "70.65%", "elapsed_time": "2d 7h 21m 1s", "remaining_time": "22h 59m 25s"}
+{"loss": 0.05871857, "token_acc": 0.97384964, "grad_norm": 0.86376876, "learning_rate": 1.978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232581, "epoch": 3.53304368, "global_step/max_steps": "46350/65595", "percentage": "70.66%", "elapsed_time": "2d 7h 21m 23s", "remaining_time": "22h 59m 4s"}
+{"loss": 0.04716318, "token_acc": 0.97931254, "grad_norm": 1.77025473, "learning_rate": 1.977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232588, "epoch": 3.5334248, "global_step/max_steps": "46355/65595", "percentage": "70.67%", "elapsed_time": "2d 7h 21m 38s", "remaining_time": "22h 58m 40s"}
+{"loss": 0.05220912, "token_acc": 0.98028062, "grad_norm": 1.02419436, "learning_rate": 1.976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232596, "epoch": 3.53380593, "global_step/max_steps": "46360/65595", "percentage": "70.68%", "elapsed_time": "2d 7h 21m 53s", "remaining_time": "22h 58m 16s"}
+{"loss": 0.04159488, "token_acc": 0.98414598, "grad_norm": 0.93233079, "learning_rate": 1.975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232603, "epoch": 3.53418706, "global_step/max_steps": "46365/65595", "percentage": "70.68%", "elapsed_time": "2d 7h 22m 8s", "remaining_time": "22h 57m 52s"}
+{"loss": 0.04836551, "token_acc": 0.97493342, "grad_norm": 0.84748381, "learning_rate": 1.974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232609, "epoch": 3.53456818, "global_step/max_steps": "46370/65595", "percentage": "70.69%", "elapsed_time": "2d 7h 22m 25s", "remaining_time": "22h 57m 28s"}
+{"loss": 0.03494167, "token_acc": 0.98384118, "grad_norm": 1.18139255, "learning_rate": 1.973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232617, "epoch": 3.53494931, "global_step/max_steps": "46375/65595", "percentage": "70.70%", "elapsed_time": "2d 7h 22m 39s", "remaining_time": "22h 57m 4s"}
+{"loss": 0.04111408, "token_acc": 0.98587188, "grad_norm": 0.72465348, "learning_rate": 1.972e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232621, "epoch": 3.53533044, "global_step/max_steps": "46380/65595", "percentage": "70.71%", "elapsed_time": "2d 7h 22m 57s", "remaining_time": "22h 56m 41s"}
+{"loss": 0.04697161, "token_acc": 0.97456204, "grad_norm": 0.3201623, "learning_rate": 1.971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232627, "epoch": 3.53571156, "global_step/max_steps": "46385/65595", "percentage": "70.71%", "elapsed_time": "2d 7h 23m 14s", "remaining_time": "22h 56m 17s"}
+{"loss": 0.05758148, "token_acc": 0.97131631, "grad_norm": 1.05555952, "learning_rate": 1.97e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232634, "epoch": 3.53609269, "global_step/max_steps": "46390/65595", "percentage": "70.72%", "elapsed_time": "2d 7h 23m 29s", "remaining_time": "22h 55m 53s"}
+{"loss": 0.0417971, "token_acc": 0.98217204, "grad_norm": 1.10936058, "learning_rate": 1.969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232639, "epoch": 3.53647382, "global_step/max_steps": "46395/65595", "percentage": "70.73%", "elapsed_time": "2d 7h 23m 47s", "remaining_time": "22h 55m 30s"}
+{"loss": 0.03223058, "token_acc": 0.98835705, "grad_norm": 1.37249458, "learning_rate": 1.968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232646, "epoch": 3.53685494, "global_step/max_steps": "46400/65595", "percentage": "70.74%", "elapsed_time": "2d 7h 24m 2s", "remaining_time": "22h 55m 6s"}
+{"eval_loss": 0.06018234, "eval_token_acc": 0.97553611, "eval_runtime": 220.4067, "eval_samples_per_second": 2.405, "eval_steps_per_second": 2.405, "epoch": 3.53685494, "global_step/max_steps": "46400/65595", "percentage": "70.74%", "elapsed_time": "2d 7h 27m 42s", "remaining_time": "22h 56m 37s"}
+{"loss": 0.05791621, "token_acc": 0.97559371, "grad_norm": 1.30517864, "learning_rate": 1.967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232396, "epoch": 3.53723607, "global_step/max_steps": "46405/65595", "percentage": "70.74%", "elapsed_time": "2d 7h 27m 58s", "remaining_time": "22h 56m 13s"}
+{"loss": 0.04800904, "token_acc": 0.97537823, "grad_norm": 1.00378883, "learning_rate": 1.966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232403, "epoch": 3.5376172, "global_step/max_steps": "46410/65595", "percentage": "70.75%", "elapsed_time": "2d 7h 28m 13s", "remaining_time": "22h 55m 49s"}
+{"loss": 0.0364742, "token_acc": 0.97930559, "grad_norm": 0.97999924, "learning_rate": 1.965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232409, "epoch": 3.53799832, "global_step/max_steps": "46415/65595", "percentage": "70.76%", "elapsed_time": "2d 7h 28m 30s", "remaining_time": "22h 55m 25s"}
+{"loss": 0.04175435, "token_acc": 0.98479428, "grad_norm": 1.59454417, "learning_rate": 1.964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232415, "epoch": 3.53837945, "global_step/max_steps": "46420/65595", "percentage": "70.77%", "elapsed_time": "2d 7h 28m 46s", "remaining_time": "22h 55m 2s"}
+{"loss": 0.06018903, "token_acc": 0.97297297, "grad_norm": 2.34990501, "learning_rate": 1.963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232422, "epoch": 3.53876058, "global_step/max_steps": "46425/65595", "percentage": "70.78%", "elapsed_time": "2d 7h 29m 1s", "remaining_time": "22h 54m 38s"}
+{"loss": 0.06092398, "token_acc": 0.98021401, "grad_norm": 1.56768143, "learning_rate": 1.962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232428, "epoch": 3.5391417, "global_step/max_steps": "46430/65595", "percentage": "70.78%", "elapsed_time": "2d 7h 29m 18s", "remaining_time": "22h 54m 14s"}
+{"loss": 0.03606921, "token_acc": 0.98175966, "grad_norm": 1.77192998, "learning_rate": 1.962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232438, "epoch": 3.53952283, "global_step/max_steps": "46435/65595", "percentage": "70.79%", "elapsed_time": "2d 7h 29m 31s", "remaining_time": "22h 53m 49s"}
+{"loss": 0.04408944, "token_acc": 0.98469388, "grad_norm": 0.82934266, "learning_rate": 1.961e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232442, "epoch": 3.53990396, "global_step/max_steps": "46440/65595", "percentage": "70.80%", "elapsed_time": "2d 7h 29m 49s", "remaining_time": "22h 53m 26s"}
+{"loss": 0.05848801, "token_acc": 0.97792106, "grad_norm": 0.91872942, "learning_rate": 1.96e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232441, "epoch": 3.54028508, "global_step/max_steps": "46445/65595", "percentage": "70.81%", "elapsed_time": "2d 7h 30m 12s", "remaining_time": "22h 53m 5s"}
+{"loss": 0.07417986, "token_acc": 0.96899225, "grad_norm": 1.57006025, "learning_rate": 1.959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232448, "epoch": 3.54066621, "global_step/max_steps": "46450/65595", "percentage": "70.81%", "elapsed_time": "2d 7h 30m 27s", "remaining_time": "22h 52m 41s"}
+{"loss": 0.04246101, "token_acc": 0.98169697, "grad_norm": 0.45291576, "learning_rate": 1.958e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232447, "epoch": 3.54104734, "global_step/max_steps": "46455/65595", "percentage": "70.82%", "elapsed_time": "2d 7h 30m 49s", "remaining_time": "22h 52m 20s"}
+{"loss": 0.07409544, "token_acc": 0.97904468, "grad_norm": 1.69634306, "learning_rate": 1.957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232454, "epoch": 3.54142846, "global_step/max_steps": "46460/65595", "percentage": "70.83%", "elapsed_time": "2d 7h 31m 5s", "remaining_time": "22h 51m 56s"}
+{"loss": 0.05037372, "token_acc": 0.97752809, "grad_norm": 0.89718181, "learning_rate": 1.956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232461, "epoch": 3.54180959, "global_step/max_steps": "46465/65595", "percentage": "70.84%", "elapsed_time": "2d 7h 31m 20s", "remaining_time": "22h 51m 32s"}
+{"loss": 0.0497003, "token_acc": 0.98229687, "grad_norm": 0.77524233, "learning_rate": 1.955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232462, "epoch": 3.54219072, "global_step/max_steps": "46470/65595", "percentage": "70.84%", "elapsed_time": "2d 7h 31m 41s", "remaining_time": "22h 51m 10s"}
+{"loss": 0.03642246, "token_acc": 0.98535628, "grad_norm": 0.48268268, "learning_rate": 1.954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232464, "epoch": 3.54257184, "global_step/max_steps": "46475/65595", "percentage": "70.85%", "elapsed_time": "2d 7h 32m 0s", "remaining_time": "22h 50m 48s"}
+{"loss": 0.06577749, "token_acc": 0.97798043, "grad_norm": 1.76943529, "learning_rate": 1.953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23247, "epoch": 3.54295297, "global_step/max_steps": "46480/65595", "percentage": "70.86%", "elapsed_time": "2d 7h 32m 17s", "remaining_time": "22h 50m 24s"}
+{"loss": 0.05111075, "token_acc": 0.97314, "grad_norm": 0.95679903, "learning_rate": 1.952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232477, "epoch": 3.5433341, "global_step/max_steps": "46485/65595", "percentage": "70.87%", "elapsed_time": "2d 7h 32m 32s", "remaining_time": "22h 50m 0s"}
+{"loss": 0.03891555, "token_acc": 0.98003863, "grad_norm": 0.89536524, "learning_rate": 1.951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232483, "epoch": 3.54371522, "global_step/max_steps": "46490/65595", "percentage": "70.87%", "elapsed_time": "2d 7h 32m 49s", "remaining_time": "22h 49m 37s"}
+{"loss": 0.05440452, "token_acc": 0.98066166, "grad_norm": 0.7518658, "learning_rate": 1.95e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232487, "epoch": 3.54409635, "global_step/max_steps": "46495/65595", "percentage": "70.88%", "elapsed_time": "2d 7h 33m 7s", "remaining_time": "22h 49m 14s"}
+{"loss": 0.05926658, "token_acc": 0.9764377, "grad_norm": 2.14807677, "learning_rate": 1.949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232492, "epoch": 3.54447748, "global_step/max_steps": "46500/65595", "percentage": "70.89%", "elapsed_time": "2d 7h 33m 24s", "remaining_time": "22h 48m 51s"}
+{"loss": 0.05377474, "token_acc": 0.97935848, "grad_norm": 0.82326037, "learning_rate": 1.948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232495, "epoch": 3.5448586, "global_step/max_steps": "46505/65595", "percentage": "70.90%", "elapsed_time": "2d 7h 33m 43s", "remaining_time": "22h 48m 28s"}
+{"loss": 0.08111109, "token_acc": 0.98169108, "grad_norm": 3.22980833, "learning_rate": 1.947e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232501, "epoch": 3.54523973, "global_step/max_steps": "46510/65595", "percentage": "70.90%", "elapsed_time": "2d 7h 34m 0s", "remaining_time": "22h 48m 4s"}
+{"loss": 0.05054931, "token_acc": 0.98420516, "grad_norm": 0.48481047, "learning_rate": 1.946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232503, "epoch": 3.54562086, "global_step/max_steps": "46515/65595", "percentage": "70.91%", "elapsed_time": "2d 7h 34m 19s", "remaining_time": "22h 47m 42s"}
+{"loss": 0.0615387, "token_acc": 0.98106658, "grad_norm": 0.71161115, "learning_rate": 1.945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232509, "epoch": 3.54600198, "global_step/max_steps": "46520/65595", "percentage": "70.92%", "elapsed_time": "2d 7h 34m 35s", "remaining_time": "22h 47m 18s"}
+{"loss": 0.07547456, "token_acc": 0.97631946, "grad_norm": 1.3474015, "learning_rate": 1.944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232514, "epoch": 3.54638311, "global_step/max_steps": "46525/65595", "percentage": "70.93%", "elapsed_time": "2d 7h 34m 53s", "remaining_time": "22h 46m 55s"}
+{"loss": 0.06733549, "token_acc": 0.97114452, "grad_norm": 1.95550621, "learning_rate": 1.944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232519, "epoch": 3.54676424, "global_step/max_steps": "46530/65595", "percentage": "70.94%", "elapsed_time": "2d 7h 35m 10s", "remaining_time": "22h 46m 32s"}
+{"loss": 0.07735669, "token_acc": 0.97827886, "grad_norm": 3.08029652, "learning_rate": 1.943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232522, "epoch": 3.54714536, "global_step/max_steps": "46535/65595", "percentage": "70.94%", "elapsed_time": "2d 7h 35m 29s", "remaining_time": "22h 46m 9s"}
+{"loss": 0.06380119, "token_acc": 0.97508518, "grad_norm": 1.46712506, "learning_rate": 1.942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232528, "epoch": 3.54752649, "global_step/max_steps": "46540/65595", "percentage": "70.95%", "elapsed_time": "2d 7h 35m 45s", "remaining_time": "22h 45m 46s"}
+{"loss": 0.07913438, "token_acc": 0.96875, "grad_norm": 2.0047996, "learning_rate": 1.941e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232535, "epoch": 3.54790761, "global_step/max_steps": "46545/65595", "percentage": "70.96%", "elapsed_time": "2d 7h 36m 1s", "remaining_time": "22h 45m 22s"}
+{"loss": 0.06865123, "token_acc": 0.96672269, "grad_norm": 1.24837279, "learning_rate": 1.94e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232542, "epoch": 3.54828874, "global_step/max_steps": "46550/65595", "percentage": "70.97%", "elapsed_time": "2d 7h 36m 16s", "remaining_time": "22h 44m 58s"}
+{"loss": 0.031892, "token_acc": 0.98447175, "grad_norm": 0.55586594, "learning_rate": 1.939e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232541, "epoch": 3.54866987, "global_step/max_steps": "46555/65595", "percentage": "70.97%", "elapsed_time": "2d 7h 36m 38s", "remaining_time": "22h 44m 36s"}
+{"loss": 0.08162122, "token_acc": 0.96522887, "grad_norm": 3.16261005, "learning_rate": 1.938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23255, "epoch": 3.54905099, "global_step/max_steps": "46560/65595", "percentage": "70.98%", "elapsed_time": "2d 7h 36m 52s", "remaining_time": "22h 44m 12s"}
+{"loss": 0.03679352, "token_acc": 0.98653476, "grad_norm": 0.67169398, "learning_rate": 1.937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232557, "epoch": 3.54943212, "global_step/max_steps": "46565/65595", "percentage": "70.99%", "elapsed_time": "2d 7h 37m 8s", "remaining_time": "22h 43m 48s"}
+{"loss": 0.09341655, "token_acc": 0.9655763, "grad_norm": 1.50603032, "learning_rate": 1.936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232562, "epoch": 3.54981325, "global_step/max_steps": "46570/65595", "percentage": "71.00%", "elapsed_time": "2d 7h 37m 25s", "remaining_time": "22h 43m 25s"}
+{"loss": 0.05068185, "token_acc": 0.98036328, "grad_norm": 1.10538769, "learning_rate": 1.935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232571, "epoch": 3.55019437, "global_step/max_steps": "46575/65595", "percentage": "71.00%", "elapsed_time": "2d 7h 37m 39s", "remaining_time": "22h 43m 0s"}
+{"loss": 0.05590035, "token_acc": 0.97550432, "grad_norm": 1.69084227, "learning_rate": 1.934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232575, "epoch": 3.5505755, "global_step/max_steps": "46580/65595", "percentage": "71.01%", "elapsed_time": "2d 7h 37m 56s", "remaining_time": "22h 42m 37s"}
+{"loss": 0.05929225, "token_acc": 0.97957538, "grad_norm": 1.67363274, "learning_rate": 1.933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232582, "epoch": 3.55095663, "global_step/max_steps": "46585/65595", "percentage": "71.02%", "elapsed_time": "2d 7h 38m 12s", "remaining_time": "22h 42m 13s"}
+{"loss": 0.06202996, "token_acc": 0.97288136, "grad_norm": 1.94045925, "learning_rate": 1.932e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232588, "epoch": 3.55133775, "global_step/max_steps": "46590/65595", "percentage": "71.03%", "elapsed_time": "2d 7h 38m 28s", "remaining_time": "22h 41m 49s"}
+{"loss": 0.05335569, "token_acc": 0.9766587, "grad_norm": 1.05446243, "learning_rate": 1.931e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232594, "epoch": 3.55171888, "global_step/max_steps": "46595/65595", "percentage": "71.03%", "elapsed_time": "2d 7h 38m 45s", "remaining_time": "22h 41m 26s"}
+{"loss": 0.03832619, "token_acc": 0.98253849, "grad_norm": 1.22924674, "learning_rate": 1.93e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232599, "epoch": 3.55210001, "global_step/max_steps": "46600/65595", "percentage": "71.04%", "elapsed_time": "2d 7h 39m 2s", "remaining_time": "22h 41m 3s"}
+{"eval_loss": 0.06004065, "eval_token_acc": 0.97573188, "eval_runtime": 220.0813, "eval_samples_per_second": 2.408, "eval_steps_per_second": 2.408, "epoch": 3.55210001, "global_step/max_steps": "46600/65595", "percentage": "71.04%", "elapsed_time": "2d 7h 42m 42s", "remaining_time": "22h 42m 32s"}
+{"loss": 0.07061462, "token_acc": 0.9756352, "grad_norm": 0.43827945, "learning_rate": 1.929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232351, "epoch": 3.55248113, "global_step/max_steps": "46605/65595", "percentage": "71.05%", "elapsed_time": "2d 7h 42m 57s", "remaining_time": "22h 42m 8s"}
+{"loss": 0.04727336, "token_acc": 0.97852113, "grad_norm": 1.77228212, "learning_rate": 1.928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232356, "epoch": 3.55286226, "global_step/max_steps": "46610/65595", "percentage": "71.06%", "elapsed_time": "2d 7h 43m 14s", "remaining_time": "22h 41m 45s"}
+{"loss": 0.04250532, "token_acc": 0.98387565, "grad_norm": 0.51635522, "learning_rate": 1.927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232359, "epoch": 3.55324339, "global_step/max_steps": "46615/65595", "percentage": "71.06%", "elapsed_time": "2d 7h 43m 33s", "remaining_time": "22h 41m 22s"}
+{"loss": 0.05531528, "token_acc": 0.97640498, "grad_norm": 2.03092241, "learning_rate": 1.926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232367, "epoch": 3.55362451, "global_step/max_steps": "46620/65595", "percentage": "71.07%", "elapsed_time": "2d 7h 43m 48s", "remaining_time": "22h 40m 58s"}
+{"loss": 0.05541628, "token_acc": 0.97803755, "grad_norm": 1.03916979, "learning_rate": 1.926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232372, "epoch": 3.55400564, "global_step/max_steps": "46625/65595", "percentage": "71.08%", "elapsed_time": "2d 7h 44m 5s", "remaining_time": "22h 40m 35s"}
+{"loss": 0.06594306, "token_acc": 0.97529183, "grad_norm": 1.04085541, "learning_rate": 1.925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232378, "epoch": 3.55438677, "global_step/max_steps": "46630/65595", "percentage": "71.09%", "elapsed_time": "2d 7h 44m 22s", "remaining_time": "22h 40m 11s"}
+{"loss": 0.05718976, "token_acc": 0.97254128, "grad_norm": 0.57885998, "learning_rate": 1.924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232384, "epoch": 3.55476789, "global_step/max_steps": "46635/65595", "percentage": "71.10%", "elapsed_time": "2d 7h 44m 38s", "remaining_time": "22h 39m 48s"}
+{"loss": 0.04145444, "token_acc": 0.97946406, "grad_norm": 2.31251979, "learning_rate": 1.923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232389, "epoch": 3.55514902, "global_step/max_steps": "46640/65595", "percentage": "71.10%", "elapsed_time": "2d 7h 44m 55s", "remaining_time": "22h 39m 24s"}
+{"loss": 0.02923901, "token_acc": 0.98641615, "grad_norm": 1.36230695, "learning_rate": 1.922e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232392, "epoch": 3.55553015, "global_step/max_steps": "46645/65595", "percentage": "71.11%", "elapsed_time": "2d 7h 45m 15s", "remaining_time": "22h 39m 2s"}
+{"loss": 0.04972194, "token_acc": 0.97877238, "grad_norm": 1.25591063, "learning_rate": 1.921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232399, "epoch": 3.55591127, "global_step/max_steps": "46650/65595", "percentage": "71.12%", "elapsed_time": "2d 7h 45m 30s", "remaining_time": "22h 38m 38s"}
+{"loss": 0.06051866, "token_acc": 0.97924169, "grad_norm": 0.73545712, "learning_rate": 1.92e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232403, "epoch": 3.5562924, "global_step/max_steps": "46655/65595", "percentage": "71.13%", "elapsed_time": "2d 7h 45m 48s", "remaining_time": "22h 38m 15s"}
+{"loss": 0.04802049, "token_acc": 0.97877013, "grad_norm": 0.90553868, "learning_rate": 1.919e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232408, "epoch": 3.55667353, "global_step/max_steps": "46660/65595", "percentage": "71.13%", "elapsed_time": "2d 7h 46m 5s", "remaining_time": "22h 37m 52s"}
+{"loss": 0.06707985, "token_acc": 0.97548868, "grad_norm": 3.6697619, "learning_rate": 1.918e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232415, "epoch": 3.55705465, "global_step/max_steps": "46665/65595", "percentage": "71.14%", "elapsed_time": "2d 7h 46m 20s", "remaining_time": "22h 37m 28s"}
+{"loss": 0.0467698, "token_acc": 0.98152894, "grad_norm": 0.69433779, "learning_rate": 1.917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232415, "epoch": 3.55743578, "global_step/max_steps": "46670/65595", "percentage": "71.15%", "elapsed_time": "2d 7h 46m 42s", "remaining_time": "22h 37m 6s"}
+{"loss": 0.04263062, "token_acc": 0.9835572, "grad_norm": 1.02586651, "learning_rate": 1.916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23242, "epoch": 3.55781691, "global_step/max_steps": "46675/65595", "percentage": "71.16%", "elapsed_time": "2d 7h 46m 59s", "remaining_time": "22h 36m 43s"}
+{"loss": 0.05471776, "token_acc": 0.97973886, "grad_norm": 1.48881471, "learning_rate": 1.915e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232426, "epoch": 3.55819803, "global_step/max_steps": "46680/65595", "percentage": "71.16%", "elapsed_time": "2d 7h 47m 16s", "remaining_time": "22h 36m 19s"}
+{"loss": 0.08222235, "token_acc": 0.97457834, "grad_norm": 1.08992362, "learning_rate": 1.914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232432, "epoch": 3.55857916, "global_step/max_steps": "46685/65595", "percentage": "71.17%", "elapsed_time": "2d 7h 47m 32s", "remaining_time": "22h 35m 56s"}
+{"loss": 0.04987013, "token_acc": 0.97770806, "grad_norm": 0.71817565, "learning_rate": 1.913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232437, "epoch": 3.55896029, "global_step/max_steps": "46690/65595", "percentage": "71.18%", "elapsed_time": "2d 7h 47m 49s", "remaining_time": "22h 35m 33s"}
+{"loss": 0.04854249, "token_acc": 0.98099134, "grad_norm": 1.48860502, "learning_rate": 1.912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232444, "epoch": 3.55934141, "global_step/max_steps": "46695/65595", "percentage": "71.19%", "elapsed_time": "2d 7h 48m 5s", "remaining_time": "22h 35m 9s"}
+{"loss": 0.0634538, "token_acc": 0.98105978, "grad_norm": 1.56547141, "learning_rate": 1.911e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232445, "epoch": 3.55972254, "global_step/max_steps": "46700/65595", "percentage": "71.19%", "elapsed_time": "2d 7h 48m 25s", "remaining_time": "22h 34m 47s"}
+{"loss": 0.0531614, "token_acc": 0.97931034, "grad_norm": 0.86039269, "learning_rate": 1.91e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232451, "epoch": 3.56010367, "global_step/max_steps": "46705/65595", "percentage": "71.20%", "elapsed_time": "2d 7h 48m 41s", "remaining_time": "22h 34m 23s"}
+{"loss": 0.07290264, "token_acc": 0.97736653, "grad_norm": 0.78512955, "learning_rate": 1.91e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232452, "epoch": 3.56048479, "global_step/max_steps": "46710/65595", "percentage": "71.21%", "elapsed_time": "2d 7h 49m 2s", "remaining_time": "22h 34m 1s"}
+{"loss": 0.06825804, "token_acc": 0.97019353, "grad_norm": 1.36231387, "learning_rate": 1.909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232457, "epoch": 3.56086592, "global_step/max_steps": "46715/65595", "percentage": "71.22%", "elapsed_time": "2d 7h 49m 20s", "remaining_time": "22h 33m 38s"}
+{"loss": 0.06235749, "token_acc": 0.97799807, "grad_norm": 1.51123059, "learning_rate": 1.908e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232459, "epoch": 3.56124705, "global_step/max_steps": "46720/65595", "percentage": "71.22%", "elapsed_time": "2d 7h 49m 39s", "remaining_time": "22h 33m 16s"}
+{"loss": 0.0658434, "token_acc": 0.97687861, "grad_norm": 1.3388617, "learning_rate": 1.907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232465, "epoch": 3.56162817, "global_step/max_steps": "46725/65595", "percentage": "71.23%", "elapsed_time": "2d 7h 49m 55s", "remaining_time": "22h 32m 52s"}
+{"loss": 0.05746665, "token_acc": 0.97816532, "grad_norm": 0.83808255, "learning_rate": 1.906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232467, "epoch": 3.5620093, "global_step/max_steps": "46730/65595", "percentage": "71.24%", "elapsed_time": "2d 7h 50m 15s", "remaining_time": "22h 32m 30s"}
+{"loss": 0.0317888, "token_acc": 0.98539736, "grad_norm": 1.26244783, "learning_rate": 1.905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232474, "epoch": 3.56239043, "global_step/max_steps": "46735/65595", "percentage": "71.25%", "elapsed_time": "2d 7h 50m 31s", "remaining_time": "22h 32m 6s"}
+{"loss": 0.04137397, "token_acc": 0.98087492, "grad_norm": 0.66324234, "learning_rate": 1.904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232475, "epoch": 3.56277155, "global_step/max_steps": "46740/65595", "percentage": "71.26%", "elapsed_time": "2d 7h 50m 51s", "remaining_time": "22h 31m 44s"}
+{"loss": 0.07065856, "token_acc": 0.96934866, "grad_norm": 1.4044801, "learning_rate": 1.903e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232483, "epoch": 3.56315268, "global_step/max_steps": "46745/65595", "percentage": "71.26%", "elapsed_time": "2d 7h 51m 6s", "remaining_time": "22h 31m 20s"}
+{"loss": 0.04865324, "token_acc": 0.983562, "grad_norm": 0.79293388, "learning_rate": 1.902e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232486, "epoch": 3.56353381, "global_step/max_steps": "46750/65595", "percentage": "71.27%", "elapsed_time": "2d 7h 51m 25s", "remaining_time": "22h 30m 57s"}
+{"loss": 0.08200629, "token_acc": 0.97818103, "grad_norm": 0.78771621, "learning_rate": 1.901e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23249, "epoch": 3.56391493, "global_step/max_steps": "46755/65595", "percentage": "71.28%", "elapsed_time": "2d 7h 51m 43s", "remaining_time": "22h 30m 34s"}
+{"loss": 0.05658563, "token_acc": 0.97776809, "grad_norm": 0.84412211, "learning_rate": 1.9e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232494, "epoch": 3.56429606, "global_step/max_steps": "46760/65595", "percentage": "71.29%", "elapsed_time": "2d 7h 52m 1s", "remaining_time": "22h 30m 12s"}
+{"loss": 0.09119502, "token_acc": 0.97606473, "grad_norm": 1.33249605, "learning_rate": 1.899e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232497, "epoch": 3.56467719, "global_step/max_steps": "46765/65595", "percentage": "71.29%", "elapsed_time": "2d 7h 52m 20s", "remaining_time": "22h 29m 49s"}
+{"loss": 0.06701719, "token_acc": 0.975983, "grad_norm": 0.61998934, "learning_rate": 1.898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232501, "epoch": 3.56505831, "global_step/max_steps": "46770/65595", "percentage": "71.30%", "elapsed_time": "2d 7h 52m 38s", "remaining_time": "22h 29m 26s"}
+{"loss": 0.07434442, "token_acc": 0.97764423, "grad_norm": 1.34462023, "learning_rate": 1.897e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232508, "epoch": 3.56543944, "global_step/max_steps": "46775/65595", "percentage": "71.31%", "elapsed_time": "2d 7h 52m 54s", "remaining_time": "22h 29m 2s"}
+{"loss": 0.0483743, "token_acc": 0.97532656, "grad_norm": 0.85366046, "learning_rate": 1.896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232514, "epoch": 3.56582057, "global_step/max_steps": "46780/65595", "percentage": "71.32%", "elapsed_time": "2d 7h 53m 9s", "remaining_time": "22h 28m 38s"}
+{"loss": 0.03368062, "token_acc": 0.98486659, "grad_norm": 0.65459162, "learning_rate": 1.895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232517, "epoch": 3.56620169, "global_step/max_steps": "46785/65595", "percentage": "71.32%", "elapsed_time": "2d 7h 53m 29s", "remaining_time": "22h 28m 16s"}
+{"loss": 0.05305519, "token_acc": 0.97642436, "grad_norm": 1.21570563, "learning_rate": 1.894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232523, "epoch": 3.56658282, "global_step/max_steps": "46790/65595", "percentage": "71.33%", "elapsed_time": "2d 7h 53m 45s", "remaining_time": "22h 27m 52s"}
+{"loss": 0.04531446, "token_acc": 0.98301486, "grad_norm": 0.52841759, "learning_rate": 1.894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232532, "epoch": 3.56696395, "global_step/max_steps": "46795/65595", "percentage": "71.34%", "elapsed_time": "2d 7h 53m 59s", "remaining_time": "22h 27m 28s"}
+{"loss": 0.05562052, "token_acc": 0.98224994, "grad_norm": 2.21149063, "learning_rate": 1.893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232536, "epoch": 3.56734507, "global_step/max_steps": "46800/65595", "percentage": "71.35%", "elapsed_time": "2d 7h 54m 16s", "remaining_time": "22h 27m 5s"}
+{"eval_loss": 0.05934964, "eval_token_acc": 0.975762, "eval_runtime": 225.4803, "eval_samples_per_second": 2.351, "eval_steps_per_second": 2.351, "epoch": 3.56734507, "global_step/max_steps": "46800/65595", "percentage": "71.35%", "elapsed_time": "2d 7h 58m 2s", "remaining_time": "22h 28m 35s"}
+{"loss": 0.06269552, "token_acc": 0.97596512, "grad_norm": 1.44557548, "learning_rate": 1.892e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232283, "epoch": 3.5677262, "global_step/max_steps": "46805/65595", "percentage": "71.35%", "elapsed_time": "2d 7h 58m 17s", "remaining_time": "22h 28m 11s"}
+{"loss": 0.06412316, "token_acc": 0.97334284, "grad_norm": 0.95675027, "learning_rate": 1.891e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232285, "epoch": 3.56810733, "global_step/max_steps": "46810/65595", "percentage": "71.36%", "elapsed_time": "2d 7h 58m 37s", "remaining_time": "22h 27m 49s"}
+{"loss": 0.04903319, "token_acc": 0.98122744, "grad_norm": 2.38792276, "learning_rate": 1.89e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232292, "epoch": 3.56848845, "global_step/max_steps": "46815/65595", "percentage": "71.37%", "elapsed_time": "2d 7h 58m 53s", "remaining_time": "22h 27m 25s"}
+{"loss": 0.06107787, "token_acc": 0.97918022, "grad_norm": 0.96540272, "learning_rate": 1.889e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232295, "epoch": 3.56886958, "global_step/max_steps": "46820/65595", "percentage": "71.38%", "elapsed_time": "2d 7h 59m 11s", "remaining_time": "22h 27m 3s"}
+{"loss": 0.04631062, "token_acc": 0.98196532, "grad_norm": 2.00219488, "learning_rate": 1.888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232302, "epoch": 3.56925071, "global_step/max_steps": "46825/65595", "percentage": "71.39%", "elapsed_time": "2d 7h 59m 27s", "remaining_time": "22h 26m 39s"}
+{"loss": 0.0425085, "token_acc": 0.9836482, "grad_norm": 1.61226761, "learning_rate": 1.887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232305, "epoch": 3.56963183, "global_step/max_steps": "46830/65595", "percentage": "71.39%", "elapsed_time": "2d 7h 59m 46s", "remaining_time": "22h 26m 16s"}
+{"loss": 0.05037444, "token_acc": 0.9829932, "grad_norm": 1.11799324, "learning_rate": 1.886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232313, "epoch": 3.57001296, "global_step/max_steps": "46835/65595", "percentage": "71.40%", "elapsed_time": "2d 8h 0m 0s", "remaining_time": "22h 25m 52s"}
+{"loss": 0.06316715, "token_acc": 0.97888128, "grad_norm": 0.67628938, "learning_rate": 1.885e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232316, "epoch": 3.57039408, "global_step/max_steps": "46840/65595", "percentage": "71.41%", "elapsed_time": "2d 8h 0m 19s", "remaining_time": "22h 25m 29s"}
+{"loss": 0.03417058, "token_acc": 0.98418643, "grad_norm": 1.15237248, "learning_rate": 1.884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232324, "epoch": 3.57077521, "global_step/max_steps": "46845/65595", "percentage": "71.42%", "elapsed_time": "2d 8h 0m 34s", "remaining_time": "22h 25m 5s"}
+{"loss": 0.04842901, "token_acc": 0.9810233, "grad_norm": 1.46422589, "learning_rate": 1.883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232328, "epoch": 3.57115634, "global_step/max_steps": "46850/65595", "percentage": "71.42%", "elapsed_time": "2d 8h 0m 52s", "remaining_time": "22h 24m 42s"}
+{"loss": 0.05420316, "token_acc": 0.98038282, "grad_norm": 1.06185794, "learning_rate": 1.882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232327, "epoch": 3.57153746, "global_step/max_steps": "46855/65595", "percentage": "71.43%", "elapsed_time": "2d 8h 1m 14s", "remaining_time": "22h 24m 21s"}
+{"loss": 0.06246584, "token_acc": 0.97803539, "grad_norm": 0.6396665, "learning_rate": 1.881e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232332, "epoch": 3.57191859, "global_step/max_steps": "46860/65595", "percentage": "71.44%", "elapsed_time": "2d 8h 1m 31s", "remaining_time": "22h 23m 57s"}
+{"loss": 0.06518712, "token_acc": 0.97363564, "grad_norm": 1.07590854, "learning_rate": 1.88e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232339, "epoch": 3.57229972, "global_step/max_steps": "46865/65595", "percentage": "71.45%", "elapsed_time": "2d 8h 1m 47s", "remaining_time": "22h 23m 33s"}
+{"loss": 0.08465058, "token_acc": 0.9679874, "grad_norm": 2.05277157, "learning_rate": 1.879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232345, "epoch": 3.57268084, "global_step/max_steps": "46870/65595", "percentage": "71.45%", "elapsed_time": "2d 8h 2m 3s", "remaining_time": "22h 23m 10s"}
+{"loss": 0.03970342, "token_acc": 0.98177325, "grad_norm": 0.91539103, "learning_rate": 1.879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232353, "epoch": 3.57306197, "global_step/max_steps": "46875/65595", "percentage": "71.46%", "elapsed_time": "2d 8h 2m 18s", "remaining_time": "22h 22m 46s"}
+{"loss": 0.05024415, "token_acc": 0.97236236, "grad_norm": 1.1242559, "learning_rate": 1.878e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232359, "epoch": 3.5734431, "global_step/max_steps": "46880/65595", "percentage": "71.47%", "elapsed_time": "2d 8h 2m 34s", "remaining_time": "22h 22m 22s"}
+{"loss": 0.05106345, "token_acc": 0.98276654, "grad_norm": 0.70449883, "learning_rate": 1.877e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232363, "epoch": 3.57382422, "global_step/max_steps": "46885/65595", "percentage": "71.48%", "elapsed_time": "2d 8h 2m 52s", "remaining_time": "22h 21m 59s"}
+{"loss": 0.04450111, "token_acc": 0.9830637, "grad_norm": 0.63556916, "learning_rate": 1.876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232371, "epoch": 3.57420535, "global_step/max_steps": "46890/65595", "percentage": "71.48%", "elapsed_time": "2d 8h 3m 7s", "remaining_time": "22h 21m 35s"}
+{"loss": 0.07547379, "token_acc": 0.97843707, "grad_norm": 1.60356605, "learning_rate": 1.875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232374, "epoch": 3.57458648, "global_step/max_steps": "46895/65595", "percentage": "71.49%", "elapsed_time": "2d 8h 3m 26s", "remaining_time": "22h 21m 12s"}
+{"loss": 0.05892327, "token_acc": 0.97827682, "grad_norm": 0.87363768, "learning_rate": 1.874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232376, "epoch": 3.5749676, "global_step/max_steps": "46900/65595", "percentage": "71.50%", "elapsed_time": "2d 8h 3m 45s", "remaining_time": "22h 20m 50s"}
+{"loss": 0.07203642, "token_acc": 0.97856302, "grad_norm": 2.35513926, "learning_rate": 1.873e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232384, "epoch": 3.57534873, "global_step/max_steps": "46905/65595", "percentage": "71.51%", "elapsed_time": "2d 8h 4m 0s", "remaining_time": "22h 20m 26s"}
+{"loss": 0.06158805, "token_acc": 0.97203545, "grad_norm": 1.22588646, "learning_rate": 1.872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232388, "epoch": 3.57572986, "global_step/max_steps": "46910/65595", "percentage": "71.51%", "elapsed_time": "2d 8h 4m 18s", "remaining_time": "22h 20m 3s"}
+{"loss": 0.05387657, "token_acc": 0.97964072, "grad_norm": 0.76647061, "learning_rate": 1.871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232393, "epoch": 3.57611098, "global_step/max_steps": "46915/65595", "percentage": "71.52%", "elapsed_time": "2d 8h 4m 35s", "remaining_time": "22h 19m 40s"}
+{"loss": 0.08210026, "token_acc": 0.97163342, "grad_norm": 1.61228478, "learning_rate": 1.87e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232397, "epoch": 3.57649211, "global_step/max_steps": "46920/65595", "percentage": "71.53%", "elapsed_time": "2d 8h 4m 53s", "remaining_time": "22h 19m 17s"}
+{"loss": 0.05902968, "token_acc": 0.97874444, "grad_norm": 1.27531874, "learning_rate": 1.869e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2324, "epoch": 3.57687324, "global_step/max_steps": "46925/65595", "percentage": "71.54%", "elapsed_time": "2d 8h 5m 12s", "remaining_time": "22h 18m 54s"}
+{"loss": 0.08389776, "token_acc": 0.97417504, "grad_norm": 1.80526471, "learning_rate": 1.868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232405, "epoch": 3.57725436, "global_step/max_steps": "46930/65595", "percentage": "71.55%", "elapsed_time": "2d 8h 5m 29s", "remaining_time": "22h 18m 31s"}
+{"loss": 0.04397833, "token_acc": 0.98102695, "grad_norm": 0.61714619, "learning_rate": 1.867e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23241, "epoch": 3.57763549, "global_step/max_steps": "46935/65595", "percentage": "71.55%", "elapsed_time": "2d 8h 5m 47s", "remaining_time": "22h 18m 8s"}
+{"loss": 0.04492226, "token_acc": 0.97908322, "grad_norm": 0.65979207, "learning_rate": 1.866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232414, "epoch": 3.57801662, "global_step/max_steps": "46940/65595", "percentage": "71.56%", "elapsed_time": "2d 8h 6m 5s", "remaining_time": "22h 17m 45s"}
+{"loss": 0.04307965, "token_acc": 0.98483058, "grad_norm": 1.54266679, "learning_rate": 1.865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232418, "epoch": 3.57839774, "global_step/max_steps": "46945/65595", "percentage": "71.57%", "elapsed_time": "2d 8h 6m 22s", "remaining_time": "22h 17m 22s"}
+{"loss": 0.08024131, "token_acc": 0.97018654, "grad_norm": 1.48431921, "learning_rate": 1.865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232423, "epoch": 3.57877887, "global_step/max_steps": "46950/65595", "percentage": "71.58%", "elapsed_time": "2d 8h 6m 40s", "remaining_time": "22h 16m 59s"}
+{"loss": 0.0636265, "token_acc": 0.97731755, "grad_norm": 1.25200236, "learning_rate": 1.864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232428, "epoch": 3.57916, "global_step/max_steps": "46955/65595", "percentage": "71.58%", "elapsed_time": "2d 8h 6m 56s", "remaining_time": "22h 16m 35s"}
+{"loss": 0.06477972, "token_acc": 0.9693166, "grad_norm": 1.58216119, "learning_rate": 1.863e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232437, "epoch": 3.57954112, "global_step/max_steps": "46960/65595", "percentage": "71.59%", "elapsed_time": "2d 8h 7m 11s", "remaining_time": "22h 16m 11s"}
+{"loss": 0.06424868, "token_acc": 0.97217434, "grad_norm": 0.83490127, "learning_rate": 1.862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232443, "epoch": 3.57992225, "global_step/max_steps": "46965/65595", "percentage": "71.60%", "elapsed_time": "2d 8h 7m 27s", "remaining_time": "22h 15m 47s"}
+{"loss": 0.04805622, "token_acc": 0.97921615, "grad_norm": 2.13800573, "learning_rate": 1.861e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232451, "epoch": 3.58030338, "global_step/max_steps": "46970/65595", "percentage": "71.61%", "elapsed_time": "2d 8h 7m 41s", "remaining_time": "22h 15m 23s"}
+{"loss": 0.06654325, "token_acc": 0.97206833, "grad_norm": 1.5497402, "learning_rate": 1.86e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232457, "epoch": 3.5806845, "global_step/max_steps": "46975/65595", "percentage": "71.61%", "elapsed_time": "2d 8h 7m 58s", "remaining_time": "22h 14m 59s"}
+{"loss": 0.06904311, "token_acc": 0.98124244, "grad_norm": 1.04493523, "learning_rate": 1.859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232462, "epoch": 3.58106563, "global_step/max_steps": "46980/65595", "percentage": "71.62%", "elapsed_time": "2d 8h 8m 14s", "remaining_time": "22h 14m 36s"}
+{"loss": 0.03399054, "token_acc": 0.98612622, "grad_norm": 0.9228068, "learning_rate": 1.858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23247, "epoch": 3.58144676, "global_step/max_steps": "46985/65595", "percentage": "71.63%", "elapsed_time": "2d 8h 8m 29s", "remaining_time": "22h 14m 12s"}
+{"loss": 0.03296113, "token_acc": 0.98217412, "grad_norm": 1.63144875, "learning_rate": 1.857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232474, "epoch": 3.58182788, "global_step/max_steps": "46990/65595", "percentage": "71.64%", "elapsed_time": "2d 8h 8m 48s", "remaining_time": "22h 13m 49s"}
+{"loss": 0.06136068, "token_acc": 0.97343454, "grad_norm": 1.13414717, "learning_rate": 1.856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232479, "epoch": 3.58220901, "global_step/max_steps": "46995/65595", "percentage": "71.64%", "elapsed_time": "2d 8h 9m 5s", "remaining_time": "22h 13m 26s"}
+{"loss": 0.05981239, "token_acc": 0.97528604, "grad_norm": 0.99183172, "learning_rate": 1.855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232481, "epoch": 3.58259014, "global_step/max_steps": "47000/65595", "percentage": "71.65%", "elapsed_time": "2d 8h 9m 24s", "remaining_time": "22h 13m 4s"}
+{"eval_loss": 0.05900821, "eval_token_acc": 0.97579212, "eval_runtime": 221.918, "eval_samples_per_second": 2.388, "eval_steps_per_second": 2.388, "epoch": 3.58259014, "global_step/max_steps": "47000/65595", "percentage": "71.65%", "elapsed_time": "2d 8h 13m 6s", "remaining_time": "22h 14m 31s"}
+{"loss": 0.03040275, "token_acc": 0.97623605, "grad_norm": 0.71447659, "learning_rate": 1.854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232229, "epoch": 3.58297126, "global_step/max_steps": "47005/65595", "percentage": "71.66%", "elapsed_time": "2d 8h 13m 25s", "remaining_time": "22h 14m 9s"}
+{"loss": 0.06989901, "token_acc": 0.98069318, "grad_norm": 3.65278745, "learning_rate": 1.853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232233, "epoch": 3.58335239, "global_step/max_steps": "47010/65595", "percentage": "71.67%", "elapsed_time": "2d 8h 13m 43s", "remaining_time": "22h 13m 46s"}
+{"loss": 0.05056638, "token_acc": 0.9810008, "grad_norm": 1.48981535, "learning_rate": 1.852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232236, "epoch": 3.58373352, "global_step/max_steps": "47015/65595", "percentage": "71.67%", "elapsed_time": "2d 8h 14m 2s", "remaining_time": "22h 13m 24s"}
+{"loss": 0.04124007, "token_acc": 0.98460308, "grad_norm": 0.74736333, "learning_rate": 1.851e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232241, "epoch": 3.58411464, "global_step/max_steps": "47020/65595", "percentage": "71.68%", "elapsed_time": "2d 8h 14m 19s", "remaining_time": "22h 13m 0s"}
+{"loss": 0.06278095, "token_acc": 0.96996064, "grad_norm": 1.78538167, "learning_rate": 1.851e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232247, "epoch": 3.58449577, "global_step/max_steps": "47025/65595", "percentage": "71.69%", "elapsed_time": "2d 8h 14m 35s", "remaining_time": "22h 12m 37s"}
+{"loss": 0.0573422, "token_acc": 0.9812179, "grad_norm": 0.7042954, "learning_rate": 1.85e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232249, "epoch": 3.5848769, "global_step/max_steps": "47030/65595", "percentage": "71.70%", "elapsed_time": "2d 8h 14m 55s", "remaining_time": "22h 12m 14s"}
+{"loss": 0.05341325, "token_acc": 0.9751765, "grad_norm": 1.3742696, "learning_rate": 1.849e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232255, "epoch": 3.58525802, "global_step/max_steps": "47035/65595", "percentage": "71.71%", "elapsed_time": "2d 8h 15m 12s", "remaining_time": "22h 11m 51s"}
+{"loss": 0.0422495, "token_acc": 0.98014219, "grad_norm": 1.2992419, "learning_rate": 1.848e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232262, "epoch": 3.58563915, "global_step/max_steps": "47040/65595", "percentage": "71.71%", "elapsed_time": "2d 8h 15m 27s", "remaining_time": "22h 11m 27s"}
+{"loss": 0.04296172, "token_acc": 0.98026608, "grad_norm": 1.10675335, "learning_rate": 1.847e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232267, "epoch": 3.58602028, "global_step/max_steps": "47045/65595", "percentage": "71.72%", "elapsed_time": "2d 8h 15m 44s", "remaining_time": "22h 11m 3s"}
+{"loss": 0.03731704, "token_acc": 0.98378378, "grad_norm": 1.71662867, "learning_rate": 1.846e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232276, "epoch": 3.5864014, "global_step/max_steps": "47050/65595", "percentage": "71.73%", "elapsed_time": "2d 8h 15m 58s", "remaining_time": "22h 10m 39s"}
+{"loss": 0.03666705, "token_acc": 0.98349835, "grad_norm": 0.63170666, "learning_rate": 1.845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232281, "epoch": 3.58678253, "global_step/max_steps": "47055/65595", "percentage": "71.74%", "elapsed_time": "2d 8h 16m 15s", "remaining_time": "22h 10m 16s"}
+{"loss": 0.07504984, "token_acc": 0.97941727, "grad_norm": 1.81717169, "learning_rate": 1.844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232288, "epoch": 3.58716366, "global_step/max_steps": "47060/65595", "percentage": "71.74%", "elapsed_time": "2d 8h 16m 31s", "remaining_time": "22h 9m 52s"}
+{"loss": 0.06833293, "token_acc": 0.97656161, "grad_norm": 1.20587587, "learning_rate": 1.843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232289, "epoch": 3.58754478, "global_step/max_steps": "47065/65595", "percentage": "71.75%", "elapsed_time": "2d 8h 16m 52s", "remaining_time": "22h 9m 30s"}
+{"loss": 0.05005949, "token_acc": 0.97245927, "grad_norm": 1.24287069, "learning_rate": 1.842e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232297, "epoch": 3.58792591, "global_step/max_steps": "47070/65595", "percentage": "71.76%", "elapsed_time": "2d 8h 17m 6s", "remaining_time": "22h 9m 6s"}
+{"loss": 0.06922176, "token_acc": 0.97719481, "grad_norm": 1.14343297, "learning_rate": 1.841e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232298, "epoch": 3.58830704, "global_step/max_steps": "47075/65595", "percentage": "71.77%", "elapsed_time": "2d 8h 17m 26s", "remaining_time": "22h 8m 44s"}
+{"loss": 0.02975887, "token_acc": 0.98582766, "grad_norm": 1.49859536, "learning_rate": 1.84e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232308, "epoch": 3.58868816, "global_step/max_steps": "47080/65595", "percentage": "71.77%", "elapsed_time": "2d 8h 17m 40s", "remaining_time": "22h 8m 19s"}
+{"loss": 0.04621181, "token_acc": 0.98106061, "grad_norm": 2.39511108, "learning_rate": 1.839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232313, "epoch": 3.58906929, "global_step/max_steps": "47085/65595", "percentage": "71.78%", "elapsed_time": "2d 8h 17m 56s", "remaining_time": "22h 7m 56s"}
+{"loss": 0.03152124, "token_acc": 0.98481347, "grad_norm": 1.20294988, "learning_rate": 1.838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23232, "epoch": 3.58945042, "global_step/max_steps": "47090/65595", "percentage": "71.79%", "elapsed_time": "2d 8h 18m 12s", "remaining_time": "22h 7m 32s"}
+{"loss": 0.07433819, "token_acc": 0.97723577, "grad_norm": 1.64647555, "learning_rate": 1.838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232324, "epoch": 3.58983154, "global_step/max_steps": "47095/65595", "percentage": "71.80%", "elapsed_time": "2d 8h 18m 30s", "remaining_time": "22h 7m 9s"}
+{"loss": 0.06063727, "token_acc": 0.9817715, "grad_norm": 0.62068719, "learning_rate": 1.837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23233, "epoch": 3.59021267, "global_step/max_steps": "47100/65595", "percentage": "71.80%", "elapsed_time": "2d 8h 18m 46s", "remaining_time": "22h 6m 45s"}
+{"loss": 0.06033396, "token_acc": 0.97327224, "grad_norm": 0.46667701, "learning_rate": 1.836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232339, "epoch": 3.5905938, "global_step/max_steps": "47105/65595", "percentage": "71.81%", "elapsed_time": "2d 8h 19m 0s", "remaining_time": "22h 6m 21s"}
+{"loss": 0.04009672, "token_acc": 0.9815795, "grad_norm": 0.99887341, "learning_rate": 1.835e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232345, "epoch": 3.59097492, "global_step/max_steps": "47110/65595", "percentage": "71.82%", "elapsed_time": "2d 8h 19m 16s", "remaining_time": "22h 5m 57s"}
+{"loss": 0.05620103, "token_acc": 0.97754649, "grad_norm": 1.22465396, "learning_rate": 1.834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232346, "epoch": 3.59135605, "global_step/max_steps": "47115/65595", "percentage": "71.83%", "elapsed_time": "2d 8h 19m 37s", "remaining_time": "22h 5m 35s"}
+{"loss": 0.05222952, "token_acc": 0.98433027, "grad_norm": 1.61225617, "learning_rate": 1.833e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232349, "epoch": 3.59173718, "global_step/max_steps": "47120/65595", "percentage": "71.83%", "elapsed_time": "2d 8h 19m 55s", "remaining_time": "22h 5m 13s"}
+{"loss": 0.06638657, "token_acc": 0.97680548, "grad_norm": 1.15532815, "learning_rate": 1.832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232356, "epoch": 3.5921183, "global_step/max_steps": "47125/65595", "percentage": "71.84%", "elapsed_time": "2d 8h 20m 11s", "remaining_time": "22h 4m 49s"}
+{"loss": 0.06013939, "token_acc": 0.97655493, "grad_norm": 0.86113197, "learning_rate": 1.831e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232359, "epoch": 3.59249943, "global_step/max_steps": "47130/65595", "percentage": "71.85%", "elapsed_time": "2d 8h 20m 30s", "remaining_time": "22h 4m 26s"}
+{"loss": 0.04468029, "token_acc": 0.98109798, "grad_norm": 0.92821443, "learning_rate": 1.83e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232361, "epoch": 3.59288055, "global_step/max_steps": "47135/65595", "percentage": "71.86%", "elapsed_time": "2d 8h 20m 50s", "remaining_time": "22h 4m 4s"}
+{"loss": 0.06581081, "token_acc": 0.9657803, "grad_norm": 0.98231316, "learning_rate": 1.829e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232367, "epoch": 3.59326168, "global_step/max_steps": "47140/65595", "percentage": "71.87%", "elapsed_time": "2d 8h 21m 6s", "remaining_time": "22h 3m 40s"}
+{"loss": 0.0429463, "token_acc": 0.98698941, "grad_norm": 0.47034559, "learning_rate": 1.828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232369, "epoch": 3.59364281, "global_step/max_steps": "47145/65595", "percentage": "71.87%", "elapsed_time": "2d 8h 21m 26s", "remaining_time": "22h 3m 18s"}
+{"loss": 0.0506859, "token_acc": 0.98438081, "grad_norm": 1.43635237, "learning_rate": 1.827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232375, "epoch": 3.59402393, "global_step/max_steps": "47150/65595", "percentage": "71.88%", "elapsed_time": "2d 8h 21m 42s", "remaining_time": "22h 2m 55s"}
+{"loss": 0.06382757, "token_acc": 0.97370151, "grad_norm": 1.24367273, "learning_rate": 1.826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23238, "epoch": 3.59440506, "global_step/max_steps": "47155/65595", "percentage": "71.89%", "elapsed_time": "2d 8h 21m 59s", "remaining_time": "22h 2m 31s"}
+{"loss": 0.04905833, "token_acc": 0.98537477, "grad_norm": 0.97649813, "learning_rate": 1.826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232388, "epoch": 3.59478619, "global_step/max_steps": "47160/65595", "percentage": "71.90%", "elapsed_time": "2d 8h 22m 13s", "remaining_time": "22h 2m 7s"}
+{"loss": 0.04492635, "token_acc": 0.98053461, "grad_norm": 0.72670603, "learning_rate": 1.825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232392, "epoch": 3.59516731, "global_step/max_steps": "47165/65595", "percentage": "71.90%", "elapsed_time": "2d 8h 22m 31s", "remaining_time": "22h 1m 44s"}
+{"loss": 0.07157142, "token_acc": 0.97396838, "grad_norm": 2.54497576, "learning_rate": 1.824e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232396, "epoch": 3.59554844, "global_step/max_steps": "47170/65595", "percentage": "71.91%", "elapsed_time": "2d 8h 22m 50s", "remaining_time": "22h 1m 21s"}
+{"loss": 0.04134858, "token_acc": 0.98152709, "grad_norm": 1.65922236, "learning_rate": 1.823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232401, "epoch": 3.59592957, "global_step/max_steps": "47175/65595", "percentage": "71.92%", "elapsed_time": "2d 8h 23m 7s", "remaining_time": "22h 0m 58s"}
+{"loss": 0.05678023, "token_acc": 0.97986891, "grad_norm": 1.40909183, "learning_rate": 1.822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232409, "epoch": 3.59631069, "global_step/max_steps": "47180/65595", "percentage": "71.93%", "elapsed_time": "2d 8h 23m 21s", "remaining_time": "22h 0m 34s"}
+{"loss": 0.07048658, "token_acc": 0.97300856, "grad_norm": 1.43995261, "learning_rate": 1.821e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232415, "epoch": 3.59669182, "global_step/max_steps": "47185/65595", "percentage": "71.93%", "elapsed_time": "2d 8h 23m 38s", "remaining_time": "22h 0m 10s"}
+{"loss": 0.05799223, "token_acc": 0.98091113, "grad_norm": 1.27429545, "learning_rate": 1.82e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232417, "epoch": 3.59707295, "global_step/max_steps": "47190/65595", "percentage": "71.94%", "elapsed_time": "2d 8h 23m 58s", "remaining_time": "21h 59m 48s"}
+{"loss": 0.07327225, "token_acc": 0.97212139, "grad_norm": 0.91546595, "learning_rate": 1.819e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232419, "epoch": 3.59745407, "global_step/max_steps": "47195/65595", "percentage": "71.95%", "elapsed_time": "2d 8h 24m 17s", "remaining_time": "21h 59m 26s"}
+{"loss": 0.06106681, "token_acc": 0.97715085, "grad_norm": 1.62208354, "learning_rate": 1.818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232424, "epoch": 3.5978352, "global_step/max_steps": "47200/65595", "percentage": "71.96%", "elapsed_time": "2d 8h 24m 34s", "remaining_time": "21h 59m 3s"}
+{"eval_loss": 0.05947876, "eval_token_acc": 0.97567165, "eval_runtime": 219.1843, "eval_samples_per_second": 2.418, "eval_steps_per_second": 2.418, "epoch": 3.5978352, "global_step/max_steps": "47200/65595", "percentage": "71.96%", "elapsed_time": "2d 8h 28m 13s", "remaining_time": "22h 0m 28s"}
+{"loss": 0.04851398, "token_acc": 0.97581763, "grad_norm": 1.80375838, "learning_rate": 1.817e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232177, "epoch": 3.59821633, "global_step/max_steps": "47205/65595", "percentage": "71.96%", "elapsed_time": "2d 8h 28m 32s", "remaining_time": "22h 0m 5s"}
+{"loss": 0.03791375, "token_acc": 0.98470097, "grad_norm": 1.12982678, "learning_rate": 1.816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232186, "epoch": 3.59859745, "global_step/max_steps": "47210/65595", "percentage": "71.97%", "elapsed_time": "2d 8h 28m 46s", "remaining_time": "21h 59m 41s"}
+{"loss": 0.05337119, "token_acc": 0.97746005, "grad_norm": 0.86522543, "learning_rate": 1.815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232184, "epoch": 3.59897858, "global_step/max_steps": "47215/65595", "percentage": "71.98%", "elapsed_time": "2d 8h 29m 9s", "remaining_time": "21h 59m 20s"}
+{"loss": 0.06788407, "token_acc": 0.97446556, "grad_norm": 1.81701159, "learning_rate": 1.814e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232191, "epoch": 3.59935971, "global_step/max_steps": "47220/65595", "percentage": "71.99%", "elapsed_time": "2d 8h 29m 24s", "remaining_time": "21h 58m 56s"}
+{"loss": 0.05981946, "token_acc": 0.97570047, "grad_norm": 0.92840379, "learning_rate": 1.814e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232198, "epoch": 3.59974083, "global_step/max_steps": "47225/65595", "percentage": "71.99%", "elapsed_time": "2d 8h 29m 40s", "remaining_time": "21h 58m 32s"}
+{"loss": 0.06271785, "token_acc": 0.97572903, "grad_norm": 1.28777087, "learning_rate": 1.813e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232203, "epoch": 3.60012196, "global_step/max_steps": "47230/65595", "percentage": "72.00%", "elapsed_time": "2d 8h 29m 57s", "remaining_time": "21h 58m 9s"}
+{"loss": 0.05141038, "token_acc": 0.97968021, "grad_norm": 0.98970789, "learning_rate": 1.812e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232207, "epoch": 3.60050309, "global_step/max_steps": "47235/65595", "percentage": "72.01%", "elapsed_time": "2d 8h 30m 15s", "remaining_time": "21h 57m 46s"}
+{"loss": 0.05372521, "token_acc": 0.97589814, "grad_norm": 0.99199706, "learning_rate": 1.811e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232213, "epoch": 3.60088421, "global_step/max_steps": "47240/65595", "percentage": "72.02%", "elapsed_time": "2d 8h 30m 31s", "remaining_time": "21h 57m 23s"}
+{"loss": 0.02088492, "token_acc": 0.98969945, "grad_norm": 1.09531462, "learning_rate": 1.81e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232216, "epoch": 3.60126534, "global_step/max_steps": "47245/65595", "percentage": "72.03%", "elapsed_time": "2d 8h 30m 50s", "remaining_time": "21h 57m 0s"}
+{"loss": 0.04733892, "token_acc": 0.98085855, "grad_norm": 0.9280777, "learning_rate": 1.809e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232219, "epoch": 3.60164647, "global_step/max_steps": "47250/65595", "percentage": "72.03%", "elapsed_time": "2d 8h 31m 9s", "remaining_time": "21h 56m 37s"}
+{"loss": 0.05198082, "token_acc": 0.97925822, "grad_norm": 0.81619412, "learning_rate": 1.808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232224, "epoch": 3.60202759, "global_step/max_steps": "47255/65595", "percentage": "72.04%", "elapsed_time": "2d 8h 31m 26s", "remaining_time": "21h 56m 14s"}
+{"loss": 0.05582446, "token_acc": 0.98513459, "grad_norm": 2.98857951, "learning_rate": 1.807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232231, "epoch": 3.60240872, "global_step/max_steps": "47260/65595", "percentage": "72.05%", "elapsed_time": "2d 8h 31m 41s", "remaining_time": "21h 55m 50s"}
+{"loss": 0.04419417, "token_acc": 0.9815415, "grad_norm": 1.26470816, "learning_rate": 1.806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232236, "epoch": 3.60278985, "global_step/max_steps": "47265/65595", "percentage": "72.06%", "elapsed_time": "2d 8h 31m 59s", "remaining_time": "21h 55m 27s"}
+{"loss": 0.04226418, "token_acc": 0.98583235, "grad_norm": 0.56231302, "learning_rate": 1.805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232242, "epoch": 3.60317097, "global_step/max_steps": "47270/65595", "percentage": "72.06%", "elapsed_time": "2d 8h 32m 15s", "remaining_time": "21h 55m 3s"}
+{"loss": 0.08083773, "token_acc": 0.96795542, "grad_norm": 1.45103121, "learning_rate": 1.804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232246, "epoch": 3.6035521, "global_step/max_steps": "47275/65595", "percentage": "72.07%", "elapsed_time": "2d 8h 32m 33s", "remaining_time": "21h 54m 41s"}
+{"loss": 0.04851097, "token_acc": 0.97842857, "grad_norm": 0.28289497, "learning_rate": 1.803e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232247, "epoch": 3.60393323, "global_step/max_steps": "47280/65595", "percentage": "72.08%", "elapsed_time": "2d 8h 32m 53s", "remaining_time": "21h 54m 19s"}
+{"loss": 0.038409, "token_acc": 0.98436897, "grad_norm": 1.28842485, "learning_rate": 1.802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232252, "epoch": 3.60431435, "global_step/max_steps": "47285/65595", "percentage": "72.09%", "elapsed_time": "2d 8h 33m 11s", "remaining_time": "21h 53m 56s"}
+{"loss": 0.03828598, "token_acc": 0.97427429, "grad_norm": 0.7698943, "learning_rate": 1.802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232258, "epoch": 3.60469548, "global_step/max_steps": "47290/65595", "percentage": "72.09%", "elapsed_time": "2d 8h 33m 27s", "remaining_time": "21h 53m 32s"}
+{"loss": 0.05516452, "token_acc": 0.97600163, "grad_norm": 0.9557727, "learning_rate": 1.801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232264, "epoch": 3.60507661, "global_step/max_steps": "47295/65595", "percentage": "72.10%", "elapsed_time": "2d 8h 33m 43s", "remaining_time": "21h 53m 8s"}
+{"loss": 0.0598654, "token_acc": 0.97690046, "grad_norm": 1.83804977, "learning_rate": 1.8e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23227, "epoch": 3.60545773, "global_step/max_steps": "47300/65595", "percentage": "72.11%", "elapsed_time": "2d 8h 34m 0s", "remaining_time": "21h 52m 45s"}
+{"loss": 0.05340071, "token_acc": 0.98182944, "grad_norm": 0.73674375, "learning_rate": 1.799e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232274, "epoch": 3.60583886, "global_step/max_steps": "47305/65595", "percentage": "72.12%", "elapsed_time": "2d 8h 34m 18s", "remaining_time": "21h 52m 22s"}
+{"loss": 0.06602771, "token_acc": 0.97718086, "grad_norm": 0.82762122, "learning_rate": 1.798e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232278, "epoch": 3.60621999, "global_step/max_steps": "47310/65595", "percentage": "72.12%", "elapsed_time": "2d 8h 34m 36s", "remaining_time": "21h 51m 59s"}
+{"loss": 0.07041627, "token_acc": 0.97253306, "grad_norm": 1.69778645, "learning_rate": 1.797e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23228, "epoch": 3.60660111, "global_step/max_steps": "47315/65595", "percentage": "72.13%", "elapsed_time": "2d 8h 34m 56s", "remaining_time": "21h 51m 37s"}
+{"loss": 0.0453324, "token_acc": 0.98201822, "grad_norm": 0.81288457, "learning_rate": 1.796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232283, "epoch": 3.60698224, "global_step/max_steps": "47320/65595", "percentage": "72.14%", "elapsed_time": "2d 8h 35m 14s", "remaining_time": "21h 51m 14s"}
+{"loss": 0.07283758, "token_acc": 0.97390691, "grad_norm": 1.16019046, "learning_rate": 1.795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232289, "epoch": 3.60736337, "global_step/max_steps": "47325/65595", "percentage": "72.15%", "elapsed_time": "2d 8h 35m 30s", "remaining_time": "21h 50m 51s"}
+{"loss": 0.04795294, "token_acc": 0.98324345, "grad_norm": 0.98896158, "learning_rate": 1.794e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232294, "epoch": 3.60774449, "global_step/max_steps": "47330/65595", "percentage": "72.15%", "elapsed_time": "2d 8h 35m 47s", "remaining_time": "21h 50m 27s"}
+{"loss": 0.0460934, "token_acc": 0.9794225, "grad_norm": 2.91926622, "learning_rate": 1.793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232302, "epoch": 3.60812562, "global_step/max_steps": "47335/65595", "percentage": "72.16%", "elapsed_time": "2d 8h 36m 2s", "remaining_time": "21h 50m 3s"}
+{"loss": 0.04538529, "token_acc": 0.98012959, "grad_norm": 1.11669993, "learning_rate": 1.792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232307, "epoch": 3.60850675, "global_step/max_steps": "47340/65595", "percentage": "72.17%", "elapsed_time": "2d 8h 36m 20s", "remaining_time": "21h 49m 40s"}
+{"loss": 0.05092054, "token_acc": 0.97967824, "grad_norm": 0.35961449, "learning_rate": 1.791e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232313, "epoch": 3.60888787, "global_step/max_steps": "47345/65595", "percentage": "72.18%", "elapsed_time": "2d 8h 36m 35s", "remaining_time": "21h 49m 16s"}
+{"loss": 0.04205401, "token_acc": 0.97513696, "grad_norm": 0.97962373, "learning_rate": 1.79e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232319, "epoch": 3.609269, "global_step/max_steps": "47350/65595", "percentage": "72.19%", "elapsed_time": "2d 8h 36m 52s", "remaining_time": "21h 48m 53s"}
+{"loss": 0.04233804, "token_acc": 0.98514228, "grad_norm": 0.7389909, "learning_rate": 1.79e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232325, "epoch": 3.60965013, "global_step/max_steps": "47355/65595", "percentage": "72.19%", "elapsed_time": "2d 8h 37m 8s", "remaining_time": "21h 48m 29s"}
+{"loss": 0.0382582, "token_acc": 0.98104508, "grad_norm": 1.13973546, "learning_rate": 1.789e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232334, "epoch": 3.61003125, "global_step/max_steps": "47360/65595", "percentage": "72.20%", "elapsed_time": "2d 8h 37m 22s", "remaining_time": "21h 48m 5s"}
+{"loss": 0.03175147, "token_acc": 0.98175599, "grad_norm": 0.41071707, "learning_rate": 1.788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232341, "epoch": 3.61041238, "global_step/max_steps": "47365/65595", "percentage": "72.21%", "elapsed_time": "2d 8h 37m 37s", "remaining_time": "21h 47m 41s"}
+{"loss": 0.07059129, "token_acc": 0.97370922, "grad_norm": 1.99836063, "learning_rate": 1.787e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232348, "epoch": 3.61079351, "global_step/max_steps": "47370/65595", "percentage": "72.22%", "elapsed_time": "2d 8h 37m 53s", "remaining_time": "21h 47m 17s"}
+{"loss": 0.03917265, "token_acc": 0.98531922, "grad_norm": 1.2292012, "learning_rate": 1.786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232355, "epoch": 3.61117463, "global_step/max_steps": "47375/65595", "percentage": "72.22%", "elapsed_time": "2d 8h 38m 8s", "remaining_time": "21h 46m 53s"}
+{"loss": 0.06175339, "token_acc": 0.97798434, "grad_norm": 1.74883819, "learning_rate": 1.785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23236, "epoch": 3.61155576, "global_step/max_steps": "47380/65595", "percentage": "72.23%", "elapsed_time": "2d 8h 38m 25s", "remaining_time": "21h 46m 30s"}
+{"loss": 0.04176512, "token_acc": 0.98186826, "grad_norm": 0.77110457, "learning_rate": 1.784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232365, "epoch": 3.61193689, "global_step/max_steps": "47385/65595", "percentage": "72.24%", "elapsed_time": "2d 8h 38m 42s", "remaining_time": "21h 46m 7s"}
+{"loss": 0.0604662, "token_acc": 0.97654915, "grad_norm": 0.70817572, "learning_rate": 1.783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23237, "epoch": 3.61231801, "global_step/max_steps": "47390/65595", "percentage": "72.25%", "elapsed_time": "2d 8h 39m 0s", "remaining_time": "21h 45m 44s"}
+{"loss": 0.0618091, "token_acc": 0.97042865, "grad_norm": 1.01256764, "learning_rate": 1.782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232376, "epoch": 3.61269914, "global_step/max_steps": "47395/65595", "percentage": "72.25%", "elapsed_time": "2d 8h 39m 16s", "remaining_time": "21h 45m 20s"}
+{"loss": 0.05391446, "token_acc": 0.98034119, "grad_norm": 0.85005289, "learning_rate": 1.781e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23238, "epoch": 3.61308027, "global_step/max_steps": "47400/65595", "percentage": "72.26%", "elapsed_time": "2d 8h 39m 34s", "remaining_time": "21h 44m 57s"}
+{"eval_loss": 0.05899503, "eval_token_acc": 0.97604813, "eval_runtime": 223.6561, "eval_samples_per_second": 2.37, "eval_steps_per_second": 2.37, "epoch": 3.61308027, "global_step/max_steps": "47400/65595", "percentage": "72.26%", "elapsed_time": "2d 8h 43m 17s", "remaining_time": "21h 46m 23s"}
+{"loss": 0.03917488, "token_acc": 0.97623167, "grad_norm": 0.74026096, "learning_rate": 1.78e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23213, "epoch": 3.61346139, "global_step/max_steps": "47405/65595", "percentage": "72.27%", "elapsed_time": "2d 8h 43m 35s", "remaining_time": "21h 46m 0s"}
+{"loss": 0.0770154, "token_acc": 0.97078302, "grad_norm": 1.13498616, "learning_rate": 1.779e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232137, "epoch": 3.61384252, "global_step/max_steps": "47410/65595", "percentage": "72.28%", "elapsed_time": "2d 8h 43m 50s", "remaining_time": "21h 45m 36s"}
+{"loss": 0.04598027, "token_acc": 0.97910392, "grad_norm": 0.90165114, "learning_rate": 1.779e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232142, "epoch": 3.61422365, "global_step/max_steps": "47415/65595", "percentage": "72.28%", "elapsed_time": "2d 8h 44m 8s", "remaining_time": "21h 45m 13s"}
+{"loss": 0.04720665, "token_acc": 0.98213446, "grad_norm": 1.12870216, "learning_rate": 1.778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232147, "epoch": 3.61460477, "global_step/max_steps": "47420/65595", "percentage": "72.29%", "elapsed_time": "2d 8h 44m 24s", "remaining_time": "21h 44m 50s"}
+{"loss": 0.03528856, "token_acc": 0.98193473, "grad_norm": 0.49102256, "learning_rate": 1.777e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232156, "epoch": 3.6149859, "global_step/max_steps": "47425/65595", "percentage": "72.30%", "elapsed_time": "2d 8h 44m 38s", "remaining_time": "21h 44m 25s"}
+{"loss": 0.02563252, "token_acc": 0.98689772, "grad_norm": 0.8407129, "learning_rate": 1.776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232161, "epoch": 3.61536702, "global_step/max_steps": "47430/65595", "percentage": "72.31%", "elapsed_time": "2d 8h 44m 55s", "remaining_time": "21h 44m 2s"}
+{"loss": 0.05231642, "token_acc": 0.96842526, "grad_norm": 1.34569681, "learning_rate": 1.775e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232169, "epoch": 3.61574815, "global_step/max_steps": "47435/65595", "percentage": "72.31%", "elapsed_time": "2d 8h 45m 10s", "remaining_time": "21h 43m 38s"}
+{"loss": 0.04412496, "token_acc": 0.97847707, "grad_norm": 0.76148826, "learning_rate": 1.774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232173, "epoch": 3.61612928, "global_step/max_steps": "47440/65595", "percentage": "72.32%", "elapsed_time": "2d 8h 45m 27s", "remaining_time": "21h 43m 14s"}
+{"loss": 0.04821193, "token_acc": 0.97812559, "grad_norm": 1.2382704, "learning_rate": 1.773e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232179, "epoch": 3.6165104, "global_step/max_steps": "47445/65595", "percentage": "72.33%", "elapsed_time": "2d 8h 45m 44s", "remaining_time": "21h 42m 51s"}
+{"loss": 0.06219106, "token_acc": 0.9796722, "grad_norm": 1.08756351, "learning_rate": 1.772e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232181, "epoch": 3.61689153, "global_step/max_steps": "47450/65595", "percentage": "72.34%", "elapsed_time": "2d 8h 46m 4s", "remaining_time": "21h 42m 29s"}
+{"loss": 0.06152011, "token_acc": 0.9779661, "grad_norm": 1.37385345, "learning_rate": 1.771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232186, "epoch": 3.61727266, "global_step/max_steps": "47455/65595", "percentage": "72.35%", "elapsed_time": "2d 8h 46m 20s", "remaining_time": "21h 42m 6s"}
+{"loss": 0.02621033, "token_acc": 0.98776509, "grad_norm": 0.54869968, "learning_rate": 1.77e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232194, "epoch": 3.61765378, "global_step/max_steps": "47460/65595", "percentage": "72.35%", "elapsed_time": "2d 8h 46m 35s", "remaining_time": "21h 41m 41s"}
+{"loss": 0.050665, "token_acc": 0.97969385, "grad_norm": 1.27158141, "learning_rate": 1.769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232197, "epoch": 3.61803491, "global_step/max_steps": "47465/65595", "percentage": "72.36%", "elapsed_time": "2d 8h 46m 54s", "remaining_time": "21h 41m 19s"}
+{"loss": 0.06140435, "token_acc": 0.97390794, "grad_norm": 1.47590244, "learning_rate": 1.769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232203, "epoch": 3.61841604, "global_step/max_steps": "47470/65595", "percentage": "72.37%", "elapsed_time": "2d 8h 47m 11s", "remaining_time": "21h 40m 55s"}
+{"loss": 0.09284165, "token_acc": 0.96983652, "grad_norm": 0.78673786, "learning_rate": 1.768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232208, "epoch": 3.61879716, "global_step/max_steps": "47475/65595", "percentage": "72.38%", "elapsed_time": "2d 8h 47m 28s", "remaining_time": "21h 40m 32s"}
+{"loss": 0.0521127, "token_acc": 0.98454177, "grad_norm": 1.16040719, "learning_rate": 1.767e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232216, "epoch": 3.61917829, "global_step/max_steps": "47480/65595", "percentage": "72.38%", "elapsed_time": "2d 8h 47m 42s", "remaining_time": "21h 40m 8s"}
+{"loss": 0.07560852, "token_acc": 0.98020113, "grad_norm": 2.3875711, "learning_rate": 1.766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232221, "epoch": 3.61955942, "global_step/max_steps": "47485/65595", "percentage": "72.39%", "elapsed_time": "2d 8h 47m 59s", "remaining_time": "21h 39m 45s"}
+{"loss": 0.07603477, "token_acc": 0.97520243, "grad_norm": 1.61180937, "learning_rate": 1.765e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232229, "epoch": 3.61994054, "global_step/max_steps": "47490/65595", "percentage": "72.40%", "elapsed_time": "2d 8h 48m 13s", "remaining_time": "21h 39m 20s"}
+{"loss": 0.05445381, "token_acc": 0.97592339, "grad_norm": 1.01521099, "learning_rate": 1.764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232232, "epoch": 3.62032167, "global_step/max_steps": "47495/65595", "percentage": "72.41%", "elapsed_time": "2d 8h 48m 33s", "remaining_time": "21h 38m 58s"}
+{"loss": 0.08842954, "token_acc": 0.9752495, "grad_norm": 0.59052461, "learning_rate": 1.763e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232236, "epoch": 3.6207028, "global_step/max_steps": "47500/65595", "percentage": "72.41%", "elapsed_time": "2d 8h 48m 51s", "remaining_time": "21h 38m 35s"}
+{"loss": 0.04776849, "token_acc": 0.9804222, "grad_norm": 0.69294691, "learning_rate": 1.762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232239, "epoch": 3.62108392, "global_step/max_steps": "47505/65595", "percentage": "72.42%", "elapsed_time": "2d 8h 49m 10s", "remaining_time": "21h 38m 13s"}
+{"loss": 0.07661872, "token_acc": 0.97133063, "grad_norm": 1.53836465, "learning_rate": 1.761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232246, "epoch": 3.62146505, "global_step/max_steps": "47510/65595", "percentage": "72.43%", "elapsed_time": "2d 8h 49m 25s", "remaining_time": "21h 37m 49s"}
+{"loss": 0.06505972, "token_acc": 0.96980337, "grad_norm": 2.26047873, "learning_rate": 1.76e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232253, "epoch": 3.62184618, "global_step/max_steps": "47515/65595", "percentage": "72.44%", "elapsed_time": "2d 8h 49m 40s", "remaining_time": "21h 37m 25s"}
+{"loss": 0.05147524, "token_acc": 0.97683109, "grad_norm": 1.62423027, "learning_rate": 1.759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232259, "epoch": 3.6222273, "global_step/max_steps": "47520/65595", "percentage": "72.44%", "elapsed_time": "2d 8h 49m 56s", "remaining_time": "21h 37m 1s"}
+{"loss": 0.04905773, "token_acc": 0.98585376, "grad_norm": 1.00994337, "learning_rate": 1.758e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232263, "epoch": 3.62260843, "global_step/max_steps": "47525/65595", "percentage": "72.45%", "elapsed_time": "2d 8h 50m 14s", "remaining_time": "21h 36m 38s"}
+{"loss": 0.0419771, "token_acc": 0.98513546, "grad_norm": 0.90471667, "learning_rate": 1.758e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23227, "epoch": 3.62298956, "global_step/max_steps": "47530/65595", "percentage": "72.46%", "elapsed_time": "2d 8h 50m 30s", "remaining_time": "21h 36m 15s"}
+{"loss": 0.04675836, "token_acc": 0.98415528, "grad_norm": 1.23690724, "learning_rate": 1.757e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232274, "epoch": 3.62337068, "global_step/max_steps": "47535/65595", "percentage": "72.47%", "elapsed_time": "2d 8h 50m 48s", "remaining_time": "21h 35m 52s"}
+{"loss": 0.0342328, "token_acc": 0.97999272, "grad_norm": 0.10166901, "learning_rate": 1.756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232282, "epoch": 3.62375181, "global_step/max_steps": "47540/65595", "percentage": "72.48%", "elapsed_time": "2d 8h 51m 2s", "remaining_time": "21h 35m 27s"}
+{"loss": 0.05597761, "token_acc": 0.97678532, "grad_norm": 1.49705362, "learning_rate": 1.755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232288, "epoch": 3.62413294, "global_step/max_steps": "47545/65595", "percentage": "72.48%", "elapsed_time": "2d 8h 51m 19s", "remaining_time": "21h 35m 4s"}
+{"loss": 0.04496264, "token_acc": 0.98280039, "grad_norm": 0.9703657, "learning_rate": 1.754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232293, "epoch": 3.62451406, "global_step/max_steps": "47550/65595", "percentage": "72.49%", "elapsed_time": "2d 8h 51m 35s", "remaining_time": "21h 34m 41s"}
+{"loss": 0.05316944, "token_acc": 0.98237179, "grad_norm": 1.36557722, "learning_rate": 1.753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2323, "epoch": 3.62489519, "global_step/max_steps": "47555/65595", "percentage": "72.50%", "elapsed_time": "2d 8h 51m 51s", "remaining_time": "21h 34m 17s"}
+{"loss": 0.04015655, "token_acc": 0.97995099, "grad_norm": 1.0035249, "learning_rate": 1.752e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232306, "epoch": 3.62527632, "global_step/max_steps": "47560/65595", "percentage": "72.51%", "elapsed_time": "2d 8h 52m 7s", "remaining_time": "21h 33m 53s"}
+{"loss": 0.06435791, "token_acc": 0.97837939, "grad_norm": 1.93275118, "learning_rate": 1.751e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232311, "epoch": 3.62565744, "global_step/max_steps": "47565/65595", "percentage": "72.51%", "elapsed_time": "2d 8h 52m 24s", "remaining_time": "21h 33m 30s"}
+{"loss": 0.06235827, "token_acc": 0.97882624, "grad_norm": 0.64188945, "learning_rate": 1.75e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232318, "epoch": 3.62603857, "global_step/max_steps": "47570/65595", "percentage": "72.52%", "elapsed_time": "2d 8h 52m 40s", "remaining_time": "21h 33m 6s"}
+{"loss": 0.07291669, "token_acc": 0.97040606, "grad_norm": 2.16108036, "learning_rate": 1.749e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232327, "epoch": 3.6264197, "global_step/max_steps": "47575/65595", "percentage": "72.53%", "elapsed_time": "2d 8h 52m 54s", "remaining_time": "21h 32m 42s"}
+{"loss": 0.07093043, "token_acc": 0.97510373, "grad_norm": 1.01464403, "learning_rate": 1.748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232333, "epoch": 3.62680082, "global_step/max_steps": "47580/65595", "percentage": "72.54%", "elapsed_time": "2d 8h 53m 10s", "remaining_time": "21h 32m 18s"}
+{"loss": 0.05369056, "token_acc": 0.98051157, "grad_norm": 1.30130005, "learning_rate": 1.748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23234, "epoch": 3.62718195, "global_step/max_steps": "47585/65595", "percentage": "72.54%", "elapsed_time": "2d 8h 53m 25s", "remaining_time": "21h 31m 54s"}
+{"loss": 0.09519207, "token_acc": 0.96849866, "grad_norm": 1.11046767, "learning_rate": 1.747e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232347, "epoch": 3.62756308, "global_step/max_steps": "47590/65595", "percentage": "72.55%", "elapsed_time": "2d 8h 53m 40s", "remaining_time": "21h 31m 30s"}
+{"loss": 0.06986139, "token_acc": 0.98106061, "grad_norm": 1.82041645, "learning_rate": 1.746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232355, "epoch": 3.6279442, "global_step/max_steps": "47595/65595", "percentage": "72.56%", "elapsed_time": "2d 8h 53m 55s", "remaining_time": "21h 31m 6s"}
+{"loss": 0.05152398, "token_acc": 0.98007968, "grad_norm": 1.93930554, "learning_rate": 1.745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23236, "epoch": 3.62832533, "global_step/max_steps": "47600/65595", "percentage": "72.57%", "elapsed_time": "2d 8h 54m 11s", "remaining_time": "21h 30m 43s"}
+{"eval_loss": 0.05922513, "eval_token_acc": 0.97590507, "eval_runtime": 220.0247, "eval_samples_per_second": 2.409, "eval_steps_per_second": 2.409, "epoch": 3.62832533, "global_step/max_steps": "47600/65595", "percentage": "72.57%", "elapsed_time": "2d 8h 57m 51s", "remaining_time": "21h 32m 6s"}
+{"loss": 0.0562464, "token_acc": 0.97604549, "grad_norm": 0.94657606, "learning_rate": 1.744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232119, "epoch": 3.62870646, "global_step/max_steps": "47605/65595", "percentage": "72.57%", "elapsed_time": "2d 8h 58m 6s", "remaining_time": "21h 31m 42s"}
+{"loss": 0.05463118, "token_acc": 0.97552941, "grad_norm": 0.92881095, "learning_rate": 1.743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232124, "epoch": 3.62908758, "global_step/max_steps": "47610/65595", "percentage": "72.58%", "elapsed_time": "2d 8h 58m 23s", "remaining_time": "21h 31m 19s"}
+{"loss": 0.06660851, "token_acc": 0.97225008, "grad_norm": 0.98206478, "learning_rate": 1.742e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232132, "epoch": 3.62946871, "global_step/max_steps": "47615/65595", "percentage": "72.59%", "elapsed_time": "2d 8h 58m 38s", "remaining_time": "21h 30m 55s"}
+{"loss": 0.07623971, "token_acc": 0.97340426, "grad_norm": 1.05741346, "learning_rate": 1.741e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23214, "epoch": 3.62984984, "global_step/max_steps": "47620/65595", "percentage": "72.60%", "elapsed_time": "2d 8h 58m 52s", "remaining_time": "21h 30m 30s"}
+{"loss": 0.09845021, "token_acc": 0.9650983, "grad_norm": 2.00818634, "learning_rate": 1.74e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232146, "epoch": 3.63023096, "global_step/max_steps": "47625/65595", "percentage": "72.60%", "elapsed_time": "2d 8h 59m 8s", "remaining_time": "21h 30m 7s"}
+{"loss": 0.04096836, "token_acc": 0.9839339, "grad_norm": 0.71589243, "learning_rate": 1.739e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232145, "epoch": 3.63061209, "global_step/max_steps": "47630/65595", "percentage": "72.61%", "elapsed_time": "2d 8h 59m 30s", "remaining_time": "21h 29m 46s"}
+{"loss": 0.07067152, "token_acc": 0.97089247, "grad_norm": 1.97036231, "learning_rate": 1.738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232151, "epoch": 3.63099322, "global_step/max_steps": "47635/65595", "percentage": "72.62%", "elapsed_time": "2d 8h 59m 47s", "remaining_time": "21h 29m 22s"}
+{"loss": 0.06568145, "token_acc": 0.97443024, "grad_norm": 1.91762483, "learning_rate": 1.738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232155, "epoch": 3.63137434, "global_step/max_steps": "47640/65595", "percentage": "72.63%", "elapsed_time": "2d 9h 0m 5s", "remaining_time": "21h 28m 59s"}
+{"loss": 0.05694334, "token_acc": 0.97837411, "grad_norm": 1.38616407, "learning_rate": 1.737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23216, "epoch": 3.63175547, "global_step/max_steps": "47645/65595", "percentage": "72.64%", "elapsed_time": "2d 9h 0m 23s", "remaining_time": "21h 28m 36s"}
+{"loss": 0.05863676, "token_acc": 0.97527164, "grad_norm": 1.68871772, "learning_rate": 1.736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232167, "epoch": 3.6321366, "global_step/max_steps": "47650/65595", "percentage": "72.64%", "elapsed_time": "2d 9h 0m 38s", "remaining_time": "21h 28m 12s"}
+{"loss": 0.04950556, "token_acc": 0.97962747, "grad_norm": 0.30417925, "learning_rate": 1.735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232171, "epoch": 3.63251772, "global_step/max_steps": "47655/65595", "percentage": "72.65%", "elapsed_time": "2d 9h 0m 56s", "remaining_time": "21h 27m 49s"}
+{"loss": 0.05393966, "token_acc": 0.98156244, "grad_norm": 1.67316937, "learning_rate": 1.734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232176, "epoch": 3.63289885, "global_step/max_steps": "47660/65595", "percentage": "72.66%", "elapsed_time": "2d 9h 1m 13s", "remaining_time": "21h 27m 26s"}
+{"loss": 0.03941224, "token_acc": 0.98484848, "grad_norm": 1.26580787, "learning_rate": 1.733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232184, "epoch": 3.63327998, "global_step/max_steps": "47665/65595", "percentage": "72.67%", "elapsed_time": "2d 9h 1m 27s", "remaining_time": "21h 27m 2s"}
+{"loss": 0.05610346, "token_acc": 0.97589222, "grad_norm": 1.24174535, "learning_rate": 1.732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232189, "epoch": 3.6336611, "global_step/max_steps": "47670/65595", "percentage": "72.67%", "elapsed_time": "2d 9h 1m 44s", "remaining_time": "21h 26m 39s"}
+{"loss": 0.04406517, "token_acc": 0.98318763, "grad_norm": 1.82817173, "learning_rate": 1.731e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232197, "epoch": 3.63404223, "global_step/max_steps": "47675/65595", "percentage": "72.68%", "elapsed_time": "2d 9h 1m 59s", "remaining_time": "21h 26m 15s"}
+{"loss": 0.06568195, "token_acc": 0.97182583, "grad_norm": 0.66554129, "learning_rate": 1.73e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232204, "epoch": 3.63442336, "global_step/max_steps": "47680/65595", "percentage": "72.69%", "elapsed_time": "2d 9h 2m 14s", "remaining_time": "21h 25m 51s"}
+{"loss": 0.06071552, "token_acc": 0.98238573, "grad_norm": 0.93830299, "learning_rate": 1.729e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232209, "epoch": 3.63480448, "global_step/max_steps": "47685/65595", "percentage": "72.70%", "elapsed_time": "2d 9h 2m 31s", "remaining_time": "21h 25m 27s"}
+{"loss": 0.05759897, "token_acc": 0.98104598, "grad_norm": 0.64668471, "learning_rate": 1.728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232214, "epoch": 3.63518561, "global_step/max_steps": "47690/65595", "percentage": "72.70%", "elapsed_time": "2d 9h 2m 49s", "remaining_time": "21h 25m 4s"}
+{"loss": 0.06998351, "token_acc": 0.98108643, "grad_norm": 0.92050856, "learning_rate": 1.728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232218, "epoch": 3.63556674, "global_step/max_steps": "47695/65595", "percentage": "72.71%", "elapsed_time": "2d 9h 3m 6s", "remaining_time": "21h 24m 41s"}
+{"loss": 0.06631749, "token_acc": 0.98009138, "grad_norm": 0.78564459, "learning_rate": 1.727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232226, "epoch": 3.63594786, "global_step/max_steps": "47700/65595", "percentage": "72.72%", "elapsed_time": "2d 9h 3m 20s", "remaining_time": "21h 24m 17s"}
+{"loss": 0.05863467, "token_acc": 0.98008475, "grad_norm": 0.88804519, "learning_rate": 1.726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232231, "epoch": 3.63632899, "global_step/max_steps": "47705/65595", "percentage": "72.73%", "elapsed_time": "2d 9h 3m 38s", "remaining_time": "21h 23m 54s"}
+{"loss": 0.05405861, "token_acc": 0.98408488, "grad_norm": 0.88420606, "learning_rate": 1.725e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232234, "epoch": 3.63671012, "global_step/max_steps": "47710/65595", "percentage": "72.73%", "elapsed_time": "2d 9h 3m 56s", "remaining_time": "21h 23m 31s"}
+{"loss": 0.03741498, "token_acc": 0.98334332, "grad_norm": 0.75368863, "learning_rate": 1.724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232237, "epoch": 3.63709124, "global_step/max_steps": "47715/65595", "percentage": "72.74%", "elapsed_time": "2d 9h 4m 15s", "remaining_time": "21h 23m 9s"}
+{"loss": 0.04726869, "token_acc": 0.98362334, "grad_norm": 1.65691698, "learning_rate": 1.723e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232245, "epoch": 3.63747237, "global_step/max_steps": "47720/65595", "percentage": "72.75%", "elapsed_time": "2d 9h 4m 30s", "remaining_time": "21h 22m 45s"}
+{"loss": 0.05992996, "token_acc": 0.9790795, "grad_norm": 2.77325702, "learning_rate": 1.722e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23225, "epoch": 3.63785349, "global_step/max_steps": "47725/65595", "percentage": "72.76%", "elapsed_time": "2d 9h 4m 47s", "remaining_time": "21h 22m 21s"}
+{"loss": 0.06100463, "token_acc": 0.97760483, "grad_norm": 1.50175083, "learning_rate": 1.721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232254, "epoch": 3.63823462, "global_step/max_steps": "47730/65595", "percentage": "72.76%", "elapsed_time": "2d 9h 5m 5s", "remaining_time": "21h 21m 59s"}
+{"loss": 0.04228925, "token_acc": 0.98265328, "grad_norm": 1.03907275, "learning_rate": 1.72e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232254, "epoch": 3.63861575, "global_step/max_steps": "47735/65595", "percentage": "72.77%", "elapsed_time": "2d 9h 5m 26s", "remaining_time": "21h 21m 37s"}
+{"loss": 0.06521302, "token_acc": 0.97717697, "grad_norm": 1.30942166, "learning_rate": 1.719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23226, "epoch": 3.63899687, "global_step/max_steps": "47740/65595", "percentage": "72.78%", "elapsed_time": "2d 9h 5m 43s", "remaining_time": "21h 21m 14s"}
+{"loss": 0.03874518, "token_acc": 0.98212005, "grad_norm": 1.76839507, "learning_rate": 1.719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232268, "epoch": 3.639378, "global_step/max_steps": "47745/65595", "percentage": "72.79%", "elapsed_time": "2d 9h 5m 57s", "remaining_time": "21h 20m 49s"}
+{"loss": 0.06403993, "token_acc": 0.9739617, "grad_norm": 1.42747498, "learning_rate": 1.718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232274, "epoch": 3.63975913, "global_step/max_steps": "47750/65595", "percentage": "72.80%", "elapsed_time": "2d 9h 6m 13s", "remaining_time": "21h 20m 26s"}
+{"loss": 0.05742989, "token_acc": 0.97975004, "grad_norm": 1.50953257, "learning_rate": 1.717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232279, "epoch": 3.64014025, "global_step/max_steps": "47755/65595", "percentage": "72.80%", "elapsed_time": "2d 9h 6m 31s", "remaining_time": "21h 20m 3s"}
+{"loss": 0.03741844, "token_acc": 0.98823962, "grad_norm": 0.88052148, "learning_rate": 1.716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232286, "epoch": 3.64052138, "global_step/max_steps": "47760/65595", "percentage": "72.81%", "elapsed_time": "2d 9h 6m 46s", "remaining_time": "21h 19m 39s"}
+{"loss": 0.03302795, "token_acc": 0.98123723, "grad_norm": 0.77698016, "learning_rate": 1.715e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232291, "epoch": 3.64090251, "global_step/max_steps": "47765/65595", "percentage": "72.82%", "elapsed_time": "2d 9h 7m 3s", "remaining_time": "21h 19m 16s"}
+{"loss": 0.03188093, "token_acc": 0.9864538, "grad_norm": 0.59376824, "learning_rate": 1.714e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232293, "epoch": 3.64128363, "global_step/max_steps": "47770/65595", "percentage": "72.83%", "elapsed_time": "2d 9h 7m 23s", "remaining_time": "21h 18m 54s"}
+{"loss": 0.05185995, "token_acc": 0.97170133, "grad_norm": 0.95114452, "learning_rate": 1.713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2323, "epoch": 3.64166476, "global_step/max_steps": "47775/65595", "percentage": "72.83%", "elapsed_time": "2d 9h 7m 38s", "remaining_time": "21h 18m 30s"}
+{"loss": 0.04885267, "token_acc": 0.98264932, "grad_norm": 2.34423399, "learning_rate": 1.712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232307, "epoch": 3.64204589, "global_step/max_steps": "47780/65595", "percentage": "72.84%", "elapsed_time": "2d 9h 7m 54s", "remaining_time": "21h 18m 6s"}
+{"loss": 0.0762515, "token_acc": 0.96711754, "grad_norm": 1.41263366, "learning_rate": 1.711e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232313, "epoch": 3.64242701, "global_step/max_steps": "47785/65595", "percentage": "72.85%", "elapsed_time": "2d 9h 8m 9s", "remaining_time": "21h 17m 42s"}
+{"loss": 0.03523806, "token_acc": 0.97695306, "grad_norm": 0.5987165, "learning_rate": 1.71e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232317, "epoch": 3.64280814, "global_step/max_steps": "47790/65595", "percentage": "72.86%", "elapsed_time": "2d 9h 8m 27s", "remaining_time": "21h 17m 20s"}
+{"loss": 0.06028393, "token_acc": 0.97996272, "grad_norm": 0.74624783, "learning_rate": 1.71e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232321, "epoch": 3.64318927, "global_step/max_steps": "47795/65595", "percentage": "72.86%", "elapsed_time": "2d 9h 8m 45s", "remaining_time": "21h 16m 57s"}
+{"loss": 0.07239019, "token_acc": 0.96991404, "grad_norm": 0.77288985, "learning_rate": 1.709e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232327, "epoch": 3.64357039, "global_step/max_steps": "47800/65595", "percentage": "72.87%", "elapsed_time": "2d 9h 9m 1s", "remaining_time": "21h 16m 33s"}
+{"eval_loss": 0.05931966, "eval_token_acc": 0.97582977, "eval_runtime": 218.1075, "eval_samples_per_second": 2.43, "eval_steps_per_second": 2.43, "epoch": 3.64357039, "global_step/max_steps": "47800/65595", "percentage": "72.87%", "elapsed_time": "2d 9h 12m 40s", "remaining_time": "21h 17m 54s"}
+{"loss": 0.05890888, "token_acc": 0.97580773, "grad_norm": 1.13765144, "learning_rate": 1.708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232085, "epoch": 3.64395152, "global_step/max_steps": "47805/65595", "percentage": "72.88%", "elapsed_time": "2d 9h 12m 58s", "remaining_time": "21h 17m 32s"}
+{"loss": 0.05574791, "token_acc": 0.97938788, "grad_norm": 1.5291909, "learning_rate": 1.707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232087, "epoch": 3.64433265, "global_step/max_steps": "47810/65595", "percentage": "72.89%", "elapsed_time": "2d 9h 13m 17s", "remaining_time": "21h 17m 9s"}
+{"loss": 0.04272625, "token_acc": 0.98383951, "grad_norm": 1.20327318, "learning_rate": 1.706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232094, "epoch": 3.64471377, "global_step/max_steps": "47815/65595", "percentage": "72.89%", "elapsed_time": "2d 9h 13m 33s", "remaining_time": "21h 16m 46s"}
+{"loss": 0.05284435, "token_acc": 0.97248758, "grad_norm": 1.4703356, "learning_rate": 1.705e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2321, "epoch": 3.6450949, "global_step/max_steps": "47820/65595", "percentage": "72.90%", "elapsed_time": "2d 9h 13m 49s", "remaining_time": "21h 16m 22s"}
+{"loss": 0.0505555, "token_acc": 0.97937692, "grad_norm": 2.28237653, "learning_rate": 1.704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232105, "epoch": 3.64547603, "global_step/max_steps": "47825/65595", "percentage": "72.91%", "elapsed_time": "2d 9h 14m 6s", "remaining_time": "21h 15m 59s"}
+{"loss": 0.0486429, "token_acc": 0.98096284, "grad_norm": 1.71978176, "learning_rate": 1.703e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23211, "epoch": 3.64585715, "global_step/max_steps": "47830/65595", "percentage": "72.92%", "elapsed_time": "2d 9h 14m 24s", "remaining_time": "21h 15m 36s"}
+{"loss": 0.03226599, "token_acc": 0.97943925, "grad_norm": 0.90514201, "learning_rate": 1.702e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232117, "epoch": 3.64623828, "global_step/max_steps": "47835/65595", "percentage": "72.92%", "elapsed_time": "2d 9h 14m 38s", "remaining_time": "21h 15m 12s"}
+{"loss": 0.05465726, "token_acc": 0.97964934, "grad_norm": 1.81472623, "learning_rate": 1.701e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232124, "epoch": 3.64661941, "global_step/max_steps": "47840/65595", "percentage": "72.93%", "elapsed_time": "2d 9h 14m 54s", "remaining_time": "21h 14m 48s"}
+{"loss": 0.06274861, "token_acc": 0.98027496, "grad_norm": 2.5484035, "learning_rate": 1.701e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232133, "epoch": 3.64700053, "global_step/max_steps": "47845/65595", "percentage": "72.94%", "elapsed_time": "2d 9h 15m 8s", "remaining_time": "21h 14m 24s"}
+{"loss": 0.05621117, "token_acc": 0.97297297, "grad_norm": 1.83010066, "learning_rate": 1.7e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23214, "epoch": 3.64738166, "global_step/max_steps": "47850/65595", "percentage": "72.95%", "elapsed_time": "2d 9h 15m 23s", "remaining_time": "21h 14m 0s"}
+{"loss": 0.06042123, "token_acc": 0.98436523, "grad_norm": 0.33382994, "learning_rate": 1.699e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232143, "epoch": 3.64776279, "global_step/max_steps": "47855/65595", "percentage": "72.96%", "elapsed_time": "2d 9h 15m 42s", "remaining_time": "21h 13m 37s"}
+{"loss": 0.03632609, "token_acc": 0.98041667, "grad_norm": 1.33807397, "learning_rate": 1.698e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232151, "epoch": 3.64814391, "global_step/max_steps": "47860/65595", "percentage": "72.96%", "elapsed_time": "2d 9h 15m 56s", "remaining_time": "21h 13m 13s"}
+{"loss": 0.04478556, "token_acc": 0.9845639, "grad_norm": 0.54927129, "learning_rate": 1.697e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23215, "epoch": 3.64852504, "global_step/max_steps": "47865/65595", "percentage": "72.97%", "elapsed_time": "2d 9h 16m 18s", "remaining_time": "21h 12m 52s"}
+{"loss": 0.03317604, "token_acc": 0.98395256, "grad_norm": 1.07779598, "learning_rate": 1.696e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232155, "epoch": 3.64890617, "global_step/max_steps": "47870/65595", "percentage": "72.98%", "elapsed_time": "2d 9h 16m 36s", "remaining_time": "21h 12m 29s"}
+{"loss": 0.03297066, "token_acc": 0.98568507, "grad_norm": 1.14448094, "learning_rate": 1.695e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23216, "epoch": 3.64928729, "global_step/max_steps": "47875/65595", "percentage": "72.99%", "elapsed_time": "2d 9h 16m 52s", "remaining_time": "21h 12m 5s"}
+{"loss": 0.04201327, "token_acc": 0.97962066, "grad_norm": 1.61170089, "learning_rate": 1.694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232164, "epoch": 3.64966842, "global_step/max_steps": "47880/65595", "percentage": "72.99%", "elapsed_time": "2d 9h 17m 11s", "remaining_time": "21h 11m 42s"}
+{"loss": 0.07109785, "token_acc": 0.96922428, "grad_norm": 2.26725888, "learning_rate": 1.693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232171, "epoch": 3.65004955, "global_step/max_steps": "47885/65595", "percentage": "73.00%", "elapsed_time": "2d 9h 17m 26s", "remaining_time": "21h 11m 19s"}
+{"loss": 0.03970286, "token_acc": 0.97982949, "grad_norm": 1.25125432, "learning_rate": 1.692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232177, "epoch": 3.65043067, "global_step/max_steps": "47890/65595", "percentage": "73.01%", "elapsed_time": "2d 9h 17m 43s", "remaining_time": "21h 10m 55s"}
+{"loss": 0.05653139, "token_acc": 0.9793793, "grad_norm": 1.61660254, "learning_rate": 1.692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232183, "epoch": 3.6508118, "global_step/max_steps": "47895/65595", "percentage": "73.02%", "elapsed_time": "2d 9h 17m 59s", "remaining_time": "21h 10m 32s"}
+{"loss": 0.08742517, "token_acc": 0.970786, "grad_norm": 1.04737055, "learning_rate": 1.691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232189, "epoch": 3.65119293, "global_step/max_steps": "47900/65595", "percentage": "73.02%", "elapsed_time": "2d 9h 18m 15s", "remaining_time": "21h 10m 8s"}
+{"loss": 0.03909661, "token_acc": 0.98258298, "grad_norm": 0.57806653, "learning_rate": 1.69e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232191, "epoch": 3.65157405, "global_step/max_steps": "47905/65595", "percentage": "73.03%", "elapsed_time": "2d 9h 18m 35s", "remaining_time": "21h 9m 46s"}
+{"loss": 0.06369565, "token_acc": 0.97611766, "grad_norm": 1.26635432, "learning_rate": 1.689e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232193, "epoch": 3.65195518, "global_step/max_steps": "47910/65595", "percentage": "73.04%", "elapsed_time": "2d 9h 18m 55s", "remaining_time": "21h 9m 24s"}
+{"loss": 0.0299235, "token_acc": 0.98283183, "grad_norm": 1.21662593, "learning_rate": 1.688e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232195, "epoch": 3.65233631, "global_step/max_steps": "47915/65595", "percentage": "73.05%", "elapsed_time": "2d 9h 19m 14s", "remaining_time": "21h 9m 1s"}
+{"loss": 0.05300288, "token_acc": 0.97950879, "grad_norm": 1.66552925, "learning_rate": 1.687e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2322, "epoch": 3.65271743, "global_step/max_steps": "47920/65595", "percentage": "73.05%", "elapsed_time": "2d 9h 19m 31s", "remaining_time": "21h 8m 38s"}
+{"loss": 0.06861122, "token_acc": 0.97064525, "grad_norm": 1.35796928, "learning_rate": 1.686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232206, "epoch": 3.65309856, "global_step/max_steps": "47925/65595", "percentage": "73.06%", "elapsed_time": "2d 9h 19m 47s", "remaining_time": "21h 8m 15s"}
+{"loss": 0.05292419, "token_acc": 0.9740458, "grad_norm": 0.79634285, "learning_rate": 1.685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232211, "epoch": 3.65347969, "global_step/max_steps": "47930/65595", "percentage": "73.07%", "elapsed_time": "2d 9h 20m 4s", "remaining_time": "21h 7m 52s"}
+{"loss": 0.05075923, "token_acc": 0.97893063, "grad_norm": 1.22055769, "learning_rate": 1.684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232216, "epoch": 3.65386081, "global_step/max_steps": "47935/65595", "percentage": "73.08%", "elapsed_time": "2d 9h 20m 21s", "remaining_time": "21h 7m 28s"}
+{"loss": 0.0997187, "token_acc": 0.96089875, "grad_norm": 2.17842054, "learning_rate": 1.683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232222, "epoch": 3.65424194, "global_step/max_steps": "47940/65595", "percentage": "73.08%", "elapsed_time": "2d 9h 20m 37s", "remaining_time": "21h 7m 5s"}
+{"loss": 0.04499924, "token_acc": 0.97981837, "grad_norm": 2.61471105, "learning_rate": 1.683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232227, "epoch": 3.65462307, "global_step/max_steps": "47945/65595", "percentage": "73.09%", "elapsed_time": "2d 9h 20m 54s", "remaining_time": "21h 6m 42s"}
+{"loss": 0.05405692, "token_acc": 0.98504898, "grad_norm": 2.79131436, "learning_rate": 1.682e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232233, "epoch": 3.65500419, "global_step/max_steps": "47950/65595", "percentage": "73.10%", "elapsed_time": "2d 9h 21m 11s", "remaining_time": "21h 6m 18s"}
+{"loss": 0.04583191, "token_acc": 0.98208042, "grad_norm": 1.45929575, "learning_rate": 1.681e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232238, "epoch": 3.65538532, "global_step/max_steps": "47955/65595", "percentage": "73.11%", "elapsed_time": "2d 9h 21m 28s", "remaining_time": "21h 5m 55s"}
+{"loss": 0.06353203, "token_acc": 0.96978203, "grad_norm": 1.7272625, "learning_rate": 1.68e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232242, "epoch": 3.65576645, "global_step/max_steps": "47960/65595", "percentage": "73.12%", "elapsed_time": "2d 9h 21m 46s", "remaining_time": "21h 5m 32s"}
+{"loss": 0.06252757, "token_acc": 0.98258959, "grad_norm": 1.89766705, "learning_rate": 1.679e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232244, "epoch": 3.65614757, "global_step/max_steps": "47965/65595", "percentage": "73.12%", "elapsed_time": "2d 9h 22m 5s", "remaining_time": "21h 5m 10s"}
+{"loss": 0.03540969, "token_acc": 0.98356849, "grad_norm": 0.96262968, "learning_rate": 1.678e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23225, "epoch": 3.6565287, "global_step/max_steps": "47970/65595", "percentage": "73.13%", "elapsed_time": "2d 9h 22m 22s", "remaining_time": "21h 4m 47s"}
+{"loss": 0.05199011, "token_acc": 0.978915, "grad_norm": 0.08254506, "learning_rate": 1.677e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232254, "epoch": 3.65690983, "global_step/max_steps": "47975/65595", "percentage": "73.14%", "elapsed_time": "2d 9h 22m 40s", "remaining_time": "21h 4m 24s"}
+{"loss": 0.03660974, "token_acc": 0.98439084, "grad_norm": 1.29298472, "learning_rate": 1.676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232258, "epoch": 3.65729095, "global_step/max_steps": "47980/65595", "percentage": "73.15%", "elapsed_time": "2d 9h 22m 58s", "remaining_time": "21h 4m 1s"}
+{"loss": 0.07228718, "token_acc": 0.9651682, "grad_norm": 1.51244497, "learning_rate": 1.675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232264, "epoch": 3.65767208, "global_step/max_steps": "47985/65595", "percentage": "73.15%", "elapsed_time": "2d 9h 23m 14s", "remaining_time": "21h 3m 37s"}
+{"loss": 0.06063157, "token_acc": 0.979785, "grad_norm": 1.2339642, "learning_rate": 1.675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232266, "epoch": 3.65805321, "global_step/max_steps": "47990/65595", "percentage": "73.16%", "elapsed_time": "2d 9h 23m 34s", "remaining_time": "21h 3m 15s"}
+{"loss": 0.0708454, "token_acc": 0.96446199, "grad_norm": 1.51956332, "learning_rate": 1.674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232274, "epoch": 3.65843433, "global_step/max_steps": "47995/65595", "percentage": "73.17%", "elapsed_time": "2d 9h 23m 48s", "remaining_time": "21h 2m 51s"}
+{"loss": 0.05199833, "token_acc": 0.98020623, "grad_norm": 0.79024476, "learning_rate": 1.673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232277, "epoch": 3.65881546, "global_step/max_steps": "48000/65595", "percentage": "73.18%", "elapsed_time": "2d 9h 24m 7s", "remaining_time": "21h 2m 29s"}
+{"eval_loss": 0.0587868, "eval_token_acc": 0.97641708, "eval_runtime": 220.4197, "eval_samples_per_second": 2.405, "eval_steps_per_second": 2.405, "epoch": 3.65881546, "global_step/max_steps": "48000/65595", "percentage": "73.18%", "elapsed_time": "2d 9h 27m 47s", "remaining_time": "21h 3m 49s"}
+{"loss": 0.03565287, "token_acc": 0.97662076, "grad_norm": 1.11770296, "learning_rate": 1.672e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232035, "epoch": 3.65919659, "global_step/max_steps": "48005/65595", "percentage": "73.18%", "elapsed_time": "2d 9h 28m 4s", "remaining_time": "21h 3m 26s"}
+{"loss": 0.0604848, "token_acc": 0.97239793, "grad_norm": 1.16817713, "learning_rate": 1.671e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232044, "epoch": 3.65957771, "global_step/max_steps": "48010/65595", "percentage": "73.19%", "elapsed_time": "2d 9h 28m 18s", "remaining_time": "21h 3m 2s"}
+{"loss": 0.03270561, "token_acc": 0.98163606, "grad_norm": 2.02825594, "learning_rate": 1.67e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23205, "epoch": 3.65995884, "global_step/max_steps": "48015/65595", "percentage": "73.20%", "elapsed_time": "2d 9h 28m 34s", "remaining_time": "21h 2m 38s"}
+{"loss": 0.04945162, "token_acc": 0.98462053, "grad_norm": 1.05035973, "learning_rate": 1.669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232058, "epoch": 3.66033996, "global_step/max_steps": "48020/65595", "percentage": "73.21%", "elapsed_time": "2d 9h 28m 48s", "remaining_time": "21h 2m 14s"}
+{"loss": 0.04196533, "token_acc": 0.98365632, "grad_norm": 0.77125722, "learning_rate": 1.668e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232064, "epoch": 3.66072109, "global_step/max_steps": "48025/65595", "percentage": "73.21%", "elapsed_time": "2d 9h 29m 4s", "remaining_time": "21h 1m 50s"}
+{"loss": 0.06518192, "token_acc": 0.9774041, "grad_norm": 1.73367512, "learning_rate": 1.667e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232072, "epoch": 3.66110222, "global_step/max_steps": "48030/65595", "percentage": "73.22%", "elapsed_time": "2d 9h 29m 19s", "remaining_time": "21h 1m 26s"}
+{"loss": 0.03973202, "token_acc": 0.98287154, "grad_norm": 1.82559705, "learning_rate": 1.666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232079, "epoch": 3.66148334, "global_step/max_steps": "48035/65595", "percentage": "73.23%", "elapsed_time": "2d 9h 29m 35s", "remaining_time": "21h 1m 3s"}
+{"loss": 0.03886717, "token_acc": 0.98442467, "grad_norm": 1.28916597, "learning_rate": 1.666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232086, "epoch": 3.66186447, "global_step/max_steps": "48040/65595", "percentage": "73.24%", "elapsed_time": "2d 9h 29m 50s", "remaining_time": "21h 0m 39s"}
+{"loss": 0.06824996, "token_acc": 0.98103093, "grad_norm": 0.80082089, "learning_rate": 1.665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232094, "epoch": 3.6622456, "global_step/max_steps": "48045/65595", "percentage": "73.24%", "elapsed_time": "2d 9h 30m 4s", "remaining_time": "21h 0m 15s"}
+{"loss": 0.03955524, "token_acc": 0.97936842, "grad_norm": 1.26068914, "learning_rate": 1.664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232102, "epoch": 3.66262672, "global_step/max_steps": "48050/65595", "percentage": "73.25%", "elapsed_time": "2d 9h 30m 18s", "remaining_time": "20h 59m 50s"}
+{"loss": 0.03808596, "token_acc": 0.98720392, "grad_norm": 1.07156312, "learning_rate": 1.663e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232108, "epoch": 3.66300785, "global_step/max_steps": "48055/65595", "percentage": "73.26%", "elapsed_time": "2d 9h 30m 34s", "remaining_time": "20h 59m 27s"}
+{"loss": 0.05656273, "token_acc": 0.97720337, "grad_norm": 0.74205154, "learning_rate": 1.662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232113, "epoch": 3.66338898, "global_step/max_steps": "48060/65595", "percentage": "73.27%", "elapsed_time": "2d 9h 30m 52s", "remaining_time": "20h 59m 4s"}
+{"loss": 0.05292451, "token_acc": 0.97974928, "grad_norm": 2.27011871, "learning_rate": 1.661e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232122, "epoch": 3.6637701, "global_step/max_steps": "48065/65595", "percentage": "73.28%", "elapsed_time": "2d 9h 31m 5s", "remaining_time": "20h 58m 39s"}
+{"loss": 0.04687563, "token_acc": 0.98114196, "grad_norm": 1.52290964, "learning_rate": 1.66e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232128, "epoch": 3.66415123, "global_step/max_steps": "48070/65595", "percentage": "73.28%", "elapsed_time": "2d 9h 31m 21s", "remaining_time": "20h 58m 16s"}
+{"loss": 0.06040109, "token_acc": 0.97215269, "grad_norm": 1.0770762, "learning_rate": 1.659e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232136, "epoch": 3.66453236, "global_step/max_steps": "48075/65595", "percentage": "73.29%", "elapsed_time": "2d 9h 31m 36s", "remaining_time": "20h 57m 52s"}
+{"loss": 0.03707035, "token_acc": 0.98534219, "grad_norm": 0.62958431, "learning_rate": 1.658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232133, "epoch": 3.66491348, "global_step/max_steps": "48080/65595", "percentage": "73.30%", "elapsed_time": "2d 9h 32m 0s", "remaining_time": "20h 57m 31s"}
+{"loss": 0.05047231, "token_acc": 0.97048138, "grad_norm": 1.37156427, "learning_rate": 1.658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232141, "epoch": 3.66529461, "global_step/max_steps": "48085/65595", "percentage": "73.31%", "elapsed_time": "2d 9h 32m 14s", "remaining_time": "20h 57m 7s"}
+{"loss": 0.06933038, "token_acc": 0.97303922, "grad_norm": 2.66857958, "learning_rate": 1.657e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232148, "epoch": 3.66567574, "global_step/max_steps": "48090/65595", "percentage": "73.31%", "elapsed_time": "2d 9h 32m 29s", "remaining_time": "20h 56m 43s"}
+{"loss": 0.05955278, "token_acc": 0.975108, "grad_norm": 0.85138065, "learning_rate": 1.656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232154, "epoch": 3.66605686, "global_step/max_steps": "48095/65595", "percentage": "73.32%", "elapsed_time": "2d 9h 32m 46s", "remaining_time": "20h 56m 20s"}
+{"loss": 0.06056634, "token_acc": 0.97500753, "grad_norm": 0.72420079, "learning_rate": 1.655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232161, "epoch": 3.66643799, "global_step/max_steps": "48100/65595", "percentage": "73.33%", "elapsed_time": "2d 9h 33m 1s", "remaining_time": "20h 55m 56s"}
+{"loss": 0.0342106, "token_acc": 0.98498681, "grad_norm": 0.93516165, "learning_rate": 1.654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232165, "epoch": 3.66681912, "global_step/max_steps": "48105/65595", "percentage": "73.34%", "elapsed_time": "2d 9h 33m 19s", "remaining_time": "20h 55m 33s"}
+{"loss": 0.05209163, "token_acc": 0.98603491, "grad_norm": 1.61270392, "learning_rate": 1.653e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232172, "epoch": 3.66720024, "global_step/max_steps": "48110/65595", "percentage": "73.34%", "elapsed_time": "2d 9h 33m 34s", "remaining_time": "20h 55m 9s"}
+{"loss": 0.05494127, "token_acc": 0.9784539, "grad_norm": 2.26844168, "learning_rate": 1.652e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232175, "epoch": 3.66758137, "global_step/max_steps": "48115/65595", "percentage": "73.35%", "elapsed_time": "2d 9h 33m 53s", "remaining_time": "20h 54m 47s"}
+{"loss": 0.04528163, "token_acc": 0.98310189, "grad_norm": 1.27364051, "learning_rate": 1.651e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232178, "epoch": 3.6679625, "global_step/max_steps": "48120/65595", "percentage": "73.36%", "elapsed_time": "2d 9h 34m 12s", "remaining_time": "20h 54m 24s"}
+{"loss": 0.05279174, "token_acc": 0.97955912, "grad_norm": 0.76949161, "learning_rate": 1.65e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232182, "epoch": 3.66834362, "global_step/max_steps": "48125/65595", "percentage": "73.37%", "elapsed_time": "2d 9h 34m 30s", "remaining_time": "20h 54m 1s"}
+{"loss": 0.05043268, "token_acc": 0.9807751, "grad_norm": 0.84248799, "learning_rate": 1.65e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232186, "epoch": 3.66872475, "global_step/max_steps": "48130/65595", "percentage": "73.37%", "elapsed_time": "2d 9h 34m 48s", "remaining_time": "20h 53m 39s"}
+{"loss": 0.08307242, "token_acc": 0.96755098, "grad_norm": 1.64794421, "learning_rate": 1.649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232192, "epoch": 3.66910588, "global_step/max_steps": "48135/65595", "percentage": "73.38%", "elapsed_time": "2d 9h 35m 5s", "remaining_time": "20h 53m 15s"}
+{"loss": 0.04499098, "token_acc": 0.98072953, "grad_norm": 0.84734803, "learning_rate": 1.648e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232194, "epoch": 3.669487, "global_step/max_steps": "48140/65595", "percentage": "73.39%", "elapsed_time": "2d 9h 35m 24s", "remaining_time": "20h 52m 53s"}
+{"loss": 0.05598995, "token_acc": 0.98190184, "grad_norm": 0.67708695, "learning_rate": 1.647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232201, "epoch": 3.66986813, "global_step/max_steps": "48145/65595", "percentage": "73.40%", "elapsed_time": "2d 9h 35m 39s", "remaining_time": "20h 52m 29s"}
+{"loss": 0.03256575, "token_acc": 0.98714202, "grad_norm": 0.53909963, "learning_rate": 1.646e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232208, "epoch": 3.67024926, "global_step/max_steps": "48150/65595", "percentage": "73.40%", "elapsed_time": "2d 9h 35m 55s", "remaining_time": "20h 52m 5s"}
+{"loss": 0.05319755, "token_acc": 0.97968176, "grad_norm": 2.0292604, "learning_rate": 1.645e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232209, "epoch": 3.67063038, "global_step/max_steps": "48155/65595", "percentage": "73.41%", "elapsed_time": "2d 9h 36m 15s", "remaining_time": "20h 51m 43s"}
+{"loss": 0.05296671, "token_acc": 0.98052037, "grad_norm": 1.17957723, "learning_rate": 1.644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232212, "epoch": 3.67101151, "global_step/max_steps": "48160/65595", "percentage": "73.42%", "elapsed_time": "2d 9h 36m 34s", "remaining_time": "20h 51m 21s"}
+{"loss": 0.04531993, "token_acc": 0.9848927, "grad_norm": 1.2089982, "learning_rate": 1.643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232215, "epoch": 3.67139264, "global_step/max_steps": "48165/65595", "percentage": "73.43%", "elapsed_time": "2d 9h 36m 53s", "remaining_time": "20h 50m 59s"}
+{"loss": 0.0658304, "token_acc": 0.97685913, "grad_norm": 1.44592345, "learning_rate": 1.642e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23222, "epoch": 3.67177376, "global_step/max_steps": "48170/65595", "percentage": "73.44%", "elapsed_time": "2d 9h 37m 9s", "remaining_time": "20h 50m 35s"}
+{"loss": 0.04653083, "token_acc": 0.98076032, "grad_norm": 0.92194027, "learning_rate": 1.642e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232226, "epoch": 3.67215489, "global_step/max_steps": "48175/65595", "percentage": "73.44%", "elapsed_time": "2d 9h 37m 26s", "remaining_time": "20h 50m 12s"}
+{"loss": 0.04490222, "token_acc": 0.98569385, "grad_norm": 2.37741899, "learning_rate": 1.641e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232232, "epoch": 3.67253602, "global_step/max_steps": "48180/65595", "percentage": "73.45%", "elapsed_time": "2d 9h 37m 42s", "remaining_time": "20h 49m 48s"}
+{"loss": 0.05760207, "token_acc": 0.97205543, "grad_norm": 1.61970437, "learning_rate": 1.64e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232239, "epoch": 3.67291714, "global_step/max_steps": "48185/65595", "percentage": "73.46%", "elapsed_time": "2d 9h 37m 57s", "remaining_time": "20h 49m 25s"}
+{"loss": 0.03589486, "token_acc": 0.98160237, "grad_norm": 0.83825606, "learning_rate": 1.639e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232243, "epoch": 3.67329827, "global_step/max_steps": "48190/65595", "percentage": "73.47%", "elapsed_time": "2d 9h 38m 15s", "remaining_time": "20h 49m 2s"}
+{"loss": 0.05433981, "token_acc": 0.98301441, "grad_norm": 1.96488738, "learning_rate": 1.638e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23225, "epoch": 3.6736794, "global_step/max_steps": "48195/65595", "percentage": "73.47%", "elapsed_time": "2d 9h 38m 31s", "remaining_time": "20h 48m 38s"}
+{"loss": 0.05863473, "token_acc": 0.97649889, "grad_norm": 1.64801919, "learning_rate": 1.637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232253, "epoch": 3.67406052, "global_step/max_steps": "48200/65595", "percentage": "73.48%", "elapsed_time": "2d 9h 38m 50s", "remaining_time": "20h 48m 15s"}
+{"eval_loss": 0.0581004, "eval_token_acc": 0.97627402, "eval_runtime": 222.2027, "eval_samples_per_second": 2.385, "eval_steps_per_second": 2.385, "epoch": 3.67406052, "global_step/max_steps": "48200/65595", "percentage": "73.48%", "elapsed_time": "2d 9h 42m 32s", "remaining_time": "20h 49m 36s"}
+{"loss": 0.02905165, "token_acc": 0.97670539, "grad_norm": 0.75354332, "learning_rate": 1.636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232012, "epoch": 3.67444165, "global_step/max_steps": "48205/65595", "percentage": "73.49%", "elapsed_time": "2d 9h 42m 47s", "remaining_time": "20h 49m 12s"}
+{"loss": 0.04926573, "token_acc": 0.98127753, "grad_norm": 1.36456215, "learning_rate": 1.635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232018, "epoch": 3.67482278, "global_step/max_steps": "48210/65595", "percentage": "73.50%", "elapsed_time": "2d 9h 43m 3s", "remaining_time": "20h 48m 48s"}
+{"loss": 0.09498718, "token_acc": 0.96533534, "grad_norm": 1.83635056, "learning_rate": 1.634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232025, "epoch": 3.6752039, "global_step/max_steps": "48215/65595", "percentage": "73.50%", "elapsed_time": "2d 9h 43m 18s", "remaining_time": "20h 48m 24s"}
+{"loss": 0.05635427, "token_acc": 0.98335855, "grad_norm": 2.89724112, "learning_rate": 1.634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232032, "epoch": 3.67558503, "global_step/max_steps": "48220/65595", "percentage": "73.51%", "elapsed_time": "2d 9h 43m 34s", "remaining_time": "20h 48m 1s"}
+{"loss": 0.06921446, "token_acc": 0.97709667, "grad_norm": 0.80198711, "learning_rate": 1.633e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232039, "epoch": 3.67596616, "global_step/max_steps": "48225/65595", "percentage": "73.52%", "elapsed_time": "2d 9h 43m 49s", "remaining_time": "20h 47m 37s"}
+{"loss": 0.05275377, "token_acc": 0.98031036, "grad_norm": 0.80997258, "learning_rate": 1.632e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232041, "epoch": 3.67634728, "global_step/max_steps": "48230/65595", "percentage": "73.53%", "elapsed_time": "2d 9h 44m 8s", "remaining_time": "20h 47m 15s"}
+{"loss": 0.07401596, "token_acc": 0.98195371, "grad_norm": 2.13207555, "learning_rate": 1.631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232045, "epoch": 3.67672841, "global_step/max_steps": "48235/65595", "percentage": "73.53%", "elapsed_time": "2d 9h 44m 26s", "remaining_time": "20h 46m 52s"}
+{"loss": 0.04916301, "token_acc": 0.97574187, "grad_norm": 0.9877547, "learning_rate": 1.63e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232051, "epoch": 3.67710954, "global_step/max_steps": "48240/65595", "percentage": "73.54%", "elapsed_time": "2d 9h 44m 42s", "remaining_time": "20h 46m 28s"}
+{"loss": 0.03394682, "token_acc": 0.97826379, "grad_norm": 0.06091378, "learning_rate": 1.629e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232056, "epoch": 3.67749066, "global_step/max_steps": "48245/65595", "percentage": "73.55%", "elapsed_time": "2d 9h 45m 0s", "remaining_time": "20h 46m 5s"}
+{"loss": 0.02569208, "token_acc": 0.98735777, "grad_norm": 0.85485107, "learning_rate": 1.628e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232062, "epoch": 3.67787179, "global_step/max_steps": "48250/65595", "percentage": "73.56%", "elapsed_time": "2d 9h 45m 16s", "remaining_time": "20h 45m 42s"}
+{"loss": 0.03849513, "token_acc": 0.98001599, "grad_norm": 0.92869592, "learning_rate": 1.627e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232069, "epoch": 3.67825292, "global_step/max_steps": "48255/65595", "percentage": "73.57%", "elapsed_time": "2d 9h 45m 31s", "remaining_time": "20h 45m 18s"}
+{"loss": 0.09634953, "token_acc": 0.96037804, "grad_norm": 2.15512276, "learning_rate": 1.627e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232077, "epoch": 3.67863404, "global_step/max_steps": "48260/65595", "percentage": "73.57%", "elapsed_time": "2d 9h 45m 46s", "remaining_time": "20h 44m 54s"}
+{"loss": 0.04620638, "token_acc": 0.98211349, "grad_norm": 0.69405609, "learning_rate": 1.626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232081, "epoch": 3.67901517, "global_step/max_steps": "48265/65595", "percentage": "73.58%", "elapsed_time": "2d 9h 46m 3s", "remaining_time": "20h 44m 31s"}
+{"loss": 0.05696791, "token_acc": 0.97869289, "grad_norm": 2.02079344, "learning_rate": 1.625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232087, "epoch": 3.6793963, "global_step/max_steps": "48270/65595", "percentage": "73.59%", "elapsed_time": "2d 9h 46m 20s", "remaining_time": "20h 44m 7s"}
+{"loss": 0.07894476, "token_acc": 0.97743502, "grad_norm": 1.52200425, "learning_rate": 1.624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232093, "epoch": 3.67977742, "global_step/max_steps": "48275/65595", "percentage": "73.60%", "elapsed_time": "2d 9h 46m 36s", "remaining_time": "20h 43m 44s"}
+{"loss": 0.06169128, "token_acc": 0.97763033, "grad_norm": 0.61567456, "learning_rate": 1.623e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232097, "epoch": 3.68015855, "global_step/max_steps": "48280/65595", "percentage": "73.60%", "elapsed_time": "2d 9h 46m 54s", "remaining_time": "20h 43m 21s"}
+{"loss": 0.06718974, "token_acc": 0.97662338, "grad_norm": 1.54854023, "learning_rate": 1.622e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232102, "epoch": 3.68053968, "global_step/max_steps": "48285/65595", "percentage": "73.61%", "elapsed_time": "2d 9h 47m 11s", "remaining_time": "20h 42m 58s"}
+{"loss": 0.04463507, "token_acc": 0.9846385, "grad_norm": 0.76012617, "learning_rate": 1.621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232107, "epoch": 3.6809208, "global_step/max_steps": "48290/65595", "percentage": "73.62%", "elapsed_time": "2d 9h 47m 28s", "remaining_time": "20h 42m 35s"}
+{"loss": 0.05091476, "token_acc": 0.98593555, "grad_norm": 1.67274451, "learning_rate": 1.62e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23211, "epoch": 3.68130193, "global_step/max_steps": "48295/65595", "percentage": "73.63%", "elapsed_time": "2d 9h 47m 47s", "remaining_time": "20h 42m 12s"}
+{"loss": 0.04507208, "token_acc": 0.98381521, "grad_norm": 1.03366172, "learning_rate": 1.619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232113, "epoch": 3.68168306, "global_step/max_steps": "48300/65595", "percentage": "73.63%", "elapsed_time": "2d 9h 48m 5s", "remaining_time": "20h 41m 50s"}
+{"loss": 0.07241759, "token_acc": 0.97776601, "grad_norm": 2.11949396, "learning_rate": 1.619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23212, "epoch": 3.68206418, "global_step/max_steps": "48305/65595", "percentage": "73.64%", "elapsed_time": "2d 9h 48m 21s", "remaining_time": "20h 41m 26s"}
+{"loss": 0.03011272, "token_acc": 0.98532874, "grad_norm": 0.94639629, "learning_rate": 1.618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232123, "epoch": 3.68244531, "global_step/max_steps": "48310/65595", "percentage": "73.65%", "elapsed_time": "2d 9h 48m 40s", "remaining_time": "20h 41m 4s"}
+{"loss": 0.08415945, "token_acc": 0.96427821, "grad_norm": 1.73191631, "learning_rate": 1.617e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232128, "epoch": 3.68282643, "global_step/max_steps": "48315/65595", "percentage": "73.66%", "elapsed_time": "2d 9h 48m 57s", "remaining_time": "20h 40m 40s"}
+{"loss": 0.07805743, "token_acc": 0.9715812, "grad_norm": 1.85999, "learning_rate": 1.616e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232135, "epoch": 3.68320756, "global_step/max_steps": "48320/65595", "percentage": "73.66%", "elapsed_time": "2d 9h 49m 12s", "remaining_time": "20h 40m 17s"}
+{"loss": 0.03912238, "token_acc": 0.98560992, "grad_norm": 0.53755629, "learning_rate": 1.615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232139, "epoch": 3.68358869, "global_step/max_steps": "48325/65595", "percentage": "73.67%", "elapsed_time": "2d 9h 49m 30s", "remaining_time": "20h 39m 54s"}
+{"loss": 0.04848619, "token_acc": 0.98216735, "grad_norm": 1.64926803, "learning_rate": 1.614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232142, "epoch": 3.68396981, "global_step/max_steps": "48330/65595", "percentage": "73.68%", "elapsed_time": "2d 9h 49m 48s", "remaining_time": "20h 39m 31s"}
+{"loss": 0.05629817, "token_acc": 0.97714426, "grad_norm": 0.88544005, "learning_rate": 1.613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232149, "epoch": 3.68435094, "global_step/max_steps": "48335/65595", "percentage": "73.69%", "elapsed_time": "2d 9h 50m 4s", "remaining_time": "20h 39m 7s"}
+{"loss": 0.04752482, "token_acc": 0.98181031, "grad_norm": 0.60614914, "learning_rate": 1.612e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23215, "epoch": 3.68473207, "global_step/max_steps": "48340/65595", "percentage": "73.69%", "elapsed_time": "2d 9h 50m 24s", "remaining_time": "20h 38m 46s"}
+{"loss": 0.06276911, "token_acc": 0.9785313, "grad_norm": 2.06099367, "learning_rate": 1.612e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232155, "epoch": 3.68511319, "global_step/max_steps": "48345/65595", "percentage": "73.70%", "elapsed_time": "2d 9h 50m 42s", "remaining_time": "20h 38m 22s"}
+{"loss": 0.05459085, "token_acc": 0.98065028, "grad_norm": 2.32988095, "learning_rate": 1.611e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232159, "epoch": 3.68549432, "global_step/max_steps": "48350/65595", "percentage": "73.71%", "elapsed_time": "2d 9h 51m 0s", "remaining_time": "20h 38m 0s"}
+{"loss": 0.03923773, "token_acc": 0.98845144, "grad_norm": 0.48275369, "learning_rate": 1.61e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23216, "epoch": 3.68587545, "global_step/max_steps": "48355/65595", "percentage": "73.72%", "elapsed_time": "2d 9h 51m 20s", "remaining_time": "20h 37m 38s"}
+{"loss": 0.03520242, "token_acc": 0.98475836, "grad_norm": 0.75136197, "learning_rate": 1.609e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232167, "epoch": 3.68625657, "global_step/max_steps": "48360/65595", "percentage": "73.73%", "elapsed_time": "2d 9h 51m 35s", "remaining_time": "20h 37m 14s"}
+{"loss": 0.0405087, "token_acc": 0.98530394, "grad_norm": 1.35676146, "learning_rate": 1.608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232174, "epoch": 3.6866377, "global_step/max_steps": "48365/65595", "percentage": "73.73%", "elapsed_time": "2d 9h 51m 50s", "remaining_time": "20h 36m 50s"}
+{"loss": 0.04824328, "token_acc": 0.9768073, "grad_norm": 1.42281699, "learning_rate": 1.607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232181, "epoch": 3.68701883, "global_step/max_steps": "48370/65595", "percentage": "73.74%", "elapsed_time": "2d 9h 52m 6s", "remaining_time": "20h 36m 26s"}
+{"loss": 0.05991654, "token_acc": 0.97436699, "grad_norm": 0.69253445, "learning_rate": 1.606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232189, "epoch": 3.68739995, "global_step/max_steps": "48375/65595", "percentage": "73.75%", "elapsed_time": "2d 9h 52m 20s", "remaining_time": "20h 36m 2s"}
+{"loss": 0.02955081, "token_acc": 0.98859201, "grad_norm": 1.33577323, "learning_rate": 1.605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232196, "epoch": 3.68778108, "global_step/max_steps": "48380/65595", "percentage": "73.76%", "elapsed_time": "2d 9h 52m 36s", "remaining_time": "20h 35m 39s"}
+{"loss": 0.06762516, "token_acc": 0.97235136, "grad_norm": 2.79978657, "learning_rate": 1.604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232201, "epoch": 3.68816221, "global_step/max_steps": "48385/65595", "percentage": "73.76%", "elapsed_time": "2d 9h 52m 53s", "remaining_time": "20h 35m 16s"}
+{"loss": 0.04002371, "token_acc": 0.98374761, "grad_norm": 0.80995405, "learning_rate": 1.604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232204, "epoch": 3.68854333, "global_step/max_steps": "48390/65595", "percentage": "73.77%", "elapsed_time": "2d 9h 53m 11s", "remaining_time": "20h 34m 53s"}
+{"loss": 0.04361326, "token_acc": 0.98155701, "grad_norm": 0.88988447, "learning_rate": 1.603e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232208, "epoch": 3.68892446, "global_step/max_steps": "48395/65595", "percentage": "73.78%", "elapsed_time": "2d 9h 53m 29s", "remaining_time": "20h 34m 30s"}
+{"loss": 0.05757214, "token_acc": 0.97907059, "grad_norm": 0.61462289, "learning_rate": 1.602e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232212, "epoch": 3.68930559, "global_step/max_steps": "48400/65595", "percentage": "73.79%", "elapsed_time": "2d 9h 53m 47s", "remaining_time": "20h 34m 7s"}
+{"eval_loss": 0.05917728, "eval_token_acc": 0.97625896, "eval_runtime": 222.1724, "eval_samples_per_second": 2.386, "eval_steps_per_second": 2.386, "epoch": 3.68930559, "global_step/max_steps": "48400/65595", "percentage": "73.79%", "elapsed_time": "2d 9h 57m 30s", "remaining_time": "20h 35m 26s"}
+{"loss": 0.04651452, "token_acc": 0.97652898, "grad_norm": 0.86251843, "learning_rate": 1.601e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231969, "epoch": 3.68968671, "global_step/max_steps": "48405/65595", "percentage": "73.79%", "elapsed_time": "2d 9h 57m 48s", "remaining_time": "20h 35m 4s"}
+{"loss": 0.04687531, "token_acc": 0.97976829, "grad_norm": 0.64893526, "learning_rate": 1.6e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231973, "epoch": 3.69006784, "global_step/max_steps": "48410/65595", "percentage": "73.80%", "elapsed_time": "2d 9h 58m 6s", "remaining_time": "20h 34m 41s"}
+{"loss": 0.06558105, "token_acc": 0.97198642, "grad_norm": 1.40698075, "learning_rate": 1.599e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231978, "epoch": 3.69044897, "global_step/max_steps": "48415/65595", "percentage": "73.81%", "elapsed_time": "2d 9h 58m 22s", "remaining_time": "20h 34m 17s"}
+{"loss": 0.04664727, "token_acc": 0.98097972, "grad_norm": 1.00494337, "learning_rate": 1.598e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231982, "epoch": 3.69083009, "global_step/max_steps": "48420/65595", "percentage": "73.82%", "elapsed_time": "2d 9h 58m 40s", "remaining_time": "20h 33m 55s"}
+{"loss": 0.04738572, "token_acc": 0.98041311, "grad_norm": 1.18888152, "learning_rate": 1.597e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231987, "epoch": 3.69121122, "global_step/max_steps": "48425/65595", "percentage": "73.82%", "elapsed_time": "2d 9h 58m 58s", "remaining_time": "20h 33m 32s"}
+{"loss": 0.06029279, "token_acc": 0.97553334, "grad_norm": 0.98141193, "learning_rate": 1.597e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231989, "epoch": 3.69159235, "global_step/max_steps": "48430/65595", "percentage": "73.83%", "elapsed_time": "2d 9h 59m 17s", "remaining_time": "20h 33m 9s"}
+{"loss": 0.07547933, "token_acc": 0.97305965, "grad_norm": 1.61664295, "learning_rate": 1.596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231996, "epoch": 3.69197347, "global_step/max_steps": "48435/65595", "percentage": "73.84%", "elapsed_time": "2d 9h 59m 33s", "remaining_time": "20h 32m 46s"}
+{"loss": 0.03916893, "token_acc": 0.9858841, "grad_norm": 0.73567605, "learning_rate": 1.595e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232, "epoch": 3.6923546, "global_step/max_steps": "48440/65595", "percentage": "73.85%", "elapsed_time": "2d 9h 59m 50s", "remaining_time": "20h 32m 23s"}
+{"loss": 0.05226744, "token_acc": 0.9823491, "grad_norm": 1.36497605, "learning_rate": 1.594e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232006, "epoch": 3.69273573, "global_step/max_steps": "48445/65595", "percentage": "73.85%", "elapsed_time": "2d 10h 0m 7s", "remaining_time": "20h 31m 59s"}
+{"loss": 0.05172572, "token_acc": 0.97922438, "grad_norm": 1.14372563, "learning_rate": 1.593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232012, "epoch": 3.69311685, "global_step/max_steps": "48450/65595", "percentage": "73.86%", "elapsed_time": "2d 10h 0m 23s", "remaining_time": "20h 31m 36s"}
+{"loss": 0.04258479, "token_acc": 0.98192542, "grad_norm": 0.86849874, "learning_rate": 1.592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232016, "epoch": 3.69349798, "global_step/max_steps": "48455/65595", "percentage": "73.87%", "elapsed_time": "2d 10h 0m 40s", "remaining_time": "20h 31m 13s"}
+{"loss": 0.05748317, "token_acc": 0.97846816, "grad_norm": 1.1921562, "learning_rate": 1.591e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232024, "epoch": 3.69387911, "global_step/max_steps": "48460/65595", "percentage": "73.88%", "elapsed_time": "2d 10h 0m 55s", "remaining_time": "20h 30m 49s"}
+{"loss": 0.06327326, "token_acc": 0.97711978, "grad_norm": 1.14724958, "learning_rate": 1.59e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232031, "epoch": 3.69426023, "global_step/max_steps": "48465/65595", "percentage": "73.89%", "elapsed_time": "2d 10h 1m 10s", "remaining_time": "20h 30m 25s"}
+{"loss": 0.05184919, "token_acc": 0.98080307, "grad_norm": 0.94560111, "learning_rate": 1.59e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232034, "epoch": 3.69464136, "global_step/max_steps": "48470/65595", "percentage": "73.89%", "elapsed_time": "2d 10h 1m 29s", "remaining_time": "20h 30m 3s"}
+{"loss": 0.02886056, "token_acc": 0.98604402, "grad_norm": 1.04049051, "learning_rate": 1.589e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232041, "epoch": 3.69502249, "global_step/max_steps": "48475/65595", "percentage": "73.90%", "elapsed_time": "2d 10h 1m 44s", "remaining_time": "20h 29m 39s"}
+{"loss": 0.05596459, "token_acc": 0.975655, "grad_norm": 0.89256603, "learning_rate": 1.588e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232047, "epoch": 3.69540361, "global_step/max_steps": "48480/65595", "percentage": "73.91%", "elapsed_time": "2d 10h 2m 1s", "remaining_time": "20h 29m 15s"}
+{"loss": 0.06573119, "token_acc": 0.97740403, "grad_norm": 0.63419008, "learning_rate": 1.587e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232049, "epoch": 3.69578474, "global_step/max_steps": "48485/65595", "percentage": "73.92%", "elapsed_time": "2d 10h 2m 20s", "remaining_time": "20h 28m 53s"}
+{"loss": 0.0503527, "token_acc": 0.97964113, "grad_norm": 1.03705847, "learning_rate": 1.586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232054, "epoch": 3.69616587, "global_step/max_steps": "48490/65595", "percentage": "73.92%", "elapsed_time": "2d 10h 2m 38s", "remaining_time": "20h 28m 30s"}
+{"loss": 0.06879176, "token_acc": 0.97045658, "grad_norm": 1.16153765, "learning_rate": 1.585e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232059, "epoch": 3.69654699, "global_step/max_steps": "48495/65595", "percentage": "73.93%", "elapsed_time": "2d 10h 2m 54s", "remaining_time": "20h 28m 7s"}
+{"loss": 0.06059227, "token_acc": 0.97849841, "grad_norm": 1.04085517, "learning_rate": 1.584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232063, "epoch": 3.69692812, "global_step/max_steps": "48500/65595", "percentage": "73.94%", "elapsed_time": "2d 10h 3m 12s", "remaining_time": "20h 27m 44s"}
+{"loss": 0.05862909, "token_acc": 0.97043752, "grad_norm": 1.6663537, "learning_rate": 1.583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232068, "epoch": 3.69730925, "global_step/max_steps": "48505/65595", "percentage": "73.95%", "elapsed_time": "2d 10h 3m 29s", "remaining_time": "20h 27m 21s"}
+{"loss": 0.07606739, "token_acc": 0.97262774, "grad_norm": 1.73101914, "learning_rate": 1.583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232075, "epoch": 3.69769037, "global_step/max_steps": "48510/65595", "percentage": "73.95%", "elapsed_time": "2d 10h 3m 44s", "remaining_time": "20h 26m 57s"}
+{"loss": 0.05146103, "token_acc": 0.98125837, "grad_norm": 1.81125653, "learning_rate": 1.582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232082, "epoch": 3.6980715, "global_step/max_steps": "48515/65595", "percentage": "73.96%", "elapsed_time": "2d 10h 4m 0s", "remaining_time": "20h 26m 34s"}
+{"loss": 0.04005529, "token_acc": 0.98309859, "grad_norm": 0.99096096, "learning_rate": 1.581e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232088, "epoch": 3.69845263, "global_step/max_steps": "48520/65595", "percentage": "73.97%", "elapsed_time": "2d 10h 4m 16s", "remaining_time": "20h 26m 10s"}
+{"loss": 0.05660185, "token_acc": 0.98157859, "grad_norm": 0.82303411, "learning_rate": 1.58e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232092, "epoch": 3.69883375, "global_step/max_steps": "48525/65595", "percentage": "73.98%", "elapsed_time": "2d 10h 4m 34s", "remaining_time": "20h 25m 47s"}
+{"loss": 0.06449659, "token_acc": 0.97879282, "grad_norm": 1.68772304, "learning_rate": 1.579e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232098, "epoch": 3.69921488, "global_step/max_steps": "48530/65595", "percentage": "73.98%", "elapsed_time": "2d 10h 4m 50s", "remaining_time": "20h 25m 24s"}
+{"loss": 0.07666466, "token_acc": 0.97409326, "grad_norm": 2.41813326, "learning_rate": 1.578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232107, "epoch": 3.69959601, "global_step/max_steps": "48535/65595", "percentage": "73.99%", "elapsed_time": "2d 10h 5m 3s", "remaining_time": "20h 24m 59s"}
+{"loss": 0.05149336, "token_acc": 0.98331789, "grad_norm": 2.33785987, "learning_rate": 1.577e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232115, "epoch": 3.69997713, "global_step/max_steps": "48540/65595", "percentage": "74.00%", "elapsed_time": "2d 10h 5m 18s", "remaining_time": "20h 24m 35s"}
+{"loss": 0.05128531, "token_acc": 0.98411498, "grad_norm": 1.84152472, "learning_rate": 1.576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232123, "epoch": 3.70035826, "global_step/max_steps": "48545/65595", "percentage": "74.01%", "elapsed_time": "2d 10h 5m 32s", "remaining_time": "20h 24m 11s"}
+{"loss": 0.09091821, "token_acc": 0.97172711, "grad_norm": 1.3859657, "learning_rate": 1.576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23213, "epoch": 3.70073939, "global_step/max_steps": "48550/65595", "percentage": "74.01%", "elapsed_time": "2d 10h 5m 47s", "remaining_time": "20h 23m 47s"}
+{"loss": 0.05651034, "token_acc": 0.98359892, "grad_norm": 0.51185787, "learning_rate": 1.575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232129, "epoch": 3.70112051, "global_step/max_steps": "48555/65595", "percentage": "74.02%", "elapsed_time": "2d 10h 6m 10s", "remaining_time": "20h 23m 26s"}
+{"loss": 0.03484681, "token_acc": 0.98274002, "grad_norm": 0.55890685, "learning_rate": 1.574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232128, "epoch": 3.70150164, "global_step/max_steps": "48560/65595", "percentage": "74.03%", "elapsed_time": "2d 10h 6m 33s", "remaining_time": "20h 23m 5s"}
+{"loss": 0.04082509, "token_acc": 0.98136414, "grad_norm": 0.98293233, "learning_rate": 1.573e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232128, "epoch": 3.70188277, "global_step/max_steps": "48565/65595", "percentage": "74.04%", "elapsed_time": "2d 10h 6m 54s", "remaining_time": "20h 22m 43s"}
+{"loss": 0.03534109, "token_acc": 0.98461538, "grad_norm": 1.31159031, "learning_rate": 1.572e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232136, "epoch": 3.70226389, "global_step/max_steps": "48570/65595", "percentage": "74.05%", "elapsed_time": "2d 10h 7m 8s", "remaining_time": "20h 22m 19s"}
+{"loss": 0.06841142, "token_acc": 0.97671161, "grad_norm": 1.27699924, "learning_rate": 1.571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23214, "epoch": 3.70264502, "global_step/max_steps": "48575/65595", "percentage": "74.05%", "elapsed_time": "2d 10h 7m 26s", "remaining_time": "20h 21m 56s"}
+{"loss": 0.0546293, "token_acc": 0.97973759, "grad_norm": 1.2119689, "learning_rate": 1.57e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232144, "epoch": 3.70302615, "global_step/max_steps": "48580/65595", "percentage": "74.06%", "elapsed_time": "2d 10h 7m 44s", "remaining_time": "20h 21m 34s"}
+{"loss": 0.08060968, "token_acc": 0.97530409, "grad_norm": 0.69859779, "learning_rate": 1.569e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232148, "epoch": 3.70340727, "global_step/max_steps": "48585/65595", "percentage": "74.07%", "elapsed_time": "2d 10h 8m 2s", "remaining_time": "20h 21m 11s"}
+{"loss": 0.09155262, "token_acc": 0.96459137, "grad_norm": 1.37802458, "learning_rate": 1.569e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232152, "epoch": 3.7037884, "global_step/max_steps": "48590/65595", "percentage": "74.08%", "elapsed_time": "2d 10h 8m 19s", "remaining_time": "20h 20m 48s"}
+{"loss": 0.03502265, "token_acc": 0.98422002, "grad_norm": 2.22431564, "learning_rate": 1.568e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232158, "epoch": 3.70416953, "global_step/max_steps": "48595/65595", "percentage": "74.08%", "elapsed_time": "2d 10h 8m 36s", "remaining_time": "20h 20m 25s"}
+{"loss": 0.04391795, "token_acc": 0.98370549, "grad_norm": 1.014112, "learning_rate": 1.567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232162, "epoch": 3.70455065, "global_step/max_steps": "48600/65595", "percentage": "74.09%", "elapsed_time": "2d 10h 8m 54s", "remaining_time": "20h 20m 2s"}
+{"eval_loss": 0.05847746, "eval_token_acc": 0.97630414, "eval_runtime": 219.9746, "eval_samples_per_second": 2.409, "eval_steps_per_second": 2.409, "epoch": 3.70455065, "global_step/max_steps": "48600/65595", "percentage": "74.09%", "elapsed_time": "2d 10h 12m 34s", "remaining_time": "20h 21m 19s"}
+{"loss": 0.07246212, "token_acc": 0.97639934, "grad_norm": 1.41921067, "learning_rate": 1.566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231924, "epoch": 3.70493178, "global_step/max_steps": "48605/65595", "percentage": "74.10%", "elapsed_time": "2d 10h 12m 50s", "remaining_time": "20h 20m 55s"}
+{"loss": 0.02850371, "token_acc": 0.98774677, "grad_norm": 0.5053153, "learning_rate": 1.565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231931, "epoch": 3.7053129, "global_step/max_steps": "48610/65595", "percentage": "74.11%", "elapsed_time": "2d 10h 13m 5s", "remaining_time": "20h 20m 32s"}
+{"loss": 0.02190955, "token_acc": 0.98660309, "grad_norm": 0.16861606, "learning_rate": 1.564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231937, "epoch": 3.70569403, "global_step/max_steps": "48615/65595", "percentage": "74.11%", "elapsed_time": "2d 10h 13m 22s", "remaining_time": "20h 20m 8s"}
+{"loss": 0.06947724, "token_acc": 0.97962768, "grad_norm": 0.58691287, "learning_rate": 1.563e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231941, "epoch": 3.70607516, "global_step/max_steps": "48620/65595", "percentage": "74.12%", "elapsed_time": "2d 10h 13m 39s", "remaining_time": "20h 19m 45s"}
+{"loss": 0.06591217, "token_acc": 0.96604787, "grad_norm": 1.1670022, "learning_rate": 1.563e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231947, "epoch": 3.70645628, "global_step/max_steps": "48625/65595", "percentage": "74.13%", "elapsed_time": "2d 10h 13m 55s", "remaining_time": "20h 19m 22s"}
+{"loss": 0.06456248, "token_acc": 0.97974647, "grad_norm": 1.15162647, "learning_rate": 1.562e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23195, "epoch": 3.70683741, "global_step/max_steps": "48630/65595", "percentage": "74.14%", "elapsed_time": "2d 10h 14m 15s", "remaining_time": "20h 18m 59s"}
+{"loss": 0.06185393, "token_acc": 0.98474545, "grad_norm": 0.75587118, "learning_rate": 1.561e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231956, "epoch": 3.70721854, "global_step/max_steps": "48635/65595", "percentage": "74.14%", "elapsed_time": "2d 10h 14m 31s", "remaining_time": "20h 18m 36s"}
+{"loss": 0.07868604, "token_acc": 0.97390841, "grad_norm": 2.43106294, "learning_rate": 1.56e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23196, "epoch": 3.70759966, "global_step/max_steps": "48640/65595", "percentage": "74.15%", "elapsed_time": "2d 10h 14m 49s", "remaining_time": "20h 18m 13s"}
+{"loss": 0.04711296, "token_acc": 0.97521393, "grad_norm": 4.6056571, "learning_rate": 1.559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231966, "epoch": 3.70798079, "global_step/max_steps": "48645/65595", "percentage": "74.16%", "elapsed_time": "2d 10h 15m 4s", "remaining_time": "20h 17m 50s"}
+{"loss": 0.05967832, "token_acc": 0.97750865, "grad_norm": 1.26485777, "learning_rate": 1.558e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231975, "epoch": 3.70836192, "global_step/max_steps": "48650/65595", "percentage": "74.17%", "elapsed_time": "2d 10h 15m 18s", "remaining_time": "20h 17m 25s"}
+{"loss": 0.06603885, "token_acc": 0.97142857, "grad_norm": 1.83764541, "learning_rate": 1.557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231984, "epoch": 3.70874304, "global_step/max_steps": "48655/65595", "percentage": "74.17%", "elapsed_time": "2d 10h 15m 31s", "remaining_time": "20h 17m 1s"}
+{"loss": 0.05600628, "token_acc": 0.97773502, "grad_norm": 0.65670067, "learning_rate": 1.556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231984, "epoch": 3.70912417, "global_step/max_steps": "48660/65595", "percentage": "74.18%", "elapsed_time": "2d 10h 15m 53s", "remaining_time": "20h 16m 39s"}
+{"loss": 0.04251473, "token_acc": 0.98761124, "grad_norm": 0.47729144, "learning_rate": 1.556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231988, "epoch": 3.7095053, "global_step/max_steps": "48665/65595", "percentage": "74.19%", "elapsed_time": "2d 10h 16m 11s", "remaining_time": "20h 16m 17s"}
+{"loss": 0.05678543, "token_acc": 0.97770021, "grad_norm": 1.10410893, "learning_rate": 1.555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231992, "epoch": 3.70988642, "global_step/max_steps": "48670/65595", "percentage": "74.20%", "elapsed_time": "2d 10h 16m 29s", "remaining_time": "20h 15m 54s"}
+{"loss": 0.04241709, "token_acc": 0.98304297, "grad_norm": 1.30404341, "learning_rate": 1.554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231998, "epoch": 3.71026755, "global_step/max_steps": "48675/65595", "percentage": "74.21%", "elapsed_time": "2d 10h 16m 45s", "remaining_time": "20h 15m 31s"}
+{"loss": 0.04677464, "token_acc": 0.98397914, "grad_norm": 1.48245096, "learning_rate": 1.553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232006, "epoch": 3.71064868, "global_step/max_steps": "48680/65595", "percentage": "74.21%", "elapsed_time": "2d 10h 17m 0s", "remaining_time": "20h 15m 6s"}
+{"loss": 0.05612778, "token_acc": 0.98323593, "grad_norm": 2.0399735, "learning_rate": 1.552e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232009, "epoch": 3.7110298, "global_step/max_steps": "48685/65595", "percentage": "74.22%", "elapsed_time": "2d 10h 17m 19s", "remaining_time": "20h 14m 44s"}
+{"loss": 0.05349035, "token_acc": 0.97020531, "grad_norm": 0.82456398, "learning_rate": 1.551e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232015, "epoch": 3.71141093, "global_step/max_steps": "48690/65595", "percentage": "74.23%", "elapsed_time": "2d 10h 17m 34s", "remaining_time": "20h 14m 20s"}
+{"loss": 0.02732616, "token_acc": 0.98760696, "grad_norm": 0.18117906, "learning_rate": 1.55e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232022, "epoch": 3.71179206, "global_step/max_steps": "48695/65595", "percentage": "74.24%", "elapsed_time": "2d 10h 17m 50s", "remaining_time": "20h 13m 57s"}
+{"loss": 0.0536046, "token_acc": 0.97713237, "grad_norm": 0.6940704, "learning_rate": 1.549e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232026, "epoch": 3.71217318, "global_step/max_steps": "48700/65595", "percentage": "74.24%", "elapsed_time": "2d 10h 18m 8s", "remaining_time": "20h 13m 34s"}
+{"loss": 0.04373976, "token_acc": 0.98321343, "grad_norm": 1.62626982, "learning_rate": 1.549e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23203, "epoch": 3.71255431, "global_step/max_steps": "48705/65595", "percentage": "74.25%", "elapsed_time": "2d 10h 18m 25s", "remaining_time": "20h 13m 11s"}
+{"loss": 0.04266672, "token_acc": 0.98376471, "grad_norm": 0.90088075, "learning_rate": 1.548e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232036, "epoch": 3.71293544, "global_step/max_steps": "48710/65595", "percentage": "74.26%", "elapsed_time": "2d 10h 18m 41s", "remaining_time": "20h 12m 47s"}
+{"loss": 0.04690353, "token_acc": 0.98431559, "grad_norm": 1.05888009, "learning_rate": 1.547e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232038, "epoch": 3.71331656, "global_step/max_steps": "48715/65595", "percentage": "74.27%", "elapsed_time": "2d 10h 19m 1s", "remaining_time": "20h 12m 25s"}
+{"loss": 0.06237162, "token_acc": 0.97493734, "grad_norm": 2.73694992, "learning_rate": 1.546e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232043, "epoch": 3.71369769, "global_step/max_steps": "48720/65595", "percentage": "74.27%", "elapsed_time": "2d 10h 19m 19s", "remaining_time": "20h 12m 2s"}
+{"loss": 0.05568807, "token_acc": 0.97802428, "grad_norm": 0.62988257, "learning_rate": 1.545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232049, "epoch": 3.71407882, "global_step/max_steps": "48725/65595", "percentage": "74.28%", "elapsed_time": "2d 10h 19m 35s", "remaining_time": "20h 11m 39s"}
+{"loss": 0.04889517, "token_acc": 0.9799415, "grad_norm": 1.22062922, "learning_rate": 1.544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232054, "epoch": 3.71445994, "global_step/max_steps": "48730/65595", "percentage": "74.29%", "elapsed_time": "2d 10h 19m 51s", "remaining_time": "20h 11m 16s"}
+{"loss": 0.03863397, "token_acc": 0.98413009, "grad_norm": 1.08096266, "learning_rate": 1.543e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23206, "epoch": 3.71484107, "global_step/max_steps": "48735/65595", "percentage": "74.30%", "elapsed_time": "2d 10h 20m 7s", "remaining_time": "20h 10m 52s"}
+{"loss": 0.03572161, "token_acc": 0.98654265, "grad_norm": 0.87965894, "learning_rate": 1.543e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232064, "epoch": 3.7152222, "global_step/max_steps": "48740/65595", "percentage": "74.30%", "elapsed_time": "2d 10h 20m 25s", "remaining_time": "20h 10m 29s"}
+{"loss": 0.06162926, "token_acc": 0.98564955, "grad_norm": 1.16898561, "learning_rate": 1.542e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232073, "epoch": 3.71560332, "global_step/max_steps": "48745/65595", "percentage": "74.31%", "elapsed_time": "2d 10h 20m 39s", "remaining_time": "20h 10m 5s"}
+{"loss": 0.05120961, "token_acc": 0.97997355, "grad_norm": 1.52257168, "learning_rate": 1.541e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232076, "epoch": 3.71598445, "global_step/max_steps": "48750/65595", "percentage": "74.32%", "elapsed_time": "2d 10h 20m 57s", "remaining_time": "20h 9m 43s"}
+{"loss": 0.06712404, "token_acc": 0.97957214, "grad_norm": 0.86824018, "learning_rate": 1.54e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232081, "epoch": 3.71636558, "global_step/max_steps": "48755/65595", "percentage": "74.33%", "elapsed_time": "2d 10h 21m 14s", "remaining_time": "20h 9m 19s"}
+{"loss": 0.05284462, "token_acc": 0.97990501, "grad_norm": 1.4565928, "learning_rate": 1.539e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232087, "epoch": 3.7167467, "global_step/max_steps": "48760/65595", "percentage": "74.33%", "elapsed_time": "2d 10h 21m 31s", "remaining_time": "20h 8m 56s"}
+{"loss": 0.08326525, "token_acc": 0.97877167, "grad_norm": 0.90940821, "learning_rate": 1.538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23209, "epoch": 3.71712783, "global_step/max_steps": "48765/65595", "percentage": "74.34%", "elapsed_time": "2d 10h 21m 50s", "remaining_time": "20h 8m 34s"}
+{"loss": 0.04529339, "token_acc": 0.98095641, "grad_norm": 0.95509851, "learning_rate": 1.537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232095, "epoch": 3.71750896, "global_step/max_steps": "48770/65595", "percentage": "74.35%", "elapsed_time": "2d 10h 22m 6s", "remaining_time": "20h 8m 11s"}
+{"loss": 0.05505893, "token_acc": 0.97976701, "grad_norm": 2.07758451, "learning_rate": 1.537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232101, "epoch": 3.71789008, "global_step/max_steps": "48775/65595", "percentage": "74.36%", "elapsed_time": "2d 10h 22m 23s", "remaining_time": "20h 7m 47s"}
+{"loss": 0.06241624, "token_acc": 0.97932917, "grad_norm": 1.32956636, "learning_rate": 1.536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232107, "epoch": 3.71827121, "global_step/max_steps": "48780/65595", "percentage": "74.37%", "elapsed_time": "2d 10h 22m 39s", "remaining_time": "20h 7m 24s"}
+{"loss": 0.05669777, "token_acc": 0.98066355, "grad_norm": 0.76724643, "learning_rate": 1.535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232111, "epoch": 3.71865234, "global_step/max_steps": "48785/65595", "percentage": "74.37%", "elapsed_time": "2d 10h 22m 57s", "remaining_time": "20h 7m 1s"}
+{"loss": 0.08064031, "token_acc": 0.98023912, "grad_norm": 1.23555481, "learning_rate": 1.534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232114, "epoch": 3.71903346, "global_step/max_steps": "48790/65595", "percentage": "74.38%", "elapsed_time": "2d 10h 23m 16s", "remaining_time": "20h 6m 38s"}
+{"loss": 0.05586666, "token_acc": 0.98066095, "grad_norm": 0.43897045, "learning_rate": 1.533e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232121, "epoch": 3.71941459, "global_step/max_steps": "48795/65595", "percentage": "74.39%", "elapsed_time": "2d 10h 23m 31s", "remaining_time": "20h 6m 15s"}
+{"loss": 0.07089147, "token_acc": 0.9759848, "grad_norm": 0.70859504, "learning_rate": 1.532e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232125, "epoch": 3.71979572, "global_step/max_steps": "48800/65595", "percentage": "74.40%", "elapsed_time": "2d 10h 23m 49s", "remaining_time": "20h 5m 52s"}
+{"eval_loss": 0.05823696, "eval_token_acc": 0.97623637, "eval_runtime": 218.6123, "eval_samples_per_second": 2.424, "eval_steps_per_second": 2.424, "epoch": 3.71979572, "global_step/max_steps": "48800/65595", "percentage": "74.40%", "elapsed_time": "2d 10h 27m 28s", "remaining_time": "20h 7m 7s"}
+{"loss": 0.05939229, "token_acc": 0.97616477, "grad_norm": 0.91546136, "learning_rate": 1.531e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231888, "epoch": 3.72017684, "global_step/max_steps": "48805/65595", "percentage": "74.40%", "elapsed_time": "2d 10h 27m 46s", "remaining_time": "20h 6m 45s"}
+{"loss": 0.0306995, "token_acc": 0.98584475, "grad_norm": 1.00253308, "learning_rate": 1.53e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231894, "epoch": 3.72055797, "global_step/max_steps": "48810/65595", "percentage": "74.41%", "elapsed_time": "2d 10h 28m 2s", "remaining_time": "20h 6m 21s"}
+{"loss": 0.05340126, "token_acc": 0.97627894, "grad_norm": 0.93217647, "learning_rate": 1.53e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2319, "epoch": 3.7209391, "global_step/max_steps": "48815/65595", "percentage": "74.42%", "elapsed_time": "2d 10h 28m 17s", "remaining_time": "20h 5m 57s"}
+{"loss": 0.04192763, "token_acc": 0.98551665, "grad_norm": 1.14128804, "learning_rate": 1.529e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231905, "epoch": 3.72132022, "global_step/max_steps": "48820/65595", "percentage": "74.43%", "elapsed_time": "2d 10h 28m 35s", "remaining_time": "20h 5m 34s"}
+{"loss": 0.07262084, "token_acc": 0.97365664, "grad_norm": 0.68522352, "learning_rate": 1.528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231909, "epoch": 3.72170135, "global_step/max_steps": "48825/65595", "percentage": "74.43%", "elapsed_time": "2d 10h 28m 52s", "remaining_time": "20h 5m 11s"}
+{"loss": 0.04360326, "token_acc": 0.98198818, "grad_norm": 1.4083612, "learning_rate": 1.527e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231912, "epoch": 3.72208248, "global_step/max_steps": "48830/65595", "percentage": "74.44%", "elapsed_time": "2d 10h 29m 12s", "remaining_time": "20h 4m 49s"}
+{"loss": 0.03207943, "token_acc": 0.98641304, "grad_norm": 0.81901717, "learning_rate": 1.526e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231917, "epoch": 3.7224636, "global_step/max_steps": "48835/65595", "percentage": "74.45%", "elapsed_time": "2d 10h 29m 29s", "remaining_time": "20h 4m 26s"}
+{"loss": 0.03263352, "token_acc": 0.98893146, "grad_norm": 0.84721977, "learning_rate": 1.525e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231923, "epoch": 3.72284473, "global_step/max_steps": "48840/65595", "percentage": "74.46%", "elapsed_time": "2d 10h 29m 45s", "remaining_time": "20h 4m 3s"}
+{"loss": 0.07745181, "token_acc": 0.97659849, "grad_norm": 1.22709405, "learning_rate": 1.524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231927, "epoch": 3.72322586, "global_step/max_steps": "48845/65595", "percentage": "74.46%", "elapsed_time": "2d 10h 30m 3s", "remaining_time": "20h 3m 40s"}
+{"loss": 0.0402696, "token_acc": 0.98318191, "grad_norm": 1.45113075, "learning_rate": 1.524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231932, "epoch": 3.72360698, "global_step/max_steps": "48850/65595", "percentage": "74.47%", "elapsed_time": "2d 10h 30m 19s", "remaining_time": "20h 3m 17s"}
+{"loss": 0.05356399, "token_acc": 0.97508039, "grad_norm": 1.47023201, "learning_rate": 1.523e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23194, "epoch": 3.72398811, "global_step/max_steps": "48855/65595", "percentage": "74.48%", "elapsed_time": "2d 10h 30m 33s", "remaining_time": "20h 2m 52s"}
+{"loss": 0.05711515, "token_acc": 0.97012163, "grad_norm": 1.21573043, "learning_rate": 1.522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231946, "epoch": 3.72436924, "global_step/max_steps": "48860/65595", "percentage": "74.49%", "elapsed_time": "2d 10h 30m 50s", "remaining_time": "20h 2m 29s"}
+{"loss": 0.04022567, "token_acc": 0.98347595, "grad_norm": 1.16502464, "learning_rate": 1.521e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231949, "epoch": 3.72475036, "global_step/max_steps": "48865/65595", "percentage": "74.50%", "elapsed_time": "2d 10h 31m 9s", "remaining_time": "20h 2m 7s"}
+{"loss": 0.05265584, "token_acc": 0.97647059, "grad_norm": 0.164418, "learning_rate": 1.52e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231958, "epoch": 3.72513149, "global_step/max_steps": "48870/65595", "percentage": "74.50%", "elapsed_time": "2d 10h 31m 22s", "remaining_time": "20h 1m 42s"}
+{"loss": 0.02856689, "token_acc": 0.98713911, "grad_norm": 0.94771099, "learning_rate": 1.519e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231964, "epoch": 3.72551262, "global_step/max_steps": "48875/65595", "percentage": "74.51%", "elapsed_time": "2d 10h 31m 38s", "remaining_time": "20h 1m 19s"}
+{"loss": 0.04680991, "token_acc": 0.97700472, "grad_norm": 1.09792936, "learning_rate": 1.518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231972, "epoch": 3.72589374, "global_step/max_steps": "48880/65595", "percentage": "74.52%", "elapsed_time": "2d 10h 31m 52s", "remaining_time": "20h 0m 55s"}
+{"loss": 0.03163528, "token_acc": 0.98765563, "grad_norm": 0.92500836, "learning_rate": 1.518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231973, "epoch": 3.72627487, "global_step/max_steps": "48885/65595", "percentage": "74.53%", "elapsed_time": "2d 10h 32m 13s", "remaining_time": "20h 0m 33s"}
+{"loss": 0.0703208, "token_acc": 0.97941903, "grad_norm": 1.57385612, "learning_rate": 1.517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231977, "epoch": 3.726656, "global_step/max_steps": "48890/65595", "percentage": "74.53%", "elapsed_time": "2d 10h 32m 31s", "remaining_time": "20h 0m 10s"}
+{"loss": 0.06170883, "token_acc": 0.97990828, "grad_norm": 1.90034533, "learning_rate": 1.516e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231983, "epoch": 3.72703712, "global_step/max_steps": "48895/65595", "percentage": "74.54%", "elapsed_time": "2d 10h 32m 47s", "remaining_time": "19h 59m 47s"}
+{"loss": 0.05354097, "token_acc": 0.97859327, "grad_norm": 1.88509905, "learning_rate": 1.515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23199, "epoch": 3.72741825, "global_step/max_steps": "48900/65595", "percentage": "74.55%", "elapsed_time": "2d 10h 33m 2s", "remaining_time": "19h 59m 23s"}
+{"loss": 0.04580946, "token_acc": 0.9786795, "grad_norm": 0.77549553, "learning_rate": 1.514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231995, "epoch": 3.72779937, "global_step/max_steps": "48905/65595", "percentage": "74.56%", "elapsed_time": "2d 10h 33m 19s", "remaining_time": "19h 59m 0s"}
+{"loss": 0.04675309, "token_acc": 0.9845546, "grad_norm": 0.94320214, "learning_rate": 1.513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232002, "epoch": 3.7281805, "global_step/max_steps": "48910/65595", "percentage": "74.56%", "elapsed_time": "2d 10h 33m 34s", "remaining_time": "19h 58m 36s"}
+{"loss": 0.05537646, "token_acc": 0.96653584, "grad_norm": 1.04064429, "learning_rate": 1.512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232007, "epoch": 3.72856163, "global_step/max_steps": "48915/65595", "percentage": "74.57%", "elapsed_time": "2d 10h 33m 51s", "remaining_time": "19h 58m 13s"}
+{"loss": 0.04712206, "token_acc": 0.98458527, "grad_norm": 1.18622911, "learning_rate": 1.512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232014, "epoch": 3.72894275, "global_step/max_steps": "48920/65595", "percentage": "74.58%", "elapsed_time": "2d 10h 34m 7s", "remaining_time": "19h 57m 49s"}
+{"loss": 0.0856269, "token_acc": 0.9679784, "grad_norm": 1.96118319, "learning_rate": 1.511e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232021, "epoch": 3.72932388, "global_step/max_steps": "48925/65595", "percentage": "74.59%", "elapsed_time": "2d 10h 34m 22s", "remaining_time": "19h 57m 26s"}
+{"loss": 0.05807532, "token_acc": 0.97654418, "grad_norm": 0.66852748, "learning_rate": 1.51e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232026, "epoch": 3.72970501, "global_step/max_steps": "48930/65595", "percentage": "74.59%", "elapsed_time": "2d 10h 34m 39s", "remaining_time": "19h 57m 3s"}
+{"loss": 0.04090988, "token_acc": 0.98055152, "grad_norm": 0.7071113, "learning_rate": 1.509e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232032, "epoch": 3.73008613, "global_step/max_steps": "48935/65595", "percentage": "74.60%", "elapsed_time": "2d 10h 34m 55s", "remaining_time": "19h 56m 39s"}
+{"loss": 0.03296992, "token_acc": 0.98694078, "grad_norm": 0.30112958, "learning_rate": 1.508e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232035, "epoch": 3.73046726, "global_step/max_steps": "48940/65595", "percentage": "74.61%", "elapsed_time": "2d 10h 35m 13s", "remaining_time": "19h 56m 17s"}
+{"loss": 0.04842948, "token_acc": 0.98358827, "grad_norm": 0.9027918, "learning_rate": 1.507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232037, "epoch": 3.73084839, "global_step/max_steps": "48945/65595", "percentage": "74.62%", "elapsed_time": "2d 10h 35m 34s", "remaining_time": "19h 55m 55s"}
+{"loss": 0.07208557, "token_acc": 0.97115385, "grad_norm": 1.70667422, "learning_rate": 1.506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232044, "epoch": 3.73122951, "global_step/max_steps": "48950/65595", "percentage": "74.62%", "elapsed_time": "2d 10h 35m 49s", "remaining_time": "19h 55m 31s"}
+{"loss": 0.0706888, "token_acc": 0.98002689, "grad_norm": 0.68710959, "learning_rate": 1.506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232049, "epoch": 3.73161064, "global_step/max_steps": "48955/65595", "percentage": "74.63%", "elapsed_time": "2d 10h 36m 5s", "remaining_time": "19h 55m 8s"}
+{"loss": 0.06227047, "token_acc": 0.97380353, "grad_norm": 1.05842829, "learning_rate": 1.505e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232055, "epoch": 3.73199177, "global_step/max_steps": "48960/65595", "percentage": "74.64%", "elapsed_time": "2d 10h 36m 21s", "remaining_time": "19h 54m 44s"}
+{"loss": 0.0411292, "token_acc": 0.98304618, "grad_norm": 0.75080597, "learning_rate": 1.504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232058, "epoch": 3.73237289, "global_step/max_steps": "48965/65595", "percentage": "74.65%", "elapsed_time": "2d 10h 36m 40s", "remaining_time": "19h 54m 22s"}
+{"loss": 0.06964746, "token_acc": 0.97484277, "grad_norm": 0.70233333, "learning_rate": 1.503e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232062, "epoch": 3.73275402, "global_step/max_steps": "48970/65595", "percentage": "74.66%", "elapsed_time": "2d 10h 36m 59s", "remaining_time": "19h 53m 59s"}
+{"loss": 0.0504751, "token_acc": 0.97248034, "grad_norm": 0.11623257, "learning_rate": 1.502e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232066, "epoch": 3.73313515, "global_step/max_steps": "48975/65595", "percentage": "74.66%", "elapsed_time": "2d 10h 37m 16s", "remaining_time": "19h 53m 36s"}
+{"loss": 0.03263394, "token_acc": 0.98904382, "grad_norm": 1.45459998, "learning_rate": 1.501e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232075, "epoch": 3.73351627, "global_step/max_steps": "48980/65595", "percentage": "74.67%", "elapsed_time": "2d 10h 37m 30s", "remaining_time": "19h 53m 12s"}
+{"loss": 0.04062048, "token_acc": 0.98383459, "grad_norm": 1.16449463, "learning_rate": 1.5e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232079, "epoch": 3.7338974, "global_step/max_steps": "48985/65595", "percentage": "74.68%", "elapsed_time": "2d 10h 37m 47s", "remaining_time": "19h 52m 49s"}
+{"loss": 0.0299183, "token_acc": 0.98719814, "grad_norm": 0.8848967, "learning_rate": 1.5e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232086, "epoch": 3.73427853, "global_step/max_steps": "48990/65595", "percentage": "74.69%", "elapsed_time": "2d 10h 38m 3s", "remaining_time": "19h 52m 25s"}
+{"loss": 0.06936917, "token_acc": 0.97329144, "grad_norm": 1.75583768, "learning_rate": 1.499e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232091, "epoch": 3.73465965, "global_step/max_steps": "48995/65595", "percentage": "74.69%", "elapsed_time": "2d 10h 38m 19s", "remaining_time": "19h 52m 2s"}
+{"loss": 0.07226569, "token_acc": 0.97136085, "grad_norm": 3.19768167, "learning_rate": 1.498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232097, "epoch": 3.73504078, "global_step/max_steps": "49000/65595", "percentage": "74.70%", "elapsed_time": "2d 10h 38m 36s", "remaining_time": "19h 51m 39s"}
+{"eval_loss": 0.05701331, "eval_token_acc": 0.97682369, "eval_runtime": 220.1882, "eval_samples_per_second": 2.407, "eval_steps_per_second": 2.407, "epoch": 3.73504078, "global_step/max_steps": "49000/65595", "percentage": "74.70%", "elapsed_time": "2d 10h 42m 16s", "remaining_time": "19h 52m 54s"}
+{"loss": 0.04248246, "token_acc": 0.97699709, "grad_norm": 0.52271843, "learning_rate": 1.497e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231861, "epoch": 3.73542191, "global_step/max_steps": "49005/65595", "percentage": "74.71%", "elapsed_time": "2d 10h 42m 32s", "remaining_time": "19h 52m 30s"}
+{"loss": 0.0547295, "token_acc": 0.97535934, "grad_norm": 1.18771982, "learning_rate": 1.496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231865, "epoch": 3.73580303, "global_step/max_steps": "49010/65595", "percentage": "74.72%", "elapsed_time": "2d 10h 42m 50s", "remaining_time": "19h 52m 7s"}
+{"loss": 0.0632141, "token_acc": 0.97307511, "grad_norm": 1.73516476, "learning_rate": 1.495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23187, "epoch": 3.73618416, "global_step/max_steps": "49015/65595", "percentage": "74.72%", "elapsed_time": "2d 10h 43m 7s", "remaining_time": "19h 51m 44s"}
+{"loss": 0.07832804, "token_acc": 0.969808, "grad_norm": 0.98213363, "learning_rate": 1.494e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231874, "epoch": 3.73656529, "global_step/max_steps": "49020/65595", "percentage": "74.73%", "elapsed_time": "2d 10h 43m 25s", "remaining_time": "19h 51m 21s"}
+{"loss": 0.04839941, "token_acc": 0.98286629, "grad_norm": 0.69125676, "learning_rate": 1.494e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231878, "epoch": 3.73694641, "global_step/max_steps": "49025/65595", "percentage": "74.74%", "elapsed_time": "2d 10h 43m 43s", "remaining_time": "19h 50m 59s"}
+{"loss": 0.05730387, "token_acc": 0.98446267, "grad_norm": 1.68516195, "learning_rate": 1.493e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231884, "epoch": 3.73732754, "global_step/max_steps": "49030/65595", "percentage": "74.75%", "elapsed_time": "2d 10h 43m 59s", "remaining_time": "19h 50m 35s"}
+{"loss": 0.03656272, "token_acc": 0.9838403, "grad_norm": 1.06787121, "learning_rate": 1.492e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231889, "epoch": 3.73770867, "global_step/max_steps": "49035/65595", "percentage": "74.75%", "elapsed_time": "2d 10h 44m 16s", "remaining_time": "19h 50m 12s"}
+{"loss": 0.06931053, "token_acc": 0.97868928, "grad_norm": 4.60599041, "learning_rate": 1.491e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231895, "epoch": 3.73808979, "global_step/max_steps": "49040/65595", "percentage": "74.76%", "elapsed_time": "2d 10h 44m 33s", "remaining_time": "19h 49m 49s"}
+{"loss": 0.07509937, "token_acc": 0.97826831, "grad_norm": 3.14937329, "learning_rate": 1.49e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231898, "epoch": 3.73847092, "global_step/max_steps": "49045/65595", "percentage": "74.77%", "elapsed_time": "2d 10h 44m 51s", "remaining_time": "19h 49m 26s"}
+{"loss": 0.04620594, "token_acc": 0.980323, "grad_norm": 0.00081217, "learning_rate": 1.489e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231903, "epoch": 3.73885205, "global_step/max_steps": "49050/65595", "percentage": "74.78%", "elapsed_time": "2d 10h 45m 8s", "remaining_time": "19h 49m 3s"}
+{"loss": 0.04439484, "token_acc": 0.98835275, "grad_norm": 1.22935569, "learning_rate": 1.488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231906, "epoch": 3.73923317, "global_step/max_steps": "49055/65595", "percentage": "74.78%", "elapsed_time": "2d 10h 45m 27s", "remaining_time": "19h 48m 41s"}
+{"loss": 0.07393455, "token_acc": 0.9714384, "grad_norm": 1.741413, "learning_rate": 1.488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231913, "epoch": 3.7396143, "global_step/max_steps": "49060/65595", "percentage": "74.79%", "elapsed_time": "2d 10h 45m 42s", "remaining_time": "19h 48m 17s"}
+{"loss": 0.05280392, "token_acc": 0.98163779, "grad_norm": 1.16274118, "learning_rate": 1.487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231916, "epoch": 3.73999543, "global_step/max_steps": "49065/65595", "percentage": "74.80%", "elapsed_time": "2d 10h 46m 1s", "remaining_time": "19h 47m 55s"}
+{"loss": 0.04675132, "token_acc": 0.98363727, "grad_norm": 0.54014653, "learning_rate": 1.486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231918, "epoch": 3.74037655, "global_step/max_steps": "49070/65595", "percentage": "74.81%", "elapsed_time": "2d 10h 46m 21s", "remaining_time": "19h 47m 32s"}
+{"loss": 0.04715049, "token_acc": 0.98194774, "grad_norm": 1.53490162, "learning_rate": 1.485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231925, "epoch": 3.74075768, "global_step/max_steps": "49075/65595", "percentage": "74.82%", "elapsed_time": "2d 10h 46m 36s", "remaining_time": "19h 47m 9s"}
+{"loss": 0.04967132, "token_acc": 0.98048473, "grad_norm": 2.01247501, "learning_rate": 1.484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231932, "epoch": 3.74113881, "global_step/max_steps": "49080/65595", "percentage": "74.82%", "elapsed_time": "2d 10h 46m 51s", "remaining_time": "19h 46m 45s"}
+{"loss": 0.08076804, "token_acc": 0.97054541, "grad_norm": 0.93633771, "learning_rate": 1.483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231931, "epoch": 3.74151993, "global_step/max_steps": "49085/65595", "percentage": "74.83%", "elapsed_time": "2d 10h 47m 13s", "remaining_time": "19h 46m 24s"}
+{"loss": 0.06936994, "token_acc": 0.98183526, "grad_norm": 2.39827943, "learning_rate": 1.483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231938, "epoch": 3.74190106, "global_step/max_steps": "49090/65595", "percentage": "74.84%", "elapsed_time": "2d 10h 47m 29s", "remaining_time": "19h 46m 0s"}
+{"loss": 0.06697304, "token_acc": 0.97395929, "grad_norm": 2.48771238, "learning_rate": 1.482e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231944, "epoch": 3.74228219, "global_step/max_steps": "49095/65595", "percentage": "74.85%", "elapsed_time": "2d 10h 47m 45s", "remaining_time": "19h 45m 37s"}
+{"loss": 0.05782182, "token_acc": 0.97330915, "grad_norm": 1.03230906, "learning_rate": 1.481e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23195, "epoch": 3.74266331, "global_step/max_steps": "49100/65595", "percentage": "74.85%", "elapsed_time": "2d 10h 48m 1s", "remaining_time": "19h 45m 13s"}
+{"loss": 0.08327438, "token_acc": 0.97627248, "grad_norm": 1.21882653, "learning_rate": 1.48e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231958, "epoch": 3.74304444, "global_step/max_steps": "49105/65595", "percentage": "74.86%", "elapsed_time": "2d 10h 48m 15s", "remaining_time": "19h 44m 49s"}
+{"loss": 0.0709123, "token_acc": 0.97733413, "grad_norm": 1.10949755, "learning_rate": 1.479e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23196, "epoch": 3.74342557, "global_step/max_steps": "49110/65595", "percentage": "74.87%", "elapsed_time": "2d 10h 48m 35s", "remaining_time": "19h 44m 27s"}
+{"loss": 0.04426901, "token_acc": 0.98426371, "grad_norm": 0.59821665, "learning_rate": 1.478e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231964, "epoch": 3.74380669, "global_step/max_steps": "49115/65595", "percentage": "74.88%", "elapsed_time": "2d 10h 48m 53s", "remaining_time": "19h 44m 4s"}
+{"loss": 0.03176188, "token_acc": 0.9852132, "grad_norm": 1.73559117, "learning_rate": 1.477e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231971, "epoch": 3.74418782, "global_step/max_steps": "49120/65595", "percentage": "74.88%", "elapsed_time": "2d 10h 49m 8s", "remaining_time": "19h 43m 41s"}
+{"loss": 0.07998482, "token_acc": 0.97307898, "grad_norm": 2.51089787, "learning_rate": 1.477e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231975, "epoch": 3.74456895, "global_step/max_steps": "49125/65595", "percentage": "74.89%", "elapsed_time": "2d 10h 49m 26s", "remaining_time": "19h 43m 18s"}
+{"loss": 0.1135712, "token_acc": 0.97072522, "grad_norm": 1.53380203, "learning_rate": 1.476e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231979, "epoch": 3.74495007, "global_step/max_steps": "49130/65595", "percentage": "74.90%", "elapsed_time": "2d 10h 49m 43s", "remaining_time": "19h 42m 55s"}
+{"loss": 0.06728857, "token_acc": 0.97155282, "grad_norm": 1.33338094, "learning_rate": 1.475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231984, "epoch": 3.7453312, "global_step/max_steps": "49135/65595", "percentage": "74.91%", "elapsed_time": "2d 10h 50m 1s", "remaining_time": "19h 42m 32s"}
+{"loss": 0.0374154, "token_acc": 0.98481822, "grad_norm": 1.98477113, "learning_rate": 1.474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231992, "epoch": 3.74571233, "global_step/max_steps": "49140/65595", "percentage": "74.91%", "elapsed_time": "2d 10h 50m 15s", "remaining_time": "19h 42m 8s"}
+{"loss": 0.03810337, "token_acc": 0.98829268, "grad_norm": 0.65275323, "learning_rate": 1.473e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231998, "epoch": 3.74609345, "global_step/max_steps": "49145/65595", "percentage": "74.92%", "elapsed_time": "2d 10h 50m 31s", "remaining_time": "19h 41m 45s"}
+{"loss": 0.05310578, "token_acc": 0.97950328, "grad_norm": 0.92041081, "learning_rate": 1.472e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231998, "epoch": 3.74647458, "global_step/max_steps": "49150/65595", "percentage": "74.93%", "elapsed_time": "2d 10h 50m 52s", "remaining_time": "19h 41m 23s"}
+{"loss": 0.08305365, "token_acc": 0.96485867, "grad_norm": 1.69080949, "learning_rate": 1.471e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232006, "epoch": 3.74685571, "global_step/max_steps": "49155/65595", "percentage": "74.94%", "elapsed_time": "2d 10h 51m 7s", "remaining_time": "19h 40m 59s"}
+{"loss": 0.06048931, "token_acc": 0.98123711, "grad_norm": 0.6499576, "learning_rate": 1.471e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232012, "epoch": 3.74723683, "global_step/max_steps": "49160/65595", "percentage": "74.94%", "elapsed_time": "2d 10h 51m 23s", "remaining_time": "19h 40m 36s"}
+{"loss": 0.05918506, "token_acc": 0.9790621, "grad_norm": 1.49509764, "learning_rate": 1.47e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232015, "epoch": 3.74761796, "global_step/max_steps": "49165/65595", "percentage": "74.95%", "elapsed_time": "2d 10h 51m 41s", "remaining_time": "19h 40m 13s"}
+{"loss": 0.03078023, "token_acc": 0.98672671, "grad_norm": 1.38003373, "learning_rate": 1.469e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232021, "epoch": 3.74799909, "global_step/max_steps": "49170/65595", "percentage": "74.96%", "elapsed_time": "2d 10h 51m 58s", "remaining_time": "19h 39m 50s"}
+{"loss": 0.06265894, "token_acc": 0.98101519, "grad_norm": 1.0513643, "learning_rate": 1.468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232025, "epoch": 3.74838021, "global_step/max_steps": "49175/65595", "percentage": "74.97%", "elapsed_time": "2d 10h 52m 15s", "remaining_time": "19h 39m 27s"}
+{"loss": 0.07429358, "token_acc": 0.9727784, "grad_norm": 1.27211487, "learning_rate": 1.467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232031, "epoch": 3.74876134, "global_step/max_steps": "49180/65595", "percentage": "74.98%", "elapsed_time": "2d 10h 52m 32s", "remaining_time": "19h 39m 4s"}
+{"loss": 0.0548905, "token_acc": 0.98157548, "grad_norm": 2.05780625, "learning_rate": 1.466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232034, "epoch": 3.74914247, "global_step/max_steps": "49185/65595", "percentage": "74.98%", "elapsed_time": "2d 10h 52m 50s", "remaining_time": "19h 38m 41s"}
+{"loss": 0.07350223, "token_acc": 0.97113799, "grad_norm": 1.94891334, "learning_rate": 1.466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23204, "epoch": 3.74952359, "global_step/max_steps": "49190/65595", "percentage": "74.99%", "elapsed_time": "2d 10h 53m 6s", "remaining_time": "19h 38m 18s"}
+{"loss": 0.04233295, "token_acc": 0.98512571, "grad_norm": 0.42155614, "learning_rate": 1.465e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232042, "epoch": 3.74990472, "global_step/max_steps": "49195/65595", "percentage": "75.00%", "elapsed_time": "2d 10h 53m 26s", "remaining_time": "19h 37m 55s"}
+{"loss": 0.0547214, "token_acc": 0.97743984, "grad_norm": 2.10881305, "learning_rate": 1.464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232047, "epoch": 3.75028584, "global_step/max_steps": "49200/65595", "percentage": "75.01%", "elapsed_time": "2d 10h 53m 43s", "remaining_time": "19h 37m 33s"}
+{"eval_loss": 0.05730169, "eval_token_acc": 0.97683121, "eval_runtime": 220.6745, "eval_samples_per_second": 2.402, "eval_steps_per_second": 2.402, "epoch": 3.75028584, "global_step/max_steps": "49200/65595", "percentage": "75.01%", "elapsed_time": "2d 10h 57m 24s", "remaining_time": "19h 38m 46s"}
+{"loss": 0.04340276, "token_acc": 0.977139, "grad_norm": 3.63464308, "learning_rate": 1.463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231812, "epoch": 3.75066697, "global_step/max_steps": "49205/65595", "percentage": "75.01%", "elapsed_time": "2d 10h 57m 40s", "remaining_time": "19h 38m 23s"}
+{"loss": 0.07287706, "token_acc": 0.97382199, "grad_norm": 1.18491244, "learning_rate": 1.462e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231818, "epoch": 3.7510481, "global_step/max_steps": "49210/65595", "percentage": "75.02%", "elapsed_time": "2d 10h 57m 56s", "remaining_time": "19h 37m 59s"}
+{"loss": 0.04241861, "token_acc": 0.97853206, "grad_norm": 1.23483455, "learning_rate": 1.461e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231825, "epoch": 3.75142922, "global_step/max_steps": "49215/65595", "percentage": "75.03%", "elapsed_time": "2d 10h 58m 11s", "remaining_time": "19h 37m 36s"}
+{"loss": 0.04081548, "token_acc": 0.98770034, "grad_norm": 1.155038, "learning_rate": 1.46e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231828, "epoch": 3.75181035, "global_step/max_steps": "49220/65595", "percentage": "75.04%", "elapsed_time": "2d 10h 58m 30s", "remaining_time": "19h 37m 13s"}
+{"loss": 0.04675428, "token_acc": 0.9850237, "grad_norm": 2.52783227, "learning_rate": 1.46e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231832, "epoch": 3.75219148, "global_step/max_steps": "49225/65595", "percentage": "75.04%", "elapsed_time": "2d 10h 58m 48s", "remaining_time": "19h 36m 50s"}
+{"loss": 0.04871064, "token_acc": 0.97984395, "grad_norm": 1.41944647, "learning_rate": 1.459e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231839, "epoch": 3.7525726, "global_step/max_steps": "49230/65595", "percentage": "75.05%", "elapsed_time": "2d 10h 59m 3s", "remaining_time": "19h 36m 27s"}
+{"loss": 0.04832919, "token_acc": 0.97885439, "grad_norm": 0.90092826, "learning_rate": 1.458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231841, "epoch": 3.75295373, "global_step/max_steps": "49235/65595", "percentage": "75.06%", "elapsed_time": "2d 10h 59m 23s", "remaining_time": "19h 36m 4s"}
+{"loss": 0.06057638, "token_acc": 0.97559024, "grad_norm": 1.37731338, "learning_rate": 1.457e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231846, "epoch": 3.75333486, "global_step/max_steps": "49240/65595", "percentage": "75.07%", "elapsed_time": "2d 10h 59m 40s", "remaining_time": "19h 35m 41s"}
+{"loss": 0.04279968, "token_acc": 0.97767967, "grad_norm": 0.94741261, "learning_rate": 1.456e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231853, "epoch": 3.75371598, "global_step/max_steps": "49245/65595", "percentage": "75.07%", "elapsed_time": "2d 10h 59m 55s", "remaining_time": "19h 35m 18s"}
+{"loss": 0.04951458, "token_acc": 0.97955573, "grad_norm": 0.92183185, "learning_rate": 1.455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231858, "epoch": 3.75409711, "global_step/max_steps": "49250/65595", "percentage": "75.08%", "elapsed_time": "2d 11h 0m 12s", "remaining_time": "19h 34m 55s"}
+{"loss": 0.08016551, "token_acc": 0.95776135, "grad_norm": 0.51531035, "learning_rate": 1.455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231866, "epoch": 3.75447824, "global_step/max_steps": "49255/65595", "percentage": "75.09%", "elapsed_time": "2d 11h 0m 26s", "remaining_time": "19h 34m 30s"}
+{"loss": 0.05409865, "token_acc": 0.97518952, "grad_norm": 1.81083989, "learning_rate": 1.454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231872, "epoch": 3.75485936, "global_step/max_steps": "49260/65595", "percentage": "75.10%", "elapsed_time": "2d 11h 0m 42s", "remaining_time": "19h 34m 7s"}
+{"loss": 0.05782238, "token_acc": 0.97865327, "grad_norm": 0.6787076, "learning_rate": 1.453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231877, "epoch": 3.75524049, "global_step/max_steps": "49265/65595", "percentage": "75.10%", "elapsed_time": "2d 11h 0m 59s", "remaining_time": "19h 33m 44s"}
+{"loss": 0.06932458, "token_acc": 0.97925969, "grad_norm": 3.22431946, "learning_rate": 1.452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231878, "epoch": 3.75562162, "global_step/max_steps": "49270/65595", "percentage": "75.11%", "elapsed_time": "2d 11h 1m 19s", "remaining_time": "19h 33m 22s"}
+{"loss": 0.08610451, "token_acc": 0.96426432, "grad_norm": 1.02181399, "learning_rate": 1.451e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231884, "epoch": 3.75600274, "global_step/max_steps": "49275/65595", "percentage": "75.12%", "elapsed_time": "2d 11h 1m 35s", "remaining_time": "19h 32m 59s"}
+{"loss": 0.04096459, "token_acc": 0.98489996, "grad_norm": 0.95610058, "learning_rate": 1.45e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231892, "epoch": 3.75638387, "global_step/max_steps": "49280/65595", "percentage": "75.13%", "elapsed_time": "2d 11h 1m 50s", "remaining_time": "19h 32m 35s"}
+{"loss": 0.06224585, "token_acc": 0.9734623, "grad_norm": 2.19660854, "learning_rate": 1.449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231897, "epoch": 3.756765, "global_step/max_steps": "49285/65595", "percentage": "75.14%", "elapsed_time": "2d 11h 2m 7s", "remaining_time": "19h 32m 12s"}
+{"loss": 0.04344975, "token_acc": 0.98194566, "grad_norm": 1.33037508, "learning_rate": 1.449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231901, "epoch": 3.75714612, "global_step/max_steps": "49290/65595", "percentage": "75.14%", "elapsed_time": "2d 11h 2m 25s", "remaining_time": "19h 31m 49s"}
+{"loss": 0.0364939, "token_acc": 0.98460775, "grad_norm": 1.4644326, "learning_rate": 1.448e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231909, "epoch": 3.75752725, "global_step/max_steps": "49295/65595", "percentage": "75.15%", "elapsed_time": "2d 11h 2m 39s", "remaining_time": "19h 31m 25s"}
+{"loss": 0.04721782, "token_acc": 0.98001224, "grad_norm": 1.57610476, "learning_rate": 1.447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231915, "epoch": 3.75790838, "global_step/max_steps": "49300/65595", "percentage": "75.16%", "elapsed_time": "2d 11h 2m 55s", "remaining_time": "19h 31m 2s"}
+{"loss": 0.05116929, "token_acc": 0.97801205, "grad_norm": 1.71894681, "learning_rate": 1.446e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231921, "epoch": 3.7582895, "global_step/max_steps": "49305/65595", "percentage": "75.17%", "elapsed_time": "2d 11h 3m 11s", "remaining_time": "19h 30m 38s"}
+{"loss": 0.03652292, "token_acc": 0.98612593, "grad_norm": 0.82801199, "learning_rate": 1.445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231927, "epoch": 3.75867063, "global_step/max_steps": "49310/65595", "percentage": "75.17%", "elapsed_time": "2d 11h 3m 27s", "remaining_time": "19h 30m 15s"}
+{"loss": 0.07219944, "token_acc": 0.97089079, "grad_norm": 1.17655003, "learning_rate": 1.444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231933, "epoch": 3.75905176, "global_step/max_steps": "49315/65595", "percentage": "75.18%", "elapsed_time": "2d 11h 3m 43s", "remaining_time": "19h 29m 51s"}
+{"loss": 0.06351424, "token_acc": 0.97561819, "grad_norm": 1.13833058, "learning_rate": 1.444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231937, "epoch": 3.75943288, "global_step/max_steps": "49320/65595", "percentage": "75.19%", "elapsed_time": "2d 11h 4m 1s", "remaining_time": "19h 29m 29s"}
+{"loss": 0.09212472, "token_acc": 0.96285714, "grad_norm": 2.17347383, "learning_rate": 1.443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231945, "epoch": 3.75981401, "global_step/max_steps": "49325/65595", "percentage": "75.20%", "elapsed_time": "2d 11h 4m 16s", "remaining_time": "19h 29m 5s"}
+{"loss": 0.08031911, "token_acc": 0.97174294, "grad_norm": 1.79891312, "learning_rate": 1.442e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231951, "epoch": 3.76019514, "global_step/max_steps": "49330/65595", "percentage": "75.20%", "elapsed_time": "2d 11h 4m 31s", "remaining_time": "19h 28m 41s"}
+{"loss": 0.07298183, "token_acc": 0.96705964, "grad_norm": 2.31394577, "learning_rate": 1.441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231959, "epoch": 3.76057626, "global_step/max_steps": "49335/65595", "percentage": "75.21%", "elapsed_time": "2d 11h 4m 46s", "remaining_time": "19h 28m 17s"}
+{"loss": 0.03048735, "token_acc": 0.98565666, "grad_norm": 1.02012396, "learning_rate": 1.44e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231965, "epoch": 3.76095739, "global_step/max_steps": "49340/65595", "percentage": "75.22%", "elapsed_time": "2d 11h 5m 2s", "remaining_time": "19h 27m 54s"}
+{"loss": 0.06002195, "token_acc": 0.977622, "grad_norm": 0.76940024, "learning_rate": 1.439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231967, "epoch": 3.76133852, "global_step/max_steps": "49345/65595", "percentage": "75.23%", "elapsed_time": "2d 11h 5m 22s", "remaining_time": "19h 27m 32s"}
+{"loss": 0.05153991, "token_acc": 0.98046181, "grad_norm": 1.70794904, "learning_rate": 1.439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231972, "epoch": 3.76171964, "global_step/max_steps": "49350/65595", "percentage": "75.23%", "elapsed_time": "2d 11h 5m 38s", "remaining_time": "19h 27m 9s"}
+{"loss": 0.04232953, "token_acc": 0.97807468, "grad_norm": 0.2575945, "learning_rate": 1.438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231978, "epoch": 3.76210077, "global_step/max_steps": "49355/65595", "percentage": "75.24%", "elapsed_time": "2d 11h 5m 54s", "remaining_time": "19h 26m 45s"}
+{"loss": 0.05914463, "token_acc": 0.98299877, "grad_norm": 1.98462439, "learning_rate": 1.437e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231984, "epoch": 3.7624819, "global_step/max_steps": "49360/65595", "percentage": "75.25%", "elapsed_time": "2d 11h 6m 10s", "remaining_time": "19h 26m 22s"}
+{"loss": 0.04448175, "token_acc": 0.97792982, "grad_norm": 1.35576403, "learning_rate": 1.436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231991, "epoch": 3.76286302, "global_step/max_steps": "49365/65595", "percentage": "75.26%", "elapsed_time": "2d 11h 6m 26s", "remaining_time": "19h 25m 58s"}
+{"loss": 0.06426432, "token_acc": 0.97969455, "grad_norm": 1.56966197, "learning_rate": 1.435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231994, "epoch": 3.76324415, "global_step/max_steps": "49370/65595", "percentage": "75.26%", "elapsed_time": "2d 11h 6m 45s", "remaining_time": "19h 25m 36s"}
+{"loss": 0.03702513, "token_acc": 0.98818491, "grad_norm": 0.60678267, "learning_rate": 1.434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231997, "epoch": 3.76362528, "global_step/max_steps": "49375/65595", "percentage": "75.27%", "elapsed_time": "2d 11h 7m 3s", "remaining_time": "19h 25m 13s"}
+{"loss": 0.03816398, "token_acc": 0.98259044, "grad_norm": 1.12579167, "learning_rate": 1.433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231999, "epoch": 3.7640064, "global_step/max_steps": "49380/65595", "percentage": "75.28%", "elapsed_time": "2d 11h 7m 23s", "remaining_time": "19h 24m 51s"}
+{"loss": 0.08483255, "token_acc": 0.97295708, "grad_norm": 1.95233238, "learning_rate": 1.433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232006, "epoch": 3.76438753, "global_step/max_steps": "49385/65595", "percentage": "75.29%", "elapsed_time": "2d 11h 7m 38s", "remaining_time": "19h 24m 28s"}
+{"loss": 0.07311153, "token_acc": 0.97906113, "grad_norm": 1.99978375, "learning_rate": 1.432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232013, "epoch": 3.76476866, "global_step/max_steps": "49390/65595", "percentage": "75.30%", "elapsed_time": "2d 11h 7m 53s", "remaining_time": "19h 24m 4s"}
+{"loss": 0.04350112, "token_acc": 0.98502121, "grad_norm": 1.59891009, "learning_rate": 1.431e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232017, "epoch": 3.76514978, "global_step/max_steps": "49395/65595", "percentage": "75.30%", "elapsed_time": "2d 11h 8m 12s", "remaining_time": "19h 23m 41s"}
+{"loss": 0.04256662, "token_acc": 0.98210059, "grad_norm": 1.64436078, "learning_rate": 1.43e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232019, "epoch": 3.76553091, "global_step/max_steps": "49400/65595", "percentage": "75.31%", "elapsed_time": "2d 11h 8m 30s", "remaining_time": "19h 23m 19s"}
+{"eval_loss": 0.05675839, "eval_token_acc": 0.97719264, "eval_runtime": 222.0971, "eval_samples_per_second": 2.386, "eval_steps_per_second": 2.386, "epoch": 3.76553091, "global_step/max_steps": "49400/65595", "percentage": "75.31%", "elapsed_time": "2d 11h 12m 13s", "remaining_time": "19h 24m 32s"}
+{"loss": 0.04719988, "token_acc": 0.97752358, "grad_norm": 0.62391478, "learning_rate": 1.429e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231778, "epoch": 3.76591204, "global_step/max_steps": "49405/65595", "percentage": "75.32%", "elapsed_time": "2d 11h 12m 33s", "remaining_time": "19h 24m 10s"}
+{"loss": 0.02769876, "token_acc": 0.98915729, "grad_norm": 1.11919844, "learning_rate": 1.428e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231782, "epoch": 3.76629316, "global_step/max_steps": "49410/65595", "percentage": "75.33%", "elapsed_time": "2d 11h 12m 52s", "remaining_time": "19h 23m 47s"}
+{"loss": 0.04538663, "token_acc": 0.9874092, "grad_norm": 1.02123141, "learning_rate": 1.428e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23179, "epoch": 3.76667429, "global_step/max_steps": "49415/65595", "percentage": "75.33%", "elapsed_time": "2d 11h 13m 6s", "remaining_time": "19h 23m 23s"}
+{"loss": 0.04077162, "token_acc": 0.98778397, "grad_norm": 0.5518254, "learning_rate": 1.427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231795, "epoch": 3.76705542, "global_step/max_steps": "49420/65595", "percentage": "75.34%", "elapsed_time": "2d 11h 13m 23s", "remaining_time": "19h 23m 0s"}
+{"loss": 0.05148004, "token_acc": 0.9774798, "grad_norm": 1.22898197, "learning_rate": 1.426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231799, "epoch": 3.76743654, "global_step/max_steps": "49425/65595", "percentage": "75.35%", "elapsed_time": "2d 11h 13m 41s", "remaining_time": "19h 22m 37s"}
+{"loss": 0.03582529, "token_acc": 0.98203055, "grad_norm": 1.1270026, "learning_rate": 1.425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231803, "epoch": 3.76781767, "global_step/max_steps": "49430/65595", "percentage": "75.36%", "elapsed_time": "2d 11h 13m 59s", "remaining_time": "19h 22m 15s"}
+{"loss": 0.05199324, "token_acc": 0.97830189, "grad_norm": 1.62525892, "learning_rate": 1.424e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231809, "epoch": 3.7681988, "global_step/max_steps": "49435/65595", "percentage": "75.36%", "elapsed_time": "2d 11h 14m 15s", "remaining_time": "19h 21m 51s"}
+{"loss": 0.06835299, "token_acc": 0.97219648, "grad_norm": 2.36875081, "learning_rate": 1.423e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231817, "epoch": 3.76857992, "global_step/max_steps": "49440/65595", "percentage": "75.37%", "elapsed_time": "2d 11h 14m 29s", "remaining_time": "19h 21m 28s"}
+{"loss": 0.08151073, "token_acc": 0.97082153, "grad_norm": 2.87570405, "learning_rate": 1.423e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231824, "epoch": 3.76896105, "global_step/max_steps": "49445/65595", "percentage": "75.38%", "elapsed_time": "2d 11h 14m 44s", "remaining_time": "19h 21m 4s"}
+{"loss": 0.0479764, "token_acc": 0.98087569, "grad_norm": 0.96276921, "learning_rate": 1.422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23183, "epoch": 3.76934218, "global_step/max_steps": "49450/65595", "percentage": "75.39%", "elapsed_time": "2d 11h 15m 0s", "remaining_time": "19h 20m 40s"}
+{"loss": 0.0379942, "token_acc": 0.9789916, "grad_norm": 1.33060753, "learning_rate": 1.421e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231837, "epoch": 3.7697233, "global_step/max_steps": "49455/65595", "percentage": "75.39%", "elapsed_time": "2d 11h 15m 15s", "remaining_time": "19h 20m 17s"}
+{"loss": 0.03309817, "token_acc": 0.98212512, "grad_norm": 1.02300847, "learning_rate": 1.42e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231844, "epoch": 3.77010443, "global_step/max_steps": "49460/65595", "percentage": "75.40%", "elapsed_time": "2d 11h 15m 31s", "remaining_time": "19h 19m 53s"}
+{"loss": 0.05917705, "token_acc": 0.97735125, "grad_norm": 1.56709707, "learning_rate": 1.419e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231849, "epoch": 3.77048556, "global_step/max_steps": "49465/65595", "percentage": "75.41%", "elapsed_time": "2d 11h 15m 47s", "remaining_time": "19h 19m 30s"}
+{"loss": 0.05547957, "token_acc": 0.98062756, "grad_norm": 0.88116467, "learning_rate": 1.418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231851, "epoch": 3.77086668, "global_step/max_steps": "49470/65595", "percentage": "75.42%", "elapsed_time": "2d 11h 16m 7s", "remaining_time": "19h 19m 8s"}
+{"loss": 0.04513536, "token_acc": 0.98240697, "grad_norm": 1.31426764, "learning_rate": 1.418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231854, "epoch": 3.77124781, "global_step/max_steps": "49475/65595", "percentage": "75.42%", "elapsed_time": "2d 11h 16m 26s", "remaining_time": "19h 18m 45s"}
+{"loss": 0.0423562, "token_acc": 0.98343313, "grad_norm": 0.77713156, "learning_rate": 1.417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231858, "epoch": 3.77162894, "global_step/max_steps": "49480/65595", "percentage": "75.43%", "elapsed_time": "2d 11h 16m 43s", "remaining_time": "19h 18m 22s"}
+{"loss": 0.04437184, "token_acc": 0.97982786, "grad_norm": 1.3125031, "learning_rate": 1.416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23186, "epoch": 3.77201006, "global_step/max_steps": "49485/65595", "percentage": "75.44%", "elapsed_time": "2d 11h 17m 4s", "remaining_time": "19h 18m 0s"}
+{"loss": 0.04144091, "token_acc": 0.98766384, "grad_norm": 1.27032709, "learning_rate": 1.415e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231862, "epoch": 3.77239119, "global_step/max_steps": "49490/65595", "percentage": "75.45%", "elapsed_time": "2d 11h 17m 23s", "remaining_time": "19h 17m 38s"}
+{"loss": 0.05821223, "token_acc": 0.9805124, "grad_norm": 1.02958727, "learning_rate": 1.414e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231863, "epoch": 3.77277231, "global_step/max_steps": "49495/65595", "percentage": "75.46%", "elapsed_time": "2d 11h 17m 44s", "remaining_time": "19h 17m 16s"}
+{"loss": 0.07778085, "token_acc": 0.97282409, "grad_norm": 2.18018174, "learning_rate": 1.413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231871, "epoch": 3.77315344, "global_step/max_steps": "49500/65595", "percentage": "75.46%", "elapsed_time": "2d 11h 17m 58s", "remaining_time": "19h 16m 53s"}
+{"loss": 0.03599921, "token_acc": 0.98254661, "grad_norm": 2.154778, "learning_rate": 1.413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231877, "epoch": 3.77353457, "global_step/max_steps": "49505/65595", "percentage": "75.47%", "elapsed_time": "2d 11h 18m 14s", "remaining_time": "19h 16m 29s"}
+{"loss": 0.05557739, "token_acc": 0.97659574, "grad_norm": 1.19365668, "learning_rate": 1.412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231883, "epoch": 3.77391569, "global_step/max_steps": "49510/65595", "percentage": "75.48%", "elapsed_time": "2d 11h 18m 30s", "remaining_time": "19h 16m 6s"}
+{"loss": 0.0651324, "token_acc": 0.97105644, "grad_norm": 1.39952111, "learning_rate": 1.411e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231889, "epoch": 3.77429682, "global_step/max_steps": "49515/65595", "percentage": "75.49%", "elapsed_time": "2d 11h 18m 46s", "remaining_time": "19h 15m 42s"}
+{"loss": 0.0640963, "token_acc": 0.97543559, "grad_norm": 0.77929544, "learning_rate": 1.41e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231893, "epoch": 3.77467795, "global_step/max_steps": "49520/65595", "percentage": "75.49%", "elapsed_time": "2d 11h 19m 4s", "remaining_time": "19h 15m 20s"}
+{"loss": 0.03858259, "token_acc": 0.98465747, "grad_norm": 1.00065601, "learning_rate": 1.409e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231896, "epoch": 3.77505907, "global_step/max_steps": "49525/65595", "percentage": "75.50%", "elapsed_time": "2d 11h 19m 23s", "remaining_time": "19h 14m 57s"}
+{"loss": 0.07007834, "token_acc": 0.97017234, "grad_norm": 1.15910411, "learning_rate": 1.408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231901, "epoch": 3.7754402, "global_step/max_steps": "49530/65595", "percentage": "75.51%", "elapsed_time": "2d 11h 19m 40s", "remaining_time": "19h 14m 34s"}
+{"loss": 0.08525997, "token_acc": 0.97238296, "grad_norm": 2.46879101, "learning_rate": 1.408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231908, "epoch": 3.77582133, "global_step/max_steps": "49535/65595", "percentage": "75.52%", "elapsed_time": "2d 11h 19m 55s", "remaining_time": "19h 14m 10s"}
+{"loss": 0.10475769, "token_acc": 0.96910042, "grad_norm": 0.96655345, "learning_rate": 1.407e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231913, "epoch": 3.77620245, "global_step/max_steps": "49540/65595", "percentage": "75.52%", "elapsed_time": "2d 11h 20m 12s", "remaining_time": "19h 13m 47s"}
+{"loss": 0.03984101, "token_acc": 0.98580352, "grad_norm": 0.43288249, "learning_rate": 1.406e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231915, "epoch": 3.77658358, "global_step/max_steps": "49545/65595", "percentage": "75.53%", "elapsed_time": "2d 11h 20m 31s", "remaining_time": "19h 13m 25s"}
+{"loss": 0.06012093, "token_acc": 0.98313627, "grad_norm": 1.10395765, "learning_rate": 1.405e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23192, "epoch": 3.77696471, "global_step/max_steps": "49550/65595", "percentage": "75.54%", "elapsed_time": "2d 11h 20m 48s", "remaining_time": "19h 13m 2s"}
+{"loss": 0.05243821, "token_acc": 0.97316919, "grad_norm": 1.15028679, "learning_rate": 1.404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231928, "epoch": 3.77734583, "global_step/max_steps": "49555/65595", "percentage": "75.55%", "elapsed_time": "2d 11h 21m 3s", "remaining_time": "19h 12m 38s"}
+{"loss": 0.05944451, "token_acc": 0.98053919, "grad_norm": 1.76407313, "learning_rate": 1.403e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231931, "epoch": 3.77772696, "global_step/max_steps": "49560/65595", "percentage": "75.55%", "elapsed_time": "2d 11h 21m 21s", "remaining_time": "19h 12m 16s"}
+{"loss": 0.05746021, "token_acc": 0.9803744, "grad_norm": 1.39076531, "learning_rate": 1.403e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231938, "epoch": 3.77810809, "global_step/max_steps": "49565/65595", "percentage": "75.56%", "elapsed_time": "2d 11h 21m 37s", "remaining_time": "19h 11m 52s"}
+{"loss": 0.04554406, "token_acc": 0.97890925, "grad_norm": 0.97113431, "learning_rate": 1.402e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231942, "epoch": 3.77848921, "global_step/max_steps": "49570/65595", "percentage": "75.57%", "elapsed_time": "2d 11h 21m 54s", "remaining_time": "19h 11m 29s"}
+{"loss": 0.05266235, "token_acc": 0.97613621, "grad_norm": 0.36940345, "learning_rate": 1.401e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231946, "epoch": 3.77887034, "global_step/max_steps": "49575/65595", "percentage": "75.58%", "elapsed_time": "2d 11h 22m 12s", "remaining_time": "19h 11m 7s"}
+{"loss": 0.05924941, "token_acc": 0.97725284, "grad_norm": 0.73842287, "learning_rate": 1.4e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231951, "epoch": 3.77925147, "global_step/max_steps": "49580/65595", "percentage": "75.59%", "elapsed_time": "2d 11h 22m 29s", "remaining_time": "19h 10m 43s"}
+{"loss": 0.06198549, "token_acc": 0.97220427, "grad_norm": 1.69633126, "learning_rate": 1.399e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231957, "epoch": 3.77963259, "global_step/max_steps": "49585/65595", "percentage": "75.59%", "elapsed_time": "2d 11h 22m 45s", "remaining_time": "19h 10m 20s"}
+{"loss": 0.06167426, "token_acc": 0.97419542, "grad_norm": 2.57989979, "learning_rate": 1.398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231963, "epoch": 3.78001372, "global_step/max_steps": "49590/65595", "percentage": "75.60%", "elapsed_time": "2d 11h 23m 1s", "remaining_time": "19h 9m 57s"}
+{"loss": 0.03826078, "token_acc": 0.98108974, "grad_norm": 1.57363391, "learning_rate": 1.398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231971, "epoch": 3.78039485, "global_step/max_steps": "49595/65595", "percentage": "75.61%", "elapsed_time": "2d 11h 23m 16s", "remaining_time": "19h 9m 33s"}
+{"loss": 0.05459545, "token_acc": 0.97951727, "grad_norm": 0.89558661, "learning_rate": 1.397e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23197, "epoch": 3.78077597, "global_step/max_steps": "49600/65595", "percentage": "75.62%", "elapsed_time": "2d 11h 23m 38s", "remaining_time": "19h 9m 12s"}
+{"eval_loss": 0.05507699, "eval_token_acc": 0.97736582, "eval_runtime": 219.5756, "eval_samples_per_second": 2.414, "eval_steps_per_second": 2.414, "epoch": 3.78077597, "global_step/max_steps": "49600/65595", "percentage": "75.62%", "elapsed_time": "2d 11h 27m 18s", "remaining_time": "19h 10m 23s"}
+{"loss": 0.06899357, "token_acc": 0.9772331, "grad_norm": 1.16375148, "learning_rate": 1.396e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231737, "epoch": 3.7811571, "global_step/max_steps": "49605/65595", "percentage": "75.62%", "elapsed_time": "2d 11h 27m 35s", "remaining_time": "19h 9m 59s"}
+{"loss": 0.06851339, "token_acc": 0.97918177, "grad_norm": 0.48156223, "learning_rate": 1.395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231738, "epoch": 3.78153823, "global_step/max_steps": "49610/65595", "percentage": "75.63%", "elapsed_time": "2d 11h 27m 55s", "remaining_time": "19h 9m 37s"}
+{"loss": 0.04837976, "token_acc": 0.97795676, "grad_norm": 1.19771862, "learning_rate": 1.394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231746, "epoch": 3.78191935, "global_step/max_steps": "49615/65595", "percentage": "75.64%", "elapsed_time": "2d 11h 28m 10s", "remaining_time": "19h 9m 14s"}
+{"loss": 0.03030251, "token_acc": 0.98698113, "grad_norm": 1.15129042, "learning_rate": 1.393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23175, "epoch": 3.78230048, "global_step/max_steps": "49620/65595", "percentage": "75.65%", "elapsed_time": "2d 11h 28m 27s", "remaining_time": "19h 8m 51s"}
+{"loss": 0.03919915, "token_acc": 0.98261095, "grad_norm": 1.7169764, "learning_rate": 1.393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231755, "epoch": 3.78268161, "global_step/max_steps": "49625/65595", "percentage": "75.65%", "elapsed_time": "2d 11h 28m 44s", "remaining_time": "19h 8m 28s"}
+{"loss": 0.04687936, "token_acc": 0.98697917, "grad_norm": 1.2412895, "learning_rate": 1.392e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231761, "epoch": 3.78306273, "global_step/max_steps": "49630/65595", "percentage": "75.66%", "elapsed_time": "2d 11h 29m 0s", "remaining_time": "19h 8m 4s"}
+{"loss": 0.05623311, "token_acc": 0.97732822, "grad_norm": 1.36151493, "learning_rate": 1.391e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231765, "epoch": 3.78344386, "global_step/max_steps": "49635/65595", "percentage": "75.67%", "elapsed_time": "2d 11h 29m 18s", "remaining_time": "19h 7m 42s"}
+{"loss": 0.03161363, "token_acc": 0.98630723, "grad_norm": 0.46829554, "learning_rate": 1.39e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23177, "epoch": 3.78382499, "global_step/max_steps": "49640/65595", "percentage": "75.68%", "elapsed_time": "2d 11h 29m 35s", "remaining_time": "19h 7m 19s"}
+{"loss": 0.04288102, "token_acc": 0.98651577, "grad_norm": 1.36032689, "learning_rate": 1.389e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231776, "epoch": 3.78420611, "global_step/max_steps": "49645/65595", "percentage": "75.68%", "elapsed_time": "2d 11h 29m 51s", "remaining_time": "19h 6m 55s"}
+{"loss": 0.06506239, "token_acc": 0.97451167, "grad_norm": 1.69457066, "learning_rate": 1.388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231783, "epoch": 3.78458724, "global_step/max_steps": "49650/65595", "percentage": "75.69%", "elapsed_time": "2d 11h 30m 7s", "remaining_time": "19h 6m 32s"}
+{"loss": 0.04251969, "token_acc": 0.9836516, "grad_norm": 0.70822752, "learning_rate": 1.388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231786, "epoch": 3.78496837, "global_step/max_steps": "49655/65595", "percentage": "75.70%", "elapsed_time": "2d 11h 30m 25s", "remaining_time": "19h 6m 9s"}
+{"loss": 0.06598027, "token_acc": 0.97960498, "grad_norm": 1.06498802, "learning_rate": 1.387e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23179, "epoch": 3.78534949, "global_step/max_steps": "49660/65595", "percentage": "75.71%", "elapsed_time": "2d 11h 30m 43s", "remaining_time": "19h 5m 46s"}
+{"loss": 0.05464975, "token_acc": 0.97773109, "grad_norm": 1.45627689, "learning_rate": 1.386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231798, "epoch": 3.78573062, "global_step/max_steps": "49665/65595", "percentage": "75.71%", "elapsed_time": "2d 11h 30m 57s", "remaining_time": "19h 5m 23s"}
+{"loss": 0.05058342, "token_acc": 0.979654, "grad_norm": 1.31752181, "learning_rate": 1.385e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2318, "epoch": 3.78611175, "global_step/max_steps": "49670/65595", "percentage": "75.72%", "elapsed_time": "2d 11h 31m 17s", "remaining_time": "19h 5m 0s"}
+{"loss": 0.05457478, "token_acc": 0.97942832, "grad_norm": 0.79899108, "learning_rate": 1.384e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231805, "epoch": 3.78649287, "global_step/max_steps": "49675/65595", "percentage": "75.73%", "elapsed_time": "2d 11h 31m 34s", "remaining_time": "19h 4m 37s"}
+{"loss": 0.06492262, "token_acc": 0.9709721, "grad_norm": 1.95266986, "learning_rate": 1.384e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231811, "epoch": 3.786874, "global_step/max_steps": "49680/65595", "percentage": "75.74%", "elapsed_time": "2d 11h 31m 50s", "remaining_time": "19h 4m 14s"}
+{"loss": 0.03612548, "token_acc": 0.98615465, "grad_norm": 0.77021497, "learning_rate": 1.383e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231816, "epoch": 3.78725513, "global_step/max_steps": "49685/65595", "percentage": "75.75%", "elapsed_time": "2d 11h 32m 6s", "remaining_time": "19h 3m 51s"}
+{"loss": 0.06690528, "token_acc": 0.97520838, "grad_norm": 1.79197478, "learning_rate": 1.382e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231821, "epoch": 3.78763625, "global_step/max_steps": "49690/65595", "percentage": "75.75%", "elapsed_time": "2d 11h 32m 24s", "remaining_time": "19h 3m 28s"}
+{"loss": 0.02890333, "token_acc": 0.98733018, "grad_norm": 1.50467277, "learning_rate": 1.381e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231825, "epoch": 3.78801738, "global_step/max_steps": "49695/65595", "percentage": "75.76%", "elapsed_time": "2d 11h 32m 42s", "remaining_time": "19h 3m 5s"}
+{"loss": 0.04730391, "token_acc": 0.98504608, "grad_norm": 0.56659901, "learning_rate": 1.38e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231829, "epoch": 3.78839851, "global_step/max_steps": "49700/65595", "percentage": "75.77%", "elapsed_time": "2d 11h 33m 0s", "remaining_time": "19h 2m 42s"}
+{"loss": 0.06110927, "token_acc": 0.97635498, "grad_norm": 0.8633244, "learning_rate": 1.379e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231832, "epoch": 3.78877963, "global_step/max_steps": "49705/65595", "percentage": "75.78%", "elapsed_time": "2d 11h 33m 18s", "remaining_time": "19h 2m 20s"}
+{"loss": 0.0578812, "token_acc": 0.97516184, "grad_norm": 1.46003151, "learning_rate": 1.379e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231835, "epoch": 3.78916076, "global_step/max_steps": "49710/65595", "percentage": "75.78%", "elapsed_time": "2d 11h 33m 37s", "remaining_time": "19h 1m 57s"}
+{"loss": 0.04894425, "token_acc": 0.9807494, "grad_norm": 0.90674782, "learning_rate": 1.378e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231843, "epoch": 3.78954189, "global_step/max_steps": "49715/65595", "percentage": "75.79%", "elapsed_time": "2d 11h 33m 52s", "remaining_time": "19h 1m 34s"}
+{"loss": 0.02821333, "token_acc": 0.98888497, "grad_norm": 0.41892266, "learning_rate": 1.377e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231846, "epoch": 3.78992301, "global_step/max_steps": "49720/65595", "percentage": "75.80%", "elapsed_time": "2d 11h 34m 10s", "remaining_time": "19h 1m 11s"}
+{"loss": 0.06556029, "token_acc": 0.98612051, "grad_norm": 2.87806535, "learning_rate": 1.376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231853, "epoch": 3.79030414, "global_step/max_steps": "49725/65595", "percentage": "75.81%", "elapsed_time": "2d 11h 34m 25s", "remaining_time": "19h 0m 47s"}
+{"loss": 0.08724914, "token_acc": 0.96921684, "grad_norm": 4.58634281, "learning_rate": 1.375e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23186, "epoch": 3.79068527, "global_step/max_steps": "49730/65595", "percentage": "75.81%", "elapsed_time": "2d 11h 34m 40s", "remaining_time": "19h 0m 24s"}
+{"loss": 0.05153836, "token_acc": 0.97937599, "grad_norm": 0.86457092, "learning_rate": 1.374e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231861, "epoch": 3.79106639, "global_step/max_steps": "49735/65595", "percentage": "75.82%", "elapsed_time": "2d 11h 35m 0s", "remaining_time": "19h 0m 2s"}
+{"loss": 0.0498542, "token_acc": 0.98124029, "grad_norm": 0.82979739, "learning_rate": 1.374e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231862, "epoch": 3.79144752, "global_step/max_steps": "49740/65595", "percentage": "75.83%", "elapsed_time": "2d 11h 35m 22s", "remaining_time": "18h 59m 40s"}
+{"loss": 0.03648806, "token_acc": 0.98835517, "grad_norm": 0.73686993, "learning_rate": 1.373e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231867, "epoch": 3.79182865, "global_step/max_steps": "49745/65595", "percentage": "75.84%", "elapsed_time": "2d 11h 35m 38s", "remaining_time": "18h 59m 17s"}
+{"loss": 0.09566298, "token_acc": 0.96998956, "grad_norm": 0.67358792, "learning_rate": 1.372e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23187, "epoch": 3.79220977, "global_step/max_steps": "49750/65595", "percentage": "75.84%", "elapsed_time": "2d 11h 35m 57s", "remaining_time": "18h 58m 54s"}
+{"loss": 0.04835647, "token_acc": 0.98765743, "grad_norm": 1.49003673, "learning_rate": 1.371e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231875, "epoch": 3.7925909, "global_step/max_steps": "49755/65595", "percentage": "75.85%", "elapsed_time": "2d 11h 36m 14s", "remaining_time": "18h 58m 31s"}
+{"loss": 0.03839161, "token_acc": 0.98841268, "grad_norm": 1.17113769, "learning_rate": 1.37e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231877, "epoch": 3.79297203, "global_step/max_steps": "49760/65595", "percentage": "75.86%", "elapsed_time": "2d 11h 36m 34s", "remaining_time": "18h 58m 9s"}
+{"loss": 0.03946091, "token_acc": 0.98612539, "grad_norm": 2.42087579, "learning_rate": 1.369e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231883, "epoch": 3.79335315, "global_step/max_steps": "49765/65595", "percentage": "75.87%", "elapsed_time": "2d 11h 36m 50s", "remaining_time": "18h 57m 46s"}
+{"loss": 0.04355249, "token_acc": 0.98431968, "grad_norm": 0.89473999, "learning_rate": 1.369e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23189, "epoch": 3.79373428, "global_step/max_steps": "49770/65595", "percentage": "75.87%", "elapsed_time": "2d 11h 37m 5s", "remaining_time": "18h 57m 22s"}
+{"loss": 0.03071018, "token_acc": 0.98758013, "grad_norm": 0.4691253, "learning_rate": 1.368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231897, "epoch": 3.79411541, "global_step/max_steps": "49775/65595", "percentage": "75.88%", "elapsed_time": "2d 11h 37m 20s", "remaining_time": "18h 56m 59s"}
+{"loss": 0.0570433, "token_acc": 0.97685632, "grad_norm": 1.2033329, "learning_rate": 1.367e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231904, "epoch": 3.79449653, "global_step/max_steps": "49780/65595", "percentage": "75.89%", "elapsed_time": "2d 11h 37m 35s", "remaining_time": "18h 56m 35s"}
+{"loss": 0.02645919, "token_acc": 0.99026764, "grad_norm": 0.46103707, "learning_rate": 1.366e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231913, "epoch": 3.79487766, "global_step/max_steps": "49785/65595", "percentage": "75.90%", "elapsed_time": "2d 11h 37m 49s", "remaining_time": "18h 56m 11s"}
+{"loss": 0.03316831, "token_acc": 0.98314199, "grad_norm": 0.71977448, "learning_rate": 1.365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231916, "epoch": 3.79525878, "global_step/max_steps": "49790/65595", "percentage": "75.91%", "elapsed_time": "2d 11h 38m 7s", "remaining_time": "18h 55m 48s"}
+{"loss": 0.05950938, "token_acc": 0.97484123, "grad_norm": 0.63617104, "learning_rate": 1.365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231917, "epoch": 3.79563991, "global_step/max_steps": "49795/65595", "percentage": "75.91%", "elapsed_time": "2d 11h 38m 27s", "remaining_time": "18h 55m 26s"}
+{"loss": 0.05207591, "token_acc": 0.9833723, "grad_norm": 1.29232073, "learning_rate": 1.364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231923, "epoch": 3.79602104, "global_step/max_steps": "49800/65595", "percentage": "75.92%", "elapsed_time": "2d 11h 38m 44s", "remaining_time": "18h 55m 3s"}
+{"eval_loss": 0.05494462, "eval_token_acc": 0.97725288, "eval_runtime": 220.123, "eval_samples_per_second": 2.408, "eval_steps_per_second": 2.408, "epoch": 3.79602104, "global_step/max_steps": "49800/65595", "percentage": "75.92%", "elapsed_time": "2d 11h 42m 24s", "remaining_time": "18h 56m 13s"}
+{"loss": 0.05014299, "token_acc": 0.97712825, "grad_norm": 1.00384092, "learning_rate": 1.363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23169, "epoch": 3.79640216, "global_step/max_steps": "49805/65595", "percentage": "75.93%", "elapsed_time": "2d 11h 42m 41s", "remaining_time": "18h 55m 50s"}
+{"loss": 0.05711928, "token_acc": 0.97301938, "grad_norm": 1.49564314, "learning_rate": 1.362e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231696, "epoch": 3.79678329, "global_step/max_steps": "49810/65595", "percentage": "75.94%", "elapsed_time": "2d 11h 42m 57s", "remaining_time": "18h 55m 27s"}
+{"loss": 0.03344021, "token_acc": 0.98316222, "grad_norm": 1.75861907, "learning_rate": 1.361e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231703, "epoch": 3.79716442, "global_step/max_steps": "49815/65595", "percentage": "75.94%", "elapsed_time": "2d 11h 43m 12s", "remaining_time": "18h 55m 3s"}
+{"loss": 0.07621707, "token_acc": 0.97093023, "grad_norm": 0.88710076, "learning_rate": 1.36e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231707, "epoch": 3.79754554, "global_step/max_steps": "49820/65595", "percentage": "75.95%", "elapsed_time": "2d 11h 43m 30s", "remaining_time": "18h 54m 40s"}
+{"loss": 0.05691769, "token_acc": 0.97873658, "grad_norm": 1.68579113, "learning_rate": 1.36e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231714, "epoch": 3.79792667, "global_step/max_steps": "49825/65595", "percentage": "75.96%", "elapsed_time": "2d 11h 43m 45s", "remaining_time": "18h 54m 17s"}
+{"loss": 0.04956549, "token_acc": 0.9785942, "grad_norm": 1.30182445, "learning_rate": 1.359e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231715, "epoch": 3.7983078, "global_step/max_steps": "49830/65595", "percentage": "75.97%", "elapsed_time": "2d 11h 44m 6s", "remaining_time": "18h 53m 55s"}
+{"loss": 0.03993641, "token_acc": 0.98422154, "grad_norm": 1.019642, "learning_rate": 1.358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231718, "epoch": 3.79868892, "global_step/max_steps": "49835/65595", "percentage": "75.97%", "elapsed_time": "2d 11h 44m 25s", "remaining_time": "18h 53m 33s"}
+{"loss": 0.04171125, "token_acc": 0.98507233, "grad_norm": 0.99953932, "learning_rate": 1.357e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23172, "epoch": 3.79907005, "global_step/max_steps": "49840/65595", "percentage": "75.98%", "elapsed_time": "2d 11h 44m 44s", "remaining_time": "18h 53m 10s"}
+{"loss": 0.03190929, "token_acc": 0.98602484, "grad_norm": 0.55770946, "learning_rate": 1.356e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231726, "epoch": 3.79945118, "global_step/max_steps": "49845/65595", "percentage": "75.99%", "elapsed_time": "2d 11h 45m 0s", "remaining_time": "18h 52m 47s"}
+{"loss": 0.04737976, "token_acc": 0.98372881, "grad_norm": 1.31784678, "learning_rate": 1.356e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231732, "epoch": 3.7998323, "global_step/max_steps": "49850/65595", "percentage": "76.00%", "elapsed_time": "2d 11h 45m 17s", "remaining_time": "18h 52m 24s"}
+{"loss": 0.03942445, "token_acc": 0.97926484, "grad_norm": 0.04409928, "learning_rate": 1.355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23174, "epoch": 3.80021343, "global_step/max_steps": "49855/65595", "percentage": "76.00%", "elapsed_time": "2d 11h 45m 31s", "remaining_time": "18h 52m 0s"}
+{"loss": 0.04871742, "token_acc": 0.9821718, "grad_norm": 3.179528, "learning_rate": 1.354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231747, "epoch": 3.80059456, "global_step/max_steps": "49860/65595", "percentage": "76.01%", "elapsed_time": "2d 11h 45m 46s", "remaining_time": "18h 51m 36s"}
+{"loss": 0.0376062, "token_acc": 0.98744217, "grad_norm": 1.69070077, "learning_rate": 1.353e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231753, "epoch": 3.80097568, "global_step/max_steps": "49865/65595", "percentage": "76.02%", "elapsed_time": "2d 11h 46m 2s", "remaining_time": "18h 51m 13s"}
+{"loss": 0.07980028, "token_acc": 0.96861325, "grad_norm": 1.66128993, "learning_rate": 1.352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231757, "epoch": 3.80135681, "global_step/max_steps": "49870/65595", "percentage": "76.03%", "elapsed_time": "2d 11h 46m 20s", "remaining_time": "18h 50m 50s"}
+{"loss": 0.03937746, "token_acc": 0.9893088, "grad_norm": 1.52842307, "learning_rate": 1.351e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231762, "epoch": 3.80173794, "global_step/max_steps": "49875/65595", "percentage": "76.03%", "elapsed_time": "2d 11h 46m 37s", "remaining_time": "18h 50m 27s"}
+{"loss": 0.04361861, "token_acc": 0.98337843, "grad_norm": 0.51448345, "learning_rate": 1.351e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231767, "epoch": 3.80211906, "global_step/max_steps": "49880/65595", "percentage": "76.04%", "elapsed_time": "2d 11h 46m 54s", "remaining_time": "18h 50m 4s"}
+{"loss": 0.06879716, "token_acc": 0.97560322, "grad_norm": 1.58444428, "learning_rate": 1.35e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231773, "epoch": 3.80250019, "global_step/max_steps": "49885/65595", "percentage": "76.05%", "elapsed_time": "2d 11h 47m 9s", "remaining_time": "18h 49m 41s"}
+{"loss": 0.06735859, "token_acc": 0.98415915, "grad_norm": 0.9943462, "learning_rate": 1.349e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231776, "epoch": 3.80288132, "global_step/max_steps": "49890/65595", "percentage": "76.06%", "elapsed_time": "2d 11h 47m 28s", "remaining_time": "18h 49m 18s"}
+{"loss": 0.04314205, "token_acc": 0.9831428, "grad_norm": 1.15901375, "learning_rate": 1.348e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231781, "epoch": 3.80326244, "global_step/max_steps": "49895/65595", "percentage": "76.07%", "elapsed_time": "2d 11h 47m 45s", "remaining_time": "18h 48m 55s"}
+{"loss": 0.02458812, "token_acc": 0.99177595, "grad_norm": 0.73907679, "learning_rate": 1.347e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231787, "epoch": 3.80364357, "global_step/max_steps": "49900/65595", "percentage": "76.07%", "elapsed_time": "2d 11h 48m 1s", "remaining_time": "18h 48m 32s"}
+{"loss": 0.05443705, "token_acc": 0.98249641, "grad_norm": 1.66397631, "learning_rate": 1.347e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231793, "epoch": 3.8040247, "global_step/max_steps": "49905/65595", "percentage": "76.08%", "elapsed_time": "2d 11h 48m 17s", "remaining_time": "18h 48m 9s"}
+{"loss": 0.03932208, "token_acc": 0.98607699, "grad_norm": 1.02534497, "learning_rate": 1.346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2318, "epoch": 3.80440582, "global_step/max_steps": "49910/65595", "percentage": "76.09%", "elapsed_time": "2d 11h 48m 32s", "remaining_time": "18h 47m 45s"}
+{"loss": 0.05250083, "token_acc": 0.97793753, "grad_norm": 0.8690021, "learning_rate": 1.345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231806, "epoch": 3.80478695, "global_step/max_steps": "49915/65595", "percentage": "76.10%", "elapsed_time": "2d 11h 48m 48s", "remaining_time": "18h 47m 22s"}
+{"loss": 0.0379604, "token_acc": 0.98724036, "grad_norm": 0.61192131, "learning_rate": 1.344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231811, "epoch": 3.80516808, "global_step/max_steps": "49920/65595", "percentage": "76.10%", "elapsed_time": "2d 11h 49m 5s", "remaining_time": "18h 46m 58s"}
+{"loss": 0.05246716, "token_acc": 0.98112784, "grad_norm": 0.71590501, "learning_rate": 1.343e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231816, "epoch": 3.8055492, "global_step/max_steps": "49925/65595", "percentage": "76.11%", "elapsed_time": "2d 11h 49m 22s", "remaining_time": "18h 46m 36s"}
+{"loss": 0.06867602, "token_acc": 0.977934, "grad_norm": 2.28202629, "learning_rate": 1.342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231819, "epoch": 3.80593033, "global_step/max_steps": "49930/65595", "percentage": "76.12%", "elapsed_time": "2d 11h 49m 40s", "remaining_time": "18h 46m 13s"}
+{"loss": 0.06933953, "token_acc": 0.97633136, "grad_norm": 1.47993863, "learning_rate": 1.342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231823, "epoch": 3.80631146, "global_step/max_steps": "49935/65595", "percentage": "76.13%", "elapsed_time": "2d 11h 49m 59s", "remaining_time": "18h 45m 50s"}
+{"loss": 0.0428492, "token_acc": 0.98320988, "grad_norm": 0.67299509, "learning_rate": 1.341e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231823, "epoch": 3.80669258, "global_step/max_steps": "49940/65595", "percentage": "76.13%", "elapsed_time": "2d 11h 50m 20s", "remaining_time": "18h 45m 29s"}
+{"loss": 0.05051631, "token_acc": 0.97812437, "grad_norm": 1.32935977, "learning_rate": 1.34e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231828, "epoch": 3.80707371, "global_step/max_steps": "49945/65595", "percentage": "76.14%", "elapsed_time": "2d 11h 50m 37s", "remaining_time": "18h 45m 6s"}
+{"loss": 0.04210983, "token_acc": 0.98411994, "grad_norm": 1.02476585, "learning_rate": 1.339e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231828, "epoch": 3.80745484, "global_step/max_steps": "49950/65595", "percentage": "76.15%", "elapsed_time": "2d 11h 50m 59s", "remaining_time": "18h 44m 44s"}
+{"loss": 0.02995671, "token_acc": 0.98731166, "grad_norm": 1.18907082, "learning_rate": 1.338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231834, "epoch": 3.80783596, "global_step/max_steps": "49955/65595", "percentage": "76.16%", "elapsed_time": "2d 11h 51m 14s", "remaining_time": "18h 44m 21s"}
+{"loss": 0.03179273, "token_acc": 0.98365032, "grad_norm": 0.97609067, "learning_rate": 1.338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231839, "epoch": 3.80821709, "global_step/max_steps": "49960/65595", "percentage": "76.16%", "elapsed_time": "2d 11h 51m 32s", "remaining_time": "18h 43m 58s"}
+{"loss": 0.08095828, "token_acc": 0.96792935, "grad_norm": 0.41821831, "learning_rate": 1.337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231845, "epoch": 3.80859822, "global_step/max_steps": "49965/65595", "percentage": "76.17%", "elapsed_time": "2d 11h 51m 47s", "remaining_time": "18h 43m 34s"}
+{"loss": 0.06757028, "token_acc": 0.96931138, "grad_norm": 2.12248874, "learning_rate": 1.336e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231852, "epoch": 3.80897934, "global_step/max_steps": "49970/65595", "percentage": "76.18%", "elapsed_time": "2d 11h 52m 3s", "remaining_time": "18h 43m 11s"}
+{"loss": 0.01958745, "token_acc": 0.99203919, "grad_norm": 0.31558329, "learning_rate": 1.335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231859, "epoch": 3.80936047, "global_step/max_steps": "49975/65595", "percentage": "76.19%", "elapsed_time": "2d 11h 52m 18s", "remaining_time": "18h 42m 47s"}
+{"loss": 0.04049123, "token_acc": 0.98042653, "grad_norm": 1.30855918, "learning_rate": 1.334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231866, "epoch": 3.8097416, "global_step/max_steps": "49980/65595", "percentage": "76.19%", "elapsed_time": "2d 11h 52m 33s", "remaining_time": "18h 42m 24s"}
+{"loss": 0.03881459, "token_acc": 0.98309706, "grad_norm": 0.71662802, "learning_rate": 1.333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231872, "epoch": 3.81012272, "global_step/max_steps": "49985/65595", "percentage": "76.20%", "elapsed_time": "2d 11h 52m 49s", "remaining_time": "18h 42m 0s"}
+{"loss": 0.02917911, "token_acc": 0.98519362, "grad_norm": 0.09663062, "learning_rate": 1.333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231878, "epoch": 3.81050385, "global_step/max_steps": "49990/65595", "percentage": "76.21%", "elapsed_time": "2d 11h 53m 4s", "remaining_time": "18h 41m 37s"}
+{"loss": 0.03889055, "token_acc": 0.98398836, "grad_norm": 2.32558203, "learning_rate": 1.332e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231884, "epoch": 3.81088498, "global_step/max_steps": "49995/65595", "percentage": "76.22%", "elapsed_time": "2d 11h 53m 20s", "remaining_time": "18h 41m 14s"}
+{"loss": 0.04426914, "token_acc": 0.98474738, "grad_norm": 1.03453112, "learning_rate": 1.331e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231888, "epoch": 3.8112661, "global_step/max_steps": "50000/65595", "percentage": "76.23%", "elapsed_time": "2d 11h 53m 38s", "remaining_time": "18h 40m 51s"}
+{"eval_loss": 0.05524379, "eval_token_acc": 0.97745618, "eval_runtime": 222.7516, "eval_samples_per_second": 2.379, "eval_steps_per_second": 2.379, "epoch": 3.8112661, "global_step/max_steps": "50000/65595", "percentage": "76.23%", "elapsed_time": "2d 11h 57m 21s", "remaining_time": "18h 42m 0s"}
+{"loss": 0.07331587, "token_acc": 0.97746673, "grad_norm": 2.68500161, "learning_rate": 1.33e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231651, "epoch": 3.81164723, "global_step/max_steps": "50005/65595", "percentage": "76.23%", "elapsed_time": "2d 11h 57m 41s", "remaining_time": "18h 41m 38s"}
+{"loss": 0.05926549, "token_acc": 0.97717099, "grad_norm": 1.28345883, "learning_rate": 1.329e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231655, "epoch": 3.81202836, "global_step/max_steps": "50010/65595", "percentage": "76.24%", "elapsed_time": "2d 11h 57m 58s", "remaining_time": "18h 41m 16s"}
+{"loss": 0.03558055, "token_acc": 0.98890312, "grad_norm": 2.10275793, "learning_rate": 1.329e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23166, "epoch": 3.81240948, "global_step/max_steps": "50015/65595", "percentage": "76.25%", "elapsed_time": "2d 11h 58m 15s", "remaining_time": "18h 40m 53s"}
+{"loss": 0.07080696, "token_acc": 0.9731101, "grad_norm": 1.9584769, "learning_rate": 1.328e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231666, "epoch": 3.81279061, "global_step/max_steps": "50020/65595", "percentage": "76.26%", "elapsed_time": "2d 11h 58m 32s", "remaining_time": "18h 40m 29s"}
+{"loss": 0.04222863, "token_acc": 0.98082055, "grad_norm": 1.24277794, "learning_rate": 1.327e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23167, "epoch": 3.81317174, "global_step/max_steps": "50025/65595", "percentage": "76.26%", "elapsed_time": "2d 11h 58m 50s", "remaining_time": "18h 40m 7s"}
+{"loss": 0.02251771, "token_acc": 0.98870616, "grad_norm": 0.51363415, "learning_rate": 1.326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231676, "epoch": 3.81355286, "global_step/max_steps": "50030/65595", "percentage": "76.27%", "elapsed_time": "2d 11h 59m 6s", "remaining_time": "18h 39m 43s"}
+{"loss": 0.05027663, "token_acc": 0.98336612, "grad_norm": 1.00552118, "learning_rate": 1.325e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231682, "epoch": 3.81393399, "global_step/max_steps": "50035/65595", "percentage": "76.28%", "elapsed_time": "2d 11h 59m 22s", "remaining_time": "18h 39m 20s"}
+{"loss": 0.03682913, "token_acc": 0.98711646, "grad_norm": 1.60003555, "learning_rate": 1.325e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231686, "epoch": 3.81431512, "global_step/max_steps": "50040/65595", "percentage": "76.29%", "elapsed_time": "2d 11h 59m 40s", "remaining_time": "18h 38m 57s"}
+{"loss": 0.08231832, "token_acc": 0.97848374, "grad_norm": 1.10658121, "learning_rate": 1.324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231689, "epoch": 3.81469624, "global_step/max_steps": "50045/65595", "percentage": "76.29%", "elapsed_time": "2d 11h 59m 58s", "remaining_time": "18h 38m 35s"}
+{"loss": 0.03619283, "token_acc": 0.98518519, "grad_norm": 1.17430782, "learning_rate": 1.323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231697, "epoch": 3.81507737, "global_step/max_steps": "50050/65595", "percentage": "76.30%", "elapsed_time": "2d 12h 0m 12s", "remaining_time": "18h 38m 11s"}
+{"loss": 0.05162626, "token_acc": 0.97937063, "grad_norm": 1.28853691, "learning_rate": 1.322e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231704, "epoch": 3.8154585, "global_step/max_steps": "50055/65595", "percentage": "76.31%", "elapsed_time": "2d 12h 0m 27s", "remaining_time": "18h 37m 47s"}
+{"loss": 0.02626629, "token_acc": 0.98521763, "grad_norm": 1.24686098, "learning_rate": 1.321e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23171, "epoch": 3.81583962, "global_step/max_steps": "50060/65595", "percentage": "76.32%", "elapsed_time": "2d 12h 0m 43s", "remaining_time": "18h 37m 24s"}
+{"loss": 0.06692989, "token_acc": 0.97574028, "grad_norm": 1.39574707, "learning_rate": 1.32e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231716, "epoch": 3.81622075, "global_step/max_steps": "50065/65595", "percentage": "76.32%", "elapsed_time": "2d 12h 0m 59s", "remaining_time": "18h 37m 1s"}
+{"loss": 0.06845217, "token_acc": 0.97492163, "grad_norm": 1.1560328, "learning_rate": 1.32e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231721, "epoch": 3.81660188, "global_step/max_steps": "50070/65595", "percentage": "76.33%", "elapsed_time": "2d 12h 1m 16s", "remaining_time": "18h 36m 38s"}
+{"loss": 0.07605222, "token_acc": 0.97191543, "grad_norm": 0.97968698, "learning_rate": 1.319e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231726, "epoch": 3.816983, "global_step/max_steps": "50075/65595", "percentage": "76.34%", "elapsed_time": "2d 12h 1m 33s", "remaining_time": "18h 36m 14s"}
+{"loss": 0.05695748, "token_acc": 0.97361237, "grad_norm": 1.41926992, "learning_rate": 1.318e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231733, "epoch": 3.81736413, "global_step/max_steps": "50080/65595", "percentage": "76.35%", "elapsed_time": "2d 12h 1m 48s", "remaining_time": "18h 35m 51s"}
+{"loss": 0.03558612, "token_acc": 0.98329662, "grad_norm": 0.50221479, "learning_rate": 1.317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231737, "epoch": 3.81774525, "global_step/max_steps": "50085/65595", "percentage": "76.35%", "elapsed_time": "2d 12h 2m 6s", "remaining_time": "18h 35m 28s"}
+{"loss": 0.04386136, "token_acc": 0.98271105, "grad_norm": 1.03028548, "learning_rate": 1.316e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23174, "epoch": 3.81812638, "global_step/max_steps": "50090/65595", "percentage": "76.36%", "elapsed_time": "2d 12h 2m 24s", "remaining_time": "18h 35m 6s"}
+{"loss": 0.05602891, "token_acc": 0.97821083, "grad_norm": 1.51897824, "learning_rate": 1.316e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231744, "epoch": 3.81850751, "global_step/max_steps": "50095/65595", "percentage": "76.37%", "elapsed_time": "2d 12h 2m 42s", "remaining_time": "18h 34m 43s"}
+{"loss": 0.05863427, "token_acc": 0.9822277, "grad_norm": 1.27026749, "learning_rate": 1.315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231746, "epoch": 3.81888863, "global_step/max_steps": "50100/65595", "percentage": "76.38%", "elapsed_time": "2d 12h 3m 2s", "remaining_time": "18h 34m 21s"}
+{"loss": 0.04744421, "token_acc": 0.97420838, "grad_norm": 1.26280868, "learning_rate": 1.314e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231752, "epoch": 3.81926976, "global_step/max_steps": "50105/65595", "percentage": "76.39%", "elapsed_time": "2d 12h 3m 18s", "remaining_time": "18h 33m 58s"}
+{"loss": 0.04104891, "token_acc": 0.9840612, "grad_norm": 1.8796531, "learning_rate": 1.313e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231758, "epoch": 3.81965089, "global_step/max_steps": "50110/65595", "percentage": "76.39%", "elapsed_time": "2d 12h 3m 34s", "remaining_time": "18h 33m 34s"}
+{"loss": 0.04962854, "token_acc": 0.98154905, "grad_norm": 1.7758311, "learning_rate": 1.312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231759, "epoch": 3.82003201, "global_step/max_steps": "50115/65595", "percentage": "76.40%", "elapsed_time": "2d 12h 3m 55s", "remaining_time": "18h 33m 12s"}
+{"loss": 0.03725182, "token_acc": 0.98572775, "grad_norm": 0.49286091, "learning_rate": 1.312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23176, "epoch": 3.82041314, "global_step/max_steps": "50120/65595", "percentage": "76.41%", "elapsed_time": "2d 12h 4m 15s", "remaining_time": "18h 32m 50s"}
+{"loss": 0.05381205, "token_acc": 0.97217881, "grad_norm": 1.32158029, "learning_rate": 1.311e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231768, "epoch": 3.82079427, "global_step/max_steps": "50125/65595", "percentage": "76.42%", "elapsed_time": "2d 12h 4m 30s", "remaining_time": "18h 32m 27s"}
+{"loss": 0.06591415, "token_acc": 0.97412982, "grad_norm": 0.90265238, "learning_rate": 1.31e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231771, "epoch": 3.82117539, "global_step/max_steps": "50130/65595", "percentage": "76.42%", "elapsed_time": "2d 12h 4m 48s", "remaining_time": "18h 32m 4s"}
+{"loss": 0.05505664, "token_acc": 0.97731092, "grad_norm": 1.46553576, "learning_rate": 1.309e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231775, "epoch": 3.82155652, "global_step/max_steps": "50135/65595", "percentage": "76.43%", "elapsed_time": "2d 12h 5m 6s", "remaining_time": "18h 31m 41s"}
+{"loss": 0.0616037, "token_acc": 0.97242842, "grad_norm": 1.76180124, "learning_rate": 1.308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23178, "epoch": 3.82193765, "global_step/max_steps": "50140/65595", "percentage": "76.44%", "elapsed_time": "2d 12h 5m 23s", "remaining_time": "18h 31m 18s"}
+{"loss": 0.04658237, "token_acc": 0.97937807, "grad_norm": 1.22227716, "learning_rate": 1.308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231787, "epoch": 3.82231877, "global_step/max_steps": "50145/65595", "percentage": "76.45%", "elapsed_time": "2d 12h 5m 38s", "remaining_time": "18h 30m 55s"}
+{"loss": 0.0383863, "token_acc": 0.97719528, "grad_norm": 1.29986632, "learning_rate": 1.307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231793, "epoch": 3.8226999, "global_step/max_steps": "50150/65595", "percentage": "76.45%", "elapsed_time": "2d 12h 5m 55s", "remaining_time": "18h 30m 32s"}
+{"loss": 0.04012653, "token_acc": 0.98076923, "grad_norm": 0.65110326, "learning_rate": 1.306e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231798, "epoch": 3.82308103, "global_step/max_steps": "50155/65595", "percentage": "76.46%", "elapsed_time": "2d 12h 6m 11s", "remaining_time": "18h 30m 9s"}
+{"loss": 0.04051803, "token_acc": 0.9868221, "grad_norm": 1.76818514, "learning_rate": 1.305e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231806, "epoch": 3.82346215, "global_step/max_steps": "50160/65595", "percentage": "76.47%", "elapsed_time": "2d 12h 6m 25s", "remaining_time": "18h 29m 45s"}
+{"loss": 0.03782053, "token_acc": 0.98068235, "grad_norm": 0.49707463, "learning_rate": 1.304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231808, "epoch": 3.82384328, "global_step/max_steps": "50165/65595", "percentage": "76.48%", "elapsed_time": "2d 12h 6m 45s", "remaining_time": "18h 29m 23s"}
+{"loss": 0.08099829, "token_acc": 0.97605782, "grad_norm": 1.61968398, "learning_rate": 1.303e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231809, "epoch": 3.82422441, "global_step/max_steps": "50170/65595", "percentage": "76.48%", "elapsed_time": "2d 12h 7m 5s", "remaining_time": "18h 29m 1s"}
+{"loss": 0.04769758, "token_acc": 0.98287888, "grad_norm": 1.25378823, "learning_rate": 1.303e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231816, "epoch": 3.82460553, "global_step/max_steps": "50175/65595", "percentage": "76.49%", "elapsed_time": "2d 12h 7m 20s", "remaining_time": "18h 28m 37s"}
+{"loss": 0.05900376, "token_acc": 0.97783251, "grad_norm": 2.33695507, "learning_rate": 1.302e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231823, "epoch": 3.82498666, "global_step/max_steps": "50180/65595", "percentage": "76.50%", "elapsed_time": "2d 12h 7m 36s", "remaining_time": "18h 28m 14s"}
+{"loss": 0.08383334, "token_acc": 0.96529745, "grad_norm": 1.42877018, "learning_rate": 1.301e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231829, "epoch": 3.82536779, "global_step/max_steps": "50185/65595", "percentage": "76.51%", "elapsed_time": "2d 12h 7m 51s", "remaining_time": "18h 27m 50s"}
+{"loss": 0.05775567, "token_acc": 0.98325859, "grad_norm": 1.04115772, "learning_rate": 1.3e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231832, "epoch": 3.82574891, "global_step/max_steps": "50190/65595", "percentage": "76.51%", "elapsed_time": "2d 12h 8m 10s", "remaining_time": "18h 27m 28s"}
+{"loss": 0.04412379, "token_acc": 0.98194475, "grad_norm": 1.06097662, "learning_rate": 1.299e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231836, "epoch": 3.82613004, "global_step/max_steps": "50195/65595", "percentage": "76.52%", "elapsed_time": "2d 12h 8m 28s", "remaining_time": "18h 27m 5s"}
+{"loss": 0.04111988, "token_acc": 0.98364539, "grad_norm": 0.62754679, "learning_rate": 1.299e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231837, "epoch": 3.82651117, "global_step/max_steps": "50200/65595", "percentage": "76.53%", "elapsed_time": "2d 12h 8m 49s", "remaining_time": "18h 26m 43s"}
+{"eval_loss": 0.05452955, "eval_token_acc": 0.97745618, "eval_runtime": 223.4058, "eval_samples_per_second": 2.372, "eval_steps_per_second": 2.372, "epoch": 3.82651117, "global_step/max_steps": "50200/65595", "percentage": "76.53%", "elapsed_time": "2d 12h 12m 33s", "remaining_time": "18h 27m 52s"}
+{"loss": 0.06607415, "token_acc": 0.97729419, "grad_norm": 1.83717573, "learning_rate": 1.298e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231605, "epoch": 3.82689229, "global_step/max_steps": "50205/65595", "percentage": "76.54%", "elapsed_time": "2d 12h 12m 48s", "remaining_time": "18h 27m 28s"}
+{"loss": 0.03115656, "token_acc": 0.98618466, "grad_norm": 0.95775723, "learning_rate": 1.297e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23161, "epoch": 3.82727342, "global_step/max_steps": "50210/65595", "percentage": "76.55%", "elapsed_time": "2d 12h 13m 4s", "remaining_time": "18h 27m 5s"}
+{"loss": 0.05383, "token_acc": 0.9743886, "grad_norm": 0.66846347, "learning_rate": 1.296e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231615, "epoch": 3.82765455, "global_step/max_steps": "50215/65595", "percentage": "76.55%", "elapsed_time": "2d 12h 13m 21s", "remaining_time": "18h 26m 42s"}
+{"loss": 0.03891924, "token_acc": 0.98436957, "grad_norm": 1.39223254, "learning_rate": 1.295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231623, "epoch": 3.82803567, "global_step/max_steps": "50220/65595", "percentage": "76.56%", "elapsed_time": "2d 12h 13m 35s", "remaining_time": "18h 26m 18s"}
+{"loss": 0.03998847, "token_acc": 0.97750402, "grad_norm": 1.27309227, "learning_rate": 1.295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23163, "epoch": 3.8284168, "global_step/max_steps": "50225/65595", "percentage": "76.57%", "elapsed_time": "2d 12h 13m 50s", "remaining_time": "18h 25m 55s"}
+{"loss": 0.05490133, "token_acc": 0.97949674, "grad_norm": 2.23351049, "learning_rate": 1.294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231635, "epoch": 3.82879793, "global_step/max_steps": "50230/65595", "percentage": "76.58%", "elapsed_time": "2d 12h 14m 7s", "remaining_time": "18h 25m 32s"}
+{"loss": 0.05080071, "token_acc": 0.98084693, "grad_norm": 0.65778804, "learning_rate": 1.293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231638, "epoch": 3.82917905, "global_step/max_steps": "50235/65595", "percentage": "76.58%", "elapsed_time": "2d 12h 14m 26s", "remaining_time": "18h 25m 9s"}
+{"loss": 0.0639681, "token_acc": 0.97578547, "grad_norm": 1.52870131, "learning_rate": 1.292e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231644, "epoch": 3.82956018, "global_step/max_steps": "50240/65595", "percentage": "76.59%", "elapsed_time": "2d 12h 14m 41s", "remaining_time": "18h 24m 46s"}
+{"loss": 0.05395234, "token_acc": 0.98250574, "grad_norm": 3.62232876, "learning_rate": 1.291e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231647, "epoch": 3.82994131, "global_step/max_steps": "50245/65595", "percentage": "76.60%", "elapsed_time": "2d 12h 15m 0s", "remaining_time": "18h 24m 23s"}
+{"loss": 0.0527854, "token_acc": 0.97375596, "grad_norm": 1.41190791, "learning_rate": 1.291e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231654, "epoch": 3.83032243, "global_step/max_steps": "50250/65595", "percentage": "76.61%", "elapsed_time": "2d 12h 15m 15s", "remaining_time": "18h 24m 0s"}
+{"loss": 0.03671662, "token_acc": 0.98425197, "grad_norm": 0.61473697, "learning_rate": 1.29e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231656, "epoch": 3.83070356, "global_step/max_steps": "50255/65595", "percentage": "76.61%", "elapsed_time": "2d 12h 15m 36s", "remaining_time": "18h 23m 38s"}
+{"loss": 0.05837687, "token_acc": 0.98113208, "grad_norm": 1.0340203, "learning_rate": 1.289e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231661, "epoch": 3.83108469, "global_step/max_steps": "50260/65595", "percentage": "76.62%", "elapsed_time": "2d 12h 15m 52s", "remaining_time": "18h 23m 15s"}
+{"loss": 0.05537485, "token_acc": 0.97555297, "grad_norm": 0.77033335, "learning_rate": 1.288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231667, "epoch": 3.83146581, "global_step/max_steps": "50265/65595", "percentage": "76.63%", "elapsed_time": "2d 12h 16m 9s", "remaining_time": "18h 22m 51s"}
+{"loss": 0.07648814, "token_acc": 0.97660256, "grad_norm": 2.46904135, "learning_rate": 1.287e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231673, "epoch": 3.83184694, "global_step/max_steps": "50270/65595", "percentage": "76.64%", "elapsed_time": "2d 12h 16m 24s", "remaining_time": "18h 22m 28s"}
+{"loss": 0.05057912, "token_acc": 0.97815831, "grad_norm": 1.23619592, "learning_rate": 1.287e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231678, "epoch": 3.83222807, "global_step/max_steps": "50275/65595", "percentage": "76.64%", "elapsed_time": "2d 12h 16m 41s", "remaining_time": "18h 22m 5s"}
+{"loss": 0.04226187, "token_acc": 0.98179205, "grad_norm": 0.84203672, "learning_rate": 1.286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231682, "epoch": 3.83260919, "global_step/max_steps": "50280/65595", "percentage": "76.65%", "elapsed_time": "2d 12h 16m 59s", "remaining_time": "18h 21m 42s"}
+{"loss": 0.03464614, "token_acc": 0.98231161, "grad_norm": 1.2386626, "learning_rate": 1.285e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231688, "epoch": 3.83299032, "global_step/max_steps": "50285/65595", "percentage": "76.66%", "elapsed_time": "2d 12h 17m 14s", "remaining_time": "18h 21m 19s"}
+{"loss": 0.06315297, "token_acc": 0.971843, "grad_norm": 1.07849669, "learning_rate": 1.284e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231695, "epoch": 3.83337145, "global_step/max_steps": "50290/65595", "percentage": "76.67%", "elapsed_time": "2d 12h 17m 30s", "remaining_time": "18h 20m 55s"}
+{"loss": 0.04924426, "token_acc": 0.9753336, "grad_norm": 1.12491679, "learning_rate": 1.283e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231703, "epoch": 3.83375257, "global_step/max_steps": "50295/65595", "percentage": "76.68%", "elapsed_time": "2d 12h 17m 44s", "remaining_time": "18h 20m 32s"}
+{"loss": 0.05893604, "token_acc": 0.97731383, "grad_norm": 0.71218473, "learning_rate": 1.283e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231708, "epoch": 3.8341337, "global_step/max_steps": "50300/65595", "percentage": "76.68%", "elapsed_time": "2d 12h 18m 1s", "remaining_time": "18h 20m 9s"}
+{"loss": 0.01724307, "token_acc": 0.99503386, "grad_norm": 0.38783807, "learning_rate": 1.282e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231716, "epoch": 3.83451483, "global_step/max_steps": "50305/65595", "percentage": "76.69%", "elapsed_time": "2d 12h 18m 15s", "remaining_time": "18h 19m 45s"}
+{"loss": 0.03835425, "token_acc": 0.98437297, "grad_norm": 1.00813615, "learning_rate": 1.281e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231718, "epoch": 3.83489595, "global_step/max_steps": "50310/65595", "percentage": "76.70%", "elapsed_time": "2d 12h 18m 35s", "remaining_time": "18h 19m 23s"}
+{"loss": 0.03889623, "token_acc": 0.98666111, "grad_norm": 1.14562154, "learning_rate": 1.28e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231722, "epoch": 3.83527708, "global_step/max_steps": "50315/65595", "percentage": "76.71%", "elapsed_time": "2d 12h 18m 53s", "remaining_time": "18h 19m 0s"}
+{"loss": 0.03886205, "token_acc": 0.98753894, "grad_norm": 0.72149807, "learning_rate": 1.279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231726, "epoch": 3.83565821, "global_step/max_steps": "50320/65595", "percentage": "76.71%", "elapsed_time": "2d 12h 19m 10s", "remaining_time": "18h 18m 37s"}
+{"loss": 0.0425073, "token_acc": 0.98342709, "grad_norm": 0.62654769, "learning_rate": 1.279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23173, "epoch": 3.83603933, "global_step/max_steps": "50325/65595", "percentage": "76.72%", "elapsed_time": "2d 12h 19m 28s", "remaining_time": "18h 18m 15s"}
+{"loss": 0.03401303, "token_acc": 0.98639613, "grad_norm": 0.52240491, "learning_rate": 1.278e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231735, "epoch": 3.83642046, "global_step/max_steps": "50330/65595", "percentage": "76.73%", "elapsed_time": "2d 12h 19m 45s", "remaining_time": "18h 17m 51s"}
+{"loss": 0.05904126, "token_acc": 0.9786036, "grad_norm": 2.44557619, "learning_rate": 1.277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231738, "epoch": 3.83680159, "global_step/max_steps": "50335/65595", "percentage": "76.74%", "elapsed_time": "2d 12h 20m 3s", "remaining_time": "18h 17m 29s"}
+{"loss": 0.04854977, "token_acc": 0.98211434, "grad_norm": 1.06498349, "learning_rate": 1.276e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231745, "epoch": 3.83718271, "global_step/max_steps": "50340/65595", "percentage": "76.74%", "elapsed_time": "2d 12h 20m 19s", "remaining_time": "18h 17m 6s"}
+{"loss": 0.0508733, "token_acc": 0.98395342, "grad_norm": 1.16200733, "learning_rate": 1.275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231748, "epoch": 3.83756384, "global_step/max_steps": "50345/65595", "percentage": "76.75%", "elapsed_time": "2d 12h 20m 37s", "remaining_time": "18h 16m 43s"}
+{"loss": 0.04831647, "token_acc": 0.97868043, "grad_norm": 2.01942945, "learning_rate": 1.275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231753, "epoch": 3.83794497, "global_step/max_steps": "50350/65595", "percentage": "76.76%", "elapsed_time": "2d 12h 20m 55s", "remaining_time": "18h 16m 20s"}
+{"loss": 0.04964113, "token_acc": 0.9806317, "grad_norm": 2.04072928, "learning_rate": 1.274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231759, "epoch": 3.83832609, "global_step/max_steps": "50355/65595", "percentage": "76.77%", "elapsed_time": "2d 12h 21m 10s", "remaining_time": "18h 15m 57s"}
+{"loss": 0.04545292, "token_acc": 0.97961474, "grad_norm": 1.02651441, "learning_rate": 1.273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231762, "epoch": 3.83870722, "global_step/max_steps": "50360/65595", "percentage": "76.77%", "elapsed_time": "2d 12h 21m 29s", "remaining_time": "18h 15m 34s"}
+{"loss": 0.07213475, "token_acc": 0.96370692, "grad_norm": 1.06418204, "learning_rate": 1.272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231768, "epoch": 3.83908835, "global_step/max_steps": "50365/65595", "percentage": "76.78%", "elapsed_time": "2d 12h 21m 45s", "remaining_time": "18h 15m 11s"}
+{"loss": 0.04391778, "token_acc": 0.98054475, "grad_norm": 1.02042198, "learning_rate": 1.271e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231773, "epoch": 3.83946947, "global_step/max_steps": "50370/65595", "percentage": "76.79%", "elapsed_time": "2d 12h 22m 2s", "remaining_time": "18h 14m 48s"}
+{"loss": 0.03606231, "token_acc": 0.98928189, "grad_norm": 0.57553953, "learning_rate": 1.271e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231778, "epoch": 3.8398506, "global_step/max_steps": "50375/65595", "percentage": "76.80%", "elapsed_time": "2d 12h 22m 19s", "remaining_time": "18h 14m 25s"}
+{"loss": 0.04735689, "token_acc": 0.97401784, "grad_norm": 1.0163039, "learning_rate": 1.27e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231782, "epoch": 3.84023172, "global_step/max_steps": "50380/65595", "percentage": "76.80%", "elapsed_time": "2d 12h 22m 37s", "remaining_time": "18h 14m 2s"}
+{"loss": 0.04788032, "token_acc": 0.98345026, "grad_norm": 1.35952258, "learning_rate": 1.269e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231785, "epoch": 3.84061285, "global_step/max_steps": "50385/65595", "percentage": "76.81%", "elapsed_time": "2d 12h 22m 55s", "remaining_time": "18h 13m 40s"}
+{"loss": 0.0579511, "token_acc": 0.98043158, "grad_norm": 0.59201133, "learning_rate": 1.268e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231788, "epoch": 3.84099398, "global_step/max_steps": "50390/65595", "percentage": "76.82%", "elapsed_time": "2d 12h 23m 15s", "remaining_time": "18h 13m 18s"}
+{"loss": 0.05411118, "token_acc": 0.9793251, "grad_norm": 2.13312674, "learning_rate": 1.267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231794, "epoch": 3.8413751, "global_step/max_steps": "50395/65595", "percentage": "76.83%", "elapsed_time": "2d 12h 23m 30s", "remaining_time": "18h 12m 54s"}
+{"loss": 0.05299662, "token_acc": 0.975927, "grad_norm": 2.79655886, "learning_rate": 1.267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2318, "epoch": 3.84175623, "global_step/max_steps": "50400/65595", "percentage": "76.84%", "elapsed_time": "2d 12h 23m 46s", "remaining_time": "18h 12m 31s"}
+{"eval_loss": 0.05462379, "eval_token_acc": 0.97769713, "eval_runtime": 220.0874, "eval_samples_per_second": 2.408, "eval_steps_per_second": 2.408, "epoch": 3.84175623, "global_step/max_steps": "50400/65595", "percentage": "76.84%", "elapsed_time": "2d 12h 27m 27s", "remaining_time": "18h 13m 37s"}
+{"loss": 0.04121063, "token_acc": 0.97827395, "grad_norm": 0.5320431, "learning_rate": 1.266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231569, "epoch": 3.84213736, "global_step/max_steps": "50405/65595", "percentage": "76.84%", "elapsed_time": "2d 12h 27m 44s", "remaining_time": "18h 13m 15s"}
+{"loss": 0.06979293, "token_acc": 0.97331372, "grad_norm": 1.30960059, "learning_rate": 1.265e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231575, "epoch": 3.84251848, "global_step/max_steps": "50410/65595", "percentage": "76.85%", "elapsed_time": "2d 12h 28m 1s", "remaining_time": "18h 12m 52s"}
+{"loss": 0.04842133, "token_acc": 0.98184158, "grad_norm": 0.73502576, "learning_rate": 1.264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231578, "epoch": 3.84289961, "global_step/max_steps": "50415/65595", "percentage": "76.86%", "elapsed_time": "2d 12h 28m 20s", "remaining_time": "18h 12m 29s"}
+{"loss": 0.03530074, "token_acc": 0.98847202, "grad_norm": 0.81749547, "learning_rate": 1.263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231582, "epoch": 3.84328074, "global_step/max_steps": "50420/65595", "percentage": "76.87%", "elapsed_time": "2d 12h 28m 37s", "remaining_time": "18h 12m 6s"}
+{"loss": 0.05299176, "token_acc": 0.97649219, "grad_norm": 0.96052212, "learning_rate": 1.263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231586, "epoch": 3.84366186, "global_step/max_steps": "50425/65595", "percentage": "76.87%", "elapsed_time": "2d 12h 28m 55s", "remaining_time": "18h 11m 44s"}
+{"loss": 0.03995032, "token_acc": 0.98416051, "grad_norm": 1.25050545, "learning_rate": 1.262e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231591, "epoch": 3.84404299, "global_step/max_steps": "50430/65595", "percentage": "76.88%", "elapsed_time": "2d 12h 29m 12s", "remaining_time": "18h 11m 21s"}
+{"loss": 0.04857287, "token_acc": 0.98154414, "grad_norm": 0.66297418, "learning_rate": 1.261e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231593, "epoch": 3.84442412, "global_step/max_steps": "50435/65595", "percentage": "76.89%", "elapsed_time": "2d 12h 29m 31s", "remaining_time": "18h 10m 58s"}
+{"loss": 0.03470603, "token_acc": 0.98550441, "grad_norm": 0.89474869, "learning_rate": 1.26e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231598, "epoch": 3.84480524, "global_step/max_steps": "50440/65595", "percentage": "76.90%", "elapsed_time": "2d 12h 29m 49s", "remaining_time": "18h 10m 36s"}
+{"loss": 0.03105802, "token_acc": 0.98918038, "grad_norm": 0.47205043, "learning_rate": 1.259e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231599, "epoch": 3.84518637, "global_step/max_steps": "50445/65595", "percentage": "76.90%", "elapsed_time": "2d 12h 30m 9s", "remaining_time": "18h 10m 14s"}
+{"loss": 0.04694037, "token_acc": 0.98036828, "grad_norm": 1.21407521, "learning_rate": 1.259e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231604, "epoch": 3.8455675, "global_step/max_steps": "50450/65595", "percentage": "76.91%", "elapsed_time": "2d 12h 30m 26s", "remaining_time": "18h 9m 51s"}
+{"loss": 0.03668188, "token_acc": 0.98338298, "grad_norm": 0.0032747, "learning_rate": 1.258e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231606, "epoch": 3.84594862, "global_step/max_steps": "50455/65595", "percentage": "76.92%", "elapsed_time": "2d 12h 30m 46s", "remaining_time": "18h 9m 29s"}
+{"loss": 0.03365403, "token_acc": 0.98609663, "grad_norm": 0.10779249, "learning_rate": 1.257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231609, "epoch": 3.84632975, "global_step/max_steps": "50460/65595", "percentage": "76.93%", "elapsed_time": "2d 12h 31m 5s", "remaining_time": "18h 9m 6s"}
+{"loss": 0.06367952, "token_acc": 0.9681677, "grad_norm": 2.4534905, "learning_rate": 1.256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231615, "epoch": 3.84671088, "global_step/max_steps": "50465/65595", "percentage": "76.93%", "elapsed_time": "2d 12h 31m 20s", "remaining_time": "18h 8m 43s"}
+{"loss": 0.04374865, "token_acc": 0.98592932, "grad_norm": 0.97231734, "learning_rate": 1.255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231622, "epoch": 3.847092, "global_step/max_steps": "50470/65595", "percentage": "76.94%", "elapsed_time": "2d 12h 31m 35s", "remaining_time": "18h 8m 19s"}
+{"loss": 0.03537193, "token_acc": 0.98305671, "grad_norm": 1.98415804, "learning_rate": 1.255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231628, "epoch": 3.84747313, "global_step/max_steps": "50475/65595", "percentage": "76.95%", "elapsed_time": "2d 12h 31m 51s", "remaining_time": "18h 7m 56s"}
+{"loss": 0.04545109, "token_acc": 0.98424769, "grad_norm": 1.23374689, "learning_rate": 1.254e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231636, "epoch": 3.84785426, "global_step/max_steps": "50480/65595", "percentage": "76.96%", "elapsed_time": "2d 12h 32m 5s", "remaining_time": "18h 7m 32s"}
+{"loss": 0.04227425, "token_acc": 0.97916667, "grad_norm": 1.18656206, "learning_rate": 1.253e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231641, "epoch": 3.84823538, "global_step/max_steps": "50485/65595", "percentage": "76.96%", "elapsed_time": "2d 12h 32m 22s", "remaining_time": "18h 7m 9s"}
+{"loss": 0.04155125, "token_acc": 0.98200429, "grad_norm": 1.77505791, "learning_rate": 1.252e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231647, "epoch": 3.84861651, "global_step/max_steps": "50490/65595", "percentage": "76.97%", "elapsed_time": "2d 12h 32m 38s", "remaining_time": "18h 6m 46s"}
+{"loss": 0.08918529, "token_acc": 0.97049072, "grad_norm": 2.89478993, "learning_rate": 1.252e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231654, "epoch": 3.84899764, "global_step/max_steps": "50495/65595", "percentage": "76.98%", "elapsed_time": "2d 12h 32m 53s", "remaining_time": "18h 6m 22s"}
+{"loss": 0.05112984, "token_acc": 0.97992259, "grad_norm": 0.76967865, "learning_rate": 1.251e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231659, "epoch": 3.84937876, "global_step/max_steps": "50500/65595", "percentage": "76.99%", "elapsed_time": "2d 12h 33m 10s", "remaining_time": "18h 5m 59s"}
+{"loss": 0.0638008, "token_acc": 0.97774943, "grad_norm": 1.16621959, "learning_rate": 1.25e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23166, "epoch": 3.84975989, "global_step/max_steps": "50505/65595", "percentage": "77.00%", "elapsed_time": "2d 12h 33m 31s", "remaining_time": "18h 5m 37s"}
+{"loss": 0.06112871, "token_acc": 0.97518331, "grad_norm": 0.82238835, "learning_rate": 1.249e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231665, "epoch": 3.85014102, "global_step/max_steps": "50510/65595", "percentage": "77.00%", "elapsed_time": "2d 12h 33m 47s", "remaining_time": "18h 5m 14s"}
+{"loss": 0.06262748, "token_acc": 0.96935867, "grad_norm": 1.41060126, "learning_rate": 1.248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231671, "epoch": 3.85052214, "global_step/max_steps": "50515/65595", "percentage": "77.01%", "elapsed_time": "2d 12h 34m 4s", "remaining_time": "18h 4m 51s"}
+{"loss": 0.0317669, "token_acc": 0.98652771, "grad_norm": 1.09653187, "learning_rate": 1.248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231677, "epoch": 3.85090327, "global_step/max_steps": "50520/65595", "percentage": "77.02%", "elapsed_time": "2d 12h 34m 20s", "remaining_time": "18h 4m 28s"}
+{"loss": 0.03707927, "token_acc": 0.98067475, "grad_norm": 1.22341061, "learning_rate": 1.247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231684, "epoch": 3.8512844, "global_step/max_steps": "50525/65595", "percentage": "77.03%", "elapsed_time": "2d 12h 34m 34s", "remaining_time": "18h 4m 4s"}
+{"loss": 0.02979469, "token_acc": 0.98932384, "grad_norm": 0.5723353, "learning_rate": 1.246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231689, "epoch": 3.85166552, "global_step/max_steps": "50530/65595", "percentage": "77.03%", "elapsed_time": "2d 12h 34m 51s", "remaining_time": "18h 3m 41s"}
+{"loss": 0.03475047, "token_acc": 0.98342033, "grad_norm": 1.20645297, "learning_rate": 1.245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231695, "epoch": 3.85204665, "global_step/max_steps": "50535/65595", "percentage": "77.04%", "elapsed_time": "2d 12h 35m 7s", "remaining_time": "18h 3m 18s"}
+{"loss": 0.07004474, "token_acc": 0.97010016, "grad_norm": 1.24078512, "learning_rate": 1.244e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231697, "epoch": 3.85242778, "global_step/max_steps": "50540/65595", "percentage": "77.05%", "elapsed_time": "2d 12h 35m 27s", "remaining_time": "18h 2m 56s"}
+{"loss": 0.06073113, "token_acc": 0.97766517, "grad_norm": 0.71999937, "learning_rate": 1.244e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231697, "epoch": 3.8528089, "global_step/max_steps": "50545/65595", "percentage": "77.06%", "elapsed_time": "2d 12h 35m 48s", "remaining_time": "18h 2m 34s"}
+{"loss": 0.05611024, "token_acc": 0.98116761, "grad_norm": 0.89594066, "learning_rate": 1.243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231701, "epoch": 3.85319003, "global_step/max_steps": "50550/65595", "percentage": "77.06%", "elapsed_time": "2d 12h 36m 6s", "remaining_time": "18h 2m 12s"}
+{"loss": 0.05178275, "token_acc": 0.97809475, "grad_norm": 1.56068182, "learning_rate": 1.242e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231707, "epoch": 3.85357116, "global_step/max_steps": "50555/65595", "percentage": "77.07%", "elapsed_time": "2d 12h 36m 23s", "remaining_time": "18h 1m 48s"}
+{"loss": 0.04377865, "token_acc": 0.98101139, "grad_norm": 1.05010486, "learning_rate": 1.241e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231713, "epoch": 3.85395228, "global_step/max_steps": "50560/65595", "percentage": "77.08%", "elapsed_time": "2d 12h 36m 38s", "remaining_time": "18h 1m 25s"}
+{"loss": 0.03580374, "token_acc": 0.98391643, "grad_norm": 0.63051254, "learning_rate": 1.24e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231716, "epoch": 3.85433341, "global_step/max_steps": "50565/65595", "percentage": "77.09%", "elapsed_time": "2d 12h 36m 57s", "remaining_time": "18h 1m 3s"}
+{"loss": 0.05785633, "token_acc": 0.98102017, "grad_norm": 2.59273386, "learning_rate": 1.24e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231722, "epoch": 3.85471454, "global_step/max_steps": "50570/65595", "percentage": "77.09%", "elapsed_time": "2d 12h 37m 13s", "remaining_time": "18h 0m 39s"}
+{"loss": 0.04193992, "token_acc": 0.98701973, "grad_norm": 0.72129261, "learning_rate": 1.239e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231724, "epoch": 3.85509566, "global_step/max_steps": "50575/65595", "percentage": "77.10%", "elapsed_time": "2d 12h 37m 33s", "remaining_time": "18h 0m 17s"}
+{"loss": 0.05555415, "token_acc": 0.97972212, "grad_norm": 0.70761359, "learning_rate": 1.238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231731, "epoch": 3.85547679, "global_step/max_steps": "50580/65595", "percentage": "77.11%", "elapsed_time": "2d 12h 37m 48s", "remaining_time": "17h 59m 54s"}
+{"loss": 0.04261875, "token_acc": 0.98072198, "grad_norm": 1.25759161, "learning_rate": 1.237e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231736, "epoch": 3.85585792, "global_step/max_steps": "50585/65595", "percentage": "77.12%", "elapsed_time": "2d 12h 38m 4s", "remaining_time": "17h 59m 31s"}
+{"loss": 0.03802155, "token_acc": 0.98152852, "grad_norm": 0.81075907, "learning_rate": 1.237e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231742, "epoch": 3.85623904, "global_step/max_steps": "50590/65595", "percentage": "77.12%", "elapsed_time": "2d 12h 38m 20s", "remaining_time": "17h 59m 7s"}
+{"loss": 0.04489204, "token_acc": 0.97807342, "grad_norm": 1.00601435, "learning_rate": 1.236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231748, "epoch": 3.85662017, "global_step/max_steps": "50595/65595", "percentage": "77.13%", "elapsed_time": "2d 12h 38m 36s", "remaining_time": "17h 58m 44s"}
+{"loss": 0.07172273, "token_acc": 0.97393599, "grad_norm": 2.53842783, "learning_rate": 1.235e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231755, "epoch": 3.8570013, "global_step/max_steps": "50600/65595", "percentage": "77.14%", "elapsed_time": "2d 12h 38m 51s", "remaining_time": "17h 58m 21s"}
+{"eval_loss": 0.05387361, "eval_token_acc": 0.97787031, "eval_runtime": 221.2011, "eval_samples_per_second": 2.396, "eval_steps_per_second": 2.396, "epoch": 3.8570013, "global_step/max_steps": "50600/65595", "percentage": "77.14%", "elapsed_time": "2d 12h 42m 32s", "remaining_time": "17h 59m 26s"}
+{"loss": 0.04277782, "token_acc": 0.97805464, "grad_norm": 0.89788151, "learning_rate": 1.234e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231526, "epoch": 3.85738242, "global_step/max_steps": "50605/65595", "percentage": "77.15%", "elapsed_time": "2d 12h 42m 49s", "remaining_time": "17h 59m 3s"}
+{"loss": 0.07047961, "token_acc": 0.97774222, "grad_norm": 1.17993498, "learning_rate": 1.233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23153, "epoch": 3.85776355, "global_step/max_steps": "50610/65595", "percentage": "77.16%", "elapsed_time": "2d 12h 43m 6s", "remaining_time": "17h 58m 40s"}
+{"loss": 0.04615117, "token_acc": 0.98203507, "grad_norm": 1.59206617, "learning_rate": 1.233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231532, "epoch": 3.85814468, "global_step/max_steps": "50615/65595", "percentage": "77.16%", "elapsed_time": "2d 12h 43m 26s", "remaining_time": "17h 58m 18s"}
+{"loss": 0.05719997, "token_acc": 0.97676364, "grad_norm": 0.62778014, "learning_rate": 1.232e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231532, "epoch": 3.8585258, "global_step/max_steps": "50620/65595", "percentage": "77.17%", "elapsed_time": "2d 12h 43m 48s", "remaining_time": "17h 57m 57s"}
+{"loss": 0.05024533, "token_acc": 0.97877536, "grad_norm": 0.77218258, "learning_rate": 1.231e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231536, "epoch": 3.85890693, "global_step/max_steps": "50625/65595", "percentage": "77.18%", "elapsed_time": "2d 12h 44m 6s", "remaining_time": "17h 57m 34s"}
+{"loss": 0.07870106, "token_acc": 0.96496312, "grad_norm": 1.87199497, "learning_rate": 1.23e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231542, "epoch": 3.85928806, "global_step/max_steps": "50630/65595", "percentage": "77.19%", "elapsed_time": "2d 12h 44m 22s", "remaining_time": "17h 57m 11s"}
+{"loss": 0.0464849, "token_acc": 0.98352554, "grad_norm": 1.86500669, "learning_rate": 1.229e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23155, "epoch": 3.85966918, "global_step/max_steps": "50635/65595", "percentage": "77.19%", "elapsed_time": "2d 12h 44m 36s", "remaining_time": "17h 56m 47s"}
+{"loss": 0.02616997, "token_acc": 0.98450947, "grad_norm": 0.79123789, "learning_rate": 1.229e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231557, "epoch": 3.86005031, "global_step/max_steps": "50640/65595", "percentage": "77.20%", "elapsed_time": "2d 12h 44m 51s", "remaining_time": "17h 56m 23s"}
+{"loss": 0.05565265, "token_acc": 0.97766885, "grad_norm": 1.14794481, "learning_rate": 1.228e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231564, "epoch": 3.86043144, "global_step/max_steps": "50645/65595", "percentage": "77.21%", "elapsed_time": "2d 12h 45m 6s", "remaining_time": "17h 56m 0s"}
+{"loss": 0.06507147, "token_acc": 0.97758787, "grad_norm": 0.60220945, "learning_rate": 1.227e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231566, "epoch": 3.86081256, "global_step/max_steps": "50650/65595", "percentage": "77.22%", "elapsed_time": "2d 12h 45m 26s", "remaining_time": "17h 55m 38s"}
+{"loss": 0.03653512, "token_acc": 0.98419183, "grad_norm": 0.82311684, "learning_rate": 1.226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23157, "epoch": 3.86119369, "global_step/max_steps": "50655/65595", "percentage": "77.22%", "elapsed_time": "2d 12h 45m 43s", "remaining_time": "17h 55m 15s"}
+{"loss": 0.06345218, "token_acc": 0.98204911, "grad_norm": 2.80839086, "learning_rate": 1.225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231574, "epoch": 3.86157482, "global_step/max_steps": "50660/65595", "percentage": "77.23%", "elapsed_time": "2d 12h 46m 1s", "remaining_time": "17h 54m 52s"}
+{"loss": 0.03618188, "token_acc": 0.98196573, "grad_norm": 1.24726117, "learning_rate": 1.225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23158, "epoch": 3.86195594, "global_step/max_steps": "50665/65595", "percentage": "77.24%", "elapsed_time": "2d 12h 46m 17s", "remaining_time": "17h 54m 29s"}
+{"loss": 0.02652048, "token_acc": 0.99036778, "grad_norm": 1.02894104, "learning_rate": 1.224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231586, "epoch": 3.86233707, "global_step/max_steps": "50670/65595", "percentage": "77.25%", "elapsed_time": "2d 12h 46m 33s", "remaining_time": "17h 54m 6s"}
+{"loss": 0.02829886, "token_acc": 0.98719707, "grad_norm": 0.77298224, "learning_rate": 1.223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231592, "epoch": 3.86271819, "global_step/max_steps": "50675/65595", "percentage": "77.25%", "elapsed_time": "2d 12h 46m 49s", "remaining_time": "17h 53m 43s"}
+{"loss": 0.04896172, "token_acc": 0.98056647, "grad_norm": 0.70494252, "learning_rate": 1.222e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231592, "epoch": 3.86309932, "global_step/max_steps": "50680/65595", "percentage": "77.26%", "elapsed_time": "2d 12h 47m 10s", "remaining_time": "17h 53m 21s"}
+{"loss": 0.0404352, "token_acc": 0.98522967, "grad_norm": 0.68237656, "learning_rate": 1.222e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231595, "epoch": 3.86348045, "global_step/max_steps": "50685/65595", "percentage": "77.27%", "elapsed_time": "2d 12h 47m 29s", "remaining_time": "17h 52m 58s"}
+{"loss": 0.03195062, "token_acc": 0.98083427, "grad_norm": 1.55444336, "learning_rate": 1.221e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2316, "epoch": 3.86386157, "global_step/max_steps": "50690/65595", "percentage": "77.28%", "elapsed_time": "2d 12h 47m 46s", "remaining_time": "17h 52m 35s"}
+{"loss": 0.08605341, "token_acc": 0.96937834, "grad_norm": 1.68475258, "learning_rate": 1.22e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231604, "epoch": 3.8642427, "global_step/max_steps": "50695/65595", "percentage": "77.28%", "elapsed_time": "2d 12h 48m 4s", "remaining_time": "17h 52m 13s"}
+{"loss": 0.04797317, "token_acc": 0.97902098, "grad_norm": 1.5640285, "learning_rate": 1.219e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231612, "epoch": 3.86462383, "global_step/max_steps": "50700/65595", "percentage": "77.29%", "elapsed_time": "2d 12h 48m 18s", "remaining_time": "17h 51m 49s"}
+{"loss": 0.05932672, "token_acc": 0.97896532, "grad_norm": 0.61526358, "learning_rate": 1.218e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231615, "epoch": 3.86500495, "global_step/max_steps": "50705/65595", "percentage": "77.30%", "elapsed_time": "2d 12h 48m 37s", "remaining_time": "17h 51m 27s"}
+{"loss": 0.03722997, "token_acc": 0.98326492, "grad_norm": 1.60269558, "learning_rate": 1.218e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231621, "epoch": 3.86538608, "global_step/max_steps": "50710/65595", "percentage": "77.31%", "elapsed_time": "2d 12h 48m 52s", "remaining_time": "17h 51m 3s"}
+{"loss": 0.05179585, "token_acc": 0.97894103, "grad_norm": 1.8729533, "learning_rate": 1.217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231628, "epoch": 3.86576721, "global_step/max_steps": "50715/65595", "percentage": "77.32%", "elapsed_time": "2d 12h 49m 7s", "remaining_time": "17h 50m 40s"}
+{"loss": 0.04482314, "token_acc": 0.9774156, "grad_norm": 1.43973351, "learning_rate": 1.216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231633, "epoch": 3.86614833, "global_step/max_steps": "50720/65595", "percentage": "77.32%", "elapsed_time": "2d 12h 49m 24s", "remaining_time": "17h 50m 17s"}
+{"loss": 0.04043165, "token_acc": 0.9797271, "grad_norm": 1.49425364, "learning_rate": 1.215e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231641, "epoch": 3.86652946, "global_step/max_steps": "50725/65595", "percentage": "77.33%", "elapsed_time": "2d 12h 49m 38s", "remaining_time": "17h 49m 53s"}
+{"loss": 0.033487, "token_acc": 0.98597938, "grad_norm": 2.24163532, "learning_rate": 1.215e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231649, "epoch": 3.86691059, "global_step/max_steps": "50730/65595", "percentage": "77.34%", "elapsed_time": "2d 12h 49m 53s", "remaining_time": "17h 49m 29s"}
+{"loss": 0.02733787, "token_acc": 0.98918469, "grad_norm": 0.06870399, "learning_rate": 1.214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231657, "epoch": 3.86729171, "global_step/max_steps": "50735/65595", "percentage": "77.35%", "elapsed_time": "2d 12h 50m 7s", "remaining_time": "17h 49m 5s"}
+{"loss": 0.07602841, "token_acc": 0.97851143, "grad_norm": 3.02845883, "learning_rate": 1.213e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231661, "epoch": 3.86767284, "global_step/max_steps": "50740/65595", "percentage": "77.35%", "elapsed_time": "2d 12h 50m 24s", "remaining_time": "17h 48m 43s"}
+{"loss": 0.03140731, "token_acc": 0.98656012, "grad_norm": 0.73224193, "learning_rate": 1.212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231665, "epoch": 3.86805397, "global_step/max_steps": "50745/65595", "percentage": "77.36%", "elapsed_time": "2d 12h 50m 42s", "remaining_time": "17h 48m 20s"}
+{"loss": 0.04693405, "token_acc": 0.98134991, "grad_norm": 0.90808439, "learning_rate": 1.211e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23167, "epoch": 3.86843509, "global_step/max_steps": "50750/65595", "percentage": "77.37%", "elapsed_time": "2d 12h 50m 59s", "remaining_time": "17h 47m 57s"}
+{"loss": 0.069, "token_acc": 0.97122026, "grad_norm": 1.47413766, "learning_rate": 1.211e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231677, "epoch": 3.86881622, "global_step/max_steps": "50755/65595", "percentage": "77.38%", "elapsed_time": "2d 12h 51m 14s", "remaining_time": "17h 47m 34s"}
+{"loss": 0.05427579, "token_acc": 0.97995026, "grad_norm": 0.68034142, "learning_rate": 1.21e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23168, "epoch": 3.86919735, "global_step/max_steps": "50760/65595", "percentage": "77.38%", "elapsed_time": "2d 12h 51m 32s", "remaining_time": "17h 47m 11s"}
+{"loss": 0.04591402, "token_acc": 0.97998736, "grad_norm": 0.91320109, "learning_rate": 1.209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231684, "epoch": 3.86957847, "global_step/max_steps": "50765/65595", "percentage": "77.39%", "elapsed_time": "2d 12h 51m 50s", "remaining_time": "17h 46m 48s"}
+{"loss": 0.05198081, "token_acc": 0.98240522, "grad_norm": 0.65262312, "learning_rate": 1.208e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231687, "epoch": 3.8699596, "global_step/max_steps": "50770/65595", "percentage": "77.40%", "elapsed_time": "2d 12h 52m 9s", "remaining_time": "17h 46m 26s"}
+{"loss": 0.03176849, "token_acc": 0.98722628, "grad_norm": 1.28860438, "learning_rate": 1.207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231691, "epoch": 3.87034073, "global_step/max_steps": "50775/65595", "percentage": "77.41%", "elapsed_time": "2d 12h 52m 26s", "remaining_time": "17h 46m 3s"}
+{"loss": 0.03694924, "token_acc": 0.98587247, "grad_norm": 2.39436197, "learning_rate": 1.207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231698, "epoch": 3.87072185, "global_step/max_steps": "50780/65595", "percentage": "77.41%", "elapsed_time": "2d 12h 52m 42s", "remaining_time": "17h 45m 40s"}
+{"loss": 0.07671516, "token_acc": 0.97949611, "grad_norm": 1.18492723, "learning_rate": 1.206e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231703, "epoch": 3.87110298, "global_step/max_steps": "50785/65595", "percentage": "77.42%", "elapsed_time": "2d 12h 52m 58s", "remaining_time": "17h 45m 17s"}
+{"loss": 0.05758731, "token_acc": 0.98381997, "grad_norm": 1.77961838, "learning_rate": 1.205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231707, "epoch": 3.87148411, "global_step/max_steps": "50790/65595", "percentage": "77.43%", "elapsed_time": "2d 12h 53m 17s", "remaining_time": "17h 44m 54s"}
+{"loss": 0.03489676, "token_acc": 0.98390081, "grad_norm": 0.79570431, "learning_rate": 1.204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231712, "epoch": 3.87186523, "global_step/max_steps": "50795/65595", "percentage": "77.44%", "elapsed_time": "2d 12h 53m 34s", "remaining_time": "17h 44m 31s"}
+{"loss": 0.03947655, "token_acc": 0.98830025, "grad_norm": 0.56770915, "learning_rate": 1.204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231716, "epoch": 3.87224636, "global_step/max_steps": "50800/65595", "percentage": "77.44%", "elapsed_time": "2d 12h 53m 51s", "remaining_time": "17h 44m 9s"}
+{"eval_loss": 0.05374591, "eval_token_acc": 0.97767454, "eval_runtime": 222.1801, "eval_samples_per_second": 2.385, "eval_steps_per_second": 2.385, "epoch": 3.87224636, "global_step/max_steps": "50800/65595", "percentage": "77.44%", "elapsed_time": "2d 12h 57m 34s", "remaining_time": "17h 45m 13s"}
+{"loss": 0.05138645, "token_acc": 0.97783907, "grad_norm": 0.72313434, "learning_rate": 1.203e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231488, "epoch": 3.87262749, "global_step/max_steps": "50805/65595", "percentage": "77.45%", "elapsed_time": "2d 12h 57m 48s", "remaining_time": "17h 44m 50s"}
+{"loss": 0.08195709, "token_acc": 0.97953795, "grad_norm": 1.0189954, "learning_rate": 1.202e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231494, "epoch": 3.87300861, "global_step/max_steps": "50810/65595", "percentage": "77.46%", "elapsed_time": "2d 12h 58m 5s", "remaining_time": "17h 44m 27s"}
+{"loss": 0.0724413, "token_acc": 0.97802948, "grad_norm": 2.89481378, "learning_rate": 1.201e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231497, "epoch": 3.87338974, "global_step/max_steps": "50815/65595", "percentage": "77.47%", "elapsed_time": "2d 12h 58m 23s", "remaining_time": "17h 44m 4s"}
+{"loss": 0.04308631, "token_acc": 0.98243173, "grad_norm": 1.10894454, "learning_rate": 1.2e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231501, "epoch": 3.87377087, "global_step/max_steps": "50820/65595", "percentage": "77.48%", "elapsed_time": "2d 12h 58m 41s", "remaining_time": "17h 43m 41s"}
+{"loss": 0.05817143, "token_acc": 0.97417234, "grad_norm": 1.0985496, "learning_rate": 1.2e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231507, "epoch": 3.87415199, "global_step/max_steps": "50825/65595", "percentage": "77.48%", "elapsed_time": "2d 12h 58m 57s", "remaining_time": "17h 43m 18s"}
+{"loss": 0.06048065, "token_acc": 0.97910273, "grad_norm": 0.95060897, "learning_rate": 1.199e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231509, "epoch": 3.87453312, "global_step/max_steps": "50830/65595", "percentage": "77.49%", "elapsed_time": "2d 12h 59m 16s", "remaining_time": "17h 42m 56s"}
+{"loss": 0.0350208, "token_acc": 0.98661312, "grad_norm": 0.85516614, "learning_rate": 1.198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231517, "epoch": 3.87491425, "global_step/max_steps": "50835/65595", "percentage": "77.50%", "elapsed_time": "2d 12h 59m 31s", "remaining_time": "17h 42m 32s"}
+{"loss": 0.0583919, "token_acc": 0.97142193, "grad_norm": 0.91355461, "learning_rate": 1.197e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231523, "epoch": 3.87529537, "global_step/max_steps": "50840/65595", "percentage": "77.51%", "elapsed_time": "2d 12h 59m 47s", "remaining_time": "17h 42m 9s"}
+{"loss": 0.04699153, "token_acc": 0.98394179, "grad_norm": 1.02097821, "learning_rate": 1.197e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231526, "epoch": 3.8756765, "global_step/max_steps": "50845/65595", "percentage": "77.51%", "elapsed_time": "2d 13h 0m 6s", "remaining_time": "17h 41m 47s"}
+{"loss": 0.05000759, "token_acc": 0.98335467, "grad_norm": 2.58363891, "learning_rate": 1.196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231529, "epoch": 3.87605763, "global_step/max_steps": "50850/65595", "percentage": "77.52%", "elapsed_time": "2d 13h 0m 24s", "remaining_time": "17h 41m 24s"}
+{"loss": 0.04222618, "token_acc": 0.98635236, "grad_norm": 0.82204992, "learning_rate": 1.195e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231533, "epoch": 3.87643875, "global_step/max_steps": "50855/65595", "percentage": "77.53%", "elapsed_time": "2d 13h 0m 42s", "remaining_time": "17h 41m 2s"}
+{"loss": 0.04008789, "token_acc": 0.98378944, "grad_norm": 1.75260186, "learning_rate": 1.194e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231538, "epoch": 3.87681988, "global_step/max_steps": "50860/65595", "percentage": "77.54%", "elapsed_time": "2d 13h 0m 59s", "remaining_time": "17h 40m 39s"}
+{"loss": 0.03018377, "token_acc": 0.9886557, "grad_norm": 0.97180641, "learning_rate": 1.193e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231544, "epoch": 3.87720101, "global_step/max_steps": "50865/65595", "percentage": "77.54%", "elapsed_time": "2d 13h 1m 15s", "remaining_time": "17h 40m 15s"}
+{"loss": 0.06250407, "token_acc": 0.97653534, "grad_norm": 2.55246949, "learning_rate": 1.193e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231551, "epoch": 3.87758213, "global_step/max_steps": "50870/65595", "percentage": "77.55%", "elapsed_time": "2d 13h 1m 30s", "remaining_time": "17h 39m 52s"}
+{"loss": 0.05207158, "token_acc": 0.98237059, "grad_norm": 2.70477343, "learning_rate": 1.192e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231558, "epoch": 3.87796326, "global_step/max_steps": "50875/65595", "percentage": "77.56%", "elapsed_time": "2d 13h 1m 45s", "remaining_time": "17h 39m 28s"}
+{"loss": 0.03007758, "token_acc": 0.98408005, "grad_norm": 1.02453053, "learning_rate": 1.191e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231563, "epoch": 3.87834439, "global_step/max_steps": "50880/65595", "percentage": "77.57%", "elapsed_time": "2d 13h 2m 2s", "remaining_time": "17h 39m 5s"}
+{"loss": 0.03201266, "token_acc": 0.98648649, "grad_norm": 1.13168228, "learning_rate": 1.19e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231567, "epoch": 3.87872551, "global_step/max_steps": "50885/65595", "percentage": "77.57%", "elapsed_time": "2d 13h 2m 19s", "remaining_time": "17h 38m 42s"}
+{"loss": 0.05604674, "token_acc": 0.98131817, "grad_norm": 0.73112875, "learning_rate": 1.19e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23157, "epoch": 3.87910664, "global_step/max_steps": "50890/65595", "percentage": "77.58%", "elapsed_time": "2d 13h 2m 38s", "remaining_time": "17h 38m 20s"}
+{"loss": 0.04089727, "token_acc": 0.98340844, "grad_norm": 0.97501028, "learning_rate": 1.189e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231575, "epoch": 3.87948777, "global_step/max_steps": "50895/65595", "percentage": "77.59%", "elapsed_time": "2d 13h 2m 55s", "remaining_time": "17h 37m 57s"}
+{"loss": 0.03664509, "token_acc": 0.97986141, "grad_norm": 0.00010795, "learning_rate": 1.188e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231579, "epoch": 3.87986889, "global_step/max_steps": "50900/65595", "percentage": "77.60%", "elapsed_time": "2d 13h 3m 13s", "remaining_time": "17h 37m 35s"}
+{"loss": 0.04651977, "token_acc": 0.98513099, "grad_norm": 0.77067512, "learning_rate": 1.187e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231584, "epoch": 3.88025002, "global_step/max_steps": "50905/65595", "percentage": "77.61%", "elapsed_time": "2d 13h 3m 29s", "remaining_time": "17h 37m 11s"}
+{"loss": 0.04219987, "token_acc": 0.98243288, "grad_norm": 0.83037525, "learning_rate": 1.187e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231591, "epoch": 3.88063115, "global_step/max_steps": "50910/65595", "percentage": "77.61%", "elapsed_time": "2d 13h 3m 45s", "remaining_time": "17h 36m 48s"}
+{"loss": 0.04063507, "token_acc": 0.98398577, "grad_norm": 0.62433285, "learning_rate": 1.186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231596, "epoch": 3.88101227, "global_step/max_steps": "50915/65595", "percentage": "77.62%", "elapsed_time": "2d 13h 4m 1s", "remaining_time": "17h 36m 25s"}
+{"loss": 0.05069693, "token_acc": 0.9796719, "grad_norm": 0.83332515, "learning_rate": 1.185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231601, "epoch": 3.8813934, "global_step/max_steps": "50920/65595", "percentage": "77.63%", "elapsed_time": "2d 13h 4m 18s", "remaining_time": "17h 36m 2s"}
+{"loss": 0.04850957, "token_acc": 0.97799807, "grad_norm": 1.31677055, "learning_rate": 1.184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231607, "epoch": 3.88177453, "global_step/max_steps": "50925/65595", "percentage": "77.64%", "elapsed_time": "2d 13h 4m 34s", "remaining_time": "17h 35m 39s"}
+{"loss": 0.04263681, "token_acc": 0.98033313, "grad_norm": 0.3416613, "learning_rate": 1.183e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231612, "epoch": 3.88215565, "global_step/max_steps": "50930/65595", "percentage": "77.64%", "elapsed_time": "2d 13h 4m 51s", "remaining_time": "17h 35m 16s"}
+{"loss": 0.04147032, "token_acc": 0.98489977, "grad_norm": 1.81989419, "learning_rate": 1.183e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231618, "epoch": 3.88253678, "global_step/max_steps": "50935/65595", "percentage": "77.65%", "elapsed_time": "2d 13h 5m 7s", "remaining_time": "17h 34m 53s"}
+{"loss": 0.04862705, "token_acc": 0.97758887, "grad_norm": 1.87578595, "learning_rate": 1.182e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231625, "epoch": 3.88291791, "global_step/max_steps": "50940/65595", "percentage": "77.66%", "elapsed_time": "2d 13h 5m 22s", "remaining_time": "17h 34m 29s"}
+{"loss": 0.02541005, "token_acc": 0.99105676, "grad_norm": 0.85141164, "learning_rate": 1.181e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23163, "epoch": 3.88329903, "global_step/max_steps": "50945/65595", "percentage": "77.67%", "elapsed_time": "2d 13h 5m 39s", "remaining_time": "17h 34m 6s"}
+{"loss": 0.05464458, "token_acc": 0.98005933, "grad_norm": 1.51403987, "learning_rate": 1.18e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231631, "epoch": 3.88368016, "global_step/max_steps": "50950/65595", "percentage": "77.67%", "elapsed_time": "2d 13h 5m 59s", "remaining_time": "17h 33m 44s"}
+{"loss": 0.06644083, "token_acc": 0.97174393, "grad_norm": 1.45394874, "learning_rate": 1.18e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231638, "epoch": 3.88406129, "global_step/max_steps": "50955/65595", "percentage": "77.68%", "elapsed_time": "2d 13h 6m 14s", "remaining_time": "17h 33m 21s"}
+{"loss": 0.04260788, "token_acc": 0.97768063, "grad_norm": 0.98113692, "learning_rate": 1.179e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231644, "epoch": 3.88444241, "global_step/max_steps": "50960/65595", "percentage": "77.69%", "elapsed_time": "2d 13h 6m 30s", "remaining_time": "17h 32m 58s"}
+{"loss": 0.04525393, "token_acc": 0.98138748, "grad_norm": 1.15251744, "learning_rate": 1.178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231648, "epoch": 3.88482354, "global_step/max_steps": "50965/65595", "percentage": "77.70%", "elapsed_time": "2d 13h 6m 47s", "remaining_time": "17h 32m 35s"}
+{"loss": 0.03565104, "token_acc": 0.98336557, "grad_norm": 1.43652284, "learning_rate": 1.177e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231656, "epoch": 3.88520466, "global_step/max_steps": "50970/65595", "percentage": "77.70%", "elapsed_time": "2d 13h 7m 2s", "remaining_time": "17h 32m 11s"}
+{"loss": 0.03591943, "token_acc": 0.98590626, "grad_norm": 0.93537593, "learning_rate": 1.176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231663, "epoch": 3.88558579, "global_step/max_steps": "50975/65595", "percentage": "77.71%", "elapsed_time": "2d 13h 7m 17s", "remaining_time": "17h 31m 48s"}
+{"loss": 0.04315637, "token_acc": 0.98366058, "grad_norm": 1.4310956, "learning_rate": 1.176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231666, "epoch": 3.88596692, "global_step/max_steps": "50980/65595", "percentage": "77.72%", "elapsed_time": "2d 13h 7m 36s", "remaining_time": "17h 31m 25s"}
+{"loss": 0.04986762, "token_acc": 0.97731116, "grad_norm": 1.11760032, "learning_rate": 1.175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231669, "epoch": 3.88634804, "global_step/max_steps": "50985/65595", "percentage": "77.73%", "elapsed_time": "2d 13h 7m 54s", "remaining_time": "17h 31m 3s"}
+{"loss": 0.0352096, "token_acc": 0.98512447, "grad_norm": 0.26276392, "learning_rate": 1.174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231676, "epoch": 3.88672917, "global_step/max_steps": "50990/65595", "percentage": "77.73%", "elapsed_time": "2d 13h 8m 9s", "remaining_time": "17h 30m 40s"}
+{"loss": 0.05008126, "token_acc": 0.97917441, "grad_norm": 1.80060673, "learning_rate": 1.173e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231681, "epoch": 3.8871103, "global_step/max_steps": "50995/65595", "percentage": "77.74%", "elapsed_time": "2d 13h 8m 26s", "remaining_time": "17h 30m 17s"}
+{"loss": 0.0513097, "token_acc": 0.97495786, "grad_norm": 1.28893936, "learning_rate": 1.173e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231687, "epoch": 3.88749142, "global_step/max_steps": "51000/65595", "percentage": "77.75%", "elapsed_time": "2d 13h 8m 42s", "remaining_time": "17h 29m 53s"}
+{"eval_loss": 0.05311595, "eval_token_acc": 0.9778176, "eval_runtime": 218.5585, "eval_samples_per_second": 2.425, "eval_steps_per_second": 2.425, "epoch": 3.88749142, "global_step/max_steps": "51000/65595", "percentage": "77.75%", "elapsed_time": "2d 13h 12m 21s", "remaining_time": "17h 30m 56s"}
+{"loss": 0.0290176, "token_acc": 0.97821151, "grad_norm": 0.90989, "learning_rate": 1.172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231459, "epoch": 3.88787255, "global_step/max_steps": "51005/65595", "percentage": "77.76%", "elapsed_time": "2d 13h 12m 40s", "remaining_time": "17h 30m 34s"}
+{"loss": 0.03389332, "token_acc": 0.98967699, "grad_norm": 1.2698729, "learning_rate": 1.171e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231463, "epoch": 3.88825368, "global_step/max_steps": "51010/65595", "percentage": "77.77%", "elapsed_time": "2d 13h 12m 58s", "remaining_time": "17h 30m 11s"}
+{"loss": 0.07047884, "token_acc": 0.97549255, "grad_norm": 1.23609829, "learning_rate": 1.17e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231472, "epoch": 3.8886348, "global_step/max_steps": "51015/65595", "percentage": "77.77%", "elapsed_time": "2d 13h 13m 12s", "remaining_time": "17h 29m 47s"}
+{"loss": 0.0527725, "token_acc": 0.98111979, "grad_norm": 1.31637228, "learning_rate": 1.17e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231476, "epoch": 3.88901593, "global_step/max_steps": "51020/65595", "percentage": "77.78%", "elapsed_time": "2d 13h 13m 28s", "remaining_time": "17h 29m 24s"}
+{"loss": 0.0501109, "token_acc": 0.97720437, "grad_norm": 0.88418835, "learning_rate": 1.169e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231481, "epoch": 3.88939706, "global_step/max_steps": "51025/65595", "percentage": "77.79%", "elapsed_time": "2d 13h 13m 46s", "remaining_time": "17h 29m 2s"}
+{"loss": 0.06202685, "token_acc": 0.9765541, "grad_norm": 0.88050282, "learning_rate": 1.168e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231486, "epoch": 3.88977818, "global_step/max_steps": "51030/65595", "percentage": "77.80%", "elapsed_time": "2d 13h 14m 2s", "remaining_time": "17h 28m 38s"}
+{"loss": 0.05953689, "token_acc": 0.97837838, "grad_norm": 1.53803813, "learning_rate": 1.167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231494, "epoch": 3.89015931, "global_step/max_steps": "51035/65595", "percentage": "77.80%", "elapsed_time": "2d 13h 14m 17s", "remaining_time": "17h 28m 15s"}
+{"loss": 0.04035903, "token_acc": 0.9852349, "grad_norm": 0.95946568, "learning_rate": 1.166e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231496, "epoch": 3.89054044, "global_step/max_steps": "51040/65595", "percentage": "77.81%", "elapsed_time": "2d 13h 14m 36s", "remaining_time": "17h 27m 52s"}
+{"loss": 0.0524458, "token_acc": 0.97525938, "grad_norm": 1.4335562, "learning_rate": 1.166e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231501, "epoch": 3.89092156, "global_step/max_steps": "51045/65595", "percentage": "77.82%", "elapsed_time": "2d 13h 14m 53s", "remaining_time": "17h 27m 30s"}
+{"loss": 0.0511739, "token_acc": 0.98051088, "grad_norm": 1.50756228, "learning_rate": 1.165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231506, "epoch": 3.89130269, "global_step/max_steps": "51050/65595", "percentage": "77.83%", "elapsed_time": "2d 13h 15m 10s", "remaining_time": "17h 27m 7s"}
+{"loss": 0.04765793, "token_acc": 0.98805815, "grad_norm": 1.85700274, "learning_rate": 1.164e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23151, "epoch": 3.89168382, "global_step/max_steps": "51055/65595", "percentage": "77.83%", "elapsed_time": "2d 13h 15m 28s", "remaining_time": "17h 26m 44s"}
+{"loss": 0.05437748, "token_acc": 0.96685879, "grad_norm": 2.0580492, "learning_rate": 1.163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231517, "epoch": 3.89206494, "global_step/max_steps": "51060/65595", "percentage": "77.84%", "elapsed_time": "2d 13h 15m 43s", "remaining_time": "17h 26m 20s"}
+{"loss": 0.05362914, "token_acc": 0.98015489, "grad_norm": 1.41547775, "learning_rate": 1.163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231521, "epoch": 3.89244607, "global_step/max_steps": "51065/65595", "percentage": "77.85%", "elapsed_time": "2d 13h 16m 1s", "remaining_time": "17h 25m 58s"}
+{"loss": 0.04689093, "token_acc": 0.98089848, "grad_norm": 2.41875863, "learning_rate": 1.162e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231526, "epoch": 3.8928272, "global_step/max_steps": "51070/65595", "percentage": "77.86%", "elapsed_time": "2d 13h 16m 17s", "remaining_time": "17h 25m 35s"}
+{"loss": 0.04762443, "token_acc": 0.97710416, "grad_norm": 1.18540382, "learning_rate": 1.161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23153, "epoch": 3.89320832, "global_step/max_steps": "51075/65595", "percentage": "77.86%", "elapsed_time": "2d 13h 16m 35s", "remaining_time": "17h 25m 12s"}
+{"loss": 0.04083169, "token_acc": 0.98458464, "grad_norm": 2.11518002, "learning_rate": 1.16e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231536, "epoch": 3.89358945, "global_step/max_steps": "51080/65595", "percentage": "77.87%", "elapsed_time": "2d 13h 16m 51s", "remaining_time": "17h 24m 49s"}
+{"loss": 0.0545385, "token_acc": 0.98010233, "grad_norm": 1.39337981, "learning_rate": 1.16e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231542, "epoch": 3.89397058, "global_step/max_steps": "51085/65595", "percentage": "77.88%", "elapsed_time": "2d 13h 17m 7s", "remaining_time": "17h 24m 26s"}
+{"loss": 0.03399237, "token_acc": 0.98428251, "grad_norm": 0.9205566, "learning_rate": 1.159e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231548, "epoch": 3.8943517, "global_step/max_steps": "51090/65595", "percentage": "77.89%", "elapsed_time": "2d 13h 17m 23s", "remaining_time": "17h 24m 3s"}
+{"loss": 0.03806196, "token_acc": 0.97798309, "grad_norm": 1.41865134, "learning_rate": 1.158e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231553, "epoch": 3.89473283, "global_step/max_steps": "51095/65595", "percentage": "77.89%", "elapsed_time": "2d 13h 17m 39s", "remaining_time": "17h 23m 40s"}
+{"loss": 0.07277161, "token_acc": 0.97190083, "grad_norm": 3.17790341, "learning_rate": 1.157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231559, "epoch": 3.89511396, "global_step/max_steps": "51100/65595", "percentage": "77.90%", "elapsed_time": "2d 13h 17m 55s", "remaining_time": "17h 23m 16s"}
+{"loss": 0.06425299, "token_acc": 0.97432959, "grad_norm": 1.35908377, "learning_rate": 1.156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231566, "epoch": 3.89549508, "global_step/max_steps": "51105/65595", "percentage": "77.91%", "elapsed_time": "2d 13h 18m 11s", "remaining_time": "17h 22m 53s"}
+{"loss": 0.03801353, "token_acc": 0.98394825, "grad_norm": 1.65099692, "learning_rate": 1.156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231572, "epoch": 3.89587621, "global_step/max_steps": "51110/65595", "percentage": "77.92%", "elapsed_time": "2d 13h 18m 26s", "remaining_time": "17h 22m 30s"}
+{"loss": 0.02818152, "token_acc": 0.98769629, "grad_norm": 1.04999709, "learning_rate": 1.155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231576, "epoch": 3.89625734, "global_step/max_steps": "51115/65595", "percentage": "77.93%", "elapsed_time": "2d 13h 18m 44s", "remaining_time": "17h 22m 7s"}
+{"loss": 0.05747436, "token_acc": 0.97978859, "grad_norm": 0.8251074, "learning_rate": 1.154e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231579, "epoch": 3.89663846, "global_step/max_steps": "51120/65595", "percentage": "77.93%", "elapsed_time": "2d 13h 19m 3s", "remaining_time": "17h 21m 45s"}
+{"loss": 0.05493805, "token_acc": 0.98493627, "grad_norm": 1.43321621, "learning_rate": 1.153e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231582, "epoch": 3.89701959, "global_step/max_steps": "51125/65595", "percentage": "77.94%", "elapsed_time": "2d 13h 19m 21s", "remaining_time": "17h 21m 22s"}
+{"loss": 0.04442325, "token_acc": 0.9827112, "grad_norm": 1.47183979, "learning_rate": 1.153e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231587, "epoch": 3.89740072, "global_step/max_steps": "51130/65595", "percentage": "77.95%", "elapsed_time": "2d 13h 19m 38s", "remaining_time": "17h 20m 59s"}
+{"loss": 0.05169562, "token_acc": 0.98521774, "grad_norm": 0.58091027, "learning_rate": 1.152e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231594, "epoch": 3.89778184, "global_step/max_steps": "51135/65595", "percentage": "77.96%", "elapsed_time": "2d 13h 19m 54s", "remaining_time": "17h 20m 36s"}
+{"loss": 0.05654231, "token_acc": 0.97225525, "grad_norm": 1.55296123, "learning_rate": 1.151e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231601, "epoch": 3.89816297, "global_step/max_steps": "51140/65595", "percentage": "77.96%", "elapsed_time": "2d 13h 20m 8s", "remaining_time": "17h 20m 12s"}
+{"loss": 0.03676256, "token_acc": 0.98714417, "grad_norm": 1.01476324, "learning_rate": 1.15e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231602, "epoch": 3.8985441, "global_step/max_steps": "51145/65595", "percentage": "77.97%", "elapsed_time": "2d 13h 20m 28s", "remaining_time": "17h 19m 50s"}
+{"loss": 0.04628669, "token_acc": 0.97772751, "grad_norm": 2.01108503, "learning_rate": 1.15e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231607, "epoch": 3.89892522, "global_step/max_steps": "51150/65595", "percentage": "77.98%", "elapsed_time": "2d 13h 20m 45s", "remaining_time": "17h 19m 27s"}
+{"loss": 0.03952303, "token_acc": 0.9845679, "grad_norm": 1.26694047, "learning_rate": 1.149e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231614, "epoch": 3.89930635, "global_step/max_steps": "51155/65595", "percentage": "77.99%", "elapsed_time": "2d 13h 21m 1s", "remaining_time": "17h 19m 4s"}
+{"loss": 0.04495132, "token_acc": 0.97726124, "grad_norm": 0.85489362, "learning_rate": 1.148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23162, "epoch": 3.89968748, "global_step/max_steps": "51160/65595", "percentage": "77.99%", "elapsed_time": "2d 13h 21m 17s", "remaining_time": "17h 18m 41s"}
+{"loss": 0.0670404, "token_acc": 0.98049101, "grad_norm": 1.11556947, "learning_rate": 1.147e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231625, "epoch": 3.9000686, "global_step/max_steps": "51165/65595", "percentage": "78.00%", "elapsed_time": "2d 13h 21m 34s", "remaining_time": "17h 18m 18s"}
+{"loss": 0.04309865, "token_acc": 0.98071571, "grad_norm": 1.45124805, "learning_rate": 1.147e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23163, "epoch": 3.90044973, "global_step/max_steps": "51170/65595", "percentage": "78.01%", "elapsed_time": "2d 13h 21m 50s", "remaining_time": "17h 17m 55s"}
+{"loss": 0.04352582, "token_acc": 0.98582637, "grad_norm": 0.52471638, "learning_rate": 1.146e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231632, "epoch": 3.90083086, "global_step/max_steps": "51175/65595", "percentage": "78.02%", "elapsed_time": "2d 13h 22m 10s", "remaining_time": "17h 17m 33s"}
+{"loss": 0.04322465, "token_acc": 0.98306824, "grad_norm": 1.50033712, "learning_rate": 1.145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231638, "epoch": 3.90121198, "global_step/max_steps": "51180/65595", "percentage": "78.02%", "elapsed_time": "2d 13h 22m 25s", "remaining_time": "17h 17m 10s"}
+{"loss": 0.03831455, "token_acc": 0.98716475, "grad_norm": 2.6836729, "learning_rate": 1.144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231642, "epoch": 3.90159311, "global_step/max_steps": "51185/65595", "percentage": "78.03%", "elapsed_time": "2d 13h 22m 43s", "remaining_time": "17h 16m 47s"}
+{"loss": 0.05198356, "token_acc": 0.97857143, "grad_norm": 0.56870526, "learning_rate": 1.143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231649, "epoch": 3.90197424, "global_step/max_steps": "51190/65595", "percentage": "78.04%", "elapsed_time": "2d 13h 22m 58s", "remaining_time": "17h 16m 23s"}
+{"loss": 0.07160994, "token_acc": 0.97561675, "grad_norm": 1.22877395, "learning_rate": 1.143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231656, "epoch": 3.90235536, "global_step/max_steps": "51195/65595", "percentage": "78.05%", "elapsed_time": "2d 13h 23m 13s", "remaining_time": "17h 16m 0s"}
+{"loss": 0.05357984, "token_acc": 0.97902765, "grad_norm": 1.09076107, "learning_rate": 1.142e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231662, "epoch": 3.90273649, "global_step/max_steps": "51200/65595", "percentage": "78.05%", "elapsed_time": "2d 13h 23m 29s", "remaining_time": "17h 15m 37s"}
+{"eval_loss": 0.05300856, "eval_token_acc": 0.97791549, "eval_runtime": 219.7162, "eval_samples_per_second": 2.412, "eval_steps_per_second": 2.412, "epoch": 3.90273649, "global_step/max_steps": "51200/65595", "percentage": "78.05%", "elapsed_time": "2d 13h 27m 9s", "remaining_time": "17h 16m 39s"}
+{"loss": 0.08436903, "token_acc": 0.97789901, "grad_norm": 0.74610919, "learning_rate": 1.141e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231437, "epoch": 3.90311762, "global_step/max_steps": "51205/65595", "percentage": "78.06%", "elapsed_time": "2d 13h 27m 25s", "remaining_time": "17h 16m 16s"}
+{"loss": 0.05356779, "token_acc": 0.9805668, "grad_norm": 1.4322257, "learning_rate": 1.14e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23144, "epoch": 3.90349874, "global_step/max_steps": "51210/65595", "percentage": "78.07%", "elapsed_time": "2d 13h 27m 44s", "remaining_time": "17h 15m 53s"}
+{"loss": 0.04214377, "token_acc": 0.98434262, "grad_norm": 2.31749511, "learning_rate": 1.14e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231446, "epoch": 3.90387987, "global_step/max_steps": "51215/65595", "percentage": "78.08%", "elapsed_time": "2d 13h 28m 0s", "remaining_time": "17h 15m 30s"}
+{"loss": 0.0374828, "token_acc": 0.98528419, "grad_norm": 1.39578938, "learning_rate": 1.139e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231447, "epoch": 3.904261, "global_step/max_steps": "51220/65595", "percentage": "78.09%", "elapsed_time": "2d 13h 28m 20s", "remaining_time": "17h 15m 8s"}
+{"loss": 0.04581473, "token_acc": 0.98379482, "grad_norm": 2.03280282, "learning_rate": 1.138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231451, "epoch": 3.90464212, "global_step/max_steps": "51225/65595", "percentage": "78.09%", "elapsed_time": "2d 13h 28m 38s", "remaining_time": "17h 14m 45s"}
+{"loss": 0.0400915, "token_acc": 0.98399352, "grad_norm": 0.79823047, "learning_rate": 1.137e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231449, "epoch": 3.90502325, "global_step/max_steps": "51230/65595", "percentage": "78.10%", "elapsed_time": "2d 13h 29m 1s", "remaining_time": "17h 14m 24s"}
+{"loss": 0.02814033, "token_acc": 0.98932656, "grad_norm": 1.27615798, "learning_rate": 1.137e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231454, "epoch": 3.90540438, "global_step/max_steps": "51235/65595", "percentage": "78.11%", "elapsed_time": "2d 13h 29m 18s", "remaining_time": "17h 14m 1s"}
+{"loss": 0.0464693, "token_acc": 0.98445336, "grad_norm": 1.14841759, "learning_rate": 1.136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231461, "epoch": 3.9057855, "global_step/max_steps": "51240/65595", "percentage": "78.12%", "elapsed_time": "2d 13h 29m 34s", "remaining_time": "17h 13m 38s"}
+{"loss": 0.05827599, "token_acc": 0.97974494, "grad_norm": 2.16818285, "learning_rate": 1.135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231467, "epoch": 3.90616663, "global_step/max_steps": "51245/65595", "percentage": "78.12%", "elapsed_time": "2d 13h 29m 49s", "remaining_time": "17h 13m 15s"}
+{"loss": 0.06849025, "token_acc": 0.96720084, "grad_norm": 1.2552768, "learning_rate": 1.134e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231471, "epoch": 3.90654776, "global_step/max_steps": "51250/65595", "percentage": "78.13%", "elapsed_time": "2d 13h 30m 8s", "remaining_time": "17h 12m 52s"}
+{"loss": 0.02990353, "token_acc": 0.98737439, "grad_norm": 1.54565227, "learning_rate": 1.134e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231477, "epoch": 3.90692888, "global_step/max_steps": "51255/65595", "percentage": "78.14%", "elapsed_time": "2d 13h 30m 24s", "remaining_time": "17h 12m 29s"}
+{"loss": 0.05462921, "token_acc": 0.97937357, "grad_norm": 1.11348367, "learning_rate": 1.133e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231483, "epoch": 3.90731001, "global_step/max_steps": "51260/65595", "percentage": "78.15%", "elapsed_time": "2d 13h 30m 39s", "remaining_time": "17h 12m 6s"}
+{"loss": 0.0372437, "token_acc": 0.98447894, "grad_norm": 1.42558742, "learning_rate": 1.132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231489, "epoch": 3.90769113, "global_step/max_steps": "51265/65595", "percentage": "78.15%", "elapsed_time": "2d 13h 30m 55s", "remaining_time": "17h 11m 42s"}
+{"loss": 0.05358843, "token_acc": 0.97512094, "grad_norm": 5.71259308, "learning_rate": 1.131e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231498, "epoch": 3.90807226, "global_step/max_steps": "51270/65595", "percentage": "78.16%", "elapsed_time": "2d 13h 31m 8s", "remaining_time": "17h 11m 19s"}
+{"loss": 0.05142643, "token_acc": 0.9827363, "grad_norm": 2.10629416, "learning_rate": 1.131e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231503, "epoch": 3.90845339, "global_step/max_steps": "51275/65595", "percentage": "78.17%", "elapsed_time": "2d 13h 31m 25s", "remaining_time": "17h 10m 56s"}
+{"loss": 0.04892503, "token_acc": 0.97640382, "grad_norm": 1.49066126, "learning_rate": 1.13e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231509, "epoch": 3.90883451, "global_step/max_steps": "51280/65595", "percentage": "78.18%", "elapsed_time": "2d 13h 31m 40s", "remaining_time": "17h 10m 32s"}
+{"loss": 0.04102218, "token_acc": 0.98010256, "grad_norm": 0.10082318, "learning_rate": 1.129e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231514, "epoch": 3.90921564, "global_step/max_steps": "51285/65595", "percentage": "78.18%", "elapsed_time": "2d 13h 31m 58s", "remaining_time": "17h 10m 9s"}
+{"loss": 0.04811276, "token_acc": 0.97960571, "grad_norm": 1.56819677, "learning_rate": 1.128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23152, "epoch": 3.90959677, "global_step/max_steps": "51290/65595", "percentage": "78.19%", "elapsed_time": "2d 13h 32m 13s", "remaining_time": "17h 9m 46s"}
+{"loss": 0.07859848, "token_acc": 0.97028812, "grad_norm": 1.49317968, "learning_rate": 1.128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231526, "epoch": 3.90997789, "global_step/max_steps": "51295/65595", "percentage": "78.20%", "elapsed_time": "2d 13h 32m 29s", "remaining_time": "17h 9m 23s"}
+{"loss": 0.04576158, "token_acc": 0.98443999, "grad_norm": 0.97679949, "learning_rate": 1.127e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231529, "epoch": 3.91035902, "global_step/max_steps": "51300/65595", "percentage": "78.21%", "elapsed_time": "2d 13h 32m 48s", "remaining_time": "17h 9m 1s"}
+{"loss": 0.06883475, "token_acc": 0.96736842, "grad_norm": 0.91901934, "learning_rate": 1.126e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231534, "epoch": 3.91074015, "global_step/max_steps": "51305/65595", "percentage": "78.21%", "elapsed_time": "2d 13h 33m 4s", "remaining_time": "17h 8m 38s"}
+{"loss": 0.05200438, "token_acc": 0.98146422, "grad_norm": 1.07996964, "learning_rate": 1.125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231534, "epoch": 3.91112127, "global_step/max_steps": "51310/65595", "percentage": "78.22%", "elapsed_time": "2d 13h 33m 26s", "remaining_time": "17h 8m 16s"}
+{"loss": 0.06081757, "token_acc": 0.97958794, "grad_norm": 1.80311596, "learning_rate": 1.125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23154, "epoch": 3.9115024, "global_step/max_steps": "51315/65595", "percentage": "78.23%", "elapsed_time": "2d 13h 33m 42s", "remaining_time": "17h 7m 53s"}
+{"loss": 0.04532873, "token_acc": 0.97937537, "grad_norm": 0.70822632, "learning_rate": 1.124e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231545, "epoch": 3.91188353, "global_step/max_steps": "51320/65595", "percentage": "78.24%", "elapsed_time": "2d 13h 33m 59s", "remaining_time": "17h 7m 30s"}
+{"loss": 0.06600493, "token_acc": 0.97272914, "grad_norm": 3.64908195, "learning_rate": 1.123e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23155, "epoch": 3.91226465, "global_step/max_steps": "51325/65595", "percentage": "78.25%", "elapsed_time": "2d 13h 34m 16s", "remaining_time": "17h 7m 7s"}
+{"loss": 0.06788381, "token_acc": 0.97569341, "grad_norm": 0.8894729, "learning_rate": 1.122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231553, "epoch": 3.91264578, "global_step/max_steps": "51330/65595", "percentage": "78.25%", "elapsed_time": "2d 13h 34m 35s", "remaining_time": "17h 6m 45s"}
+{"loss": 0.04652921, "token_acc": 0.98214986, "grad_norm": 1.0234319, "learning_rate": 1.121e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231558, "epoch": 3.91302691, "global_step/max_steps": "51335/65595", "percentage": "78.26%", "elapsed_time": "2d 13h 34m 51s", "remaining_time": "17h 6m 22s"}
+{"loss": 0.03425142, "token_acc": 0.98349633, "grad_norm": 0.98677605, "learning_rate": 1.121e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231564, "epoch": 3.91340803, "global_step/max_steps": "51340/65595", "percentage": "78.27%", "elapsed_time": "2d 13h 35m 7s", "remaining_time": "17h 5m 59s"}
+{"loss": 0.06629308, "token_acc": 0.97039688, "grad_norm": 1.7054565, "learning_rate": 1.12e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231571, "epoch": 3.91378916, "global_step/max_steps": "51345/65595", "percentage": "78.28%", "elapsed_time": "2d 13h 35m 22s", "remaining_time": "17h 5m 35s"}
+{"loss": 0.02767299, "token_acc": 0.98993559, "grad_norm": 0.61348391, "learning_rate": 1.119e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231578, "epoch": 3.91417029, "global_step/max_steps": "51350/65595", "percentage": "78.28%", "elapsed_time": "2d 13h 35m 36s", "remaining_time": "17h 5m 12s"}
+{"loss": 0.05673876, "token_acc": 0.97587354, "grad_norm": 2.08117223, "learning_rate": 1.118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231583, "epoch": 3.91455141, "global_step/max_steps": "51355/65595", "percentage": "78.29%", "elapsed_time": "2d 13h 35m 53s", "remaining_time": "17h 4m 49s"}
+{"loss": 0.05511376, "token_acc": 0.97957958, "grad_norm": 1.58789349, "learning_rate": 1.118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231588, "epoch": 3.91493254, "global_step/max_steps": "51360/65595", "percentage": "78.30%", "elapsed_time": "2d 13h 36m 10s", "remaining_time": "17h 4m 26s"}
+{"loss": 0.03829345, "token_acc": 0.98289758, "grad_norm": 1.10410631, "learning_rate": 1.117e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231594, "epoch": 3.91531367, "global_step/max_steps": "51365/65595", "percentage": "78.31%", "elapsed_time": "2d 13h 36m 26s", "remaining_time": "17h 4m 3s"}
+{"loss": 0.05265975, "token_acc": 0.98112684, "grad_norm": 1.29170799, "learning_rate": 1.116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231599, "epoch": 3.91569479, "global_step/max_steps": "51370/65595", "percentage": "78.31%", "elapsed_time": "2d 13h 36m 43s", "remaining_time": "17h 3m 40s"}
+{"loss": 0.04529011, "token_acc": 0.98081826, "grad_norm": 1.24752414, "learning_rate": 1.115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231602, "epoch": 3.91607592, "global_step/max_steps": "51375/65595", "percentage": "78.32%", "elapsed_time": "2d 13h 37m 2s", "remaining_time": "17h 3m 17s"}
+{"loss": 0.03453406, "token_acc": 0.98499429, "grad_norm": 1.10128963, "learning_rate": 1.115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231605, "epoch": 3.91645705, "global_step/max_steps": "51380/65595", "percentage": "78.33%", "elapsed_time": "2d 13h 37m 21s", "remaining_time": "17h 2m 55s"}
+{"loss": 0.03687165, "token_acc": 0.98290598, "grad_norm": 0.89942324, "learning_rate": 1.114e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231608, "epoch": 3.91683817, "global_step/max_steps": "51385/65595", "percentage": "78.34%", "elapsed_time": "2d 13h 37m 39s", "remaining_time": "17h 2m 33s"}
+{"loss": 0.03025193, "token_acc": 0.98668147, "grad_norm": 2.0076654, "learning_rate": 1.113e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231615, "epoch": 3.9172193, "global_step/max_steps": "51390/65595", "percentage": "78.34%", "elapsed_time": "2d 13h 37m 54s", "remaining_time": "17h 2m 9s"}
+{"loss": 0.04675568, "token_acc": 0.97943445, "grad_norm": 1.06263673, "learning_rate": 1.112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231622, "epoch": 3.91760043, "global_step/max_steps": "51395/65595", "percentage": "78.35%", "elapsed_time": "2d 13h 38m 9s", "remaining_time": "17h 1m 46s"}
+{"loss": 0.0687865, "token_acc": 0.96942975, "grad_norm": 2.04216433, "learning_rate": 1.112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231629, "epoch": 3.91798155, "global_step/max_steps": "51400/65595", "percentage": "78.36%", "elapsed_time": "2d 13h 38m 24s", "remaining_time": "17h 1m 22s"}
+{"eval_loss": 0.05257738, "eval_token_acc": 0.97801337, "eval_runtime": 220.9896, "eval_samples_per_second": 2.398, "eval_steps_per_second": 2.398, "epoch": 3.91798155, "global_step/max_steps": "51400/65595", "percentage": "78.36%", "elapsed_time": "2d 13h 42m 5s", "remaining_time": "17h 2m 23s"}
+{"loss": 0.04086217, "token_acc": 0.9784264, "grad_norm": 1.40801418, "learning_rate": 1.111e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231402, "epoch": 3.91836268, "global_step/max_steps": "51405/65595", "percentage": "78.37%", "elapsed_time": "2d 13h 42m 24s", "remaining_time": "17h 2m 1s"}
+{"loss": 0.06661375, "token_acc": 0.97683305, "grad_norm": 1.55003345, "learning_rate": 1.11e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231407, "epoch": 3.91874381, "global_step/max_steps": "51410/65595", "percentage": "78.37%", "elapsed_time": "2d 13h 42m 40s", "remaining_time": "17h 1m 38s"}
+{"loss": 0.03928353, "token_acc": 0.98676891, "grad_norm": 1.30145252, "learning_rate": 1.109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231411, "epoch": 3.91912493, "global_step/max_steps": "51415/65595", "percentage": "78.38%", "elapsed_time": "2d 13h 42m 58s", "remaining_time": "17h 1m 15s"}
+{"loss": 0.03917148, "token_acc": 0.9831473, "grad_norm": 0.67242146, "learning_rate": 1.109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231412, "epoch": 3.91950606, "global_step/max_steps": "51420/65595", "percentage": "78.39%", "elapsed_time": "2d 13h 43m 19s", "remaining_time": "17h 0m 53s"}
+{"loss": 0.07114089, "token_acc": 0.97913811, "grad_norm": 0.66441423, "learning_rate": 1.108e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231416, "epoch": 3.91988719, "global_step/max_steps": "51425/65595", "percentage": "78.40%", "elapsed_time": "2d 13h 43m 36s", "remaining_time": "17h 0m 31s"}
+{"loss": 0.06058574, "token_acc": 0.97787969, "grad_norm": 1.88371062, "learning_rate": 1.107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231421, "epoch": 3.92026831, "global_step/max_steps": "51430/65595", "percentage": "78.41%", "elapsed_time": "2d 13h 43m 53s", "remaining_time": "17h 0m 8s"}
+{"loss": 0.03802376, "token_acc": 0.98296146, "grad_norm": 0.74383152, "learning_rate": 1.106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231429, "epoch": 3.92064944, "global_step/max_steps": "51435/65595", "percentage": "78.41%", "elapsed_time": "2d 13h 44m 7s", "remaining_time": "16h 59m 44s"}
+{"loss": 0.05174834, "token_acc": 0.97794118, "grad_norm": 1.2031163, "learning_rate": 1.106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231435, "epoch": 3.92103057, "global_step/max_steps": "51440/65595", "percentage": "78.42%", "elapsed_time": "2d 13h 44m 23s", "remaining_time": "16h 59m 21s"}
+{"loss": 0.04820126, "token_acc": 0.97666009, "grad_norm": 0.10071278, "learning_rate": 1.105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231442, "epoch": 3.92141169, "global_step/max_steps": "51445/65595", "percentage": "78.43%", "elapsed_time": "2d 13h 44m 38s", "remaining_time": "16h 58m 57s"}
+{"loss": 0.04429171, "token_acc": 0.98271403, "grad_norm": 1.1043942, "learning_rate": 1.104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231443, "epoch": 3.92179282, "global_step/max_steps": "51450/65595", "percentage": "78.44%", "elapsed_time": "2d 13h 44m 58s", "remaining_time": "16h 58m 35s"}
+{"loss": 0.05417246, "token_acc": 0.98196806, "grad_norm": 0.89106011, "learning_rate": 1.103e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231445, "epoch": 3.92217395, "global_step/max_steps": "51455/65595", "percentage": "78.44%", "elapsed_time": "2d 13h 45m 18s", "remaining_time": "16h 58m 13s"}
+{"loss": 0.03422315, "token_acc": 0.98629899, "grad_norm": 1.64874768, "learning_rate": 1.103e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231449, "epoch": 3.92255507, "global_step/max_steps": "51460/65595", "percentage": "78.45%", "elapsed_time": "2d 13h 45m 36s", "remaining_time": "16h 57m 51s"}
+{"loss": 0.06218161, "token_acc": 0.98145378, "grad_norm": 1.08054769, "learning_rate": 1.102e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231455, "epoch": 3.9229362, "global_step/max_steps": "51465/65595", "percentage": "78.46%", "elapsed_time": "2d 13h 45m 51s", "remaining_time": "16h 57m 27s"}
+{"loss": 0.03605667, "token_acc": 0.98722376, "grad_norm": 1.81102419, "learning_rate": 1.101e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231462, "epoch": 3.92331733, "global_step/max_steps": "51470/65595", "percentage": "78.47%", "elapsed_time": "2d 13h 46m 6s", "remaining_time": "16h 57m 4s"}
+{"loss": 0.07609275, "token_acc": 0.97218315, "grad_norm": 0.46087411, "learning_rate": 1.1e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231465, "epoch": 3.92369845, "global_step/max_steps": "51475/65595", "percentage": "78.47%", "elapsed_time": "2d 13h 46m 25s", "remaining_time": "16h 56m 42s"}
+{"loss": 0.02223771, "token_acc": 0.98833693, "grad_norm": 0.87228537, "learning_rate": 1.1e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231473, "epoch": 3.92407958, "global_step/max_steps": "51480/65595", "percentage": "78.48%", "elapsed_time": "2d 13h 46m 39s", "remaining_time": "16h 56m 18s"}
+{"loss": 0.0665877, "token_acc": 0.98563044, "grad_norm": 2.87805367, "learning_rate": 1.099e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231478, "epoch": 3.92446071, "global_step/max_steps": "51485/65595", "percentage": "78.49%", "elapsed_time": "2d 13h 46m 56s", "remaining_time": "16h 55m 55s"}
+{"loss": 0.02500041, "token_acc": 0.98999649, "grad_norm": 0.7139895, "learning_rate": 1.098e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231481, "epoch": 3.92484183, "global_step/max_steps": "51490/65595", "percentage": "78.50%", "elapsed_time": "2d 13h 47m 15s", "remaining_time": "16h 55m 33s"}
+{"loss": 0.03789768, "token_acc": 0.98301787, "grad_norm": 0.68427986, "learning_rate": 1.097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231484, "epoch": 3.92522296, "global_step/max_steps": "51495/65595", "percentage": "78.50%", "elapsed_time": "2d 13h 47m 33s", "remaining_time": "16h 55m 10s"}
+{"loss": 0.0694856, "token_acc": 0.9748724, "grad_norm": 1.6741457, "learning_rate": 1.097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231492, "epoch": 3.92560409, "global_step/max_steps": "51500/65595", "percentage": "78.51%", "elapsed_time": "2d 13h 47m 47s", "remaining_time": "16h 54m 47s"}
+{"loss": 0.04390719, "token_acc": 0.98086606, "grad_norm": 0.76644623, "learning_rate": 1.096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231496, "epoch": 3.92598521, "global_step/max_steps": "51505/65595", "percentage": "78.52%", "elapsed_time": "2d 13h 48m 5s", "remaining_time": "16h 54m 24s"}
+{"loss": 0.0411733, "token_acc": 0.98473771, "grad_norm": 0.76373762, "learning_rate": 1.095e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231495, "epoch": 3.92636634, "global_step/max_steps": "51510/65595", "percentage": "78.53%", "elapsed_time": "2d 13h 48m 28s", "remaining_time": "16h 54m 3s"}
+{"loss": 0.04992999, "token_acc": 0.98347441, "grad_norm": 0.69856936, "learning_rate": 1.094e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231497, "epoch": 3.92674747, "global_step/max_steps": "51515/65595", "percentage": "78.53%", "elapsed_time": "2d 13h 48m 47s", "remaining_time": "16h 53m 40s"}
+{"loss": 0.03401145, "token_acc": 0.98511762, "grad_norm": 0.56702399, "learning_rate": 1.094e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231502, "epoch": 3.92712859, "global_step/max_steps": "51520/65595", "percentage": "78.54%", "elapsed_time": "2d 13h 49m 4s", "remaining_time": "16h 53m 18s"}
+{"loss": 0.06788707, "token_acc": 0.97404844, "grad_norm": 2.04908347, "learning_rate": 1.093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231504, "epoch": 3.92750972, "global_step/max_steps": "51525/65595", "percentage": "78.55%", "elapsed_time": "2d 13h 49m 23s", "remaining_time": "16h 52m 55s"}
+{"loss": 0.04360926, "token_acc": 0.98360078, "grad_norm": 1.21414387, "learning_rate": 1.092e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231508, "epoch": 3.92789085, "global_step/max_steps": "51530/65595", "percentage": "78.56%", "elapsed_time": "2d 13h 49m 41s", "remaining_time": "16h 52m 33s"}
+{"loss": 0.02374544, "token_acc": 0.98811189, "grad_norm": 1.32099271, "learning_rate": 1.091e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231514, "epoch": 3.92827197, "global_step/max_steps": "51535/65595", "percentage": "78.57%", "elapsed_time": "2d 13h 49m 57s", "remaining_time": "16h 52m 10s"}
+{"loss": 0.03431703, "token_acc": 0.98595642, "grad_norm": 2.24553251, "learning_rate": 1.091e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231522, "epoch": 3.9286531, "global_step/max_steps": "51540/65595", "percentage": "78.57%", "elapsed_time": "2d 13h 50m 11s", "remaining_time": "16h 51m 46s"}
+{"loss": 0.04398789, "token_acc": 0.98424354, "grad_norm": 0.91600198, "learning_rate": 1.09e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231525, "epoch": 3.92903423, "global_step/max_steps": "51545/65595", "percentage": "78.58%", "elapsed_time": "2d 13h 50m 30s", "remaining_time": "16h 51m 23s"}
+{"loss": 0.02124863, "token_acc": 0.98871557, "grad_norm": 1.31190503, "learning_rate": 1.089e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231529, "epoch": 3.92941535, "global_step/max_steps": "51550/65595", "percentage": "78.59%", "elapsed_time": "2d 13h 50m 47s", "remaining_time": "16h 51m 1s"}
+{"loss": 0.05024908, "token_acc": 0.98348927, "grad_norm": 0.87721062, "learning_rate": 1.088e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231535, "epoch": 3.92979648, "global_step/max_steps": "51555/65595", "percentage": "78.60%", "elapsed_time": "2d 13h 51m 4s", "remaining_time": "16h 50m 38s"}
+{"loss": 0.04013388, "token_acc": 0.97946461, "grad_norm": 0.93062806, "learning_rate": 1.088e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231542, "epoch": 3.93017761, "global_step/max_steps": "51560/65595", "percentage": "78.60%", "elapsed_time": "2d 13h 51m 18s", "remaining_time": "16h 50m 14s"}
+{"loss": 0.06817114, "token_acc": 0.96607246, "grad_norm": 1.21497154, "learning_rate": 1.087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231548, "epoch": 3.93055873, "global_step/max_steps": "51565/65595", "percentage": "78.61%", "elapsed_time": "2d 13h 51m 34s", "remaining_time": "16h 49m 51s"}
+{"loss": 0.06333566, "token_acc": 0.96882494, "grad_norm": 1.96176684, "learning_rate": 1.086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231554, "epoch": 3.93093986, "global_step/max_steps": "51570/65595", "percentage": "78.62%", "elapsed_time": "2d 13h 51m 49s", "remaining_time": "16h 49m 28s"}
+{"loss": 0.04871149, "token_acc": 0.98460674, "grad_norm": 0.9159767, "learning_rate": 1.085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231554, "epoch": 3.93132098, "global_step/max_steps": "51575/65595", "percentage": "78.63%", "elapsed_time": "2d 13h 52m 12s", "remaining_time": "16h 49m 6s"}
+{"loss": 0.04200442, "token_acc": 0.98566485, "grad_norm": 1.09221864, "learning_rate": 1.085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231559, "epoch": 3.93170211, "global_step/max_steps": "51580/65595", "percentage": "78.63%", "elapsed_time": "2d 13h 52m 28s", "remaining_time": "16h 48m 43s"}
+{"loss": 0.0294598, "token_acc": 0.98489598, "grad_norm": 1.18893695, "learning_rate": 1.084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231565, "epoch": 3.93208324, "global_step/max_steps": "51585/65595", "percentage": "78.64%", "elapsed_time": "2d 13h 52m 44s", "remaining_time": "16h 48m 20s"}
+{"loss": 0.05101818, "token_acc": 0.98058252, "grad_norm": 1.73256838, "learning_rate": 1.083e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231571, "epoch": 3.93246436, "global_step/max_steps": "51590/65595", "percentage": "78.65%", "elapsed_time": "2d 13h 53m 0s", "remaining_time": "16h 47m 57s"}
+{"loss": 0.05173635, "token_acc": 0.9799977, "grad_norm": 0.69861126, "learning_rate": 1.082e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231572, "epoch": 3.93284549, "global_step/max_steps": "51595/65595", "percentage": "78.66%", "elapsed_time": "2d 13h 53m 21s", "remaining_time": "16h 47m 35s"}
+{"loss": 0.05944144, "token_acc": 0.9763522, "grad_norm": 1.0006243, "learning_rate": 1.082e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231577, "epoch": 3.93322662, "global_step/max_steps": "51600/65595", "percentage": "78.66%", "elapsed_time": "2d 13h 53m 38s", "remaining_time": "16h 47m 12s"}
+{"eval_loss": 0.05234024, "eval_token_acc": 0.97841245, "eval_runtime": 219.6408, "eval_samples_per_second": 2.413, "eval_steps_per_second": 2.413, "epoch": 3.93322662, "global_step/max_steps": "51600/65595", "percentage": "78.66%", "elapsed_time": "2d 13h 57m 17s", "remaining_time": "16h 48m 12s"}
+{"loss": 0.06141182, "token_acc": 0.97827026, "grad_norm": 2.08547354, "learning_rate": 1.081e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231355, "epoch": 3.93360774, "global_step/max_steps": "51605/65595", "percentage": "78.67%", "elapsed_time": "2d 13h 57m 33s", "remaining_time": "16h 47m 49s"}
+{"loss": 0.05167187, "token_acc": 0.97537704, "grad_norm": 1.07501352, "learning_rate": 1.08e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231359, "epoch": 3.93398887, "global_step/max_steps": "51610/65595", "percentage": "78.68%", "elapsed_time": "2d 13h 57m 51s", "remaining_time": "16h 47m 26s"}
+{"loss": 0.03413606, "token_acc": 0.98614914, "grad_norm": 0.78057402, "learning_rate": 1.08e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231363, "epoch": 3.93437, "global_step/max_steps": "51615/65595", "percentage": "78.69%", "elapsed_time": "2d 13h 58m 9s", "remaining_time": "16h 47m 3s"}
+{"loss": 0.03567119, "token_acc": 0.98401464, "grad_norm": 1.0014081, "learning_rate": 1.079e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231365, "epoch": 3.93475112, "global_step/max_steps": "51620/65595", "percentage": "78.70%", "elapsed_time": "2d 13h 58m 28s", "remaining_time": "16h 46m 41s"}
+{"loss": 0.04408842, "token_acc": 0.98362676, "grad_norm": 1.78269684, "learning_rate": 1.078e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231368, "epoch": 3.93513225, "global_step/max_steps": "51625/65595", "percentage": "78.70%", "elapsed_time": "2d 13h 58m 47s", "remaining_time": "16h 46m 19s"}
+{"loss": 0.04615304, "token_acc": 0.98154706, "grad_norm": 0.83872175, "learning_rate": 1.077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231372, "epoch": 3.93551338, "global_step/max_steps": "51630/65595", "percentage": "78.71%", "elapsed_time": "2d 13h 59m 4s", "remaining_time": "16h 45m 56s"}
+{"loss": 0.04844097, "token_acc": 0.98158097, "grad_norm": 0.75185686, "learning_rate": 1.077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231377, "epoch": 3.9358945, "global_step/max_steps": "51635/65595", "percentage": "78.72%", "elapsed_time": "2d 13h 59m 21s", "remaining_time": "16h 45m 33s"}
+{"loss": 0.05204704, "token_acc": 0.98604763, "grad_norm": 2.6415987, "learning_rate": 1.076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231383, "epoch": 3.93627563, "global_step/max_steps": "51640/65595", "percentage": "78.73%", "elapsed_time": "2d 13h 59m 37s", "remaining_time": "16h 45m 10s"}
+{"loss": 0.04974832, "token_acc": 0.97671007, "grad_norm": 1.34214151, "learning_rate": 1.075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231388, "epoch": 3.93665676, "global_step/max_steps": "51645/65595", "percentage": "78.73%", "elapsed_time": "2d 13h 59m 54s", "remaining_time": "16h 44m 47s"}
+{"loss": 0.03908744, "token_acc": 0.98461195, "grad_norm": 1.50126624, "learning_rate": 1.074e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231394, "epoch": 3.93703788, "global_step/max_steps": "51650/65595", "percentage": "78.74%", "elapsed_time": "2d 14h 0m 10s", "remaining_time": "16h 44m 24s"}
+{"loss": 0.03732075, "token_acc": 0.98563536, "grad_norm": 0.8360908, "learning_rate": 1.074e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231401, "epoch": 3.93741901, "global_step/max_steps": "51655/65595", "percentage": "78.75%", "elapsed_time": "2d 14h 0m 25s", "remaining_time": "16h 44m 1s"}
+{"loss": 0.04428608, "token_acc": 0.98050682, "grad_norm": 1.72960961, "learning_rate": 1.073e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231407, "epoch": 3.93780014, "global_step/max_steps": "51660/65595", "percentage": "78.76%", "elapsed_time": "2d 14h 0m 40s", "remaining_time": "16h 43m 37s"}
+{"loss": 0.03089711, "token_acc": 0.98652536, "grad_norm": 0.59200847, "learning_rate": 1.072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231409, "epoch": 3.93818126, "global_step/max_steps": "51665/65595", "percentage": "78.76%", "elapsed_time": "2d 14h 1m 0s", "remaining_time": "16h 43m 15s"}
+{"loss": 0.06136168, "token_acc": 0.98721921, "grad_norm": 1.25178504, "learning_rate": 1.071e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231412, "epoch": 3.93856239, "global_step/max_steps": "51670/65595", "percentage": "78.77%", "elapsed_time": "2d 14h 1m 18s", "remaining_time": "16h 42m 53s"}
+{"loss": 0.03922918, "token_acc": 0.98543093, "grad_norm": 0.79138929, "learning_rate": 1.071e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231418, "epoch": 3.93894352, "global_step/max_steps": "51675/65595", "percentage": "78.78%", "elapsed_time": "2d 14h 1m 35s", "remaining_time": "16h 42m 30s"}
+{"loss": 0.03903008, "token_acc": 0.98651945, "grad_norm": 0.50581509, "learning_rate": 1.07e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231417, "epoch": 3.93932464, "global_step/max_steps": "51680/65595", "percentage": "78.79%", "elapsed_time": "2d 14h 1m 58s", "remaining_time": "16h 42m 9s"}
+{"loss": 0.05009523, "token_acc": 0.97062024, "grad_norm": 1.03016019, "learning_rate": 1.069e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231422, "epoch": 3.93970577, "global_step/max_steps": "51685/65595", "percentage": "78.79%", "elapsed_time": "2d 14h 2m 14s", "remaining_time": "16h 41m 45s"}
+{"loss": 0.03854673, "token_acc": 0.98471305, "grad_norm": 1.64051211, "learning_rate": 1.068e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231425, "epoch": 3.9400869, "global_step/max_steps": "51690/65595", "percentage": "78.80%", "elapsed_time": "2d 14h 2m 32s", "remaining_time": "16h 41m 23s"}
+{"loss": 0.04859372, "token_acc": 0.98167849, "grad_norm": 1.22154069, "learning_rate": 1.068e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231432, "epoch": 3.94046802, "global_step/max_steps": "51695/65595", "percentage": "78.81%", "elapsed_time": "2d 14h 2m 48s", "remaining_time": "16h 41m 0s"}
+{"loss": 0.07070796, "token_acc": 0.97458117, "grad_norm": 1.7016387, "learning_rate": 1.067e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231437, "epoch": 3.94084915, "global_step/max_steps": "51700/65595", "percentage": "78.82%", "elapsed_time": "2d 14h 3m 4s", "remaining_time": "16h 40m 37s"}
+{"loss": 0.0336055, "token_acc": 0.98735989, "grad_norm": 0.78051567, "learning_rate": 1.066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231442, "epoch": 3.94123028, "global_step/max_steps": "51705/65595", "percentage": "78.82%", "elapsed_time": "2d 14h 3m 21s", "remaining_time": "16h 40m 14s"}
+{"loss": 0.03400072, "token_acc": 0.98799558, "grad_norm": 1.93192518, "learning_rate": 1.065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231445, "epoch": 3.9416114, "global_step/max_steps": "51710/65595", "percentage": "78.83%", "elapsed_time": "2d 14h 3m 40s", "remaining_time": "16h 39m 52s"}
+{"loss": 0.0330002, "token_acc": 0.98237885, "grad_norm": 0.96920115, "learning_rate": 1.065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231451, "epoch": 3.94199253, "global_step/max_steps": "51715/65595", "percentage": "78.84%", "elapsed_time": "2d 14h 3m 55s", "remaining_time": "16h 39m 28s"}
+{"loss": 0.03381035, "token_acc": 0.98638353, "grad_norm": 1.53320634, "learning_rate": 1.064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231454, "epoch": 3.94237366, "global_step/max_steps": "51720/65595", "percentage": "78.85%", "elapsed_time": "2d 14h 4m 14s", "remaining_time": "16h 39m 6s"}
+{"loss": 0.03223089, "token_acc": 0.98714286, "grad_norm": 0.64657229, "learning_rate": 1.063e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231461, "epoch": 3.94275478, "global_step/max_steps": "51725/65595", "percentage": "78.86%", "elapsed_time": "2d 14h 4m 29s", "remaining_time": "16h 38m 43s"}
+{"loss": 0.03100521, "token_acc": 0.98432353, "grad_norm": 0.79592758, "learning_rate": 1.062e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231462, "epoch": 3.94313591, "global_step/max_steps": "51730/65595", "percentage": "78.86%", "elapsed_time": "2d 14h 4m 50s", "remaining_time": "16h 38m 21s"}
+{"loss": 0.06455446, "token_acc": 0.9746253, "grad_norm": 1.34014571, "learning_rate": 1.062e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231463, "epoch": 3.94351704, "global_step/max_steps": "51735/65595", "percentage": "78.87%", "elapsed_time": "2d 14h 5m 10s", "remaining_time": "16h 37m 59s"}
+{"loss": 0.04050071, "token_acc": 0.98455853, "grad_norm": 2.18304324, "learning_rate": 1.061e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231465, "epoch": 3.94389816, "global_step/max_steps": "51740/65595", "percentage": "78.88%", "elapsed_time": "2d 14h 5m 30s", "remaining_time": "16h 37m 37s"}
+{"loss": 0.03611061, "token_acc": 0.98645119, "grad_norm": 1.24848139, "learning_rate": 1.06e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231469, "epoch": 3.94427929, "global_step/max_steps": "51745/65595", "percentage": "78.89%", "elapsed_time": "2d 14h 5m 48s", "remaining_time": "16h 37m 14s"}
+{"loss": 0.03957095, "token_acc": 0.98797189, "grad_norm": 0.42813396, "learning_rate": 1.06e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231472, "epoch": 3.94466042, "global_step/max_steps": "51750/65595", "percentage": "78.89%", "elapsed_time": "2d 14h 6m 7s", "remaining_time": "16h 36m 52s"}
+{"loss": 0.06450716, "token_acc": 0.97702703, "grad_norm": 1.1534344, "learning_rate": 1.059e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231475, "epoch": 3.94504154, "global_step/max_steps": "51755/65595", "percentage": "78.90%", "elapsed_time": "2d 14h 6m 25s", "remaining_time": "16h 36m 29s"}
+{"loss": 0.06625234, "token_acc": 0.96869852, "grad_norm": 0.97473973, "learning_rate": 1.058e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231483, "epoch": 3.94542267, "global_step/max_steps": "51760/65595", "percentage": "78.91%", "elapsed_time": "2d 14h 6m 39s", "remaining_time": "16h 36m 6s"}
+{"loss": 0.06825854, "token_acc": 0.97669057, "grad_norm": 1.5018456, "learning_rate": 1.057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231488, "epoch": 3.9458038, "global_step/max_steps": "51765/65595", "percentage": "78.92%", "elapsed_time": "2d 14h 6m 56s", "remaining_time": "16h 35m 43s"}
+{"loss": 0.0483841, "token_acc": 0.97898338, "grad_norm": 1.1772207, "learning_rate": 1.057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231494, "epoch": 3.94618492, "global_step/max_steps": "51770/65595", "percentage": "78.92%", "elapsed_time": "2d 14h 7m 12s", "remaining_time": "16h 35m 20s"}
+{"loss": 0.03082903, "token_acc": 0.98579642, "grad_norm": 1.19795728, "learning_rate": 1.056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231497, "epoch": 3.94656605, "global_step/max_steps": "51775/65595", "percentage": "78.93%", "elapsed_time": "2d 14h 7m 30s", "remaining_time": "16h 34m 57s"}
+{"loss": 0.04400016, "token_acc": 0.98077219, "grad_norm": 1.2399596, "learning_rate": 1.055e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231502, "epoch": 3.94694718, "global_step/max_steps": "51780/65595", "percentage": "78.94%", "elapsed_time": "2d 14h 7m 47s", "remaining_time": "16h 34m 34s"}
+{"loss": 0.06157303, "token_acc": 0.97587985, "grad_norm": 1.00388312, "learning_rate": 1.054e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231505, "epoch": 3.9473283, "global_step/max_steps": "51785/65595", "percentage": "78.95%", "elapsed_time": "2d 14h 8m 6s", "remaining_time": "16h 34m 12s"}
+{"loss": 0.03049135, "token_acc": 0.98129466, "grad_norm": 0.79443312, "learning_rate": 1.054e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231511, "epoch": 3.94770943, "global_step/max_steps": "51790/65595", "percentage": "78.95%", "elapsed_time": "2d 14h 8m 22s", "remaining_time": "16h 33m 49s"}
+{"loss": 0.06050439, "token_acc": 0.97735131, "grad_norm": 1.99167395, "learning_rate": 1.053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231515, "epoch": 3.94809056, "global_step/max_steps": "51795/65595", "percentage": "78.96%", "elapsed_time": "2d 14h 8m 39s", "remaining_time": "16h 33m 26s"}
+{"loss": 0.05459884, "token_acc": 0.98123021, "grad_norm": 0.64264899, "learning_rate": 1.052e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231521, "epoch": 3.94847168, "global_step/max_steps": "51800/65595", "percentage": "78.97%", "elapsed_time": "2d 14h 8m 55s", "remaining_time": "16h 33m 3s"}
+{"eval_loss": 0.05188532, "eval_token_acc": 0.97805102, "eval_runtime": 220.269, "eval_samples_per_second": 2.406, "eval_steps_per_second": 2.406, "epoch": 3.94847168, "global_step/max_steps": "51800/65595", "percentage": "78.97%", "elapsed_time": "2d 14h 12m 36s", "remaining_time": "16h 34m 2s"}
+{"loss": 0.03791237, "token_acc": 0.97818449, "grad_norm": 0.74230075, "learning_rate": 1.051e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231298, "epoch": 3.94885281, "global_step/max_steps": "51805/65595", "percentage": "78.98%", "elapsed_time": "2d 14h 12m 52s", "remaining_time": "16h 33m 39s"}
+{"loss": 0.03876355, "token_acc": 0.98725651, "grad_norm": 0.69327599, "learning_rate": 1.051e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231303, "epoch": 3.94923394, "global_step/max_steps": "51810/65595", "percentage": "78.98%", "elapsed_time": "2d 14h 13m 9s", "remaining_time": "16h 33m 16s"}
+{"loss": 0.05160326, "token_acc": 0.97966317, "grad_norm": 0.80732024, "learning_rate": 1.05e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231307, "epoch": 3.94961506, "global_step/max_steps": "51815/65595", "percentage": "78.99%", "elapsed_time": "2d 14h 13m 27s", "remaining_time": "16h 32m 53s"}
+{"loss": 0.03879556, "token_acc": 0.98159898, "grad_norm": 1.09386575, "learning_rate": 1.049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231316, "epoch": 3.94999619, "global_step/max_steps": "51820/65595", "percentage": "79.00%", "elapsed_time": "2d 14h 13m 40s", "remaining_time": "16h 32m 30s"}
+{"loss": 0.06141722, "token_acc": 0.98198953, "grad_norm": 1.00893474, "learning_rate": 1.048e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23132, "epoch": 3.95037732, "global_step/max_steps": "51825/65595", "percentage": "79.01%", "elapsed_time": "2d 14h 13m 58s", "remaining_time": "16h 32m 7s"}
+{"loss": 0.02640992, "token_acc": 0.98618491, "grad_norm": 1.07060397, "learning_rate": 1.048e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231328, "epoch": 3.95075844, "global_step/max_steps": "51830/65595", "percentage": "79.02%", "elapsed_time": "2d 14h 14m 11s", "remaining_time": "16h 31m 43s"}
+{"loss": 0.03968728, "token_acc": 0.9825641, "grad_norm": 1.10009301, "learning_rate": 1.047e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231333, "epoch": 3.95113957, "global_step/max_steps": "51835/65595", "percentage": "79.02%", "elapsed_time": "2d 14h 14m 28s", "remaining_time": "16h 31m 20s"}
+{"loss": 0.03538546, "token_acc": 0.98457197, "grad_norm": 0.62873286, "learning_rate": 1.046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231337, "epoch": 3.9515207, "global_step/max_steps": "51840/65595", "percentage": "79.03%", "elapsed_time": "2d 14h 14m 46s", "remaining_time": "16h 30m 58s"}
+{"loss": 0.03518474, "token_acc": 0.98168035, "grad_norm": 0.99585932, "learning_rate": 1.046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231343, "epoch": 3.95190182, "global_step/max_steps": "51845/65595", "percentage": "79.04%", "elapsed_time": "2d 14h 15m 1s", "remaining_time": "16h 30m 34s"}
+{"loss": 0.05206428, "token_acc": 0.97686715, "grad_norm": 1.56379402, "learning_rate": 1.045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231346, "epoch": 3.95228295, "global_step/max_steps": "51850/65595", "percentage": "79.05%", "elapsed_time": "2d 14h 15m 20s", "remaining_time": "16h 30m 12s"}
+{"loss": 0.03954292, "token_acc": 0.97895623, "grad_norm": 0.93234003, "learning_rate": 1.044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231349, "epoch": 3.95266408, "global_step/max_steps": "51855/65595", "percentage": "79.05%", "elapsed_time": "2d 14h 15m 40s", "remaining_time": "16h 29m 50s"}
+{"loss": 0.06731005, "token_acc": 0.97467094, "grad_norm": 0.85638708, "learning_rate": 1.043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23135, "epoch": 3.9530452, "global_step/max_steps": "51860/65595", "percentage": "79.06%", "elapsed_time": "2d 14h 15m 59s", "remaining_time": "16h 29m 28s"}
+{"loss": 0.04936817, "token_acc": 0.97835731, "grad_norm": 0.93099123, "learning_rate": 1.043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231353, "epoch": 3.95342633, "global_step/max_steps": "51865/65595", "percentage": "79.07%", "elapsed_time": "2d 14h 16m 19s", "remaining_time": "16h 29m 5s"}
+{"loss": 0.0288421, "token_acc": 0.988677, "grad_norm": 0.68121362, "learning_rate": 1.042e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231358, "epoch": 3.95380745, "global_step/max_steps": "51870/65595", "percentage": "79.08%", "elapsed_time": "2d 14h 16m 36s", "remaining_time": "16h 28m 43s"}
+{"loss": 0.04601688, "token_acc": 0.97514436, "grad_norm": 0.89678091, "learning_rate": 1.041e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231364, "epoch": 3.95418858, "global_step/max_steps": "51875/65595", "percentage": "79.08%", "elapsed_time": "2d 14h 16m 51s", "remaining_time": "16h 28m 20s"}
+{"loss": 0.04852185, "token_acc": 0.9807381, "grad_norm": 1.51257074, "learning_rate": 1.04e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231368, "epoch": 3.95456971, "global_step/max_steps": "51880/65595", "percentage": "79.09%", "elapsed_time": "2d 14h 17m 9s", "remaining_time": "16h 27m 57s"}
+{"loss": 0.0437685, "token_acc": 0.97990517, "grad_norm": 1.21030724, "learning_rate": 1.04e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231374, "epoch": 3.95495083, "global_step/max_steps": "51885/65595", "percentage": "79.10%", "elapsed_time": "2d 14h 17m 25s", "remaining_time": "16h 27m 34s"}
+{"loss": 0.04990202, "token_acc": 0.98005051, "grad_norm": 0.86497474, "learning_rate": 1.039e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23138, "epoch": 3.95533196, "global_step/max_steps": "51890/65595", "percentage": "79.11%", "elapsed_time": "2d 14h 17m 41s", "remaining_time": "16h 27m 11s"}
+{"loss": 0.03775315, "token_acc": 0.98500163, "grad_norm": 0.82061374, "learning_rate": 1.038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231384, "epoch": 3.95571309, "global_step/max_steps": "51895/65595", "percentage": "79.11%", "elapsed_time": "2d 14h 17m 58s", "remaining_time": "16h 26m 48s"}
+{"loss": 0.0503419, "token_acc": 0.97848177, "grad_norm": 0.5441038, "learning_rate": 1.038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231388, "epoch": 3.95609421, "global_step/max_steps": "51900/65595", "percentage": "79.12%", "elapsed_time": "2d 14h 18m 16s", "remaining_time": "16h 26m 25s"}
+{"loss": 0.04422246, "token_acc": 0.97986168, "grad_norm": 1.13189101, "learning_rate": 1.037e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231393, "epoch": 3.95647534, "global_step/max_steps": "51905/65595", "percentage": "79.13%", "elapsed_time": "2d 14h 18m 32s", "remaining_time": "16h 26m 2s"}
+{"loss": 0.03632457, "token_acc": 0.98340611, "grad_norm": 1.02744794, "learning_rate": 1.036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231396, "epoch": 3.95685647, "global_step/max_steps": "51910/65595", "percentage": "79.14%", "elapsed_time": "2d 14h 18m 51s", "remaining_time": "16h 25m 40s"}
+{"loss": 0.05979504, "token_acc": 0.98056769, "grad_norm": 0.56598401, "learning_rate": 1.035e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231403, "epoch": 3.95723759, "global_step/max_steps": "51915/65595", "percentage": "79.14%", "elapsed_time": "2d 14h 19m 6s", "remaining_time": "16h 25m 17s"}
+{"loss": 0.03783351, "token_acc": 0.98157781, "grad_norm": 1.26860535, "learning_rate": 1.035e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231408, "epoch": 3.95761872, "global_step/max_steps": "51920/65595", "percentage": "79.15%", "elapsed_time": "2d 14h 19m 23s", "remaining_time": "16h 24m 54s"}
+{"loss": 0.03937557, "token_acc": 0.98049949, "grad_norm": 0.60053873, "learning_rate": 1.034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231411, "epoch": 3.95799985, "global_step/max_steps": "51925/65595", "percentage": "79.16%", "elapsed_time": "2d 14h 19m 42s", "remaining_time": "16h 24m 31s"}
+{"loss": 0.03943772, "token_acc": 0.98291511, "grad_norm": 1.06260502, "learning_rate": 1.033e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231419, "epoch": 3.95838097, "global_step/max_steps": "51930/65595", "percentage": "79.17%", "elapsed_time": "2d 14h 19m 55s", "remaining_time": "16h 24m 8s"}
+{"loss": 0.05337077, "token_acc": 0.98133439, "grad_norm": 1.49744272, "learning_rate": 1.032e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231422, "epoch": 3.9587621, "global_step/max_steps": "51935/65595", "percentage": "79.18%", "elapsed_time": "2d 14h 20m 14s", "remaining_time": "16h 23m 45s"}
+{"loss": 0.03892598, "token_acc": 0.98404429, "grad_norm": 0.38784498, "learning_rate": 1.032e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231428, "epoch": 3.95914323, "global_step/max_steps": "51940/65595", "percentage": "79.18%", "elapsed_time": "2d 14h 20m 30s", "remaining_time": "16h 23m 22s"}
+{"loss": 0.02247331, "token_acc": 0.98214286, "grad_norm": 0.52711105, "learning_rate": 1.031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231436, "epoch": 3.95952435, "global_step/max_steps": "51945/65595", "percentage": "79.19%", "elapsed_time": "2d 14h 20m 44s", "remaining_time": "16h 22m 59s"}
+{"loss": 0.0503357, "token_acc": 0.98202397, "grad_norm": 1.08793175, "learning_rate": 1.03e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231441, "epoch": 3.95990548, "global_step/max_steps": "51950/65595", "percentage": "79.20%", "elapsed_time": "2d 14h 21m 1s", "remaining_time": "16h 22m 36s"}
+{"loss": 0.03238977, "token_acc": 0.9886613, "grad_norm": 1.15019226, "learning_rate": 1.03e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231444, "epoch": 3.96028661, "global_step/max_steps": "51955/65595", "percentage": "79.21%", "elapsed_time": "2d 14h 21m 19s", "remaining_time": "16h 22m 13s"}
+{"loss": 0.0520238, "token_acc": 0.98311273, "grad_norm": 0.69643259, "learning_rate": 1.029e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231449, "epoch": 3.96066773, "global_step/max_steps": "51960/65595", "percentage": "79.21%", "elapsed_time": "2d 14h 21m 36s", "remaining_time": "16h 21m 50s"}
+{"loss": 0.06012837, "token_acc": 0.98055893, "grad_norm": 1.57852685, "learning_rate": 1.028e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231456, "epoch": 3.96104886, "global_step/max_steps": "51965/65595", "percentage": "79.22%", "elapsed_time": "2d 14h 21m 50s", "remaining_time": "16h 21m 27s"}
+{"loss": 0.0442549, "token_acc": 0.98547215, "grad_norm": 0.77408552, "learning_rate": 1.027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23146, "epoch": 3.96142999, "global_step/max_steps": "51970/65595", "percentage": "79.23%", "elapsed_time": "2d 14h 22m 8s", "remaining_time": "16h 21m 4s"}
+{"loss": 0.03887593, "token_acc": 0.98391113, "grad_norm": 0.66497356, "learning_rate": 1.027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231466, "epoch": 3.96181111, "global_step/max_steps": "51975/65595", "percentage": "79.24%", "elapsed_time": "2d 14h 22m 25s", "remaining_time": "16h 20m 41s"}
+{"loss": 0.04392179, "token_acc": 0.98308887, "grad_norm": 0.8553614, "learning_rate": 1.026e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231468, "epoch": 3.96219224, "global_step/max_steps": "51980/65595", "percentage": "79.24%", "elapsed_time": "2d 14h 22m 44s", "remaining_time": "16h 20m 19s"}
+{"loss": 0.04258418, "token_acc": 0.97887324, "grad_norm": 1.19664741, "learning_rate": 1.025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231474, "epoch": 3.96257337, "global_step/max_steps": "51985/65595", "percentage": "79.25%", "elapsed_time": "2d 14h 23m 0s", "remaining_time": "16h 19m 56s"}
+{"loss": 0.03567745, "token_acc": 0.98263193, "grad_norm": 0.07907972, "learning_rate": 1.024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231478, "epoch": 3.96295449, "global_step/max_steps": "51990/65595", "percentage": "79.26%", "elapsed_time": "2d 14h 23m 18s", "remaining_time": "16h 19m 33s"}
+{"loss": 0.02639345, "token_acc": 0.99183197, "grad_norm": 0.9896934, "learning_rate": 1.024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231483, "epoch": 3.96333562, "global_step/max_steps": "51995/65595", "percentage": "79.27%", "elapsed_time": "2d 14h 23m 34s", "remaining_time": "16h 19m 11s"}
+{"loss": 0.04906065, "token_acc": 0.97868397, "grad_norm": 2.16184735, "learning_rate": 1.023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231491, "epoch": 3.96371675, "global_step/max_steps": "52000/65595", "percentage": "79.27%", "elapsed_time": "2d 14h 23m 48s", "remaining_time": "16h 18m 47s"}
+{"eval_loss": 0.05206811, "eval_token_acc": 0.97810373, "eval_runtime": 220.3243, "eval_samples_per_second": 2.406, "eval_steps_per_second": 2.406, "epoch": 3.96371675, "global_step/max_steps": "52000/65595", "percentage": "79.27%", "elapsed_time": "2d 14h 27m 28s", "remaining_time": "16h 19m 44s"}
+{"loss": 0.03789832, "token_acc": 0.9783457, "grad_norm": 0.80844253, "learning_rate": 1.022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231267, "epoch": 3.96409787, "global_step/max_steps": "52005/65595", "percentage": "79.28%", "elapsed_time": "2d 14h 27m 47s", "remaining_time": "16h 19m 22s"}
+{"loss": 0.05342034, "token_acc": 0.97747036, "grad_norm": 1.95574331, "learning_rate": 1.022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231274, "epoch": 3.964479, "global_step/max_steps": "52010/65595", "percentage": "79.29%", "elapsed_time": "2d 14h 28m 2s", "remaining_time": "16h 18m 59s"}
+{"loss": 0.04574134, "token_acc": 0.98011157, "grad_norm": 1.25114429, "learning_rate": 1.021e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231279, "epoch": 3.96486013, "global_step/max_steps": "52015/65595", "percentage": "79.30%", "elapsed_time": "2d 14h 28m 19s", "remaining_time": "16h 18m 36s"}
+{"loss": 0.02942815, "token_acc": 0.986169, "grad_norm": 0.76129568, "learning_rate": 1.02e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231283, "epoch": 3.96524125, "global_step/max_steps": "52020/65595", "percentage": "79.30%", "elapsed_time": "2d 14h 28m 37s", "remaining_time": "16h 18m 13s"}
+{"loss": 0.05385121, "token_acc": 0.97685116, "grad_norm": 1.04720521, "learning_rate": 1.019e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231287, "epoch": 3.96562238, "global_step/max_steps": "52025/65595", "percentage": "79.31%", "elapsed_time": "2d 14h 28m 54s", "remaining_time": "16h 17m 51s"}
+{"loss": 0.04001336, "token_acc": 0.98718147, "grad_norm": 2.22146487, "learning_rate": 1.019e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23129, "epoch": 3.96600351, "global_step/max_steps": "52030/65595", "percentage": "79.32%", "elapsed_time": "2d 14h 29m 13s", "remaining_time": "16h 17m 28s"}
+{"loss": 0.01467045, "token_acc": 0.99412053, "grad_norm": 0.04819334, "learning_rate": 1.018e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231295, "epoch": 3.96638463, "global_step/max_steps": "52035/65595", "percentage": "79.33%", "elapsed_time": "2d 14h 29m 30s", "remaining_time": "16h 17m 5s"}
+{"loss": 0.05781666, "token_acc": 0.97408326, "grad_norm": 1.83793771, "learning_rate": 1.017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231302, "epoch": 3.96676576, "global_step/max_steps": "52040/65595", "percentage": "79.34%", "elapsed_time": "2d 14h 29m 45s", "remaining_time": "16h 16m 42s"}
+{"loss": 0.06383657, "token_acc": 0.97776221, "grad_norm": 0.86678427, "learning_rate": 1.016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231305, "epoch": 3.96714689, "global_step/max_steps": "52045/65595", "percentage": "79.34%", "elapsed_time": "2d 14h 30m 3s", "remaining_time": "16h 16m 20s"}
+{"loss": 0.04119675, "token_acc": 0.98262309, "grad_norm": 1.02373886, "learning_rate": 1.016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231312, "epoch": 3.96752801, "global_step/max_steps": "52050/65595", "percentage": "79.35%", "elapsed_time": "2d 14h 30m 18s", "remaining_time": "16h 15m 56s"}
+{"loss": 0.03821527, "token_acc": 0.98418605, "grad_norm": 0.68867791, "learning_rate": 1.015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231315, "epoch": 3.96790914, "global_step/max_steps": "52055/65595", "percentage": "79.36%", "elapsed_time": "2d 14h 30m 37s", "remaining_time": "16h 15m 34s"}
+{"loss": 0.0403318, "token_acc": 0.9840175, "grad_norm": 0.88502181, "learning_rate": 1.014e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231319, "epoch": 3.96829027, "global_step/max_steps": "52060/65595", "percentage": "79.37%", "elapsed_time": "2d 14h 30m 55s", "remaining_time": "16h 15m 11s"}
+{"loss": 0.05089695, "token_acc": 0.98353437, "grad_norm": 2.81424952, "learning_rate": 1.014e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231324, "epoch": 3.96867139, "global_step/max_steps": "52065/65595", "percentage": "79.37%", "elapsed_time": "2d 14h 31m 11s", "remaining_time": "16h 14m 48s"}
+{"loss": 0.0654752, "token_acc": 0.97549909, "grad_norm": 1.07185292, "learning_rate": 1.013e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23133, "epoch": 3.96905252, "global_step/max_steps": "52070/65595", "percentage": "79.38%", "elapsed_time": "2d 14h 31m 27s", "remaining_time": "16h 14m 25s"}
+{"loss": 0.04817465, "token_acc": 0.98394891, "grad_norm": 0.50228488, "learning_rate": 1.012e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231335, "epoch": 3.96943365, "global_step/max_steps": "52075/65595", "percentage": "79.39%", "elapsed_time": "2d 14h 31m 43s", "remaining_time": "16h 14m 2s"}
+{"loss": 0.0500415, "token_acc": 0.98402408, "grad_norm": 0.74638975, "learning_rate": 1.011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231341, "epoch": 3.96981477, "global_step/max_steps": "52080/65595", "percentage": "79.40%", "elapsed_time": "2d 14h 32m 0s", "remaining_time": "16h 13m 39s"}
+{"loss": 0.03578962, "token_acc": 0.98580422, "grad_norm": 0.86137766, "learning_rate": 1.011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231342, "epoch": 3.9701959, "global_step/max_steps": "52085/65595", "percentage": "79.40%", "elapsed_time": "2d 14h 32m 20s", "remaining_time": "16h 13m 17s"}
+{"loss": 0.0357594, "token_acc": 0.98538622, "grad_norm": 0.77080947, "learning_rate": 1.01e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231348, "epoch": 3.97057703, "global_step/max_steps": "52090/65595", "percentage": "79.41%", "elapsed_time": "2d 14h 32m 36s", "remaining_time": "16h 12m 54s"}
+{"loss": 0.04939014, "token_acc": 0.9781362, "grad_norm": 0.95814347, "learning_rate": 1.009e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231353, "epoch": 3.97095815, "global_step/max_steps": "52095/65595", "percentage": "79.42%", "elapsed_time": "2d 14h 32m 52s", "remaining_time": "16h 12m 31s"}
+{"loss": 0.02902475, "token_acc": 0.98686869, "grad_norm": 1.36407351, "learning_rate": 1.008e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231359, "epoch": 3.97133928, "global_step/max_steps": "52100/65595", "percentage": "79.43%", "elapsed_time": "2d 14h 33m 8s", "remaining_time": "16h 12m 8s"}
+{"loss": 0.05831056, "token_acc": 0.97592114, "grad_norm": 1.05664265, "learning_rate": 1.008e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231363, "epoch": 3.97172041, "global_step/max_steps": "52105/65595", "percentage": "79.43%", "elapsed_time": "2d 14h 33m 26s", "remaining_time": "16h 11m 46s"}
+{"loss": 0.03754144, "token_acc": 0.98146214, "grad_norm": 0.63566947, "learning_rate": 1.007e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231369, "epoch": 3.97210153, "global_step/max_steps": "52110/65595", "percentage": "79.44%", "elapsed_time": "2d 14h 33m 42s", "remaining_time": "16h 11m 22s"}
+{"loss": 0.05409092, "token_acc": 0.98210863, "grad_norm": 1.02323365, "learning_rate": 1.006e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231372, "epoch": 3.97248266, "global_step/max_steps": "52115/65595", "percentage": "79.45%", "elapsed_time": "2d 14h 34m 1s", "remaining_time": "16h 11m 0s"}
+{"loss": 0.04729689, "token_acc": 0.98229939, "grad_norm": 1.3512826, "learning_rate": 1.006e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231375, "epoch": 3.97286379, "global_step/max_steps": "52120/65595", "percentage": "79.46%", "elapsed_time": "2d 14h 34m 19s", "remaining_time": "16h 10m 38s"}
+{"loss": 0.04070387, "token_acc": 0.98693835, "grad_norm": 0.87718976, "learning_rate": 1.005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231381, "epoch": 3.97324491, "global_step/max_steps": "52125/65595", "percentage": "79.46%", "elapsed_time": "2d 14h 34m 35s", "remaining_time": "16h 10m 14s"}
+{"loss": 0.03016117, "token_acc": 0.98777506, "grad_norm": 1.31759179, "learning_rate": 1.004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231387, "epoch": 3.97362604, "global_step/max_steps": "52130/65595", "percentage": "79.47%", "elapsed_time": "2d 14h 34m 51s", "remaining_time": "16h 9m 51s"}
+{"loss": 0.03471709, "token_acc": 0.98367509, "grad_norm": 1.3232739, "learning_rate": 1.003e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231392, "epoch": 3.97400717, "global_step/max_steps": "52135/65595", "percentage": "79.48%", "elapsed_time": "2d 14h 35m 7s", "remaining_time": "16h 9m 29s"}
+{"loss": 0.05440279, "token_acc": 0.9781135, "grad_norm": 0.08836918, "learning_rate": 1.003e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231395, "epoch": 3.97438829, "global_step/max_steps": "52140/65595", "percentage": "79.49%", "elapsed_time": "2d 14h 35m 26s", "remaining_time": "16h 9m 6s"}
+{"loss": 0.03706251, "token_acc": 0.98549488, "grad_norm": 1.4353478, "learning_rate": 1.002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231402, "epoch": 3.97476942, "global_step/max_steps": "52145/65595", "percentage": "79.50%", "elapsed_time": "2d 14h 35m 41s", "remaining_time": "16h 8m 43s"}
+{"loss": 0.06395893, "token_acc": 0.98092308, "grad_norm": 1.1868645, "learning_rate": 1.001e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231407, "epoch": 3.97515055, "global_step/max_steps": "52150/65595", "percentage": "79.50%", "elapsed_time": "2d 14h 35m 58s", "remaining_time": "16h 8m 20s"}
+{"loss": 0.04365535, "token_acc": 0.98385417, "grad_norm": 1.13927531, "learning_rate": 1.001e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23141, "epoch": 3.97553167, "global_step/max_steps": "52155/65595", "percentage": "79.51%", "elapsed_time": "2d 14h 36m 17s", "remaining_time": "16h 7m 58s"}
+{"loss": 0.04032517, "token_acc": 0.98473912, "grad_norm": 0.52486765, "learning_rate": 1e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231415, "epoch": 3.9759128, "global_step/max_steps": "52160/65595", "percentage": "79.52%", "elapsed_time": "2d 14h 36m 33s", "remaining_time": "16h 7m 35s"}
+{"loss": 0.04140602, "token_acc": 0.98615635, "grad_norm": 0.5345431, "learning_rate": 9.99e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231419, "epoch": 3.97629392, "global_step/max_steps": "52165/65595", "percentage": "79.53%", "elapsed_time": "2d 14h 36m 50s", "remaining_time": "16h 7m 12s"}
+{"loss": 0.05934845, "token_acc": 0.97918835, "grad_norm": 0.68096775, "learning_rate": 9.98e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231421, "epoch": 3.97667505, "global_step/max_steps": "52170/65595", "percentage": "79.53%", "elapsed_time": "2d 14h 37m 10s", "remaining_time": "16h 6m 50s"}
+{"loss": 0.05623189, "token_acc": 0.97906583, "grad_norm": 0.6744194, "learning_rate": 9.98e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231422, "epoch": 3.97705618, "global_step/max_steps": "52175/65595", "percentage": "79.54%", "elapsed_time": "2d 14h 37m 31s", "remaining_time": "16h 6m 28s"}
+{"loss": 0.08316724, "token_acc": 0.96805228, "grad_norm": 1.35949636, "learning_rate": 9.97e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231426, "epoch": 3.9774373, "global_step/max_steps": "52180/65595", "percentage": "79.55%", "elapsed_time": "2d 14h 37m 49s", "remaining_time": "16h 6m 6s"}
+{"loss": 0.03742877, "token_acc": 0.98080524, "grad_norm": 1.12345862, "learning_rate": 9.96e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231432, "epoch": 3.97781843, "global_step/max_steps": "52185/65595", "percentage": "79.56%", "elapsed_time": "2d 14h 38m 5s", "remaining_time": "16h 5m 43s"}
+{"loss": 0.05226722, "token_acc": 0.97367664, "grad_norm": 1.06991017, "learning_rate": 9.96e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231435, "epoch": 3.97819956, "global_step/max_steps": "52190/65595", "percentage": "79.56%", "elapsed_time": "2d 14h 38m 23s", "remaining_time": "16h 5m 20s"}
+{"loss": 0.03406569, "token_acc": 0.98787879, "grad_norm": 1.23163605, "learning_rate": 9.95e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231439, "epoch": 3.97858068, "global_step/max_steps": "52195/65595", "percentage": "79.57%", "elapsed_time": "2d 14h 38m 41s", "remaining_time": "16h 4m 57s"}
+{"loss": 0.02881975, "token_acc": 0.98798979, "grad_norm": 0.90247798, "learning_rate": 9.94e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231443, "epoch": 3.97896181, "global_step/max_steps": "52200/65595", "percentage": "79.58%", "elapsed_time": "2d 14h 38m 59s", "remaining_time": "16h 4m 35s"}
+{"eval_loss": 0.05242484, "eval_token_acc": 0.97825432, "eval_runtime": 220.1603, "eval_samples_per_second": 2.407, "eval_steps_per_second": 2.407, "epoch": 3.97896181, "global_step/max_steps": "52200/65595", "percentage": "79.58%", "elapsed_time": "2d 14h 42m 39s", "remaining_time": "16h 5m 31s"}
+{"loss": 0.04976874, "token_acc": 0.97850437, "grad_norm": 3.35434556, "learning_rate": 9.93e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231223, "epoch": 3.97934294, "global_step/max_steps": "52205/65595", "percentage": "79.59%", "elapsed_time": "2d 14h 42m 55s", "remaining_time": "16h 5m 8s"}
+{"loss": 0.04307752, "token_acc": 0.98098859, "grad_norm": 1.01242006, "learning_rate": 9.93e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231227, "epoch": 3.97972406, "global_step/max_steps": "52210/65595", "percentage": "79.59%", "elapsed_time": "2d 14h 43m 13s", "remaining_time": "16h 4m 46s"}
+{"loss": 0.04734356, "token_acc": 0.98025478, "grad_norm": 1.0676136, "learning_rate": 9.92e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231232, "epoch": 3.98010519, "global_step/max_steps": "52215/65595", "percentage": "79.60%", "elapsed_time": "2d 14h 43m 30s", "remaining_time": "16h 4m 23s"}
+{"loss": 0.0298266, "token_acc": 0.98653904, "grad_norm": 0.77692163, "learning_rate": 9.91e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231238, "epoch": 3.98048632, "global_step/max_steps": "52220/65595", "percentage": "79.61%", "elapsed_time": "2d 14h 43m 46s", "remaining_time": "16h 4m 0s"}
+{"loss": 0.03585306, "token_acc": 0.9833895, "grad_norm": 0.96574557, "learning_rate": 9.91e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231243, "epoch": 3.98086744, "global_step/max_steps": "52225/65595", "percentage": "79.62%", "elapsed_time": "2d 14h 44m 2s", "remaining_time": "16h 3m 37s"}
+{"loss": 0.06978021, "token_acc": 0.97804774, "grad_norm": 1.76451969, "learning_rate": 9.9e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231248, "epoch": 3.98124857, "global_step/max_steps": "52230/65595", "percentage": "79.62%", "elapsed_time": "2d 14h 44m 19s", "remaining_time": "16h 3m 14s"}
+{"loss": 0.03766646, "token_acc": 0.9847144, "grad_norm": 0.66996443, "learning_rate": 9.89e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231251, "epoch": 3.9816297, "global_step/max_steps": "52235/65595", "percentage": "79.63%", "elapsed_time": "2d 14h 44m 37s", "remaining_time": "16h 2m 52s"}
+{"loss": 0.06290179, "token_acc": 0.97407865, "grad_norm": 1.35104132, "learning_rate": 9.88e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231256, "epoch": 3.98201082, "global_step/max_steps": "52240/65595", "percentage": "79.64%", "elapsed_time": "2d 14h 44m 54s", "remaining_time": "16h 2m 29s"}
+{"loss": 0.05096174, "token_acc": 0.98046027, "grad_norm": 1.36855364, "learning_rate": 9.88e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231264, "epoch": 3.98239195, "global_step/max_steps": "52245/65595", "percentage": "79.65%", "elapsed_time": "2d 14h 45m 8s", "remaining_time": "16h 2m 5s"}
+{"loss": 0.07504801, "token_acc": 0.97301222, "grad_norm": 0.9188441, "learning_rate": 9.87e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231266, "epoch": 3.98277308, "global_step/max_steps": "52250/65595", "percentage": "79.66%", "elapsed_time": "2d 14h 45m 27s", "remaining_time": "16h 1m 43s"}
+{"loss": 0.03324614, "token_acc": 0.98526505, "grad_norm": 0.78824973, "learning_rate": 9.86e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231269, "epoch": 3.9831542, "global_step/max_steps": "52255/65595", "percentage": "79.66%", "elapsed_time": "2d 14h 45m 46s", "remaining_time": "16h 1m 21s"}
+{"loss": 0.05221565, "token_acc": 0.97773973, "grad_norm": 1.2733711, "learning_rate": 9.86e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231274, "epoch": 3.98353533, "global_step/max_steps": "52260/65595", "percentage": "79.67%", "elapsed_time": "2d 14h 46m 3s", "remaining_time": "16h 0m 58s"}
+{"loss": 0.0269855, "token_acc": 0.98577757, "grad_norm": 0.96774179, "learning_rate": 9.85e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23128, "epoch": 3.98391646, "global_step/max_steps": "52265/65595", "percentage": "79.68%", "elapsed_time": "2d 14h 46m 19s", "remaining_time": "16h 0m 35s"}
+{"loss": 0.05232709, "token_acc": 0.98376903, "grad_norm": 0.98331386, "learning_rate": 9.84e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231282, "epoch": 3.98429758, "global_step/max_steps": "52270/65595", "percentage": "79.69%", "elapsed_time": "2d 14h 46m 38s", "remaining_time": "16h 0m 13s"}
+{"loss": 0.06130881, "token_acc": 0.98044237, "grad_norm": 1.60583198, "learning_rate": 9.83e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231288, "epoch": 3.98467871, "global_step/max_steps": "52275/65595", "percentage": "79.69%", "elapsed_time": "2d 14h 46m 54s", "remaining_time": "15h 59m 50s"}
+{"loss": 0.05184972, "token_acc": 0.9789604, "grad_norm": 0.90211743, "learning_rate": 9.83e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231293, "epoch": 3.98505984, "global_step/max_steps": "52280/65595", "percentage": "79.70%", "elapsed_time": "2d 14h 47m 11s", "remaining_time": "15h 59m 27s"}
+{"loss": 0.04443132, "token_acc": 0.98272161, "grad_norm": 0.81299734, "learning_rate": 9.82e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231293, "epoch": 3.98544096, "global_step/max_steps": "52285/65595", "percentage": "79.71%", "elapsed_time": "2d 14h 47m 32s", "remaining_time": "15h 59m 5s"}
+{"loss": 0.02956904, "token_acc": 0.98956206, "grad_norm": 0.78498375, "learning_rate": 9.81e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231298, "epoch": 3.98582209, "global_step/max_steps": "52290/65595", "percentage": "79.72%", "elapsed_time": "2d 14h 47m 49s", "remaining_time": "15h 58m 42s"}
+{"loss": 0.04059696, "token_acc": 0.98392613, "grad_norm": 1.42615139, "learning_rate": 9.81e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2313, "epoch": 3.98620322, "global_step/max_steps": "52295/65595", "percentage": "79.72%", "elapsed_time": "2d 14h 48m 9s", "remaining_time": "15h 58m 20s"}
+{"loss": 0.05516422, "token_acc": 0.97729449, "grad_norm": 1.0671531, "learning_rate": 9.8e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231302, "epoch": 3.98658434, "global_step/max_steps": "52300/65595", "percentage": "79.73%", "elapsed_time": "2d 14h 48m 29s", "remaining_time": "15h 57m 58s"}
+{"loss": 0.03828292, "token_acc": 0.97889475, "grad_norm": 0.18717144, "learning_rate": 9.79e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231308, "epoch": 3.98696547, "global_step/max_steps": "52305/65595", "percentage": "79.74%", "elapsed_time": "2d 14h 48m 45s", "remaining_time": "15h 57m 35s"}
+{"loss": 0.0350084, "token_acc": 0.9824529, "grad_norm": 1.08602417, "learning_rate": 9.78e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231312, "epoch": 3.9873466, "global_step/max_steps": "52310/65595", "percentage": "79.75%", "elapsed_time": "2d 14h 49m 2s", "remaining_time": "15h 57m 12s"}
+{"loss": 0.04426567, "token_acc": 0.98295121, "grad_norm": 0.70231658, "learning_rate": 9.78e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231319, "epoch": 3.98772772, "global_step/max_steps": "52315/65595", "percentage": "79.75%", "elapsed_time": "2d 14h 49m 17s", "remaining_time": "15h 56m 49s"}
+{"loss": 0.02546078, "token_acc": 0.98850248, "grad_norm": 1.22097385, "learning_rate": 9.77e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231322, "epoch": 3.98810885, "global_step/max_steps": "52320/65595", "percentage": "79.76%", "elapsed_time": "2d 14h 49m 36s", "remaining_time": "15h 56m 26s"}
+{"loss": 0.03195507, "token_acc": 0.98720682, "grad_norm": 0.87443215, "learning_rate": 9.76e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231323, "epoch": 3.98848998, "global_step/max_steps": "52325/65595", "percentage": "79.77%", "elapsed_time": "2d 14h 49m 56s", "remaining_time": "15h 56m 5s"}
+{"loss": 0.0491749, "token_acc": 0.98007187, "grad_norm": 2.07206464, "learning_rate": 9.76e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23133, "epoch": 3.9888711, "global_step/max_steps": "52330/65595", "percentage": "79.78%", "elapsed_time": "2d 14h 50m 10s", "remaining_time": "15h 55m 41s"}
+{"loss": 0.06219084, "token_acc": 0.9833498, "grad_norm": 0.9131937, "learning_rate": 9.75e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231332, "epoch": 3.98925223, "global_step/max_steps": "52335/65595", "percentage": "79.79%", "elapsed_time": "2d 14h 50m 31s", "remaining_time": "15h 55m 19s"}
+{"loss": 0.05026468, "token_acc": 0.98459478, "grad_norm": 2.94456434, "learning_rate": 9.74e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231336, "epoch": 3.98963336, "global_step/max_steps": "52340/65595", "percentage": "79.79%", "elapsed_time": "2d 14h 50m 49s", "remaining_time": "15h 54m 57s"}
+{"loss": 0.02771224, "token_acc": 0.98933695, "grad_norm": 0.79246241, "learning_rate": 9.73e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23134, "epoch": 3.99001448, "global_step/max_steps": "52345/65595", "percentage": "79.80%", "elapsed_time": "2d 14h 51m 6s", "remaining_time": "15h 54m 34s"}
+{"loss": 0.04690669, "token_acc": 0.98031711, "grad_norm": 1.71747875, "learning_rate": 9.73e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231345, "epoch": 3.99039561, "global_step/max_steps": "52350/65595", "percentage": "79.81%", "elapsed_time": "2d 14h 51m 23s", "remaining_time": "15h 54m 11s"}
+{"loss": 0.06585112, "token_acc": 0.97532249, "grad_norm": 0.84415984, "learning_rate": 9.72e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231351, "epoch": 3.99077674, "global_step/max_steps": "52355/65595", "percentage": "79.82%", "elapsed_time": "2d 14h 51m 38s", "remaining_time": "15h 53m 48s"}
+{"loss": 0.06748469, "token_acc": 0.97165042, "grad_norm": 1.25095522, "learning_rate": 9.71e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231354, "epoch": 3.99115786, "global_step/max_steps": "52360/65595", "percentage": "79.82%", "elapsed_time": "2d 14h 51m 57s", "remaining_time": "15h 53m 26s"}
+{"loss": 0.04807916, "token_acc": 0.98177043, "grad_norm": 0.53286672, "learning_rate": 9.71e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231356, "epoch": 3.99153899, "global_step/max_steps": "52365/65595", "percentage": "79.83%", "elapsed_time": "2d 14h 52m 17s", "remaining_time": "15h 53m 4s"}
+{"loss": 0.0457643, "token_acc": 0.98061674, "grad_norm": 1.67224407, "learning_rate": 9.7e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231363, "epoch": 3.99192012, "global_step/max_steps": "52370/65595", "percentage": "79.84%", "elapsed_time": "2d 14h 52m 31s", "remaining_time": "15h 52m 40s"}
+{"loss": 0.05106407, "token_acc": 0.98088434, "grad_norm": 0.82039094, "learning_rate": 9.69e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231367, "epoch": 3.99230124, "global_step/max_steps": "52375/65595", "percentage": "79.85%", "elapsed_time": "2d 14h 52m 49s", "remaining_time": "15h 52m 18s"}
+{"loss": 0.04249336, "token_acc": 0.9825627, "grad_norm": 1.06579828, "learning_rate": 9.68e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231371, "epoch": 3.99268237, "global_step/max_steps": "52380/65595", "percentage": "79.85%", "elapsed_time": "2d 14h 53m 7s", "remaining_time": "15h 51m 55s"}
+{"loss": 0.03674543, "token_acc": 0.98135345, "grad_norm": 2.01047373, "learning_rate": 9.68e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231376, "epoch": 3.9930635, "global_step/max_steps": "52385/65595", "percentage": "79.86%", "elapsed_time": "2d 14h 53m 24s", "remaining_time": "15h 51m 32s"}
+{"loss": 0.032, "token_acc": 0.98767488, "grad_norm": 0.67454427, "learning_rate": 9.67e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231382, "epoch": 3.99344462, "global_step/max_steps": "52390/65595", "percentage": "79.87%", "elapsed_time": "2d 14h 53m 40s", "remaining_time": "15h 51m 9s"}
+{"loss": 0.0618632, "token_acc": 0.97406848, "grad_norm": 1.83484983, "learning_rate": 9.66e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231387, "epoch": 3.99382575, "global_step/max_steps": "52395/65595", "percentage": "79.88%", "elapsed_time": "2d 14h 53m 56s", "remaining_time": "15h 50m 46s"}
+{"loss": 0.04645383, "token_acc": 0.98536759, "grad_norm": 1.24724913, "learning_rate": 9.66e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231394, "epoch": 3.99420688, "global_step/max_steps": "52400/65595", "percentage": "79.88%", "elapsed_time": "2d 14h 54m 11s", "remaining_time": "15h 50m 23s"}
+{"eval_loss": 0.05157297, "eval_token_acc": 0.97858563, "eval_runtime": 220.0832, "eval_samples_per_second": 2.408, "eval_steps_per_second": 2.408, "epoch": 3.99420688, "global_step/max_steps": "52400/65595", "percentage": "79.88%", "elapsed_time": "2d 14h 57m 51s", "remaining_time": "15h 51m 18s"}
+{"loss": 0.05233796, "token_acc": 0.97860418, "grad_norm": 0.70425081, "learning_rate": 9.65e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231173, "epoch": 3.994588, "global_step/max_steps": "52405/65595", "percentage": "79.89%", "elapsed_time": "2d 14h 58m 9s", "remaining_time": "15h 50m 56s"}
+{"loss": 0.03458075, "token_acc": 0.98320956, "grad_norm": 1.18370807, "learning_rate": 9.64e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231177, "epoch": 3.99496913, "global_step/max_steps": "52410/65595", "percentage": "79.90%", "elapsed_time": "2d 14h 58m 27s", "remaining_time": "15h 50m 33s"}
+{"loss": 0.02298689, "token_acc": 0.99069258, "grad_norm": 0.50496405, "learning_rate": 9.64e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231182, "epoch": 3.99535026, "global_step/max_steps": "52415/65595", "percentage": "79.91%", "elapsed_time": "2d 14h 58m 44s", "remaining_time": "15h 50m 10s"}
+{"loss": 0.04311366, "token_acc": 0.98238448, "grad_norm": 0.5596652, "learning_rate": 9.63e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231185, "epoch": 3.99573138, "global_step/max_steps": "52420/65595", "percentage": "79.91%", "elapsed_time": "2d 14h 59m 2s", "remaining_time": "15h 49m 48s"}
+{"loss": 0.03890994, "token_acc": 0.98627562, "grad_norm": 1.03696048, "learning_rate": 9.62e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231189, "epoch": 3.99611251, "global_step/max_steps": "52425/65595", "percentage": "79.92%", "elapsed_time": "2d 14h 59m 19s", "remaining_time": "15h 49m 25s"}
+{"loss": 0.0361904, "token_acc": 0.98575393, "grad_norm": 0.75216556, "learning_rate": 9.61e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231194, "epoch": 3.99649364, "global_step/max_steps": "52430/65595", "percentage": "79.93%", "elapsed_time": "2d 14h 59m 36s", "remaining_time": "15h 49m 2s"}
+{"loss": 0.05431787, "token_acc": 0.97726279, "grad_norm": 2.9914732, "learning_rate": 9.61e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2312, "epoch": 3.99687476, "global_step/max_steps": "52435/65595", "percentage": "79.94%", "elapsed_time": "2d 14h 59m 52s", "remaining_time": "15h 48m 39s"}
+{"loss": 0.05267164, "token_acc": 0.98074297, "grad_norm": 1.12406826, "learning_rate": 9.6e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231202, "epoch": 3.99725589, "global_step/max_steps": "52440/65595", "percentage": "79.95%", "elapsed_time": "2d 15h 0m 12s", "remaining_time": "15h 48m 17s"}
+{"loss": 0.04529926, "token_acc": 0.98218049, "grad_norm": 1.10759115, "learning_rate": 9.59e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231206, "epoch": 3.99763702, "global_step/max_steps": "52445/65595", "percentage": "79.95%", "elapsed_time": "2d 15h 0m 30s", "remaining_time": "15h 47m 55s"}
+{"loss": 0.04478693, "token_acc": 0.98566588, "grad_norm": 1.65719748, "learning_rate": 9.59e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231211, "epoch": 3.99801814, "global_step/max_steps": "52450/65595", "percentage": "79.96%", "elapsed_time": "2d 15h 0m 46s", "remaining_time": "15h 47m 32s"}
+{"loss": 0.04959053, "token_acc": 0.97739441, "grad_norm": 0.76168501, "learning_rate": 9.58e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231216, "epoch": 3.99839927, "global_step/max_steps": "52455/65595", "percentage": "79.97%", "elapsed_time": "2d 15h 1m 3s", "remaining_time": "15h 47m 9s"}
+{"loss": 0.05106182, "token_acc": 0.98074508, "grad_norm": 1.94405961, "learning_rate": 9.57e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231223, "epoch": 3.99878039, "global_step/max_steps": "52460/65595", "percentage": "79.98%", "elapsed_time": "2d 15h 1m 18s", "remaining_time": "15h 46m 46s"}
+{"loss": 0.06869487, "token_acc": 0.97348993, "grad_norm": 2.26315212, "learning_rate": 9.56e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231229, "epoch": 3.99916152, "global_step/max_steps": "52465/65595", "percentage": "79.98%", "elapsed_time": "2d 15h 1m 33s", "remaining_time": "15h 46m 22s"}
+{"loss": 0.0353514, "token_acc": 0.98584299, "grad_norm": 0.7974332, "learning_rate": 9.56e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231236, "epoch": 3.99954265, "global_step/max_steps": "52470/65595", "percentage": "79.99%", "elapsed_time": "2d 15h 1m 48s", "remaining_time": "15h 45m 59s"}
+{"loss": 0.07691041, "token_acc": 0.97369276, "grad_norm": 0.93074781, "learning_rate": 9.55e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23124, "epoch": 3.99992377, "global_step/max_steps": "52475/65595", "percentage": "80.00%", "elapsed_time": "2d 15h 2m 6s", "remaining_time": "15h 45m 37s"}
+{"loss": 0.04244367, "token_acc": 0.98221404, "grad_norm": 1.05753899, "learning_rate": 9.54e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231246, "epoch": 4.0003049, "global_step/max_steps": "52480/65595", "percentage": "80.01%", "elapsed_time": "2d 15h 2m 21s", "remaining_time": "15h 45m 13s"}
+{"loss": 0.0336489, "token_acc": 0.99085619, "grad_norm": 0.86289775, "learning_rate": 9.54e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231254, "epoch": 4.00068603, "global_step/max_steps": "52485/65595", "percentage": "80.01%", "elapsed_time": "2d 15h 2m 36s", "remaining_time": "15h 44m 50s"}
+{"loss": 0.04022902, "token_acc": 0.98328691, "grad_norm": 0.87350035, "learning_rate": 9.53e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231257, "epoch": 4.00106715, "global_step/max_steps": "52490/65595", "percentage": "80.02%", "elapsed_time": "2d 15h 2m 54s", "remaining_time": "15h 44m 27s"}
+{"loss": 0.04948318, "token_acc": 0.98360158, "grad_norm": 1.9055022, "learning_rate": 9.52e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231261, "epoch": 4.00144828, "global_step/max_steps": "52495/65595", "percentage": "80.03%", "elapsed_time": "2d 15h 3m 12s", "remaining_time": "15h 44m 5s"}
+{"loss": 0.04007862, "token_acc": 0.98480505, "grad_norm": 0.64497399, "learning_rate": 9.52e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231267, "epoch": 4.00182941, "global_step/max_steps": "52500/65595", "percentage": "80.04%", "elapsed_time": "2d 15h 3m 28s", "remaining_time": "15h 43m 42s"}
+{"loss": 0.0370591, "token_acc": 0.98259883, "grad_norm": 0.78685176, "learning_rate": 9.51e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231271, "epoch": 4.00221053, "global_step/max_steps": "52505/65595", "percentage": "80.04%", "elapsed_time": "2d 15h 3m 45s", "remaining_time": "15h 43m 19s"}
+{"loss": 0.02315511, "token_acc": 0.99277741, "grad_norm": 0.85740614, "learning_rate": 9.5e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231279, "epoch": 4.00259166, "global_step/max_steps": "52510/65595", "percentage": "80.05%", "elapsed_time": "2d 15h 4m 0s", "remaining_time": "15h 42m 56s"}
+{"loss": 0.02772973, "token_acc": 0.98875676, "grad_norm": 0.92419612, "learning_rate": 9.49e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231283, "epoch": 4.00297279, "global_step/max_steps": "52515/65595", "percentage": "80.06%", "elapsed_time": "2d 15h 4m 17s", "remaining_time": "15h 42m 33s"}
+{"loss": 0.03582267, "token_acc": 0.98673077, "grad_norm": 2.32484245, "learning_rate": 9.49e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231289, "epoch": 4.00335391, "global_step/max_steps": "52520/65595", "percentage": "80.07%", "elapsed_time": "2d 15h 4m 33s", "remaining_time": "15h 42m 10s"}
+{"loss": 0.04143195, "token_acc": 0.98361563, "grad_norm": 0.64582157, "learning_rate": 9.48e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23129, "epoch": 4.00373504, "global_step/max_steps": "52525/65595", "percentage": "80.07%", "elapsed_time": "2d 15h 4m 53s", "remaining_time": "15h 41m 48s"}
+{"loss": 0.05110546, "token_acc": 0.98107041, "grad_norm": 1.85875142, "learning_rate": 9.47e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231293, "epoch": 4.00411617, "global_step/max_steps": "52530/65595", "percentage": "80.08%", "elapsed_time": "2d 15h 5m 12s", "remaining_time": "15h 41m 26s"}
+{"loss": 0.03483416, "token_acc": 0.98705912, "grad_norm": 0.92582035, "learning_rate": 9.47e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231299, "epoch": 4.00449729, "global_step/max_steps": "52535/65595", "percentage": "80.09%", "elapsed_time": "2d 15h 5m 27s", "remaining_time": "15h 41m 3s"}
+{"loss": 0.04018639, "token_acc": 0.98653702, "grad_norm": 0.7568922, "learning_rate": 9.46e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231303, "epoch": 4.00487842, "global_step/max_steps": "52540/65595", "percentage": "80.10%", "elapsed_time": "2d 15h 5m 45s", "remaining_time": "15h 40m 40s"}
+{"loss": 0.0279073, "token_acc": 0.98790323, "grad_norm": 1.92698324, "learning_rate": 9.45e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231307, "epoch": 4.00525955, "global_step/max_steps": "52545/65595", "percentage": "80.11%", "elapsed_time": "2d 15h 6m 3s", "remaining_time": "15h 40m 17s"}
+{"loss": 0.01452023, "token_acc": 0.99407895, "grad_norm": 0.42333466, "learning_rate": 9.45e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231312, "epoch": 4.00564067, "global_step/max_steps": "52550/65595", "percentage": "80.11%", "elapsed_time": "2d 15h 6m 20s", "remaining_time": "15h 39m 55s"}
+{"loss": 0.03380067, "token_acc": 0.98532263, "grad_norm": 0.36797038, "learning_rate": 9.44e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231318, "epoch": 4.0060218, "global_step/max_steps": "52555/65595", "percentage": "80.12%", "elapsed_time": "2d 15h 6m 36s", "remaining_time": "15h 39m 32s"}
+{"loss": 0.02676678, "token_acc": 0.98558999, "grad_norm": 1.61696458, "learning_rate": 9.43e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231324, "epoch": 4.00640293, "global_step/max_steps": "52560/65595", "percentage": "80.13%", "elapsed_time": "2d 15h 6m 51s", "remaining_time": "15h 39m 9s"}
+{"loss": 0.04438005, "token_acc": 0.98494453, "grad_norm": 2.23510146, "learning_rate": 9.42e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23133, "epoch": 4.00678405, "global_step/max_steps": "52565/65595", "percentage": "80.14%", "elapsed_time": "2d 15h 7m 7s", "remaining_time": "15h 38m 45s"}
+{"loss": 0.0297489, "token_acc": 0.98880537, "grad_norm": 0.77280408, "learning_rate": 9.42e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231334, "epoch": 4.00716518, "global_step/max_steps": "52570/65595", "percentage": "80.14%", "elapsed_time": "2d 15h 7m 24s", "remaining_time": "15h 38m 23s"}
+{"loss": 0.02859502, "token_acc": 0.98887553, "grad_norm": 1.17213666, "learning_rate": 9.41e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231341, "epoch": 4.00754631, "global_step/max_steps": "52575/65595", "percentage": "80.15%", "elapsed_time": "2d 15h 7m 40s", "remaining_time": "15h 38m 0s"}
+{"loss": 0.02559528, "token_acc": 0.99017957, "grad_norm": 0.76974195, "learning_rate": 9.4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231346, "epoch": 4.00792743, "global_step/max_steps": "52580/65595", "percentage": "80.16%", "elapsed_time": "2d 15h 7m 56s", "remaining_time": "15h 37m 37s"}
+{"loss": 0.0472751, "token_acc": 0.98026316, "grad_norm": 1.54031992, "learning_rate": 9.4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231352, "epoch": 4.00830856, "global_step/max_steps": "52585/65595", "percentage": "80.17%", "elapsed_time": "2d 15h 8m 12s", "remaining_time": "15h 37m 14s"}
+{"loss": 0.02629109, "token_acc": 0.98765205, "grad_norm": 1.06382608, "learning_rate": 9.39e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231355, "epoch": 4.00868969, "global_step/max_steps": "52590/65595", "percentage": "80.17%", "elapsed_time": "2d 15h 8m 30s", "remaining_time": "15h 36m 51s"}
+{"loss": 0.03373497, "token_acc": 0.98721618, "grad_norm": 2.33377647, "learning_rate": 9.38e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231361, "epoch": 4.00907081, "global_step/max_steps": "52595/65595", "percentage": "80.18%", "elapsed_time": "2d 15h 8m 46s", "remaining_time": "15h 36m 28s"}
+{"loss": 0.02250351, "token_acc": 0.99195837, "grad_norm": 1.28119063, "learning_rate": 9.38e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231368, "epoch": 4.00945194, "global_step/max_steps": "52600/65595", "percentage": "80.19%", "elapsed_time": "2d 15h 9m 1s", "remaining_time": "15h 36m 5s"}
+{"eval_loss": 0.05211297, "eval_token_acc": 0.97852539, "eval_runtime": 220.6454, "eval_samples_per_second": 2.402, "eval_steps_per_second": 2.402, "epoch": 4.00945194, "global_step/max_steps": "52600/65595", "percentage": "80.19%", "elapsed_time": "2d 15h 12m 41s", "remaining_time": "15h 36m 59s"}
+{"loss": 0.03164151, "token_acc": 0.97872779, "grad_norm": 1.60377109, "learning_rate": 9.37e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231151, "epoch": 4.00983307, "global_step/max_steps": "52605/65595", "percentage": "80.20%", "elapsed_time": "2d 15h 12m 56s", "remaining_time": "15h 36m 36s"}
+{"loss": 0.02856964, "token_acc": 0.98983051, "grad_norm": 0.62114656, "learning_rate": 9.36e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231153, "epoch": 4.01021419, "global_step/max_steps": "52610/65595", "percentage": "80.20%", "elapsed_time": "2d 15h 13m 16s", "remaining_time": "15h 36m 14s"}
+{"loss": 0.05135804, "token_acc": 0.98012834, "grad_norm": 0.96200335, "learning_rate": 9.35e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231158, "epoch": 4.01059532, "global_step/max_steps": "52615/65595", "percentage": "80.21%", "elapsed_time": "2d 15h 13m 32s", "remaining_time": "15h 35m 51s"}
+{"loss": 0.04842478, "token_acc": 0.98251615, "grad_norm": 1.23221004, "learning_rate": 9.35e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231162, "epoch": 4.01097645, "global_step/max_steps": "52620/65595", "percentage": "80.22%", "elapsed_time": "2d 15h 13m 50s", "remaining_time": "15h 35m 28s"}
+{"loss": 0.04233423, "token_acc": 0.98861221, "grad_norm": 0.17829052, "learning_rate": 9.34e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231165, "epoch": 4.01135757, "global_step/max_steps": "52625/65595", "percentage": "80.23%", "elapsed_time": "2d 15h 14m 9s", "remaining_time": "15h 35m 6s"}
+{"loss": 0.03622499, "token_acc": 0.98543233, "grad_norm": 1.17503238, "learning_rate": 9.33e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231169, "epoch": 4.0117387, "global_step/max_steps": "52630/65595", "percentage": "80.23%", "elapsed_time": "2d 15h 14m 26s", "remaining_time": "15h 34m 43s"}
+{"loss": 0.03796918, "token_acc": 0.98764448, "grad_norm": 1.07599723, "learning_rate": 9.33e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231176, "epoch": 4.01211983, "global_step/max_steps": "52635/65595", "percentage": "80.24%", "elapsed_time": "2d 15h 14m 41s", "remaining_time": "15h 34m 20s"}
+{"loss": 0.03163436, "token_acc": 0.99063116, "grad_norm": 0.82812363, "learning_rate": 9.32e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231182, "epoch": 4.01250095, "global_step/max_steps": "52640/65595", "percentage": "80.25%", "elapsed_time": "2d 15h 14m 57s", "remaining_time": "15h 33m 57s"}
+{"loss": 0.0457798, "token_acc": 0.98955513, "grad_norm": 0.59778494, "learning_rate": 9.31e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231189, "epoch": 4.01288208, "global_step/max_steps": "52645/65595", "percentage": "80.26%", "elapsed_time": "2d 15h 15m 12s", "remaining_time": "15h 33m 34s"}
+{"loss": 0.01853905, "token_acc": 0.99318182, "grad_norm": 1.29790425, "learning_rate": 9.31e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231196, "epoch": 4.01326321, "global_step/max_steps": "52650/65595", "percentage": "80.27%", "elapsed_time": "2d 15h 15m 26s", "remaining_time": "15h 33m 10s"}
+{"loss": 0.05117917, "token_acc": 0.97860755, "grad_norm": 1.91362977, "learning_rate": 9.3e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231201, "epoch": 4.01364433, "global_step/max_steps": "52655/65595", "percentage": "80.27%", "elapsed_time": "2d 15h 15m 43s", "remaining_time": "15h 32m 48s"}
+{"loss": 0.03172851, "token_acc": 0.99101279, "grad_norm": 0.87462515, "learning_rate": 9.29e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231205, "epoch": 4.01402546, "global_step/max_steps": "52660/65595", "percentage": "80.28%", "elapsed_time": "2d 15h 16m 0s", "remaining_time": "15h 32m 25s"}
+{"loss": 0.03233384, "token_acc": 0.98194823, "grad_norm": 1.16158426, "learning_rate": 9.28e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231212, "epoch": 4.01440659, "global_step/max_steps": "52665/65595", "percentage": "80.29%", "elapsed_time": "2d 15h 16m 15s", "remaining_time": "15h 32m 2s"}
+{"loss": 0.03689364, "token_acc": 0.98544148, "grad_norm": 0.8384133, "learning_rate": 9.28e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231215, "epoch": 4.01478771, "global_step/max_steps": "52670/65595", "percentage": "80.30%", "elapsed_time": "2d 15h 16m 34s", "remaining_time": "15h 31m 39s"}
+{"loss": 0.0492155, "token_acc": 0.98354594, "grad_norm": 2.81531978, "learning_rate": 9.27e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231219, "epoch": 4.01516884, "global_step/max_steps": "52675/65595", "percentage": "80.30%", "elapsed_time": "2d 15h 16m 52s", "remaining_time": "15h 31m 17s"}
+{"loss": 0.02955212, "token_acc": 0.98682681, "grad_norm": 1.78923321, "learning_rate": 9.26e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231224, "epoch": 4.01554997, "global_step/max_steps": "52680/65595", "percentage": "80.31%", "elapsed_time": "2d 15h 17m 8s", "remaining_time": "15h 30m 54s"}
+{"loss": 0.04505706, "token_acc": 0.98231047, "grad_norm": 0.657924, "learning_rate": 9.26e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231231, "epoch": 4.01593109, "global_step/max_steps": "52685/65595", "percentage": "80.32%", "elapsed_time": "2d 15h 17m 23s", "remaining_time": "15h 30m 31s"}
+{"loss": 0.04920731, "token_acc": 0.98004944, "grad_norm": 1.35485578, "learning_rate": 9.25e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231236, "epoch": 4.01631222, "global_step/max_steps": "52690/65595", "percentage": "80.33%", "elapsed_time": "2d 15h 17m 40s", "remaining_time": "15h 30m 8s"}
+{"loss": 0.04082566, "token_acc": 0.98503861, "grad_norm": 2.14566612, "learning_rate": 9.24e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231241, "epoch": 4.01669335, "global_step/max_steps": "52695/65595", "percentage": "80.33%", "elapsed_time": "2d 15h 17m 56s", "remaining_time": "15h 29m 45s"}
+{"loss": 0.03416225, "token_acc": 0.98770204, "grad_norm": 1.20556045, "learning_rate": 9.24e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231246, "epoch": 4.01707447, "global_step/max_steps": "52700/65595", "percentage": "80.34%", "elapsed_time": "2d 15h 18m 13s", "remaining_time": "15h 29m 22s"}
+{"loss": 0.02505979, "token_acc": 0.98927933, "grad_norm": 2.14428663, "learning_rate": 9.23e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231251, "epoch": 4.0174556, "global_step/max_steps": "52705/65595", "percentage": "80.35%", "elapsed_time": "2d 15h 18m 30s", "remaining_time": "15h 28m 59s"}
+{"loss": 0.04777849, "token_acc": 0.97747385, "grad_norm": 1.79478753, "learning_rate": 9.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231256, "epoch": 4.01783673, "global_step/max_steps": "52710/65595", "percentage": "80.36%", "elapsed_time": "2d 15h 18m 47s", "remaining_time": "15h 28m 36s"}
+{"loss": 0.02459686, "token_acc": 0.98579439, "grad_norm": 0.94905514, "learning_rate": 9.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231262, "epoch": 4.01821785, "global_step/max_steps": "52715/65595", "percentage": "80.36%", "elapsed_time": "2d 15h 19m 2s", "remaining_time": "15h 28m 13s"}
+{"loss": 0.0400671, "token_acc": 0.98518872, "grad_norm": 0.75328523, "learning_rate": 9.21e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231267, "epoch": 4.01859898, "global_step/max_steps": "52720/65595", "percentage": "80.37%", "elapsed_time": "2d 15h 19m 19s", "remaining_time": "15h 27m 51s"}
+{"loss": 0.03552758, "token_acc": 0.98580376, "grad_norm": 0.91610265, "learning_rate": 9.2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231273, "epoch": 4.01898011, "global_step/max_steps": "52725/65595", "percentage": "80.38%", "elapsed_time": "2d 15h 19m 34s", "remaining_time": "15h 27m 27s"}
+{"loss": 0.03767091, "token_acc": 0.98734177, "grad_norm": 2.7258985, "learning_rate": 9.19e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231279, "epoch": 4.01936123, "global_step/max_steps": "52730/65595", "percentage": "80.39%", "elapsed_time": "2d 15h 19m 50s", "remaining_time": "15h 27m 4s"}
+{"loss": 0.05828406, "token_acc": 0.98606713, "grad_norm": 1.45059836, "learning_rate": 9.19e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231285, "epoch": 4.01974236, "global_step/max_steps": "52735/65595", "percentage": "80.39%", "elapsed_time": "2d 15h 20m 6s", "remaining_time": "15h 26m 41s"}
+{"loss": 0.05228819, "token_acc": 0.98564426, "grad_norm": 0.42199647, "learning_rate": 9.18e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231289, "epoch": 4.02012349, "global_step/max_steps": "52740/65595", "percentage": "80.40%", "elapsed_time": "2d 15h 20m 24s", "remaining_time": "15h 26m 19s"}
+{"loss": 0.0296725, "token_acc": 0.98828743, "grad_norm": 1.05562508, "learning_rate": 9.17e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231295, "epoch": 4.02050461, "global_step/max_steps": "52745/65595", "percentage": "80.41%", "elapsed_time": "2d 15h 20m 40s", "remaining_time": "15h 25m 56s"}
+{"loss": 0.03681667, "token_acc": 0.98552139, "grad_norm": 0.85746753, "learning_rate": 9.17e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231297, "epoch": 4.02088574, "global_step/max_steps": "52750/65595", "percentage": "80.42%", "elapsed_time": "2d 15h 20m 59s", "remaining_time": "15h 25m 34s"}
+{"loss": 0.030226, "token_acc": 0.98984652, "grad_norm": 0.95853519, "learning_rate": 9.16e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231303, "epoch": 4.02126686, "global_step/max_steps": "52755/65595", "percentage": "80.43%", "elapsed_time": "2d 15h 21m 15s", "remaining_time": "15h 25m 11s"}
+{"loss": 0.04881899, "token_acc": 0.98099834, "grad_norm": 2.16390395, "learning_rate": 9.15e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231306, "epoch": 4.02164799, "global_step/max_steps": "52760/65595", "percentage": "80.43%", "elapsed_time": "2d 15h 21m 33s", "remaining_time": "15h 24m 48s"}
+{"loss": 0.04093443, "token_acc": 0.98662001, "grad_norm": 0.76012528, "learning_rate": 9.15e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23131, "epoch": 4.02202912, "global_step/max_steps": "52765/65595", "percentage": "80.44%", "elapsed_time": "2d 15h 21m 51s", "remaining_time": "15h 24m 26s"}
+{"loss": 0.0298195, "token_acc": 0.98819935, "grad_norm": 0.74253798, "learning_rate": 9.14e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231309, "epoch": 4.02241024, "global_step/max_steps": "52770/65595", "percentage": "80.45%", "elapsed_time": "2d 15h 22m 13s", "remaining_time": "15h 24m 4s"}
+{"loss": 0.04118178, "token_acc": 0.98664841, "grad_norm": 0.78076279, "learning_rate": 9.13e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231313, "epoch": 4.02279137, "global_step/max_steps": "52775/65595", "percentage": "80.46%", "elapsed_time": "2d 15h 22m 31s", "remaining_time": "15h 23m 42s"}
+{"loss": 0.03266651, "token_acc": 0.98945616, "grad_norm": 0.53304464, "learning_rate": 9.13e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231312, "epoch": 4.0231725, "global_step/max_steps": "52780/65595", "percentage": "80.46%", "elapsed_time": "2d 15h 22m 54s", "remaining_time": "15h 23m 20s"}
+{"loss": 0.02564674, "token_acc": 0.99001783, "grad_norm": 1.361673, "learning_rate": 9.12e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231316, "epoch": 4.02355362, "global_step/max_steps": "52785/65595", "percentage": "80.47%", "elapsed_time": "2d 15h 23m 12s", "remaining_time": "15h 22m 58s"}
+{"loss": 0.04174915, "token_acc": 0.98419645, "grad_norm": 0.84289622, "learning_rate": 9.11e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231321, "epoch": 4.02393475, "global_step/max_steps": "52790/65595", "percentage": "80.48%", "elapsed_time": "2d 15h 23m 28s", "remaining_time": "15h 22m 35s"}
+{"loss": 0.02027701, "token_acc": 0.98875937, "grad_norm": 0.49344757, "learning_rate": 9.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231327, "epoch": 4.02431588, "global_step/max_steps": "52795/65595", "percentage": "80.49%", "elapsed_time": "2d 15h 23m 44s", "remaining_time": "15h 22m 12s"}
+{"loss": 0.04298911, "token_acc": 0.98363181, "grad_norm": 1.81293738, "learning_rate": 9.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231331, "epoch": 4.024697, "global_step/max_steps": "52800/65595", "percentage": "80.49%", "elapsed_time": "2d 15h 24m 2s", "remaining_time": "15h 21m 49s"}
+{"eval_loss": 0.0518669, "eval_token_acc": 0.97865339, "eval_runtime": 220.2868, "eval_samples_per_second": 2.406, "eval_steps_per_second": 2.406, "epoch": 4.024697, "global_step/max_steps": "52800/65595", "percentage": "80.49%", "elapsed_time": "2d 15h 27m 42s", "remaining_time": "15h 22m 43s"}
+{"loss": 0.02953562, "token_acc": 0.97890859, "grad_norm": 1.15535879, "learning_rate": 9.09e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231112, "epoch": 4.02507813, "global_step/max_steps": "52805/65595", "percentage": "80.50%", "elapsed_time": "2d 15h 27m 59s", "remaining_time": "15h 22m 20s"}
+{"loss": 0.04932044, "token_acc": 0.97972973, "grad_norm": 0.52981645, "learning_rate": 9.08e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231116, "epoch": 4.02545926, "global_step/max_steps": "52810/65595", "percentage": "80.51%", "elapsed_time": "2d 15h 28m 17s", "remaining_time": "15h 21m 57s"}
+{"loss": 0.03824708, "token_acc": 0.98278797, "grad_norm": 0.89314109, "learning_rate": 9.08e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231121, "epoch": 4.02584038, "global_step/max_steps": "52815/65595", "percentage": "80.52%", "elapsed_time": "2d 15h 28m 34s", "remaining_time": "15h 21m 35s"}
+{"loss": 0.03925137, "token_acc": 0.98291041, "grad_norm": 1.28476286, "learning_rate": 9.07e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231126, "epoch": 4.02622151, "global_step/max_steps": "52820/65595", "percentage": "80.52%", "elapsed_time": "2d 15h 28m 50s", "remaining_time": "15h 21m 12s"}
+{"loss": 0.04106373, "token_acc": 0.98482402, "grad_norm": 1.06435335, "learning_rate": 9.06e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231129, "epoch": 4.02660264, "global_step/max_steps": "52825/65595", "percentage": "80.53%", "elapsed_time": "2d 15h 29m 9s", "remaining_time": "15h 20m 49s"}
+{"loss": 0.02412194, "token_acc": 0.98923972, "grad_norm": 0.73667735, "learning_rate": 9.06e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231133, "epoch": 4.02698376, "global_step/max_steps": "52830/65595", "percentage": "80.54%", "elapsed_time": "2d 15h 29m 27s", "remaining_time": "15h 20m 27s"}
+{"loss": 0.02896917, "token_acc": 0.9873761, "grad_norm": 0.55869567, "learning_rate": 9.05e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231133, "epoch": 4.02736489, "global_step/max_steps": "52835/65595", "percentage": "80.55%", "elapsed_time": "2d 15h 29m 49s", "remaining_time": "15h 20m 5s"}
+{"loss": 0.01759677, "token_acc": 0.99175558, "grad_norm": 1.17642498, "learning_rate": 9.04e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231136, "epoch": 4.02774602, "global_step/max_steps": "52840/65595", "percentage": "80.55%", "elapsed_time": "2d 15h 30m 7s", "remaining_time": "15h 19m 43s"}
+{"loss": 0.03072245, "token_acc": 0.988245, "grad_norm": 0.44791701, "learning_rate": 9.04e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231141, "epoch": 4.02812714, "global_step/max_steps": "52845/65595", "percentage": "80.56%", "elapsed_time": "2d 15h 30m 24s", "remaining_time": "15h 19m 20s"}
+{"loss": 0.02727813, "token_acc": 0.98916234, "grad_norm": 0.96555752, "learning_rate": 9.03e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231146, "epoch": 4.02850827, "global_step/max_steps": "52850/65595", "percentage": "80.57%", "elapsed_time": "2d 15h 30m 41s", "remaining_time": "15h 18m 57s"}
+{"loss": 0.02572255, "token_acc": 0.98908429, "grad_norm": 1.51537335, "learning_rate": 9.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231151, "epoch": 4.0288894, "global_step/max_steps": "52855/65595", "percentage": "80.58%", "elapsed_time": "2d 15h 30m 58s", "remaining_time": "15h 18m 35s"}
+{"loss": 0.05787223, "token_acc": 0.9813407, "grad_norm": 1.87114966, "learning_rate": 9.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231155, "epoch": 4.02927052, "global_step/max_steps": "52860/65595", "percentage": "80.59%", "elapsed_time": "2d 15h 31m 15s", "remaining_time": "15h 18m 12s"}
+{"loss": 0.02099949, "token_acc": 0.99047894, "grad_norm": 1.53643978, "learning_rate": 9.01e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231162, "epoch": 4.02965165, "global_step/max_steps": "52865/65595", "percentage": "80.59%", "elapsed_time": "2d 15h 31m 30s", "remaining_time": "15h 17m 49s"}
+{"loss": 0.03689255, "token_acc": 0.9848094, "grad_norm": 1.29689324, "learning_rate": 9e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231168, "epoch": 4.03003278, "global_step/max_steps": "52870/65595", "percentage": "80.60%", "elapsed_time": "2d 15h 31m 45s", "remaining_time": "15h 17m 25s"}
+{"loss": 0.01962077, "token_acc": 0.98911353, "grad_norm": 0.99268025, "learning_rate": 8.99e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231174, "epoch": 4.0304139, "global_step/max_steps": "52875/65595", "percentage": "80.61%", "elapsed_time": "2d 15h 32m 1s", "remaining_time": "15h 17m 2s"}
+{"loss": 0.043688, "token_acc": 0.98486297, "grad_norm": 1.45965111, "learning_rate": 8.99e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231177, "epoch": 4.03079503, "global_step/max_steps": "52880/65595", "percentage": "80.62%", "elapsed_time": "2d 15h 32m 19s", "remaining_time": "15h 16m 40s"}
+{"loss": 0.02691947, "token_acc": 0.9865917, "grad_norm": 0.65766186, "learning_rate": 8.98e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231184, "epoch": 4.03117616, "global_step/max_steps": "52885/65595", "percentage": "80.62%", "elapsed_time": "2d 15h 32m 34s", "remaining_time": "15h 16m 17s"}
+{"loss": 0.03343354, "token_acc": 0.98822848, "grad_norm": 0.4942432, "learning_rate": 8.97e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231189, "epoch": 4.03155728, "global_step/max_steps": "52890/65595", "percentage": "80.63%", "elapsed_time": "2d 15h 32m 51s", "remaining_time": "15h 15m 54s"}
+{"loss": 0.04691408, "token_acc": 0.98710717, "grad_norm": 2.1049459, "learning_rate": 8.97e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231193, "epoch": 4.03193841, "global_step/max_steps": "52895/65595", "percentage": "80.64%", "elapsed_time": "2d 15h 33m 9s", "remaining_time": "15h 15m 32s"}
+{"loss": 0.03520441, "token_acc": 0.98428197, "grad_norm": 1.4354502, "learning_rate": 8.96e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231198, "epoch": 4.03231954, "global_step/max_steps": "52900/65595", "percentage": "80.65%", "elapsed_time": "2d 15h 33m 25s", "remaining_time": "15h 15m 9s"}
+{"loss": 0.03527572, "token_acc": 0.98821023, "grad_norm": 0.67137778, "learning_rate": 8.95e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231201, "epoch": 4.03270066, "global_step/max_steps": "52905/65595", "percentage": "80.65%", "elapsed_time": "2d 15h 33m 44s", "remaining_time": "15h 14m 46s"}
+{"loss": 0.0305785, "token_acc": 0.9885337, "grad_norm": 1.23617184, "learning_rate": 8.95e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231207, "epoch": 4.03308179, "global_step/max_steps": "52910/65595", "percentage": "80.66%", "elapsed_time": "2d 15h 34m 0s", "remaining_time": "15h 14m 23s"}
+{"loss": 0.02444093, "token_acc": 0.99010577, "grad_norm": 1.45275772, "learning_rate": 8.94e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231215, "epoch": 4.03346292, "global_step/max_steps": "52915/65595", "percentage": "80.67%", "elapsed_time": "2d 15h 34m 14s", "remaining_time": "15h 14m 0s"}
+{"loss": 0.05692403, "token_acc": 0.98145143, "grad_norm": 0.66993743, "learning_rate": 8.93e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23122, "epoch": 4.03384404, "global_step/max_steps": "52920/65595", "percentage": "80.68%", "elapsed_time": "2d 15h 34m 30s", "remaining_time": "15h 13m 37s"}
+{"loss": 0.04884012, "token_acc": 0.9855352, "grad_norm": 0.60109609, "learning_rate": 8.93e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231227, "epoch": 4.03422517, "global_step/max_steps": "52925/65595", "percentage": "80.68%", "elapsed_time": "2d 15h 34m 45s", "remaining_time": "15h 13m 14s"}
+{"loss": 0.0228535, "token_acc": 0.99366935, "grad_norm": 0.83427298, "learning_rate": 8.92e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231233, "epoch": 4.0346063, "global_step/max_steps": "52930/65595", "percentage": "80.69%", "elapsed_time": "2d 15h 35m 1s", "remaining_time": "15h 12m 51s"}
+{"loss": 0.03307654, "token_acc": 0.98743301, "grad_norm": 0.80397207, "learning_rate": 8.91e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231238, "epoch": 4.03498742, "global_step/max_steps": "52935/65595", "percentage": "80.70%", "elapsed_time": "2d 15h 35m 17s", "remaining_time": "15h 12m 28s"}
+{"loss": 0.03402679, "token_acc": 0.98279731, "grad_norm": 0.91905248, "learning_rate": 8.91e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231244, "epoch": 4.03536855, "global_step/max_steps": "52940/65595", "percentage": "80.71%", "elapsed_time": "2d 15h 35m 32s", "remaining_time": "15h 12m 5s"}
+{"loss": 0.02928336, "token_acc": 0.98408836, "grad_norm": 1.2139225, "learning_rate": 8.9e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231249, "epoch": 4.03574968, "global_step/max_steps": "52945/65595", "percentage": "80.71%", "elapsed_time": "2d 15h 35m 49s", "remaining_time": "15h 11m 42s"}
+{"loss": 0.0376077, "token_acc": 0.98196844, "grad_norm": 1.50815988, "learning_rate": 8.89e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231253, "epoch": 4.0361308, "global_step/max_steps": "52950/65595", "percentage": "80.72%", "elapsed_time": "2d 15h 36m 7s", "remaining_time": "15h 11m 19s"}
+{"loss": 0.03434442, "token_acc": 0.9890355, "grad_norm": 1.4129163, "learning_rate": 8.89e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231257, "epoch": 4.03651193, "global_step/max_steps": "52955/65595", "percentage": "80.73%", "elapsed_time": "2d 15h 36m 25s", "remaining_time": "15h 10m 57s"}
+{"loss": 0.02110529, "token_acc": 0.98957695, "grad_norm": 1.09659636, "learning_rate": 8.88e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231263, "epoch": 4.03689306, "global_step/max_steps": "52960/65595", "percentage": "80.74%", "elapsed_time": "2d 15h 36m 40s", "remaining_time": "15h 10m 34s"}
+{"loss": 0.02561711, "token_acc": 0.99013482, "grad_norm": 1.41564965, "learning_rate": 8.87e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231267, "epoch": 4.03727418, "global_step/max_steps": "52965/65595", "percentage": "80.75%", "elapsed_time": "2d 15h 36m 58s", "remaining_time": "15h 10m 11s"}
+{"loss": 0.01935899, "token_acc": 0.99057431, "grad_norm": 0.21034996, "learning_rate": 8.87e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231273, "epoch": 4.03765531, "global_step/max_steps": "52970/65595", "percentage": "80.75%", "elapsed_time": "2d 15h 37m 13s", "remaining_time": "15h 9m 48s"}
+{"loss": 0.05324631, "token_acc": 0.9777658, "grad_norm": 1.12098956, "learning_rate": 8.86e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231278, "epoch": 4.03803644, "global_step/max_steps": "52975/65595", "percentage": "80.76%", "elapsed_time": "2d 15h 37m 31s", "remaining_time": "15h 9m 25s"}
+{"loss": 0.05748301, "token_acc": 0.97873277, "grad_norm": 1.20590591, "learning_rate": 8.85e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23128, "epoch": 4.03841756, "global_step/max_steps": "52980/65595", "percentage": "80.77%", "elapsed_time": "2d 15h 37m 50s", "remaining_time": "15h 9m 3s"}
+{"loss": 0.04434277, "token_acc": 0.98100407, "grad_norm": 1.42527711, "learning_rate": 8.84e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231287, "epoch": 4.03879869, "global_step/max_steps": "52985/65595", "percentage": "80.78%", "elapsed_time": "2d 15h 38m 5s", "remaining_time": "15h 8m 40s"}
+{"loss": 0.0430559, "token_acc": 0.98275862, "grad_norm": 1.489398, "learning_rate": 8.84e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231291, "epoch": 4.03917982, "global_step/max_steps": "52990/65595", "percentage": "80.78%", "elapsed_time": "2d 15h 38m 23s", "remaining_time": "15h 8m 17s"}
+{"loss": 0.0300954, "token_acc": 0.98582365, "grad_norm": 1.10456181, "learning_rate": 8.83e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231296, "epoch": 4.03956094, "global_step/max_steps": "52995/65595", "percentage": "80.79%", "elapsed_time": "2d 15h 38m 39s", "remaining_time": "15h 7m 55s"}
+{"loss": 0.04524096, "token_acc": 0.98413926, "grad_norm": 1.03980672, "learning_rate": 8.82e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231303, "epoch": 4.03994207, "global_step/max_steps": "53000/65595", "percentage": "80.80%", "elapsed_time": "2d 15h 38m 53s", "remaining_time": "15h 7m 31s"}
+{"eval_loss": 0.05224674, "eval_token_acc": 0.97858563, "eval_runtime": 219.9296, "eval_samples_per_second": 2.41, "eval_steps_per_second": 2.41, "epoch": 4.03994207, "global_step/max_steps": "53000/65595", "percentage": "80.80%", "elapsed_time": "2d 15h 42m 33s", "remaining_time": "15h 8m 24s"}
+{"loss": 0.03864647, "token_acc": 0.97870966, "grad_norm": 1.3565743, "learning_rate": 8.82e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231086, "epoch": 4.0403232, "global_step/max_steps": "53005/65595", "percentage": "80.81%", "elapsed_time": "2d 15h 42m 51s", "remaining_time": "15h 8m 1s"}
+{"loss": 0.01047155, "token_acc": 0.99606041, "grad_norm": 0.59150052, "learning_rate": 8.81e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231094, "epoch": 4.04070432, "global_step/max_steps": "53010/65595", "percentage": "80.81%", "elapsed_time": "2d 15h 43m 4s", "remaining_time": "15h 7m 37s"}
+{"loss": 0.03934224, "token_acc": 0.98152624, "grad_norm": 1.37619185, "learning_rate": 8.8e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231099, "epoch": 4.04108545, "global_step/max_steps": "53015/65595", "percentage": "80.82%", "elapsed_time": "2d 15h 43m 21s", "remaining_time": "15h 7m 15s"}
+{"loss": 0.03341696, "token_acc": 0.98587268, "grad_norm": 0.78841555, "learning_rate": 8.8e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231103, "epoch": 4.04146658, "global_step/max_steps": "53020/65595", "percentage": "80.83%", "elapsed_time": "2d 15h 43m 39s", "remaining_time": "15h 6m 52s"}
+{"loss": 0.04065491, "token_acc": 0.98165854, "grad_norm": 1.15011287, "learning_rate": 8.79e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231108, "epoch": 4.0418477, "global_step/max_steps": "53025/65595", "percentage": "80.84%", "elapsed_time": "2d 15h 43m 55s", "remaining_time": "15h 6m 29s"}
+{"loss": 0.04552753, "token_acc": 0.9810536, "grad_norm": 0.63450539, "learning_rate": 8.78e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231112, "epoch": 4.04222883, "global_step/max_steps": "53030/65595", "percentage": "80.84%", "elapsed_time": "2d 15h 44m 13s", "remaining_time": "15h 6m 7s"}
+{"loss": 0.01738912, "token_acc": 0.99079498, "grad_norm": 0.43020302, "learning_rate": 8.78e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231119, "epoch": 4.04260996, "global_step/max_steps": "53035/65595", "percentage": "80.85%", "elapsed_time": "2d 15h 44m 28s", "remaining_time": "15h 5m 43s"}
+{"loss": 0.02597871, "token_acc": 0.98873592, "grad_norm": 0.51206994, "learning_rate": 8.77e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231122, "epoch": 4.04299108, "global_step/max_steps": "53040/65595", "percentage": "80.86%", "elapsed_time": "2d 15h 44m 46s", "remaining_time": "15h 5m 21s"}
+{"loss": 0.02472835, "token_acc": 0.99006293, "grad_norm": 0.76929182, "learning_rate": 8.76e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231127, "epoch": 4.04337221, "global_step/max_steps": "53045/65595", "percentage": "80.87%", "elapsed_time": "2d 15h 45m 3s", "remaining_time": "15h 4m 58s"}
+{"loss": 0.03228402, "token_acc": 0.98800475, "grad_norm": 0.65835226, "learning_rate": 8.76e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23113, "epoch": 4.04375333, "global_step/max_steps": "53050/65595", "percentage": "80.88%", "elapsed_time": "2d 15h 45m 22s", "remaining_time": "15h 4m 36s"}
+{"loss": 0.02693096, "token_acc": 0.99346085, "grad_norm": 1.99751401, "learning_rate": 8.75e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231133, "epoch": 4.04413446, "global_step/max_steps": "53055/65595", "percentage": "80.88%", "elapsed_time": "2d 15h 45m 40s", "remaining_time": "15h 4m 13s"}
+{"loss": 0.03569806, "token_acc": 0.98734177, "grad_norm": 3.6627326, "learning_rate": 8.74e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231139, "epoch": 4.04451559, "global_step/max_steps": "53060/65595", "percentage": "80.89%", "elapsed_time": "2d 15h 45m 56s", "remaining_time": "15h 3m 50s"}
+{"loss": 0.04225234, "token_acc": 0.98574644, "grad_norm": 1.63085115, "learning_rate": 8.74e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231145, "epoch": 4.04489671, "global_step/max_steps": "53065/65595", "percentage": "80.90%", "elapsed_time": "2d 15h 46m 11s", "remaining_time": "15h 3m 27s"}
+{"loss": 0.02692518, "token_acc": 0.98476946, "grad_norm": 0.65196776, "learning_rate": 8.73e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231151, "epoch": 4.04527784, "global_step/max_steps": "53070/65595", "percentage": "80.91%", "elapsed_time": "2d 15h 46m 28s", "remaining_time": "15h 3m 4s"}
+{"loss": 0.05754987, "token_acc": 0.97842004, "grad_norm": 1.72531569, "learning_rate": 8.72e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231155, "epoch": 4.04565897, "global_step/max_steps": "53075/65595", "percentage": "80.91%", "elapsed_time": "2d 15h 46m 46s", "remaining_time": "15h 2m 42s"}
+{"loss": 0.02337257, "token_acc": 0.98839813, "grad_norm": 0.16876215, "learning_rate": 8.72e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231159, "epoch": 4.04604009, "global_step/max_steps": "53080/65595", "percentage": "80.92%", "elapsed_time": "2d 15h 47m 3s", "remaining_time": "15h 2m 19s"}
+{"loss": 0.02653868, "token_acc": 0.98928448, "grad_norm": 1.67411077, "learning_rate": 8.71e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231163, "epoch": 4.04642122, "global_step/max_steps": "53085/65595", "percentage": "80.93%", "elapsed_time": "2d 15h 47m 21s", "remaining_time": "15h 1m 57s"}
+{"loss": 0.0236277, "token_acc": 0.99281111, "grad_norm": 1.07250774, "learning_rate": 8.7e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231169, "epoch": 4.04680235, "global_step/max_steps": "53090/65595", "percentage": "80.94%", "elapsed_time": "2d 15h 47m 36s", "remaining_time": "15h 1m 34s"}
+{"loss": 0.03949708, "token_acc": 0.98716921, "grad_norm": 1.08823991, "learning_rate": 8.7e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231177, "epoch": 4.04718347, "global_step/max_steps": "53095/65595", "percentage": "80.94%", "elapsed_time": "2d 15h 47m 50s", "remaining_time": "15h 1m 10s"}
+{"loss": 0.03811324, "token_acc": 0.98497664, "grad_norm": 0.65689003, "learning_rate": 8.69e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231179, "epoch": 4.0475646, "global_step/max_steps": "53100/65595", "percentage": "80.95%", "elapsed_time": "2d 15h 48m 9s", "remaining_time": "15h 0m 48s"}
+{"loss": 0.01258133, "token_acc": 0.99311594, "grad_norm": 0.98569798, "learning_rate": 8.68e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231186, "epoch": 4.04794573, "global_step/max_steps": "53105/65595", "percentage": "80.96%", "elapsed_time": "2d 15h 48m 24s", "remaining_time": "15h 0m 25s"}
+{"loss": 0.01338982, "token_acc": 0.99362351, "grad_norm": 0.51247078, "learning_rate": 8.68e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231192, "epoch": 4.04832685, "global_step/max_steps": "53110/65595", "percentage": "80.97%", "elapsed_time": "2d 15h 48m 40s", "remaining_time": "15h 0m 2s"}
+{"loss": 0.03569466, "token_acc": 0.98640297, "grad_norm": 0.82729691, "learning_rate": 8.67e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231197, "epoch": 4.04870798, "global_step/max_steps": "53115/65595", "percentage": "80.97%", "elapsed_time": "2d 15h 48m 56s", "remaining_time": "14h 59m 39s"}
+{"loss": 0.02272716, "token_acc": 0.99202645, "grad_norm": 1.30755651, "learning_rate": 8.66e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231203, "epoch": 4.04908911, "global_step/max_steps": "53120/65595", "percentage": "80.98%", "elapsed_time": "2d 15h 49m 12s", "remaining_time": "14h 59m 16s"}
+{"loss": 0.02750902, "token_acc": 0.98942551, "grad_norm": 0.56491655, "learning_rate": 8.66e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231208, "epoch": 4.04947023, "global_step/max_steps": "53125/65595", "percentage": "80.99%", "elapsed_time": "2d 15h 49m 29s", "remaining_time": "14h 58m 53s"}
+{"loss": 0.02889641, "token_acc": 0.98613377, "grad_norm": 0.68706566, "learning_rate": 8.65e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231209, "epoch": 4.04985136, "global_step/max_steps": "53130/65595", "percentage": "81.00%", "elapsed_time": "2d 15h 49m 50s", "remaining_time": "14h 58m 31s"}
+{"loss": 0.04793303, "token_acc": 0.98625484, "grad_norm": 0.66463077, "learning_rate": 8.64e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231204, "epoch": 4.05023249, "global_step/max_steps": "53135/65595", "percentage": "81.00%", "elapsed_time": "2d 15h 50m 15s", "remaining_time": "14h 58m 11s"}
+{"loss": 0.0420283, "token_acc": 0.98209983, "grad_norm": 1.24986529, "learning_rate": 8.64e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231209, "epoch": 4.05061361, "global_step/max_steps": "53140/65595", "percentage": "81.01%", "elapsed_time": "2d 15h 50m 33s", "remaining_time": "14h 57m 48s"}
+{"loss": 0.03059517, "token_acc": 0.99006933, "grad_norm": 1.07480073, "learning_rate": 8.63e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231213, "epoch": 4.05099474, "global_step/max_steps": "53145/65595", "percentage": "81.02%", "elapsed_time": "2d 15h 50m 50s", "remaining_time": "14h 57m 25s"}
+{"loss": 0.03114011, "token_acc": 0.98860085, "grad_norm": 0.8095026, "learning_rate": 8.62e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231218, "epoch": 4.05137587, "global_step/max_steps": "53150/65595", "percentage": "81.03%", "elapsed_time": "2d 15h 51m 7s", "remaining_time": "14h 57m 3s"}
+{"loss": 0.03933379, "token_acc": 0.98467753, "grad_norm": 2.20806527, "learning_rate": 8.61e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231221, "epoch": 4.05175699, "global_step/max_steps": "53155/65595", "percentage": "81.04%", "elapsed_time": "2d 15h 51m 26s", "remaining_time": "14h 56m 40s"}
+{"loss": 0.03951936, "token_acc": 0.98705982, "grad_norm": 2.15877485, "learning_rate": 8.61e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231225, "epoch": 4.05213812, "global_step/max_steps": "53160/65595", "percentage": "81.04%", "elapsed_time": "2d 15h 51m 43s", "remaining_time": "14h 56m 18s"}
+{"loss": 0.02110446, "token_acc": 0.98889644, "grad_norm": 0.4298746, "learning_rate": 8.6e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23123, "epoch": 4.05251925, "global_step/max_steps": "53165/65595", "percentage": "81.05%", "elapsed_time": "2d 15h 51m 59s", "remaining_time": "14h 55m 55s"}
+{"loss": 0.0259541, "token_acc": 0.9878072, "grad_norm": 0.57268184, "learning_rate": 8.59e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231234, "epoch": 4.05290037, "global_step/max_steps": "53170/65595", "percentage": "81.06%", "elapsed_time": "2d 15h 52m 18s", "remaining_time": "14h 55m 32s"}
+{"loss": 0.04424841, "token_acc": 0.98752481, "grad_norm": 2.88349533, "learning_rate": 8.59e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23124, "epoch": 4.0532815, "global_step/max_steps": "53175/65595", "percentage": "81.07%", "elapsed_time": "2d 15h 52m 33s", "remaining_time": "14h 55m 9s"}
+{"loss": 0.04005303, "token_acc": 0.98220641, "grad_norm": 1.46180809, "learning_rate": 8.58e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231246, "epoch": 4.05366263, "global_step/max_steps": "53180/65595", "percentage": "81.07%", "elapsed_time": "2d 15h 52m 49s", "remaining_time": "14h 54m 46s"}
+{"loss": 0.03989263, "token_acc": 0.9827989, "grad_norm": 1.91089511, "learning_rate": 8.57e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23125, "epoch": 4.05404375, "global_step/max_steps": "53185/65595", "percentage": "81.08%", "elapsed_time": "2d 15h 53m 7s", "remaining_time": "14h 54m 24s"}
+{"loss": 0.03048432, "token_acc": 0.98920058, "grad_norm": 1.37314093, "learning_rate": 8.57e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231253, "epoch": 4.05442488, "global_step/max_steps": "53190/65595", "percentage": "81.09%", "elapsed_time": "2d 15h 53m 25s", "remaining_time": "14h 54m 2s"}
+{"loss": 0.04420869, "token_acc": 0.98972144, "grad_norm": 0.59196991, "learning_rate": 8.56e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231257, "epoch": 4.05480601, "global_step/max_steps": "53195/65595", "percentage": "81.10%", "elapsed_time": "2d 15h 53m 42s", "remaining_time": "14h 53m 39s"}
+{"loss": 0.03007747, "token_acc": 0.98920863, "grad_norm": 0.81060302, "learning_rate": 8.55e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231262, "epoch": 4.05518713, "global_step/max_steps": "53200/65595", "percentage": "81.10%", "elapsed_time": "2d 15h 53m 59s", "remaining_time": "14h 53m 16s"}
+{"eval_loss": 0.05240278, "eval_token_acc": 0.97888681, "eval_runtime": 218.1698, "eval_samples_per_second": 2.429, "eval_steps_per_second": 2.429, "epoch": 4.05518713, "global_step/max_steps": "53200/65595", "percentage": "81.10%", "elapsed_time": "2d 15h 57m 37s", "remaining_time": "14h 54m 7s"}
+{"loss": 0.03104728, "token_acc": 0.97908893, "grad_norm": 1.23807657, "learning_rate": 8.55e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231049, "epoch": 4.05556826, "global_step/max_steps": "53205/65595", "percentage": "81.11%", "elapsed_time": "2d 15h 57m 53s", "remaining_time": "14h 53m 44s"}
+{"loss": 0.03162429, "token_acc": 0.9813278, "grad_norm": 0.8753826, "learning_rate": 8.54e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231057, "epoch": 4.05594939, "global_step/max_steps": "53210/65595", "percentage": "81.12%", "elapsed_time": "2d 15h 58m 7s", "remaining_time": "14h 53m 21s"}
+{"loss": 0.03210289, "token_acc": 0.98900256, "grad_norm": 2.3606894, "learning_rate": 8.53e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231063, "epoch": 4.05633051, "global_step/max_steps": "53215/65595", "percentage": "81.13%", "elapsed_time": "2d 15h 58m 23s", "remaining_time": "14h 52m 57s"}
+{"loss": 0.0169552, "token_acc": 0.99311927, "grad_norm": 0.89247841, "learning_rate": 8.53e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23107, "epoch": 4.05671164, "global_step/max_steps": "53220/65595", "percentage": "81.13%", "elapsed_time": "2d 15h 58m 37s", "remaining_time": "14h 52m 34s"}
+{"loss": 0.06728231, "token_acc": 0.98180651, "grad_norm": 0.5738917, "learning_rate": 8.52e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231074, "epoch": 4.05709277, "global_step/max_steps": "53225/65595", "percentage": "81.14%", "elapsed_time": "2d 15h 58m 54s", "remaining_time": "14h 52m 12s"}
+{"loss": 0.0353134, "token_acc": 0.98401682, "grad_norm": 1.5071733, "learning_rate": 8.51e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23108, "epoch": 4.05747389, "global_step/max_steps": "53230/65595", "percentage": "81.15%", "elapsed_time": "2d 15h 59m 11s", "remaining_time": "14h 51m 49s"}
+{"loss": 0.04141062, "token_acc": 0.98560726, "grad_norm": 1.43789399, "learning_rate": 8.51e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231085, "epoch": 4.05785502, "global_step/max_steps": "53235/65595", "percentage": "81.16%", "elapsed_time": "2d 15h 59m 27s", "remaining_time": "14h 51m 26s"}
+{"loss": 0.04438473, "token_acc": 0.98668178, "grad_norm": 1.46266174, "learning_rate": 8.5e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231091, "epoch": 4.05823615, "global_step/max_steps": "53240/65595", "percentage": "81.16%", "elapsed_time": "2d 15h 59m 43s", "remaining_time": "14h 51m 3s"}
+{"loss": 0.02379884, "token_acc": 0.99249124, "grad_norm": 0.75254422, "learning_rate": 8.49e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231094, "epoch": 4.05861727, "global_step/max_steps": "53245/65595", "percentage": "81.17%", "elapsed_time": "2d 16h 0m 1s", "remaining_time": "14h 50m 40s"}
+{"loss": 0.03107015, "token_acc": 0.99065242, "grad_norm": 0.51481336, "learning_rate": 8.49e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2311, "epoch": 4.0589984, "global_step/max_steps": "53250/65595", "percentage": "81.18%", "elapsed_time": "2d 16h 0m 17s", "remaining_time": "14h 50m 17s"}
+{"loss": 0.04555312, "token_acc": 0.98355755, "grad_norm": 0.70380241, "learning_rate": 8.48e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231103, "epoch": 4.05937953, "global_step/max_steps": "53255/65595", "percentage": "81.19%", "elapsed_time": "2d 16h 0m 35s", "remaining_time": "14h 49m 55s"}
+{"loss": 0.02903331, "token_acc": 0.99047173, "grad_norm": 1.90487266, "learning_rate": 8.47e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231108, "epoch": 4.05976065, "global_step/max_steps": "53260/65595", "percentage": "81.20%", "elapsed_time": "2d 16h 0m 52s", "remaining_time": "14h 49m 32s"}
+{"loss": 0.03546475, "token_acc": 0.98701504, "grad_norm": 0.69856572, "learning_rate": 8.47e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23111, "epoch": 4.06014178, "global_step/max_steps": "53265/65595", "percentage": "81.20%", "elapsed_time": "2d 16h 1m 12s", "remaining_time": "14h 49m 10s"}
+{"loss": 0.03367538, "token_acc": 0.98568747, "grad_norm": 1.04275763, "learning_rate": 8.46e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231116, "epoch": 4.06052291, "global_step/max_steps": "53270/65595", "percentage": "81.21%", "elapsed_time": "2d 16h 1m 27s", "remaining_time": "14h 48m 47s"}
+{"loss": 0.0326327, "token_acc": 0.98833747, "grad_norm": 0.66577441, "learning_rate": 8.45e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231119, "epoch": 4.06090403, "global_step/max_steps": "53275/65595", "percentage": "81.22%", "elapsed_time": "2d 16h 1m 46s", "remaining_time": "14h 48m 25s"}
+{"loss": 0.03675309, "token_acc": 0.98265807, "grad_norm": 1.0452652, "learning_rate": 8.45e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231122, "epoch": 4.06128516, "global_step/max_steps": "53280/65595", "percentage": "81.23%", "elapsed_time": "2d 16h 2m 4s", "remaining_time": "14h 48m 2s"}
+{"loss": 0.02371834, "token_acc": 0.98978449, "grad_norm": 0.80641043, "learning_rate": 8.44e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231126, "epoch": 4.06166629, "global_step/max_steps": "53285/65595", "percentage": "81.23%", "elapsed_time": "2d 16h 2m 22s", "remaining_time": "14h 47m 40s"}
+{"loss": 0.0284783, "token_acc": 0.98296927, "grad_norm": 1.2988776, "learning_rate": 8.43e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231133, "epoch": 4.06204741, "global_step/max_steps": "53290/65595", "percentage": "81.24%", "elapsed_time": "2d 16h 2m 37s", "remaining_time": "14h 47m 17s"}
+{"loss": 0.04919156, "token_acc": 0.98824892, "grad_norm": 0.47530574, "learning_rate": 8.43e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231136, "epoch": 4.06242854, "global_step/max_steps": "53295/65595", "percentage": "81.25%", "elapsed_time": "2d 16h 2m 55s", "remaining_time": "14h 46m 54s"}
+{"loss": 0.02386295, "token_acc": 0.9875717, "grad_norm": 0.55101568, "learning_rate": 8.42e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23114, "epoch": 4.06280967, "global_step/max_steps": "53300/65595", "percentage": "81.26%", "elapsed_time": "2d 16h 3m 14s", "remaining_time": "14h 46m 32s"}
+{"loss": 0.01972333, "token_acc": 0.99346917, "grad_norm": 2.71763468, "learning_rate": 8.41e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231145, "epoch": 4.06319079, "global_step/max_steps": "53305/65595", "percentage": "81.26%", "elapsed_time": "2d 16h 3m 30s", "remaining_time": "14h 46m 9s"}
+{"loss": 0.01828876, "token_acc": 0.9907115, "grad_norm": 0.66764081, "learning_rate": 8.41e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231149, "epoch": 4.06357192, "global_step/max_steps": "53310/65595", "percentage": "81.27%", "elapsed_time": "2d 16h 3m 48s", "remaining_time": "14h 45m 47s"}
+{"loss": 0.05622975, "token_acc": 0.98447894, "grad_norm": 1.96314752, "learning_rate": 8.4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231154, "epoch": 4.06395305, "global_step/max_steps": "53315/65595", "percentage": "81.28%", "elapsed_time": "2d 16h 4m 4s", "remaining_time": "14h 45m 24s"}
+{"loss": 0.01875134, "token_acc": 0.99338959, "grad_norm": 0.59980339, "learning_rate": 8.39e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231157, "epoch": 4.06433417, "global_step/max_steps": "53320/65595", "percentage": "81.29%", "elapsed_time": "2d 16h 4m 23s", "remaining_time": "14h 45m 1s"}
+{"loss": 0.02667584, "token_acc": 0.98803605, "grad_norm": 0.89378172, "learning_rate": 8.39e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231161, "epoch": 4.0647153, "global_step/max_steps": "53325/65595", "percentage": "81.29%", "elapsed_time": "2d 16h 4m 40s", "remaining_time": "14h 44m 39s"}
+{"loss": 0.02945496, "token_acc": 0.98790729, "grad_norm": 1.45975351, "learning_rate": 8.38e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231168, "epoch": 4.06509643, "global_step/max_steps": "53330/65595", "percentage": "81.30%", "elapsed_time": "2d 16h 4m 55s", "remaining_time": "14h 44m 16s"}
+{"loss": 0.02260257, "token_acc": 0.99, "grad_norm": 0.52231091, "learning_rate": 8.37e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231175, "epoch": 4.06547755, "global_step/max_steps": "53335/65595", "percentage": "81.31%", "elapsed_time": "2d 16h 5m 10s", "remaining_time": "14h 43m 52s"}
+{"loss": 0.03715379, "token_acc": 0.98389643, "grad_norm": 0.71737564, "learning_rate": 8.37e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231182, "epoch": 4.06585868, "global_step/max_steps": "53340/65595", "percentage": "81.32%", "elapsed_time": "2d 16h 5m 25s", "remaining_time": "14h 43m 29s"}
+{"loss": 0.04933003, "token_acc": 0.98571141, "grad_norm": 0.62291187, "learning_rate": 8.36e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231187, "epoch": 4.0662398, "global_step/max_steps": "53345/65595", "percentage": "81.32%", "elapsed_time": "2d 16h 5m 41s", "remaining_time": "14h 43m 6s"}
+{"loss": 0.03992567, "token_acc": 0.98277983, "grad_norm": 1.18081236, "learning_rate": 8.35e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231195, "epoch": 4.06662093, "global_step/max_steps": "53350/65595", "percentage": "81.33%", "elapsed_time": "2d 16h 5m 55s", "remaining_time": "14h 42m 43s"}
+{"loss": 0.02659507, "token_acc": 0.99202183, "grad_norm": 3.04272604, "learning_rate": 8.35e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2312, "epoch": 4.06700206, "global_step/max_steps": "53355/65595", "percentage": "81.34%", "elapsed_time": "2d 16h 6m 12s", "remaining_time": "14h 42m 20s"}
+{"loss": 0.0270141, "token_acc": 0.98774003, "grad_norm": 0.97935575, "learning_rate": 8.34e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231202, "epoch": 4.06738318, "global_step/max_steps": "53360/65595", "percentage": "81.35%", "elapsed_time": "2d 16h 6m 32s", "remaining_time": "14h 41m 58s"}
+{"loss": 0.0352397, "token_acc": 0.9872297, "grad_norm": 0.88721257, "learning_rate": 8.33e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231206, "epoch": 4.06776431, "global_step/max_steps": "53365/65595", "percentage": "81.36%", "elapsed_time": "2d 16h 6m 48s", "remaining_time": "14h 41m 35s"}
+{"loss": 0.03675223, "token_acc": 0.98731295, "grad_norm": 1.32781541, "learning_rate": 8.33e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231213, "epoch": 4.06814544, "global_step/max_steps": "53370/65595", "percentage": "81.36%", "elapsed_time": "2d 16h 7m 4s", "remaining_time": "14h 41m 12s"}
+{"loss": 0.03112641, "token_acc": 0.98549125, "grad_norm": 1.67280185, "learning_rate": 8.32e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231216, "epoch": 4.06852656, "global_step/max_steps": "53375/65595", "percentage": "81.37%", "elapsed_time": "2d 16h 7m 22s", "remaining_time": "14h 40m 50s"}
+{"loss": 0.01882138, "token_acc": 0.98733923, "grad_norm": 0.98410487, "learning_rate": 8.32e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23122, "epoch": 4.06890769, "global_step/max_steps": "53380/65595", "percentage": "81.38%", "elapsed_time": "2d 16h 7m 39s", "remaining_time": "14h 40m 27s"}
+{"loss": 0.02473375, "token_acc": 0.98768502, "grad_norm": 0.26417994, "learning_rate": 8.31e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231223, "epoch": 4.06928882, "global_step/max_steps": "53385/65595", "percentage": "81.39%", "elapsed_time": "2d 16h 7m 59s", "remaining_time": "14h 40m 5s"}
+{"loss": 0.0310855, "token_acc": 0.98912514, "grad_norm": 0.78884506, "learning_rate": 8.3e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231225, "epoch": 4.06966994, "global_step/max_steps": "53390/65595", "percentage": "81.39%", "elapsed_time": "2d 16h 8m 18s", "remaining_time": "14h 39m 43s"}
+{"loss": 0.03586642, "token_acc": 0.98696538, "grad_norm": 1.1668247, "learning_rate": 8.3e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231228, "epoch": 4.07005107, "global_step/max_steps": "53395/65595", "percentage": "81.40%", "elapsed_time": "2d 16h 8m 37s", "remaining_time": "14h 39m 21s"}
+{"loss": 0.03670423, "token_acc": 0.9897619, "grad_norm": 1.79516232, "learning_rate": 8.29e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231233, "epoch": 4.0704322, "global_step/max_steps": "53400/65595", "percentage": "81.41%", "elapsed_time": "2d 16h 8m 53s", "remaining_time": "14h 38m 58s"}
+{"eval_loss": 0.05302617, "eval_token_acc": 0.97883411, "eval_runtime": 219.5226, "eval_samples_per_second": 2.414, "eval_steps_per_second": 2.414, "epoch": 4.0704322, "global_step/max_steps": "53400/65595", "percentage": "81.41%", "elapsed_time": "2d 16h 12m 32s", "remaining_time": "14h 39m 48s"}
+{"loss": 0.02527102, "token_acc": 0.97955367, "grad_norm": 0.80111426, "learning_rate": 8.28e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231015, "epoch": 4.07081332, "global_step/max_steps": "53405/65595", "percentage": "81.42%", "elapsed_time": "2d 16h 12m 53s", "remaining_time": "14h 39m 26s"}
+{"loss": 0.0543835, "token_acc": 0.98243128, "grad_norm": 0.68937522, "learning_rate": 8.28e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23102, "epoch": 4.07119445, "global_step/max_steps": "53410/65595", "percentage": "81.42%", "elapsed_time": "2d 16h 13m 9s", "remaining_time": "14h 39m 3s"}
+{"loss": 0.02015478, "token_acc": 0.9882842, "grad_norm": 1.7618376, "learning_rate": 8.27e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231026, "epoch": 4.07157558, "global_step/max_steps": "53415/65595", "percentage": "81.43%", "elapsed_time": "2d 16h 13m 25s", "remaining_time": "14h 38m 40s"}
+{"loss": 0.04073075, "token_acc": 0.98434705, "grad_norm": 3.47511363, "learning_rate": 8.26e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231031, "epoch": 4.0719567, "global_step/max_steps": "53420/65595", "percentage": "81.44%", "elapsed_time": "2d 16h 13m 42s", "remaining_time": "14h 38m 18s"}
+{"loss": 0.04213403, "token_acc": 0.98837209, "grad_norm": 0.5998041, "learning_rate": 8.26e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231037, "epoch": 4.07233783, "global_step/max_steps": "53425/65595", "percentage": "81.45%", "elapsed_time": "2d 16h 13m 57s", "remaining_time": "14h 37m 54s"}
+{"loss": 0.02811734, "token_acc": 0.98626745, "grad_norm": 0.72698873, "learning_rate": 8.25e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231037, "epoch": 4.07271896, "global_step/max_steps": "53430/65595", "percentage": "81.45%", "elapsed_time": "2d 16h 14m 19s", "remaining_time": "14h 37m 33s"}
+{"loss": 0.0393317, "token_acc": 0.98561819, "grad_norm": 0.6967656, "learning_rate": 8.24e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231043, "epoch": 4.07310008, "global_step/max_steps": "53435/65595", "percentage": "81.46%", "elapsed_time": "2d 16h 14m 35s", "remaining_time": "14h 37m 10s"}
+{"loss": 0.04511375, "token_acc": 0.98662625, "grad_norm": 0.88279259, "learning_rate": 8.24e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231047, "epoch": 4.07348121, "global_step/max_steps": "53440/65595", "percentage": "81.47%", "elapsed_time": "2d 16h 14m 52s", "remaining_time": "14h 36m 47s"}
+{"loss": 0.03662592, "token_acc": 0.98365011, "grad_norm": 0.86834985, "learning_rate": 8.23e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231051, "epoch": 4.07386234, "global_step/max_steps": "53445/65595", "percentage": "81.48%", "elapsed_time": "2d 16h 15m 10s", "remaining_time": "14h 36m 25s"}
+{"loss": 0.03227553, "token_acc": 0.98463576, "grad_norm": 0.87463063, "learning_rate": 8.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231057, "epoch": 4.07424346, "global_step/max_steps": "53450/65595", "percentage": "81.48%", "elapsed_time": "2d 16h 15m 26s", "remaining_time": "14h 36m 2s"}
+{"loss": 0.04014216, "token_acc": 0.97901653, "grad_norm": 1.04081368, "learning_rate": 8.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231062, "epoch": 4.07462459, "global_step/max_steps": "53455/65595", "percentage": "81.49%", "elapsed_time": "2d 16h 15m 42s", "remaining_time": "14h 35m 39s"}
+{"loss": 0.03085656, "token_acc": 0.98632385, "grad_norm": 1.60446978, "learning_rate": 8.21e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231067, "epoch": 4.07500572, "global_step/max_steps": "53460/65595", "percentage": "81.50%", "elapsed_time": "2d 16h 15m 59s", "remaining_time": "14h 35m 16s"}
+{"loss": 0.02630637, "token_acc": 0.99055404, "grad_norm": 1.27569568, "learning_rate": 8.2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231069, "epoch": 4.07538684, "global_step/max_steps": "53465/65595", "percentage": "81.51%", "elapsed_time": "2d 16h 16m 18s", "remaining_time": "14h 34m 54s"}
+{"loss": 0.03032652, "token_acc": 0.98419913, "grad_norm": 0.78608572, "learning_rate": 8.2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231074, "epoch": 4.07576797, "global_step/max_steps": "53470/65595", "percentage": "81.52%", "elapsed_time": "2d 16h 16m 35s", "remaining_time": "14h 34m 31s"}
+{"loss": 0.04276342, "token_acc": 0.98581405, "grad_norm": 1.08177066, "learning_rate": 8.19e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231079, "epoch": 4.0761491, "global_step/max_steps": "53475/65595", "percentage": "81.52%", "elapsed_time": "2d 16h 16m 51s", "remaining_time": "14h 34m 9s"}
+{"loss": 0.02133166, "token_acc": 0.99122412, "grad_norm": 0.74038374, "learning_rate": 8.18e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231085, "epoch": 4.07653022, "global_step/max_steps": "53480/65595", "percentage": "81.53%", "elapsed_time": "2d 16h 17m 7s", "remaining_time": "14h 33m 46s"}
+{"loss": 0.03811034, "token_acc": 0.9896237, "grad_norm": 2.34355783, "learning_rate": 8.18e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231087, "epoch": 4.07691135, "global_step/max_steps": "53485/65595", "percentage": "81.54%", "elapsed_time": "2d 16h 17m 27s", "remaining_time": "14h 33m 24s"}
+{"loss": 0.01384471, "token_acc": 0.99442897, "grad_norm": 0.70290405, "learning_rate": 8.17e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231093, "epoch": 4.07729248, "global_step/max_steps": "53490/65595", "percentage": "81.55%", "elapsed_time": "2d 16h 17m 43s", "remaining_time": "14h 33m 1s"}
+{"loss": 0.02714579, "token_acc": 0.98834603, "grad_norm": 0.70625383, "learning_rate": 8.16e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231095, "epoch": 4.0776736, "global_step/max_steps": "53495/65595", "percentage": "81.55%", "elapsed_time": "2d 16h 18m 2s", "remaining_time": "14h 32m 38s"}
+{"loss": 0.036024, "token_acc": 0.98871361, "grad_norm": 1.02199614, "learning_rate": 8.16e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231098, "epoch": 4.07805473, "global_step/max_steps": "53500/65595", "percentage": "81.56%", "elapsed_time": "2d 16h 18m 21s", "remaining_time": "14h 32m 16s"}
+{"loss": 0.03481811, "token_acc": 0.98673824, "grad_norm": 0.68136543, "learning_rate": 8.15e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231099, "epoch": 4.07843586, "global_step/max_steps": "53505/65595", "percentage": "81.57%", "elapsed_time": "2d 16h 18m 41s", "remaining_time": "14h 31m 54s"}
+{"loss": 0.03670762, "token_acc": 0.98539007, "grad_norm": 1.16915023, "learning_rate": 8.14e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231102, "epoch": 4.07881698, "global_step/max_steps": "53510/65595", "percentage": "81.58%", "elapsed_time": "2d 16h 19m 0s", "remaining_time": "14h 31m 32s"}
+{"loss": 0.03153425, "token_acc": 0.9891254, "grad_norm": 0.73382854, "learning_rate": 8.14e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231105, "epoch": 4.07919811, "global_step/max_steps": "53515/65595", "percentage": "81.58%", "elapsed_time": "2d 16h 19m 19s", "remaining_time": "14h 31m 10s"}
+{"loss": 0.02699478, "token_acc": 0.98828037, "grad_norm": 0.89824939, "learning_rate": 8.13e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231111, "epoch": 4.07957924, "global_step/max_steps": "53520/65595", "percentage": "81.59%", "elapsed_time": "2d 16h 19m 34s", "remaining_time": "14h 30m 47s"}
+{"loss": 0.03664887, "token_acc": 0.98800959, "grad_norm": 0.73863524, "learning_rate": 8.12e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231116, "epoch": 4.07996036, "global_step/max_steps": "53525/65595", "percentage": "81.60%", "elapsed_time": "2d 16h 19m 51s", "remaining_time": "14h 30m 24s"}
+{"loss": 0.04072945, "token_acc": 0.98337522, "grad_norm": 0.9056589, "learning_rate": 8.12e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231121, "epoch": 4.08034149, "global_step/max_steps": "53530/65595", "percentage": "81.61%", "elapsed_time": "2d 16h 20m 8s", "remaining_time": "14h 30m 1s"}
+{"loss": 0.0364464, "token_acc": 0.98649488, "grad_norm": 0.64002079, "learning_rate": 8.11e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231124, "epoch": 4.08072262, "global_step/max_steps": "53535/65595", "percentage": "81.61%", "elapsed_time": "2d 16h 20m 26s", "remaining_time": "14h 29m 39s"}
+{"loss": 0.03788108, "token_acc": 0.98375262, "grad_norm": 0.57142621, "learning_rate": 8.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231129, "epoch": 4.08110374, "global_step/max_steps": "53540/65595", "percentage": "81.62%", "elapsed_time": "2d 16h 20m 43s", "remaining_time": "14h 29m 16s"}
+{"loss": 0.03931111, "token_acc": 0.9867713, "grad_norm": 2.68253255, "learning_rate": 8.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231134, "epoch": 4.08148487, "global_step/max_steps": "53545/65595", "percentage": "81.63%", "elapsed_time": "2d 16h 21m 0s", "remaining_time": "14h 28m 53s"}
+{"loss": 0.03971519, "token_acc": 0.98035633, "grad_norm": 1.21065509, "learning_rate": 8.09e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231141, "epoch": 4.081866, "global_step/max_steps": "53550/65595", "percentage": "81.64%", "elapsed_time": "2d 16h 21m 14s", "remaining_time": "14h 28m 30s"}
+{"loss": 0.03414475, "token_acc": 0.98566588, "grad_norm": 0.41928524, "learning_rate": 8.09e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231148, "epoch": 4.08224712, "global_step/max_steps": "53555/65595", "percentage": "81.64%", "elapsed_time": "2d 16h 21m 28s", "remaining_time": "14h 28m 7s"}
+{"loss": 0.0221826, "token_acc": 0.99108219, "grad_norm": 0.81045306, "learning_rate": 8.08e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231154, "epoch": 4.08262825, "global_step/max_steps": "53560/65595", "percentage": "81.65%", "elapsed_time": "2d 16h 21m 45s", "remaining_time": "14h 27m 44s"}
+{"loss": 0.04720819, "token_acc": 0.98602548, "grad_norm": 0.50852859, "learning_rate": 8.07e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231155, "epoch": 4.08300938, "global_step/max_steps": "53565/65595", "percentage": "81.66%", "elapsed_time": "2d 16h 22m 5s", "remaining_time": "14h 27m 22s"}
+{"loss": 0.02564543, "token_acc": 0.99094077, "grad_norm": 1.30261958, "learning_rate": 8.07e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231161, "epoch": 4.0833905, "global_step/max_steps": "53570/65595", "percentage": "81.67%", "elapsed_time": "2d 16h 22m 20s", "remaining_time": "14h 26m 59s"}
+{"loss": 0.02001786, "token_acc": 0.99141221, "grad_norm": 2.5795958, "learning_rate": 8.06e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231168, "epoch": 4.08377163, "global_step/max_steps": "53575/65595", "percentage": "81.68%", "elapsed_time": "2d 16h 22m 35s", "remaining_time": "14h 26m 36s"}
+{"loss": 0.06772407, "token_acc": 0.97612857, "grad_norm": 0.78095627, "learning_rate": 8.05e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231174, "epoch": 4.08415276, "global_step/max_steps": "53580/65595", "percentage": "81.68%", "elapsed_time": "2d 16h 22m 50s", "remaining_time": "14h 26m 13s"}
+{"loss": 0.02488072, "token_acc": 0.98937317, "grad_norm": 0.79358673, "learning_rate": 8.05e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231177, "epoch": 4.08453388, "global_step/max_steps": "53585/65595", "percentage": "81.69%", "elapsed_time": "2d 16h 23m 9s", "remaining_time": "14h 25m 50s"}
+{"loss": 0.02862452, "token_acc": 0.9886768, "grad_norm": 0.67528421, "learning_rate": 8.04e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231181, "epoch": 4.08491501, "global_step/max_steps": "53590/65595", "percentage": "81.70%", "elapsed_time": "2d 16h 23m 27s", "remaining_time": "14h 25m 28s"}
+{"loss": 0.0158553, "token_acc": 0.99305791, "grad_norm": 1.32596457, "learning_rate": 8.03e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231185, "epoch": 4.08529614, "global_step/max_steps": "53595/65595", "percentage": "81.71%", "elapsed_time": "2d 16h 23m 44s", "remaining_time": "14h 25m 5s"}
+{"loss": 0.02930957, "token_acc": 0.98820242, "grad_norm": 0.92469949, "learning_rate": 8.03e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231185, "epoch": 4.08567726, "global_step/max_steps": "53600/65595", "percentage": "81.71%", "elapsed_time": "2d 16h 24m 6s", "remaining_time": "14h 24m 44s"}
+{"eval_loss": 0.052795, "eval_token_acc": 0.97900729, "eval_runtime": 218.6534, "eval_samples_per_second": 2.424, "eval_steps_per_second": 2.424, "epoch": 4.08567726, "global_step/max_steps": "53600/65595", "percentage": "81.71%", "elapsed_time": "2d 16h 27m 45s", "remaining_time": "14h 25m 33s"}
+{"loss": 0.02873708, "token_acc": 0.97955184, "grad_norm": 0.69475681, "learning_rate": 8.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230971, "epoch": 4.08605839, "global_step/max_steps": "53605/65595", "percentage": "81.72%", "elapsed_time": "2d 16h 28m 3s", "remaining_time": "14h 25m 10s"}
+{"loss": 0.02800754, "token_acc": 0.98970562, "grad_norm": 1.15469658, "learning_rate": 8.01e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230975, "epoch": 4.08643952, "global_step/max_steps": "53610/65595", "percentage": "81.73%", "elapsed_time": "2d 16h 28m 20s", "remaining_time": "14h 24m 48s"}
+{"loss": 0.02544459, "token_acc": 0.99031232, "grad_norm": 0.9607802, "learning_rate": 8.01e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230977, "epoch": 4.08682064, "global_step/max_steps": "53615/65595", "percentage": "81.74%", "elapsed_time": "2d 16h 28m 40s", "remaining_time": "14h 24m 26s"}
+{"loss": 0.01690191, "token_acc": 0.99037536, "grad_norm": 1.14763331, "learning_rate": 8e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230983, "epoch": 4.08720177, "global_step/max_steps": "53620/65595", "percentage": "81.74%", "elapsed_time": "2d 16h 28m 56s", "remaining_time": "14h 24m 3s"}
+{"loss": 0.05038234, "token_acc": 0.98530394, "grad_norm": 1.36457229, "learning_rate": 7.99e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23099, "epoch": 4.0875829, "global_step/max_steps": "53625/65595", "percentage": "81.75%", "elapsed_time": "2d 16h 29m 10s", "remaining_time": "14h 23m 39s"}
+{"loss": 0.04407537, "token_acc": 0.97859779, "grad_norm": 0.81136131, "learning_rate": 7.99e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230996, "epoch": 4.08796402, "global_step/max_steps": "53630/65595", "percentage": "81.76%", "elapsed_time": "2d 16h 29m 25s", "remaining_time": "14h 23m 16s"}
+{"loss": 0.03821253, "token_acc": 0.98382204, "grad_norm": 0.12593958, "learning_rate": 7.98e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231001, "epoch": 4.08834515, "global_step/max_steps": "53635/65595", "percentage": "81.77%", "elapsed_time": "2d 16h 29m 42s", "remaining_time": "14h 22m 54s"}
+{"loss": 0.03481043, "token_acc": 0.97905028, "grad_norm": 0.77491337, "learning_rate": 7.97e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231008, "epoch": 4.08872627, "global_step/max_steps": "53640/65595", "percentage": "81.77%", "elapsed_time": "2d 16h 29m 57s", "remaining_time": "14h 22m 30s"}
+{"loss": 0.03387185, "token_acc": 0.97848177, "grad_norm": 1.27317858, "learning_rate": 7.97e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231015, "epoch": 4.0891074, "global_step/max_steps": "53645/65595", "percentage": "81.78%", "elapsed_time": "2d 16h 30m 11s", "remaining_time": "14h 22m 7s"}
+{"loss": 0.03655768, "token_acc": 0.97801684, "grad_norm": 0.22433636, "learning_rate": 7.96e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231023, "epoch": 4.08948853, "global_step/max_steps": "53650/65595", "percentage": "81.79%", "elapsed_time": "2d 16h 30m 25s", "remaining_time": "14h 21m 44s"}
+{"loss": 0.03944132, "token_acc": 0.98284664, "grad_norm": 0.7858423, "learning_rate": 7.95e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231027, "epoch": 4.08986965, "global_step/max_steps": "53655/65595", "percentage": "81.80%", "elapsed_time": "2d 16h 30m 43s", "remaining_time": "14h 21m 21s"}
+{"loss": 0.05118129, "token_acc": 0.97903145, "grad_norm": 0.66362095, "learning_rate": 7.95e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23103, "epoch": 4.09025078, "global_step/max_steps": "53660/65595", "percentage": "81.81%", "elapsed_time": "2d 16h 31m 1s", "remaining_time": "14h 20m 59s"}
+{"loss": 0.03244549, "token_acc": 0.9906332, "grad_norm": 0.79791474, "learning_rate": 7.94e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231036, "epoch": 4.09063191, "global_step/max_steps": "53665/65595", "percentage": "81.81%", "elapsed_time": "2d 16h 31m 17s", "remaining_time": "14h 20m 36s"}
+{"loss": 0.03304027, "token_acc": 0.98614698, "grad_norm": 1.0025003, "learning_rate": 7.94e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231042, "epoch": 4.09101303, "global_step/max_steps": "53670/65595", "percentage": "81.82%", "elapsed_time": "2d 16h 31m 32s", "remaining_time": "14h 20m 13s"}
+{"loss": 0.0380928, "token_acc": 0.98953701, "grad_norm": 1.38416302, "learning_rate": 7.93e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231049, "epoch": 4.09139416, "global_step/max_steps": "53675/65595", "percentage": "81.83%", "elapsed_time": "2d 16h 31m 48s", "remaining_time": "14h 19m 50s"}
+{"loss": 0.036686, "token_acc": 0.98587127, "grad_norm": 1.79767263, "learning_rate": 7.92e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231054, "epoch": 4.09177529, "global_step/max_steps": "53680/65595", "percentage": "81.84%", "elapsed_time": "2d 16h 32m 4s", "remaining_time": "14h 19m 27s"}
+{"loss": 0.01862782, "token_acc": 0.99366724, "grad_norm": 0.4382444, "learning_rate": 7.92e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23106, "epoch": 4.09215641, "global_step/max_steps": "53685/65595", "percentage": "81.84%", "elapsed_time": "2d 16h 32m 20s", "remaining_time": "14h 19m 4s"}
+{"loss": 0.0264076, "token_acc": 0.98935594, "grad_norm": 0.52753854, "learning_rate": 7.91e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231065, "epoch": 4.09253754, "global_step/max_steps": "53690/65595", "percentage": "81.85%", "elapsed_time": "2d 16h 32m 36s", "remaining_time": "14h 18m 41s"}
+{"loss": 0.0335444, "token_acc": 0.99022727, "grad_norm": 0.68906838, "learning_rate": 7.9e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23107, "epoch": 4.09291867, "global_step/max_steps": "53695/65595", "percentage": "81.86%", "elapsed_time": "2d 16h 32m 53s", "remaining_time": "14h 18m 19s"}
+{"loss": 0.03601025, "token_acc": 0.9846343, "grad_norm": 1.28748643, "learning_rate": 7.9e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231075, "epoch": 4.09329979, "global_step/max_steps": "53700/65595", "percentage": "81.87%", "elapsed_time": "2d 16h 33m 10s", "remaining_time": "14h 17m 56s"}
+{"loss": 0.03185253, "token_acc": 0.99213413, "grad_norm": 7.50848818, "learning_rate": 7.89e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23108, "epoch": 4.09368092, "global_step/max_steps": "53705/65595", "percentage": "81.87%", "elapsed_time": "2d 16h 33m 25s", "remaining_time": "14h 17m 33s"}
+{"loss": 0.03546325, "token_acc": 0.9867848, "grad_norm": 0.75513899, "learning_rate": 7.88e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231082, "epoch": 4.09406205, "global_step/max_steps": "53710/65595", "percentage": "81.88%", "elapsed_time": "2d 16h 33m 46s", "remaining_time": "14h 17m 11s"}
+{"loss": 0.05339648, "token_acc": 0.97893368, "grad_norm": 1.030689, "learning_rate": 7.88e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231088, "epoch": 4.09444317, "global_step/max_steps": "53715/65595", "percentage": "81.89%", "elapsed_time": "2d 16h 34m 1s", "remaining_time": "14h 16m 48s"}
+{"loss": 0.02725102, "token_acc": 0.9860638, "grad_norm": 0.40421912, "learning_rate": 7.87e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231094, "epoch": 4.0948243, "global_step/max_steps": "53720/65595", "percentage": "81.90%", "elapsed_time": "2d 16h 34m 16s", "remaining_time": "14h 16m 25s"}
+{"loss": 0.03986426, "token_acc": 0.98863349, "grad_norm": 0.87909424, "learning_rate": 7.86e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2311, "epoch": 4.09520543, "global_step/max_steps": "53725/65595", "percentage": "81.90%", "elapsed_time": "2d 16h 34m 32s", "remaining_time": "14h 16m 2s"}
+{"loss": 0.03022179, "token_acc": 0.98465347, "grad_norm": 1.15533781, "learning_rate": 7.86e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231106, "epoch": 4.09558655, "global_step/max_steps": "53730/65595", "percentage": "81.91%", "elapsed_time": "2d 16h 34m 48s", "remaining_time": "14h 15m 39s"}
+{"loss": 0.01829908, "token_acc": 0.99175434, "grad_norm": 0.5655635, "learning_rate": 7.85e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231113, "epoch": 4.09596768, "global_step/max_steps": "53735/65595", "percentage": "81.92%", "elapsed_time": "2d 16h 35m 3s", "remaining_time": "14h 15m 16s"}
+{"loss": 0.04715579, "token_acc": 0.98522316, "grad_norm": 2.50485682, "learning_rate": 7.85e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231119, "epoch": 4.09634881, "global_step/max_steps": "53740/65595", "percentage": "81.93%", "elapsed_time": "2d 16h 35m 18s", "remaining_time": "14h 14m 53s"}
+{"loss": 0.02613849, "token_acc": 0.98934281, "grad_norm": 1.7584343, "learning_rate": 7.84e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231126, "epoch": 4.09672993, "global_step/max_steps": "53745/65595", "percentage": "81.93%", "elapsed_time": "2d 16h 35m 33s", "remaining_time": "14h 14m 30s"}
+{"loss": 0.02519503, "token_acc": 0.99025164, "grad_norm": 1.1171385, "learning_rate": 7.83e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231131, "epoch": 4.09711106, "global_step/max_steps": "53750/65595", "percentage": "81.94%", "elapsed_time": "2d 16h 35m 50s", "remaining_time": "14h 14m 7s"}
+{"loss": 0.05708371, "token_acc": 0.97708306, "grad_norm": 1.61069846, "learning_rate": 7.83e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231133, "epoch": 4.09749219, "global_step/max_steps": "53755/65595", "percentage": "81.95%", "elapsed_time": "2d 16h 36m 9s", "remaining_time": "14h 13m 45s"}
+{"loss": 0.04378985, "token_acc": 0.98021108, "grad_norm": 1.35946858, "learning_rate": 7.82e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23114, "epoch": 4.09787331, "global_step/max_steps": "53760/65595", "percentage": "81.96%", "elapsed_time": "2d 16h 36m 24s", "remaining_time": "14h 13m 22s"}
+{"loss": 0.0248784, "token_acc": 0.98922949, "grad_norm": 0.87951499, "learning_rate": 7.81e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231145, "epoch": 4.09825444, "global_step/max_steps": "53765/65595", "percentage": "81.97%", "elapsed_time": "2d 16h 36m 40s", "remaining_time": "14h 12m 59s"}
+{"loss": 0.06881507, "token_acc": 0.9755426, "grad_norm": 0.69092637, "learning_rate": 7.81e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231149, "epoch": 4.09863557, "global_step/max_steps": "53770/65595", "percentage": "81.97%", "elapsed_time": "2d 16h 36m 58s", "remaining_time": "14h 12m 36s"}
+{"loss": 0.04026477, "token_acc": 0.98614052, "grad_norm": 0.67109972, "learning_rate": 7.8e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231154, "epoch": 4.09901669, "global_step/max_steps": "53775/65595", "percentage": "81.98%", "elapsed_time": "2d 16h 37m 14s", "remaining_time": "14h 12m 14s"}
+{"loss": 0.0363507, "token_acc": 0.98411297, "grad_norm": 1.2708751, "learning_rate": 7.79e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23116, "epoch": 4.09939782, "global_step/max_steps": "53780/65595", "percentage": "81.99%", "elapsed_time": "2d 16h 37m 30s", "remaining_time": "14h 11m 51s"}
+{"loss": 0.02892648, "token_acc": 0.98538927, "grad_norm": 0.58164626, "learning_rate": 7.79e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231164, "epoch": 4.09977895, "global_step/max_steps": "53785/65595", "percentage": "82.00%", "elapsed_time": "2d 16h 37m 47s", "remaining_time": "14h 11m 28s"}
+{"loss": 0.03998097, "token_acc": 0.9830738, "grad_norm": 1.74696064, "learning_rate": 7.78e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231169, "epoch": 4.10016007, "global_step/max_steps": "53790/65595", "percentage": "82.00%", "elapsed_time": "2d 16h 38m 4s", "remaining_time": "14h 11m 5s"}
+{"loss": 0.03090856, "token_acc": 0.99040151, "grad_norm": 1.10254979, "learning_rate": 7.77e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231172, "epoch": 4.1005412, "global_step/max_steps": "53795/65595", "percentage": "82.01%", "elapsed_time": "2d 16h 38m 23s", "remaining_time": "14h 10m 43s"}
+{"loss": 0.045793, "token_acc": 0.98186167, "grad_norm": 1.62963331, "learning_rate": 7.77e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231176, "epoch": 4.10092233, "global_step/max_steps": "53800/65595", "percentage": "82.02%", "elapsed_time": "2d 16h 38m 40s", "remaining_time": "14h 10m 21s"}
+{"eval_loss": 0.05166027, "eval_token_acc": 0.9789847, "eval_runtime": 218.5188, "eval_samples_per_second": 2.425, "eval_steps_per_second": 2.425, "epoch": 4.10092233, "global_step/max_steps": "53800/65595", "percentage": "82.02%", "elapsed_time": "2d 16h 42m 19s", "remaining_time": "14h 11m 9s"}
+{"loss": 0.04452953, "token_acc": 0.97909211, "grad_norm": 1.0205524, "learning_rate": 7.76e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230965, "epoch": 4.10130345, "global_step/max_steps": "53805/65595", "percentage": "82.03%", "elapsed_time": "2d 16h 42m 35s", "remaining_time": "14h 10m 46s"}
+{"loss": 0.04782124, "token_acc": 0.9867411, "grad_norm": 1.26971054, "learning_rate": 7.76e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230972, "epoch": 4.10168458, "global_step/max_steps": "53810/65595", "percentage": "82.03%", "elapsed_time": "2d 16h 42m 50s", "remaining_time": "14h 10m 23s"}
+{"loss": 0.03082616, "token_acc": 0.9866426, "grad_norm": 0.78753048, "learning_rate": 7.75e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230975, "epoch": 4.10206571, "global_step/max_steps": "53815/65595", "percentage": "82.04%", "elapsed_time": "2d 16h 43m 8s", "remaining_time": "14h 10m 0s"}
+{"loss": 0.02553218, "token_acc": 0.98760955, "grad_norm": 0.87255681, "learning_rate": 7.74e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230979, "epoch": 4.10244683, "global_step/max_steps": "53820/65595", "percentage": "82.05%", "elapsed_time": "2d 16h 43m 26s", "remaining_time": "14h 9m 38s"}
+{"loss": 0.03532339, "token_acc": 0.98611455, "grad_norm": 1.56634939, "learning_rate": 7.74e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230984, "epoch": 4.10282796, "global_step/max_steps": "53825/65595", "percentage": "82.06%", "elapsed_time": "2d 16h 43m 43s", "remaining_time": "14h 9m 15s"}
+{"loss": 0.02715769, "token_acc": 0.9888328, "grad_norm": 1.02257681, "learning_rate": 7.73e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230988, "epoch": 4.10320909, "global_step/max_steps": "53830/65595", "percentage": "82.06%", "elapsed_time": "2d 16h 44m 0s", "remaining_time": "14h 8m 52s"}
+{"loss": 0.02918081, "token_acc": 0.98845511, "grad_norm": 2.84335399, "learning_rate": 7.72e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230992, "epoch": 4.10359021, "global_step/max_steps": "53835/65595", "percentage": "82.07%", "elapsed_time": "2d 16h 44m 17s", "remaining_time": "14h 8m 30s"}
+{"loss": 0.06217255, "token_acc": 0.98176378, "grad_norm": 0.87873966, "learning_rate": 7.72e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230995, "epoch": 4.10397134, "global_step/max_steps": "53840/65595", "percentage": "82.08%", "elapsed_time": "2d 16h 44m 36s", "remaining_time": "14h 8m 8s"}
+{"loss": 0.04986308, "token_acc": 0.98433572, "grad_norm": 3.03680277, "learning_rate": 7.71e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231, "epoch": 4.10435247, "global_step/max_steps": "53845/65595", "percentage": "82.09%", "elapsed_time": "2d 16h 44m 53s", "remaining_time": "14h 7m 45s"}
+{"loss": 0.03122726, "token_acc": 0.99214577, "grad_norm": 1.36203301, "learning_rate": 7.7e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231006, "epoch": 4.10473359, "global_step/max_steps": "53850/65595", "percentage": "82.09%", "elapsed_time": "2d 16h 45m 8s", "remaining_time": "14h 7m 22s"}
+{"loss": 0.04136313, "token_acc": 0.98602925, "grad_norm": 0.95580298, "learning_rate": 7.7e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231012, "epoch": 4.10511472, "global_step/max_steps": "53855/65595", "percentage": "82.10%", "elapsed_time": "2d 16h 45m 24s", "remaining_time": "14h 6m 59s"}
+{"loss": 0.03586631, "token_acc": 0.98691255, "grad_norm": 1.25797999, "learning_rate": 7.69e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231015, "epoch": 4.10549585, "global_step/max_steps": "53860/65595", "percentage": "82.11%", "elapsed_time": "2d 16h 45m 42s", "remaining_time": "14h 6m 37s"}
+{"loss": 0.02674693, "token_acc": 0.98675092, "grad_norm": 0.98699856, "learning_rate": 7.68e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23102, "epoch": 4.10587697, "global_step/max_steps": "53865/65595", "percentage": "82.12%", "elapsed_time": "2d 16h 45m 59s", "remaining_time": "14h 6m 14s"}
+{"loss": 0.02911668, "token_acc": 0.98809174, "grad_norm": 0.56607193, "learning_rate": 7.68e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231023, "epoch": 4.1062581, "global_step/max_steps": "53870/65595", "percentage": "82.13%", "elapsed_time": "2d 16h 46m 17s", "remaining_time": "14h 5m 51s"}
+{"loss": 0.03430209, "token_acc": 0.98527837, "grad_norm": 1.67194867, "learning_rate": 7.67e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231028, "epoch": 4.10663923, "global_step/max_steps": "53875/65595", "percentage": "82.13%", "elapsed_time": "2d 16h 46m 34s", "remaining_time": "14h 5m 29s"}
+{"loss": 0.02699876, "token_acc": 0.99356913, "grad_norm": 0.4053095, "learning_rate": 7.67e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231035, "epoch": 4.10702035, "global_step/max_steps": "53880/65595", "percentage": "82.14%", "elapsed_time": "2d 16h 46m 49s", "remaining_time": "14h 5m 6s"}
+{"loss": 0.01684493, "token_acc": 0.99338022, "grad_norm": 0.4183003, "learning_rate": 7.66e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23104, "epoch": 4.10740148, "global_step/max_steps": "53885/65595", "percentage": "82.15%", "elapsed_time": "2d 16h 47m 5s", "remaining_time": "14h 4m 43s"}
+{"loss": 0.04604024, "token_acc": 0.98300283, "grad_norm": 0.849648, "learning_rate": 7.65e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231043, "epoch": 4.10778261, "global_step/max_steps": "53890/65595", "percentage": "82.16%", "elapsed_time": "2d 16h 47m 24s", "remaining_time": "14h 4m 21s"}
+{"loss": 0.02317445, "token_acc": 0.98938826, "grad_norm": 0.62374991, "learning_rate": 7.65e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231048, "epoch": 4.10816373, "global_step/max_steps": "53895/65595", "percentage": "82.16%", "elapsed_time": "2d 16h 47m 41s", "remaining_time": "14h 3m 58s"}
+{"loss": 0.01691713, "token_acc": 0.99150943, "grad_norm": 0.85211152, "learning_rate": 7.64e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231056, "epoch": 4.10854486, "global_step/max_steps": "53900/65595", "percentage": "82.17%", "elapsed_time": "2d 16h 47m 54s", "remaining_time": "14h 3m 35s"}
+{"loss": 0.02199741, "token_acc": 0.98890887, "grad_norm": 0.5715462, "learning_rate": 7.63e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231058, "epoch": 4.10892599, "global_step/max_steps": "53905/65595", "percentage": "82.18%", "elapsed_time": "2d 16h 48m 14s", "remaining_time": "14h 3m 12s"}
+{"loss": 0.02753019, "token_acc": 0.98721555, "grad_norm": 0.89939678, "learning_rate": 7.63e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231063, "epoch": 4.10930711, "global_step/max_steps": "53910/65595", "percentage": "82.19%", "elapsed_time": "2d 16h 48m 30s", "remaining_time": "14h 2m 50s"}
+{"loss": 0.04079718, "token_acc": 0.98596939, "grad_norm": 0.7479775, "learning_rate": 7.62e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231065, "epoch": 4.10968824, "global_step/max_steps": "53915/65595", "percentage": "82.19%", "elapsed_time": "2d 16h 48m 50s", "remaining_time": "14h 2m 28s"}
+{"loss": 0.02245511, "token_acc": 0.9910504, "grad_norm": 0.86571914, "learning_rate": 7.61e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23107, "epoch": 4.11006937, "global_step/max_steps": "53920/65595", "percentage": "82.20%", "elapsed_time": "2d 16h 49m 6s", "remaining_time": "14h 2m 5s"}
+{"loss": 0.03121889, "token_acc": 0.98624547, "grad_norm": 0.88856626, "learning_rate": 7.61e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231072, "epoch": 4.11045049, "global_step/max_steps": "53925/65595", "percentage": "82.21%", "elapsed_time": "2d 16h 49m 26s", "remaining_time": "14h 1m 43s"}
+{"loss": 0.01764665, "token_acc": 0.99160839, "grad_norm": 1.12604392, "learning_rate": 7.6e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231075, "epoch": 4.11083162, "global_step/max_steps": "53930/65595", "percentage": "82.22%", "elapsed_time": "2d 16h 49m 44s", "remaining_time": "14h 1m 20s"}
+{"loss": 0.02998282, "token_acc": 0.98863636, "grad_norm": 0.44401631, "learning_rate": 7.6e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231083, "epoch": 4.11121274, "global_step/max_steps": "53935/65595", "percentage": "82.22%", "elapsed_time": "2d 16h 49m 59s", "remaining_time": "14h 0m 57s"}
+{"loss": 0.04052814, "token_acc": 0.98293269, "grad_norm": 1.73982894, "learning_rate": 7.59e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231088, "epoch": 4.11159387, "global_step/max_steps": "53940/65595", "percentage": "82.23%", "elapsed_time": "2d 16h 50m 15s", "remaining_time": "14h 0m 34s"}
+{"loss": 0.03606167, "token_acc": 0.98774303, "grad_norm": 0.66491866, "learning_rate": 7.58e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231091, "epoch": 4.111975, "global_step/max_steps": "53945/65595", "percentage": "82.24%", "elapsed_time": "2d 16h 50m 33s", "remaining_time": "14h 0m 12s"}
+{"loss": 0.03284797, "token_acc": 0.98865478, "grad_norm": 2.76019263, "learning_rate": 7.58e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231097, "epoch": 4.11235612, "global_step/max_steps": "53950/65595", "percentage": "82.25%", "elapsed_time": "2d 16h 50m 49s", "remaining_time": "13h 59m 49s"}
+{"loss": 0.03666277, "token_acc": 0.98399688, "grad_norm": 2.15384412, "learning_rate": 7.57e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231104, "epoch": 4.11273725, "global_step/max_steps": "53955/65595", "percentage": "82.25%", "elapsed_time": "2d 16h 51m 4s", "remaining_time": "13h 59m 26s"}
+{"loss": 0.03232463, "token_acc": 0.9875552, "grad_norm": 1.19872785, "learning_rate": 7.56e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231107, "epoch": 4.11311838, "global_step/max_steps": "53960/65595", "percentage": "82.26%", "elapsed_time": "2d 16h 51m 22s", "remaining_time": "13h 59m 4s"}
+{"loss": 0.02597138, "token_acc": 0.98851005, "grad_norm": 0.6834538, "learning_rate": 7.56e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231109, "epoch": 4.1134995, "global_step/max_steps": "53965/65595", "percentage": "82.27%", "elapsed_time": "2d 16h 51m 42s", "remaining_time": "13h 58m 42s"}
+{"loss": 0.0265241, "token_acc": 0.99069628, "grad_norm": 1.05928516, "learning_rate": 7.55e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231115, "epoch": 4.11388063, "global_step/max_steps": "53970/65595", "percentage": "82.28%", "elapsed_time": "2d 16h 51m 58s", "remaining_time": "13h 58m 19s"}
+{"loss": 0.03207718, "token_acc": 0.98441823, "grad_norm": 0.88997883, "learning_rate": 7.55e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231119, "epoch": 4.11426176, "global_step/max_steps": "53975/65595", "percentage": "82.29%", "elapsed_time": "2d 16h 52m 15s", "remaining_time": "13h 57m 56s"}
+{"loss": 0.04399844, "token_acc": 0.98835178, "grad_norm": 0.42829406, "learning_rate": 7.54e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231122, "epoch": 4.11464288, "global_step/max_steps": "53980/65595", "percentage": "82.29%", "elapsed_time": "2d 16h 52m 33s", "remaining_time": "13h 57m 34s"}
+{"loss": 0.05515714, "token_acc": 0.98178138, "grad_norm": 2.04742837, "learning_rate": 7.53e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231127, "epoch": 4.11502401, "global_step/max_steps": "53985/65595", "percentage": "82.30%", "elapsed_time": "2d 16h 52m 50s", "remaining_time": "13h 57m 11s"}
+{"loss": 0.04826726, "token_acc": 0.97668477, "grad_norm": 1.340734, "learning_rate": 7.53e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231134, "epoch": 4.11540514, "global_step/max_steps": "53990/65595", "percentage": "82.31%", "elapsed_time": "2d 16h 53m 5s", "remaining_time": "13h 56m 48s"}
+{"loss": 0.03424661, "token_acc": 0.98899948, "grad_norm": 1.20013654, "learning_rate": 7.52e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23114, "epoch": 4.11578626, "global_step/max_steps": "53995/65595", "percentage": "82.32%", "elapsed_time": "2d 16h 53m 20s", "remaining_time": "13h 56m 25s"}
+{"loss": 0.03057123, "token_acc": 0.98759965, "grad_norm": 1.34458435, "learning_rate": 7.51e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231146, "epoch": 4.11616739, "global_step/max_steps": "54000/65595", "percentage": "82.32%", "elapsed_time": "2d 16h 53m 35s", "remaining_time": "13h 56m 2s"}
+{"eval_loss": 0.05280464, "eval_token_acc": 0.97872869, "eval_runtime": 195.5238, "eval_samples_per_second": 2.711, "eval_steps_per_second": 2.711, "epoch": 4.11616739, "global_step/max_steps": "54000/65595", "percentage": "82.32%", "elapsed_time": "2d 16h 56m 51s", "remaining_time": "13h 56m 44s"}
+{"loss": 0.02602834, "token_acc": 0.97917856, "grad_norm": 1.12321305, "learning_rate": 7.51e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230956, "epoch": 4.11654852, "global_step/max_steps": "54005/65595", "percentage": "82.33%", "elapsed_time": "2d 16h 57m 10s", "remaining_time": "13h 56m 22s"}
+{"loss": 0.03814408, "token_acc": 0.98695509, "grad_norm": 1.11460578, "learning_rate": 7.5e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230961, "epoch": 4.11692964, "global_step/max_steps": "54010/65595", "percentage": "82.34%", "elapsed_time": "2d 16h 57m 26s", "remaining_time": "13h 55m 59s"}
+{"loss": 0.04856607, "token_acc": 0.98274396, "grad_norm": 0.87269557, "learning_rate": 7.49e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230963, "epoch": 4.11731077, "global_step/max_steps": "54015/65595", "percentage": "82.35%", "elapsed_time": "2d 16h 57m 46s", "remaining_time": "13h 55m 37s"}
+{"loss": 0.0379077, "token_acc": 0.98385935, "grad_norm": 1.1162951, "learning_rate": 7.49e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230965, "epoch": 4.1176919, "global_step/max_steps": "54020/65595", "percentage": "82.35%", "elapsed_time": "2d 16h 58m 5s", "remaining_time": "13h 55m 15s"}
+{"loss": 0.02476786, "token_acc": 0.99109333, "grad_norm": 0.88741481, "learning_rate": 7.48e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230968, "epoch": 4.11807302, "global_step/max_steps": "54025/65595", "percentage": "82.36%", "elapsed_time": "2d 16h 58m 24s", "remaining_time": "13h 54m 53s"}
+{"loss": 0.03337016, "token_acc": 0.98826673, "grad_norm": 1.12561119, "learning_rate": 7.48e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23097, "epoch": 4.11845415, "global_step/max_steps": "54030/65595", "percentage": "82.37%", "elapsed_time": "2d 16h 58m 44s", "remaining_time": "13h 54m 30s"}
+{"loss": 0.01905104, "token_acc": 0.99127959, "grad_norm": 0.91802067, "learning_rate": 7.47e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230975, "epoch": 4.11883528, "global_step/max_steps": "54035/65595", "percentage": "82.38%", "elapsed_time": "2d 16h 59m 0s", "remaining_time": "13h 54m 8s"}
+{"loss": 0.04933716, "token_acc": 0.98337292, "grad_norm": 1.08204842, "learning_rate": 7.46e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230981, "epoch": 4.1192164, "global_step/max_steps": "54040/65595", "percentage": "82.38%", "elapsed_time": "2d 16h 59m 16s", "remaining_time": "13h 53m 45s"}
+{"loss": 0.02153932, "token_acc": 0.99064857, "grad_norm": 0.77861017, "learning_rate": 7.46e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230987, "epoch": 4.11959753, "global_step/max_steps": "54045/65595", "percentage": "82.39%", "elapsed_time": "2d 16h 59m 31s", "remaining_time": "13h 53m 22s"}
+{"loss": 0.02544602, "token_acc": 0.9887025, "grad_norm": 2.04823995, "learning_rate": 7.45e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230994, "epoch": 4.11997866, "global_step/max_steps": "54050/65595", "percentage": "82.40%", "elapsed_time": "2d 16h 59m 46s", "remaining_time": "13h 52m 59s"}
+{"loss": 0.0310003, "token_acc": 0.98975526, "grad_norm": 0.77183551, "learning_rate": 7.44e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231001, "epoch": 4.12035978, "global_step/max_steps": "54055/65595", "percentage": "82.41%", "elapsed_time": "2d 17h 0m 1s", "remaining_time": "13h 52m 36s"}
+{"loss": 0.02420731, "token_acc": 0.99225473, "grad_norm": 0.94734955, "learning_rate": 7.44e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231007, "epoch": 4.12074091, "global_step/max_steps": "54060/65595", "percentage": "82.41%", "elapsed_time": "2d 17h 0m 16s", "remaining_time": "13h 52m 13s"}
+{"loss": 0.04224192, "token_acc": 0.98377847, "grad_norm": 0.95879704, "learning_rate": 7.43e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231013, "epoch": 4.12112204, "global_step/max_steps": "54065/65595", "percentage": "82.42%", "elapsed_time": "2d 17h 0m 32s", "remaining_time": "13h 51m 50s"}
+{"loss": 0.04392879, "token_acc": 0.98492967, "grad_norm": 0.67251325, "learning_rate": 7.43e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231013, "epoch": 4.12150316, "global_step/max_steps": "54070/65595", "percentage": "82.43%", "elapsed_time": "2d 17h 0m 53s", "remaining_time": "13h 51m 28s"}
+{"loss": 0.02241506, "token_acc": 0.98874205, "grad_norm": 1.0095942, "learning_rate": 7.42e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231021, "epoch": 4.12188429, "global_step/max_steps": "54075/65595", "percentage": "82.44%", "elapsed_time": "2d 17h 1m 7s", "remaining_time": "13h 51m 5s"}
+{"loss": 0.04991731, "token_acc": 0.97493734, "grad_norm": 1.53671408, "learning_rate": 7.41e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231027, "epoch": 4.12226542, "global_step/max_steps": "54080/65595", "percentage": "82.45%", "elapsed_time": "2d 17h 1m 23s", "remaining_time": "13h 50m 42s"}
+{"loss": 0.01962614, "token_acc": 0.9916746, "grad_norm": 0.86111546, "learning_rate": 7.41e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231032, "epoch": 4.12264654, "global_step/max_steps": "54085/65595", "percentage": "82.45%", "elapsed_time": "2d 17h 1m 39s", "remaining_time": "13h 50m 19s"}
+{"loss": 0.02835145, "token_acc": 0.99053506, "grad_norm": 0.65747386, "learning_rate": 7.4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231038, "epoch": 4.12302767, "global_step/max_steps": "54090/65595", "percentage": "82.46%", "elapsed_time": "2d 17h 1m 55s", "remaining_time": "13h 49m 56s"}
+{"loss": 0.04477858, "token_acc": 0.98487313, "grad_norm": 1.79679036, "learning_rate": 7.39e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231043, "epoch": 4.1234088, "global_step/max_steps": "54095/65595", "percentage": "82.47%", "elapsed_time": "2d 17h 2m 11s", "remaining_time": "13h 49m 33s"}
+{"loss": 0.05924106, "token_acc": 0.98687275, "grad_norm": 0.45458478, "learning_rate": 7.39e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231049, "epoch": 4.12378992, "global_step/max_steps": "54100/65595", "percentage": "82.48%", "elapsed_time": "2d 17h 2m 26s", "remaining_time": "13h 49m 10s"}
+{"loss": 0.05165312, "token_acc": 0.98640662, "grad_norm": 2.61262298, "learning_rate": 7.38e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231055, "epoch": 4.12417105, "global_step/max_steps": "54105/65595", "percentage": "82.48%", "elapsed_time": "2d 17h 2m 42s", "remaining_time": "13h 48m 47s"}
+{"loss": 0.0358661, "token_acc": 0.98549354, "grad_norm": 1.79790044, "learning_rate": 7.38e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231063, "epoch": 4.12455218, "global_step/max_steps": "54110/65595", "percentage": "82.49%", "elapsed_time": "2d 17h 2m 56s", "remaining_time": "13h 48m 24s"}
+{"loss": 0.01606003, "token_acc": 0.99434901, "grad_norm": 0.50166059, "learning_rate": 7.37e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231068, "epoch": 4.1249333, "global_step/max_steps": "54115/65595", "percentage": "82.50%", "elapsed_time": "2d 17h 3m 12s", "remaining_time": "13h 48m 1s"}
+{"loss": 0.03062771, "token_acc": 0.98600431, "grad_norm": 0.69977969, "learning_rate": 7.36e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231072, "epoch": 4.12531443, "global_step/max_steps": "54120/65595", "percentage": "82.51%", "elapsed_time": "2d 17h 3m 30s", "remaining_time": "13h 47m 39s"}
+{"loss": 0.04019282, "token_acc": 0.98559608, "grad_norm": 1.51525533, "learning_rate": 7.36e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231078, "epoch": 4.12569556, "global_step/max_steps": "54125/65595", "percentage": "82.51%", "elapsed_time": "2d 17h 3m 46s", "remaining_time": "13h 47m 16s"}
+{"loss": 0.02366019, "token_acc": 0.99010486, "grad_norm": 0.4943856, "learning_rate": 7.35e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231082, "epoch": 4.12607668, "global_step/max_steps": "54130/65595", "percentage": "82.52%", "elapsed_time": "2d 17h 4m 3s", "remaining_time": "13h 46m 53s"}
+{"loss": 0.03210736, "token_acc": 0.98748957, "grad_norm": 0.91571778, "learning_rate": 7.34e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231088, "epoch": 4.12645781, "global_step/max_steps": "54135/65595", "percentage": "82.53%", "elapsed_time": "2d 17h 4m 19s", "remaining_time": "13h 46m 31s"}
+{"loss": 0.04277883, "token_acc": 0.97806935, "grad_norm": 0.91512632, "learning_rate": 7.34e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231095, "epoch": 4.12683894, "global_step/max_steps": "54140/65595", "percentage": "82.54%", "elapsed_time": "2d 17h 4m 33s", "remaining_time": "13h 46m 7s"}
+{"loss": 0.02939161, "token_acc": 0.98814707, "grad_norm": 0.61871892, "learning_rate": 7.33e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231098, "epoch": 4.12722006, "global_step/max_steps": "54145/65595", "percentage": "82.54%", "elapsed_time": "2d 17h 4m 52s", "remaining_time": "13h 45m 45s"}
+{"loss": 0.04067699, "token_acc": 0.98113731, "grad_norm": 1.0373522, "learning_rate": 7.33e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231106, "epoch": 4.12760119, "global_step/max_steps": "54150/65595", "percentage": "82.55%", "elapsed_time": "2d 17h 5m 6s", "remaining_time": "13h 45m 22s"}
+{"loss": 0.04695611, "token_acc": 0.9811617, "grad_norm": 1.28324056, "learning_rate": 7.32e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23111, "epoch": 4.12798232, "global_step/max_steps": "54155/65595", "percentage": "82.56%", "elapsed_time": "2d 17h 5m 23s", "remaining_time": "13h 44m 59s"}
+{"loss": 0.04637295, "token_acc": 0.9832913, "grad_norm": 1.89081883, "learning_rate": 7.31e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231117, "epoch": 4.12836344, "global_step/max_steps": "54160/65595", "percentage": "82.57%", "elapsed_time": "2d 17h 5m 38s", "remaining_time": "13h 44m 36s"}
+{"loss": 0.02255253, "token_acc": 0.9904327, "grad_norm": 1.17296052, "learning_rate": 7.31e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231122, "epoch": 4.12874457, "global_step/max_steps": "54165/65595", "percentage": "82.57%", "elapsed_time": "2d 17h 5m 54s", "remaining_time": "13h 44m 13s"}
+{"loss": 0.04955789, "token_acc": 0.98088374, "grad_norm": 1.25029314, "learning_rate": 7.3e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231127, "epoch": 4.1291257, "global_step/max_steps": "54170/65595", "percentage": "82.58%", "elapsed_time": "2d 17h 6m 11s", "remaining_time": "13h 43m 51s"}
+{"loss": 0.02549361, "token_acc": 0.98532028, "grad_norm": 1.14398539, "learning_rate": 7.29e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231132, "epoch": 4.12950682, "global_step/max_steps": "54175/65595", "percentage": "82.59%", "elapsed_time": "2d 17h 6m 27s", "remaining_time": "13h 43m 28s"}
+{"loss": 0.03591393, "token_acc": 0.98338221, "grad_norm": 1.27261233, "learning_rate": 7.29e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231139, "epoch": 4.12988795, "global_step/max_steps": "54180/65595", "percentage": "82.60%", "elapsed_time": "2d 17h 6m 41s", "remaining_time": "13h 43m 5s"}
+{"loss": 0.02476919, "token_acc": 0.99106376, "grad_norm": 0.58669329, "learning_rate": 7.28e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231145, "epoch": 4.13026908, "global_step/max_steps": "54185/65595", "percentage": "82.61%", "elapsed_time": "2d 17h 6m 57s", "remaining_time": "13h 42m 42s"}
+{"loss": 0.02752907, "token_acc": 0.98718525, "grad_norm": 1.28766, "learning_rate": 7.28e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231151, "epoch": 4.1306502, "global_step/max_steps": "54190/65595", "percentage": "82.61%", "elapsed_time": "2d 17h 7m 13s", "remaining_time": "13h 42m 19s"}
+{"loss": 0.02406333, "token_acc": 0.99135447, "grad_norm": 1.30252123, "learning_rate": 7.27e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231157, "epoch": 4.13103133, "global_step/max_steps": "54195/65595", "percentage": "82.62%", "elapsed_time": "2d 17h 7m 28s", "remaining_time": "13h 41m 56s"}
+{"loss": 0.0341479, "token_acc": 0.98844813, "grad_norm": 1.92825198, "learning_rate": 7.26e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231162, "epoch": 4.13141246, "global_step/max_steps": "54200/65595", "percentage": "82.63%", "elapsed_time": "2d 17h 7m 45s", "remaining_time": "13h 41m 33s"}
+{"eval_loss": 0.05176292, "eval_token_acc": 0.97915035, "eval_runtime": 175.9374, "eval_samples_per_second": 3.012, "eval_steps_per_second": 3.012, "epoch": 4.13141246, "global_step/max_steps": "54200/65595", "percentage": "82.63%", "elapsed_time": "2d 17h 10m 41s", "remaining_time": "13h 42m 10s"}
+{"loss": 0.0319655, "token_acc": 0.97943158, "grad_norm": 0.47848907, "learning_rate": 7.26e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230992, "epoch": 4.13179358, "global_step/max_steps": "54205/65595", "percentage": "82.64%", "elapsed_time": "2d 17h 10m 59s", "remaining_time": "13h 41m 48s"}
+{"loss": 0.0216116, "token_acc": 0.99394856, "grad_norm": 1.40105116, "learning_rate": 7.25e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230999, "epoch": 4.13217471, "global_step/max_steps": "54210/65595", "percentage": "82.64%", "elapsed_time": "2d 17h 11m 13s", "remaining_time": "13h 41m 25s"}
+{"loss": 0.02562656, "token_acc": 0.99175639, "grad_norm": 0.54841763, "learning_rate": 7.24e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231004, "epoch": 4.13255584, "global_step/max_steps": "54215/65595", "percentage": "82.65%", "elapsed_time": "2d 17h 11m 30s", "remaining_time": "13h 41m 2s"}
+{"loss": 0.03417009, "token_acc": 0.98391587, "grad_norm": 0.08235244, "learning_rate": 7.24e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231011, "epoch": 4.13293696, "global_step/max_steps": "54220/65595", "percentage": "82.66%", "elapsed_time": "2d 17h 11m 45s", "remaining_time": "13h 40m 39s"}
+{"loss": 0.04423508, "token_acc": 0.9879921, "grad_norm": 1.72961485, "learning_rate": 7.23e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231015, "epoch": 4.13331809, "global_step/max_steps": "54225/65595", "percentage": "82.67%", "elapsed_time": "2d 17h 12m 2s", "remaining_time": "13h 40m 17s"}
+{"loss": 0.02451937, "token_acc": 0.99191771, "grad_norm": 1.01896501, "learning_rate": 7.23e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231021, "epoch": 4.13369921, "global_step/max_steps": "54230/65595", "percentage": "82.67%", "elapsed_time": "2d 17h 12m 18s", "remaining_time": "13h 39m 54s"}
+{"loss": 0.03509757, "token_acc": 0.98627845, "grad_norm": 1.20926058, "learning_rate": 7.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231028, "epoch": 4.13408034, "global_step/max_steps": "54235/65595", "percentage": "82.68%", "elapsed_time": "2d 17h 12m 32s", "remaining_time": "13h 39m 31s"}
+{"loss": 0.03001149, "token_acc": 0.98606811, "grad_norm": 0.94559866, "learning_rate": 7.21e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231033, "epoch": 4.13446147, "global_step/max_steps": "54240/65595", "percentage": "82.69%", "elapsed_time": "2d 17h 12m 49s", "remaining_time": "13h 39m 8s"}
+{"loss": 0.01523271, "token_acc": 0.99378109, "grad_norm": 1.50733256, "learning_rate": 7.21e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231041, "epoch": 4.13484259, "global_step/max_steps": "54245/65595", "percentage": "82.70%", "elapsed_time": "2d 17h 13m 3s", "remaining_time": "13h 38m 45s"}
+{"loss": 0.03927369, "token_acc": 0.98730469, "grad_norm": 1.24521375, "learning_rate": 7.2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231048, "epoch": 4.13522372, "global_step/max_steps": "54250/65595", "percentage": "82.70%", "elapsed_time": "2d 17h 13m 17s", "remaining_time": "13h 38m 21s"}
+{"loss": 0.04099802, "token_acc": 0.9868594, "grad_norm": 1.45174229, "learning_rate": 7.19e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231054, "epoch": 4.13560485, "global_step/max_steps": "54255/65595", "percentage": "82.71%", "elapsed_time": "2d 17h 13m 33s", "remaining_time": "13h 37m 58s"}
+{"loss": 0.02713387, "token_acc": 0.9888262, "grad_norm": 0.75544786, "learning_rate": 7.19e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231054, "epoch": 4.13598597, "global_step/max_steps": "54260/65595", "percentage": "82.72%", "elapsed_time": "2d 17h 13m 54s", "remaining_time": "13h 37m 37s"}
+{"loss": 0.03869349, "token_acc": 0.98415357, "grad_norm": 1.12729812, "learning_rate": 7.18e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231056, "epoch": 4.1363671, "global_step/max_steps": "54265/65595", "percentage": "82.73%", "elapsed_time": "2d 17h 14m 14s", "remaining_time": "13h 37m 15s"}
+{"loss": 0.03303345, "token_acc": 0.98716622, "grad_norm": 1.47378278, "learning_rate": 7.18e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231062, "epoch": 4.13674823, "global_step/max_steps": "54270/65595", "percentage": "82.73%", "elapsed_time": "2d 17h 14m 29s", "remaining_time": "13h 36m 52s"}
+{"loss": 0.0295388, "token_acc": 0.98592159, "grad_norm": 1.3278594, "learning_rate": 7.17e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231069, "epoch": 4.13712935, "global_step/max_steps": "54275/65595", "percentage": "82.74%", "elapsed_time": "2d 17h 14m 44s", "remaining_time": "13h 36m 29s"}
+{"loss": 0.03545851, "token_acc": 0.98666667, "grad_norm": 1.41737151, "learning_rate": 7.16e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231072, "epoch": 4.13751048, "global_step/max_steps": "54280/65595", "percentage": "82.75%", "elapsed_time": "2d 17h 15m 3s", "remaining_time": "13h 36m 6s"}
+{"loss": 0.02106224, "token_acc": 0.99048788, "grad_norm": 0.00086393, "learning_rate": 7.16e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231076, "epoch": 4.13789161, "global_step/max_steps": "54285/65595", "percentage": "82.76%", "elapsed_time": "2d 17h 15m 20s", "remaining_time": "13h 35m 44s"}
+{"loss": 0.03654559, "token_acc": 0.98494243, "grad_norm": 0.74767047, "learning_rate": 7.15e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231082, "epoch": 4.13827273, "global_step/max_steps": "54290/65595", "percentage": "82.77%", "elapsed_time": "2d 17h 15m 35s", "remaining_time": "13h 35m 21s"}
+{"loss": 0.02160762, "token_acc": 0.9888506, "grad_norm": 0.81155097, "learning_rate": 7.15e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231088, "epoch": 4.13865386, "global_step/max_steps": "54295/65595", "percentage": "82.77%", "elapsed_time": "2d 17h 15m 51s", "remaining_time": "13h 34m 58s"}
+{"loss": 0.03131023, "token_acc": 0.98434066, "grad_norm": 1.60728765, "learning_rate": 7.14e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231094, "epoch": 4.13903499, "global_step/max_steps": "54300/65595", "percentage": "82.78%", "elapsed_time": "2d 17h 16m 6s", "remaining_time": "13h 34m 35s"}
+{"loss": 0.02943206, "token_acc": 0.98583173, "grad_norm": 0.79038405, "learning_rate": 7.13e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231098, "epoch": 4.13941611, "global_step/max_steps": "54305/65595", "percentage": "82.79%", "elapsed_time": "2d 17h 16m 24s", "remaining_time": "13h 34m 13s"}
+{"loss": 0.03307514, "token_acc": 0.98543336, "grad_norm": 0.98587209, "learning_rate": 7.13e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231102, "epoch": 4.13979724, "global_step/max_steps": "54310/65595", "percentage": "82.80%", "elapsed_time": "2d 17h 16m 42s", "remaining_time": "13h 33m 50s"}
+{"loss": 0.02516437, "token_acc": 0.98734864, "grad_norm": 0.82082444, "learning_rate": 7.12e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231106, "epoch": 4.14017837, "global_step/max_steps": "54315/65595", "percentage": "82.80%", "elapsed_time": "2d 17h 16m 59s", "remaining_time": "13h 33m 28s"}
+{"loss": 0.02425206, "token_acc": 0.99200328, "grad_norm": 2.30167699, "learning_rate": 7.11e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231112, "epoch": 4.14055949, "global_step/max_steps": "54320/65595", "percentage": "82.81%", "elapsed_time": "2d 17h 17m 15s", "remaining_time": "13h 33m 5s"}
+{"loss": 0.05321881, "token_acc": 0.97677365, "grad_norm": 0.82716817, "learning_rate": 7.11e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231116, "epoch": 4.14094062, "global_step/max_steps": "54325/65595", "percentage": "82.82%", "elapsed_time": "2d 17h 17m 32s", "remaining_time": "13h 32m 42s"}
+{"loss": 0.02521147, "token_acc": 0.98477733, "grad_norm": 1.16231585, "learning_rate": 7.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231122, "epoch": 4.14132175, "global_step/max_steps": "54330/65595", "percentage": "82.83%", "elapsed_time": "2d 17h 17m 48s", "remaining_time": "13h 32m 20s"}
+{"loss": 0.0541729, "token_acc": 0.97935753, "grad_norm": 1.12907493, "learning_rate": 7.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231127, "epoch": 4.14170287, "global_step/max_steps": "54335/65595", "percentage": "82.83%", "elapsed_time": "2d 17h 18m 5s", "remaining_time": "13h 31m 57s"}
+{"loss": 0.02608682, "token_acc": 0.99074074, "grad_norm": 1.42620254, "learning_rate": 7.09e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231133, "epoch": 4.142084, "global_step/max_steps": "54340/65595", "percentage": "82.84%", "elapsed_time": "2d 17h 18m 20s", "remaining_time": "13h 31m 34s"}
+{"loss": 0.03740246, "token_acc": 0.98610409, "grad_norm": 0.75049394, "learning_rate": 7.08e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23114, "epoch": 4.14246513, "global_step/max_steps": "54345/65595", "percentage": "82.85%", "elapsed_time": "2d 17h 18m 34s", "remaining_time": "13h 31m 11s"}
+{"loss": 0.01955515, "token_acc": 0.99469697, "grad_norm": 1.56905317, "learning_rate": 7.08e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231148, "epoch": 4.14284625, "global_step/max_steps": "54350/65595", "percentage": "82.86%", "elapsed_time": "2d 17h 18m 48s", "remaining_time": "13h 30m 48s"}
+{"loss": 0.02771116, "token_acc": 0.98763282, "grad_norm": 1.53979802, "learning_rate": 7.07e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231152, "epoch": 4.14322738, "global_step/max_steps": "54355/65595", "percentage": "82.86%", "elapsed_time": "2d 17h 19m 5s", "remaining_time": "13h 30m 25s"}
+{"loss": 0.02970228, "token_acc": 0.98894547, "grad_norm": 1.07239461, "learning_rate": 7.07e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231155, "epoch": 4.14360851, "global_step/max_steps": "54360/65595", "percentage": "82.87%", "elapsed_time": "2d 17h 19m 24s", "remaining_time": "13h 30m 3s"}
+{"loss": 0.04457588, "token_acc": 0.98187732, "grad_norm": 0.92424893, "learning_rate": 7.06e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231162, "epoch": 4.14398963, "global_step/max_steps": "54365/65595", "percentage": "82.88%", "elapsed_time": "2d 17h 19m 39s", "remaining_time": "13h 29m 40s"}
+{"loss": 0.05888287, "token_acc": 0.97864531, "grad_norm": 1.41626978, "learning_rate": 7.05e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231166, "epoch": 4.14437076, "global_step/max_steps": "54370/65595", "percentage": "82.89%", "elapsed_time": "2d 17h 19m 57s", "remaining_time": "13h 29m 17s"}
+{"loss": 0.02922431, "token_acc": 0.99100082, "grad_norm": 0.95663339, "learning_rate": 7.05e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231171, "epoch": 4.14475189, "global_step/max_steps": "54375/65595", "percentage": "82.90%", "elapsed_time": "2d 17h 20m 13s", "remaining_time": "13h 28m 55s"}
+{"loss": 0.03267978, "token_acc": 0.99080963, "grad_norm": 0.76264459, "learning_rate": 7.04e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231176, "epoch": 4.14513301, "global_step/max_steps": "54380/65595", "percentage": "82.90%", "elapsed_time": "2d 17h 20m 29s", "remaining_time": "13h 28m 32s"}
+{"loss": 0.01308958, "token_acc": 0.99360205, "grad_norm": 1.14168561, "learning_rate": 7.03e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231185, "epoch": 4.14551414, "global_step/max_steps": "54385/65595", "percentage": "82.91%", "elapsed_time": "2d 17h 20m 42s", "remaining_time": "13h 28m 8s"}
+{"loss": 0.03626089, "token_acc": 0.98370843, "grad_norm": 0.83290863, "learning_rate": 7.03e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231189, "epoch": 4.14589527, "global_step/max_steps": "54390/65595", "percentage": "82.92%", "elapsed_time": "2d 17h 20m 59s", "remaining_time": "13h 27m 46s"}
+{"loss": 0.03108088, "token_acc": 0.98861303, "grad_norm": 1.40327179, "learning_rate": 7.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231193, "epoch": 4.14627639, "global_step/max_steps": "54395/65595", "percentage": "82.93%", "elapsed_time": "2d 17h 21m 17s", "remaining_time": "13h 27m 23s"}
+{"loss": 0.03784159, "token_acc": 0.98276914, "grad_norm": 1.07990599, "learning_rate": 7.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231198, "epoch": 4.14665752, "global_step/max_steps": "54400/65595", "percentage": "82.93%", "elapsed_time": "2d 17h 21m 33s", "remaining_time": "13h 27m 1s"}
+{"eval_loss": 0.05173662, "eval_token_acc": 0.97906753, "eval_runtime": 175.3335, "eval_samples_per_second": 3.023, "eval_steps_per_second": 3.023, "epoch": 4.14665752, "global_step/max_steps": "54400/65595", "percentage": "82.93%", "elapsed_time": "2d 17h 24m 28s", "remaining_time": "13h 27m 37s"}
+{"loss": 0.01624797, "token_acc": 0.97930693, "grad_norm": 0.9243778, "learning_rate": 7.01e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231035, "epoch": 4.14703865, "global_step/max_steps": "54405/65595", "percentage": "82.94%", "elapsed_time": "2d 17h 24m 41s", "remaining_time": "13h 27m 13s"}
+{"loss": 0.03287811, "token_acc": 0.98498498, "grad_norm": 0.68368161, "learning_rate": 7e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231042, "epoch": 4.14741977, "global_step/max_steps": "54410/65595", "percentage": "82.95%", "elapsed_time": "2d 17h 24m 55s", "remaining_time": "13h 26m 50s"}
+{"loss": 0.03759737, "token_acc": 0.98423006, "grad_norm": 1.48272228, "learning_rate": 7e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231049, "epoch": 4.1478009, "global_step/max_steps": "54415/65595", "percentage": "82.96%", "elapsed_time": "2d 17h 25m 10s", "remaining_time": "13h 26m 27s"}
+{"loss": 0.03176993, "token_acc": 0.98942128, "grad_norm": 0.63782829, "learning_rate": 6.99e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231056, "epoch": 4.14818203, "global_step/max_steps": "54420/65595", "percentage": "82.96%", "elapsed_time": "2d 17h 25m 25s", "remaining_time": "13h 26m 4s"}
+{"loss": 0.03512976, "token_acc": 0.98763651, "grad_norm": 1.67489922, "learning_rate": 6.99e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231061, "epoch": 4.14856315, "global_step/max_steps": "54425/65595", "percentage": "82.97%", "elapsed_time": "2d 17h 25m 41s", "remaining_time": "13h 25m 41s"}
+{"loss": 0.03512915, "token_acc": 0.98262003, "grad_norm": 1.3375653, "learning_rate": 6.98e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231067, "epoch": 4.14894428, "global_step/max_steps": "54430/65595", "percentage": "82.98%", "elapsed_time": "2d 17h 25m 56s", "remaining_time": "13h 25m 18s"}
+{"loss": 0.02770018, "token_acc": 0.98814112, "grad_norm": 1.32319522, "learning_rate": 6.97e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231073, "epoch": 4.14932541, "global_step/max_steps": "54435/65595", "percentage": "82.99%", "elapsed_time": "2d 17h 26m 13s", "remaining_time": "13h 24m 56s"}
+{"loss": 0.02097858, "token_acc": 0.99328859, "grad_norm": 0.66444951, "learning_rate": 6.97e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23108, "epoch": 4.14970653, "global_step/max_steps": "54440/65595", "percentage": "82.99%", "elapsed_time": "2d 17h 26m 26s", "remaining_time": "13h 24m 32s"}
+{"loss": 0.05959936, "token_acc": 0.97964756, "grad_norm": 0.91466695, "learning_rate": 6.96e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231087, "epoch": 4.15008766, "global_step/max_steps": "54445/65595", "percentage": "83.00%", "elapsed_time": "2d 17h 26m 41s", "remaining_time": "13h 24m 9s"}
+{"loss": 0.03274226, "token_acc": 0.98566023, "grad_norm": 0.91556835, "learning_rate": 6.96e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231092, "epoch": 4.15046879, "global_step/max_steps": "54450/65595", "percentage": "83.01%", "elapsed_time": "2d 17h 26m 58s", "remaining_time": "13h 23m 47s"}
+{"loss": 0.02889659, "token_acc": 0.9909701, "grad_norm": 1.10595918, "learning_rate": 6.95e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231095, "epoch": 4.15084991, "global_step/max_steps": "54455/65595", "percentage": "83.02%", "elapsed_time": "2d 17h 27m 16s", "remaining_time": "13h 23m 24s"}
+{"loss": 0.02106777, "token_acc": 0.98879218, "grad_norm": 0.69459623, "learning_rate": 6.94e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231097, "epoch": 4.15123104, "global_step/max_steps": "54460/65595", "percentage": "83.02%", "elapsed_time": "2d 17h 27m 36s", "remaining_time": "13h 23m 2s"}
+{"loss": 0.03097976, "token_acc": 0.98773382, "grad_norm": 1.16627669, "learning_rate": 6.94e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231101, "epoch": 4.15161217, "global_step/max_steps": "54465/65595", "percentage": "83.03%", "elapsed_time": "2d 17h 27m 54s", "remaining_time": "13h 22m 40s"}
+{"loss": 0.0351335, "token_acc": 0.99007142, "grad_norm": 2.59840989, "learning_rate": 6.93e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231105, "epoch": 4.15199329, "global_step/max_steps": "54470/65595", "percentage": "83.04%", "elapsed_time": "2d 17h 28m 11s", "remaining_time": "13h 22m 17s"}
+{"loss": 0.03585832, "token_acc": 0.98477419, "grad_norm": 0.94182384, "learning_rate": 6.92e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23111, "epoch": 4.15237442, "global_step/max_steps": "54475/65595", "percentage": "83.05%", "elapsed_time": "2d 17h 28m 27s", "remaining_time": "13h 21m 55s"}
+{"loss": 0.04519959, "token_acc": 0.98813869, "grad_norm": 3.40559959, "learning_rate": 6.92e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231116, "epoch": 4.15275555, "global_step/max_steps": "54480/65595", "percentage": "83.06%", "elapsed_time": "2d 17h 28m 43s", "remaining_time": "13h 21m 32s"}
+{"loss": 0.03291305, "token_acc": 0.98895659, "grad_norm": 0.96273178, "learning_rate": 6.91e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231124, "epoch": 4.15313667, "global_step/max_steps": "54485/65595", "percentage": "83.06%", "elapsed_time": "2d 17h 28m 57s", "remaining_time": "13h 21m 9s"}
+{"loss": 0.02143979, "token_acc": 0.99180626, "grad_norm": 0.85045666, "learning_rate": 6.91e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231127, "epoch": 4.1535178, "global_step/max_steps": "54490/65595", "percentage": "83.07%", "elapsed_time": "2d 17h 29m 15s", "remaining_time": "13h 20m 46s"}
+{"loss": 0.02736446, "token_acc": 0.98722628, "grad_norm": 1.23049343, "learning_rate": 6.9e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231136, "epoch": 4.15389893, "global_step/max_steps": "54495/65595", "percentage": "83.08%", "elapsed_time": "2d 17h 29m 28s", "remaining_time": "13h 20m 23s"}
+{"loss": 0.02777249, "token_acc": 0.9895909, "grad_norm": 0.74064428, "learning_rate": 6.89e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231142, "epoch": 4.15428005, "global_step/max_steps": "54500/65595", "percentage": "83.09%", "elapsed_time": "2d 17h 29m 43s", "remaining_time": "13h 20m 0s"}
+{"loss": 0.03033764, "token_acc": 0.99100871, "grad_norm": 0.44648567, "learning_rate": 6.89e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231146, "epoch": 4.15466118, "global_step/max_steps": "54505/65595", "percentage": "83.09%", "elapsed_time": "2d 17h 30m 0s", "remaining_time": "13h 19m 37s"}
+{"loss": 0.03171316, "token_acc": 0.98395256, "grad_norm": 1.10685587, "learning_rate": 6.88e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231151, "epoch": 4.15504231, "global_step/max_steps": "54510/65595", "percentage": "83.10%", "elapsed_time": "2d 17h 30m 17s", "remaining_time": "13h 19m 15s"}
+{"loss": 0.0354744, "token_acc": 0.98996376, "grad_norm": 0.94807959, "learning_rate": 6.88e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231157, "epoch": 4.15542343, "global_step/max_steps": "54515/65595", "percentage": "83.11%", "elapsed_time": "2d 17h 30m 33s", "remaining_time": "13h 18m 52s"}
+{"loss": 0.03855787, "token_acc": 0.9847274, "grad_norm": 1.11034155, "learning_rate": 6.87e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23116, "epoch": 4.15580456, "global_step/max_steps": "54520/65595", "percentage": "83.12%", "elapsed_time": "2d 17h 30m 51s", "remaining_time": "13h 18m 30s"}
+{"loss": 0.03657329, "token_acc": 0.99083558, "grad_norm": 2.31695938, "learning_rate": 6.86e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231167, "epoch": 4.15618568, "global_step/max_steps": "54525/65595", "percentage": "83.12%", "elapsed_time": "2d 17h 31m 6s", "remaining_time": "13h 18m 6s"}
+{"loss": 0.0398394, "token_acc": 0.98298355, "grad_norm": 1.26771069, "learning_rate": 6.86e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231171, "epoch": 4.15656681, "global_step/max_steps": "54530/65595", "percentage": "83.13%", "elapsed_time": "2d 17h 31m 23s", "remaining_time": "13h 17m 44s"}
+{"loss": 0.02862729, "token_acc": 0.98225692, "grad_norm": 1.33698022, "learning_rate": 6.85e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231178, "epoch": 4.15694794, "global_step/max_steps": "54535/65595", "percentage": "83.14%", "elapsed_time": "2d 17h 31m 38s", "remaining_time": "13h 17m 21s"}
+{"loss": 0.02927019, "token_acc": 0.98677902, "grad_norm": 2.03612447, "learning_rate": 6.85e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231183, "epoch": 4.15732906, "global_step/max_steps": "54540/65595", "percentage": "83.15%", "elapsed_time": "2d 17h 31m 55s", "remaining_time": "13h 16m 58s"}
+{"loss": 0.03670769, "token_acc": 0.98264407, "grad_norm": 0.16237961, "learning_rate": 6.84e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231186, "epoch": 4.15771019, "global_step/max_steps": "54545/65595", "percentage": "83.15%", "elapsed_time": "2d 17h 32m 13s", "remaining_time": "13h 16m 36s"}
+{"loss": 0.03798233, "token_acc": 0.98342782, "grad_norm": 0.86957461, "learning_rate": 6.83e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231188, "epoch": 4.15809132, "global_step/max_steps": "54550/65595", "percentage": "83.16%", "elapsed_time": "2d 17h 32m 32s", "remaining_time": "13h 16m 14s"}
+{"loss": 0.04469783, "token_acc": 0.98504704, "grad_norm": 0.67077279, "learning_rate": 6.83e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231193, "epoch": 4.15847244, "global_step/max_steps": "54555/65595", "percentage": "83.17%", "elapsed_time": "2d 17h 32m 49s", "remaining_time": "13h 15m 51s"}
+{"loss": 0.04296366, "token_acc": 0.98165259, "grad_norm": 1.06923187, "learning_rate": 6.82e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231198, "epoch": 4.15885357, "global_step/max_steps": "54560/65595", "percentage": "83.18%", "elapsed_time": "2d 17h 33m 6s", "remaining_time": "13h 15m 29s"}
+{"loss": 0.04258652, "token_acc": 0.9891679, "grad_norm": 0.75804698, "learning_rate": 6.82e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231203, "epoch": 4.1592347, "global_step/max_steps": "54565/65595", "percentage": "83.18%", "elapsed_time": "2d 17h 33m 22s", "remaining_time": "13h 15m 6s"}
+{"loss": 0.06607655, "token_acc": 0.97290238, "grad_norm": 2.61611676, "learning_rate": 6.81e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231209, "epoch": 4.15961582, "global_step/max_steps": "54570/65595", "percentage": "83.19%", "elapsed_time": "2d 17h 33m 37s", "remaining_time": "13h 14m 43s"}
+{"loss": 0.02296465, "token_acc": 0.98875407, "grad_norm": 1.54887831, "learning_rate": 6.8e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231215, "epoch": 4.15999695, "global_step/max_steps": "54575/65595", "percentage": "83.20%", "elapsed_time": "2d 17h 33m 53s", "remaining_time": "13h 14m 20s"}
+{"loss": 0.01964804, "token_acc": 0.98870732, "grad_norm": 0.58540225, "learning_rate": 6.8e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231217, "epoch": 4.16037808, "global_step/max_steps": "54580/65595", "percentage": "83.21%", "elapsed_time": "2d 17h 34m 13s", "remaining_time": "13h 13m 58s"}
+{"loss": 0.02271225, "token_acc": 0.99080601, "grad_norm": 0.50632787, "learning_rate": 6.79e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231223, "epoch": 4.1607592, "global_step/max_steps": "54585/65595", "percentage": "83.22%", "elapsed_time": "2d 17h 34m 28s", "remaining_time": "13h 13m 35s"}
+{"loss": 0.04529256, "token_acc": 0.98142229, "grad_norm": 2.84249926, "learning_rate": 6.79e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231229, "epoch": 4.16114033, "global_step/max_steps": "54590/65595", "percentage": "83.22%", "elapsed_time": "2d 17h 34m 44s", "remaining_time": "13h 13m 13s"}
+{"loss": 0.03026382, "token_acc": 0.9881376, "grad_norm": 1.35941827, "learning_rate": 6.78e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231232, "epoch": 4.16152146, "global_step/max_steps": "54595/65595", "percentage": "83.23%", "elapsed_time": "2d 17h 35m 2s", "remaining_time": "13h 12m 50s"}
+{"loss": 0.05959953, "token_acc": 0.98659626, "grad_norm": 0.71241224, "learning_rate": 6.77e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231234, "epoch": 4.16190258, "global_step/max_steps": "54600/65595", "percentage": "83.24%", "elapsed_time": "2d 17h 35m 21s", "remaining_time": "13h 12m 28s"}
+{"eval_loss": 0.05174764, "eval_token_acc": 0.97893199, "eval_runtime": 193.2245, "eval_samples_per_second": 2.743, "eval_steps_per_second": 2.743, "epoch": 4.16190258, "global_step/max_steps": "54600/65595", "percentage": "83.24%", "elapsed_time": "2d 17h 38m 35s", "remaining_time": "13h 13m 7s"}
+{"loss": 0.02754353, "token_acc": 0.97931372, "grad_norm": 2.07893777, "learning_rate": 6.77e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231052, "epoch": 4.16228371, "global_step/max_steps": "54605/65595", "percentage": "83.25%", "elapsed_time": "2d 17h 38m 50s", "remaining_time": "13h 12m 44s"}
+{"loss": 0.02650273, "token_acc": 0.98757764, "grad_norm": 1.22248328, "learning_rate": 6.76e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231059, "epoch": 4.16266484, "global_step/max_steps": "54610/65595", "percentage": "83.25%", "elapsed_time": "2d 17h 39m 4s", "remaining_time": "13h 12m 21s"}
+{"loss": 0.03591226, "token_acc": 0.98601748, "grad_norm": 1.1668222, "learning_rate": 6.76e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231063, "epoch": 4.16304596, "global_step/max_steps": "54615/65595", "percentage": "83.26%", "elapsed_time": "2d 17h 39m 21s", "remaining_time": "13h 11m 58s"}
+{"loss": 0.0344245, "token_acc": 0.98556784, "grad_norm": 1.02425599, "learning_rate": 6.75e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231066, "epoch": 4.16342709, "global_step/max_steps": "54620/65595", "percentage": "83.27%", "elapsed_time": "2d 17h 39m 40s", "remaining_time": "13h 11m 36s"}
+{"loss": 0.04616264, "token_acc": 0.9858375, "grad_norm": 2.18997359, "learning_rate": 6.74e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231066, "epoch": 4.16380822, "global_step/max_steps": "54625/65595", "percentage": "83.28%", "elapsed_time": "2d 17h 40m 2s", "remaining_time": "13h 11m 15s"}
+{"loss": 0.05390471, "token_acc": 0.98369272, "grad_norm": 5.03167582, "learning_rate": 6.74e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231069, "epoch": 4.16418934, "global_step/max_steps": "54630/65595", "percentage": "83.28%", "elapsed_time": "2d 17h 40m 20s", "remaining_time": "13h 10m 52s"}
+{"loss": 0.03001104, "token_acc": 0.98880276, "grad_norm": 0.96665394, "learning_rate": 6.73e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231075, "epoch": 4.16457047, "global_step/max_steps": "54635/65595", "percentage": "83.29%", "elapsed_time": "2d 17h 40m 35s", "remaining_time": "13h 10m 29s"}
+{"loss": 0.03596632, "token_acc": 0.9860042, "grad_norm": 0.99337447, "learning_rate": 6.73e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231079, "epoch": 4.1649516, "global_step/max_steps": "54640/65595", "percentage": "83.30%", "elapsed_time": "2d 17h 40m 53s", "remaining_time": "13h 10m 7s"}
+{"loss": 0.03507736, "token_acc": 0.98622382, "grad_norm": 0.87845415, "learning_rate": 6.72e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231084, "epoch": 4.16533272, "global_step/max_steps": "54645/65595", "percentage": "83.31%", "elapsed_time": "2d 17h 41m 9s", "remaining_time": "13h 9m 44s"}
+{"loss": 0.03389012, "token_acc": 0.98745226, "grad_norm": 0.58789808, "learning_rate": 6.71e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23109, "epoch": 4.16571385, "global_step/max_steps": "54650/65595", "percentage": "83.31%", "elapsed_time": "2d 17h 41m 26s", "remaining_time": "13h 9m 22s"}
+{"loss": 0.02963931, "token_acc": 0.991133, "grad_norm": 1.05434811, "learning_rate": 6.71e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231098, "epoch": 4.16609498, "global_step/max_steps": "54655/65595", "percentage": "83.32%", "elapsed_time": "2d 17h 41m 39s", "remaining_time": "13h 8m 58s"}
+{"loss": 0.02095382, "token_acc": 0.98971722, "grad_norm": 0.62649363, "learning_rate": 6.7e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231104, "epoch": 4.1664761, "global_step/max_steps": "54660/65595", "percentage": "83.33%", "elapsed_time": "2d 17h 41m 54s", "remaining_time": "13h 8m 35s"}
+{"loss": 0.03333168, "token_acc": 0.98673459, "grad_norm": 1.21875274, "learning_rate": 6.7e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231106, "epoch": 4.16685723, "global_step/max_steps": "54665/65595", "percentage": "83.34%", "elapsed_time": "2d 17h 42m 13s", "remaining_time": "13h 8m 13s"}
+{"loss": 0.03146744, "token_acc": 0.98752834, "grad_norm": 0.83964759, "learning_rate": 6.69e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231111, "epoch": 4.16723836, "global_step/max_steps": "54670/65595", "percentage": "83.34%", "elapsed_time": "2d 17h 42m 30s", "remaining_time": "13h 7m 51s"}
+{"loss": 0.0423813, "token_acc": 0.98342196, "grad_norm": 2.0530889, "learning_rate": 6.68e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231117, "epoch": 4.16761948, "global_step/max_steps": "54675/65595", "percentage": "83.35%", "elapsed_time": "2d 17h 42m 46s", "remaining_time": "13h 7m 28s"}
+{"loss": 0.02042748, "token_acc": 0.98970336, "grad_norm": 1.0360719, "learning_rate": 6.68e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231123, "epoch": 4.16800061, "global_step/max_steps": "54680/65595", "percentage": "83.36%", "elapsed_time": "2d 17h 43m 1s", "remaining_time": "13h 7m 5s"}
+{"loss": 0.04196591, "token_acc": 0.99039511, "grad_norm": 1.88943088, "learning_rate": 6.67e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231129, "epoch": 4.16838174, "global_step/max_steps": "54685/65595", "percentage": "83.37%", "elapsed_time": "2d 17h 43m 17s", "remaining_time": "13h 6m 42s"}
+{"loss": 0.0310726, "token_acc": 0.98827955, "grad_norm": 1.10525262, "learning_rate": 6.67e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231132, "epoch": 4.16876286, "global_step/max_steps": "54690/65595", "percentage": "83.38%", "elapsed_time": "2d 17h 43m 35s", "remaining_time": "13h 6m 20s"}
+{"loss": 0.01746543, "token_acc": 0.99326332, "grad_norm": 1.05643141, "learning_rate": 6.66e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231136, "epoch": 4.16914399, "global_step/max_steps": "54695/65595", "percentage": "83.38%", "elapsed_time": "2d 17h 43m 53s", "remaining_time": "13h 5m 57s"}
+{"loss": 0.03440285, "token_acc": 0.9845979, "grad_norm": 0.47773564, "learning_rate": 6.65e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231139, "epoch": 4.16952512, "global_step/max_steps": "54700/65595", "percentage": "83.39%", "elapsed_time": "2d 17h 44m 12s", "remaining_time": "13h 5m 35s"}
+{"loss": 0.02724473, "token_acc": 0.99055429, "grad_norm": 0.5369814, "learning_rate": 6.65e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231139, "epoch": 4.16990624, "global_step/max_steps": "54705/65595", "percentage": "83.40%", "elapsed_time": "2d 17h 44m 33s", "remaining_time": "13h 5m 14s"}
+{"loss": 0.02491768, "token_acc": 0.98755433, "grad_norm": 0.85098475, "learning_rate": 6.64e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231145, "epoch": 4.17028737, "global_step/max_steps": "54710/65595", "percentage": "83.41%", "elapsed_time": "2d 17h 44m 49s", "remaining_time": "13h 4m 51s"}
+{"loss": 0.03420963, "token_acc": 0.98786181, "grad_norm": 0.56571251, "learning_rate": 6.64e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231151, "epoch": 4.1706685, "global_step/max_steps": "54715/65595", "percentage": "83.41%", "elapsed_time": "2d 17h 45m 4s", "remaining_time": "13h 4m 28s"}
+{"loss": 0.02645555, "token_acc": 0.98392911, "grad_norm": 1.21884072, "learning_rate": 6.63e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231155, "epoch": 4.17104962, "global_step/max_steps": "54720/65595", "percentage": "83.42%", "elapsed_time": "2d 17h 45m 21s", "remaining_time": "13h 4m 5s"}
+{"loss": 0.03323265, "token_acc": 0.98532409, "grad_norm": 1.54618466, "learning_rate": 6.62e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23116, "epoch": 4.17143075, "global_step/max_steps": "54725/65595", "percentage": "83.43%", "elapsed_time": "2d 17h 45m 38s", "remaining_time": "13h 3m 43s"}
+{"loss": 0.04893189, "token_acc": 0.98214286, "grad_norm": 1.13316441, "learning_rate": 6.62e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231165, "epoch": 4.17181188, "global_step/max_steps": "54730/65595", "percentage": "83.44%", "elapsed_time": "2d 17h 45m 54s", "remaining_time": "13h 3m 20s"}
+{"loss": 0.03853365, "token_acc": 0.98329448, "grad_norm": 3.1977706, "learning_rate": 6.61e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231173, "epoch": 4.172193, "global_step/max_steps": "54735/65595", "percentage": "83.44%", "elapsed_time": "2d 17h 46m 8s", "remaining_time": "13h 2m 57s"}
+{"loss": 0.04893515, "token_acc": 0.98476881, "grad_norm": 1.00848186, "learning_rate": 6.61e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231178, "epoch": 4.17257413, "global_step/max_steps": "54740/65595", "percentage": "83.45%", "elapsed_time": "2d 17h 46m 24s", "remaining_time": "13h 2m 34s"}
+{"loss": 0.02520403, "token_acc": 0.98924975, "grad_norm": 0.54328609, "learning_rate": 6.6e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231182, "epoch": 4.17295526, "global_step/max_steps": "54745/65595", "percentage": "83.46%", "elapsed_time": "2d 17h 46m 42s", "remaining_time": "13h 2m 12s"}
+{"loss": 0.02753124, "token_acc": 0.99156552, "grad_norm": 0.9724192, "learning_rate": 6.59e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231188, "epoch": 4.17333638, "global_step/max_steps": "54750/65595", "percentage": "83.47%", "elapsed_time": "2d 17h 46m 58s", "remaining_time": "13h 1m 49s"}
+{"loss": 0.03821152, "token_acc": 0.98487067, "grad_norm": 1.2906369, "learning_rate": 6.59e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231195, "epoch": 4.17371751, "global_step/max_steps": "54755/65595", "percentage": "83.47%", "elapsed_time": "2d 17h 47m 12s", "remaining_time": "13h 1m 26s"}
+{"loss": 0.03382005, "token_acc": 0.98322851, "grad_norm": 3.30977035, "learning_rate": 6.58e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2312, "epoch": 4.17409864, "global_step/max_steps": "54760/65595", "percentage": "83.48%", "elapsed_time": "2d 17h 47m 28s", "remaining_time": "13h 1m 3s"}
+{"loss": 0.02366661, "token_acc": 0.99035608, "grad_norm": 1.27623284, "learning_rate": 6.58e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231209, "epoch": 4.17447976, "global_step/max_steps": "54765/65595", "percentage": "83.49%", "elapsed_time": "2d 17h 47m 41s", "remaining_time": "13h 0m 40s"}
+{"loss": 0.03071948, "token_acc": 0.99139845, "grad_norm": 0.81073511, "learning_rate": 6.57e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231216, "epoch": 4.17486089, "global_step/max_steps": "54770/65595", "percentage": "83.50%", "elapsed_time": "2d 17h 47m 56s", "remaining_time": "13h 0m 17s"}
+{"loss": 0.03946546, "token_acc": 0.98352457, "grad_norm": 1.55671251, "learning_rate": 6.56e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231222, "epoch": 4.17524202, "global_step/max_steps": "54775/65595", "percentage": "83.50%", "elapsed_time": "2d 17h 48m 11s", "remaining_time": "12h 59m 54s"}
+{"loss": 0.03326958, "token_acc": 0.98673545, "grad_norm": 1.22828889, "learning_rate": 6.56e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231228, "epoch": 4.17562314, "global_step/max_steps": "54780/65595", "percentage": "83.51%", "elapsed_time": "2d 17h 48m 26s", "remaining_time": "12h 59m 31s"}
+{"loss": 0.0215671, "token_acc": 0.99058254, "grad_norm": 0.64444005, "learning_rate": 6.55e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231232, "epoch": 4.17600427, "global_step/max_steps": "54785/65595", "percentage": "83.52%", "elapsed_time": "2d 17h 48m 44s", "remaining_time": "12h 59m 9s"}
+{"loss": 0.02855569, "token_acc": 0.98487047, "grad_norm": 0.05642682, "learning_rate": 6.55e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231236, "epoch": 4.1763854, "global_step/max_steps": "54790/65595", "percentage": "83.53%", "elapsed_time": "2d 17h 49m 1s", "remaining_time": "12h 58m 46s"}
+{"loss": 0.02773266, "token_acc": 0.98643527, "grad_norm": 0.84738886, "learning_rate": 6.54e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231242, "epoch": 4.17676652, "global_step/max_steps": "54795/65595", "percentage": "83.54%", "elapsed_time": "2d 17h 49m 17s", "remaining_time": "12h 58m 23s"}
+{"loss": 0.03587037, "token_acc": 0.98549578, "grad_norm": 0.77046394, "learning_rate": 6.54e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231245, "epoch": 4.17714765, "global_step/max_steps": "54800/65595", "percentage": "83.54%", "elapsed_time": "2d 17h 49m 36s", "remaining_time": "12h 58m 1s"}
+{"eval_loss": 0.05118991, "eval_token_acc": 0.97906, "eval_runtime": 190.3811, "eval_samples_per_second": 2.784, "eval_steps_per_second": 2.784, "epoch": 4.17714765, "global_step/max_steps": "54800/65595", "percentage": "83.54%", "elapsed_time": "2d 17h 52m 46s", "remaining_time": "12h 58m 39s"}
+{"loss": 0.02917246, "token_acc": 0.97940946, "grad_norm": 2.58663988, "learning_rate": 6.53e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231065, "epoch": 4.17752878, "global_step/max_steps": "54805/65595", "percentage": "83.55%", "elapsed_time": "2d 17h 53m 1s", "remaining_time": "12h 58m 16s"}
+{"loss": 0.0363989, "token_acc": 0.98246779, "grad_norm": 0.95412642, "learning_rate": 6.52e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231068, "epoch": 4.1779099, "global_step/max_steps": "54810/65595", "percentage": "83.56%", "elapsed_time": "2d 17h 53m 20s", "remaining_time": "12h 57m 54s"}
+{"loss": 0.04193832, "token_acc": 0.98365527, "grad_norm": 1.95638549, "learning_rate": 6.52e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231074, "epoch": 4.17829103, "global_step/max_steps": "54815/65595", "percentage": "83.57%", "elapsed_time": "2d 17h 53m 35s", "remaining_time": "12h 57m 31s"}
+{"loss": 0.03506042, "token_acc": 0.9895203, "grad_norm": 1.45810866, "learning_rate": 6.51e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231076, "epoch": 4.17867215, "global_step/max_steps": "54820/65595", "percentage": "83.57%", "elapsed_time": "2d 17h 53m 55s", "remaining_time": "12h 57m 9s"}
+{"loss": 0.0458139, "token_acc": 0.9840418, "grad_norm": 0.75208694, "learning_rate": 6.51e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231078, "epoch": 4.17905328, "global_step/max_steps": "54825/65595", "percentage": "83.58%", "elapsed_time": "2d 17h 54m 15s", "remaining_time": "12h 56m 47s"}
+{"loss": 0.02509251, "token_acc": 0.99003634, "grad_norm": 0.9215095, "learning_rate": 6.5e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23108, "epoch": 4.17943441, "global_step/max_steps": "54830/65595", "percentage": "83.59%", "elapsed_time": "2d 17h 54m 34s", "remaining_time": "12h 56m 25s"}
+{"loss": 0.03135313, "token_acc": 0.98335214, "grad_norm": 0.2300954, "learning_rate": 6.49e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231087, "epoch": 4.17981553, "global_step/max_steps": "54835/65595", "percentage": "83.60%", "elapsed_time": "2d 17h 54m 49s", "remaining_time": "12h 56m 2s"}
+{"loss": 0.03604709, "token_acc": 0.98649017, "grad_norm": 2.34318233, "learning_rate": 6.49e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23109, "epoch": 4.18019666, "global_step/max_steps": "54840/65595", "percentage": "83.60%", "elapsed_time": "2d 17h 55m 7s", "remaining_time": "12h 55m 39s"}
+{"loss": 0.03736786, "token_acc": 0.98850035, "grad_norm": 0.7468943, "learning_rate": 6.48e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231095, "epoch": 4.18057779, "global_step/max_steps": "54845/65595", "percentage": "83.61%", "elapsed_time": "2d 17h 55m 24s", "remaining_time": "12h 55m 17s"}
+{"loss": 0.03636123, "token_acc": 0.98578702, "grad_norm": 1.84008574, "learning_rate": 6.48e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231099, "epoch": 4.18095891, "global_step/max_steps": "54850/65595", "percentage": "83.62%", "elapsed_time": "2d 17h 55m 41s", "remaining_time": "12h 54m 54s"}
+{"loss": 0.0480076, "token_acc": 0.98380046, "grad_norm": 2.14905643, "learning_rate": 6.47e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231104, "epoch": 4.18134004, "global_step/max_steps": "54855/65595", "percentage": "83.63%", "elapsed_time": "2d 17h 55m 57s", "remaining_time": "12h 54m 32s"}
+{"loss": 0.03187274, "token_acc": 0.98331789, "grad_norm": 1.15906024, "learning_rate": 6.46e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231112, "epoch": 4.18172117, "global_step/max_steps": "54860/65595", "percentage": "83.63%", "elapsed_time": "2d 17h 56m 12s", "remaining_time": "12h 54m 8s"}
+{"loss": 0.02398198, "token_acc": 0.99040524, "grad_norm": 0.93478417, "learning_rate": 6.46e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231113, "epoch": 4.18210229, "global_step/max_steps": "54865/65595", "percentage": "83.64%", "elapsed_time": "2d 17h 56m 32s", "remaining_time": "12h 53m 47s"}
+{"loss": 0.01889955, "token_acc": 0.99165029, "grad_norm": 0.74101448, "learning_rate": 6.45e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231121, "epoch": 4.18248342, "global_step/max_steps": "54870/65595", "percentage": "83.65%", "elapsed_time": "2d 17h 56m 45s", "remaining_time": "12h 53m 23s"}
+{"loss": 0.02388361, "token_acc": 0.98991271, "grad_norm": 0.5737893, "learning_rate": 6.45e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231126, "epoch": 4.18286455, "global_step/max_steps": "54875/65595", "percentage": "83.66%", "elapsed_time": "2d 17h 57m 2s", "remaining_time": "12h 53m 1s"}
+{"loss": 0.03671302, "token_acc": 0.98900965, "grad_norm": 0.90725815, "learning_rate": 6.44e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231127, "epoch": 4.18324567, "global_step/max_steps": "54880/65595", "percentage": "83.66%", "elapsed_time": "2d 17h 57m 23s", "remaining_time": "12h 52m 39s"}
+{"loss": 0.03445244, "token_acc": 0.98915112, "grad_norm": 1.67711008, "learning_rate": 6.43e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231131, "epoch": 4.1836268, "global_step/max_steps": "54885/65595", "percentage": "83.67%", "elapsed_time": "2d 17h 57m 40s", "remaining_time": "12h 52m 16s"}
+{"loss": 0.01819143, "token_acc": 0.99285879, "grad_norm": 0.92160171, "learning_rate": 6.43e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231136, "epoch": 4.18400793, "global_step/max_steps": "54890/65595", "percentage": "83.68%", "elapsed_time": "2d 17h 57m 56s", "remaining_time": "12h 51m 54s"}
+{"loss": 0.02394409, "token_acc": 0.99214876, "grad_norm": 0.02054189, "learning_rate": 6.42e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231144, "epoch": 4.18438905, "global_step/max_steps": "54895/65595", "percentage": "83.69%", "elapsed_time": "2d 17h 58m 10s", "remaining_time": "12h 51m 30s"}
+{"loss": 0.03430235, "token_acc": 0.98841481, "grad_norm": 3.06704926, "learning_rate": 6.42e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231151, "epoch": 4.18477018, "global_step/max_steps": "54900/65595", "percentage": "83.70%", "elapsed_time": "2d 17h 58m 25s", "remaining_time": "12h 51m 8s"}
+{"loss": 0.02442141, "token_acc": 0.98808623, "grad_norm": 0.80457771, "learning_rate": 6.41e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231157, "epoch": 4.18515131, "global_step/max_steps": "54905/65595", "percentage": "83.70%", "elapsed_time": "2d 17h 58m 40s", "remaining_time": "12h 50m 45s"}
+{"loss": 0.02207567, "token_acc": 0.99016902, "grad_norm": 0.63123745, "learning_rate": 6.41e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23116, "epoch": 4.18553243, "global_step/max_steps": "54910/65595", "percentage": "83.71%", "elapsed_time": "2d 17h 58m 58s", "remaining_time": "12h 50m 22s"}
+{"loss": 0.03671598, "token_acc": 0.98092869, "grad_norm": 1.71582222, "learning_rate": 6.4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231168, "epoch": 4.18591356, "global_step/max_steps": "54915/65595", "percentage": "83.72%", "elapsed_time": "2d 17h 59m 12s", "remaining_time": "12h 49m 59s"}
+{"loss": 0.02791943, "token_acc": 0.98828663, "grad_norm": 0.59454066, "learning_rate": 6.39e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231167, "epoch": 4.18629469, "global_step/max_steps": "54920/65595", "percentage": "83.73%", "elapsed_time": "2d 17h 59m 34s", "remaining_time": "12h 49m 38s"}
+{"loss": 0.04369598, "token_acc": 0.97777778, "grad_norm": 1.88908386, "learning_rate": 6.39e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231175, "epoch": 4.18667581, "global_step/max_steps": "54925/65595", "percentage": "83.73%", "elapsed_time": "2d 17h 59m 48s", "remaining_time": "12h 49m 15s"}
+{"loss": 0.02633004, "token_acc": 0.99104859, "grad_norm": 0.1129104, "learning_rate": 6.38e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231182, "epoch": 4.18705694, "global_step/max_steps": "54930/65595", "percentage": "83.74%", "elapsed_time": "2d 18h 0m 3s", "remaining_time": "12h 48m 52s"}
+{"loss": 0.04544505, "token_acc": 0.98848457, "grad_norm": 0.70634085, "learning_rate": 6.38e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231189, "epoch": 4.18743807, "global_step/max_steps": "54935/65595", "percentage": "83.75%", "elapsed_time": "2d 18h 0m 16s", "remaining_time": "12h 48m 28s"}
+{"loss": 0.05207285, "token_acc": 0.98440334, "grad_norm": 0.55607617, "learning_rate": 6.37e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231192, "epoch": 4.18781919, "global_step/max_steps": "54940/65595", "percentage": "83.76%", "elapsed_time": "2d 18h 0m 35s", "remaining_time": "12h 48m 6s"}
+{"loss": 0.03534447, "token_acc": 0.98552108, "grad_norm": 0.85864139, "learning_rate": 6.36e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231195, "epoch": 4.18820032, "global_step/max_steps": "54945/65595", "percentage": "83.76%", "elapsed_time": "2d 18h 0m 54s", "remaining_time": "12h 47m 44s"}
+{"loss": 0.03208434, "token_acc": 0.98868741, "grad_norm": 0.81077009, "learning_rate": 6.36e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231198, "epoch": 4.18858145, "global_step/max_steps": "54950/65595", "percentage": "83.77%", "elapsed_time": "2d 18h 1m 12s", "remaining_time": "12h 47m 22s"}
+{"loss": 0.02504424, "token_acc": 0.98841023, "grad_norm": 0.92938107, "learning_rate": 6.35e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231204, "epoch": 4.18896257, "global_step/max_steps": "54955/65595", "percentage": "83.78%", "elapsed_time": "2d 18h 1m 27s", "remaining_time": "12h 46m 59s"}
+{"loss": 0.03982232, "token_acc": 0.98626374, "grad_norm": 0.79141879, "learning_rate": 6.35e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231212, "epoch": 4.1893437, "global_step/max_steps": "54960/65595", "percentage": "83.79%", "elapsed_time": "2d 18h 1m 41s", "remaining_time": "12h 46m 36s"}
+{"loss": 0.01835901, "token_acc": 0.98983891, "grad_norm": 0.78142095, "learning_rate": 6.34e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231214, "epoch": 4.18972483, "global_step/max_steps": "54965/65595", "percentage": "83.79%", "elapsed_time": "2d 18h 2m 0s", "remaining_time": "12h 46m 14s"}
+{"loss": 0.02880294, "token_acc": 0.98868816, "grad_norm": 1.35696781, "learning_rate": 6.34e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23122, "epoch": 4.19010595, "global_step/max_steps": "54970/65595", "percentage": "83.80%", "elapsed_time": "2d 18h 2m 16s", "remaining_time": "12h 45m 51s"}
+{"loss": 0.04461094, "token_acc": 0.98407182, "grad_norm": 0.04713307, "learning_rate": 6.33e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231227, "epoch": 4.19048708, "global_step/max_steps": "54975/65595", "percentage": "83.81%", "elapsed_time": "2d 18h 2m 31s", "remaining_time": "12h 45m 28s"}
+{"loss": 0.02487879, "token_acc": 0.98776464, "grad_norm": 0.93518025, "learning_rate": 6.32e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23123, "epoch": 4.19086821, "global_step/max_steps": "54980/65595", "percentage": "83.82%", "elapsed_time": "2d 18h 2m 49s", "remaining_time": "12h 45m 6s"}
+{"loss": 0.0215741, "token_acc": 0.98416667, "grad_norm": 2.18922019, "learning_rate": 6.32e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231237, "epoch": 4.19124933, "global_step/max_steps": "54985/65595", "percentage": "83.82%", "elapsed_time": "2d 18h 3m 4s", "remaining_time": "12h 44m 43s"}
+{"loss": 0.03560173, "token_acc": 0.9841775, "grad_norm": 0.89944303, "learning_rate": 6.31e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231238, "epoch": 4.19163046, "global_step/max_steps": "54990/65595", "percentage": "83.83%", "elapsed_time": "2d 18h 3m 24s", "remaining_time": "12h 44m 21s"}
+{"loss": 0.03536658, "token_acc": 0.98588397, "grad_norm": 1.58053207, "learning_rate": 6.31e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231242, "epoch": 4.19201159, "global_step/max_steps": "54995/65595", "percentage": "83.84%", "elapsed_time": "2d 18h 3m 42s", "remaining_time": "12h 43m 59s"}
+{"loss": 0.02475169, "token_acc": 0.98919211, "grad_norm": 1.02733767, "learning_rate": 6.3e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231249, "epoch": 4.19239271, "global_step/max_steps": "55000/65595", "percentage": "83.85%", "elapsed_time": "2d 18h 3m 57s", "remaining_time": "12h 43m 36s"}
+{"eval_loss": 0.05095804, "eval_token_acc": 0.97943648, "eval_runtime": 187.9616, "eval_samples_per_second": 2.82, "eval_steps_per_second": 2.82, "epoch": 4.19239271, "global_step/max_steps": "55000/65595", "percentage": "83.85%", "elapsed_time": "2d 18h 7m 4s", "remaining_time": "12h 44m 12s"}
+{"loss": 0.02491881, "token_acc": 0.97956404, "grad_norm": 0.13975585, "learning_rate": 6.29e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231073, "epoch": 4.19277384, "global_step/max_steps": "55005/65595", "percentage": "83.86%", "elapsed_time": "2d 18h 7m 19s", "remaining_time": "12h 43m 49s"}
+{"loss": 0.03555134, "token_acc": 0.98431648, "grad_norm": 1.20117903, "learning_rate": 6.29e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231079, "epoch": 4.19315497, "global_step/max_steps": "55010/65595", "percentage": "83.86%", "elapsed_time": "2d 18h 7m 34s", "remaining_time": "12h 43m 26s"}
+{"loss": 0.03063776, "token_acc": 0.98815567, "grad_norm": 1.5541774, "learning_rate": 6.28e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231084, "epoch": 4.19353609, "global_step/max_steps": "55015/65595", "percentage": "83.87%", "elapsed_time": "2d 18h 7m 51s", "remaining_time": "12h 43m 3s"}
+{"loss": 0.03712288, "token_acc": 0.98208223, "grad_norm": 1.15319872, "learning_rate": 6.28e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231089, "epoch": 4.19391722, "global_step/max_steps": "55020/65595", "percentage": "83.88%", "elapsed_time": "2d 18h 8m 7s", "remaining_time": "12h 42m 41s"}
+{"loss": 0.02688177, "token_acc": 0.98774741, "grad_norm": 1.03311884, "learning_rate": 6.27e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231093, "epoch": 4.19429835, "global_step/max_steps": "55025/65595", "percentage": "83.89%", "elapsed_time": "2d 18h 8m 25s", "remaining_time": "12h 42m 18s"}
+{"loss": 0.0290982, "token_acc": 0.9860035, "grad_norm": 1.07434499, "learning_rate": 6.27e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2311, "epoch": 4.19467947, "global_step/max_steps": "55030/65595", "percentage": "83.89%", "elapsed_time": "2d 18h 8m 40s", "remaining_time": "12h 41m 55s"}
+{"loss": 0.03545195, "token_acc": 0.99046921, "grad_norm": 1.31978512, "learning_rate": 6.26e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231105, "epoch": 4.1950606, "global_step/max_steps": "55035/65595", "percentage": "83.90%", "elapsed_time": "2d 18h 8m 55s", "remaining_time": "12h 41m 33s"}
+{"loss": 0.04141124, "token_acc": 0.9862543, "grad_norm": 0.76960933, "learning_rate": 6.25e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23111, "epoch": 4.19544173, "global_step/max_steps": "55040/65595", "percentage": "83.91%", "elapsed_time": "2d 18h 9m 12s", "remaining_time": "12h 41m 10s"}
+{"loss": 0.06911444, "token_acc": 0.97146055, "grad_norm": 4.24695635, "learning_rate": 6.25e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231116, "epoch": 4.19582285, "global_step/max_steps": "55045/65595", "percentage": "83.92%", "elapsed_time": "2d 18h 9m 28s", "remaining_time": "12h 40m 47s"}
+{"loss": 0.01940602, "token_acc": 0.99068458, "grad_norm": 0.7596128, "learning_rate": 6.24e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231121, "epoch": 4.19620398, "global_step/max_steps": "55050/65595", "percentage": "83.92%", "elapsed_time": "2d 18h 9m 44s", "remaining_time": "12h 40m 24s"}
+{"loss": 0.02219797, "token_acc": 0.9920832, "grad_norm": 0.64486569, "learning_rate": 6.24e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231123, "epoch": 4.19658511, "global_step/max_steps": "55055/65595", "percentage": "83.93%", "elapsed_time": "2d 18h 10m 3s", "remaining_time": "12h 40m 2s"}
+{"loss": 0.0408944, "token_acc": 0.98603175, "grad_norm": 2.67316294, "learning_rate": 6.23e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23113, "epoch": 4.19696623, "global_step/max_steps": "55060/65595", "percentage": "83.94%", "elapsed_time": "2d 18h 10m 18s", "remaining_time": "12h 39m 40s"}
+{"loss": 0.02771534, "token_acc": 0.99069435, "grad_norm": 2.13308597, "learning_rate": 6.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231136, "epoch": 4.19734736, "global_step/max_steps": "55065/65595", "percentage": "83.95%", "elapsed_time": "2d 18h 10m 34s", "remaining_time": "12h 39m 17s"}
+{"loss": 0.03573444, "token_acc": 0.99160369, "grad_norm": 2.1169982, "learning_rate": 6.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231142, "epoch": 4.19772849, "global_step/max_steps": "55070/65595", "percentage": "83.95%", "elapsed_time": "2d 18h 10m 49s", "remaining_time": "12h 38m 54s"}
+{"loss": 0.01675721, "token_acc": 0.99430524, "grad_norm": 1.6034081, "learning_rate": 6.21e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231147, "epoch": 4.19810961, "global_step/max_steps": "55075/65595", "percentage": "83.96%", "elapsed_time": "2d 18h 11m 5s", "remaining_time": "12h 38m 31s"}
+{"loss": 0.02878182, "token_acc": 0.98844932, "grad_norm": 1.57149732, "learning_rate": 6.21e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231153, "epoch": 4.19849074, "global_step/max_steps": "55080/65595", "percentage": "83.97%", "elapsed_time": "2d 18h 11m 21s", "remaining_time": "12h 38m 8s"}
+{"loss": 0.0341715, "token_acc": 0.9875188, "grad_norm": 1.17483962, "learning_rate": 6.2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231157, "epoch": 4.19887187, "global_step/max_steps": "55085/65595", "percentage": "83.98%", "elapsed_time": "2d 18h 11m 39s", "remaining_time": "12h 37m 46s"}
+{"loss": 0.04178975, "token_acc": 0.98548912, "grad_norm": 1.58577764, "learning_rate": 6.2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231163, "epoch": 4.19925299, "global_step/max_steps": "55090/65595", "percentage": "83.99%", "elapsed_time": "2d 18h 11m 54s", "remaining_time": "12h 37m 23s"}
+{"loss": 0.03885223, "token_acc": 0.98878374, "grad_norm": 3.19198585, "learning_rate": 6.19e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231171, "epoch": 4.19963412, "global_step/max_steps": "55095/65595", "percentage": "83.99%", "elapsed_time": "2d 18h 12m 8s", "remaining_time": "12h 37m 0s"}
+{"loss": 0.03004246, "token_acc": 0.98621357, "grad_norm": 0.70450133, "learning_rate": 6.18e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231172, "epoch": 4.20001525, "global_step/max_steps": "55100/65595", "percentage": "84.00%", "elapsed_time": "2d 18h 12m 28s", "remaining_time": "12h 36m 38s"}
+{"loss": 0.04298649, "token_acc": 0.98206618, "grad_norm": 3.27992749, "learning_rate": 6.18e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231179, "epoch": 4.20039637, "global_step/max_steps": "55105/65595", "percentage": "84.01%", "elapsed_time": "2d 18h 12m 43s", "remaining_time": "12h 36m 15s"}
+{"loss": 0.04853796, "token_acc": 0.98387523, "grad_norm": 1.38719666, "learning_rate": 6.17e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231185, "epoch": 4.2007775, "global_step/max_steps": "55110/65595", "percentage": "84.02%", "elapsed_time": "2d 18h 12m 58s", "remaining_time": "12h 35m 52s"}
+{"loss": 0.03077118, "token_acc": 0.98571429, "grad_norm": 0.95366979, "learning_rate": 6.17e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231189, "epoch": 4.20115862, "global_step/max_steps": "55115/65595", "percentage": "84.02%", "elapsed_time": "2d 18h 13m 15s", "remaining_time": "12h 35m 30s"}
+{"loss": 0.04011464, "token_acc": 0.98508378, "grad_norm": 0.97585398, "learning_rate": 6.16e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231194, "epoch": 4.20153975, "global_step/max_steps": "55120/65595", "percentage": "84.03%", "elapsed_time": "2d 18h 13m 31s", "remaining_time": "12h 35m 7s"}
+{"loss": 0.02283605, "token_acc": 0.98821968, "grad_norm": 1.72248232, "learning_rate": 6.16e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231199, "epoch": 4.20192088, "global_step/max_steps": "55125/65595", "percentage": "84.04%", "elapsed_time": "2d 18h 13m 48s", "remaining_time": "12h 34m 45s"}
+{"loss": 0.03307593, "token_acc": 0.98567335, "grad_norm": 0.89790422, "learning_rate": 6.15e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231202, "epoch": 4.202302, "global_step/max_steps": "55130/65595", "percentage": "84.05%", "elapsed_time": "2d 18h 14m 6s", "remaining_time": "12h 34m 22s"}
+{"loss": 0.03842396, "token_acc": 0.98684868, "grad_norm": 1.68989813, "learning_rate": 6.14e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231208, "epoch": 4.20268313, "global_step/max_steps": "55135/65595", "percentage": "84.05%", "elapsed_time": "2d 18h 14m 22s", "remaining_time": "12h 34m 0s"}
+{"loss": 0.03037985, "token_acc": 0.98945277, "grad_norm": 1.14962709, "learning_rate": 6.14e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231213, "epoch": 4.20306426, "global_step/max_steps": "55140/65595", "percentage": "84.06%", "elapsed_time": "2d 18h 14m 39s", "remaining_time": "12h 33m 37s"}
+{"loss": 0.03419297, "token_acc": 0.98642841, "grad_norm": 1.35497212, "learning_rate": 6.13e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23122, "epoch": 4.20344538, "global_step/max_steps": "55145/65595", "percentage": "84.07%", "elapsed_time": "2d 18h 14m 54s", "remaining_time": "12h 33m 14s"}
+{"loss": 0.03694207, "token_acc": 0.98558275, "grad_norm": 1.1207006, "learning_rate": 6.13e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231222, "epoch": 4.20382651, "global_step/max_steps": "55150/65595", "percentage": "84.08%", "elapsed_time": "2d 18h 15m 12s", "remaining_time": "12h 32m 52s"}
+{"loss": 0.03591034, "token_acc": 0.98742857, "grad_norm": 1.09558439, "learning_rate": 6.12e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231229, "epoch": 4.20420764, "global_step/max_steps": "55155/65595", "percentage": "84.08%", "elapsed_time": "2d 18h 15m 27s", "remaining_time": "12h 32m 29s"}
+{"loss": 0.02268854, "token_acc": 0.99046993, "grad_norm": 0.69375771, "learning_rate": 6.12e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23123, "epoch": 4.20458876, "global_step/max_steps": "55160/65595", "percentage": "84.09%", "elapsed_time": "2d 18h 15m 47s", "remaining_time": "12h 32m 7s"}
+{"loss": 0.02566103, "token_acc": 0.98909091, "grad_norm": 1.06080174, "learning_rate": 6.11e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231235, "epoch": 4.20496989, "global_step/max_steps": "55165/65595", "percentage": "84.10%", "elapsed_time": "2d 18h 16m 4s", "remaining_time": "12h 31m 45s"}
+{"loss": 0.03372466, "token_acc": 0.98617141, "grad_norm": 1.23672223, "learning_rate": 6.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23124, "epoch": 4.20535102, "global_step/max_steps": "55170/65595", "percentage": "84.11%", "elapsed_time": "2d 18h 16m 20s", "remaining_time": "12h 31m 22s"}
+{"loss": 0.02840173, "token_acc": 0.98435644, "grad_norm": 1.08570671, "learning_rate": 6.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231245, "epoch": 4.20573214, "global_step/max_steps": "55175/65595", "percentage": "84.11%", "elapsed_time": "2d 18h 16m 37s", "remaining_time": "12h 30m 59s"}
+{"loss": 0.04964507, "token_acc": 0.98397997, "grad_norm": 1.04724824, "learning_rate": 6.09e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231252, "epoch": 4.20611327, "global_step/max_steps": "55180/65595", "percentage": "84.12%", "elapsed_time": "2d 18h 16m 51s", "remaining_time": "12h 30m 36s"}
+{"loss": 0.02606905, "token_acc": 0.98897243, "grad_norm": 0.55355775, "learning_rate": 6.09e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231259, "epoch": 4.2064944, "global_step/max_steps": "55185/65595", "percentage": "84.13%", "elapsed_time": "2d 18h 17m 6s", "remaining_time": "12h 30m 14s"}
+{"loss": 0.03249464, "token_acc": 0.98594333, "grad_norm": 0.53715986, "learning_rate": 6.08e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231264, "epoch": 4.20687552, "global_step/max_steps": "55190/65595", "percentage": "84.14%", "elapsed_time": "2d 18h 17m 22s", "remaining_time": "12h 29m 51s"}
+{"loss": 0.0289817, "token_acc": 0.98965142, "grad_norm": 1.06343842, "learning_rate": 6.08e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231268, "epoch": 4.20725665, "global_step/max_steps": "55195/65595", "percentage": "84.15%", "elapsed_time": "2d 18h 17m 40s", "remaining_time": "12h 29m 29s"}
+{"loss": 0.046385, "token_acc": 0.9774879, "grad_norm": 1.41770089, "learning_rate": 6.07e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231273, "epoch": 4.20763778, "global_step/max_steps": "55200/65595", "percentage": "84.15%", "elapsed_time": "2d 18h 17m 57s", "remaining_time": "12h 29m 6s"}
+{"eval_loss": 0.05128999, "eval_token_acc": 0.97955695, "eval_runtime": 188.2748, "eval_samples_per_second": 2.815, "eval_steps_per_second": 2.815, "epoch": 4.20763778, "global_step/max_steps": "55200/65595", "percentage": "84.15%", "elapsed_time": "2d 18h 21m 5s", "remaining_time": "12h 29m 41s"}
+{"loss": 0.02809747, "token_acc": 0.98001474, "grad_norm": 0.56841296, "learning_rate": 6.06e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231096, "epoch": 4.2080189, "global_step/max_steps": "55205/65595", "percentage": "84.16%", "elapsed_time": "2d 18h 21m 20s", "remaining_time": "12h 29m 19s"}
+{"loss": 0.01615492, "token_acc": 0.99386189, "grad_norm": 0.73578483, "learning_rate": 6.06e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231104, "epoch": 4.20840003, "global_step/max_steps": "55210/65595", "percentage": "84.17%", "elapsed_time": "2d 18h 21m 34s", "remaining_time": "12h 28m 56s"}
+{"loss": 0.05158148, "token_acc": 0.98759406, "grad_norm": 1.71929884, "learning_rate": 6.05e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231108, "epoch": 4.20878116, "global_step/max_steps": "55215/65595", "percentage": "84.18%", "elapsed_time": "2d 18h 21m 51s", "remaining_time": "12h 28m 33s"}
+{"loss": 0.01611547, "token_acc": 0.99139832, "grad_norm": 0.74450624, "learning_rate": 6.05e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231115, "epoch": 4.20916228, "global_step/max_steps": "55220/65595", "percentage": "84.18%", "elapsed_time": "2d 18h 22m 6s", "remaining_time": "12h 28m 10s"}
+{"loss": 0.02891589, "token_acc": 0.98842036, "grad_norm": 2.42400694, "learning_rate": 6.04e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231121, "epoch": 4.20954341, "global_step/max_steps": "55225/65595", "percentage": "84.19%", "elapsed_time": "2d 18h 22m 22s", "remaining_time": "12h 27m 47s"}
+{"loss": 0.04225335, "token_acc": 0.98363934, "grad_norm": 0.78851241, "learning_rate": 6.04e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231126, "epoch": 4.20992454, "global_step/max_steps": "55230/65595", "percentage": "84.20%", "elapsed_time": "2d 18h 22m 38s", "remaining_time": "12h 27m 25s"}
+{"loss": 0.03578484, "token_acc": 0.99048266, "grad_norm": 1.10440695, "learning_rate": 6.03e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23113, "epoch": 4.21030566, "global_step/max_steps": "55235/65595", "percentage": "84.21%", "elapsed_time": "2d 18h 22m 56s", "remaining_time": "12h 27m 2s"}
+{"loss": 0.01931125, "token_acc": 0.99258811, "grad_norm": 0.75336725, "learning_rate": 6.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231134, "epoch": 4.21068679, "global_step/max_steps": "55240/65595", "percentage": "84.21%", "elapsed_time": "2d 18h 23m 13s", "remaining_time": "12h 26m 40s"}
+{"loss": 0.03279012, "token_acc": 0.98690353, "grad_norm": 1.50382459, "learning_rate": 6.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231136, "epoch": 4.21106792, "global_step/max_steps": "55245/65595", "percentage": "84.22%", "elapsed_time": "2d 18h 23m 32s", "remaining_time": "12h 26m 18s"}
+{"loss": 0.02507849, "token_acc": 0.99032738, "grad_norm": 0.49721122, "learning_rate": 6.01e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231145, "epoch": 4.21144904, "global_step/max_steps": "55250/65595", "percentage": "84.23%", "elapsed_time": "2d 18h 23m 45s", "remaining_time": "12h 25m 55s"}
+{"loss": 0.02668831, "token_acc": 0.98565175, "grad_norm": 0.94279993, "learning_rate": 6.01e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231151, "epoch": 4.21183017, "global_step/max_steps": "55255/65595", "percentage": "84.24%", "elapsed_time": "2d 18h 24m 0s", "remaining_time": "12h 25m 32s"}
+{"loss": 0.0432247, "token_acc": 0.98589342, "grad_norm": 0.82635874, "learning_rate": 6e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231157, "epoch": 4.2122113, "global_step/max_steps": "55260/65595", "percentage": "84.24%", "elapsed_time": "2d 18h 24m 16s", "remaining_time": "12h 25m 9s"}
+{"loss": 0.03127419, "token_acc": 0.98578134, "grad_norm": 0.74984396, "learning_rate": 6e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23116, "epoch": 4.21259242, "global_step/max_steps": "55265/65595", "percentage": "84.25%", "elapsed_time": "2d 18h 24m 34s", "remaining_time": "12h 24m 47s"}
+{"loss": 0.02349926, "token_acc": 0.98860182, "grad_norm": 0.88907808, "learning_rate": 5.99e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231165, "epoch": 4.21297355, "global_step/max_steps": "55270/65595", "percentage": "84.26%", "elapsed_time": "2d 18h 24m 51s", "remaining_time": "12h 24m 24s"}
+{"loss": 0.04700961, "token_acc": 0.97141908, "grad_norm": 0.42937788, "learning_rate": 5.98e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231172, "epoch": 4.21335468, "global_step/max_steps": "55275/65595", "percentage": "84.27%", "elapsed_time": "2d 18h 25m 5s", "remaining_time": "12h 24m 1s"}
+{"loss": 0.05711854, "token_acc": 0.9797016, "grad_norm": 1.23236036, "learning_rate": 5.98e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231175, "epoch": 4.2137358, "global_step/max_steps": "55280/65595", "percentage": "84.27%", "elapsed_time": "2d 18h 25m 23s", "remaining_time": "12h 23m 39s"}
+{"loss": 0.01202584, "token_acc": 0.99767622, "grad_norm": 0.15172364, "learning_rate": 5.97e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231184, "epoch": 4.21411693, "global_step/max_steps": "55285/65595", "percentage": "84.28%", "elapsed_time": "2d 18h 25m 35s", "remaining_time": "12h 23m 16s"}
+{"loss": 0.0247814, "token_acc": 0.991, "grad_norm": 1.42925036, "learning_rate": 5.97e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231192, "epoch": 4.21449806, "global_step/max_steps": "55290/65595", "percentage": "84.29%", "elapsed_time": "2d 18h 25m 49s", "remaining_time": "12h 22m 52s"}
+{"loss": 0.02558636, "token_acc": 0.98838752, "grad_norm": 0.61281967, "learning_rate": 5.96e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231196, "epoch": 4.21487918, "global_step/max_steps": "55295/65595", "percentage": "84.30%", "elapsed_time": "2d 18h 26m 7s", "remaining_time": "12h 22m 30s"}
+{"loss": 0.03917216, "token_acc": 0.98785425, "grad_norm": 0.72707403, "learning_rate": 5.96e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231202, "epoch": 4.21526031, "global_step/max_steps": "55300/65595", "percentage": "84.31%", "elapsed_time": "2d 18h 26m 22s", "remaining_time": "12h 22m 7s"}
+{"loss": 0.03055129, "token_acc": 0.99161074, "grad_norm": 1.83209741, "learning_rate": 5.95e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231208, "epoch": 4.21564144, "global_step/max_steps": "55305/65595", "percentage": "84.31%", "elapsed_time": "2d 18h 26m 38s", "remaining_time": "12h 21m 45s"}
+{"loss": 0.03373225, "token_acc": 0.98756184, "grad_norm": 0.64067191, "learning_rate": 5.94e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231212, "epoch": 4.21602256, "global_step/max_steps": "55310/65595", "percentage": "84.32%", "elapsed_time": "2d 18h 26m 55s", "remaining_time": "12h 21m 22s"}
+{"loss": 0.02096573, "token_acc": 0.99372146, "grad_norm": 1.39085484, "learning_rate": 5.94e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231218, "epoch": 4.21640369, "global_step/max_steps": "55315/65595", "percentage": "84.33%", "elapsed_time": "2d 18h 27m 10s", "remaining_time": "12h 20m 59s"}
+{"loss": 0.02870988, "token_acc": 0.99041005, "grad_norm": 0.85320807, "learning_rate": 5.93e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231219, "epoch": 4.21678482, "global_step/max_steps": "55320/65595", "percentage": "84.34%", "elapsed_time": "2d 18h 27m 31s", "remaining_time": "12h 20m 37s"}
+{"loss": 0.02685353, "token_acc": 0.98671603, "grad_norm": 2.47215509, "learning_rate": 5.93e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231225, "epoch": 4.21716594, "global_step/max_steps": "55325/65595", "percentage": "84.34%", "elapsed_time": "2d 18h 27m 46s", "remaining_time": "12h 20m 15s"}
+{"loss": 0.02725812, "token_acc": 0.98810114, "grad_norm": 0.93881649, "learning_rate": 5.92e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231227, "epoch": 4.21754707, "global_step/max_steps": "55330/65595", "percentage": "84.35%", "elapsed_time": "2d 18h 28m 6s", "remaining_time": "12h 19m 53s"}
+{"loss": 0.03367386, "token_acc": 0.98460578, "grad_norm": 1.32459033, "learning_rate": 5.92e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231231, "epoch": 4.2179282, "global_step/max_steps": "55335/65595", "percentage": "84.36%", "elapsed_time": "2d 18h 28m 23s", "remaining_time": "12h 19m 30s"}
+{"loss": 0.02315829, "token_acc": 0.98789879, "grad_norm": 0.89890534, "learning_rate": 5.91e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231234, "epoch": 4.21830932, "global_step/max_steps": "55340/65595", "percentage": "84.37%", "elapsed_time": "2d 18h 28m 42s", "remaining_time": "12h 19m 8s"}
+{"loss": 0.01832748, "token_acc": 0.99083064, "grad_norm": 0.87146622, "learning_rate": 5.9e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231241, "epoch": 4.21869045, "global_step/max_steps": "55345/65595", "percentage": "84.37%", "elapsed_time": "2d 18h 28m 57s", "remaining_time": "12h 18m 45s"}
+{"loss": 0.0517682, "token_acc": 0.98249595, "grad_norm": 1.15096402, "learning_rate": 5.9e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231247, "epoch": 4.21907158, "global_step/max_steps": "55350/65595", "percentage": "84.38%", "elapsed_time": "2d 18h 29m 12s", "remaining_time": "12h 18m 22s"}
+{"loss": 0.0429009, "token_acc": 0.98169407, "grad_norm": 1.64657772, "learning_rate": 5.89e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231253, "epoch": 4.2194527, "global_step/max_steps": "55355/65595", "percentage": "84.39%", "elapsed_time": "2d 18h 29m 27s", "remaining_time": "12h 18m 0s"}
+{"loss": 0.02973033, "token_acc": 0.98877511, "grad_norm": 0.78555608, "learning_rate": 5.89e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231259, "epoch": 4.21983383, "global_step/max_steps": "55360/65595", "percentage": "84.40%", "elapsed_time": "2d 18h 29m 43s", "remaining_time": "12h 17m 37s"}
+{"loss": 0.04169154, "token_acc": 0.98150594, "grad_norm": 1.33155656, "learning_rate": 5.88e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231266, "epoch": 4.22021496, "global_step/max_steps": "55365/65595", "percentage": "84.40%", "elapsed_time": "2d 18h 29m 57s", "remaining_time": "12h 17m 14s"}
+{"loss": 0.02315077, "token_acc": 0.99013895, "grad_norm": 1.2262063, "learning_rate": 5.88e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231272, "epoch": 4.22059608, "global_step/max_steps": "55370/65595", "percentage": "84.41%", "elapsed_time": "2d 18h 30m 12s", "remaining_time": "12h 16m 51s"}
+{"loss": 0.05374323, "token_acc": 0.9746866, "grad_norm": 0.9751488, "learning_rate": 5.87e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231278, "epoch": 4.22097721, "global_step/max_steps": "55375/65595", "percentage": "84.42%", "elapsed_time": "2d 18h 30m 28s", "remaining_time": "12h 16m 28s"}
+{"loss": 0.04377599, "token_acc": 0.98343114, "grad_norm": 0.85495532, "learning_rate": 5.87e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231283, "epoch": 4.22135834, "global_step/max_steps": "55380/65595", "percentage": "84.43%", "elapsed_time": "2d 18h 30m 45s", "remaining_time": "12h 16m 6s"}
+{"loss": 0.06180522, "token_acc": 0.97703035, "grad_norm": 1.73367739, "learning_rate": 5.86e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231287, "epoch": 4.22173946, "global_step/max_steps": "55385/65595", "percentage": "84.43%", "elapsed_time": "2d 18h 31m 1s", "remaining_time": "12h 15m 43s"}
+{"loss": 0.03314965, "token_acc": 0.98576039, "grad_norm": 0.73274171, "learning_rate": 5.85e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231293, "epoch": 4.22212059, "global_step/max_steps": "55390/65595", "percentage": "84.44%", "elapsed_time": "2d 18h 31m 17s", "remaining_time": "12h 15m 21s"}
+{"loss": 0.03203316, "token_acc": 0.98130535, "grad_norm": 1.01101482, "learning_rate": 5.85e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231299, "epoch": 4.22250172, "global_step/max_steps": "55395/65595", "percentage": "84.45%", "elapsed_time": "2d 18h 31m 32s", "remaining_time": "12h 14m 58s"}
+{"loss": 0.03214051, "token_acc": 0.98899498, "grad_norm": 0.53307617, "learning_rate": 5.84e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231303, "epoch": 4.22288284, "global_step/max_steps": "55400/65595", "percentage": "84.46%", "elapsed_time": "2d 18h 31m 50s", "remaining_time": "12h 14m 36s"}
+{"eval_loss": 0.05143863, "eval_token_acc": 0.97968496, "eval_runtime": 190.6969, "eval_samples_per_second": 2.779, "eval_steps_per_second": 2.779, "epoch": 4.22288284, "global_step/max_steps": "55400/65595", "percentage": "84.46%", "elapsed_time": "2d 18h 35m 1s", "remaining_time": "12h 15m 11s"}
+{"loss": 0.0517072, "token_acc": 0.97964209, "grad_norm": 1.41591859, "learning_rate": 5.84e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231124, "epoch": 4.22326397, "global_step/max_steps": "55405/65595", "percentage": "84.47%", "elapsed_time": "2d 18h 35m 17s", "remaining_time": "12h 14m 48s"}
+{"loss": 0.01493103, "token_acc": 0.99416462, "grad_norm": 0.7959277, "learning_rate": 5.83e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23113, "epoch": 4.22364509, "global_step/max_steps": "55410/65595", "percentage": "84.47%", "elapsed_time": "2d 18h 35m 32s", "remaining_time": "12h 14m 25s"}
+{"loss": 0.03471419, "token_acc": 0.9873741, "grad_norm": 0.59720659, "learning_rate": 5.83e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231134, "epoch": 4.22402622, "global_step/max_steps": "55415/65595", "percentage": "84.48%", "elapsed_time": "2d 18h 35m 50s", "remaining_time": "12h 14m 3s"}
+{"loss": 0.04720616, "token_acc": 0.98617512, "grad_norm": 3.35081625, "learning_rate": 5.82e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231142, "epoch": 4.22440735, "global_step/max_steps": "55420/65595", "percentage": "84.49%", "elapsed_time": "2d 18h 36m 3s", "remaining_time": "12h 13m 40s"}
+{"loss": 0.03379968, "token_acc": 0.98855408, "grad_norm": 2.40442038, "learning_rate": 5.81e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231147, "epoch": 4.22478847, "global_step/max_steps": "55425/65595", "percentage": "84.50%", "elapsed_time": "2d 18h 36m 20s", "remaining_time": "12h 13m 17s"}
+{"loss": 0.04111556, "token_acc": 0.97978373, "grad_norm": 1.91351879, "learning_rate": 5.81e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23115, "epoch": 4.2251696, "global_step/max_steps": "55430/65595", "percentage": "84.50%", "elapsed_time": "2d 18h 36m 38s", "remaining_time": "12h 12m 55s"}
+{"loss": 0.03391787, "token_acc": 0.99070543, "grad_norm": 0.93833953, "learning_rate": 5.8e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231156, "epoch": 4.22555073, "global_step/max_steps": "55435/65595", "percentage": "84.51%", "elapsed_time": "2d 18h 36m 54s", "remaining_time": "12h 12m 32s"}
+{"loss": 0.03721229, "token_acc": 0.98191964, "grad_norm": 1.12894571, "learning_rate": 5.8e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231162, "epoch": 4.22593185, "global_step/max_steps": "55440/65595", "percentage": "84.52%", "elapsed_time": "2d 18h 37m 9s", "remaining_time": "12h 12m 9s"}
+{"loss": 0.0308647, "token_acc": 0.98875803, "grad_norm": 1.90632474, "learning_rate": 5.79e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231168, "epoch": 4.22631298, "global_step/max_steps": "55445/65595", "percentage": "84.53%", "elapsed_time": "2d 18h 37m 25s", "remaining_time": "12h 11m 47s"}
+{"loss": 0.04246129, "token_acc": 0.98352345, "grad_norm": 0.53881109, "learning_rate": 5.79e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231173, "epoch": 4.22669411, "global_step/max_steps": "55450/65595", "percentage": "84.53%", "elapsed_time": "2d 18h 37m 41s", "remaining_time": "12h 11m 24s"}
+{"loss": 0.0311799, "token_acc": 0.9897586, "grad_norm": 0.13159688, "learning_rate": 5.78e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23118, "epoch": 4.22707523, "global_step/max_steps": "55455/65595", "percentage": "84.54%", "elapsed_time": "2d 18h 37m 55s", "remaining_time": "12h 11m 1s"}
+{"loss": 0.04968897, "token_acc": 0.98231037, "grad_norm": 1.55213273, "learning_rate": 5.78e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231186, "epoch": 4.22745636, "global_step/max_steps": "55460/65595", "percentage": "84.55%", "elapsed_time": "2d 18h 38m 11s", "remaining_time": "12h 10m 38s"}
+{"loss": 0.03423964, "token_acc": 0.98536917, "grad_norm": 0.63779885, "learning_rate": 5.77e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231192, "epoch": 4.22783749, "global_step/max_steps": "55465/65595", "percentage": "84.56%", "elapsed_time": "2d 18h 38m 26s", "remaining_time": "12h 10m 15s"}
+{"loss": 0.0340265, "token_acc": 0.98517577, "grad_norm": 1.34503365, "learning_rate": 5.76e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231196, "epoch": 4.22821861, "global_step/max_steps": "55470/65595", "percentage": "84.56%", "elapsed_time": "2d 18h 38m 44s", "remaining_time": "12h 9m 53s"}
+{"loss": 0.02172076, "token_acc": 0.9931125, "grad_norm": 0.7203818, "learning_rate": 5.76e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231202, "epoch": 4.22859974, "global_step/max_steps": "55475/65595", "percentage": "84.57%", "elapsed_time": "2d 18h 38m 59s", "remaining_time": "12h 9m 30s"}
+{"loss": 0.02292395, "token_acc": 0.98839842, "grad_norm": 0.10536674, "learning_rate": 5.75e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231209, "epoch": 4.22898087, "global_step/max_steps": "55480/65595", "percentage": "84.58%", "elapsed_time": "2d 18h 39m 13s", "remaining_time": "12h 9m 7s"}
+{"loss": 0.03022458, "token_acc": 0.98775945, "grad_norm": 1.39468741, "learning_rate": 5.75e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231217, "epoch": 4.22936199, "global_step/max_steps": "55485/65595", "percentage": "84.59%", "elapsed_time": "2d 18h 39m 26s", "remaining_time": "12h 8m 44s"}
+{"loss": 0.03815814, "token_acc": 0.98636577, "grad_norm": 0.30256099, "learning_rate": 5.74e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231221, "epoch": 4.22974312, "global_step/max_steps": "55490/65595", "percentage": "84.59%", "elapsed_time": "2d 18h 39m 44s", "remaining_time": "12h 8m 22s"}
+{"loss": 0.02344597, "token_acc": 0.9883871, "grad_norm": 0.31161943, "learning_rate": 5.74e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231224, "epoch": 4.23012425, "global_step/max_steps": "55495/65595", "percentage": "84.60%", "elapsed_time": "2d 18h 40m 2s", "remaining_time": "12h 8m 0s"}
+{"loss": 0.01893544, "token_acc": 0.99100195, "grad_norm": 0.16098657, "learning_rate": 5.73e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23123, "epoch": 4.23050537, "global_step/max_steps": "55500/65595", "percentage": "84.61%", "elapsed_time": "2d 18h 40m 18s", "remaining_time": "12h 7m 37s"}
+{"loss": 0.028939, "token_acc": 0.98858977, "grad_norm": 1.45318818, "learning_rate": 5.73e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231234, "epoch": 4.2308865, "global_step/max_steps": "55505/65595", "percentage": "84.62%", "elapsed_time": "2d 18h 40m 36s", "remaining_time": "12h 7m 15s"}
+{"loss": 0.02529267, "token_acc": 0.98963475, "grad_norm": 0.93161047, "learning_rate": 5.72e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231239, "epoch": 4.23126763, "global_step/max_steps": "55510/65595", "percentage": "84.63%", "elapsed_time": "2d 18h 40m 52s", "remaining_time": "12h 6m 52s"}
+{"loss": 0.03176145, "token_acc": 0.99166528, "grad_norm": 2.11835074, "learning_rate": 5.71e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231244, "epoch": 4.23164875, "global_step/max_steps": "55515/65595", "percentage": "84.63%", "elapsed_time": "2d 18h 41m 9s", "remaining_time": "12h 6m 29s"}
+{"loss": 0.05045644, "token_acc": 0.98719346, "grad_norm": 1.5971216, "learning_rate": 5.71e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23125, "epoch": 4.23202988, "global_step/max_steps": "55520/65595", "percentage": "84.64%", "elapsed_time": "2d 18h 41m 24s", "remaining_time": "12h 6m 7s"}
+{"loss": 0.07084723, "token_acc": 0.9782406, "grad_norm": 0.46280688, "learning_rate": 5.7e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231253, "epoch": 4.23241101, "global_step/max_steps": "55525/65595", "percentage": "84.65%", "elapsed_time": "2d 18h 41m 42s", "remaining_time": "12h 5m 44s"}
+{"loss": 0.03265448, "token_acc": 0.98983348, "grad_norm": 0.429396, "learning_rate": 5.7e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231257, "epoch": 4.23279213, "global_step/max_steps": "55530/65595", "percentage": "84.66%", "elapsed_time": "2d 18h 41m 59s", "remaining_time": "12h 5m 22s"}
+{"loss": 0.02470012, "token_acc": 0.98969072, "grad_norm": 0.19295487, "learning_rate": 5.69e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231265, "epoch": 4.23317326, "global_step/max_steps": "55535/65595", "percentage": "84.66%", "elapsed_time": "2d 18h 42m 13s", "remaining_time": "12h 4m 59s"}
+{"loss": 0.02064159, "token_acc": 0.98824969, "grad_norm": 0.75630522, "learning_rate": 5.69e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23127, "epoch": 4.23355439, "global_step/max_steps": "55540/65595", "percentage": "84.67%", "elapsed_time": "2d 18h 42m 29s", "remaining_time": "12h 4m 36s"}
+{"loss": 0.03583637, "token_acc": 0.98301024, "grad_norm": 0.9931066, "learning_rate": 5.68e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231276, "epoch": 4.23393551, "global_step/max_steps": "55545/65595", "percentage": "84.68%", "elapsed_time": "2d 18h 42m 45s", "remaining_time": "12h 4m 14s"}
+{"loss": 0.05056825, "token_acc": 0.9797023, "grad_norm": 2.45541859, "learning_rate": 5.68e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231282, "epoch": 4.23431664, "global_step/max_steps": "55550/65595", "percentage": "84.69%", "elapsed_time": "2d 18h 43m 0s", "remaining_time": "12h 3m 51s"}
+{"loss": 0.02462975, "token_acc": 0.9918909, "grad_norm": 0.50623161, "learning_rate": 5.67e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231285, "epoch": 4.23469777, "global_step/max_steps": "55555/65595", "percentage": "84.69%", "elapsed_time": "2d 18h 43m 19s", "remaining_time": "12h 3m 29s"}
+{"loss": 0.0333616, "token_acc": 0.98174544, "grad_norm": 0.94560766, "learning_rate": 5.66e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231291, "epoch": 4.23507889, "global_step/max_steps": "55560/65595", "percentage": "84.70%", "elapsed_time": "2d 18h 43m 35s", "remaining_time": "12h 3m 6s"}
+{"loss": 0.05252414, "token_acc": 0.98208169, "grad_norm": 0.27335477, "learning_rate": 5.66e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231296, "epoch": 4.23546002, "global_step/max_steps": "55565/65595", "percentage": "84.71%", "elapsed_time": "2d 18h 43m 51s", "remaining_time": "12h 2m 43s"}
+{"loss": 0.0275648, "token_acc": 0.99154804, "grad_norm": 0.83433193, "learning_rate": 5.65e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231302, "epoch": 4.23584115, "global_step/max_steps": "55570/65595", "percentage": "84.72%", "elapsed_time": "2d 18h 44m 6s", "remaining_time": "12h 2m 21s"}
+{"loss": 0.04632106, "token_acc": 0.98218208, "grad_norm": 1.1917659, "learning_rate": 5.65e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231307, "epoch": 4.23622227, "global_step/max_steps": "55575/65595", "percentage": "84.72%", "elapsed_time": "2d 18h 44m 22s", "remaining_time": "12h 1m 58s"}
+{"loss": 0.02062764, "token_acc": 0.98779086, "grad_norm": 0.93304253, "learning_rate": 5.64e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231312, "epoch": 4.2366034, "global_step/max_steps": "55580/65595", "percentage": "84.73%", "elapsed_time": "2d 18h 44m 39s", "remaining_time": "12h 1m 36s"}
+{"loss": 0.03225891, "token_acc": 0.98786828, "grad_norm": 1.00416899, "learning_rate": 5.64e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231317, "epoch": 4.23698453, "global_step/max_steps": "55585/65595", "percentage": "84.74%", "elapsed_time": "2d 18h 44m 55s", "remaining_time": "12h 1m 13s"}
+{"loss": 0.02120522, "token_acc": 0.98878577, "grad_norm": 1.62565231, "learning_rate": 5.63e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231321, "epoch": 4.23736565, "global_step/max_steps": "55590/65595", "percentage": "84.75%", "elapsed_time": "2d 18h 45m 13s", "remaining_time": "12h 0m 51s"}
+{"loss": 0.0620581, "token_acc": 0.98186275, "grad_norm": 1.88897395, "learning_rate": 5.63e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231329, "epoch": 4.23774678, "global_step/max_steps": "55595/65595", "percentage": "84.75%", "elapsed_time": "2d 18h 45m 26s", "remaining_time": "12h 0m 28s"}
+{"loss": 0.02537947, "token_acc": 0.99116144, "grad_norm": 0.88984448, "learning_rate": 5.62e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231333, "epoch": 4.23812791, "global_step/max_steps": "55600/65595", "percentage": "84.76%", "elapsed_time": "2d 18h 45m 43s", "remaining_time": "12h 0m 5s"}
+{"eval_loss": 0.05102313, "eval_token_acc": 0.97971508, "eval_runtime": 186.7651, "eval_samples_per_second": 2.838, "eval_steps_per_second": 2.838, "epoch": 4.23812791, "global_step/max_steps": "55600/65595", "percentage": "84.76%", "elapsed_time": "2d 18h 48m 50s", "remaining_time": "12h 0m 39s"}
+{"loss": 0.03135632, "token_acc": 0.97988718, "grad_norm": 1.68234301, "learning_rate": 5.61e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23116, "epoch": 4.23850903, "global_step/max_steps": "55605/65595", "percentage": "84.77%", "elapsed_time": "2d 18h 49m 5s", "remaining_time": "12h 0m 16s"}
+{"loss": 0.07840422, "token_acc": 0.96749069, "grad_norm": 0.65726686, "learning_rate": 5.61e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231167, "epoch": 4.23889016, "global_step/max_steps": "55610/65595", "percentage": "84.78%", "elapsed_time": "2d 18h 49m 19s", "remaining_time": "11h 59m 53s"}
+{"loss": 0.02926409, "token_acc": 0.98589744, "grad_norm": 0.96837223, "learning_rate": 5.6e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231171, "epoch": 4.23927129, "global_step/max_steps": "55615/65595", "percentage": "84.79%", "elapsed_time": "2d 18h 49m 37s", "remaining_time": "11h 59m 31s"}
+{"loss": 0.04463422, "token_acc": 0.98258427, "grad_norm": 0.35510164, "learning_rate": 5.6e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231178, "epoch": 4.23965241, "global_step/max_steps": "55620/65595", "percentage": "84.79%", "elapsed_time": "2d 18h 49m 51s", "remaining_time": "11h 59m 8s"}
+{"loss": 0.03164156, "token_acc": 0.98812217, "grad_norm": 0.8370899, "learning_rate": 5.59e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231183, "epoch": 4.24003354, "global_step/max_steps": "55625/65595", "percentage": "84.80%", "elapsed_time": "2d 18h 50m 8s", "remaining_time": "11h 58m 45s"}
+{"loss": 0.020559, "token_acc": 0.99522546, "grad_norm": 0.95739156, "learning_rate": 5.59e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231191, "epoch": 4.24041467, "global_step/max_steps": "55630/65595", "percentage": "84.81%", "elapsed_time": "2d 18h 50m 21s", "remaining_time": "11h 58m 22s"}
+{"loss": 0.04411881, "token_acc": 0.98002148, "grad_norm": 0.95670241, "learning_rate": 5.58e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231195, "epoch": 4.24079579, "global_step/max_steps": "55635/65595", "percentage": "84.82%", "elapsed_time": "2d 18h 50m 38s", "remaining_time": "11h 58m 0s"}
+{"loss": 0.02476047, "token_acc": 0.98954174, "grad_norm": 0.9903087, "learning_rate": 5.58e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2312, "epoch": 4.24117692, "global_step/max_steps": "55640/65595", "percentage": "84.82%", "elapsed_time": "2d 18h 50m 55s", "remaining_time": "11h 57m 37s"}
+{"loss": 0.03172904, "token_acc": 0.9842922, "grad_norm": 3.71709752, "learning_rate": 5.57e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231206, "epoch": 4.24155805, "global_step/max_steps": "55645/65595", "percentage": "84.83%", "elapsed_time": "2d 18h 51m 10s", "remaining_time": "11h 57m 14s"}
+{"loss": 0.02364023, "token_acc": 0.99355375, "grad_norm": 0.44930673, "learning_rate": 5.57e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231212, "epoch": 4.24193917, "global_step/max_steps": "55650/65595", "percentage": "84.84%", "elapsed_time": "2d 18h 51m 25s", "remaining_time": "11h 56m 52s"}
+{"loss": 0.03113828, "token_acc": 0.98842714, "grad_norm": 1.25039804, "learning_rate": 5.56e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231218, "epoch": 4.2423203, "global_step/max_steps": "55655/65595", "percentage": "84.85%", "elapsed_time": "2d 18h 51m 41s", "remaining_time": "11h 56m 29s"}
+{"loss": 0.04189582, "token_acc": 0.98450635, "grad_norm": 0.97052503, "learning_rate": 5.55e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231222, "epoch": 4.24270143, "global_step/max_steps": "55660/65595", "percentage": "84.85%", "elapsed_time": "2d 18h 51m 58s", "remaining_time": "11h 56m 6s"}
+{"loss": 0.04755588, "token_acc": 0.98068966, "grad_norm": 1.63708067, "learning_rate": 5.55e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231228, "epoch": 4.24308255, "global_step/max_steps": "55665/65595", "percentage": "84.86%", "elapsed_time": "2d 18h 52m 13s", "remaining_time": "11h 55m 44s"}
+{"loss": 0.03403977, "token_acc": 0.9843487, "grad_norm": 0.96218479, "learning_rate": 5.54e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231232, "epoch": 4.24346368, "global_step/max_steps": "55670/65595", "percentage": "84.87%", "elapsed_time": "2d 18h 52m 31s", "remaining_time": "11h 55m 21s"}
+{"loss": 0.02431726, "token_acc": 0.99095841, "grad_norm": 1.24996936, "learning_rate": 5.54e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231239, "epoch": 4.24384481, "global_step/max_steps": "55675/65595", "percentage": "84.88%", "elapsed_time": "2d 18h 52m 46s", "remaining_time": "11h 54m 59s"}
+{"loss": 0.03041603, "token_acc": 0.98840181, "grad_norm": 1.28618693, "learning_rate": 5.53e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231244, "epoch": 4.24422593, "global_step/max_steps": "55680/65595", "percentage": "84.88%", "elapsed_time": "2d 18h 53m 2s", "remaining_time": "11h 54m 36s"}
+{"loss": 0.03117044, "token_acc": 0.98723676, "grad_norm": 0.88490129, "learning_rate": 5.53e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231249, "epoch": 4.24460706, "global_step/max_steps": "55685/65595", "percentage": "84.89%", "elapsed_time": "2d 18h 53m 18s", "remaining_time": "11h 54m 13s"}
+{"loss": 0.02484829, "token_acc": 0.98969473, "grad_norm": 0.70048851, "learning_rate": 5.52e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231254, "epoch": 4.24498819, "global_step/max_steps": "55690/65595", "percentage": "84.90%", "elapsed_time": "2d 18h 53m 35s", "remaining_time": "11h 53m 51s"}
+{"loss": 0.03124633, "token_acc": 0.98688298, "grad_norm": 1.24005795, "learning_rate": 5.52e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231261, "epoch": 4.24536931, "global_step/max_steps": "55695/65595", "percentage": "84.91%", "elapsed_time": "2d 18h 53m 49s", "remaining_time": "11h 53m 28s"}
+{"loss": 0.04337736, "token_acc": 0.98488232, "grad_norm": 0.5791195, "learning_rate": 5.51e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231265, "epoch": 4.24575044, "global_step/max_steps": "55700/65595", "percentage": "84.92%", "elapsed_time": "2d 18h 54m 7s", "remaining_time": "11h 53m 6s"}
+{"loss": 0.05911586, "token_acc": 0.96947061, "grad_norm": 1.28398407, "learning_rate": 5.5e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231271, "epoch": 4.24613156, "global_step/max_steps": "55705/65595", "percentage": "84.92%", "elapsed_time": "2d 18h 54m 22s", "remaining_time": "11h 52m 43s"}
+{"loss": 0.04079668, "token_acc": 0.98123134, "grad_norm": 1.04793239, "learning_rate": 5.5e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231274, "epoch": 4.24651269, "global_step/max_steps": "55710/65595", "percentage": "84.93%", "elapsed_time": "2d 18h 54m 41s", "remaining_time": "11h 52m 21s"}
+{"loss": 0.03109516, "token_acc": 0.98677443, "grad_norm": 0.69339454, "learning_rate": 5.49e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23128, "epoch": 4.24689382, "global_step/max_steps": "55715/65595", "percentage": "84.94%", "elapsed_time": "2d 18h 54m 56s", "remaining_time": "11h 51m 58s"}
+{"loss": 0.04874085, "token_acc": 0.97759879, "grad_norm": 1.00380528, "learning_rate": 5.49e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231286, "epoch": 4.24727494, "global_step/max_steps": "55720/65595", "percentage": "84.95%", "elapsed_time": "2d 18h 55m 11s", "remaining_time": "11h 51m 35s"}
+{"loss": 0.03826971, "token_acc": 0.98428433, "grad_norm": 2.2682147, "learning_rate": 5.48e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231291, "epoch": 4.24765607, "global_step/max_steps": "55725/65595", "percentage": "84.95%", "elapsed_time": "2d 18h 55m 28s", "remaining_time": "11h 51m 13s"}
+{"loss": 0.05202315, "token_acc": 0.98333808, "grad_norm": 1.26209259, "learning_rate": 5.48e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231294, "epoch": 4.2480372, "global_step/max_steps": "55730/65595", "percentage": "84.96%", "elapsed_time": "2d 18h 55m 46s", "remaining_time": "11h 50m 50s"}
+{"loss": 0.0407068, "token_acc": 0.98112407, "grad_norm": 0.60207111, "learning_rate": 5.47e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231298, "epoch": 4.24841832, "global_step/max_steps": "55735/65595", "percentage": "84.97%", "elapsed_time": "2d 18h 56m 3s", "remaining_time": "11h 50m 28s"}
+{"loss": 0.03569754, "token_acc": 0.98643995, "grad_norm": 0.84753335, "learning_rate": 5.47e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231303, "epoch": 4.24879945, "global_step/max_steps": "55740/65595", "percentage": "84.98%", "elapsed_time": "2d 18h 56m 20s", "remaining_time": "11h 50m 6s"}
+{"loss": 0.03310554, "token_acc": 0.98538487, "grad_norm": 1.01415658, "learning_rate": 5.46e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23131, "epoch": 4.24918058, "global_step/max_steps": "55745/65595", "percentage": "84.98%", "elapsed_time": "2d 18h 56m 34s", "remaining_time": "11h 49m 43s"}
+{"loss": 0.02377939, "token_acc": 0.99155556, "grad_norm": 0.93730819, "learning_rate": 5.46e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231318, "epoch": 4.2495617, "global_step/max_steps": "55750/65595", "percentage": "84.99%", "elapsed_time": "2d 18h 56m 48s", "remaining_time": "11h 49m 20s"}
+{"loss": 0.02295715, "token_acc": 0.98627002, "grad_norm": 0.90896636, "learning_rate": 5.45e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231324, "epoch": 4.24994283, "global_step/max_steps": "55755/65595", "percentage": "85.00%", "elapsed_time": "2d 18h 57m 3s", "remaining_time": "11h 48m 57s"}
+{"loss": 0.03799634, "token_acc": 0.98956377, "grad_norm": 0.76057327, "learning_rate": 5.45e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231327, "epoch": 4.25032396, "global_step/max_steps": "55760/65595", "percentage": "85.01%", "elapsed_time": "2d 18h 57m 21s", "remaining_time": "11h 48m 35s"}
+{"loss": 0.03594545, "token_acc": 0.98443735, "grad_norm": 1.03274381, "learning_rate": 5.44e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231332, "epoch": 4.25070508, "global_step/max_steps": "55765/65595", "percentage": "85.01%", "elapsed_time": "2d 18h 57m 38s", "remaining_time": "11h 48m 12s"}
+{"loss": 0.03485517, "token_acc": 0.9847624, "grad_norm": 0.95508617, "learning_rate": 5.43e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231338, "epoch": 4.25108621, "global_step/max_steps": "55770/65595", "percentage": "85.02%", "elapsed_time": "2d 18h 57m 53s", "remaining_time": "11h 47m 49s"}
+{"loss": 0.04105111, "token_acc": 0.98398675, "grad_norm": 0.95752627, "learning_rate": 5.43e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231344, "epoch": 4.25146734, "global_step/max_steps": "55775/65595", "percentage": "85.03%", "elapsed_time": "2d 18h 58m 9s", "remaining_time": "11h 47m 27s"}
+{"loss": 0.03346918, "token_acc": 0.98847695, "grad_norm": 1.46277165, "learning_rate": 5.42e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231349, "epoch": 4.25184846, "global_step/max_steps": "55780/65595", "percentage": "85.04%", "elapsed_time": "2d 18h 58m 25s", "remaining_time": "11h 47m 4s"}
+{"loss": 0.03405191, "token_acc": 0.98584174, "grad_norm": 1.39877677, "learning_rate": 5.42e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231353, "epoch": 4.25222959, "global_step/max_steps": "55785/65595", "percentage": "85.04%", "elapsed_time": "2d 18h 58m 42s", "remaining_time": "11h 46m 42s"}
+{"loss": 0.04685159, "token_acc": 0.98059122, "grad_norm": 2.22026968, "learning_rate": 5.41e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231355, "epoch": 4.25261072, "global_step/max_steps": "55790/65595", "percentage": "85.05%", "elapsed_time": "2d 18h 59m 1s", "remaining_time": "11h 46m 20s"}
+{"loss": 0.03173723, "token_acc": 0.98379735, "grad_norm": 2.27985382, "learning_rate": 5.41e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231361, "epoch": 4.25299184, "global_step/max_steps": "55795/65595", "percentage": "85.06%", "elapsed_time": "2d 18h 59m 17s", "remaining_time": "11h 45m 57s"}
+{"loss": 0.03275462, "token_acc": 0.98574144, "grad_norm": 1.30443311, "learning_rate": 5.4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231367, "epoch": 4.25337297, "global_step/max_steps": "55800/65595", "percentage": "85.07%", "elapsed_time": "2d 18h 59m 33s", "remaining_time": "11h 45m 35s"}
+{"eval_loss": 0.05061187, "eval_token_acc": 0.97972261, "eval_runtime": 186.1415, "eval_samples_per_second": 2.847, "eval_steps_per_second": 2.847, "epoch": 4.25337297, "global_step/max_steps": "55800/65595", "percentage": "85.07%", "elapsed_time": "2d 19h 2m 39s", "remaining_time": "11h 46m 7s"}
+{"loss": 0.03288579, "token_acc": 0.97990626, "grad_norm": 0.10742888, "learning_rate": 5.4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231195, "epoch": 4.2537541, "global_step/max_steps": "55805/65595", "percentage": "85.08%", "elapsed_time": "2d 19h 2m 53s", "remaining_time": "11h 45m 44s"}
+{"loss": 0.03049021, "token_acc": 0.98739439, "grad_norm": 0.88811111, "learning_rate": 5.39e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231198, "epoch": 4.25413522, "global_step/max_steps": "55810/65595", "percentage": "85.08%", "elapsed_time": "2d 19h 3m 12s", "remaining_time": "11h 45m 22s"}
+{"loss": 0.02713294, "token_acc": 0.98678171, "grad_norm": 1.10084414, "learning_rate": 5.39e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231202, "epoch": 4.25451635, "global_step/max_steps": "55815/65595", "percentage": "85.09%", "elapsed_time": "2d 19h 3m 29s", "remaining_time": "11h 45m 0s"}
+{"loss": 0.01674599, "token_acc": 0.99271764, "grad_norm": 1.03975928, "learning_rate": 5.38e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231209, "epoch": 4.25489748, "global_step/max_steps": "55820/65595", "percentage": "85.10%", "elapsed_time": "2d 19h 3m 44s", "remaining_time": "11h 44m 37s"}
+{"loss": 0.02723712, "token_acc": 0.98842476, "grad_norm": 0.92395204, "learning_rate": 5.37e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231214, "epoch": 4.2552786, "global_step/max_steps": "55825/65595", "percentage": "85.11%", "elapsed_time": "2d 19h 4m 0s", "remaining_time": "11h 44m 14s"}
+{"loss": 0.02771418, "token_acc": 0.98863636, "grad_norm": 1.06286955, "learning_rate": 5.37e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231219, "epoch": 4.25565973, "global_step/max_steps": "55830/65595", "percentage": "85.11%", "elapsed_time": "2d 19h 4m 16s", "remaining_time": "11h 43m 52s"}
+{"loss": 0.03212622, "token_acc": 0.9869012, "grad_norm": 0.84081644, "learning_rate": 5.36e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231224, "epoch": 4.25604086, "global_step/max_steps": "55835/65595", "percentage": "85.12%", "elapsed_time": "2d 19h 4m 33s", "remaining_time": "11h 43m 29s"}
+{"loss": 0.0275046, "token_acc": 0.98966705, "grad_norm": 0.72799134, "learning_rate": 5.36e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23123, "epoch": 4.25642198, "global_step/max_steps": "55840/65595", "percentage": "85.13%", "elapsed_time": "2d 19h 4m 49s", "remaining_time": "11h 43m 7s"}
+{"loss": 0.04292771, "token_acc": 0.98515927, "grad_norm": 0.97921938, "learning_rate": 5.35e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231231, "epoch": 4.25680311, "global_step/max_steps": "55845/65595", "percentage": "85.14%", "elapsed_time": "2d 19h 5m 9s", "remaining_time": "11h 42m 45s"}
+{"loss": 0.02330758, "token_acc": 0.98950525, "grad_norm": 0.67386574, "learning_rate": 5.35e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231233, "epoch": 4.25718424, "global_step/max_steps": "55850/65595", "percentage": "85.14%", "elapsed_time": "2d 19h 5m 28s", "remaining_time": "11h 42m 23s"}
+{"loss": 0.04608, "token_acc": 0.98840838, "grad_norm": 0.65108043, "learning_rate": 5.34e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23124, "epoch": 4.25756536, "global_step/max_steps": "55855/65595", "percentage": "85.15%", "elapsed_time": "2d 19h 5m 43s", "remaining_time": "11h 42m 0s"}
+{"loss": 0.03260181, "token_acc": 0.98635394, "grad_norm": 2.2415092, "learning_rate": 5.34e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231246, "epoch": 4.25794649, "global_step/max_steps": "55860/65595", "percentage": "85.16%", "elapsed_time": "2d 19h 5m 59s", "remaining_time": "11h 41m 37s"}
+{"loss": 0.02735026, "token_acc": 0.99135876, "grad_norm": 0.73246825, "learning_rate": 5.33e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231253, "epoch": 4.25832762, "global_step/max_steps": "55865/65595", "percentage": "85.17%", "elapsed_time": "2d 19h 6m 13s", "remaining_time": "11h 41m 14s"}
+{"loss": 0.03706402, "token_acc": 0.98807881, "grad_norm": 0.88223761, "learning_rate": 5.33e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231254, "epoch": 4.25870874, "global_step/max_steps": "55870/65595", "percentage": "85.17%", "elapsed_time": "2d 19h 6m 33s", "remaining_time": "11h 40m 52s"}
+{"loss": 0.02768633, "token_acc": 0.99041714, "grad_norm": 0.79768234, "learning_rate": 5.32e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23126, "epoch": 4.25908987, "global_step/max_steps": "55875/65595", "percentage": "85.18%", "elapsed_time": "2d 19h 6m 48s", "remaining_time": "11h 40m 30s"}
+{"loss": 0.02208852, "token_acc": 0.98907927, "grad_norm": 0.96166527, "learning_rate": 5.32e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231265, "epoch": 4.259471, "global_step/max_steps": "55880/65595", "percentage": "85.19%", "elapsed_time": "2d 19h 7m 5s", "remaining_time": "11h 40m 7s"}
+{"loss": 0.04564012, "token_acc": 0.98528, "grad_norm": 3.02650952, "learning_rate": 5.31e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231271, "epoch": 4.25985212, "global_step/max_steps": "55885/65595", "percentage": "85.20%", "elapsed_time": "2d 19h 7m 20s", "remaining_time": "11h 39m 44s"}
+{"loss": 0.03886064, "token_acc": 0.98334105, "grad_norm": 0.57746542, "learning_rate": 5.3e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231276, "epoch": 4.26023325, "global_step/max_steps": "55890/65595", "percentage": "85.20%", "elapsed_time": "2d 19h 7m 36s", "remaining_time": "11h 39m 22s"}
+{"loss": 0.01950732, "token_acc": 0.99300917, "grad_norm": 0.54667276, "learning_rate": 5.3e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231281, "epoch": 4.26061438, "global_step/max_steps": "55895/65595", "percentage": "85.21%", "elapsed_time": "2d 19h 7m 53s", "remaining_time": "11h 39m 0s"}
+{"loss": 0.01564678, "token_acc": 0.99100983, "grad_norm": 1.10774517, "learning_rate": 5.29e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231286, "epoch": 4.2609955, "global_step/max_steps": "55900/65595", "percentage": "85.22%", "elapsed_time": "2d 19h 8m 10s", "remaining_time": "11h 38m 37s"}
+{"loss": 0.02945254, "token_acc": 0.99007796, "grad_norm": 0.2987518, "learning_rate": 5.29e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231292, "epoch": 4.26137663, "global_step/max_steps": "55905/65595", "percentage": "85.23%", "elapsed_time": "2d 19h 8m 25s", "remaining_time": "11h 38m 14s"}
+{"loss": 0.03892262, "token_acc": 0.98331078, "grad_norm": 2.2152915, "learning_rate": 5.28e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231299, "epoch": 4.26175776, "global_step/max_steps": "55910/65595", "percentage": "85.24%", "elapsed_time": "2d 19h 8m 39s", "remaining_time": "11h 37m 51s"}
+{"loss": 0.02472126, "token_acc": 0.99384345, "grad_norm": 1.4809159, "learning_rate": 5.28e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231307, "epoch": 4.26213888, "global_step/max_steps": "55915/65595", "percentage": "85.24%", "elapsed_time": "2d 19h 8m 52s", "remaining_time": "11h 37m 28s"}
+{"loss": 0.02700349, "token_acc": 0.98556231, "grad_norm": 0.80187857, "learning_rate": 5.27e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231312, "epoch": 4.26252001, "global_step/max_steps": "55920/65595", "percentage": "85.25%", "elapsed_time": "2d 19h 9m 9s", "remaining_time": "11h 37m 6s"}
+{"loss": 0.04031467, "token_acc": 0.98530955, "grad_norm": 0.83849204, "learning_rate": 5.27e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231317, "epoch": 4.26290114, "global_step/max_steps": "55925/65595", "percentage": "85.26%", "elapsed_time": "2d 19h 9m 25s", "remaining_time": "11h 36m 43s"}
+{"loss": 0.03568235, "token_acc": 0.99146667, "grad_norm": 2.03219485, "learning_rate": 5.26e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231323, "epoch": 4.26328226, "global_step/max_steps": "55930/65595", "percentage": "85.27%", "elapsed_time": "2d 19h 9m 41s", "remaining_time": "11h 36m 21s"}
+{"loss": 0.04486963, "token_acc": 0.98821711, "grad_norm": 0.52278477, "learning_rate": 5.26e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231326, "epoch": 4.26366339, "global_step/max_steps": "55935/65595", "percentage": "85.27%", "elapsed_time": "2d 19h 9m 59s", "remaining_time": "11h 35m 58s"}
+{"loss": 0.04302585, "token_acc": 0.98676192, "grad_norm": 2.02907467, "learning_rate": 5.25e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23133, "epoch": 4.26404452, "global_step/max_steps": "55940/65595", "percentage": "85.28%", "elapsed_time": "2d 19h 10m 17s", "remaining_time": "11h 35m 36s"}
+{"loss": 0.03480332, "token_acc": 0.98660493, "grad_norm": 1.40656281, "learning_rate": 5.25e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231334, "epoch": 4.26442564, "global_step/max_steps": "55945/65595", "percentage": "85.29%", "elapsed_time": "2d 19h 10m 34s", "remaining_time": "11h 35m 14s"}
+{"loss": 0.02525639, "token_acc": 0.99139352, "grad_norm": 0.66315997, "learning_rate": 5.24e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231339, "epoch": 4.26480677, "global_step/max_steps": "55950/65595", "percentage": "85.30%", "elapsed_time": "2d 19h 10m 51s", "remaining_time": "11h 34m 51s"}
+{"loss": 0.05578843, "token_acc": 0.97792969, "grad_norm": 1.83077538, "learning_rate": 5.24e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231344, "epoch": 4.2651879, "global_step/max_steps": "55955/65595", "percentage": "85.30%", "elapsed_time": "2d 19h 11m 6s", "remaining_time": "11h 34m 29s"}
+{"loss": 0.03542044, "token_acc": 0.98264151, "grad_norm": 1.12655604, "learning_rate": 5.23e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231351, "epoch": 4.26556902, "global_step/max_steps": "55960/65595", "percentage": "85.31%", "elapsed_time": "2d 19h 11m 21s", "remaining_time": "11h 34m 6s"}
+{"loss": 0.02178962, "token_acc": 0.99219858, "grad_norm": 0.48386157, "learning_rate": 5.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231355, "epoch": 4.26595015, "global_step/max_steps": "55965/65595", "percentage": "85.32%", "elapsed_time": "2d 19h 11m 38s", "remaining_time": "11h 33m 43s"}
+{"loss": 0.03540994, "token_acc": 0.98953007, "grad_norm": 2.88983512, "learning_rate": 5.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231362, "epoch": 4.26633128, "global_step/max_steps": "55970/65595", "percentage": "85.33%", "elapsed_time": "2d 19h 11m 53s", "remaining_time": "11h 33m 21s"}
+{"loss": 0.03228877, "token_acc": 0.99078258, "grad_norm": 0.91551346, "learning_rate": 5.21e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231367, "epoch": 4.2667124, "global_step/max_steps": "55975/65595", "percentage": "85.33%", "elapsed_time": "2d 19h 12m 9s", "remaining_time": "11h 32m 58s"}
+{"loss": 0.02749614, "token_acc": 0.98812616, "grad_norm": 0.91923356, "learning_rate": 5.21e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231371, "epoch": 4.26709353, "global_step/max_steps": "55980/65595", "percentage": "85.34%", "elapsed_time": "2d 19h 12m 27s", "remaining_time": "11h 32m 36s"}
+{"loss": 0.04288992, "token_acc": 0.98701003, "grad_norm": 2.31404567, "learning_rate": 5.2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231377, "epoch": 4.26747466, "global_step/max_steps": "55985/65595", "percentage": "85.35%", "elapsed_time": "2d 19h 12m 42s", "remaining_time": "11h 32m 13s"}
+{"loss": 0.0251658, "token_acc": 0.99070012, "grad_norm": 1.18886471, "learning_rate": 5.2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231381, "epoch": 4.26785578, "global_step/max_steps": "55990/65595", "percentage": "85.36%", "elapsed_time": "2d 19h 12m 59s", "remaining_time": "11h 31m 51s"}
+{"loss": 0.03362097, "token_acc": 0.9871134, "grad_norm": 0.7063604, "learning_rate": 5.19e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231386, "epoch": 4.26823691, "global_step/max_steps": "55995/65595", "percentage": "85.36%", "elapsed_time": "2d 19h 13m 16s", "remaining_time": "11h 31m 28s"}
+{"loss": 0.03024986, "token_acc": 0.98305085, "grad_norm": 1.82110727, "learning_rate": 5.19e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231392, "epoch": 4.26861803, "global_step/max_steps": "56000/65595", "percentage": "85.37%", "elapsed_time": "2d 19h 13m 31s", "remaining_time": "11h 31m 5s"}
+{"eval_loss": 0.05043501, "eval_token_acc": 0.97973014, "eval_runtime": 186.1172, "eval_samples_per_second": 2.848, "eval_steps_per_second": 2.848, "epoch": 4.26861803, "global_step/max_steps": "56000/65595", "percentage": "85.37%", "elapsed_time": "2d 19h 16m 37s", "remaining_time": "11h 31m 37s"}
+{"loss": 0.02931828, "token_acc": 0.98003582, "grad_norm": 0.79552537, "learning_rate": 5.18e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231218, "epoch": 4.26899916, "global_step/max_steps": "56005/65595", "percentage": "85.38%", "elapsed_time": "2d 19h 16m 55s", "remaining_time": "11h 31m 15s"}
+{"loss": 0.03989468, "token_acc": 0.98177857, "grad_norm": 0.57671165, "learning_rate": 5.18e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231224, "epoch": 4.26938029, "global_step/max_steps": "56010/65595", "percentage": "85.39%", "elapsed_time": "2d 19h 17m 10s", "remaining_time": "11h 30m 52s"}
+{"loss": 0.02735732, "token_acc": 0.98824221, "grad_norm": 0.88385767, "learning_rate": 5.17e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231232, "epoch": 4.26976141, "global_step/max_steps": "56015/65595", "percentage": "85.40%", "elapsed_time": "2d 19h 17m 23s", "remaining_time": "11h 30m 29s"}
+{"loss": 0.03018256, "token_acc": 0.98755187, "grad_norm": 0.83911222, "learning_rate": 5.17e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231238, "epoch": 4.27014254, "global_step/max_steps": "56020/65595", "percentage": "85.40%", "elapsed_time": "2d 19h 17m 39s", "remaining_time": "11h 30m 7s"}
+{"loss": 0.03469515, "token_acc": 0.98900596, "grad_norm": 1.38804734, "learning_rate": 5.16e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231243, "epoch": 4.27052367, "global_step/max_steps": "56025/65595", "percentage": "85.41%", "elapsed_time": "2d 19h 17m 54s", "remaining_time": "11h 29m 44s"}
+{"loss": 0.02134821, "token_acc": 0.99002522, "grad_norm": 0.8367213, "learning_rate": 5.16e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231248, "epoch": 4.27090479, "global_step/max_steps": "56030/65595", "percentage": "85.42%", "elapsed_time": "2d 19h 18m 11s", "remaining_time": "11h 29m 22s"}
+{"loss": 0.02963692, "token_acc": 0.98898426, "grad_norm": 1.47213626, "learning_rate": 5.15e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231249, "epoch": 4.27128592, "global_step/max_steps": "56035/65595", "percentage": "85.43%", "elapsed_time": "2d 19h 18m 31s", "remaining_time": "11h 29m 0s"}
+{"loss": 0.03429179, "token_acc": 0.98939814, "grad_norm": 1.46270418, "learning_rate": 5.14e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231253, "epoch": 4.27166705, "global_step/max_steps": "56040/65595", "percentage": "85.43%", "elapsed_time": "2d 19h 18m 49s", "remaining_time": "11h 28m 38s"}
+{"loss": 0.02333556, "token_acc": 0.99216091, "grad_norm": 0.91799879, "learning_rate": 5.14e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231254, "epoch": 4.27204817, "global_step/max_steps": "56045/65595", "percentage": "85.44%", "elapsed_time": "2d 19h 19m 10s", "remaining_time": "11h 28m 16s"}
+{"loss": 0.02942329, "token_acc": 0.99268817, "grad_norm": 1.33452797, "learning_rate": 5.13e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231261, "epoch": 4.2724293, "global_step/max_steps": "56050/65595", "percentage": "85.45%", "elapsed_time": "2d 19h 19m 24s", "remaining_time": "11h 27m 53s"}
+{"loss": 0.03044631, "token_acc": 0.98995929, "grad_norm": 1.61842763, "learning_rate": 5.13e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231265, "epoch": 4.27281043, "global_step/max_steps": "56055/65595", "percentage": "85.46%", "elapsed_time": "2d 19h 19m 41s", "remaining_time": "11h 27m 30s"}
+{"loss": 0.04707073, "token_acc": 0.98568376, "grad_norm": 1.27670407, "learning_rate": 5.12e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23127, "epoch": 4.27319155, "global_step/max_steps": "56060/65595", "percentage": "85.46%", "elapsed_time": "2d 19h 19m 58s", "remaining_time": "11h 27m 8s"}
+{"loss": 0.03010045, "token_acc": 0.98679472, "grad_norm": 2.88455629, "learning_rate": 5.12e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231277, "epoch": 4.27357268, "global_step/max_steps": "56065/65595", "percentage": "85.47%", "elapsed_time": "2d 19h 20m 13s", "remaining_time": "11h 26m 45s"}
+{"loss": 0.05185848, "token_acc": 0.98271651, "grad_norm": 2.13239908, "learning_rate": 5.11e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231282, "epoch": 4.27395381, "global_step/max_steps": "56070/65595", "percentage": "85.48%", "elapsed_time": "2d 19h 20m 29s", "remaining_time": "11h 26m 23s"}
+{"loss": 0.03215885, "token_acc": 0.98643082, "grad_norm": 0.88324165, "learning_rate": 5.11e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231288, "epoch": 4.27433493, "global_step/max_steps": "56075/65595", "percentage": "85.49%", "elapsed_time": "2d 19h 20m 44s", "remaining_time": "11h 26m 0s"}
+{"loss": 0.02322885, "token_acc": 0.99069849, "grad_norm": 0.52652746, "learning_rate": 5.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231292, "epoch": 4.27471606, "global_step/max_steps": "56080/65595", "percentage": "85.49%", "elapsed_time": "2d 19h 21m 2s", "remaining_time": "11h 25m 38s"}
+{"loss": 0.0341535, "token_acc": 0.98706038, "grad_norm": 3.23638678, "learning_rate": 5.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231299, "epoch": 4.27509719, "global_step/max_steps": "56085/65595", "percentage": "85.50%", "elapsed_time": "2d 19h 21m 15s", "remaining_time": "11h 25m 15s"}
+{"loss": 0.02876806, "token_acc": 0.99099099, "grad_norm": 2.27708411, "learning_rate": 5.09e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231306, "epoch": 4.27547831, "global_step/max_steps": "56090/65595", "percentage": "85.51%", "elapsed_time": "2d 19h 21m 30s", "remaining_time": "11h 24m 52s"}
+{"loss": 0.03038749, "token_acc": 0.98215702, "grad_norm": 1.09015608, "learning_rate": 5.09e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231312, "epoch": 4.27585944, "global_step/max_steps": "56095/65595", "percentage": "85.52%", "elapsed_time": "2d 19h 21m 45s", "remaining_time": "11h 24m 29s"}
+{"loss": 0.04598429, "token_acc": 0.98455814, "grad_norm": 4.9131403, "learning_rate": 5.08e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231316, "epoch": 4.27624057, "global_step/max_steps": "56100/65595", "percentage": "85.52%", "elapsed_time": "2d 19h 22m 2s", "remaining_time": "11h 24m 7s"}
+{"loss": 0.03317737, "token_acc": 0.98441674, "grad_norm": 1.18778741, "learning_rate": 5.08e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231321, "epoch": 4.27662169, "global_step/max_steps": "56105/65595", "percentage": "85.53%", "elapsed_time": "2d 19h 22m 19s", "remaining_time": "11h 23m 44s"}
+{"loss": 0.03173681, "token_acc": 0.98903384, "grad_norm": 1.08171546, "learning_rate": 5.07e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231327, "epoch": 4.27700282, "global_step/max_steps": "56110/65595", "percentage": "85.54%", "elapsed_time": "2d 19h 22m 35s", "remaining_time": "11h 23m 22s"}
+{"loss": 0.02888032, "token_acc": 0.98760284, "grad_norm": 0.78669012, "learning_rate": 5.07e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231328, "epoch": 4.27738395, "global_step/max_steps": "56115/65595", "percentage": "85.55%", "elapsed_time": "2d 19h 22m 55s", "remaining_time": "11h 23m 0s"}
+{"loss": 0.04040428, "token_acc": 0.981364, "grad_norm": 1.29546523, "learning_rate": 5.06e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231333, "epoch": 4.27776507, "global_step/max_steps": "56120/65595", "percentage": "85.56%", "elapsed_time": "2d 19h 23m 11s", "remaining_time": "11h 22m 37s"}
+{"loss": 0.02851182, "token_acc": 0.99053254, "grad_norm": 0.7754842, "learning_rate": 5.06e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231341, "epoch": 4.2781462, "global_step/max_steps": "56125/65595", "percentage": "85.56%", "elapsed_time": "2d 19h 23m 24s", "remaining_time": "11h 22m 14s"}
+{"loss": 0.03959351, "token_acc": 0.98398268, "grad_norm": 1.33869517, "learning_rate": 5.05e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231347, "epoch": 4.27852733, "global_step/max_steps": "56130/65595", "percentage": "85.57%", "elapsed_time": "2d 19h 23m 40s", "remaining_time": "11h 21m 52s"}
+{"loss": 0.03813305, "token_acc": 0.98652232, "grad_norm": 1.12549627, "learning_rate": 5.04e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231353, "epoch": 4.27890845, "global_step/max_steps": "56135/65595", "percentage": "85.58%", "elapsed_time": "2d 19h 23m 55s", "remaining_time": "11h 21m 29s"}
+{"loss": 0.02630367, "token_acc": 0.98910727, "grad_norm": 0.78851879, "learning_rate": 5.04e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23136, "epoch": 4.27928958, "global_step/max_steps": "56140/65595", "percentage": "85.59%", "elapsed_time": "2d 19h 24m 9s", "remaining_time": "11h 21m 6s"}
+{"loss": 0.03664742, "token_acc": 0.98648852, "grad_norm": 1.01248264, "learning_rate": 5.03e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231365, "epoch": 4.27967071, "global_step/max_steps": "56145/65595", "percentage": "85.59%", "elapsed_time": "2d 19h 24m 26s", "remaining_time": "11h 20m 44s"}
+{"loss": 0.05330158, "token_acc": 0.98239857, "grad_norm": 2.79742002, "learning_rate": 5.03e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231372, "epoch": 4.28005183, "global_step/max_steps": "56150/65595", "percentage": "85.60%", "elapsed_time": "2d 19h 24m 40s", "remaining_time": "11h 20m 21s"}
+{"loss": 0.03743847, "token_acc": 0.98560209, "grad_norm": 1.33323205, "learning_rate": 5.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231379, "epoch": 4.28043296, "global_step/max_steps": "56155/65595", "percentage": "85.61%", "elapsed_time": "2d 19h 24m 54s", "remaining_time": "11h 19m 58s"}
+{"loss": 0.01651999, "token_acc": 0.99185739, "grad_norm": 0.632613, "learning_rate": 5.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231381, "epoch": 4.28081409, "global_step/max_steps": "56160/65595", "percentage": "85.62%", "elapsed_time": "2d 19h 25m 14s", "remaining_time": "11h 19m 36s"}
+{"loss": 0.0275262, "token_acc": 0.98641953, "grad_norm": 2.98142266, "learning_rate": 5.01e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231387, "epoch": 4.28119521, "global_step/max_steps": "56165/65595", "percentage": "85.62%", "elapsed_time": "2d 19h 25m 30s", "remaining_time": "11h 19m 13s"}
+{"loss": 0.0338643, "token_acc": 0.98389571, "grad_norm": 1.21888161, "learning_rate": 5.01e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231395, "epoch": 4.28157634, "global_step/max_steps": "56170/65595", "percentage": "85.63%", "elapsed_time": "2d 19h 25m 43s", "remaining_time": "11h 18m 50s"}
+{"loss": 0.02884451, "token_acc": 0.98881566, "grad_norm": 1.03542495, "learning_rate": 5e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2314, "epoch": 4.28195747, "global_step/max_steps": "56175/65595", "percentage": "85.64%", "elapsed_time": "2d 19h 25m 59s", "remaining_time": "11h 18m 28s"}
+{"loss": 0.06221566, "token_acc": 0.97903044, "grad_norm": 1.47127366, "learning_rate": 5e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231407, "epoch": 4.28233859, "global_step/max_steps": "56180/65595", "percentage": "85.65%", "elapsed_time": "2d 19h 26m 13s", "remaining_time": "11h 18m 5s"}
+{"loss": 0.0238048, "token_acc": 0.99035783, "grad_norm": 3.4245863, "learning_rate": 4.99e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231414, "epoch": 4.28271972, "global_step/max_steps": "56185/65595", "percentage": "85.65%", "elapsed_time": "2d 19h 26m 27s", "remaining_time": "11h 17m 42s"}
+{"loss": 0.03785799, "token_acc": 0.98528587, "grad_norm": 1.09760928, "learning_rate": 4.99e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231417, "epoch": 4.28310085, "global_step/max_steps": "56190/65595", "percentage": "85.66%", "elapsed_time": "2d 19h 26m 45s", "remaining_time": "11h 17m 20s"}
+{"loss": 0.05906889, "token_acc": 0.97684654, "grad_norm": 2.09623623, "learning_rate": 4.98e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231423, "epoch": 4.28348197, "global_step/max_steps": "56195/65595", "percentage": "85.67%", "elapsed_time": "2d 19h 27m 1s", "remaining_time": "11h 16m 57s"}
+{"loss": 0.02358838, "token_acc": 0.99055968, "grad_norm": 0.80035961, "learning_rate": 4.98e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231429, "epoch": 4.2838631, "global_step/max_steps": "56200/65595", "percentage": "85.68%", "elapsed_time": "2d 19h 27m 16s", "remaining_time": "11h 16m 35s"}
+{"eval_loss": 0.05034812, "eval_token_acc": 0.97973014, "eval_runtime": 162.042, "eval_samples_per_second": 3.271, "eval_steps_per_second": 3.271, "epoch": 4.2838631, "global_step/max_steps": "56200/65595", "percentage": "85.68%", "elapsed_time": "2d 19h 29m 58s", "remaining_time": "11h 17m 2s"}
+{"loss": 0.02811178, "token_acc": 0.97988035, "grad_norm": 2.37365484, "learning_rate": 4.97e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231283, "epoch": 4.28424423, "global_step/max_steps": "56205/65595", "percentage": "85.68%", "elapsed_time": "2d 19h 30m 12s", "remaining_time": "11h 16m 39s"}
+{"loss": 0.02487384, "token_acc": 0.98844792, "grad_norm": 0.95124829, "learning_rate": 4.97e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231288, "epoch": 4.28462535, "global_step/max_steps": "56210/65595", "percentage": "85.69%", "elapsed_time": "2d 19h 30m 27s", "remaining_time": "11h 16m 16s"}
+{"loss": 0.03191918, "token_acc": 0.98324022, "grad_norm": 1.21834934, "learning_rate": 4.96e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231295, "epoch": 4.28500648, "global_step/max_steps": "56215/65595", "percentage": "85.70%", "elapsed_time": "2d 19h 30m 42s", "remaining_time": "11h 15m 53s"}
+{"loss": 0.01554738, "token_acc": 0.99260587, "grad_norm": 0.6407907, "learning_rate": 4.96e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2313, "epoch": 4.28538761, "global_step/max_steps": "56220/65595", "percentage": "85.71%", "elapsed_time": "2d 19h 30m 58s", "remaining_time": "11h 15m 31s"}
+{"loss": 0.02682545, "token_acc": 0.98861132, "grad_norm": 0.70404595, "learning_rate": 4.95e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231305, "epoch": 4.28576873, "global_step/max_steps": "56225/65595", "percentage": "85.72%", "elapsed_time": "2d 19h 31m 15s", "remaining_time": "11h 15m 8s"}
+{"loss": 0.03095838, "token_acc": 0.99077307, "grad_norm": 0.86255854, "learning_rate": 4.95e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231311, "epoch": 4.28614986, "global_step/max_steps": "56230/65595", "percentage": "85.72%", "elapsed_time": "2d 19h 31m 30s", "remaining_time": "11h 14m 46s"}
+{"loss": 0.04194161, "token_acc": 0.9852349, "grad_norm": 1.46864343, "learning_rate": 4.94e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231317, "epoch": 4.28653099, "global_step/max_steps": "56235/65595", "percentage": "85.73%", "elapsed_time": "2d 19h 31m 45s", "remaining_time": "11h 14m 23s"}
+{"loss": 0.01748829, "token_acc": 0.99237742, "grad_norm": 0.77058077, "learning_rate": 4.94e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231324, "epoch": 4.28691211, "global_step/max_steps": "56240/65595", "percentage": "85.74%", "elapsed_time": "2d 19h 32m 0s", "remaining_time": "11h 14m 0s"}
+{"loss": 0.03352158, "token_acc": 0.98733821, "grad_norm": 0.84797305, "learning_rate": 4.93e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231331, "epoch": 4.28729324, "global_step/max_steps": "56245/65595", "percentage": "85.75%", "elapsed_time": "2d 19h 32m 14s", "remaining_time": "11h 13m 37s"}
+{"loss": 0.0218139, "token_acc": 0.98815634, "grad_norm": 1.73449063, "learning_rate": 4.92e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231338, "epoch": 4.28767437, "global_step/max_steps": "56250/65595", "percentage": "85.75%", "elapsed_time": "2d 19h 32m 28s", "remaining_time": "11h 13m 15s"}
+{"loss": 0.03527818, "token_acc": 0.98515875, "grad_norm": 0.89910948, "learning_rate": 4.92e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231344, "epoch": 4.28805549, "global_step/max_steps": "56255/65595", "percentage": "85.76%", "elapsed_time": "2d 19h 32m 44s", "remaining_time": "11h 12m 52s"}
+{"loss": 0.02449984, "token_acc": 0.99218298, "grad_norm": 0.57804203, "learning_rate": 4.91e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231347, "epoch": 4.28843662, "global_step/max_steps": "56260/65595", "percentage": "85.77%", "elapsed_time": "2d 19h 33m 2s", "remaining_time": "11h 12m 30s"}
+{"loss": 0.01602325, "token_acc": 0.99241994, "grad_norm": 0.51629454, "learning_rate": 4.91e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231352, "epoch": 4.28881775, "global_step/max_steps": "56265/65595", "percentage": "85.78%", "elapsed_time": "2d 19h 33m 18s", "remaining_time": "11h 12m 7s"}
+{"loss": 0.042593, "token_acc": 0.9876045, "grad_norm": 1.01642823, "learning_rate": 4.9e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23136, "epoch": 4.28919887, "global_step/max_steps": "56270/65595", "percentage": "85.78%", "elapsed_time": "2d 19h 33m 32s", "remaining_time": "11h 11m 44s"}
+{"loss": 0.03391156, "token_acc": 0.98297491, "grad_norm": 1.80349123, "learning_rate": 4.9e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231363, "epoch": 4.28958, "global_step/max_steps": "56275/65595", "percentage": "85.79%", "elapsed_time": "2d 19h 33m 50s", "remaining_time": "11h 11m 22s"}
+{"loss": 0.02594947, "token_acc": 0.98913346, "grad_norm": 0.88408768, "learning_rate": 4.89e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23137, "epoch": 4.28996113, "global_step/max_steps": "56280/65595", "percentage": "85.80%", "elapsed_time": "2d 19h 34m 4s", "remaining_time": "11h 10m 59s"}
+{"loss": 0.02267007, "token_acc": 0.99079709, "grad_norm": 1.03288913, "learning_rate": 4.89e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231374, "epoch": 4.29034225, "global_step/max_steps": "56285/65595", "percentage": "85.81%", "elapsed_time": "2d 19h 34m 22s", "remaining_time": "11h 10m 37s"}
+{"loss": 0.02787022, "token_acc": 0.98898989, "grad_norm": 1.04838347, "learning_rate": 4.88e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231378, "epoch": 4.29072338, "global_step/max_steps": "56290/65595", "percentage": "85.81%", "elapsed_time": "2d 19h 34m 39s", "remaining_time": "11h 10m 15s"}
+{"loss": 0.01933097, "token_acc": 0.99392559, "grad_norm": 1.25036657, "learning_rate": 4.88e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231386, "epoch": 4.2911045, "global_step/max_steps": "56295/65595", "percentage": "85.82%", "elapsed_time": "2d 19h 34m 52s", "remaining_time": "11h 9m 52s"}
+{"loss": 0.04162628, "token_acc": 0.98149456, "grad_norm": 1.8338511, "learning_rate": 4.87e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231391, "epoch": 4.29148563, "global_step/max_steps": "56300/65595", "percentage": "85.83%", "elapsed_time": "2d 19h 35m 8s", "remaining_time": "11h 9m 29s"}
+{"loss": 0.02849613, "token_acc": 0.99325236, "grad_norm": 1.38958144, "learning_rate": 4.87e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231399, "epoch": 4.29186676, "global_step/max_steps": "56305/65595", "percentage": "85.84%", "elapsed_time": "2d 19h 35m 22s", "remaining_time": "11h 9m 6s"}
+{"loss": 0.0213993, "token_acc": 0.99180088, "grad_norm": 0.98301023, "learning_rate": 4.86e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231405, "epoch": 4.29224788, "global_step/max_steps": "56310/65595", "percentage": "85.84%", "elapsed_time": "2d 19h 35m 37s", "remaining_time": "11h 8m 44s"}
+{"loss": 0.03810447, "token_acc": 0.98373984, "grad_norm": 1.58694625, "learning_rate": 4.86e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231412, "epoch": 4.29262901, "global_step/max_steps": "56315/65595", "percentage": "85.85%", "elapsed_time": "2d 19h 35m 52s", "remaining_time": "11h 8m 21s"}
+{"loss": 0.02261005, "token_acc": 0.99268704, "grad_norm": 2.22091889, "learning_rate": 4.85e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231418, "epoch": 4.29301014, "global_step/max_steps": "56320/65595", "percentage": "85.86%", "elapsed_time": "2d 19h 36m 7s", "remaining_time": "11h 7m 58s"}
+{"loss": 0.03175105, "token_acc": 0.98813242, "grad_norm": 1.15666091, "learning_rate": 4.85e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231425, "epoch": 4.29339126, "global_step/max_steps": "56325/65595", "percentage": "85.87%", "elapsed_time": "2d 19h 36m 21s", "remaining_time": "11h 7m 35s"}
+{"loss": 0.04431872, "token_acc": 0.98496693, "grad_norm": 1.03120661, "learning_rate": 4.84e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23143, "epoch": 4.29377239, "global_step/max_steps": "56330/65595", "percentage": "85.88%", "elapsed_time": "2d 19h 36m 37s", "remaining_time": "11h 7m 13s"}
+{"loss": 0.02527392, "token_acc": 0.98905325, "grad_norm": 0.62212598, "learning_rate": 4.84e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231434, "epoch": 4.29415352, "global_step/max_steps": "56335/65595", "percentage": "85.88%", "elapsed_time": "2d 19h 36m 55s", "remaining_time": "11h 6m 51s"}
+{"loss": 0.04114667, "token_acc": 0.9869186, "grad_norm": 0.02295491, "learning_rate": 4.83e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231439, "epoch": 4.29453464, "global_step/max_steps": "56340/65595", "percentage": "85.89%", "elapsed_time": "2d 19h 37m 11s", "remaining_time": "11h 6m 28s"}
+{"loss": 0.03767063, "token_acc": 0.98249865, "grad_norm": 0.74426651, "learning_rate": 4.83e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231441, "epoch": 4.29491577, "global_step/max_steps": "56345/65595", "percentage": "85.90%", "elapsed_time": "2d 19h 37m 30s", "remaining_time": "11h 6m 6s"}
+{"loss": 0.02299189, "token_acc": 0.98981501, "grad_norm": 1.06836927, "learning_rate": 4.82e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231446, "epoch": 4.2952969, "global_step/max_steps": "56350/65595", "percentage": "85.91%", "elapsed_time": "2d 19h 37m 46s", "remaining_time": "11h 5m 44s"}
+{"loss": 0.04171613, "token_acc": 0.98018494, "grad_norm": 1.01628089, "learning_rate": 4.82e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231452, "epoch": 4.29567802, "global_step/max_steps": "56355/65595", "percentage": "85.91%", "elapsed_time": "2d 19h 38m 2s", "remaining_time": "11h 5m 21s"}
+{"loss": 0.0290104, "token_acc": 0.98736576, "grad_norm": 1.89372528, "learning_rate": 4.81e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231456, "epoch": 4.29605915, "global_step/max_steps": "56360/65595", "percentage": "85.92%", "elapsed_time": "2d 19h 38m 20s", "remaining_time": "11h 4m 59s"}
+{"loss": 0.02855513, "token_acc": 0.98981113, "grad_norm": 1.30540133, "learning_rate": 4.81e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231463, "epoch": 4.29644028, "global_step/max_steps": "56365/65595", "percentage": "85.93%", "elapsed_time": "2d 19h 38m 33s", "remaining_time": "11h 4m 36s"}
+{"loss": 0.05185282, "token_acc": 0.98154164, "grad_norm": 1.18620288, "learning_rate": 4.8e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231468, "epoch": 4.2968214, "global_step/max_steps": "56370/65595", "percentage": "85.94%", "elapsed_time": "2d 19h 38m 50s", "remaining_time": "11h 4m 13s"}
+{"loss": 0.03253807, "token_acc": 0.98563461, "grad_norm": 0.89800304, "learning_rate": 4.8e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231473, "epoch": 4.29720253, "global_step/max_steps": "56375/65595", "percentage": "85.94%", "elapsed_time": "2d 19h 39m 6s", "remaining_time": "11h 3m 51s"}
+{"loss": 0.02861038, "token_acc": 0.99006569, "grad_norm": 0.5361169, "learning_rate": 4.79e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231478, "epoch": 4.29758366, "global_step/max_steps": "56380/65595", "percentage": "85.95%", "elapsed_time": "2d 19h 39m 23s", "remaining_time": "11h 3m 29s"}
+{"loss": 0.04655301, "token_acc": 0.98419472, "grad_norm": 1.04548728, "learning_rate": 4.79e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231482, "epoch": 4.29796478, "global_step/max_steps": "56385/65595", "percentage": "85.96%", "elapsed_time": "2d 19h 39m 40s", "remaining_time": "11h 3m 6s"}
+{"loss": 0.02104972, "token_acc": 0.9915326, "grad_norm": 0.97102809, "learning_rate": 4.78e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231489, "epoch": 4.29834591, "global_step/max_steps": "56390/65595", "percentage": "85.97%", "elapsed_time": "2d 19h 39m 54s", "remaining_time": "11h 2m 43s"}
+{"loss": 0.01266474, "token_acc": 0.99347542, "grad_norm": 0.23185372, "learning_rate": 4.78e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231498, "epoch": 4.29872704, "global_step/max_steps": "56395/65595", "percentage": "85.97%", "elapsed_time": "2d 19h 40m 7s", "remaining_time": "11h 2m 20s"}
+{"loss": 0.02861812, "token_acc": 0.99038131, "grad_norm": 1.63853443, "learning_rate": 4.77e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231505, "epoch": 4.29910816, "global_step/max_steps": "56400/65595", "percentage": "85.98%", "elapsed_time": "2d 19h 40m 20s", "remaining_time": "11h 1m 57s"}
+{"eval_loss": 0.05009986, "eval_token_acc": 0.9798732, "eval_runtime": 157.5861, "eval_samples_per_second": 3.363, "eval_steps_per_second": 3.363, "epoch": 4.29910816, "global_step/max_steps": "56400/65595", "percentage": "85.98%", "elapsed_time": "2d 19h 42m 58s", "remaining_time": "11h 2m 23s"}
+{"loss": 0.02982865, "token_acc": 0.98014069, "grad_norm": 1.36064589, "learning_rate": 4.77e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231362, "epoch": 4.29948929, "global_step/max_steps": "56405/65595", "percentage": "85.99%", "elapsed_time": "2d 19h 43m 13s", "remaining_time": "11h 2m 0s"}
+{"loss": 0.02670426, "token_acc": 0.98674087, "grad_norm": 0.88465393, "learning_rate": 4.76e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231367, "epoch": 4.29987042, "global_step/max_steps": "56410/65595", "percentage": "86.00%", "elapsed_time": "2d 19h 43m 29s", "remaining_time": "11h 1m 38s"}
+{"loss": 0.0329857, "token_acc": 0.98965922, "grad_norm": 1.20486975, "learning_rate": 4.76e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231374, "epoch": 4.30025154, "global_step/max_steps": "56415/65595", "percentage": "86.01%", "elapsed_time": "2d 19h 43m 43s", "remaining_time": "11h 1m 15s"}
+{"loss": 0.02760149, "token_acc": 0.98174505, "grad_norm": 0.44583771, "learning_rate": 4.75e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231382, "epoch": 4.30063267, "global_step/max_steps": "56420/65595", "percentage": "86.01%", "elapsed_time": "2d 19h 43m 57s", "remaining_time": "11h 0m 52s"}
+{"loss": 0.02856729, "token_acc": 0.98656854, "grad_norm": 1.34440029, "learning_rate": 4.75e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231387, "epoch": 4.3010138, "global_step/max_steps": "56425/65595", "percentage": "86.02%", "elapsed_time": "2d 19h 44m 12s", "remaining_time": "11h 0m 30s"}
+{"loss": 0.02535433, "token_acc": 0.98937583, "grad_norm": 0.76025623, "learning_rate": 4.74e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231394, "epoch": 4.30139492, "global_step/max_steps": "56430/65595", "percentage": "86.03%", "elapsed_time": "2d 19h 44m 27s", "remaining_time": "11h 0m 7s"}
+{"loss": 0.02945156, "token_acc": 0.98755777, "grad_norm": 0.97406334, "learning_rate": 4.73e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231402, "epoch": 4.30177605, "global_step/max_steps": "56435/65595", "percentage": "86.04%", "elapsed_time": "2d 19h 44m 40s", "remaining_time": "10h 59m 44s"}
+{"loss": 0.02490328, "token_acc": 0.98849132, "grad_norm": 1.11556828, "learning_rate": 4.73e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231407, "epoch": 4.30215718, "global_step/max_steps": "56440/65595", "percentage": "86.04%", "elapsed_time": "2d 19h 44m 57s", "remaining_time": "10h 59m 22s"}
+{"loss": 0.02688722, "token_acc": 0.99047754, "grad_norm": 1.50055552, "learning_rate": 4.72e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231408, "epoch": 4.3025383, "global_step/max_steps": "56445/65595", "percentage": "86.05%", "elapsed_time": "2d 19h 45m 17s", "remaining_time": "10h 59m 0s"}
+{"loss": 0.04472792, "token_acc": 0.98018018, "grad_norm": 0.9731636, "learning_rate": 4.72e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231416, "epoch": 4.30291943, "global_step/max_steps": "56450/65595", "percentage": "86.06%", "elapsed_time": "2d 19h 45m 30s", "remaining_time": "10h 58m 37s"}
+{"loss": 0.03467516, "token_acc": 0.98824248, "grad_norm": 0.75002849, "learning_rate": 4.71e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231421, "epoch": 4.30330056, "global_step/max_steps": "56455/65595", "percentage": "86.07%", "elapsed_time": "2d 19h 45m 46s", "remaining_time": "10h 58m 14s"}
+{"loss": 0.03794449, "token_acc": 0.98139637, "grad_norm": 0.60464627, "learning_rate": 4.71e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231428, "epoch": 4.30368168, "global_step/max_steps": "56460/65595", "percentage": "86.07%", "elapsed_time": "2d 19h 46m 1s", "remaining_time": "10h 57m 51s"}
+{"loss": 0.03026048, "token_acc": 0.99061433, "grad_norm": 0.9128598, "learning_rate": 4.7e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231434, "epoch": 4.30406281, "global_step/max_steps": "56465/65595", "percentage": "86.08%", "elapsed_time": "2d 19h 46m 16s", "remaining_time": "10h 57m 29s"}
+{"loss": 0.02197577, "token_acc": 0.99225988, "grad_norm": 0.69095999, "learning_rate": 4.7e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231437, "epoch": 4.30444394, "global_step/max_steps": "56470/65595", "percentage": "86.09%", "elapsed_time": "2d 19h 46m 35s", "remaining_time": "10h 57m 7s"}
+{"loss": 0.0279049, "token_acc": 0.98947368, "grad_norm": 1.06261528, "learning_rate": 4.69e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231443, "epoch": 4.30482506, "global_step/max_steps": "56475/65595", "percentage": "86.10%", "elapsed_time": "2d 19h 46m 50s", "remaining_time": "10h 56m 44s"}
+{"loss": 0.03643999, "token_acc": 0.98523178, "grad_norm": 0.77170253, "learning_rate": 4.69e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231446, "epoch": 4.30520619, "global_step/max_steps": "56480/65595", "percentage": "86.10%", "elapsed_time": "2d 19h 47m 8s", "remaining_time": "10h 56m 22s"}
+{"loss": 0.02782015, "token_acc": 0.98672015, "grad_norm": 0.44502148, "learning_rate": 4.68e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231451, "epoch": 4.30558732, "global_step/max_steps": "56485/65595", "percentage": "86.11%", "elapsed_time": "2d 19h 47m 24s", "remaining_time": "10h 55m 59s"}
+{"loss": 0.04844081, "token_acc": 0.98684672, "grad_norm": 0.98802984, "learning_rate": 4.68e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231456, "epoch": 4.30596844, "global_step/max_steps": "56490/65595", "percentage": "86.12%", "elapsed_time": "2d 19h 47m 41s", "remaining_time": "10h 55m 37s"}
+{"loss": 0.0259023, "token_acc": 0.98764996, "grad_norm": 1.06191909, "learning_rate": 4.67e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231464, "epoch": 4.30634957, "global_step/max_steps": "56495/65595", "percentage": "86.13%", "elapsed_time": "2d 19h 47m 54s", "remaining_time": "10h 55m 14s"}
+{"loss": 0.0299777, "token_acc": 0.98788672, "grad_norm": 1.2601366, "learning_rate": 4.67e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231469, "epoch": 4.3067307, "global_step/max_steps": "56500/65595", "percentage": "86.13%", "elapsed_time": "2d 19h 48m 10s", "remaining_time": "10h 54m 52s"}
+{"loss": 0.0300467, "token_acc": 0.98789038, "grad_norm": 1.55863523, "learning_rate": 4.66e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231475, "epoch": 4.30711182, "global_step/max_steps": "56505/65595", "percentage": "86.14%", "elapsed_time": "2d 19h 48m 26s", "remaining_time": "10h 54m 29s"}
+{"loss": 0.04445916, "token_acc": 0.98011114, "grad_norm": 1.5927186, "learning_rate": 4.66e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231478, "epoch": 4.30749295, "global_step/max_steps": "56510/65595", "percentage": "86.15%", "elapsed_time": "2d 19h 48m 44s", "remaining_time": "10h 54m 7s"}
+{"loss": 0.03052873, "token_acc": 0.9876985, "grad_norm": 0.88611025, "learning_rate": 4.65e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231484, "epoch": 4.30787408, "global_step/max_steps": "56515/65595", "percentage": "86.16%", "elapsed_time": "2d 19h 48m 59s", "remaining_time": "10h 53m 44s"}
+{"loss": 0.03859786, "token_acc": 0.98497442, "grad_norm": 1.76576865, "learning_rate": 4.65e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231492, "epoch": 4.3082552, "global_step/max_steps": "56520/65595", "percentage": "86.17%", "elapsed_time": "2d 19h 49m 13s", "remaining_time": "10h 53m 21s"}
+{"loss": 0.02788053, "token_acc": 0.98897808, "grad_norm": 1.26770151, "learning_rate": 4.64e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231493, "epoch": 4.30863633, "global_step/max_steps": "56525/65595", "percentage": "86.17%", "elapsed_time": "2d 19h 49m 33s", "remaining_time": "10h 53m 0s"}
+{"loss": 0.01989877, "token_acc": 0.99106992, "grad_norm": 0.65299457, "learning_rate": 4.64e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231498, "epoch": 4.30901746, "global_step/max_steps": "56530/65595", "percentage": "86.18%", "elapsed_time": "2d 19h 49m 50s", "remaining_time": "10h 52m 37s"}
+{"loss": 0.03992712, "token_acc": 0.98585268, "grad_norm": 1.40957606, "learning_rate": 4.63e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231503, "epoch": 4.30939858, "global_step/max_steps": "56535/65595", "percentage": "86.19%", "elapsed_time": "2d 19h 50m 6s", "remaining_time": "10h 52m 15s"}
+{"loss": 0.02799711, "token_acc": 0.99044205, "grad_norm": 1.40453255, "learning_rate": 4.63e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23151, "epoch": 4.30977971, "global_step/max_steps": "56540/65595", "percentage": "86.20%", "elapsed_time": "2d 19h 50m 20s", "remaining_time": "10h 51m 52s"}
+{"loss": 0.03152623, "token_acc": 0.99179293, "grad_norm": 0.65819788, "learning_rate": 4.62e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231515, "epoch": 4.31016084, "global_step/max_steps": "56545/65595", "percentage": "86.20%", "elapsed_time": "2d 19h 50m 37s", "remaining_time": "10h 51m 30s"}
+{"loss": 0.03007081, "token_acc": 0.98558057, "grad_norm": 0.98703432, "learning_rate": 4.62e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231522, "epoch": 4.31054196, "global_step/max_steps": "56550/65595", "percentage": "86.21%", "elapsed_time": "2d 19h 50m 50s", "remaining_time": "10h 51m 7s"}
+{"loss": 0.03478447, "token_acc": 0.98662988, "grad_norm": 0.45915723, "learning_rate": 4.61e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231529, "epoch": 4.31092309, "global_step/max_steps": "56555/65595", "percentage": "86.22%", "elapsed_time": "2d 19h 51m 5s", "remaining_time": "10h 50m 44s"}
+{"loss": 0.03269525, "token_acc": 0.98671278, "grad_norm": 1.69960093, "learning_rate": 4.61e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231534, "epoch": 4.31130422, "global_step/max_steps": "56560/65595", "percentage": "86.23%", "elapsed_time": "2d 19h 51m 21s", "remaining_time": "10h 50m 22s"}
+{"loss": 0.03146355, "token_acc": 0.98969817, "grad_norm": 2.01344562, "learning_rate": 4.6e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231538, "epoch": 4.31168534, "global_step/max_steps": "56565/65595", "percentage": "86.23%", "elapsed_time": "2d 19h 51m 38s", "remaining_time": "10h 49m 59s"}
+{"loss": 0.02945778, "token_acc": 0.98712155, "grad_norm": 0.95088804, "learning_rate": 4.6e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231544, "epoch": 4.31206647, "global_step/max_steps": "56570/65595", "percentage": "86.24%", "elapsed_time": "2d 19h 51m 54s", "remaining_time": "10h 49m 37s"}
+{"loss": 0.04024453, "token_acc": 0.98905344, "grad_norm": 0.84416437, "learning_rate": 4.59e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231553, "epoch": 4.3124476, "global_step/max_steps": "56575/65595", "percentage": "86.25%", "elapsed_time": "2d 19h 52m 6s", "remaining_time": "10h 49m 13s"}
+{"loss": 0.02728848, "token_acc": 0.98864926, "grad_norm": 0.73549473, "learning_rate": 4.59e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231557, "epoch": 4.31282872, "global_step/max_steps": "56580/65595", "percentage": "86.26%", "elapsed_time": "2d 19h 52m 23s", "remaining_time": "10h 48m 51s"}
+{"loss": 0.02928184, "token_acc": 0.98917206, "grad_norm": 0.7304197, "learning_rate": 4.58e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23156, "epoch": 4.31320985, "global_step/max_steps": "56585/65595", "percentage": "86.26%", "elapsed_time": "2d 19h 52m 41s", "remaining_time": "10h 48m 29s"}
+{"loss": 0.04082333, "token_acc": 0.98538012, "grad_norm": 0.95717776, "learning_rate": 4.58e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231564, "epoch": 4.31359097, "global_step/max_steps": "56590/65595", "percentage": "86.27%", "elapsed_time": "2d 19h 52m 59s", "remaining_time": "10h 48m 7s"}
+{"loss": 0.03275468, "token_acc": 0.98452584, "grad_norm": 1.11398804, "learning_rate": 4.57e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231567, "epoch": 4.3139721, "global_step/max_steps": "56595/65595", "percentage": "86.28%", "elapsed_time": "2d 19h 53m 17s", "remaining_time": "10h 47m 45s"}
+{"loss": 0.04082944, "token_acc": 0.98749399, "grad_norm": 2.07236624, "learning_rate": 4.57e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231573, "epoch": 4.31435323, "global_step/max_steps": "56600/65595", "percentage": "86.29%", "elapsed_time": "2d 19h 53m 33s", "remaining_time": "10h 47m 22s"}
+{"eval_loss": 0.05042265, "eval_token_acc": 0.97989579, "eval_runtime": 159.7732, "eval_samples_per_second": 3.317, "eval_steps_per_second": 3.317, "epoch": 4.31435323, "global_step/max_steps": "56600/65595", "percentage": "86.29%", "elapsed_time": "2d 19h 56m 13s", "remaining_time": "10h 47m 48s"}
+{"loss": 0.03235549, "token_acc": 0.97995905, "grad_norm": 1.54504228, "learning_rate": 4.56e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231429, "epoch": 4.31473435, "global_step/max_steps": "56605/65595", "percentage": "86.29%", "elapsed_time": "2d 19h 56m 26s", "remaining_time": "10h 47m 25s"}
+{"loss": 0.02908566, "token_acc": 0.98838798, "grad_norm": 0.87900388, "learning_rate": 4.56e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231437, "epoch": 4.31511548, "global_step/max_steps": "56610/65595", "percentage": "86.30%", "elapsed_time": "2d 19h 56m 40s", "remaining_time": "10h 47m 2s"}
+{"loss": 0.03786237, "token_acc": 0.98446267, "grad_norm": 2.13487029, "learning_rate": 4.55e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231442, "epoch": 4.31549661, "global_step/max_steps": "56615/65595", "percentage": "86.31%", "elapsed_time": "2d 19h 56m 56s", "remaining_time": "10h 46m 39s"}
+{"loss": 0.03170435, "token_acc": 0.98979907, "grad_norm": 0.88588417, "learning_rate": 4.55e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231449, "epoch": 4.31587773, "global_step/max_steps": "56620/65595", "percentage": "86.32%", "elapsed_time": "2d 19h 57m 10s", "remaining_time": "10h 46m 17s"}
+{"loss": 0.02486781, "token_acc": 0.99154589, "grad_norm": 0.73881948, "learning_rate": 4.54e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231451, "epoch": 4.31625886, "global_step/max_steps": "56625/65595", "percentage": "86.33%", "elapsed_time": "2d 19h 57m 29s", "remaining_time": "10h 45m 55s"}
+{"loss": 0.02239461, "token_acc": 0.98648649, "grad_norm": 1.01721597, "learning_rate": 4.54e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231457, "epoch": 4.31663999, "global_step/max_steps": "56630/65595", "percentage": "86.33%", "elapsed_time": "2d 19h 57m 44s", "remaining_time": "10h 45m 32s"}
+{"loss": 0.02908968, "token_acc": 0.9838333, "grad_norm": 0.96680069, "learning_rate": 4.53e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231464, "epoch": 4.31702111, "global_step/max_steps": "56635/65595", "percentage": "86.34%", "elapsed_time": "2d 19h 57m 59s", "remaining_time": "10h 45m 9s"}
+{"loss": 0.03749719, "token_acc": 0.98361005, "grad_norm": 0.16417518, "learning_rate": 4.53e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23147, "epoch": 4.31740224, "global_step/max_steps": "56640/65595", "percentage": "86.35%", "elapsed_time": "2d 19h 58m 14s", "remaining_time": "10h 44m 47s"}
+{"loss": 0.042767, "token_acc": 0.98479152, "grad_norm": 1.51323473, "learning_rate": 4.52e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231474, "epoch": 4.31778337, "global_step/max_steps": "56645/65595", "percentage": "86.36%", "elapsed_time": "2d 19h 58m 31s", "remaining_time": "10h 44m 24s"}
+{"loss": 0.04277834, "token_acc": 0.98874005, "grad_norm": 1.55204618, "learning_rate": 4.52e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231479, "epoch": 4.31816449, "global_step/max_steps": "56650/65595", "percentage": "86.36%", "elapsed_time": "2d 19h 58m 48s", "remaining_time": "10h 44m 2s"}
+{"loss": 0.03450407, "token_acc": 0.98690533, "grad_norm": 0.68074632, "learning_rate": 4.51e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231483, "epoch": 4.31854562, "global_step/max_steps": "56655/65595", "percentage": "86.37%", "elapsed_time": "2d 19h 59m 6s", "remaining_time": "10h 43m 40s"}
+{"loss": 0.03410145, "token_acc": 0.98830956, "grad_norm": 0.64280319, "learning_rate": 4.51e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231489, "epoch": 4.31892675, "global_step/max_steps": "56660/65595", "percentage": "86.38%", "elapsed_time": "2d 19h 59m 21s", "remaining_time": "10h 43m 17s"}
+{"loss": 0.03771767, "token_acc": 0.98837497, "grad_norm": 1.34983063, "learning_rate": 4.5e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231495, "epoch": 4.31930787, "global_step/max_steps": "56665/65595", "percentage": "86.39%", "elapsed_time": "2d 19h 59m 36s", "remaining_time": "10h 42m 55s"}
+{"loss": 0.02689318, "token_acc": 0.99080158, "grad_norm": 1.3586756, "learning_rate": 4.5e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231502, "epoch": 4.319689, "global_step/max_steps": "56670/65595", "percentage": "86.39%", "elapsed_time": "2d 19h 59m 50s", "remaining_time": "10h 42m 32s"}
+{"loss": 0.03677132, "token_acc": 0.98878874, "grad_norm": 0.44593301, "learning_rate": 4.49e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231508, "epoch": 4.32007013, "global_step/max_steps": "56675/65595", "percentage": "86.40%", "elapsed_time": "2d 20h 0m 5s", "remaining_time": "10h 42m 9s"}
+{"loss": 0.02656114, "token_acc": 0.98821218, "grad_norm": 1.79024732, "learning_rate": 4.49e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231515, "epoch": 4.32045125, "global_step/max_steps": "56680/65595", "percentage": "86.41%", "elapsed_time": "2d 20h 0m 19s", "remaining_time": "10h 41m 46s"}
+{"loss": 0.03109486, "token_acc": 0.99339036, "grad_norm": 1.24052465, "learning_rate": 4.48e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231523, "epoch": 4.32083238, "global_step/max_steps": "56685/65595", "percentage": "86.42%", "elapsed_time": "2d 20h 0m 33s", "remaining_time": "10h 41m 23s"}
+{"loss": 0.0339615, "token_acc": 0.98607889, "grad_norm": 2.10241508, "learning_rate": 4.48e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23153, "epoch": 4.32121351, "global_step/max_steps": "56690/65595", "percentage": "86.42%", "elapsed_time": "2d 20h 0m 47s", "remaining_time": "10h 41m 1s"}
+{"loss": 0.03399845, "token_acc": 0.98627002, "grad_norm": 1.47779191, "learning_rate": 4.47e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231536, "epoch": 4.32159463, "global_step/max_steps": "56695/65595", "percentage": "86.43%", "elapsed_time": "2d 20h 1m 2s", "remaining_time": "10h 40m 38s"}
+{"loss": 0.02112277, "token_acc": 0.98949969, "grad_norm": 0.54779375, "learning_rate": 4.47e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23154, "epoch": 4.32197576, "global_step/max_steps": "56700/65595", "percentage": "86.44%", "elapsed_time": "2d 20h 1m 19s", "remaining_time": "10h 40m 16s"}
+{"loss": 0.03244449, "token_acc": 0.98985443, "grad_norm": 0.53344095, "learning_rate": 4.46e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231547, "epoch": 4.32235689, "global_step/max_steps": "56705/65595", "percentage": "86.45%", "elapsed_time": "2d 20h 1m 34s", "remaining_time": "10h 39m 53s"}
+{"loss": 0.02685499, "token_acc": 0.98959186, "grad_norm": 1.2364465, "learning_rate": 4.46e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231548, "epoch": 4.32273801, "global_step/max_steps": "56710/65595", "percentage": "86.45%", "elapsed_time": "2d 20h 1m 54s", "remaining_time": "10h 39m 31s"}
+{"loss": 0.03665818, "token_acc": 0.98239437, "grad_norm": 1.47286594, "learning_rate": 4.45e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231555, "epoch": 4.32311914, "global_step/max_steps": "56715/65595", "percentage": "86.46%", "elapsed_time": "2d 20h 2m 8s", "remaining_time": "10h 39m 9s"}
+{"loss": 0.02386219, "token_acc": 0.98636209, "grad_norm": 1.32098544, "learning_rate": 4.45e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231562, "epoch": 4.32350027, "global_step/max_steps": "56720/65595", "percentage": "86.47%", "elapsed_time": "2d 20h 2m 22s", "remaining_time": "10h 38m 46s"}
+{"loss": 0.02309835, "token_acc": 0.98905437, "grad_norm": 1.10321629, "learning_rate": 4.44e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231568, "epoch": 4.32388139, "global_step/max_steps": "56725/65595", "percentage": "86.48%", "elapsed_time": "2d 20h 2m 38s", "remaining_time": "10h 38m 23s"}
+{"loss": 0.03125913, "token_acc": 0.99118079, "grad_norm": 1.09901762, "learning_rate": 4.44e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231576, "epoch": 4.32426252, "global_step/max_steps": "56730/65595", "percentage": "86.49%", "elapsed_time": "2d 20h 2m 51s", "remaining_time": "10h 38m 0s"}
+{"loss": 0.03455991, "token_acc": 0.98117199, "grad_norm": 0.39818323, "learning_rate": 4.43e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231583, "epoch": 4.32464365, "global_step/max_steps": "56735/65595", "percentage": "86.49%", "elapsed_time": "2d 20h 3m 5s", "remaining_time": "10h 37m 38s"}
+{"loss": 0.03022037, "token_acc": 0.98418424, "grad_norm": 0.91624027, "learning_rate": 4.43e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231589, "epoch": 4.32502477, "global_step/max_steps": "56740/65595", "percentage": "86.50%", "elapsed_time": "2d 20h 3m 20s", "remaining_time": "10h 37m 15s"}
+{"loss": 0.0357421, "token_acc": 0.98500088, "grad_norm": 0.8675772, "learning_rate": 4.42e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231595, "epoch": 4.3254059, "global_step/max_steps": "56745/65595", "percentage": "86.51%", "elapsed_time": "2d 20h 3m 36s", "remaining_time": "10h 36m 52s"}
+{"loss": 0.0254508, "token_acc": 0.98868089, "grad_norm": 1.58287168, "learning_rate": 4.42e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231601, "epoch": 4.32578703, "global_step/max_steps": "56750/65595", "percentage": "86.52%", "elapsed_time": "2d 20h 3m 51s", "remaining_time": "10h 36m 30s"}
+{"loss": 0.04275292, "token_acc": 0.98216645, "grad_norm": 1.74425673, "learning_rate": 4.41e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231608, "epoch": 4.32616815, "global_step/max_steps": "56755/65595", "percentage": "86.52%", "elapsed_time": "2d 20h 4m 5s", "remaining_time": "10h 36m 7s"}
+{"loss": 0.02404576, "token_acc": 0.99033256, "grad_norm": 1.59750009, "learning_rate": 4.41e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231616, "epoch": 4.32654928, "global_step/max_steps": "56760/65595", "percentage": "86.53%", "elapsed_time": "2d 20h 4m 18s", "remaining_time": "10h 35m 44s"}
+{"loss": 0.05793386, "token_acc": 0.98046607, "grad_norm": 1.34633958, "learning_rate": 4.4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231622, "epoch": 4.32693041, "global_step/max_steps": "56765/65595", "percentage": "86.54%", "elapsed_time": "2d 20h 4m 33s", "remaining_time": "10h 35m 22s"}
+{"loss": 0.03760043, "token_acc": 0.98804162, "grad_norm": 0.66457331, "learning_rate": 4.4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231627, "epoch": 4.32731153, "global_step/max_steps": "56770/65595", "percentage": "86.55%", "elapsed_time": "2d 20h 4m 50s", "remaining_time": "10h 34m 59s"}
+{"loss": 0.06211753, "token_acc": 0.97640751, "grad_norm": 2.97120929, "learning_rate": 4.4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231635, "epoch": 4.32769266, "global_step/max_steps": "56775/65595", "percentage": "86.55%", "elapsed_time": "2d 20h 5m 2s", "remaining_time": "10h 34m 36s"}
+{"loss": 0.02920657, "token_acc": 0.98865106, "grad_norm": 1.65714431, "learning_rate": 4.39e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23164, "epoch": 4.32807379, "global_step/max_steps": "56780/65595", "percentage": "86.56%", "elapsed_time": "2d 20h 5m 19s", "remaining_time": "10h 34m 14s"}
+{"loss": 0.02685267, "token_acc": 0.98623279, "grad_norm": 1.31153965, "learning_rate": 4.39e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231645, "epoch": 4.32845491, "global_step/max_steps": "56785/65595", "percentage": "86.57%", "elapsed_time": "2d 20h 5m 35s", "remaining_time": "10h 33m 51s"}
+{"loss": 0.03580469, "token_acc": 0.98576829, "grad_norm": 1.11899948, "learning_rate": 4.38e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231651, "epoch": 4.32883604, "global_step/max_steps": "56790/65595", "percentage": "86.58%", "elapsed_time": "2d 20h 5m 51s", "remaining_time": "10h 33m 29s"}
+{"loss": 0.02525656, "token_acc": 0.99117868, "grad_norm": 0.11035322, "learning_rate": 4.38e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231656, "epoch": 4.32921717, "global_step/max_steps": "56795/65595", "percentage": "86.58%", "elapsed_time": "2d 20h 6m 7s", "remaining_time": "10h 33m 7s"}
+{"loss": 0.02526574, "token_acc": 0.98509804, "grad_norm": 1.36694825, "learning_rate": 4.37e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231664, "epoch": 4.32959829, "global_step/max_steps": "56800/65595", "percentage": "86.59%", "elapsed_time": "2d 20h 6m 20s", "remaining_time": "10h 32m 44s"}
+{"eval_loss": 0.05016003, "eval_token_acc": 0.97971508, "eval_runtime": 157.8678, "eval_samples_per_second": 3.357, "eval_steps_per_second": 3.357, "epoch": 4.32959829, "global_step/max_steps": "56800/65595", "percentage": "86.59%", "elapsed_time": "2d 20h 8m 58s", "remaining_time": "10h 33m 8s"}
+{"loss": 0.03229863, "token_acc": 0.98001917, "grad_norm": 0.80161947, "learning_rate": 4.37e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231519, "epoch": 4.32997942, "global_step/max_steps": "56805/65595", "percentage": "86.60%", "elapsed_time": "2d 20h 9m 15s", "remaining_time": "10h 32m 46s"}
+{"loss": 0.02681463, "token_acc": 0.98571115, "grad_norm": 1.410972, "learning_rate": 4.36e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231525, "epoch": 4.33036055, "global_step/max_steps": "56810/65595", "percentage": "86.61%", "elapsed_time": "2d 20h 9m 30s", "remaining_time": "10h 32m 23s"}
+{"loss": 0.02816736, "token_acc": 0.98406193, "grad_norm": 1.29044056, "learning_rate": 4.36e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231534, "epoch": 4.33074167, "global_step/max_steps": "56815/65595", "percentage": "86.61%", "elapsed_time": "2d 20h 9m 43s", "remaining_time": "10h 32m 0s"}
+{"loss": 0.02801782, "token_acc": 0.98698256, "grad_norm": 1.37590778, "learning_rate": 4.35e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231541, "epoch": 4.3311228, "global_step/max_steps": "56820/65595", "percentage": "86.62%", "elapsed_time": "2d 20h 9m 57s", "remaining_time": "10h 31m 37s"}
+{"loss": 0.03208264, "token_acc": 0.98562421, "grad_norm": 1.04977536, "learning_rate": 4.35e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231548, "epoch": 4.33150393, "global_step/max_steps": "56825/65595", "percentage": "86.63%", "elapsed_time": "2d 20h 10m 10s", "remaining_time": "10h 31m 15s"}
+{"loss": 0.02367961, "token_acc": 0.98994253, "grad_norm": 0.6383605, "learning_rate": 4.34e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231551, "epoch": 4.33188505, "global_step/max_steps": "56830/65595", "percentage": "86.64%", "elapsed_time": "2d 20h 10m 30s", "remaining_time": "10h 30m 53s"}
+{"loss": 0.04364685, "token_acc": 0.98230679, "grad_norm": 1.16249061, "learning_rate": 4.34e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231556, "epoch": 4.33226618, "global_step/max_steps": "56835/65595", "percentage": "86.65%", "elapsed_time": "2d 20h 10m 46s", "remaining_time": "10h 30m 30s"}
+{"loss": 0.03822368, "token_acc": 0.98475967, "grad_norm": 1.17067206, "learning_rate": 4.33e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231562, "epoch": 4.33264731, "global_step/max_steps": "56840/65595", "percentage": "86.65%", "elapsed_time": "2d 20h 11m 1s", "remaining_time": "10h 30m 8s"}
+{"loss": 0.02333283, "token_acc": 0.98735433, "grad_norm": 0.60332114, "learning_rate": 4.33e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23157, "epoch": 4.33302843, "global_step/max_steps": "56845/65595", "percentage": "86.66%", "elapsed_time": "2d 20h 11m 14s", "remaining_time": "10h 29m 45s"}
+{"loss": 0.02608145, "token_acc": 0.99011949, "grad_norm": 0.65799803, "learning_rate": 4.32e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231577, "epoch": 4.33340956, "global_step/max_steps": "56850/65595", "percentage": "86.67%", "elapsed_time": "2d 20h 11m 28s", "remaining_time": "10h 29m 22s"}
+{"loss": 0.0259497, "token_acc": 0.99033666, "grad_norm": 0.58744037, "learning_rate": 4.32e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231582, "epoch": 4.33379069, "global_step/max_steps": "56855/65595", "percentage": "86.68%", "elapsed_time": "2d 20h 11m 44s", "remaining_time": "10h 29m 0s"}
+{"loss": 0.03357393, "token_acc": 0.98742, "grad_norm": 1.03507745, "learning_rate": 4.31e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231589, "epoch": 4.33417181, "global_step/max_steps": "56860/65595", "percentage": "86.68%", "elapsed_time": "2d 20h 11m 58s", "remaining_time": "10h 28m 37s"}
+{"loss": 0.0178352, "token_acc": 0.99520128, "grad_norm": 0.97521752, "learning_rate": 4.31e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231596, "epoch": 4.33455294, "global_step/max_steps": "56865/65595", "percentage": "86.69%", "elapsed_time": "2d 20h 12m 13s", "remaining_time": "10h 28m 14s"}
+{"loss": 0.02231002, "token_acc": 0.99294118, "grad_norm": 0.7628051, "learning_rate": 4.3e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231602, "epoch": 4.33493407, "global_step/max_steps": "56870/65595", "percentage": "86.70%", "elapsed_time": "2d 20h 12m 28s", "remaining_time": "10h 27m 52s"}
+{"loss": 0.03773881, "token_acc": 0.9842941, "grad_norm": 0.9223612, "learning_rate": 4.3e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231606, "epoch": 4.33531519, "global_step/max_steps": "56875/65595", "percentage": "86.71%", "elapsed_time": "2d 20h 12m 45s", "remaining_time": "10h 27m 29s"}
+{"loss": 0.03179179, "token_acc": 0.9861518, "grad_norm": 0.93826032, "learning_rate": 4.29e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231613, "epoch": 4.33569632, "global_step/max_steps": "56880/65595", "percentage": "86.71%", "elapsed_time": "2d 20h 13m 0s", "remaining_time": "10h 27m 7s"}
+{"loss": 0.02475731, "token_acc": 0.98783644, "grad_norm": 0.5173015, "learning_rate": 4.29e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231619, "epoch": 4.33607744, "global_step/max_steps": "56885/65595", "percentage": "86.72%", "elapsed_time": "2d 20h 13m 14s", "remaining_time": "10h 26m 44s"}
+{"loss": 0.0214512, "token_acc": 0.9918581, "grad_norm": 0.17217505, "learning_rate": 4.28e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231625, "epoch": 4.33645857, "global_step/max_steps": "56890/65595", "percentage": "86.73%", "elapsed_time": "2d 20h 13m 29s", "remaining_time": "10h 26m 21s"}
+{"loss": 0.03891212, "token_acc": 0.9874703, "grad_norm": 0.53227329, "learning_rate": 4.28e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231633, "epoch": 4.3368397, "global_step/max_steps": "56895/65595", "percentage": "86.74%", "elapsed_time": "2d 20h 13m 43s", "remaining_time": "10h 25m 59s"}
+{"loss": 0.03654069, "token_acc": 0.98694613, "grad_norm": 1.49247265, "learning_rate": 4.27e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231638, "epoch": 4.33722082, "global_step/max_steps": "56900/65595", "percentage": "86.74%", "elapsed_time": "2d 20h 13m 59s", "remaining_time": "10h 25m 36s"}
+{"loss": 0.03001305, "token_acc": 0.99001452, "grad_norm": 0.80982476, "learning_rate": 4.27e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231642, "epoch": 4.33760195, "global_step/max_steps": "56905/65595", "percentage": "86.75%", "elapsed_time": "2d 20h 14m 17s", "remaining_time": "10h 25m 14s"}
+{"loss": 0.03570748, "token_acc": 0.98749632, "grad_norm": 0.89128762, "learning_rate": 4.26e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231646, "epoch": 4.33798308, "global_step/max_steps": "56910/65595", "percentage": "86.76%", "elapsed_time": "2d 20h 14m 34s", "remaining_time": "10h 24m 52s"}
+{"loss": 0.01868681, "token_acc": 0.98720809, "grad_norm": 0.13738886, "learning_rate": 4.26e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231652, "epoch": 4.3383642, "global_step/max_steps": "56915/65595", "percentage": "86.77%", "elapsed_time": "2d 20h 14m 50s", "remaining_time": "10h 24m 29s"}
+{"loss": 0.02780999, "token_acc": 0.99176863, "grad_norm": 2.42377281, "learning_rate": 4.25e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231657, "epoch": 4.33874533, "global_step/max_steps": "56920/65595", "percentage": "86.77%", "elapsed_time": "2d 20h 15m 5s", "remaining_time": "10h 24m 7s"}
+{"loss": 0.0300383, "token_acc": 0.99076568, "grad_norm": 2.13952994, "learning_rate": 4.25e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231665, "epoch": 4.33912646, "global_step/max_steps": "56925/65595", "percentage": "86.78%", "elapsed_time": "2d 20h 15m 18s", "remaining_time": "10h 23m 44s"}
+{"loss": 0.0316002, "token_acc": 0.99193316, "grad_norm": 3.52599049, "learning_rate": 4.24e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231672, "epoch": 4.33950758, "global_step/max_steps": "56930/65595", "percentage": "86.79%", "elapsed_time": "2d 20h 15m 33s", "remaining_time": "10h 23m 21s"}
+{"loss": 0.02847601, "token_acc": 0.99026809, "grad_norm": 0.79749358, "learning_rate": 4.24e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231677, "epoch": 4.33988871, "global_step/max_steps": "56935/65595", "percentage": "86.80%", "elapsed_time": "2d 20h 15m 49s", "remaining_time": "10h 22m 59s"}
+{"loss": 0.02638934, "token_acc": 0.98927374, "grad_norm": 0.84533745, "learning_rate": 4.23e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231682, "epoch": 4.34026984, "global_step/max_steps": "56940/65595", "percentage": "86.81%", "elapsed_time": "2d 20h 16m 6s", "remaining_time": "10h 22m 36s"}
+{"loss": 0.02265846, "token_acc": 0.99161491, "grad_norm": 0.66135979, "learning_rate": 4.23e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231686, "epoch": 4.34065096, "global_step/max_steps": "56945/65595", "percentage": "86.81%", "elapsed_time": "2d 20h 16m 23s", "remaining_time": "10h 22m 14s"}
+{"loss": 0.03313876, "token_acc": 0.98763875, "grad_norm": 2.48411512, "learning_rate": 4.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231693, "epoch": 4.34103209, "global_step/max_steps": "56950/65595", "percentage": "86.82%", "elapsed_time": "2d 20h 16m 37s", "remaining_time": "10h 21m 51s"}
+{"loss": 0.01783657, "token_acc": 0.98709871, "grad_norm": 1.0868454, "learning_rate": 4.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2317, "epoch": 4.34141322, "global_step/max_steps": "56955/65595", "percentage": "86.83%", "elapsed_time": "2d 20h 16m 51s", "remaining_time": "10h 21m 29s"}
+{"loss": 0.03435799, "token_acc": 0.98234463, "grad_norm": 0.61268491, "learning_rate": 4.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231706, "epoch": 4.34179434, "global_step/max_steps": "56960/65595", "percentage": "86.84%", "elapsed_time": "2d 20h 17m 6s", "remaining_time": "10h 21m 6s"}
+{"loss": 0.03803394, "token_acc": 0.98383234, "grad_norm": 0.93996394, "learning_rate": 4.21e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231711, "epoch": 4.34217547, "global_step/max_steps": "56965/65595", "percentage": "86.84%", "elapsed_time": "2d 20h 17m 23s", "remaining_time": "10h 20m 44s"}
+{"loss": 0.04144288, "token_acc": 0.98296255, "grad_norm": 0.676489, "learning_rate": 4.21e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231715, "epoch": 4.3425566, "global_step/max_steps": "56970/65595", "percentage": "86.85%", "elapsed_time": "2d 20h 17m 40s", "remaining_time": "10h 20m 22s"}
+{"loss": 0.02672309, "token_acc": 0.9879954, "grad_norm": 1.22836888, "learning_rate": 4.2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231719, "epoch": 4.34293772, "global_step/max_steps": "56975/65595", "percentage": "86.86%", "elapsed_time": "2d 20h 17m 57s", "remaining_time": "10h 19m 59s"}
+{"loss": 0.03198819, "token_acc": 0.98929748, "grad_norm": 1.71288335, "learning_rate": 4.2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231725, "epoch": 4.34331885, "global_step/max_steps": "56980/65595", "percentage": "86.87%", "elapsed_time": "2d 20h 18m 12s", "remaining_time": "10h 19m 37s"}
+{"loss": 0.03973856, "token_acc": 0.98310525, "grad_norm": 0.85938466, "learning_rate": 4.19e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231731, "epoch": 4.34369998, "global_step/max_steps": "56985/65595", "percentage": "86.87%", "elapsed_time": "2d 20h 18m 27s", "remaining_time": "10h 19m 14s"}
+{"loss": 0.02990471, "token_acc": 0.98826903, "grad_norm": 1.13705623, "learning_rate": 4.19e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231738, "epoch": 4.3440811, "global_step/max_steps": "56990/65595", "percentage": "86.88%", "elapsed_time": "2d 20h 18m 41s", "remaining_time": "10h 18m 52s"}
+{"loss": 0.02946779, "token_acc": 0.99108205, "grad_norm": 0.47150859, "learning_rate": 4.18e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231739, "epoch": 4.34446223, "global_step/max_steps": "56995/65595", "percentage": "86.89%", "elapsed_time": "2d 20h 19m 2s", "remaining_time": "10h 18m 30s"}
+{"loss": 0.03758902, "token_acc": 0.98651026, "grad_norm": 0.91294724, "learning_rate": 4.18e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231743, "epoch": 4.34484336, "global_step/max_steps": "57000/65595", "percentage": "86.90%", "elapsed_time": "2d 20h 19m 19s", "remaining_time": "10h 18m 8s"}
+{"eval_loss": 0.05087517, "eval_token_acc": 0.97966237, "eval_runtime": 160.7345, "eval_samples_per_second": 3.297, "eval_steps_per_second": 3.297, "epoch": 4.34484336, "global_step/max_steps": "57000/65595", "percentage": "86.90%", "elapsed_time": "2d 20h 22m 0s", "remaining_time": "10h 18m 32s"}
+{"loss": 0.05784919, "token_acc": 0.97975196, "grad_norm": 2.72590423, "learning_rate": 4.17e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231598, "epoch": 4.34522448, "global_step/max_steps": "57005/65595", "percentage": "86.90%", "elapsed_time": "2d 20h 22m 15s", "remaining_time": "10h 18m 9s"}
+{"loss": 0.01622036, "token_acc": 0.99434922, "grad_norm": 0.16044487, "learning_rate": 4.17e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231601, "epoch": 4.34560561, "global_step/max_steps": "57010/65595", "percentage": "86.91%", "elapsed_time": "2d 20h 22m 33s", "remaining_time": "10h 17m 47s"}
+{"loss": 0.02987159, "token_acc": 0.98410272, "grad_norm": 0.82971275, "learning_rate": 4.16e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231609, "epoch": 4.34598674, "global_step/max_steps": "57015/65595", "percentage": "86.92%", "elapsed_time": "2d 20h 22m 47s", "remaining_time": "10h 17m 24s"}
+{"loss": 0.03197107, "token_acc": 0.985138, "grad_norm": 0.93136758, "learning_rate": 4.16e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231614, "epoch": 4.34636786, "global_step/max_steps": "57020/65595", "percentage": "86.93%", "elapsed_time": "2d 20h 23m 3s", "remaining_time": "10h 17m 2s"}
+{"loss": 0.03501694, "token_acc": 0.98256477, "grad_norm": 0.9252404, "learning_rate": 4.15e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23162, "epoch": 4.34674899, "global_step/max_steps": "57025/65595", "percentage": "86.93%", "elapsed_time": "2d 20h 23m 18s", "remaining_time": "10h 16m 39s"}
+{"loss": 0.02033276, "token_acc": 0.99048237, "grad_norm": 1.47479331, "learning_rate": 4.15e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231625, "epoch": 4.34713012, "global_step/max_steps": "57030/65595", "percentage": "86.94%", "elapsed_time": "2d 20h 23m 34s", "remaining_time": "10h 16m 17s"}
+{"loss": 0.03640145, "token_acc": 0.98508717, "grad_norm": 0.9133774, "learning_rate": 4.14e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231626, "epoch": 4.34751124, "global_step/max_steps": "57035/65595", "percentage": "86.95%", "elapsed_time": "2d 20h 23m 55s", "remaining_time": "10h 15m 55s"}
+{"loss": 0.03411855, "token_acc": 0.98784783, "grad_norm": 1.05594718, "learning_rate": 4.14e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231632, "epoch": 4.34789237, "global_step/max_steps": "57040/65595", "percentage": "86.96%", "elapsed_time": "2d 20h 24m 10s", "remaining_time": "10h 15m 33s"}
+{"loss": 0.0238515, "token_acc": 0.98917647, "grad_norm": 1.78319454, "learning_rate": 4.13e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231641, "epoch": 4.3482735, "global_step/max_steps": "57045/65595", "percentage": "86.97%", "elapsed_time": "2d 20h 24m 22s", "remaining_time": "10h 15m 10s"}
+{"loss": 0.05624961, "token_acc": 0.97809814, "grad_norm": 2.01759553, "learning_rate": 4.13e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231648, "epoch": 4.34865462, "global_step/max_steps": "57050/65595", "percentage": "86.97%", "elapsed_time": "2d 20h 24m 36s", "remaining_time": "10h 14m 47s"}
+{"loss": 0.03970653, "token_acc": 0.98827292, "grad_norm": 1.57381284, "learning_rate": 4.12e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231654, "epoch": 4.34903575, "global_step/max_steps": "57055/65595", "percentage": "86.98%", "elapsed_time": "2d 20h 24m 51s", "remaining_time": "10h 14m 24s"}
+{"loss": 0.03467296, "token_acc": 0.99063578, "grad_norm": 0.70458925, "learning_rate": 4.12e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231658, "epoch": 4.34941688, "global_step/max_steps": "57060/65595", "percentage": "86.99%", "elapsed_time": "2d 20h 25m 9s", "remaining_time": "10h 14m 2s"}
+{"loss": 0.03057208, "token_acc": 0.98872727, "grad_norm": 0.9246518, "learning_rate": 4.11e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231664, "epoch": 4.349798, "global_step/max_steps": "57065/65595", "percentage": "87.00%", "elapsed_time": "2d 20h 25m 24s", "remaining_time": "10h 13m 40s"}
+{"loss": 0.02876665, "token_acc": 0.98931539, "grad_norm": 1.26000595, "learning_rate": 4.11e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231667, "epoch": 4.35017913, "global_step/max_steps": "57070/65595", "percentage": "87.00%", "elapsed_time": "2d 20h 25m 43s", "remaining_time": "10h 13m 18s"}
+{"loss": 0.04122189, "token_acc": 0.98498646, "grad_norm": 0.23422419, "learning_rate": 4.11e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231671, "epoch": 4.35056026, "global_step/max_steps": "57075/65595", "percentage": "87.01%", "elapsed_time": "2d 20h 26m 0s", "remaining_time": "10h 12m 56s"}
+{"loss": 0.04339967, "token_acc": 0.98116367, "grad_norm": 2.01975417, "learning_rate": 4.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231676, "epoch": 4.35094138, "global_step/max_steps": "57080/65595", "percentage": "87.02%", "elapsed_time": "2d 20h 26m 15s", "remaining_time": "10h 12m 33s"}
+{"loss": 0.03026839, "token_acc": 0.98295767, "grad_norm": 2.13468957, "learning_rate": 4.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231685, "epoch": 4.35132251, "global_step/max_steps": "57085/65595", "percentage": "87.03%", "elapsed_time": "2d 20h 26m 28s", "remaining_time": "10h 12m 10s"}
+{"loss": 0.04486009, "token_acc": 0.98609756, "grad_norm": 1.18578959, "learning_rate": 4.09e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231692, "epoch": 4.35170364, "global_step/max_steps": "57090/65595", "percentage": "87.03%", "elapsed_time": "2d 20h 26m 42s", "remaining_time": "10h 11m 47s"}
+{"loss": 0.01762272, "token_acc": 0.99260824, "grad_norm": 1.58391094, "learning_rate": 4.09e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231698, "epoch": 4.35208476, "global_step/max_steps": "57095/65595", "percentage": "87.04%", "elapsed_time": "2d 20h 26m 58s", "remaining_time": "10h 11m 25s"}
+{"loss": 0.02640961, "token_acc": 0.98963384, "grad_norm": 1.31250644, "learning_rate": 4.08e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231702, "epoch": 4.35246589, "global_step/max_steps": "57100/65595", "percentage": "87.05%", "elapsed_time": "2d 20h 27m 14s", "remaining_time": "10h 11m 3s"}
+{"loss": 0.03371443, "token_acc": 0.98930481, "grad_norm": 0.09834265, "learning_rate": 4.08e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231709, "epoch": 4.35284702, "global_step/max_steps": "57105/65595", "percentage": "87.06%", "elapsed_time": "2d 20h 27m 29s", "remaining_time": "10h 10m 40s"}
+{"loss": 0.02735028, "token_acc": 0.99001303, "grad_norm": 1.87812722, "learning_rate": 4.07e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231716, "epoch": 4.35322814, "global_step/max_steps": "57110/65595", "percentage": "87.06%", "elapsed_time": "2d 20h 27m 43s", "remaining_time": "10h 10m 17s"}
+{"loss": 0.01920327, "token_acc": 0.99143569, "grad_norm": 1.00898111, "learning_rate": 4.07e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231721, "epoch": 4.35360927, "global_step/max_steps": "57115/65595", "percentage": "87.07%", "elapsed_time": "2d 20h 27m 59s", "remaining_time": "10h 9m 55s"}
+{"loss": 0.02814593, "token_acc": 0.98568341, "grad_norm": 0.13944297, "learning_rate": 4.06e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231728, "epoch": 4.3539904, "global_step/max_steps": "57120/65595", "percentage": "87.08%", "elapsed_time": "2d 20h 28m 13s", "remaining_time": "10h 9m 32s"}
+{"loss": 0.01905158, "token_acc": 0.9948994, "grad_norm": 0.51302207, "learning_rate": 4.06e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231736, "epoch": 4.35437152, "global_step/max_steps": "57125/65595", "percentage": "87.09%", "elapsed_time": "2d 20h 28m 26s", "remaining_time": "10h 9m 9s"}
+{"loss": 0.02947596, "token_acc": 0.98995335, "grad_norm": 0.63630462, "learning_rate": 4.05e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231741, "epoch": 4.35475265, "global_step/max_steps": "57130/65595", "percentage": "87.10%", "elapsed_time": "2d 20h 28m 42s", "remaining_time": "10h 8m 47s"}
+{"loss": 0.03893179, "token_acc": 0.98116987, "grad_norm": 1.19297326, "learning_rate": 4.05e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231749, "epoch": 4.35513378, "global_step/max_steps": "57135/65595", "percentage": "87.10%", "elapsed_time": "2d 20h 28m 56s", "remaining_time": "10h 8m 24s"}
+{"loss": 0.03247709, "token_acc": 0.98829488, "grad_norm": 1.15270257, "learning_rate": 4.04e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231751, "epoch": 4.3555149, "global_step/max_steps": "57140/65595", "percentage": "87.11%", "elapsed_time": "2d 20h 29m 15s", "remaining_time": "10h 8m 2s"}
+{"loss": 0.02665091, "token_acc": 0.99017872, "grad_norm": 0.86296964, "learning_rate": 4.04e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231754, "epoch": 4.35589603, "global_step/max_steps": "57145/65595", "percentage": "87.12%", "elapsed_time": "2d 20h 29m 33s", "remaining_time": "10h 7m 40s"}
+{"loss": 0.01966551, "token_acc": 0.98922559, "grad_norm": 0.05086078, "learning_rate": 4.03e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231763, "epoch": 4.35627716, "global_step/max_steps": "57150/65595", "percentage": "87.13%", "elapsed_time": "2d 20h 29m 45s", "remaining_time": "10h 7m 17s"}
+{"loss": 0.02328375, "token_acc": 0.98901853, "grad_norm": 0.37209731, "learning_rate": 4.03e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23177, "epoch": 4.35665828, "global_step/max_steps": "57155/65595", "percentage": "87.13%", "elapsed_time": "2d 20h 29m 59s", "remaining_time": "10h 6m 55s"}
+{"loss": 0.04227535, "token_acc": 0.98546425, "grad_norm": 0.91754389, "learning_rate": 4.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231775, "epoch": 4.35703941, "global_step/max_steps": "57160/65595", "percentage": "87.14%", "elapsed_time": "2d 20h 30m 15s", "remaining_time": "10h 6m 32s"}
+{"loss": 0.02508768, "token_acc": 0.98658892, "grad_norm": 1.10139298, "learning_rate": 4.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231783, "epoch": 4.35742054, "global_step/max_steps": "57165/65595", "percentage": "87.15%", "elapsed_time": "2d 20h 30m 29s", "remaining_time": "10h 6m 9s"}
+{"loss": 0.03922558, "token_acc": 0.97931899, "grad_norm": 1.44739068, "learning_rate": 4.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23179, "epoch": 4.35780166, "global_step/max_steps": "57170/65595", "percentage": "87.16%", "elapsed_time": "2d 20h 30m 43s", "remaining_time": "10h 5m 47s"}
+{"loss": 0.0345454, "token_acc": 0.98759204, "grad_norm": 0.88475043, "learning_rate": 4.01e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231791, "epoch": 4.35818279, "global_step/max_steps": "57175/65595", "percentage": "87.16%", "elapsed_time": "2d 20h 31m 3s", "remaining_time": "10h 5m 25s"}
+{"loss": 0.04050042, "token_acc": 0.9905888, "grad_norm": 0.49960139, "learning_rate": 4.01e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231798, "epoch": 4.35856391, "global_step/max_steps": "57180/65595", "percentage": "87.17%", "elapsed_time": "2d 20h 31m 18s", "remaining_time": "10h 5m 2s"}
+{"loss": 0.02545695, "token_acc": 0.98702056, "grad_norm": 0.9691295, "learning_rate": 4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231802, "epoch": 4.35894504, "global_step/max_steps": "57185/65595", "percentage": "87.18%", "elapsed_time": "2d 20h 31m 35s", "remaining_time": "10h 4m 40s"}
+{"loss": 0.02466482, "token_acc": 0.98982099, "grad_norm": 0.99599868, "learning_rate": 4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231807, "epoch": 4.35932617, "global_step/max_steps": "57190/65595", "percentage": "87.19%", "elapsed_time": "2d 20h 31m 52s", "remaining_time": "10h 4m 18s"}
+{"loss": 0.03345235, "token_acc": 0.98534927, "grad_norm": 0.63358676, "learning_rate": 3.99e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231809, "epoch": 4.35970729, "global_step/max_steps": "57195/65595", "percentage": "87.19%", "elapsed_time": "2d 20h 32m 10s", "remaining_time": "10h 3m 56s"}
+{"loss": 0.02715916, "token_acc": 0.9893544, "grad_norm": 0.94190133, "learning_rate": 3.99e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231817, "epoch": 4.36008842, "global_step/max_steps": "57200/65595", "percentage": "87.20%", "elapsed_time": "2d 20h 32m 24s", "remaining_time": "10h 3m 33s"}
+{"eval_loss": 0.04989083, "eval_token_acc": 0.9800012, "eval_runtime": 158.8278, "eval_samples_per_second": 3.337, "eval_steps_per_second": 3.337, "epoch": 4.36008842, "global_step/max_steps": "57200/65595", "percentage": "87.20%", "elapsed_time": "2d 20h 35m 3s", "remaining_time": "10h 3m 56s"}
+{"loss": 0.03638901, "token_acc": 0.98012332, "grad_norm": 1.23572659, "learning_rate": 3.98e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231675, "epoch": 4.36046955, "global_step/max_steps": "57205/65595", "percentage": "87.21%", "elapsed_time": "2d 20h 35m 16s", "remaining_time": "10h 3m 34s"}
+{"loss": 0.03551325, "token_acc": 0.99151904, "grad_norm": 5.20968294, "learning_rate": 3.98e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23168, "epoch": 4.36085067, "global_step/max_steps": "57210/65595", "percentage": "87.22%", "elapsed_time": "2d 20h 35m 33s", "remaining_time": "10h 3m 11s"}
+{"loss": 0.02206091, "token_acc": 0.98869732, "grad_norm": 0.46227044, "learning_rate": 3.97e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231684, "epoch": 4.3612318, "global_step/max_steps": "57215/65595", "percentage": "87.22%", "elapsed_time": "2d 20h 35m 50s", "remaining_time": "10h 2m 49s"}
+{"loss": 0.02524166, "token_acc": 0.99081238, "grad_norm": 0.3112509, "learning_rate": 3.97e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231692, "epoch": 4.36161293, "global_step/max_steps": "57220/65595", "percentage": "87.23%", "elapsed_time": "2d 20h 36m 3s", "remaining_time": "10h 2m 26s"}
+{"loss": 0.02591707, "token_acc": 0.98288066, "grad_norm": 1.28779161, "learning_rate": 3.96e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231697, "epoch": 4.36199405, "global_step/max_steps": "57225/65595", "percentage": "87.24%", "elapsed_time": "2d 20h 36m 20s", "remaining_time": "10h 2m 4s"}
+{"loss": 0.03414513, "token_acc": 0.98831927, "grad_norm": 2.36061668, "learning_rate": 3.96e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231704, "epoch": 4.36237518, "global_step/max_steps": "57230/65595", "percentage": "87.25%", "elapsed_time": "2d 20h 36m 34s", "remaining_time": "10h 1m 41s"}
+{"loss": 0.0397239, "token_acc": 0.98764172, "grad_norm": 0.66044098, "learning_rate": 3.95e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231706, "epoch": 4.36275631, "global_step/max_steps": "57235/65595", "percentage": "87.26%", "elapsed_time": "2d 20h 36m 53s", "remaining_time": "10h 1m 19s"}
+{"loss": 0.0366442, "token_acc": 0.98591164, "grad_norm": 0.83864802, "learning_rate": 3.95e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231709, "epoch": 4.36313743, "global_step/max_steps": "57240/65595", "percentage": "87.26%", "elapsed_time": "2d 20h 37m 11s", "remaining_time": "10h 0m 57s"}
+{"loss": 0.03508492, "token_acc": 0.98970498, "grad_norm": 1.1973666, "learning_rate": 3.95e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231713, "epoch": 4.36351856, "global_step/max_steps": "57245/65595", "percentage": "87.27%", "elapsed_time": "2d 20h 37m 28s", "remaining_time": "10h 0m 35s"}
+{"loss": 0.03675019, "token_acc": 0.98258977, "grad_norm": 0.98546523, "learning_rate": 3.94e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231719, "epoch": 4.36389969, "global_step/max_steps": "57250/65595", "percentage": "87.28%", "elapsed_time": "2d 20h 37m 43s", "remaining_time": "10h 0m 13s"}
+{"loss": 0.05017797, "token_acc": 0.98967774, "grad_norm": 1.24512517, "learning_rate": 3.94e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231726, "epoch": 4.36428081, "global_step/max_steps": "57255/65595", "percentage": "87.29%", "elapsed_time": "2d 20h 37m 58s", "remaining_time": "9h 59m 50s"}
+{"loss": 0.02604803, "token_acc": 0.98944536, "grad_norm": 0.9345805, "learning_rate": 3.93e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231732, "epoch": 4.36466194, "global_step/max_steps": "57260/65595", "percentage": "87.29%", "elapsed_time": "2d 20h 38m 13s", "remaining_time": "9h 59m 27s"}
+{"loss": 0.02347863, "token_acc": 0.98753776, "grad_norm": 0.7015695, "learning_rate": 3.93e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23174, "epoch": 4.36504307, "global_step/max_steps": "57265/65595", "percentage": "87.30%", "elapsed_time": "2d 20h 38m 26s", "remaining_time": "9h 59m 5s"}
+{"loss": 0.0287834, "token_acc": 0.98568846, "grad_norm": 0.76868153, "learning_rate": 3.92e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231745, "epoch": 4.36542419, "global_step/max_steps": "57270/65595", "percentage": "87.31%", "elapsed_time": "2d 20h 38m 42s", "remaining_time": "9h 58m 42s"}
+{"loss": 0.05241941, "token_acc": 0.97502973, "grad_norm": 0.95101804, "learning_rate": 3.92e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231752, "epoch": 4.36580532, "global_step/max_steps": "57275/65595", "percentage": "87.32%", "elapsed_time": "2d 20h 38m 56s", "remaining_time": "9h 58m 20s"}
+{"loss": 0.01679455, "token_acc": 0.99462125, "grad_norm": 0.49596035, "learning_rate": 3.91e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231759, "epoch": 4.36618645, "global_step/max_steps": "57280/65595", "percentage": "87.32%", "elapsed_time": "2d 20h 39m 11s", "remaining_time": "9h 57m 57s"}
+{"loss": 0.03832829, "token_acc": 0.98803127, "grad_norm": 0.63737041, "learning_rate": 3.91e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231764, "epoch": 4.36656757, "global_step/max_steps": "57285/65595", "percentage": "87.33%", "elapsed_time": "2d 20h 39m 26s", "remaining_time": "9h 57m 35s"}
+{"loss": 0.02075626, "token_acc": 0.99133895, "grad_norm": 1.02268958, "learning_rate": 3.9e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231771, "epoch": 4.3669487, "global_step/max_steps": "57290/65595", "percentage": "87.34%", "elapsed_time": "2d 20h 39m 41s", "remaining_time": "9h 57m 12s"}
+{"loss": 0.02777217, "token_acc": 0.99001063, "grad_norm": 0.50515956, "learning_rate": 3.9e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231773, "epoch": 4.36732983, "global_step/max_steps": "57295/65595", "percentage": "87.35%", "elapsed_time": "2d 20h 40m 0s", "remaining_time": "9h 56m 50s"}
+{"loss": 0.01525954, "token_acc": 0.99503132, "grad_norm": 1.17884231, "learning_rate": 3.89e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231779, "epoch": 4.36771095, "global_step/max_steps": "57300/65595", "percentage": "87.35%", "elapsed_time": "2d 20h 40m 16s", "remaining_time": "9h 56m 28s"}
+{"loss": 0.03322218, "token_acc": 0.98831511, "grad_norm": 0.49669603, "learning_rate": 3.89e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231781, "epoch": 4.36809208, "global_step/max_steps": "57305/65595", "percentage": "87.36%", "elapsed_time": "2d 20h 40m 35s", "remaining_time": "9h 56m 6s"}
+{"loss": 0.02797703, "token_acc": 0.9887025, "grad_norm": 0.57175475, "learning_rate": 3.88e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231785, "epoch": 4.36847321, "global_step/max_steps": "57310/65595", "percentage": "87.37%", "elapsed_time": "2d 20h 40m 52s", "remaining_time": "9h 55m 43s"}
+{"loss": 0.03612787, "token_acc": 0.98508576, "grad_norm": 0.47980094, "learning_rate": 3.88e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231789, "epoch": 4.36885433, "global_step/max_steps": "57315/65595", "percentage": "87.38%", "elapsed_time": "2d 20h 41m 9s", "remaining_time": "9h 55m 21s"}
+{"loss": 0.01912373, "token_acc": 0.9942832, "grad_norm": 0.58220601, "learning_rate": 3.88e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231796, "epoch": 4.36923546, "global_step/max_steps": "57320/65595", "percentage": "87.38%", "elapsed_time": "2d 20h 41m 24s", "remaining_time": "9h 54m 59s"}
+{"loss": 0.02950199, "token_acc": 0.99040037, "grad_norm": 1.52086163, "learning_rate": 3.87e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231803, "epoch": 4.36961659, "global_step/max_steps": "57325/65595", "percentage": "87.39%", "elapsed_time": "2d 20h 41m 38s", "remaining_time": "9h 54m 36s"}
+{"loss": 0.03417094, "token_acc": 0.98790698, "grad_norm": 2.2801044, "learning_rate": 3.87e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23181, "epoch": 4.36999771, "global_step/max_steps": "57330/65595", "percentage": "87.40%", "elapsed_time": "2d 20h 41m 52s", "remaining_time": "9h 54m 13s"}
+{"loss": 0.02415522, "token_acc": 0.99041856, "grad_norm": 0.64390194, "learning_rate": 3.86e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231813, "epoch": 4.37037884, "global_step/max_steps": "57335/65595", "percentage": "87.41%", "elapsed_time": "2d 20h 42m 10s", "remaining_time": "9h 53m 51s"}
+{"loss": 0.02261464, "token_acc": 0.99099099, "grad_norm": 0.21990168, "learning_rate": 3.86e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23182, "epoch": 4.37075997, "global_step/max_steps": "57340/65595", "percentage": "87.42%", "elapsed_time": "2d 20h 42m 24s", "remaining_time": "9h 53m 29s"}
+{"loss": 0.02464907, "token_acc": 0.99029489, "grad_norm": 2.87047195, "learning_rate": 3.85e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231828, "epoch": 4.37114109, "global_step/max_steps": "57345/65595", "percentage": "87.42%", "elapsed_time": "2d 20h 42m 38s", "remaining_time": "9h 53m 6s"}
+{"loss": 0.04171229, "token_acc": 0.98418972, "grad_norm": 1.42742085, "learning_rate": 3.85e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231835, "epoch": 4.37152222, "global_step/max_steps": "57350/65595", "percentage": "87.43%", "elapsed_time": "2d 20h 42m 51s", "remaining_time": "9h 52m 43s"}
+{"loss": 0.04300894, "token_acc": 0.97957967, "grad_norm": 1.26701033, "learning_rate": 3.84e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23184, "epoch": 4.37190335, "global_step/max_steps": "57355/65595", "percentage": "87.44%", "elapsed_time": "2d 20h 43m 7s", "remaining_time": "9h 52m 21s"}
+{"loss": 0.03834399, "token_acc": 0.98618021, "grad_norm": 1.41273963, "learning_rate": 3.84e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231844, "epoch": 4.37228447, "global_step/max_steps": "57360/65595", "percentage": "87.45%", "elapsed_time": "2d 20h 43m 25s", "remaining_time": "9h 51m 59s"}
+{"loss": 0.03115262, "token_acc": 0.98299924, "grad_norm": 2.17852497, "learning_rate": 3.83e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23185, "epoch": 4.3726656, "global_step/max_steps": "57365/65595", "percentage": "87.45%", "elapsed_time": "2d 20h 43m 40s", "remaining_time": "9h 51m 36s"}
+{"loss": 0.018522, "token_acc": 0.9935768, "grad_norm": 0.12999497, "learning_rate": 3.83e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231855, "epoch": 4.37304673, "global_step/max_steps": "57370/65595", "percentage": "87.46%", "elapsed_time": "2d 20h 43m 56s", "remaining_time": "9h 51m 14s"}
+{"loss": 0.03446871, "token_acc": 0.98403107, "grad_norm": 0.4766598, "learning_rate": 3.82e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231861, "epoch": 4.37342785, "global_step/max_steps": "57375/65595", "percentage": "87.47%", "elapsed_time": "2d 20h 44m 12s", "remaining_time": "9h 50m 51s"}
+{"loss": 0.03377533, "token_acc": 0.98532681, "grad_norm": 2.33661175, "learning_rate": 3.82e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231868, "epoch": 4.37380898, "global_step/max_steps": "57380/65595", "percentage": "87.48%", "elapsed_time": "2d 20h 44m 26s", "remaining_time": "9h 50m 29s"}
+{"loss": 0.05652294, "token_acc": 0.98022534, "grad_norm": 2.05451179, "learning_rate": 3.82e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231874, "epoch": 4.37419011, "global_step/max_steps": "57385/65595", "percentage": "87.48%", "elapsed_time": "2d 20h 44m 41s", "remaining_time": "9h 50m 6s"}
+{"loss": 0.03159525, "token_acc": 0.98724893, "grad_norm": 0.73739088, "learning_rate": 3.81e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231875, "epoch": 4.37457123, "global_step/max_steps": "57390/65595", "percentage": "87.49%", "elapsed_time": "2d 20h 45m 1s", "remaining_time": "9h 49m 45s"}
+{"loss": 0.04296905, "token_acc": 0.9864655, "grad_norm": 1.03092587, "learning_rate": 3.81e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231881, "epoch": 4.37495236, "global_step/max_steps": "57395/65595", "percentage": "87.50%", "elapsed_time": "2d 20h 45m 17s", "remaining_time": "9h 49m 22s"}
+{"loss": 0.01301711, "token_acc": 0.99373558, "grad_norm": 0.4995093, "learning_rate": 3.8e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231885, "epoch": 4.37533349, "global_step/max_steps": "57400/65595", "percentage": "87.51%", "elapsed_time": "2d 20h 45m 33s", "remaining_time": "9h 49m 0s"}
+{"eval_loss": 0.04981435, "eval_token_acc": 0.9800012, "eval_runtime": 159.5597, "eval_samples_per_second": 3.322, "eval_steps_per_second": 3.322, "epoch": 4.37533349, "global_step/max_steps": "57400/65595", "percentage": "87.51%", "elapsed_time": "2d 20h 48m 13s", "remaining_time": "9h 49m 23s"}
+{"loss": 0.02436948, "token_acc": 0.98064221, "grad_norm": 1.28047788, "learning_rate": 3.8e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231741, "epoch": 4.37571461, "global_step/max_steps": "57405/65595", "percentage": "87.51%", "elapsed_time": "2d 20h 48m 29s", "remaining_time": "9h 49m 0s"}
+{"loss": 0.03690123, "token_acc": 0.98477395, "grad_norm": 1.49632156, "learning_rate": 3.79e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231748, "epoch": 4.37609574, "global_step/max_steps": "57410/65595", "percentage": "87.52%", "elapsed_time": "2d 20h 48m 43s", "remaining_time": "9h 48m 38s"}
+{"loss": 0.03057411, "token_acc": 0.98467357, "grad_norm": 1.07624483, "learning_rate": 3.79e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231754, "epoch": 4.37647687, "global_step/max_steps": "57415/65595", "percentage": "87.53%", "elapsed_time": "2d 20h 48m 59s", "remaining_time": "9h 48m 15s"}
+{"loss": 0.0435186, "token_acc": 0.98563335, "grad_norm": 0.6721583, "learning_rate": 3.78e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231758, "epoch": 4.37685799, "global_step/max_steps": "57420/65595", "percentage": "87.54%", "elapsed_time": "2d 20h 49m 15s", "remaining_time": "9h 47m 53s"}
+{"loss": 0.04369162, "token_acc": 0.97856215, "grad_norm": 0.85726523, "learning_rate": 3.78e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231766, "epoch": 4.37723912, "global_step/max_steps": "57425/65595", "percentage": "87.54%", "elapsed_time": "2d 20h 49m 29s", "remaining_time": "9h 47m 30s"}
+{"loss": 0.0227054, "token_acc": 0.99088608, "grad_norm": 1.43747079, "learning_rate": 3.77e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231774, "epoch": 4.37762025, "global_step/max_steps": "57430/65595", "percentage": "87.55%", "elapsed_time": "2d 20h 49m 42s", "remaining_time": "9h 47m 7s"}
+{"loss": 0.03272598, "token_acc": 0.98828025, "grad_norm": 0.81269473, "learning_rate": 3.77e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231778, "epoch": 4.37800137, "global_step/max_steps": "57435/65595", "percentage": "87.56%", "elapsed_time": "2d 20h 49m 59s", "remaining_time": "9h 46m 45s"}
+{"loss": 0.02066579, "token_acc": 0.9914204, "grad_norm": 0.83997858, "learning_rate": 3.77e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231785, "epoch": 4.3783825, "global_step/max_steps": "57440/65595", "percentage": "87.57%", "elapsed_time": "2d 20h 50m 13s", "remaining_time": "9h 46m 23s"}
+{"loss": 0.02835215, "token_acc": 0.98967106, "grad_norm": 0.72531521, "learning_rate": 3.76e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231789, "epoch": 4.37876363, "global_step/max_steps": "57445/65595", "percentage": "87.58%", "elapsed_time": "2d 20h 50m 31s", "remaining_time": "9h 46m 1s"}
+{"loss": 0.02508508, "token_acc": 0.98549223, "grad_norm": 1.53306103, "learning_rate": 3.76e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231796, "epoch": 4.37914475, "global_step/max_steps": "57450/65595", "percentage": "87.58%", "elapsed_time": "2d 20h 50m 45s", "remaining_time": "9h 45m 38s"}
+{"loss": 0.01731601, "token_acc": 0.99193703, "grad_norm": 0.66045952, "learning_rate": 3.75e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2318, "epoch": 4.37952588, "global_step/max_steps": "57455/65595", "percentage": "87.59%", "elapsed_time": "2d 20h 51m 1s", "remaining_time": "9h 45m 16s"}
+{"loss": 0.04406019, "token_acc": 0.98152059, "grad_norm": 1.27049112, "learning_rate": 3.75e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231808, "epoch": 4.37990701, "global_step/max_steps": "57460/65595", "percentage": "87.60%", "elapsed_time": "2d 20h 51m 14s", "remaining_time": "9h 44m 53s"}
+{"loss": 0.06003515, "token_acc": 0.97659208, "grad_norm": 3.01277852, "learning_rate": 3.74e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231816, "epoch": 4.38028813, "global_step/max_steps": "57465/65595", "percentage": "87.61%", "elapsed_time": "2d 20h 51m 28s", "remaining_time": "9h 44m 30s"}
+{"loss": 0.02479538, "token_acc": 0.98898348, "grad_norm": 1.68629777, "learning_rate": 3.74e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231823, "epoch": 4.38066926, "global_step/max_steps": "57470/65595", "percentage": "87.61%", "elapsed_time": "2d 20h 51m 42s", "remaining_time": "9h 44m 8s"}
+{"loss": 0.02864529, "token_acc": 0.98759165, "grad_norm": 1.89815331, "learning_rate": 3.73e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231827, "epoch": 4.38105038, "global_step/max_steps": "57475/65595", "percentage": "87.62%", "elapsed_time": "2d 20h 51m 59s", "remaining_time": "9h 43m 45s"}
+{"loss": 0.03939524, "token_acc": 0.9868231, "grad_norm": 0.91716635, "learning_rate": 3.73e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231833, "epoch": 4.38143151, "global_step/max_steps": "57480/65595", "percentage": "87.63%", "elapsed_time": "2d 20h 52m 15s", "remaining_time": "9h 43m 23s"}
+{"loss": 0.05716168, "token_acc": 0.9829222, "grad_norm": 1.37759113, "learning_rate": 3.72e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231838, "epoch": 4.38181264, "global_step/max_steps": "57485/65595", "percentage": "87.64%", "elapsed_time": "2d 20h 52m 30s", "remaining_time": "9h 43m 0s"}
+{"loss": 0.01535333, "token_acc": 0.99218071, "grad_norm": 0.75873232, "learning_rate": 3.72e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231847, "epoch": 4.38219376, "global_step/max_steps": "57490/65595", "percentage": "87.64%", "elapsed_time": "2d 20h 52m 43s", "remaining_time": "9h 42m 38s"}
+{"loss": 0.03936366, "token_acc": 0.98590828, "grad_norm": 1.57798994, "learning_rate": 3.72e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231853, "epoch": 4.38257489, "global_step/max_steps": "57495/65595", "percentage": "87.65%", "elapsed_time": "2d 20h 52m 57s", "remaining_time": "9h 42m 15s"}
+{"loss": 0.0328038, "token_acc": 0.98795181, "grad_norm": 1.74805319, "learning_rate": 3.71e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231859, "epoch": 4.38295602, "global_step/max_steps": "57500/65595", "percentage": "87.66%", "elapsed_time": "2d 20h 53m 13s", "remaining_time": "9h 41m 53s"}
+{"loss": 0.01928279, "token_acc": 0.9906822, "grad_norm": 1.33426154, "learning_rate": 3.71e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231862, "epoch": 4.38333714, "global_step/max_steps": "57505/65595", "percentage": "87.67%", "elapsed_time": "2d 20h 53m 31s", "remaining_time": "9h 41m 31s"}
+{"loss": 0.028988, "token_acc": 0.98919967, "grad_norm": 1.38564241, "learning_rate": 3.7e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231868, "epoch": 4.38371827, "global_step/max_steps": "57510/65595", "percentage": "87.67%", "elapsed_time": "2d 20h 53m 46s", "remaining_time": "9h 41m 8s"}
+{"loss": 0.02961749, "token_acc": 0.98592124, "grad_norm": 1.14689374, "learning_rate": 3.7e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231874, "epoch": 4.3840994, "global_step/max_steps": "57515/65595", "percentage": "87.68%", "elapsed_time": "2d 20h 54m 1s", "remaining_time": "9h 40m 46s"}
+{"loss": 0.04338846, "token_acc": 0.98457439, "grad_norm": 2.43504548, "learning_rate": 3.69e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231879, "epoch": 4.38448052, "global_step/max_steps": "57520/65595", "percentage": "87.69%", "elapsed_time": "2d 20h 54m 18s", "remaining_time": "9h 40m 23s"}
+{"loss": 0.03866499, "token_acc": 0.98686038, "grad_norm": 0.70050764, "learning_rate": 3.69e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231881, "epoch": 4.38486165, "global_step/max_steps": "57525/65595", "percentage": "87.70%", "elapsed_time": "2d 20h 54m 37s", "remaining_time": "9h 40m 2s"}
+{"loss": 0.02343205, "token_acc": 0.98726268, "grad_norm": 1.22527087, "learning_rate": 3.68e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231887, "epoch": 4.38524278, "global_step/max_steps": "57530/65595", "percentage": "87.70%", "elapsed_time": "2d 20h 54m 52s", "remaining_time": "9h 39m 39s"}
+{"loss": 0.06326195, "token_acc": 0.98729823, "grad_norm": 3.07568264, "learning_rate": 3.68e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231894, "epoch": 4.3856239, "global_step/max_steps": "57535/65595", "percentage": "87.71%", "elapsed_time": "2d 20h 55m 6s", "remaining_time": "9h 39m 16s"}
+{"loss": 0.02571078, "token_acc": 0.99255509, "grad_norm": 0.70319313, "learning_rate": 3.67e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231901, "epoch": 4.38600503, "global_step/max_steps": "57540/65595", "percentage": "87.72%", "elapsed_time": "2d 20h 55m 20s", "remaining_time": "9h 38m 54s"}
+{"loss": 0.01579724, "token_acc": 0.99350649, "grad_norm": 2.25203681, "learning_rate": 3.67e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23191, "epoch": 4.38638616, "global_step/max_steps": "57545/65595", "percentage": "87.73%", "elapsed_time": "2d 20h 55m 33s", "remaining_time": "9h 38m 31s"}
+{"loss": 0.04078445, "token_acc": 0.98793175, "grad_norm": 1.35149372, "learning_rate": 3.67e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231917, "epoch": 4.38676728, "global_step/max_steps": "57550/65595", "percentage": "87.74%", "elapsed_time": "2d 20h 55m 46s", "remaining_time": "9h 38m 8s"}
+{"loss": 0.03884676, "token_acc": 0.98278443, "grad_norm": 2.48322487, "learning_rate": 3.66e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231926, "epoch": 4.38714841, "global_step/max_steps": "57555/65595", "percentage": "87.74%", "elapsed_time": "2d 20h 55m 58s", "remaining_time": "9h 37m 45s"}
+{"loss": 0.03129525, "token_acc": 0.98894843, "grad_norm": 1.03990757, "learning_rate": 3.66e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231933, "epoch": 4.38752954, "global_step/max_steps": "57560/65595", "percentage": "87.75%", "elapsed_time": "2d 20h 56m 12s", "remaining_time": "9h 37m 23s"}
+{"loss": 0.03706149, "token_acc": 0.98388829, "grad_norm": 1.99108851, "learning_rate": 3.65e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23194, "epoch": 4.38791066, "global_step/max_steps": "57565/65595", "percentage": "87.76%", "elapsed_time": "2d 20h 56m 27s", "remaining_time": "9h 37m 0s"}
+{"loss": 0.03270009, "token_acc": 0.98918112, "grad_norm": 1.95336306, "learning_rate": 3.65e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231946, "epoch": 4.38829179, "global_step/max_steps": "57570/65595", "percentage": "87.77%", "elapsed_time": "2d 20h 56m 42s", "remaining_time": "9h 36m 38s"}
+{"loss": 0.03974116, "token_acc": 0.9857685, "grad_norm": 1.41890073, "learning_rate": 3.64e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231953, "epoch": 4.38867292, "global_step/max_steps": "57575/65595", "percentage": "87.77%", "elapsed_time": "2d 20h 56m 56s", "remaining_time": "9h 36m 15s"}
+{"loss": 0.01960028, "token_acc": 0.99134119, "grad_norm": 0.86391789, "learning_rate": 3.64e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231959, "epoch": 4.38905404, "global_step/max_steps": "57580/65595", "percentage": "87.78%", "elapsed_time": "2d 20h 57m 11s", "remaining_time": "9h 35m 53s"}
+{"loss": 0.02943817, "token_acc": 0.98895028, "grad_norm": 2.55405307, "learning_rate": 3.63e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231964, "epoch": 4.38943517, "global_step/max_steps": "57585/65595", "percentage": "87.79%", "elapsed_time": "2d 20h 57m 27s", "remaining_time": "9h 35m 30s"}
+{"loss": 0.04704307, "token_acc": 0.98250071, "grad_norm": 0.20705891, "learning_rate": 3.63e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231971, "epoch": 4.3898163, "global_step/max_steps": "57590/65595", "percentage": "87.80%", "elapsed_time": "2d 20h 57m 41s", "remaining_time": "9h 35m 8s"}
+{"loss": 0.02649131, "token_acc": 0.99235105, "grad_norm": 0.85664964, "learning_rate": 3.63e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231979, "epoch": 4.39019742, "global_step/max_steps": "57595/65595", "percentage": "87.80%", "elapsed_time": "2d 20h 57m 54s", "remaining_time": "9h 34m 45s"}
+{"loss": 0.02921704, "token_acc": 0.99046352, "grad_norm": 0.68549365, "learning_rate": 3.62e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231984, "epoch": 4.39057855, "global_step/max_steps": "57600/65595", "percentage": "87.81%", "elapsed_time": "2d 20h 58m 11s", "remaining_time": "9h 34m 23s"}
+{"eval_loss": 0.04915928, "eval_token_acc": 0.98001626, "eval_runtime": 160.4791, "eval_samples_per_second": 3.303, "eval_steps_per_second": 3.303, "epoch": 4.39057855, "global_step/max_steps": "57600/65595", "percentage": "87.81%", "elapsed_time": "2d 21h 0m 51s", "remaining_time": "9h 34m 45s"}
+{"loss": 0.02898597, "token_acc": 0.98038468, "grad_norm": 0.24682941, "learning_rate": 3.62e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231837, "epoch": 4.39095968, "global_step/max_steps": "57605/65595", "percentage": "87.82%", "elapsed_time": "2d 21h 1m 9s", "remaining_time": "9h 34m 23s"}
+{"loss": 0.02078429, "token_acc": 0.99441947, "grad_norm": 0.59416783, "learning_rate": 3.61e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231842, "epoch": 4.3913408, "global_step/max_steps": "57610/65595", "percentage": "87.83%", "elapsed_time": "2d 21h 1m 25s", "remaining_time": "9h 34m 1s"}
+{"loss": 0.04818703, "token_acc": 0.9820036, "grad_norm": 0.93737, "learning_rate": 3.61e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231849, "epoch": 4.39172193, "global_step/max_steps": "57615/65595", "percentage": "87.83%", "elapsed_time": "2d 21h 1m 39s", "remaining_time": "9h 33m 38s"}
+{"loss": 0.0332483, "token_acc": 0.98513238, "grad_norm": 1.30207384, "learning_rate": 3.6e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231855, "epoch": 4.39210306, "global_step/max_steps": "57620/65595", "percentage": "87.84%", "elapsed_time": "2d 21h 1m 54s", "remaining_time": "9h 33m 16s"}
+{"loss": 0.03455447, "token_acc": 0.98584906, "grad_norm": 1.004951, "learning_rate": 3.6e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231858, "epoch": 4.39248418, "global_step/max_steps": "57625/65595", "percentage": "87.85%", "elapsed_time": "2d 21h 2m 13s", "remaining_time": "9h 32m 54s"}
+{"loss": 0.04665469, "token_acc": 0.98098377, "grad_norm": 1.18467355, "learning_rate": 3.59e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231865, "epoch": 4.39286531, "global_step/max_steps": "57630/65595", "percentage": "87.86%", "elapsed_time": "2d 21h 2m 27s", "remaining_time": "9h 32m 31s"}
+{"loss": 0.03081212, "token_acc": 0.98828806, "grad_norm": 1.29548025, "learning_rate": 3.59e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231871, "epoch": 4.39324644, "global_step/max_steps": "57635/65595", "percentage": "87.86%", "elapsed_time": "2d 21h 2m 42s", "remaining_time": "9h 32m 9s"}
+{"loss": 0.01781158, "token_acc": 0.98851775, "grad_norm": 0.79270124, "learning_rate": 3.59e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231875, "epoch": 4.39362756, "global_step/max_steps": "57640/65595", "percentage": "87.87%", "elapsed_time": "2d 21h 2m 59s", "remaining_time": "9h 31m 46s"}
+{"loss": 0.03419716, "token_acc": 0.98269468, "grad_norm": 2.66617393, "learning_rate": 3.58e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231882, "epoch": 4.39400869, "global_step/max_steps": "57645/65595", "percentage": "87.88%", "elapsed_time": "2d 21h 3m 13s", "remaining_time": "9h 31m 24s"}
+{"loss": 0.02631136, "token_acc": 0.99084873, "grad_norm": 1.58704984, "learning_rate": 3.58e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231887, "epoch": 4.39438982, "global_step/max_steps": "57650/65595", "percentage": "87.89%", "elapsed_time": "2d 21h 3m 30s", "remaining_time": "9h 31m 2s"}
+{"loss": 0.03358308, "token_acc": 0.98775867, "grad_norm": 0.83730894, "learning_rate": 3.57e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231892, "epoch": 4.39477094, "global_step/max_steps": "57655/65595", "percentage": "87.90%", "elapsed_time": "2d 21h 3m 46s", "remaining_time": "9h 30m 39s"}
+{"loss": 0.0158245, "token_acc": 0.99161865, "grad_norm": 0.72201228, "learning_rate": 3.57e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231898, "epoch": 4.39515207, "global_step/max_steps": "57660/65595", "percentage": "87.90%", "elapsed_time": "2d 21h 4m 1s", "remaining_time": "9h 30m 17s"}
+{"loss": 0.0258522, "token_acc": 0.98999361, "grad_norm": 0.6346963, "learning_rate": 3.56e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231904, "epoch": 4.3955332, "global_step/max_steps": "57665/65595", "percentage": "87.91%", "elapsed_time": "2d 21h 4m 16s", "remaining_time": "9h 29m 54s"}
+{"loss": 0.03191242, "token_acc": 0.98952618, "grad_norm": 0.77262938, "learning_rate": 3.56e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231908, "epoch": 4.39591432, "global_step/max_steps": "57670/65595", "percentage": "87.92%", "elapsed_time": "2d 21h 4m 34s", "remaining_time": "9h 29m 32s"}
+{"loss": 0.03607067, "token_acc": 0.98504306, "grad_norm": 0.73187059, "learning_rate": 3.55e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231912, "epoch": 4.39629545, "global_step/max_steps": "57675/65595", "percentage": "87.93%", "elapsed_time": "2d 21h 4m 51s", "remaining_time": "9h 29m 10s"}
+{"loss": 0.03258621, "token_acc": 0.98679426, "grad_norm": 0.94722915, "learning_rate": 3.55e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231918, "epoch": 4.39667658, "global_step/max_steps": "57680/65595", "percentage": "87.93%", "elapsed_time": "2d 21h 5m 6s", "remaining_time": "9h 28m 48s"}
+{"loss": 0.02592123, "token_acc": 0.98922592, "grad_norm": 1.04696083, "learning_rate": 3.55e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231922, "epoch": 4.3970577, "global_step/max_steps": "57685/65595", "percentage": "87.94%", "elapsed_time": "2d 21h 5m 23s", "remaining_time": "9h 28m 25s"}
+{"loss": 0.0270205, "token_acc": 0.98942786, "grad_norm": 0.61967576, "learning_rate": 3.54e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231922, "epoch": 4.39743883, "global_step/max_steps": "57690/65595", "percentage": "87.95%", "elapsed_time": "2d 21h 5m 44s", "remaining_time": "9h 28m 4s"}
+{"loss": 0.03696411, "token_acc": 0.98691418, "grad_norm": 0.87177974, "learning_rate": 3.54e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231929, "epoch": 4.39781996, "global_step/max_steps": "57695/65595", "percentage": "87.96%", "elapsed_time": "2d 21h 5m 58s", "remaining_time": "9h 27m 41s"}
+{"loss": 0.03241588, "token_acc": 0.98639075, "grad_norm": 1.34941018, "learning_rate": 3.53e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231935, "epoch": 4.39820108, "global_step/max_steps": "57700/65595", "percentage": "87.96%", "elapsed_time": "2d 21h 6m 14s", "remaining_time": "9h 27m 19s"}
+{"loss": 0.02759185, "token_acc": 0.98979592, "grad_norm": 1.54264557, "learning_rate": 3.53e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231942, "epoch": 4.39858221, "global_step/max_steps": "57705/65595", "percentage": "87.97%", "elapsed_time": "2d 21h 6m 28s", "remaining_time": "9h 26m 56s"}
+{"loss": 0.02103964, "token_acc": 0.99065693, "grad_norm": 0.84107083, "learning_rate": 3.52e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231949, "epoch": 4.39896334, "global_step/max_steps": "57710/65595", "percentage": "87.98%", "elapsed_time": "2d 21h 6m 42s", "remaining_time": "9h 26m 34s"}
+{"loss": 0.03195193, "token_acc": 0.98567086, "grad_norm": 1.32859445, "learning_rate": 3.52e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231955, "epoch": 4.39934446, "global_step/max_steps": "57715/65595", "percentage": "87.99%", "elapsed_time": "2d 21h 6m 57s", "remaining_time": "9h 26m 11s"}
+{"loss": 0.03803335, "token_acc": 0.98104023, "grad_norm": 0.99105036, "learning_rate": 3.51e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231962, "epoch": 4.39972559, "global_step/max_steps": "57720/65595", "percentage": "87.99%", "elapsed_time": "2d 21h 7m 11s", "remaining_time": "9h 25m 49s"}
+{"loss": 0.01815214, "token_acc": 0.99051768, "grad_norm": 0.58664042, "learning_rate": 3.51e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231966, "epoch": 4.40010672, "global_step/max_steps": "57725/65595", "percentage": "88.00%", "elapsed_time": "2d 21h 7m 28s", "remaining_time": "9h 25m 27s"}
+{"loss": 0.01909543, "token_acc": 0.990625, "grad_norm": 0.82359523, "learning_rate": 3.51e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231975, "epoch": 4.40048784, "global_step/max_steps": "57730/65595", "percentage": "88.01%", "elapsed_time": "2d 21h 7m 41s", "remaining_time": "9h 25m 4s"}
+{"loss": 0.02442755, "token_acc": 0.98684419, "grad_norm": 1.67026615, "learning_rate": 3.5e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231978, "epoch": 4.40086897, "global_step/max_steps": "57735/65595", "percentage": "88.02%", "elapsed_time": "2d 21h 7m 59s", "remaining_time": "9h 24m 42s"}
+{"loss": 0.03980361, "token_acc": 0.97755144, "grad_norm": 1.75372493, "learning_rate": 3.5e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231984, "epoch": 4.4012501, "global_step/max_steps": "57740/65595", "percentage": "88.03%", "elapsed_time": "2d 21h 8m 14s", "remaining_time": "9h 24m 19s"}
+{"loss": 0.03836789, "token_acc": 0.98363422, "grad_norm": 0.98019761, "learning_rate": 3.49e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231989, "epoch": 4.40163122, "global_step/max_steps": "57745/65595", "percentage": "88.03%", "elapsed_time": "2d 21h 8m 30s", "remaining_time": "9h 23m 57s"}
+{"loss": 0.02845748, "token_acc": 0.98566879, "grad_norm": 0.83674192, "learning_rate": 3.49e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231994, "epoch": 4.40201235, "global_step/max_steps": "57750/65595", "percentage": "88.04%", "elapsed_time": "2d 21h 8m 46s", "remaining_time": "9h 23m 35s"}
+{"loss": 0.02939938, "token_acc": 0.98973932, "grad_norm": 0.71147829, "learning_rate": 3.48e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231997, "epoch": 4.40239348, "global_step/max_steps": "57755/65595", "percentage": "88.05%", "elapsed_time": "2d 21h 9m 4s", "remaining_time": "9h 23m 13s"}
+{"loss": 0.03001244, "token_acc": 0.99100053, "grad_norm": 0.84676158, "learning_rate": 3.48e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232005, "epoch": 4.4027746, "global_step/max_steps": "57760/65595", "percentage": "88.06%", "elapsed_time": "2d 21h 9m 18s", "remaining_time": "9h 22m 50s"}
+{"loss": 0.01617415, "token_acc": 0.99226227, "grad_norm": 1.00337088, "learning_rate": 3.47e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23201, "epoch": 4.40315573, "global_step/max_steps": "57765/65595", "percentage": "88.06%", "elapsed_time": "2d 21h 9m 33s", "remaining_time": "9h 22m 28s"}
+{"loss": 0.03302819, "token_acc": 0.98733668, "grad_norm": 1.63843381, "learning_rate": 3.47e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232016, "epoch": 4.40353685, "global_step/max_steps": "57770/65595", "percentage": "88.07%", "elapsed_time": "2d 21h 9m 49s", "remaining_time": "9h 22m 5s"}
+{"loss": 0.02050712, "token_acc": 0.98900428, "grad_norm": 0.69074947, "learning_rate": 3.47e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232019, "epoch": 4.40391798, "global_step/max_steps": "57775/65595", "percentage": "88.08%", "elapsed_time": "2d 21h 10m 7s", "remaining_time": "9h 21m 43s"}
+{"loss": 0.02225542, "token_acc": 0.9897313, "grad_norm": 0.78185648, "learning_rate": 3.46e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232025, "epoch": 4.40429911, "global_step/max_steps": "57780/65595", "percentage": "88.09%", "elapsed_time": "2d 21h 10m 23s", "remaining_time": "9h 21m 21s"}
+{"loss": 0.02217298, "token_acc": 0.99037559, "grad_norm": 1.36626208, "learning_rate": 3.46e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23203, "epoch": 4.40468023, "global_step/max_steps": "57785/65595", "percentage": "88.09%", "elapsed_time": "2d 21h 10m 38s", "remaining_time": "9h 20m 59s"}
+{"loss": 0.05400158, "token_acc": 0.97125043, "grad_norm": 0.50065672, "learning_rate": 3.45e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232037, "epoch": 4.40506136, "global_step/max_steps": "57790/65595", "percentage": "88.10%", "elapsed_time": "2d 21h 10m 52s", "remaining_time": "9h 20m 36s"}
+{"loss": 0.04103607, "token_acc": 0.99200142, "grad_norm": 1.96716499, "learning_rate": 3.45e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232041, "epoch": 4.40544249, "global_step/max_steps": "57795/65595", "percentage": "88.11%", "elapsed_time": "2d 21h 11m 10s", "remaining_time": "9h 20m 14s"}
+{"loss": 0.02398606, "token_acc": 0.98892989, "grad_norm": 0.68297809, "learning_rate": 3.44e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232044, "epoch": 4.40582361, "global_step/max_steps": "57800/65595", "percentage": "88.12%", "elapsed_time": "2d 21h 11m 28s", "remaining_time": "9h 19m 52s"}
+{"eval_loss": 0.04924232, "eval_token_acc": 0.98009909, "eval_runtime": 158.3438, "eval_samples_per_second": 3.347, "eval_steps_per_second": 3.347, "epoch": 4.40582361, "global_step/max_steps": "57800/65595", "percentage": "88.12%", "elapsed_time": "2d 21h 14m 6s", "remaining_time": "9h 20m 13s"}
+{"loss": 0.0348664, "token_acc": 0.98051822, "grad_norm": 0.49942949, "learning_rate": 3.44e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231901, "epoch": 4.40620474, "global_step/max_steps": "57805/65595", "percentage": "88.12%", "elapsed_time": "2d 21h 14m 24s", "remaining_time": "9h 19m 51s"}
+{"loss": 0.03683125, "token_acc": 0.98494909, "grad_norm": 1.86162722, "learning_rate": 3.44e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231906, "epoch": 4.40658587, "global_step/max_steps": "57810/65595", "percentage": "88.13%", "elapsed_time": "2d 21h 14m 39s", "remaining_time": "9h 19m 29s"}
+{"loss": 0.03254489, "token_acc": 0.98501992, "grad_norm": 0.52042061, "learning_rate": 3.43e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231911, "epoch": 4.40696699, "global_step/max_steps": "57815/65595", "percentage": "88.14%", "elapsed_time": "2d 21h 14m 56s", "remaining_time": "9h 19m 7s"}
+{"loss": 0.03758853, "token_acc": 0.98514146, "grad_norm": 2.24373078, "learning_rate": 3.43e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231917, "epoch": 4.40734812, "global_step/max_steps": "57820/65595", "percentage": "88.15%", "elapsed_time": "2d 21h 15m 11s", "remaining_time": "9h 18m 44s"}
+{"loss": 0.03666485, "token_acc": 0.98473282, "grad_norm": 1.6119802, "learning_rate": 3.42e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231923, "epoch": 4.40772925, "global_step/max_steps": "57825/65595", "percentage": "88.15%", "elapsed_time": "2d 21h 15m 25s", "remaining_time": "9h 18m 22s"}
+{"loss": 0.02533349, "token_acc": 0.9896978, "grad_norm": 1.02299356, "learning_rate": 3.42e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231929, "epoch": 4.40811037, "global_step/max_steps": "57830/65595", "percentage": "88.16%", "elapsed_time": "2d 21h 15m 41s", "remaining_time": "9h 17m 59s"}
+{"loss": 0.0335602, "token_acc": 0.98622934, "grad_norm": 0.64456153, "learning_rate": 3.41e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231935, "epoch": 4.4084915, "global_step/max_steps": "57835/65595", "percentage": "88.17%", "elapsed_time": "2d 21h 15m 56s", "remaining_time": "9h 17m 37s"}
+{"loss": 0.0187504, "token_acc": 0.99042664, "grad_norm": 0.22990449, "learning_rate": 3.41e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23194, "epoch": 4.40887263, "global_step/max_steps": "57840/65595", "percentage": "88.18%", "elapsed_time": "2d 21h 16m 12s", "remaining_time": "9h 17m 15s"}
+{"loss": 0.05086648, "token_acc": 0.98151751, "grad_norm": 0.97577715, "learning_rate": 3.4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231947, "epoch": 4.40925375, "global_step/max_steps": "57845/65595", "percentage": "88.19%", "elapsed_time": "2d 21h 16m 26s", "remaining_time": "9h 16m 52s"}
+{"loss": 0.02142788, "token_acc": 0.98876799, "grad_norm": 1.71800685, "learning_rate": 3.4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231955, "epoch": 4.40963488, "global_step/max_steps": "57850/65595", "percentage": "88.19%", "elapsed_time": "2d 21h 16m 39s", "remaining_time": "9h 16m 29s"}
+{"loss": 0.02973542, "token_acc": 0.990092, "grad_norm": 3.673702, "learning_rate": 3.4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231963, "epoch": 4.41001601, "global_step/max_steps": "57855/65595", "percentage": "88.20%", "elapsed_time": "2d 21h 16m 52s", "remaining_time": "9h 16m 7s"}
+{"loss": 0.04148439, "token_acc": 0.98580089, "grad_norm": 0.98979795, "learning_rate": 3.39e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231968, "epoch": 4.41039713, "global_step/max_steps": "57860/65595", "percentage": "88.21%", "elapsed_time": "2d 21h 17m 9s", "remaining_time": "9h 15m 44s"}
+{"loss": 0.02789321, "token_acc": 0.98895745, "grad_norm": 0.59021139, "learning_rate": 3.39e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231973, "epoch": 4.41077826, "global_step/max_steps": "57865/65595", "percentage": "88.22%", "elapsed_time": "2d 21h 17m 24s", "remaining_time": "9h 15m 22s"}
+{"loss": 0.03911875, "token_acc": 0.98749267, "grad_norm": 0.83763981, "learning_rate": 3.38e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231979, "epoch": 4.41115939, "global_step/max_steps": "57870/65595", "percentage": "88.22%", "elapsed_time": "2d 21h 17m 39s", "remaining_time": "9h 15m 0s"}
+{"loss": 0.03503319, "token_acc": 0.98904847, "grad_norm": 1.09603488, "learning_rate": 3.38e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231983, "epoch": 4.41154051, "global_step/max_steps": "57875/65595", "percentage": "88.23%", "elapsed_time": "2d 21h 17m 57s", "remaining_time": "9h 14m 38s"}
+{"loss": 0.04643222, "token_acc": 0.98614028, "grad_norm": 1.32304835, "learning_rate": 3.37e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231991, "epoch": 4.41192164, "global_step/max_steps": "57880/65595", "percentage": "88.24%", "elapsed_time": "2d 21h 18m 10s", "remaining_time": "9h 14m 15s"}
+{"loss": 0.03921997, "token_acc": 0.9850672, "grad_norm": 1.0533402, "learning_rate": 3.37e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231995, "epoch": 4.41230277, "global_step/max_steps": "57885/65595", "percentage": "88.25%", "elapsed_time": "2d 21h 18m 26s", "remaining_time": "9h 13m 53s"}
+{"loss": 0.02781306, "token_acc": 0.98942682, "grad_norm": 0.19518363, "learning_rate": 3.37e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232002, "epoch": 4.41268389, "global_step/max_steps": "57890/65595", "percentage": "88.25%", "elapsed_time": "2d 21h 18m 41s", "remaining_time": "9h 13m 30s"}
+{"loss": 0.03635948, "token_acc": 0.98779109, "grad_norm": 3.08130693, "learning_rate": 3.36e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232006, "epoch": 4.41306502, "global_step/max_steps": "57895/65595", "percentage": "88.26%", "elapsed_time": "2d 21h 18m 58s", "remaining_time": "9h 13m 8s"}
+{"loss": 0.02941371, "token_acc": 0.98737507, "grad_norm": 0.68857092, "learning_rate": 3.36e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232012, "epoch": 4.41344615, "global_step/max_steps": "57900/65595", "percentage": "88.27%", "elapsed_time": "2d 21h 19m 13s", "remaining_time": "9h 12m 46s"}
+{"loss": 0.01446351, "token_acc": 0.99596309, "grad_norm": 1.35285616, "learning_rate": 3.35e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23202, "epoch": 4.41382727, "global_step/max_steps": "57905/65595", "percentage": "88.28%", "elapsed_time": "2d 21h 19m 26s", "remaining_time": "9h 12m 23s"}
+{"loss": 0.02828814, "token_acc": 0.98840639, "grad_norm": 0.97187769, "learning_rate": 3.35e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232021, "epoch": 4.4142084, "global_step/max_steps": "57910/65595", "percentage": "88.28%", "elapsed_time": "2d 21h 19m 47s", "remaining_time": "9h 12m 1s"}
+{"loss": 0.02594425, "token_acc": 0.99075005, "grad_norm": 0.85738701, "learning_rate": 3.34e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232027, "epoch": 4.41458953, "global_step/max_steps": "57915/65595", "percentage": "88.29%", "elapsed_time": "2d 21h 20m 2s", "remaining_time": "9h 11m 39s"}
+{"loss": 0.02965477, "token_acc": 0.98826935, "grad_norm": 1.62977099, "learning_rate": 3.34e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232033, "epoch": 4.41497065, "global_step/max_steps": "57920/65595", "percentage": "88.30%", "elapsed_time": "2d 21h 20m 17s", "remaining_time": "9h 11m 16s"}
+{"loss": 0.03421503, "token_acc": 0.98988805, "grad_norm": 1.07155931, "learning_rate": 3.34e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232038, "epoch": 4.41535178, "global_step/max_steps": "57925/65595", "percentage": "88.31%", "elapsed_time": "2d 21h 20m 33s", "remaining_time": "9h 10m 54s"}
+{"loss": 0.02757064, "token_acc": 0.9882224, "grad_norm": 0.25756851, "learning_rate": 3.33e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232046, "epoch": 4.41573291, "global_step/max_steps": "57930/65595", "percentage": "88.31%", "elapsed_time": "2d 21h 20m 46s", "remaining_time": "9h 10m 31s"}
+{"loss": 0.0471045, "token_acc": 0.98249708, "grad_norm": 0.66230327, "learning_rate": 3.33e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232053, "epoch": 4.41611403, "global_step/max_steps": "57935/65595", "percentage": "88.32%", "elapsed_time": "2d 21h 21m 0s", "remaining_time": "9h 10m 9s"}
+{"loss": 0.02154793, "token_acc": 0.99117647, "grad_norm": 1.32372212, "learning_rate": 3.32e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232061, "epoch": 4.41649516, "global_step/max_steps": "57940/65595", "percentage": "88.33%", "elapsed_time": "2d 21h 21m 13s", "remaining_time": "9h 9m 46s"}
+{"loss": 0.04024718, "token_acc": 0.98086124, "grad_norm": 1.32770073, "learning_rate": 3.32e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232066, "epoch": 4.41687629, "global_step/max_steps": "57945/65595", "percentage": "88.34%", "elapsed_time": "2d 21h 21m 29s", "remaining_time": "9h 9m 24s"}
+{"loss": 0.0219696, "token_acc": 0.988911, "grad_norm": 1.00370741, "learning_rate": 3.31e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232073, "epoch": 4.41725741, "global_step/max_steps": "57950/65595", "percentage": "88.35%", "elapsed_time": "2d 21h 21m 43s", "remaining_time": "9h 9m 1s"}
+{"loss": 0.01946628, "token_acc": 0.99168101, "grad_norm": 1.38719666, "learning_rate": 3.31e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232081, "epoch": 4.41763854, "global_step/max_steps": "57955/65595", "percentage": "88.35%", "elapsed_time": "2d 21h 21m 56s", "remaining_time": "9h 8m 39s"}
+{"loss": 0.01892082, "token_acc": 0.99398907, "grad_norm": 0.8267048, "learning_rate": 3.31e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232089, "epoch": 4.41801967, "global_step/max_steps": "57960/65595", "percentage": "88.36%", "elapsed_time": "2d 21h 22m 9s", "remaining_time": "9h 8m 16s"}
+{"loss": 0.01976094, "token_acc": 0.98823295, "grad_norm": 1.08189356, "learning_rate": 3.3e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232095, "epoch": 4.41840079, "global_step/max_steps": "57965/65595", "percentage": "88.37%", "elapsed_time": "2d 21h 22m 24s", "remaining_time": "9h 7m 54s"}
+{"loss": 0.03616093, "token_acc": 0.98373984, "grad_norm": 0.9902758, "learning_rate": 3.3e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232101, "epoch": 4.41878192, "global_step/max_steps": "57970/65595", "percentage": "88.38%", "elapsed_time": "2d 21h 22m 39s", "remaining_time": "9h 7m 31s"}
+{"loss": 0.03624656, "token_acc": 0.98656899, "grad_norm": 0.65879327, "learning_rate": 3.29e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232106, "epoch": 4.41916305, "global_step/max_steps": "57975/65595", "percentage": "88.38%", "elapsed_time": "2d 21h 22m 55s", "remaining_time": "9h 7m 9s"}
+{"loss": 0.05313829, "token_acc": 0.97827644, "grad_norm": 1.86290836, "learning_rate": 3.29e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232112, "epoch": 4.41954417, "global_step/max_steps": "57980/65595", "percentage": "88.39%", "elapsed_time": "2d 21h 23m 11s", "remaining_time": "9h 6m 47s"}
+{"loss": 0.02649286, "token_acc": 0.98625582, "grad_norm": 0.85659999, "learning_rate": 3.28e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232118, "epoch": 4.4199253, "global_step/max_steps": "57985/65595", "percentage": "88.40%", "elapsed_time": "2d 21h 23m 26s", "remaining_time": "9h 6m 24s"}
+{"loss": 0.04626967, "token_acc": 0.97891691, "grad_norm": 1.27658188, "learning_rate": 3.28e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232126, "epoch": 4.42030643, "global_step/max_steps": "57990/65595", "percentage": "88.41%", "elapsed_time": "2d 21h 23m 39s", "remaining_time": "9h 6m 2s"}
+{"loss": 0.03454652, "token_acc": 0.98573081, "grad_norm": 1.7679925, "learning_rate": 3.28e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232132, "epoch": 4.42068755, "global_step/max_steps": "57995/65595", "percentage": "88.41%", "elapsed_time": "2d 21h 23m 53s", "remaining_time": "9h 5m 39s"}
+{"loss": 0.01953309, "token_acc": 0.9936766, "grad_norm": 2.01082301, "learning_rate": 3.27e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232141, "epoch": 4.42106868, "global_step/max_steps": "58000/65595", "percentage": "88.42%", "elapsed_time": "2d 21h 24m 6s", "remaining_time": "9h 5m 16s"}
+{"eval_loss": 0.04898014, "eval_token_acc": 0.98000873, "eval_runtime": 156.9514, "eval_samples_per_second": 3.377, "eval_steps_per_second": 3.377, "epoch": 4.42106868, "global_step/max_steps": "58000/65595", "percentage": "88.42%", "elapsed_time": "2d 21h 26m 43s", "remaining_time": "9h 5m 37s"}
+{"loss": 0.03175307, "token_acc": 0.98027981, "grad_norm": 0.21740758, "learning_rate": 3.27e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232, "epoch": 4.42144981, "global_step/max_steps": "58005/65595", "percentage": "88.43%", "elapsed_time": "2d 21h 26m 59s", "remaining_time": "9h 5m 15s"}
+{"loss": 0.05408978, "token_acc": 0.98348873, "grad_norm": 1.80379093, "learning_rate": 3.26e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232005, "epoch": 4.42183093, "global_step/max_steps": "58010/65595", "percentage": "88.44%", "elapsed_time": "2d 21h 27m 15s", "remaining_time": "9h 4m 52s"}
+{"loss": 0.0347565, "token_acc": 0.99011436, "grad_norm": 3.1693635, "learning_rate": 3.26e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232011, "epoch": 4.42221206, "global_step/max_steps": "58015/65595", "percentage": "88.44%", "elapsed_time": "2d 21h 27m 30s", "remaining_time": "9h 4m 30s"}
+{"loss": 0.03697426, "token_acc": 0.98330241, "grad_norm": 0.72584468, "learning_rate": 3.25e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232018, "epoch": 4.42259319, "global_step/max_steps": "58020/65595", "percentage": "88.45%", "elapsed_time": "2d 21h 27m 44s", "remaining_time": "9h 4m 8s"}
+{"loss": 0.04321257, "token_acc": 0.98544749, "grad_norm": 0.99541289, "learning_rate": 3.25e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232023, "epoch": 4.42297431, "global_step/max_steps": "58025/65595", "percentage": "88.46%", "elapsed_time": "2d 21h 28m 1s", "remaining_time": "9h 3m 45s"}
+{"loss": 0.03093872, "token_acc": 0.98601952, "grad_norm": 1.03966856, "learning_rate": 3.25e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232029, "epoch": 4.42335544, "global_step/max_steps": "58030/65595", "percentage": "88.47%", "elapsed_time": "2d 21h 28m 16s", "remaining_time": "9h 3m 23s"}
+{"loss": 0.02192294, "token_acc": 0.99275362, "grad_norm": 1.05894554, "learning_rate": 3.24e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232035, "epoch": 4.42373657, "global_step/max_steps": "58035/65595", "percentage": "88.47%", "elapsed_time": "2d 21h 28m 30s", "remaining_time": "9h 3m 0s"}
+{"loss": 0.03669919, "token_acc": 0.98624905, "grad_norm": 0.79043847, "learning_rate": 3.24e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23204, "epoch": 4.42411769, "global_step/max_steps": "58040/65595", "percentage": "88.48%", "elapsed_time": "2d 21h 28m 47s", "remaining_time": "9h 2m 38s"}
+{"loss": 0.0263097, "token_acc": 0.98967298, "grad_norm": 0.80426943, "learning_rate": 3.23e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232043, "epoch": 4.42449882, "global_step/max_steps": "58045/65595", "percentage": "88.49%", "elapsed_time": "2d 21h 29m 5s", "remaining_time": "9h 2m 16s"}
+{"loss": 0.0275968, "token_acc": 0.98935582, "grad_norm": 0.17196082, "learning_rate": 3.23e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232048, "epoch": 4.42487995, "global_step/max_steps": "58050/65595", "percentage": "88.50%", "elapsed_time": "2d 21h 29m 21s", "remaining_time": "9h 1m 54s"}
+{"loss": 0.02846687, "token_acc": 0.99040614, "grad_norm": 0.84375066, "learning_rate": 3.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232055, "epoch": 4.42526107, "global_step/max_steps": "58055/65595", "percentage": "88.51%", "elapsed_time": "2d 21h 29m 35s", "remaining_time": "9h 1m 31s"}
+{"loss": 0.0348585, "token_acc": 0.98273705, "grad_norm": 1.00754285, "learning_rate": 3.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232062, "epoch": 4.4256422, "global_step/max_steps": "58060/65595", "percentage": "88.51%", "elapsed_time": "2d 21h 29m 49s", "remaining_time": "9h 1m 9s"}
+{"loss": 0.01839724, "token_acc": 0.99297938, "grad_norm": 0.486056, "learning_rate": 3.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232069, "epoch": 4.42602332, "global_step/max_steps": "58065/65595", "percentage": "88.52%", "elapsed_time": "2d 21h 30m 3s", "remaining_time": "9h 0m 46s"}
+{"loss": 0.04626012, "token_acc": 0.98436142, "grad_norm": 1.64523327, "learning_rate": 3.21e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232076, "epoch": 4.42640445, "global_step/max_steps": "58070/65595", "percentage": "88.53%", "elapsed_time": "2d 21h 30m 17s", "remaining_time": "9h 0m 24s"}
+{"loss": 0.03269792, "token_acc": 0.9885159, "grad_norm": 1.3656615, "learning_rate": 3.21e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232083, "epoch": 4.42678558, "global_step/max_steps": "58075/65595", "percentage": "88.54%", "elapsed_time": "2d 21h 30m 31s", "remaining_time": "9h 0m 1s"}
+{"loss": 0.03424274, "token_acc": 0.98582334, "grad_norm": 0.80864316, "learning_rate": 3.2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232089, "epoch": 4.4271667, "global_step/max_steps": "58080/65595", "percentage": "88.54%", "elapsed_time": "2d 21h 30m 46s", "remaining_time": "8h 59m 39s"}
+{"loss": 0.01820648, "token_acc": 0.99168854, "grad_norm": 0.2189739, "learning_rate": 3.2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232097, "epoch": 4.42754783, "global_step/max_steps": "58085/65595", "percentage": "88.55%", "elapsed_time": "2d 21h 30m 59s", "remaining_time": "8h 59m 16s"}
+{"loss": 0.01938488, "token_acc": 0.99227089, "grad_norm": 0.58357531, "learning_rate": 3.2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232102, "epoch": 4.42792896, "global_step/max_steps": "58090/65595", "percentage": "88.56%", "elapsed_time": "2d 21h 31m 15s", "remaining_time": "8h 58m 54s"}
+{"loss": 0.03341841, "token_acc": 0.98406567, "grad_norm": 0.96525162, "learning_rate": 3.19e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232107, "epoch": 4.42831008, "global_step/max_steps": "58095/65595", "percentage": "88.57%", "elapsed_time": "2d 21h 31m 31s", "remaining_time": "8h 58m 32s"}
+{"loss": 0.0214381, "token_acc": 0.99065843, "grad_norm": 0.60836643, "learning_rate": 3.19e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232113, "epoch": 4.42869121, "global_step/max_steps": "58100/65595", "percentage": "88.57%", "elapsed_time": "2d 21h 31m 46s", "remaining_time": "8h 58m 10s"}
+{"loss": 0.02330004, "token_acc": 0.98998331, "grad_norm": 1.94217622, "learning_rate": 3.18e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232118, "epoch": 4.42907234, "global_step/max_steps": "58105/65595", "percentage": "88.58%", "elapsed_time": "2d 21h 32m 3s", "remaining_time": "8h 57m 47s"}
+{"loss": 0.02499856, "token_acc": 0.98843839, "grad_norm": 0.77631652, "learning_rate": 3.18e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232121, "epoch": 4.42945346, "global_step/max_steps": "58110/65595", "percentage": "88.59%", "elapsed_time": "2d 21h 32m 21s", "remaining_time": "8h 57m 25s"}
+{"loss": 0.0284354, "token_acc": 0.98852946, "grad_norm": 0.82326955, "learning_rate": 3.17e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232121, "epoch": 4.42983459, "global_step/max_steps": "58115/65595", "percentage": "88.60%", "elapsed_time": "2d 21h 32m 42s", "remaining_time": "8h 57m 4s"}
+{"loss": 0.02050423, "token_acc": 0.99167493, "grad_norm": 0.10406279, "learning_rate": 3.17e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232127, "epoch": 4.43021572, "global_step/max_steps": "58120/65595", "percentage": "88.60%", "elapsed_time": "2d 21h 32m 58s", "remaining_time": "8h 56m 41s"}
+{"loss": 0.02463071, "token_acc": 0.98617208, "grad_norm": 0.95155174, "learning_rate": 3.17e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232132, "epoch": 4.43059684, "global_step/max_steps": "58125/65595", "percentage": "88.61%", "elapsed_time": "2d 21h 33m 13s", "remaining_time": "8h 56m 19s"}
+{"loss": 0.02366595, "token_acc": 0.990951, "grad_norm": 1.01883972, "learning_rate": 3.16e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232135, "epoch": 4.43097797, "global_step/max_steps": "58130/65595", "percentage": "88.62%", "elapsed_time": "2d 21h 33m 32s", "remaining_time": "8h 55m 57s"}
+{"loss": 0.03015182, "token_acc": 0.98882536, "grad_norm": 0.94722545, "learning_rate": 3.16e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232142, "epoch": 4.4313591, "global_step/max_steps": "58135/65595", "percentage": "88.63%", "elapsed_time": "2d 21h 33m 46s", "remaining_time": "8h 55m 35s"}
+{"loss": 0.02285062, "token_acc": 0.99125364, "grad_norm": 0.69663268, "learning_rate": 3.15e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232146, "epoch": 4.43174022, "global_step/max_steps": "58140/65595", "percentage": "88.63%", "elapsed_time": "2d 21h 34m 3s", "remaining_time": "8h 55m 13s"}
+{"loss": 0.03412861, "token_acc": 0.9888783, "grad_norm": 0.26994091, "learning_rate": 3.15e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232154, "epoch": 4.43212135, "global_step/max_steps": "58145/65595", "percentage": "88.64%", "elapsed_time": "2d 21h 34m 16s", "remaining_time": "8h 54m 50s"}
+{"loss": 0.02905946, "token_acc": 0.98866641, "grad_norm": 0.11044905, "learning_rate": 3.15e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232158, "epoch": 4.43250248, "global_step/max_steps": "58150/65595", "percentage": "88.65%", "elapsed_time": "2d 21h 34m 33s", "remaining_time": "8h 54m 28s"}
+{"loss": 0.02144276, "token_acc": 0.98805109, "grad_norm": 0.90896106, "learning_rate": 3.14e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232166, "epoch": 4.4328836, "global_step/max_steps": "58155/65595", "percentage": "88.66%", "elapsed_time": "2d 21h 34m 46s", "remaining_time": "8h 54m 5s"}
+{"loss": 0.02929378, "token_acc": 0.98955643, "grad_norm": 0.55717599, "learning_rate": 3.14e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23217, "epoch": 4.43326473, "global_step/max_steps": "58160/65595", "percentage": "88.67%", "elapsed_time": "2d 21h 35m 4s", "remaining_time": "8h 53m 43s"}
+{"loss": 0.02829861, "token_acc": 0.98988878, "grad_norm": 0.62666172, "learning_rate": 3.13e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232174, "epoch": 4.43364586, "global_step/max_steps": "58165/65595", "percentage": "88.67%", "elapsed_time": "2d 21h 35m 20s", "remaining_time": "8h 53m 21s"}
+{"loss": 0.0296405, "token_acc": 0.98701013, "grad_norm": 1.16089618, "learning_rate": 3.13e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232181, "epoch": 4.43402698, "global_step/max_steps": "58170/65595", "percentage": "88.68%", "elapsed_time": "2d 21h 35m 35s", "remaining_time": "8h 52m 59s"}
+{"loss": 0.02867621, "token_acc": 0.98546914, "grad_norm": 0.12149922, "learning_rate": 3.12e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232184, "epoch": 4.43440811, "global_step/max_steps": "58175/65595", "percentage": "88.69%", "elapsed_time": "2d 21h 35m 52s", "remaining_time": "8h 52m 37s"}
+{"loss": 0.01649356, "token_acc": 0.99033683, "grad_norm": 0.83523947, "learning_rate": 3.12e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23219, "epoch": 4.43478924, "global_step/max_steps": "58180/65595", "percentage": "88.70%", "elapsed_time": "2d 21h 36m 8s", "remaining_time": "8h 52m 14s"}
+{"loss": 0.03138897, "token_acc": 0.98851732, "grad_norm": 1.00591409, "learning_rate": 3.12e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232196, "epoch": 4.43517036, "global_step/max_steps": "58185/65595", "percentage": "88.70%", "elapsed_time": "2d 21h 36m 23s", "remaining_time": "8h 51m 52s"}
+{"loss": 0.05026546, "token_acc": 0.98074702, "grad_norm": 0.04827286, "learning_rate": 3.11e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2322, "epoch": 4.43555149, "global_step/max_steps": "58190/65595", "percentage": "88.71%", "elapsed_time": "2d 21h 36m 40s", "remaining_time": "8h 51m 30s"}
+{"loss": 0.01649473, "token_acc": 0.99279113, "grad_norm": 0.63395447, "learning_rate": 3.11e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232205, "epoch": 4.43593262, "global_step/max_steps": "58195/65595", "percentage": "88.72%", "elapsed_time": "2d 21h 36m 56s", "remaining_time": "8h 51m 8s"}
+{"loss": 0.03115747, "token_acc": 0.98618333, "grad_norm": 0.58873129, "learning_rate": 3.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232209, "epoch": 4.43631374, "global_step/max_steps": "58200/65595", "percentage": "88.73%", "elapsed_time": "2d 21h 37m 13s", "remaining_time": "8h 50m 46s"}
+{"eval_loss": 0.0492889, "eval_token_acc": 0.97991085, "eval_runtime": 158.5738, "eval_samples_per_second": 3.342, "eval_steps_per_second": 3.342, "epoch": 4.43631374, "global_step/max_steps": "58200/65595", "percentage": "88.73%", "elapsed_time": "2d 21h 39m 52s", "remaining_time": "8h 51m 6s"}
+{"loss": 0.03069574, "token_acc": 0.98010188, "grad_norm": 1.42220759, "learning_rate": 3.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232069, "epoch": 4.43669487, "global_step/max_steps": "58205/65595", "percentage": "88.73%", "elapsed_time": "2d 21h 40m 7s", "remaining_time": "8h 50m 43s"}
+{"loss": 0.02567436, "token_acc": 0.99134473, "grad_norm": 0.45601022, "learning_rate": 3.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232075, "epoch": 4.437076, "global_step/max_steps": "58210/65595", "percentage": "88.74%", "elapsed_time": "2d 21h 40m 22s", "remaining_time": "8h 50m 21s"}
+{"loss": 0.03439018, "token_acc": 0.98714799, "grad_norm": 0.86901218, "learning_rate": 3.09e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23208, "epoch": 4.43745712, "global_step/max_steps": "58215/65595", "percentage": "88.75%", "elapsed_time": "2d 21h 40m 37s", "remaining_time": "8h 49m 59s"}
+{"loss": 0.03278044, "token_acc": 0.9856342, "grad_norm": 1.72689307, "learning_rate": 3.09e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232088, "epoch": 4.43783825, "global_step/max_steps": "58220/65595", "percentage": "88.76%", "elapsed_time": "2d 21h 40m 50s", "remaining_time": "8h 49m 36s"}
+{"loss": 0.01689185, "token_acc": 0.99302866, "grad_norm": 0.54779965, "learning_rate": 3.08e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232093, "epoch": 4.43821938, "global_step/max_steps": "58225/65595", "percentage": "88.76%", "elapsed_time": "2d 21h 41m 6s", "remaining_time": "8h 49m 14s"}
+{"loss": 0.04235668, "token_acc": 0.98081579, "grad_norm": 0.69662863, "learning_rate": 3.08e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232098, "epoch": 4.4386005, "global_step/max_steps": "58230/65595", "percentage": "88.77%", "elapsed_time": "2d 21h 41m 22s", "remaining_time": "8h 48m 51s"}
+{"loss": 0.0354952, "token_acc": 0.9890785, "grad_norm": 1.68198359, "learning_rate": 3.07e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232106, "epoch": 4.43898163, "global_step/max_steps": "58235/65595", "percentage": "88.78%", "elapsed_time": "2d 21h 41m 36s", "remaining_time": "8h 48m 29s"}
+{"loss": 0.03539154, "token_acc": 0.98619824, "grad_norm": 1.06053054, "learning_rate": 3.07e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232111, "epoch": 4.43936276, "global_step/max_steps": "58240/65595", "percentage": "88.79%", "elapsed_time": "2d 21h 41m 52s", "remaining_time": "8h 48m 7s"}
+{"loss": 0.03244887, "token_acc": 0.98583778, "grad_norm": 1.35642445, "learning_rate": 3.07e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232115, "epoch": 4.43974388, "global_step/max_steps": "58245/65595", "percentage": "88.79%", "elapsed_time": "2d 21h 42m 9s", "remaining_time": "8h 47m 45s"}
+{"loss": 0.03431358, "token_acc": 0.98422762, "grad_norm": 1.24727249, "learning_rate": 3.06e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232121, "epoch": 4.44012501, "global_step/max_steps": "58250/65595", "percentage": "88.80%", "elapsed_time": "2d 21h 42m 24s", "remaining_time": "8h 47m 22s"}
+{"loss": 0.02260157, "token_acc": 0.99515235, "grad_norm": 0.60266465, "learning_rate": 3.06e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232128, "epoch": 4.44050614, "global_step/max_steps": "58255/65595", "percentage": "88.81%", "elapsed_time": "2d 21h 42m 38s", "remaining_time": "8h 47m 0s"}
+{"loss": 0.03453468, "token_acc": 0.98643516, "grad_norm": 1.12605047, "learning_rate": 3.05e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232136, "epoch": 4.44088726, "global_step/max_steps": "58260/65595", "percentage": "88.82%", "elapsed_time": "2d 21h 42m 51s", "remaining_time": "8h 46m 37s"}
+{"loss": 0.04025187, "token_acc": 0.98389095, "grad_norm": 1.21459413, "learning_rate": 3.05e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232142, "epoch": 4.44126839, "global_step/max_steps": "58265/65595", "percentage": "88.83%", "elapsed_time": "2d 21h 43m 6s", "remaining_time": "8h 46m 15s"}
+{"loss": 0.03908685, "token_acc": 0.98136439, "grad_norm": 0.87251043, "learning_rate": 3.05e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232147, "epoch": 4.44164952, "global_step/max_steps": "58270/65595", "percentage": "88.83%", "elapsed_time": "2d 21h 43m 22s", "remaining_time": "8h 45m 52s"}
+{"loss": 0.02899513, "token_acc": 0.9849075, "grad_norm": 0.6511116, "learning_rate": 3.04e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232153, "epoch": 4.44203064, "global_step/max_steps": "58275/65595", "percentage": "88.84%", "elapsed_time": "2d 21h 43m 37s", "remaining_time": "8h 45m 30s"}
+{"loss": 0.02686164, "token_acc": 0.98749023, "grad_norm": 0.94840473, "learning_rate": 3.04e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232156, "epoch": 4.44241177, "global_step/max_steps": "58280/65595", "percentage": "88.85%", "elapsed_time": "2d 21h 43m 55s", "remaining_time": "8h 45m 8s"}
+{"loss": 0.02032557, "token_acc": 0.99468085, "grad_norm": 2.09053779, "learning_rate": 3.03e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232164, "epoch": 4.4427929, "global_step/max_steps": "58285/65595", "percentage": "88.86%", "elapsed_time": "2d 21h 44m 9s", "remaining_time": "8h 44m 46s"}
+{"loss": 0.02958167, "token_acc": 0.98806634, "grad_norm": 2.07751536, "learning_rate": 3.03e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232169, "epoch": 4.44317402, "global_step/max_steps": "58290/65595", "percentage": "88.86%", "elapsed_time": "2d 21h 44m 25s", "remaining_time": "8h 44m 23s"}
+{"loss": 0.02363401, "token_acc": 0.99013605, "grad_norm": 0.80915302, "learning_rate": 3.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232175, "epoch": 4.44355515, "global_step/max_steps": "58295/65595", "percentage": "88.87%", "elapsed_time": "2d 21h 44m 39s", "remaining_time": "8h 44m 1s"}
+{"loss": 0.04920698, "token_acc": 0.98113863, "grad_norm": 1.07839715, "learning_rate": 3.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23218, "epoch": 4.44393628, "global_step/max_steps": "58300/65595", "percentage": "88.88%", "elapsed_time": "2d 21h 44m 56s", "remaining_time": "8h 43m 39s"}
+{"loss": 0.02881905, "token_acc": 0.98755035, "grad_norm": 1.24511933, "learning_rate": 3.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232183, "epoch": 4.4443174, "global_step/max_steps": "58305/65595", "percentage": "88.89%", "elapsed_time": "2d 21h 45m 14s", "remaining_time": "8h 43m 17s"}
+{"loss": 0.0307545, "token_acc": 0.98806366, "grad_norm": 1.0270189, "learning_rate": 3.01e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23219, "epoch": 4.44469853, "global_step/max_steps": "58310/65595", "percentage": "88.89%", "elapsed_time": "2d 21h 45m 28s", "remaining_time": "8h 42m 54s"}
+{"loss": 0.0300904, "token_acc": 0.98689366, "grad_norm": 0.82148659, "learning_rate": 3.01e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232195, "epoch": 4.44507966, "global_step/max_steps": "58315/65595", "percentage": "88.90%", "elapsed_time": "2d 21h 45m 44s", "remaining_time": "8h 42m 32s"}
+{"loss": 0.04134905, "token_acc": 0.98611111, "grad_norm": 0.97361135, "learning_rate": 3e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232197, "epoch": 4.44546078, "global_step/max_steps": "58320/65595", "percentage": "88.91%", "elapsed_time": "2d 21h 46m 3s", "remaining_time": "8h 42m 10s"}
+{"loss": 0.03528338, "token_acc": 0.98065395, "grad_norm": 1.0476985, "learning_rate": 3e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232204, "epoch": 4.44584191, "global_step/max_steps": "58325/65595", "percentage": "88.92%", "elapsed_time": "2d 21h 46m 17s", "remaining_time": "8h 41m 48s"}
+{"loss": 0.02186238, "token_acc": 0.99165998, "grad_norm": 0.2025979, "learning_rate": 3e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232209, "epoch": 4.44622304, "global_step/max_steps": "58330/65595", "percentage": "88.92%", "elapsed_time": "2d 21h 46m 33s", "remaining_time": "8h 41m 26s"}
+{"loss": 0.02191692, "token_acc": 0.99250208, "grad_norm": 1.15916944, "learning_rate": 2.99e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232217, "epoch": 4.44660416, "global_step/max_steps": "58335/65595", "percentage": "88.93%", "elapsed_time": "2d 21h 46m 46s", "remaining_time": "8h 41m 3s"}
+{"loss": 0.02827673, "token_acc": 0.98709163, "grad_norm": 1.03496242, "learning_rate": 2.99e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232222, "epoch": 4.44698529, "global_step/max_steps": "58340/65595", "percentage": "88.94%", "elapsed_time": "2d 21h 47m 2s", "remaining_time": "8h 40m 41s"}
+{"loss": 0.0220068, "token_acc": 0.99343051, "grad_norm": 2.28103137, "learning_rate": 2.98e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232229, "epoch": 4.44736642, "global_step/max_steps": "58345/65595", "percentage": "88.95%", "elapsed_time": "2d 21h 47m 16s", "remaining_time": "8h 40m 18s"}
+{"loss": 0.01500058, "token_acc": 0.98926476, "grad_norm": 0.27579466, "learning_rate": 2.98e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232234, "epoch": 4.44774754, "global_step/max_steps": "58350/65595", "percentage": "88.95%", "elapsed_time": "2d 21h 47m 33s", "remaining_time": "8h 39m 56s"}
+{"loss": 0.03584945, "token_acc": 0.98412402, "grad_norm": 1.09917843, "learning_rate": 2.98e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23224, "epoch": 4.44812867, "global_step/max_steps": "58355/65595", "percentage": "88.96%", "elapsed_time": "2d 21h 47m 47s", "remaining_time": "8h 39m 34s"}
+{"loss": 0.01914614, "token_acc": 0.99330835, "grad_norm": 0.47101083, "learning_rate": 2.97e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232242, "epoch": 4.44850979, "global_step/max_steps": "58360/65595", "percentage": "88.97%", "elapsed_time": "2d 21h 48m 6s", "remaining_time": "8h 39m 12s"}
+{"loss": 0.02967541, "token_acc": 0.98527171, "grad_norm": 1.42919993, "learning_rate": 2.97e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232249, "epoch": 4.44889092, "global_step/max_steps": "58365/65595", "percentage": "88.98%", "elapsed_time": "2d 21h 48m 21s", "remaining_time": "8h 38m 50s"}
+{"loss": 0.03325777, "token_acc": 0.98717949, "grad_norm": 0.94767153, "learning_rate": 2.96e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232255, "epoch": 4.44927205, "global_step/max_steps": "58370/65595", "percentage": "88.99%", "elapsed_time": "2d 21h 48m 36s", "remaining_time": "8h 38m 27s"}
+{"loss": 0.03083682, "token_acc": 0.98755995, "grad_norm": 1.07860816, "learning_rate": 2.96e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23226, "epoch": 4.44965317, "global_step/max_steps": "58375/65595", "percentage": "88.99%", "elapsed_time": "2d 21h 48m 52s", "remaining_time": "8h 38m 5s"}
+{"loss": 0.02684058, "token_acc": 0.98629769, "grad_norm": 0.74581331, "learning_rate": 2.96e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232267, "epoch": 4.4500343, "global_step/max_steps": "58380/65595", "percentage": "89.00%", "elapsed_time": "2d 21h 49m 6s", "remaining_time": "8h 37m 43s"}
+{"loss": 0.01782654, "token_acc": 0.99067006, "grad_norm": 1.13940406, "learning_rate": 2.95e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232275, "epoch": 4.45041543, "global_step/max_steps": "58385/65595", "percentage": "89.01%", "elapsed_time": "2d 21h 49m 19s", "remaining_time": "8h 37m 20s"}
+{"loss": 0.02838992, "token_acc": 0.98852702, "grad_norm": 2.21276927, "learning_rate": 2.95e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23228, "epoch": 4.45079655, "global_step/max_steps": "58390/65595", "percentage": "89.02%", "elapsed_time": "2d 21h 49m 35s", "remaining_time": "8h 36m 58s"}
+{"loss": 0.02027732, "token_acc": 0.99045599, "grad_norm": 0.28387919, "learning_rate": 2.94e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232288, "epoch": 4.45117768, "global_step/max_steps": "58395/65595", "percentage": "89.02%", "elapsed_time": "2d 21h 49m 48s", "remaining_time": "8h 36m 35s"}
+{"loss": 0.02440616, "token_acc": 0.98756147, "grad_norm": 0.76822215, "learning_rate": 2.94e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232293, "epoch": 4.45155881, "global_step/max_steps": "58400/65595", "percentage": "89.03%", "elapsed_time": "2d 21h 50m 4s", "remaining_time": "8h 36m 13s"}
+{"eval_loss": 0.04881139, "eval_token_acc": 0.98032498, "eval_runtime": 156.9073, "eval_samples_per_second": 3.378, "eval_steps_per_second": 3.378, "epoch": 4.45155881, "global_step/max_steps": "58400/65595", "percentage": "89.03%", "elapsed_time": "2d 21h 52m 41s", "remaining_time": "8h 36m 32s"}
+{"loss": 0.04087223, "token_acc": 0.98056224, "grad_norm": 2.2710886, "learning_rate": 2.94e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232153, "epoch": 4.45193993, "global_step/max_steps": "58405/65595", "percentage": "89.04%", "elapsed_time": "2d 21h 52m 57s", "remaining_time": "8h 36m 10s"}
+{"loss": 0.02831557, "token_acc": 0.9896259, "grad_norm": 1.29550219, "learning_rate": 2.93e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232157, "epoch": 4.45232106, "global_step/max_steps": "58410/65595", "percentage": "89.05%", "elapsed_time": "2d 21h 53m 14s", "remaining_time": "8h 35m 48s"}
+{"loss": 0.02923096, "token_acc": 0.9892396, "grad_norm": 2.20066857, "learning_rate": 2.93e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232163, "epoch": 4.45270219, "global_step/max_steps": "58415/65595", "percentage": "89.05%", "elapsed_time": "2d 21h 53m 29s", "remaining_time": "8h 35m 26s"}
+{"loss": 0.02588633, "token_acc": 0.99067866, "grad_norm": 1.72810721, "learning_rate": 2.92e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232168, "epoch": 4.45308331, "global_step/max_steps": "58420/65595", "percentage": "89.06%", "elapsed_time": "2d 21h 53m 46s", "remaining_time": "8h 35m 4s"}
+{"loss": 0.03847739, "token_acc": 0.98324567, "grad_norm": 1.84025919, "learning_rate": 2.92e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232173, "epoch": 4.45346444, "global_step/max_steps": "58425/65595", "percentage": "89.07%", "elapsed_time": "2d 21h 54m 2s", "remaining_time": "8h 34m 41s"}
+{"loss": 0.01289404, "token_acc": 0.99548241, "grad_norm": 1.26617408, "learning_rate": 2.92e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23218, "epoch": 4.45384557, "global_step/max_steps": "58430/65595", "percentage": "89.08%", "elapsed_time": "2d 21h 54m 15s", "remaining_time": "8h 34m 19s"}
+{"loss": 0.03989347, "token_acc": 0.98826314, "grad_norm": 0.8660031, "learning_rate": 2.91e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232183, "epoch": 4.45422669, "global_step/max_steps": "58435/65595", "percentage": "89.08%", "elapsed_time": "2d 21h 54m 33s", "remaining_time": "8h 33m 57s"}
+{"loss": 0.02126771, "token_acc": 0.99342105, "grad_norm": 1.32239485, "learning_rate": 2.91e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232189, "epoch": 4.45460782, "global_step/max_steps": "58440/65595", "percentage": "89.09%", "elapsed_time": "2d 21h 54m 48s", "remaining_time": "8h 33m 35s"}
+{"loss": 0.02319295, "token_acc": 0.99050204, "grad_norm": 1.29322243, "learning_rate": 2.9e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232194, "epoch": 4.45498895, "global_step/max_steps": "58445/65595", "percentage": "89.10%", "elapsed_time": "2d 21h 55m 5s", "remaining_time": "8h 33m 12s"}
+{"loss": 0.04244548, "token_acc": 0.98910006, "grad_norm": 0.76626396, "learning_rate": 2.9e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2322, "epoch": 4.45537007, "global_step/max_steps": "58450/65595", "percentage": "89.11%", "elapsed_time": "2d 21h 55m 19s", "remaining_time": "8h 32m 50s"}
+{"loss": 0.03127217, "token_acc": 0.98862185, "grad_norm": 1.29075682, "learning_rate": 2.9e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232203, "epoch": 4.4557512, "global_step/max_steps": "58455/65595", "percentage": "89.12%", "elapsed_time": "2d 21h 55m 38s", "remaining_time": "8h 32m 28s"}
+{"loss": 0.02586126, "token_acc": 0.99259822, "grad_norm": 0.53346592, "learning_rate": 2.89e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232208, "epoch": 4.45613233, "global_step/max_steps": "58460/65595", "percentage": "89.12%", "elapsed_time": "2d 21h 55m 54s", "remaining_time": "8h 32m 6s"}
+{"loss": 0.02632418, "token_acc": 0.98828697, "grad_norm": 0.88186276, "learning_rate": 2.89e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232212, "epoch": 4.45651345, "global_step/max_steps": "58465/65595", "percentage": "89.13%", "elapsed_time": "2d 21h 56m 11s", "remaining_time": "8h 31m 44s"}
+{"loss": 0.0209134, "token_acc": 0.99185788, "grad_norm": 0.53862053, "learning_rate": 2.88e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232216, "epoch": 4.45689458, "global_step/max_steps": "58470/65595", "percentage": "89.14%", "elapsed_time": "2d 21h 56m 29s", "remaining_time": "8h 31m 22s"}
+{"loss": 0.02778634, "token_acc": 0.98503038, "grad_norm": 0.62418962, "learning_rate": 2.88e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23222, "epoch": 4.45727571, "global_step/max_steps": "58475/65595", "percentage": "89.15%", "elapsed_time": "2d 21h 56m 46s", "remaining_time": "8h 31m 0s"}
+{"loss": 0.02934413, "token_acc": 0.98729058, "grad_norm": 1.33262181, "learning_rate": 2.88e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232227, "epoch": 4.45765683, "global_step/max_steps": "58480/65595", "percentage": "89.15%", "elapsed_time": "2d 21h 56m 59s", "remaining_time": "8h 30m 37s"}
+{"loss": 0.04524488, "token_acc": 0.98372966, "grad_norm": 0.90992886, "learning_rate": 2.87e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232231, "epoch": 4.45803796, "global_step/max_steps": "58485/65595", "percentage": "89.16%", "elapsed_time": "2d 21h 57m 17s", "remaining_time": "8h 30m 15s"}
+{"loss": 0.03178914, "token_acc": 0.99277978, "grad_norm": 0.00203427, "learning_rate": 2.87e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232238, "epoch": 4.45841909, "global_step/max_steps": "58490/65595", "percentage": "89.17%", "elapsed_time": "2d 21h 57m 31s", "remaining_time": "8h 29m 53s"}
+{"loss": 0.04637913, "token_acc": 0.97960805, "grad_norm": 1.07702017, "learning_rate": 2.86e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232244, "epoch": 4.45880021, "global_step/max_steps": "58495/65595", "percentage": "89.18%", "elapsed_time": "2d 21h 57m 46s", "remaining_time": "8h 29m 31s"}
+{"loss": 0.03641443, "token_acc": 0.98984428, "grad_norm": 2.40927196, "learning_rate": 2.86e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232251, "epoch": 4.45918134, "global_step/max_steps": "58500/65595", "percentage": "89.18%", "elapsed_time": "2d 21h 58m 0s", "remaining_time": "8h 29m 8s"}
+{"loss": 0.04192646, "token_acc": 0.98314922, "grad_norm": 0.84876519, "learning_rate": 2.86e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232256, "epoch": 4.45956247, "global_step/max_steps": "58505/65595", "percentage": "89.19%", "elapsed_time": "2d 21h 58m 16s", "remaining_time": "8h 28m 46s"}
+{"loss": 0.0397817, "token_acc": 0.98583569, "grad_norm": 1.76066458, "learning_rate": 2.85e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232264, "epoch": 4.45994359, "global_step/max_steps": "58510/65595", "percentage": "89.20%", "elapsed_time": "2d 21h 58m 29s", "remaining_time": "8h 28m 23s"}
+{"loss": 0.02783275, "token_acc": 0.9849757, "grad_norm": 2.1059761, "learning_rate": 2.85e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232272, "epoch": 4.46032472, "global_step/max_steps": "58515/65595", "percentage": "89.21%", "elapsed_time": "2d 21h 58m 42s", "remaining_time": "8h 28m 1s"}
+{"loss": 0.01906231, "token_acc": 0.99349858, "grad_norm": 0.39899117, "learning_rate": 2.84e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232279, "epoch": 4.46070585, "global_step/max_steps": "58520/65595", "percentage": "89.21%", "elapsed_time": "2d 21h 58m 55s", "remaining_time": "8h 27m 38s"}
+{"loss": 0.03961658, "token_acc": 0.98267428, "grad_norm": 0.99293607, "learning_rate": 2.84e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232285, "epoch": 4.46108697, "global_step/max_steps": "58525/65595", "percentage": "89.22%", "elapsed_time": "2d 21h 59m 11s", "remaining_time": "8h 27m 16s"}
+{"loss": 0.03086711, "token_acc": 0.98931196, "grad_norm": 0.99764073, "learning_rate": 2.84e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232291, "epoch": 4.4614681, "global_step/max_steps": "58530/65595", "percentage": "89.23%", "elapsed_time": "2d 21h 59m 26s", "remaining_time": "8h 26m 54s"}
+{"loss": 0.03822359, "token_acc": 0.98214286, "grad_norm": 1.01145828, "learning_rate": 2.83e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232296, "epoch": 4.46184923, "global_step/max_steps": "58535/65595", "percentage": "89.24%", "elapsed_time": "2d 21h 59m 42s", "remaining_time": "8h 26m 31s"}
+{"loss": 0.03957253, "token_acc": 0.98119757, "grad_norm": 2.65956426, "learning_rate": 2.83e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232303, "epoch": 4.46223035, "global_step/max_steps": "58540/65595", "percentage": "89.24%", "elapsed_time": "2d 21h 59m 56s", "remaining_time": "8h 26m 9s"}
+{"loss": 0.02640394, "token_acc": 0.99063336, "grad_norm": 1.2665292, "learning_rate": 2.82e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232311, "epoch": 4.46261148, "global_step/max_steps": "58545/65595", "percentage": "89.25%", "elapsed_time": "2d 22h 0m 9s", "remaining_time": "8h 25m 46s"}
+{"loss": 0.02510207, "token_acc": 0.99079953, "grad_norm": 0.65540677, "learning_rate": 2.82e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232314, "epoch": 4.46299261, "global_step/max_steps": "58550/65595", "percentage": "89.26%", "elapsed_time": "2d 22h 0m 27s", "remaining_time": "8h 25m 25s"}
+{"loss": 0.01808487, "token_acc": 0.98987708, "grad_norm": 1.14067674, "learning_rate": 2.82e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232321, "epoch": 4.46337373, "global_step/max_steps": "58555/65595", "percentage": "89.27%", "elapsed_time": "2d 22h 0m 41s", "remaining_time": "8h 25m 2s"}
+{"loss": 0.02502773, "token_acc": 0.98850997, "grad_norm": 0.59991974, "learning_rate": 2.81e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232321, "epoch": 4.46375486, "global_step/max_steps": "58560/65595", "percentage": "89.28%", "elapsed_time": "2d 22h 1m 3s", "remaining_time": "8h 24m 41s"}
+{"loss": 0.03120212, "token_acc": 0.98782647, "grad_norm": 1.43949306, "learning_rate": 2.81e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232327, "epoch": 4.46413599, "global_step/max_steps": "58565/65595", "percentage": "89.28%", "elapsed_time": "2d 22h 1m 17s", "remaining_time": "8h 24m 18s"}
+{"loss": 0.02637831, "token_acc": 0.98506241, "grad_norm": 1.09409213, "learning_rate": 2.8e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232331, "epoch": 4.46451711, "global_step/max_steps": "58570/65595", "percentage": "89.29%", "elapsed_time": "2d 22h 1m 34s", "remaining_time": "8h 23m 56s"}
+{"loss": 0.03407517, "token_acc": 0.98990291, "grad_norm": 1.6029377, "learning_rate": 2.8e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232339, "epoch": 4.46489824, "global_step/max_steps": "58575/65595", "percentage": "89.30%", "elapsed_time": "2d 22h 1m 48s", "remaining_time": "8h 23m 34s"}
+{"loss": 0.03780399, "token_acc": 0.98165648, "grad_norm": 1.22748411, "learning_rate": 2.8e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232344, "epoch": 4.46527937, "global_step/max_steps": "58580/65595", "percentage": "89.31%", "elapsed_time": "2d 22h 2m 3s", "remaining_time": "8h 23m 11s"}
+{"loss": 0.03396351, "token_acc": 0.98528979, "grad_norm": 4.9399147, "learning_rate": 2.79e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232351, "epoch": 4.46566049, "global_step/max_steps": "58585/65595", "percentage": "89.31%", "elapsed_time": "2d 22h 2m 17s", "remaining_time": "8h 22m 49s"}
+{"loss": 0.02754483, "token_acc": 0.98760514, "grad_norm": 1.0272795, "learning_rate": 2.79e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232359, "epoch": 4.46604162, "global_step/max_steps": "58590/65595", "percentage": "89.32%", "elapsed_time": "2d 22h 2m 30s", "remaining_time": "8h 22m 27s"}
+{"loss": 0.04836757, "token_acc": 0.98061425, "grad_norm": 1.94866502, "learning_rate": 2.78e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232364, "epoch": 4.46642275, "global_step/max_steps": "58595/65595", "percentage": "89.33%", "elapsed_time": "2d 22h 2m 46s", "remaining_time": "8h 22m 4s"}
+{"loss": 0.02991333, "token_acc": 0.99245994, "grad_norm": 0.38139692, "learning_rate": 2.78e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232373, "epoch": 4.46680387, "global_step/max_steps": "58600/65595", "percentage": "89.34%", "elapsed_time": "2d 22h 2m 58s", "remaining_time": "8h 21m 42s"}
+{"eval_loss": 0.04884312, "eval_token_acc": 0.98028733, "eval_runtime": 158.7528, "eval_samples_per_second": 3.339, "eval_steps_per_second": 3.339, "epoch": 4.46680387, "global_step/max_steps": "58600/65595", "percentage": "89.34%", "elapsed_time": "2d 22h 5m 36s", "remaining_time": "8h 22m 1s"}
+{"loss": 0.02997696, "token_acc": 0.98045963, "grad_norm": 1.30383253, "learning_rate": 2.78e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232235, "epoch": 4.467185, "global_step/max_steps": "58605/65595", "percentage": "89.34%", "elapsed_time": "2d 22h 5m 50s", "remaining_time": "8h 21m 38s"}
+{"loss": 0.0666164, "token_acc": 0.97778875, "grad_norm": 1.8665514, "learning_rate": 2.77e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232241, "epoch": 4.46756613, "global_step/max_steps": "58610/65595", "percentage": "89.35%", "elapsed_time": "2d 22h 6m 5s", "remaining_time": "8h 21m 16s"}
+{"loss": 0.06892396, "token_acc": 0.97961412, "grad_norm": 0.8185668, "learning_rate": 2.77e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232244, "epoch": 4.46794725, "global_step/max_steps": "58615/65595", "percentage": "89.36%", "elapsed_time": "2d 22h 6m 23s", "remaining_time": "8h 20m 54s"}
+{"loss": 0.04460042, "token_acc": 0.98659464, "grad_norm": 0.95507967, "learning_rate": 2.76e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232248, "epoch": 4.46832838, "global_step/max_steps": "58620/65595", "percentage": "89.37%", "elapsed_time": "2d 22h 6m 40s", "remaining_time": "8h 20m 32s"}
+{"loss": 0.02236201, "token_acc": 0.99049386, "grad_norm": 1.00356531, "learning_rate": 2.76e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232253, "epoch": 4.46870951, "global_step/max_steps": "58625/65595", "percentage": "89.37%", "elapsed_time": "2d 22h 6m 55s", "remaining_time": "8h 20m 10s"}
+{"loss": 0.01493164, "token_acc": 0.99601594, "grad_norm": 0.85058481, "learning_rate": 2.76e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23226, "epoch": 4.46909063, "global_step/max_steps": "58630/65595", "percentage": "89.38%", "elapsed_time": "2d 22h 7m 10s", "remaining_time": "8h 19m 47s"}
+{"loss": 0.02169519, "token_acc": 0.99294355, "grad_norm": 0.78750336, "learning_rate": 2.75e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232267, "epoch": 4.46947176, "global_step/max_steps": "58635/65595", "percentage": "89.39%", "elapsed_time": "2d 22h 7m 24s", "remaining_time": "8h 19m 25s"}
+{"loss": 0.02931469, "token_acc": 0.98921959, "grad_norm": 1.17417729, "learning_rate": 2.75e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232273, "epoch": 4.46985289, "global_step/max_steps": "58640/65595", "percentage": "89.40%", "elapsed_time": "2d 22h 7m 39s", "remaining_time": "8h 19m 2s"}
+{"loss": 0.03728309, "token_acc": 0.9864783, "grad_norm": 1.59045899, "learning_rate": 2.74e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232279, "epoch": 4.47023401, "global_step/max_steps": "58645/65595", "percentage": "89.40%", "elapsed_time": "2d 22h 7m 54s", "remaining_time": "8h 18m 40s"}
+{"loss": 0.03993428, "token_acc": 0.98501968, "grad_norm": 0.91466248, "learning_rate": 2.74e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232283, "epoch": 4.47061514, "global_step/max_steps": "58650/65595", "percentage": "89.41%", "elapsed_time": "2d 22h 8m 11s", "remaining_time": "8h 18m 18s"}
+{"loss": 0.04201216, "token_acc": 0.98399865, "grad_norm": 0.61798173, "learning_rate": 2.74e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232288, "epoch": 4.47099626, "global_step/max_steps": "58655/65595", "percentage": "89.42%", "elapsed_time": "2d 22h 8m 27s", "remaining_time": "8h 17m 56s"}
+{"loss": 0.01824956, "token_acc": 0.99478714, "grad_norm": 1.23256052, "learning_rate": 2.73e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232296, "epoch": 4.47137739, "global_step/max_steps": "58660/65595", "percentage": "89.43%", "elapsed_time": "2d 22h 8m 40s", "remaining_time": "8h 17m 33s"}
+{"loss": 0.03861549, "token_acc": 0.98518319, "grad_norm": 0.85343987, "learning_rate": 2.73e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232299, "epoch": 4.47175852, "global_step/max_steps": "58665/65595", "percentage": "89.44%", "elapsed_time": "2d 22h 8m 58s", "remaining_time": "8h 17m 11s"}
+{"loss": 0.04987538, "token_acc": 0.97880647, "grad_norm": 4.78929758, "learning_rate": 2.72e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232307, "epoch": 4.47213964, "global_step/max_steps": "58670/65595", "percentage": "89.44%", "elapsed_time": "2d 22h 9m 11s", "remaining_time": "8h 16m 49s"}
+{"loss": 0.02209961, "token_acc": 0.99145007, "grad_norm": 0.54365087, "learning_rate": 2.72e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232312, "epoch": 4.47252077, "global_step/max_steps": "58675/65595", "percentage": "89.45%", "elapsed_time": "2d 22h 9m 27s", "remaining_time": "8h 16m 27s"}
+{"loss": 0.03715576, "token_acc": 0.98326626, "grad_norm": 0.7137714, "learning_rate": 2.72e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232317, "epoch": 4.4729019, "global_step/max_steps": "58680/65595", "percentage": "89.46%", "elapsed_time": "2d 22h 9m 43s", "remaining_time": "8h 16m 5s"}
+{"loss": 0.03543825, "token_acc": 0.9873234, "grad_norm": 1.02473223, "learning_rate": 2.71e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232319, "epoch": 4.47328302, "global_step/max_steps": "58685/65595", "percentage": "89.47%", "elapsed_time": "2d 22h 10m 2s", "remaining_time": "8h 15m 43s"}
+{"loss": 0.01970044, "token_acc": 0.99039341, "grad_norm": 0.13765919, "learning_rate": 2.71e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232327, "epoch": 4.47366415, "global_step/max_steps": "58690/65595", "percentage": "89.47%", "elapsed_time": "2d 22h 10m 15s", "remaining_time": "8h 15m 20s"}
+{"loss": 0.0443776, "token_acc": 0.98756477, "grad_norm": 0.54560614, "learning_rate": 2.71e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23233, "epoch": 4.47404528, "global_step/max_steps": "58695/65595", "percentage": "89.48%", "elapsed_time": "2d 22h 10m 33s", "remaining_time": "8h 14m 58s"}
+{"loss": 0.01712254, "token_acc": 0.99155722, "grad_norm": 0.76762033, "learning_rate": 2.7e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232337, "epoch": 4.4744264, "global_step/max_steps": "58700/65595", "percentage": "89.49%", "elapsed_time": "2d 22h 10m 47s", "remaining_time": "8h 14m 36s"}
+{"loss": 0.04516447, "token_acc": 0.98310292, "grad_norm": 0.44349477, "learning_rate": 2.7e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232341, "epoch": 4.47480753, "global_step/max_steps": "58705/65595", "percentage": "89.50%", "elapsed_time": "2d 22h 11m 4s", "remaining_time": "8h 14m 14s"}
+{"loss": 0.0510998, "token_acc": 0.98889359, "grad_norm": 4.50769806, "learning_rate": 2.69e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232344, "epoch": 4.47518866, "global_step/max_steps": "58710/65595", "percentage": "89.50%", "elapsed_time": "2d 22h 11m 23s", "remaining_time": "8h 13m 52s"}
+{"loss": 0.02281831, "token_acc": 0.99134893, "grad_norm": 1.1977855, "learning_rate": 2.69e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232352, "epoch": 4.47556978, "global_step/max_steps": "58715/65595", "percentage": "89.51%", "elapsed_time": "2d 22h 11m 36s", "remaining_time": "8h 13m 30s"}
+{"loss": 0.01971242, "token_acc": 0.99216534, "grad_norm": 0.85527706, "learning_rate": 2.69e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232353, "epoch": 4.47595091, "global_step/max_steps": "58720/65595", "percentage": "89.52%", "elapsed_time": "2d 22h 11m 56s", "remaining_time": "8h 13m 8s"}
+{"loss": 0.02800044, "token_acc": 0.98515266, "grad_norm": 1.01461625, "learning_rate": 2.68e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232359, "epoch": 4.47633204, "global_step/max_steps": "58725/65595", "percentage": "89.53%", "elapsed_time": "2d 22h 12m 11s", "remaining_time": "8h 12m 46s"}
+{"loss": 0.03799598, "token_acc": 0.98484848, "grad_norm": 1.90206838, "learning_rate": 2.68e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232365, "epoch": 4.47671316, "global_step/max_steps": "58730/65595", "percentage": "89.53%", "elapsed_time": "2d 22h 12m 26s", "remaining_time": "8h 12m 23s"}
+{"loss": 0.0321017, "token_acc": 0.98614261, "grad_norm": 0.83416647, "learning_rate": 2.67e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232371, "epoch": 4.47709429, "global_step/max_steps": "58735/65595", "percentage": "89.54%", "elapsed_time": "2d 22h 12m 41s", "remaining_time": "8h 12m 1s"}
+{"loss": 0.0248386, "token_acc": 0.98945832, "grad_norm": 0.91624844, "learning_rate": 2.67e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232375, "epoch": 4.47747542, "global_step/max_steps": "58740/65595", "percentage": "89.55%", "elapsed_time": "2d 22h 12m 58s", "remaining_time": "8h 11m 39s"}
+{"loss": 0.03031569, "token_acc": 0.99162723, "grad_norm": 1.25008261, "learning_rate": 2.67e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232379, "epoch": 4.47785654, "global_step/max_steps": "58745/65595", "percentage": "89.56%", "elapsed_time": "2d 22h 13m 16s", "remaining_time": "8h 11m 17s"}
+{"loss": 0.03066964, "token_acc": 0.98826871, "grad_norm": 0.74654138, "learning_rate": 2.66e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23238, "epoch": 4.47823767, "global_step/max_steps": "58750/65595", "percentage": "89.56%", "elapsed_time": "2d 22h 13m 36s", "remaining_time": "8h 10m 55s"}
+{"loss": 0.02265618, "token_acc": 0.98946916, "grad_norm": 0.58716655, "learning_rate": 2.66e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232385, "epoch": 4.4786188, "global_step/max_steps": "58755/65595", "percentage": "89.57%", "elapsed_time": "2d 22h 13m 52s", "remaining_time": "8h 10m 33s"}
+{"loss": 0.02131239, "token_acc": 0.99245502, "grad_norm": 0.82763547, "learning_rate": 2.66e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232392, "epoch": 4.47899992, "global_step/max_steps": "58760/65595", "percentage": "89.58%", "elapsed_time": "2d 22h 14m 6s", "remaining_time": "8h 10m 11s"}
+{"loss": 0.02885877, "token_acc": 0.99258242, "grad_norm": 3.84481025, "learning_rate": 2.65e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232398, "epoch": 4.47938105, "global_step/max_steps": "58765/65595", "percentage": "89.59%", "elapsed_time": "2d 22h 14m 21s", "remaining_time": "8h 9m 48s"}
+{"loss": 0.02945089, "token_acc": 0.98828798, "grad_norm": 0.86367404, "learning_rate": 2.65e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232404, "epoch": 4.47976218, "global_step/max_steps": "58770/65595", "percentage": "89.60%", "elapsed_time": "2d 22h 14m 36s", "remaining_time": "8h 9m 26s"}
+{"loss": 0.03878601, "token_acc": 0.98475854, "grad_norm": 1.22466648, "learning_rate": 2.64e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232408, "epoch": 4.4801433, "global_step/max_steps": "58775/65595", "percentage": "89.60%", "elapsed_time": "2d 22h 14m 53s", "remaining_time": "8h 9m 4s"}
+{"loss": 0.03053961, "token_acc": 0.98730298, "grad_norm": 0.62383699, "learning_rate": 2.64e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232413, "epoch": 4.48052443, "global_step/max_steps": "58780/65595", "percentage": "89.61%", "elapsed_time": "2d 22h 15m 9s", "remaining_time": "8h 8m 42s"}
+{"loss": 0.01624282, "token_acc": 0.99342105, "grad_norm": 0.79800397, "learning_rate": 2.64e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232419, "epoch": 4.48090556, "global_step/max_steps": "58785/65595", "percentage": "89.62%", "elapsed_time": "2d 22h 15m 24s", "remaining_time": "8h 8m 20s"}
+{"loss": 0.0230354, "token_acc": 0.98878343, "grad_norm": 0.37202328, "learning_rate": 2.63e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232427, "epoch": 4.48128668, "global_step/max_steps": "58790/65595", "percentage": "89.63%", "elapsed_time": "2d 22h 15m 37s", "remaining_time": "8h 7m 57s"}
+{"loss": 0.03602512, "token_acc": 0.98554485, "grad_norm": 1.93090141, "learning_rate": 2.63e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232429, "epoch": 4.48166781, "global_step/max_steps": "58795/65595", "percentage": "89.63%", "elapsed_time": "2d 22h 15m 56s", "remaining_time": "8h 7m 35s"}
+{"loss": 0.01538009, "token_acc": 0.99230769, "grad_norm": 0.97910762, "learning_rate": 2.62e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232437, "epoch": 4.48204894, "global_step/max_steps": "58800/65595", "percentage": "89.64%", "elapsed_time": "2d 22h 16m 9s", "remaining_time": "8h 7m 13s"}
+{"eval_loss": 0.0484229, "eval_token_acc": 0.9804304, "eval_runtime": 158.3848, "eval_samples_per_second": 3.346, "eval_steps_per_second": 3.346, "epoch": 4.48204894, "global_step/max_steps": "58800/65595", "percentage": "89.64%", "elapsed_time": "2d 22h 18m 48s", "remaining_time": "8h 7m 31s"}
+{"loss": 0.02341914, "token_acc": 0.98076642, "grad_norm": 0.90749174, "learning_rate": 2.62e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232298, "epoch": 4.48243006, "global_step/max_steps": "58805/65595", "percentage": "89.65%", "elapsed_time": "2d 22h 19m 2s", "remaining_time": "8h 7m 9s"}
+{"loss": 0.04305016, "token_acc": 0.98530955, "grad_norm": 1.1580435, "learning_rate": 2.62e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232304, "epoch": 4.48281119, "global_step/max_steps": "58810/65595", "percentage": "89.66%", "elapsed_time": "2d 22h 19m 17s", "remaining_time": "8h 6m 47s"}
+{"loss": 0.02530285, "token_acc": 0.99423759, "grad_norm": 1.91325343, "learning_rate": 2.61e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232311, "epoch": 4.48319232, "global_step/max_steps": "58815/65595", "percentage": "89.66%", "elapsed_time": "2d 22h 19m 31s", "remaining_time": "8h 6m 24s"}
+{"loss": 0.02003782, "token_acc": 0.99103504, "grad_norm": 1.13477218, "learning_rate": 2.61e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232318, "epoch": 4.48357344, "global_step/max_steps": "58820/65595", "percentage": "89.67%", "elapsed_time": "2d 22h 19m 45s", "remaining_time": "8h 6m 2s"}
+{"loss": 0.02342944, "token_acc": 0.98873239, "grad_norm": 0.78574371, "learning_rate": 2.61e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232324, "epoch": 4.48395457, "global_step/max_steps": "58825/65595", "percentage": "89.68%", "elapsed_time": "2d 22h 20m 0s", "remaining_time": "8h 5m 40s"}
+{"loss": 0.02144862, "token_acc": 0.98817313, "grad_norm": 1.04492521, "learning_rate": 2.6e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232329, "epoch": 4.4843357, "global_step/max_steps": "58830/65595", "percentage": "89.69%", "elapsed_time": "2d 22h 20m 16s", "remaining_time": "8h 5m 17s"}
+{"loss": 0.02029143, "token_acc": 0.98976109, "grad_norm": 0.63361162, "learning_rate": 2.6e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232336, "epoch": 4.48471682, "global_step/max_steps": "58835/65595", "percentage": "89.69%", "elapsed_time": "2d 22h 20m 30s", "remaining_time": "8h 4m 55s"}
+{"loss": 0.03730047, "token_acc": 0.98759465, "grad_norm": 0.80353028, "learning_rate": 2.59e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232339, "epoch": 4.48509795, "global_step/max_steps": "58840/65595", "percentage": "89.70%", "elapsed_time": "2d 22h 20m 47s", "remaining_time": "8h 4m 33s"}
+{"loss": 0.02847865, "token_acc": 0.98728877, "grad_norm": 0.91886753, "learning_rate": 2.59e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232345, "epoch": 4.48547908, "global_step/max_steps": "58845/65595", "percentage": "89.71%", "elapsed_time": "2d 22h 21m 3s", "remaining_time": "8h 4m 11s"}
+{"loss": 0.03517666, "token_acc": 0.98705311, "grad_norm": 0.74337703, "learning_rate": 2.59e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23235, "epoch": 4.4858602, "global_step/max_steps": "58850/65595", "percentage": "89.72%", "elapsed_time": "2d 22h 21m 19s", "remaining_time": "8h 3m 49s"}
+{"loss": 0.01867071, "token_acc": 0.99360131, "grad_norm": 0.54802209, "learning_rate": 2.58e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232354, "epoch": 4.48624133, "global_step/max_steps": "58855/65595", "percentage": "89.72%", "elapsed_time": "2d 22h 21m 36s", "remaining_time": "8h 3m 27s"}
+{"loss": 0.02547484, "token_acc": 0.99072028, "grad_norm": 1.2576679, "learning_rate": 2.58e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23236, "epoch": 4.48662246, "global_step/max_steps": "58860/65595", "percentage": "89.73%", "elapsed_time": "2d 22h 21m 51s", "remaining_time": "8h 3m 4s"}
+{"loss": 0.03675183, "token_acc": 0.98972703, "grad_norm": 1.4495033, "learning_rate": 2.57e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232367, "epoch": 4.48700358, "global_step/max_steps": "58865/65595", "percentage": "89.74%", "elapsed_time": "2d 22h 22m 5s", "remaining_time": "8h 2m 42s"}
+{"loss": 0.05246409, "token_acc": 0.9861648, "grad_norm": 0.89236915, "learning_rate": 2.57e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232371, "epoch": 4.48738471, "global_step/max_steps": "58870/65595", "percentage": "89.75%", "elapsed_time": "2d 22h 22m 22s", "remaining_time": "8h 2m 20s"}
+{"loss": 0.026008, "token_acc": 0.98732741, "grad_norm": 0.54543006, "learning_rate": 2.57e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232377, "epoch": 4.48776584, "global_step/max_steps": "58875/65595", "percentage": "89.76%", "elapsed_time": "2d 22h 22m 37s", "remaining_time": "8h 1m 58s"}
+{"loss": 0.02902292, "token_acc": 0.98886786, "grad_norm": 0.97863889, "learning_rate": 2.56e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23238, "epoch": 4.48814696, "global_step/max_steps": "58880/65595", "percentage": "89.76%", "elapsed_time": "2d 22h 22m 55s", "remaining_time": "8h 1m 36s"}
+{"loss": 0.03175482, "token_acc": 0.98706708, "grad_norm": 1.03770411, "learning_rate": 2.56e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232383, "epoch": 4.48852809, "global_step/max_steps": "58885/65595", "percentage": "89.77%", "elapsed_time": "2d 22h 23m 14s", "remaining_time": "8h 1m 14s"}
+{"loss": 0.02286121, "token_acc": 0.98983127, "grad_norm": 0.47545746, "learning_rate": 2.56e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232385, "epoch": 4.48890922, "global_step/max_steps": "58890/65595", "percentage": "89.78%", "elapsed_time": "2d 22h 23m 33s", "remaining_time": "8h 0m 52s"}
+{"loss": 0.02476892, "token_acc": 0.98767022, "grad_norm": 0.67233753, "learning_rate": 2.55e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232391, "epoch": 4.48929034, "global_step/max_steps": "58895/65595", "percentage": "89.79%", "elapsed_time": "2d 22h 23m 48s", "remaining_time": "8h 0m 30s"}
+{"loss": 0.02579427, "token_acc": 0.9875, "grad_norm": 1.05990434, "learning_rate": 2.55e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232394, "epoch": 4.48967147, "global_step/max_steps": "58900/65595", "percentage": "89.79%", "elapsed_time": "2d 22h 24m 6s", "remaining_time": "8h 0m 8s"}
+{"loss": 0.03504183, "token_acc": 0.98763736, "grad_norm": 1.47826731, "learning_rate": 2.54e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232402, "epoch": 4.4900526, "global_step/max_steps": "58905/65595", "percentage": "89.80%", "elapsed_time": "2d 22h 24m 19s", "remaining_time": "7h 59m 46s"}
+{"loss": 0.03324805, "token_acc": 0.98773842, "grad_norm": 2.10213828, "learning_rate": 2.54e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232406, "epoch": 4.49043372, "global_step/max_steps": "58910/65595", "percentage": "89.81%", "elapsed_time": "2d 22h 24m 36s", "remaining_time": "7h 59m 24s"}
+{"loss": 0.03439059, "token_acc": 0.98877888, "grad_norm": 2.20991492, "learning_rate": 2.54e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232414, "epoch": 4.49081485, "global_step/max_steps": "58915/65595", "percentage": "89.82%", "elapsed_time": "2d 22h 24m 49s", "remaining_time": "7h 59m 1s"}
+{"loss": 0.01893304, "token_acc": 0.99196326, "grad_norm": 0.09914573, "learning_rate": 2.53e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232421, "epoch": 4.49119598, "global_step/max_steps": "58920/65595", "percentage": "89.82%", "elapsed_time": "2d 22h 25m 3s", "remaining_time": "7h 58m 39s"}
+{"loss": 0.06279722, "token_acc": 0.97916144, "grad_norm": 3.68001556, "learning_rate": 2.53e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232427, "epoch": 4.4915771, "global_step/max_steps": "58925/65595", "percentage": "89.83%", "elapsed_time": "2d 22h 25m 18s", "remaining_time": "7h 58m 16s"}
+{"loss": 0.04889455, "token_acc": 0.97793236, "grad_norm": 2.49389315, "learning_rate": 2.53e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232432, "epoch": 4.49195823, "global_step/max_steps": "58930/65595", "percentage": "89.84%", "elapsed_time": "2d 22h 25m 34s", "remaining_time": "7h 57m 54s"}
+{"loss": 0.02843634, "token_acc": 0.99134328, "grad_norm": 0.94734472, "learning_rate": 2.52e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232438, "epoch": 4.49233936, "global_step/max_steps": "58935/65595", "percentage": "89.85%", "elapsed_time": "2d 22h 25m 49s", "remaining_time": "7h 57m 32s"}
+{"loss": 0.03406867, "token_acc": 0.98962697, "grad_norm": 1.20593822, "learning_rate": 2.52e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232442, "epoch": 4.49272048, "global_step/max_steps": "58940/65595", "percentage": "89.85%", "elapsed_time": "2d 22h 26m 6s", "remaining_time": "7h 57m 10s"}
+{"loss": 0.02308381, "token_acc": 0.9926103, "grad_norm": 1.08381701, "learning_rate": 2.51e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232447, "epoch": 4.49310161, "global_step/max_steps": "58945/65595", "percentage": "89.86%", "elapsed_time": "2d 22h 26m 21s", "remaining_time": "7h 56m 48s"}
+{"loss": 0.0421479, "token_acc": 0.98309131, "grad_norm": 0.96441519, "learning_rate": 2.51e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232453, "epoch": 4.49348273, "global_step/max_steps": "58950/65595", "percentage": "89.87%", "elapsed_time": "2d 22h 26m 37s", "remaining_time": "7h 56m 26s"}
+{"loss": 0.02859381, "token_acc": 0.98679245, "grad_norm": 0.90382689, "learning_rate": 2.51e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232457, "epoch": 4.49386386, "global_step/max_steps": "58955/65595", "percentage": "89.88%", "elapsed_time": "2d 22h 26m 54s", "remaining_time": "7h 56m 4s"}
+{"loss": 0.02611753, "token_acc": 0.99139349, "grad_norm": 1.02871883, "learning_rate": 2.5e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232459, "epoch": 4.49424499, "global_step/max_steps": "58960/65595", "percentage": "89.88%", "elapsed_time": "2d 22h 27m 13s", "remaining_time": "7h 55m 42s"}
+{"loss": 0.032585, "token_acc": 0.99095717, "grad_norm": 0.68054789, "learning_rate": 2.5e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232463, "epoch": 4.49462611, "global_step/max_steps": "58965/65595", "percentage": "89.89%", "elapsed_time": "2d 22h 27m 31s", "remaining_time": "7h 55m 20s"}
+{"loss": 0.02787918, "token_acc": 0.99225513, "grad_norm": 0.75075299, "learning_rate": 2.5e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232468, "epoch": 4.49500724, "global_step/max_steps": "58970/65595", "percentage": "89.90%", "elapsed_time": "2d 22h 27m 47s", "remaining_time": "7h 54m 58s"}
+{"loss": 0.02357303, "token_acc": 0.98947951, "grad_norm": 0.90851361, "learning_rate": 2.49e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232474, "epoch": 4.49538837, "global_step/max_steps": "58975/65595", "percentage": "89.91%", "elapsed_time": "2d 22h 28m 1s", "remaining_time": "7h 54m 36s"}
+{"loss": 0.01284073, "token_acc": 0.992, "grad_norm": 1.09432137, "learning_rate": 2.49e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23248, "epoch": 4.49576949, "global_step/max_steps": "58980/65595", "percentage": "89.92%", "elapsed_time": "2d 22h 28m 17s", "remaining_time": "7h 54m 13s"}
+{"loss": 0.02434967, "token_acc": 0.99013478, "grad_norm": 0.856251, "learning_rate": 2.48e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232482, "epoch": 4.49615062, "global_step/max_steps": "58985/65595", "percentage": "89.92%", "elapsed_time": "2d 22h 28m 36s", "remaining_time": "7h 53m 52s"}
+{"loss": 0.03582047, "token_acc": 0.99137029, "grad_norm": 3.17746496, "learning_rate": 2.48e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232487, "epoch": 4.49653175, "global_step/max_steps": "58990/65595", "percentage": "89.93%", "elapsed_time": "2d 22h 28m 52s", "remaining_time": "7h 53m 29s"}
+{"loss": 0.02210884, "token_acc": 0.99003831, "grad_norm": 1.22440374, "learning_rate": 2.48e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232493, "epoch": 4.49691287, "global_step/max_steps": "58995/65595", "percentage": "89.94%", "elapsed_time": "2d 22h 29m 7s", "remaining_time": "7h 53m 7s"}
+{"loss": 0.02689657, "token_acc": 0.9884878, "grad_norm": 1.18825114, "learning_rate": 2.47e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232497, "epoch": 4.497294, "global_step/max_steps": "59000/65595", "percentage": "89.95%", "elapsed_time": "2d 22h 29m 23s", "remaining_time": "7h 52m 45s"}
+{"eval_loss": 0.0482556, "eval_token_acc": 0.98049063, "eval_runtime": 157.985, "eval_samples_per_second": 3.355, "eval_steps_per_second": 3.355, "epoch": 4.497294, "global_step/max_steps": "59000/65595", "percentage": "89.95%", "elapsed_time": "2d 22h 32m 1s", "remaining_time": "7h 53m 3s"}
+{"loss": 0.03410538, "token_acc": 0.98053982, "grad_norm": 1.03097272, "learning_rate": 2.47e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232358, "epoch": 4.49767513, "global_step/max_steps": "59005/65595", "percentage": "89.95%", "elapsed_time": "2d 22h 32m 18s", "remaining_time": "7h 52m 41s"}
+{"loss": 0.01955498, "token_acc": 0.99049194, "grad_norm": 1.22594309, "learning_rate": 2.47e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232365, "epoch": 4.49805625, "global_step/max_steps": "59010/65595", "percentage": "89.96%", "elapsed_time": "2d 22h 32m 31s", "remaining_time": "7h 52m 18s"}
+{"loss": 0.03331981, "token_acc": 0.98817075, "grad_norm": 1.25816345, "learning_rate": 2.46e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232371, "epoch": 4.49843738, "global_step/max_steps": "59015/65595", "percentage": "89.97%", "elapsed_time": "2d 22h 32m 46s", "remaining_time": "7h 51m 56s"}
+{"loss": 0.02889536, "token_acc": 0.98794429, "grad_norm": 1.05427492, "learning_rate": 2.46e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232377, "epoch": 4.49881851, "global_step/max_steps": "59020/65595", "percentage": "89.98%", "elapsed_time": "2d 22h 33m 1s", "remaining_time": "7h 51m 34s"}
+{"loss": 0.04427205, "token_acc": 0.98390014, "grad_norm": 1.5421344, "learning_rate": 2.45e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232382, "epoch": 4.49919963, "global_step/max_steps": "59025/65595", "percentage": "89.98%", "elapsed_time": "2d 22h 33m 17s", "remaining_time": "7h 51m 12s"}
+{"loss": 0.04126892, "token_acc": 0.98293769, "grad_norm": 7.58189344, "learning_rate": 2.45e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232386, "epoch": 4.49958076, "global_step/max_steps": "59030/65595", "percentage": "89.99%", "elapsed_time": "2d 22h 33m 34s", "remaining_time": "7h 50m 50s"}
+{"loss": 0.04218743, "token_acc": 0.98694462, "grad_norm": 2.91980028, "learning_rate": 2.45e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232392, "epoch": 4.49996189, "global_step/max_steps": "59035/65595", "percentage": "90.00%", "elapsed_time": "2d 22h 33m 49s", "remaining_time": "7h 50m 27s"}
+{"loss": 0.01897835, "token_acc": 0.98991268, "grad_norm": 0.66028231, "learning_rate": 2.44e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232397, "epoch": 4.50034301, "global_step/max_steps": "59040/65595", "percentage": "90.01%", "elapsed_time": "2d 22h 34m 5s", "remaining_time": "7h 50m 5s"}
+{"loss": 0.02544516, "token_acc": 0.98709227, "grad_norm": 1.00855982, "learning_rate": 2.44e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232403, "epoch": 4.50072414, "global_step/max_steps": "59045/65595", "percentage": "90.01%", "elapsed_time": "2d 22h 34m 20s", "remaining_time": "7h 49m 43s"}
+{"loss": 0.02714349, "token_acc": 0.988006, "grad_norm": 2.22558784, "learning_rate": 2.44e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232406, "epoch": 4.50110527, "global_step/max_steps": "59050/65595", "percentage": "90.02%", "elapsed_time": "2d 22h 34m 39s", "remaining_time": "7h 49m 21s"}
+{"loss": 0.03491811, "token_acc": 0.98721926, "grad_norm": 1.11095214, "learning_rate": 2.43e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232408, "epoch": 4.50148639, "global_step/max_steps": "59055/65595", "percentage": "90.03%", "elapsed_time": "2d 22h 34m 58s", "remaining_time": "7h 48m 59s"}
+{"loss": 0.03553079, "token_acc": 0.98777675, "grad_norm": 1.37454939, "learning_rate": 2.43e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232414, "epoch": 4.50186752, "global_step/max_steps": "59060/65595", "percentage": "90.04%", "elapsed_time": "2d 22h 35m 13s", "remaining_time": "7h 48m 37s"}
+{"loss": 0.03779118, "token_acc": 0.98625817, "grad_norm": 1.53740418, "learning_rate": 2.43e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23242, "epoch": 4.50224865, "global_step/max_steps": "59065/65595", "percentage": "90.04%", "elapsed_time": "2d 22h 35m 28s", "remaining_time": "7h 48m 15s"}
+{"loss": 0.03972398, "token_acc": 0.98845202, "grad_norm": 0.54957509, "learning_rate": 2.42e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232423, "epoch": 4.50262977, "global_step/max_steps": "59070/65595", "percentage": "90.05%", "elapsed_time": "2d 22h 35m 46s", "remaining_time": "7h 47m 53s"}
+{"loss": 0.03728659, "token_acc": 0.98817644, "grad_norm": 2.97591066, "learning_rate": 2.42e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23243, "epoch": 4.5030109, "global_step/max_steps": "59075/65595", "percentage": "90.06%", "elapsed_time": "2d 22h 36m 0s", "remaining_time": "7h 47m 31s"}
+{"loss": 0.0244713, "token_acc": 0.98841338, "grad_norm": 0.74464482, "learning_rate": 2.41e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232435, "epoch": 4.50339203, "global_step/max_steps": "59080/65595", "percentage": "90.07%", "elapsed_time": "2d 22h 36m 15s", "remaining_time": "7h 47m 9s"}
+{"loss": 0.02597318, "token_acc": 0.99128713, "grad_norm": 0.7783004, "learning_rate": 2.41e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232441, "epoch": 4.50377315, "global_step/max_steps": "59085/65595", "percentage": "90.08%", "elapsed_time": "2d 22h 36m 31s", "remaining_time": "7h 46m 46s"}
+{"loss": 0.02625732, "token_acc": 0.9895496, "grad_norm": 0.78131938, "learning_rate": 2.41e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232444, "epoch": 4.50415428, "global_step/max_steps": "59090/65595", "percentage": "90.08%", "elapsed_time": "2d 22h 36m 50s", "remaining_time": "7h 46m 25s"}
+{"loss": 0.02738317, "token_acc": 0.98682575, "grad_norm": 0.79004371, "learning_rate": 2.4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23245, "epoch": 4.50453541, "global_step/max_steps": "59095/65595", "percentage": "90.09%", "elapsed_time": "2d 22h 37m 4s", "remaining_time": "7h 46m 2s"}
+{"loss": 0.03221116, "token_acc": 0.98725409, "grad_norm": 2.21541023, "learning_rate": 2.4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232457, "epoch": 4.50491653, "global_step/max_steps": "59100/65595", "percentage": "90.10%", "elapsed_time": "2d 22h 37m 18s", "remaining_time": "7h 45m 40s"}
+{"loss": 0.04464305, "token_acc": 0.9840708, "grad_norm": 2.12049174, "learning_rate": 2.4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232464, "epoch": 4.50529766, "global_step/max_steps": "59105/65595", "percentage": "90.11%", "elapsed_time": "2d 22h 37m 32s", "remaining_time": "7h 45m 18s"}
+{"loss": 0.03998186, "token_acc": 0.98072139, "grad_norm": 0.23361884, "learning_rate": 2.39e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232471, "epoch": 4.50567879, "global_step/max_steps": "59110/65595", "percentage": "90.11%", "elapsed_time": "2d 22h 37m 46s", "remaining_time": "7h 44m 55s"}
+{"loss": 0.03979059, "token_acc": 0.98442168, "grad_norm": 1.36705434, "learning_rate": 2.39e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232476, "epoch": 4.50605991, "global_step/max_steps": "59115/65595", "percentage": "90.12%", "elapsed_time": "2d 22h 38m 2s", "remaining_time": "7h 44m 33s"}
+{"loss": 0.03484661, "token_acc": 0.98581885, "grad_norm": 0.93422884, "learning_rate": 2.39e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232481, "epoch": 4.50644104, "global_step/max_steps": "59120/65595", "percentage": "90.13%", "elapsed_time": "2d 22h 38m 17s", "remaining_time": "7h 44m 11s"}
+{"loss": 0.02195748, "token_acc": 0.99072547, "grad_norm": 0.6748876, "learning_rate": 2.38e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232487, "epoch": 4.50682217, "global_step/max_steps": "59125/65595", "percentage": "90.14%", "elapsed_time": "2d 22h 38m 32s", "remaining_time": "7h 43m 49s"}
+{"loss": 0.03931614, "token_acc": 0.98415179, "grad_norm": 1.13089406, "learning_rate": 2.38e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232493, "epoch": 4.50720329, "global_step/max_steps": "59130/65595", "percentage": "90.14%", "elapsed_time": "2d 22h 38m 48s", "remaining_time": "7h 43m 27s"}
+{"loss": 0.0192703, "token_acc": 0.99272326, "grad_norm": 0.94479543, "learning_rate": 2.37e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232499, "epoch": 4.50758442, "global_step/max_steps": "59135/65595", "percentage": "90.15%", "elapsed_time": "2d 22h 39m 3s", "remaining_time": "7h 43m 4s"}
+{"loss": 0.04787872, "token_acc": 0.9854902, "grad_norm": 4.64780951, "learning_rate": 2.37e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232505, "epoch": 4.50796555, "global_step/max_steps": "59140/65595", "percentage": "90.16%", "elapsed_time": "2d 22h 39m 17s", "remaining_time": "7h 42m 42s"}
+{"loss": 0.03590387, "token_acc": 0.98366776, "grad_norm": 1.53348076, "learning_rate": 2.37e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23251, "epoch": 4.50834667, "global_step/max_steps": "59145/65595", "percentage": "90.17%", "elapsed_time": "2d 22h 39m 33s", "remaining_time": "7h 42m 20s"}
+{"loss": 0.03462031, "token_acc": 0.98955715, "grad_norm": 1.63066089, "learning_rate": 2.36e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232514, "epoch": 4.5087278, "global_step/max_steps": "59150/65595", "percentage": "90.17%", "elapsed_time": "2d 22h 39m 50s", "remaining_time": "7h 41m 58s"}
+{"loss": 0.04764093, "token_acc": 0.98039798, "grad_norm": 1.0682584, "learning_rate": 2.36e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232521, "epoch": 4.50910893, "global_step/max_steps": "59155/65595", "percentage": "90.18%", "elapsed_time": "2d 22h 40m 4s", "remaining_time": "7h 41m 36s"}
+{"loss": 0.02417048, "token_acc": 0.9920472, "grad_norm": 1.07435679, "learning_rate": 2.36e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232527, "epoch": 4.50949005, "global_step/max_steps": "59160/65595", "percentage": "90.19%", "elapsed_time": "2d 22h 40m 19s", "remaining_time": "7h 41m 13s"}
+{"loss": 0.02404978, "token_acc": 0.98809764, "grad_norm": 0.96209049, "learning_rate": 2.35e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232532, "epoch": 4.50987118, "global_step/max_steps": "59165/65595", "percentage": "90.20%", "elapsed_time": "2d 22h 40m 35s", "remaining_time": "7h 40m 51s"}
+{"loss": 0.04195543, "token_acc": 0.98216683, "grad_norm": 2.82874441, "learning_rate": 2.35e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232538, "epoch": 4.51025231, "global_step/max_steps": "59170/65595", "percentage": "90.21%", "elapsed_time": "2d 22h 40m 50s", "remaining_time": "7h 40m 29s"}
+{"loss": 0.02225544, "token_acc": 0.98890339, "grad_norm": 0.45697293, "learning_rate": 2.35e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232544, "epoch": 4.51063343, "global_step/max_steps": "59175/65595", "percentage": "90.21%", "elapsed_time": "2d 22h 41m 5s", "remaining_time": "7h 40m 7s"}
+{"loss": 0.02972512, "token_acc": 0.98830283, "grad_norm": 0.79399747, "learning_rate": 2.34e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232546, "epoch": 4.51101456, "global_step/max_steps": "59180/65595", "percentage": "90.22%", "elapsed_time": "2d 22h 41m 24s", "remaining_time": "7h 39m 45s"}
+{"loss": 0.03162783, "token_acc": 0.98810919, "grad_norm": 1.05173492, "learning_rate": 2.34e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23255, "epoch": 4.51139569, "global_step/max_steps": "59185/65595", "percentage": "90.23%", "elapsed_time": "2d 22h 41m 41s", "remaining_time": "7h 39m 23s"}
+{"loss": 0.02679865, "token_acc": 0.99058824, "grad_norm": 0.93659163, "learning_rate": 2.33e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232558, "epoch": 4.51177681, "global_step/max_steps": "59190/65595", "percentage": "90.24%", "elapsed_time": "2d 22h 41m 55s", "remaining_time": "7h 39m 1s"}
+{"loss": 0.03167259, "token_acc": 0.98729396, "grad_norm": 1.2887249, "learning_rate": 2.33e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232565, "epoch": 4.51215794, "global_step/max_steps": "59195/65595", "percentage": "90.24%", "elapsed_time": "2d 22h 42m 8s", "remaining_time": "7h 38m 38s"}
+{"loss": 0.03672056, "token_acc": 0.98479087, "grad_norm": 1.28328383, "learning_rate": 2.33e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232568, "epoch": 4.51253907, "global_step/max_steps": "59200/65595", "percentage": "90.25%", "elapsed_time": "2d 22h 42m 26s", "remaining_time": "7h 38m 17s"}
+{"eval_loss": 0.04806428, "eval_token_acc": 0.98045298, "eval_runtime": 199.7208, "eval_samples_per_second": 2.654, "eval_steps_per_second": 2.654, "epoch": 4.51253907, "global_step/max_steps": "59200/65595", "percentage": "90.25%", "elapsed_time": "2d 22h 45m 46s", "remaining_time": "7h 38m 38s"}
+{"loss": 0.02646632, "token_acc": 0.98060616, "grad_norm": 1.45015347, "learning_rate": 2.32e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232392, "epoch": 4.51292019, "global_step/max_steps": "59205/65595", "percentage": "90.26%", "elapsed_time": "2d 22h 46m 1s", "remaining_time": "7h 38m 16s"}
+{"loss": 0.04569809, "token_acc": 0.98580702, "grad_norm": 0.6811837, "learning_rate": 2.32e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232392, "epoch": 4.51330132, "global_step/max_steps": "59210/65595", "percentage": "90.27%", "elapsed_time": "2d 22h 46m 23s", "remaining_time": "7h 37m 54s"}
+{"loss": 0.03236941, "token_acc": 0.98721072, "grad_norm": 0.83436865, "learning_rate": 2.32e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232395, "epoch": 4.51368245, "global_step/max_steps": "59215/65595", "percentage": "90.27%", "elapsed_time": "2d 22h 46m 40s", "remaining_time": "7h 37m 33s"}
+{"loss": 0.03653395, "token_acc": 0.98561677, "grad_norm": 1.0137881, "learning_rate": 2.31e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232399, "epoch": 4.51406357, "global_step/max_steps": "59220/65595", "percentage": "90.28%", "elapsed_time": "2d 22h 46m 57s", "remaining_time": "7h 37m 10s"}
+{"loss": 0.0242658, "token_acc": 0.9894142, "grad_norm": 0.67914426, "learning_rate": 2.31e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232398, "epoch": 4.5144447, "global_step/max_steps": "59225/65595", "percentage": "90.29%", "elapsed_time": "2d 22h 47m 21s", "remaining_time": "7h 36m 49s"}
+{"loss": 0.04631746, "token_acc": 0.98122911, "grad_norm": 0.91601658, "learning_rate": 2.31e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232402, "epoch": 4.51482583, "global_step/max_steps": "59230/65595", "percentage": "90.30%", "elapsed_time": "2d 22h 47m 37s", "remaining_time": "7h 36m 27s"}
+{"loss": 0.03270388, "token_acc": 0.99183197, "grad_norm": 4.52210474, "learning_rate": 2.3e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232409, "epoch": 4.51520695, "global_step/max_steps": "59235/65595", "percentage": "90.30%", "elapsed_time": "2d 22h 47m 51s", "remaining_time": "7h 36m 5s"}
+{"loss": 0.02308228, "token_acc": 0.99130965, "grad_norm": 0.67328596, "learning_rate": 2.3e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232412, "epoch": 4.51558808, "global_step/max_steps": "59240/65595", "percentage": "90.31%", "elapsed_time": "2d 22h 48m 9s", "remaining_time": "7h 35m 43s"}
+{"loss": 0.0335068, "token_acc": 0.98727581, "grad_norm": 0.81496018, "learning_rate": 2.29e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232413, "epoch": 4.5159692, "global_step/max_steps": "59245/65595", "percentage": "90.32%", "elapsed_time": "2d 22h 48m 29s", "remaining_time": "7h 35m 21s"}
+{"loss": 0.02157313, "token_acc": 0.98973657, "grad_norm": 1.50696361, "learning_rate": 2.29e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23242, "epoch": 4.51635033, "global_step/max_steps": "59250/65595", "percentage": "90.33%", "elapsed_time": "2d 22h 48m 44s", "remaining_time": "7h 34m 59s"}
+{"loss": 0.02353255, "token_acc": 0.99188396, "grad_norm": 0.79985017, "learning_rate": 2.29e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232423, "epoch": 4.51673146, "global_step/max_steps": "59255/65595", "percentage": "90.33%", "elapsed_time": "2d 22h 49m 2s", "remaining_time": "7h 34m 37s"}
+{"loss": 0.02539537, "token_acc": 0.99208443, "grad_norm": 0.62530565, "learning_rate": 2.28e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232427, "epoch": 4.51711258, "global_step/max_steps": "59260/65595", "percentage": "90.34%", "elapsed_time": "2d 22h 49m 19s", "remaining_time": "7h 34m 15s"}
+{"loss": 0.02925246, "token_acc": 0.98574297, "grad_norm": 1.05900991, "learning_rate": 2.28e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232431, "epoch": 4.51749371, "global_step/max_steps": "59265/65595", "percentage": "90.35%", "elapsed_time": "2d 22h 49m 36s", "remaining_time": "7h 33m 53s"}
+{"loss": 0.01869403, "token_acc": 0.99217833, "grad_norm": 0.94710976, "learning_rate": 2.28e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232437, "epoch": 4.51787484, "global_step/max_steps": "59270/65595", "percentage": "90.36%", "elapsed_time": "2d 22h 49m 51s", "remaining_time": "7h 33m 31s"}
+{"loss": 0.03039097, "token_acc": 0.981399, "grad_norm": 0.31538737, "learning_rate": 2.27e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232443, "epoch": 4.51825596, "global_step/max_steps": "59275/65595", "percentage": "90.37%", "elapsed_time": "2d 22h 50m 6s", "remaining_time": "7h 33m 9s"}
+{"loss": 0.03349434, "token_acc": 0.98729543, "grad_norm": 1.11707973, "learning_rate": 2.27e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232446, "epoch": 4.51863709, "global_step/max_steps": "59280/65595", "percentage": "90.37%", "elapsed_time": "2d 22h 50m 24s", "remaining_time": "7h 32m 47s"}
+{"loss": 0.02504482, "token_acc": 0.99014778, "grad_norm": 0.70600873, "learning_rate": 2.27e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23245, "epoch": 4.51901822, "global_step/max_steps": "59285/65595", "percentage": "90.38%", "elapsed_time": "2d 22h 50m 41s", "remaining_time": "7h 32m 25s"}
+{"loss": 0.03594999, "token_acc": 0.98367453, "grad_norm": 0.96559417, "learning_rate": 2.26e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232456, "epoch": 4.51939934, "global_step/max_steps": "59290/65595", "percentage": "90.39%", "elapsed_time": "2d 22h 50m 57s", "remaining_time": "7h 32m 3s"}
+{"loss": 0.03434214, "token_acc": 0.98463687, "grad_norm": 2.23012114, "learning_rate": 2.26e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232462, "epoch": 4.51978047, "global_step/max_steps": "59295/65595", "percentage": "90.40%", "elapsed_time": "2d 22h 51m 12s", "remaining_time": "7h 31m 41s"}
+{"loss": 0.01491475, "token_acc": 0.99381807, "grad_norm": 1.20154333, "learning_rate": 2.26e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232467, "epoch": 4.5201616, "global_step/max_steps": "59300/65595", "percentage": "90.40%", "elapsed_time": "2d 22h 51m 27s", "remaining_time": "7h 31m 18s"}
+{"loss": 0.03953348, "token_acc": 0.97597349, "grad_norm": 0.84351587, "learning_rate": 2.25e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232472, "epoch": 4.52054272, "global_step/max_steps": "59305/65595", "percentage": "90.41%", "elapsed_time": "2d 22h 51m 43s", "remaining_time": "7h 30m 56s"}
+{"loss": 0.02938337, "token_acc": 0.98738991, "grad_norm": 0.85543817, "learning_rate": 2.25e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232476, "epoch": 4.52092385, "global_step/max_steps": "59310/65595", "percentage": "90.42%", "elapsed_time": "2d 22h 52m 0s", "remaining_time": "7h 30m 34s"}
+{"loss": 0.03343854, "token_acc": 0.98711596, "grad_norm": 1.16748285, "learning_rate": 2.24e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232479, "epoch": 4.52130498, "global_step/max_steps": "59315/65595", "percentage": "90.43%", "elapsed_time": "2d 22h 52m 18s", "remaining_time": "7h 30m 12s"}
+{"loss": 0.02998122, "token_acc": 0.98632271, "grad_norm": 0.90884602, "learning_rate": 2.24e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232483, "epoch": 4.5216861, "global_step/max_steps": "59320/65595", "percentage": "90.43%", "elapsed_time": "2d 22h 52m 36s", "remaining_time": "7h 29m 50s"}
+{"loss": 0.03850245, "token_acc": 0.98404821, "grad_norm": 1.1944598, "learning_rate": 2.24e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232486, "epoch": 4.52206723, "global_step/max_steps": "59325/65595", "percentage": "90.44%", "elapsed_time": "2d 22h 52m 54s", "remaining_time": "7h 29m 29s"}
+{"loss": 0.07224139, "token_acc": 0.97704334, "grad_norm": 1.50161469, "learning_rate": 2.23e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232489, "epoch": 4.52244836, "global_step/max_steps": "59330/65595", "percentage": "90.45%", "elapsed_time": "2d 22h 53m 13s", "remaining_time": "7h 29m 7s"}
+{"loss": 0.03039008, "token_acc": 0.98912656, "grad_norm": 1.04238248, "learning_rate": 2.23e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232493, "epoch": 4.52282948, "global_step/max_steps": "59335/65595", "percentage": "90.46%", "elapsed_time": "2d 22h 53m 30s", "remaining_time": "7h 28m 45s"}
+{"loss": 0.03304453, "token_acc": 0.9860042, "grad_norm": 0.69409788, "learning_rate": 2.23e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232496, "epoch": 4.52321061, "global_step/max_steps": "59340/65595", "percentage": "90.46%", "elapsed_time": "2d 22h 53m 47s", "remaining_time": "7h 28m 23s"}
+{"loss": 0.0150402, "token_acc": 0.99246753, "grad_norm": 0.55227435, "learning_rate": 2.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232501, "epoch": 4.52359174, "global_step/max_steps": "59345/65595", "percentage": "90.47%", "elapsed_time": "2d 22h 54m 4s", "remaining_time": "7h 28m 1s"}
+{"loss": 0.01786303, "token_acc": 0.99217877, "grad_norm": 1.51508689, "learning_rate": 2.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232504, "epoch": 4.52397286, "global_step/max_steps": "59350/65595", "percentage": "90.48%", "elapsed_time": "2d 22h 54m 22s", "remaining_time": "7h 27m 39s"}
+{"loss": 0.02834938, "token_acc": 0.98920977, "grad_norm": 0.94086993, "learning_rate": 2.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232507, "epoch": 4.52435399, "global_step/max_steps": "59355/65595", "percentage": "90.49%", "elapsed_time": "2d 22h 54m 40s", "remaining_time": "7h 27m 17s"}
+{"loss": 0.03087198, "token_acc": 0.98477993, "grad_norm": 1.37988329, "learning_rate": 2.21e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23251, "epoch": 4.52473512, "global_step/max_steps": "59360/65595", "percentage": "90.49%", "elapsed_time": "2d 22h 54m 58s", "remaining_time": "7h 26m 55s"}
+{"loss": 0.03309533, "token_acc": 0.98415301, "grad_norm": 1.26885307, "learning_rate": 2.21e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232515, "epoch": 4.52511624, "global_step/max_steps": "59365/65595", "percentage": "90.50%", "elapsed_time": "2d 22h 55m 15s", "remaining_time": "7h 26m 33s"}
+{"loss": 0.02661761, "token_acc": 0.98521618, "grad_norm": 0.43191534, "learning_rate": 2.21e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232519, "epoch": 4.52549737, "global_step/max_steps": "59370/65595", "percentage": "90.51%", "elapsed_time": "2d 22h 55m 31s", "remaining_time": "7h 26m 11s"}
+{"loss": 0.03872561, "token_acc": 0.98925373, "grad_norm": 3.23445082, "learning_rate": 2.2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232525, "epoch": 4.5258785, "global_step/max_steps": "59375/65595", "percentage": "90.52%", "elapsed_time": "2d 22h 55m 46s", "remaining_time": "7h 25m 49s"}
+{"loss": 0.02701312, "token_acc": 0.98814116, "grad_norm": 0.46692303, "learning_rate": 2.2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232527, "epoch": 4.52625962, "global_step/max_steps": "59380/65595", "percentage": "90.53%", "elapsed_time": "2d 22h 56m 6s", "remaining_time": "7h 25m 27s"}
+{"loss": 0.06078288, "token_acc": 0.97530422, "grad_norm": 2.55876231, "learning_rate": 2.2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232533, "epoch": 4.52664075, "global_step/max_steps": "59385/65595", "percentage": "90.53%", "elapsed_time": "2d 22h 56m 20s", "remaining_time": "7h 25m 5s"}
+{"loss": 0.021507, "token_acc": 0.99101198, "grad_norm": 0.86096478, "learning_rate": 2.19e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232539, "epoch": 4.52702188, "global_step/max_steps": "59390/65595", "percentage": "90.54%", "elapsed_time": "2d 22h 56m 35s", "remaining_time": "7h 24m 43s"}
+{"loss": 0.03964447, "token_acc": 0.98512837, "grad_norm": 1.43874192, "learning_rate": 2.19e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232541, "epoch": 4.527403, "global_step/max_steps": "59395/65595", "percentage": "90.55%", "elapsed_time": "2d 22h 56m 54s", "remaining_time": "7h 24m 21s"}
+{"loss": 0.03581388, "token_acc": 0.9852812, "grad_norm": 0.92991227, "learning_rate": 2.18e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232542, "epoch": 4.52778413, "global_step/max_steps": "59400/65595", "percentage": "90.56%", "elapsed_time": "2d 22h 57m 15s", "remaining_time": "7h 24m 0s"}
+{"eval_loss": 0.04835976, "eval_token_acc": 0.98053581, "eval_runtime": 211.3789, "eval_samples_per_second": 2.507, "eval_steps_per_second": 2.507, "epoch": 4.52778413, "global_step/max_steps": "59400/65595", "percentage": "90.56%", "elapsed_time": "2d 23h 0m 47s", "remaining_time": "7h 24m 22s"}
+{"loss": 0.03393208, "token_acc": 0.98075182, "grad_norm": 0.88498509, "learning_rate": 2.18e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232354, "epoch": 4.52816526, "global_step/max_steps": "59405/65595", "percentage": "90.56%", "elapsed_time": "2d 23h 1m 3s", "remaining_time": "7h 24m 0s"}
+{"loss": 0.01844807, "token_acc": 0.99382171, "grad_norm": 0.2606205, "learning_rate": 2.18e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232361, "epoch": 4.52854638, "global_step/max_steps": "59410/65595", "percentage": "90.57%", "elapsed_time": "2d 23h 1m 16s", "remaining_time": "7h 23m 37s"}
+{"loss": 0.02923604, "token_acc": 0.98836627, "grad_norm": 0.95076203, "learning_rate": 2.17e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232364, "epoch": 4.52892751, "global_step/max_steps": "59415/65595", "percentage": "90.58%", "elapsed_time": "2d 23h 1m 35s", "remaining_time": "7h 23m 15s"}
+{"loss": 0.02966539, "token_acc": 0.984, "grad_norm": 1.07804108, "learning_rate": 2.17e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232368, "epoch": 4.52930864, "global_step/max_steps": "59420/65595", "percentage": "90.59%", "elapsed_time": "2d 23h 1m 52s", "remaining_time": "7h 22m 53s"}
+{"loss": 0.02863123, "token_acc": 0.98739956, "grad_norm": 0.8624928, "learning_rate": 2.17e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232371, "epoch": 4.52968976, "global_step/max_steps": "59425/65595", "percentage": "90.59%", "elapsed_time": "2d 23h 2m 10s", "remaining_time": "7h 22m 32s"}
+{"loss": 0.03756706, "token_acc": 0.98541963, "grad_norm": 1.35259569, "learning_rate": 2.16e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232377, "epoch": 4.53007089, "global_step/max_steps": "59430/65595", "percentage": "90.60%", "elapsed_time": "2d 23h 2m 26s", "remaining_time": "7h 22m 9s"}
+{"loss": 0.02372007, "token_acc": 0.98497732, "grad_norm": 0.14779542, "learning_rate": 2.16e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232381, "epoch": 4.53045202, "global_step/max_steps": "59435/65595", "percentage": "90.61%", "elapsed_time": "2d 23h 2m 42s", "remaining_time": "7h 21m 47s"}
+{"loss": 0.02915475, "token_acc": 0.98877155, "grad_norm": 2.10087013, "learning_rate": 2.16e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232384, "epoch": 4.53083314, "global_step/max_steps": "59440/65595", "percentage": "90.62%", "elapsed_time": "2d 23h 3m 1s", "remaining_time": "7h 21m 26s"}
+{"loss": 0.03442515, "token_acc": 0.98906772, "grad_norm": 1.07608163, "learning_rate": 2.15e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232386, "epoch": 4.53121427, "global_step/max_steps": "59445/65595", "percentage": "90.62%", "elapsed_time": "2d 23h 3m 20s", "remaining_time": "7h 21m 4s"}
+{"loss": 0.02853557, "token_acc": 0.99056604, "grad_norm": 0.87241179, "learning_rate": 2.15e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23239, "epoch": 4.5315954, "global_step/max_steps": "59450/65595", "percentage": "90.63%", "elapsed_time": "2d 23h 3m 37s", "remaining_time": "7h 20m 42s"}
+{"loss": 0.03844791, "token_acc": 0.98840049, "grad_norm": 1.96807742, "learning_rate": 2.15e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232391, "epoch": 4.53197652, "global_step/max_steps": "59455/65595", "percentage": "90.64%", "elapsed_time": "2d 23h 3m 58s", "remaining_time": "7h 20m 20s"}
+{"loss": 0.02326099, "token_acc": 0.98920574, "grad_norm": 1.44045198, "learning_rate": 2.14e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232394, "epoch": 4.53235765, "global_step/max_steps": "59460/65595", "percentage": "90.65%", "elapsed_time": "2d 23h 4m 15s", "remaining_time": "7h 19m 58s"}
+{"loss": 0.0368593, "token_acc": 0.98778592, "grad_norm": 0.60492516, "learning_rate": 2.14e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232399, "epoch": 4.53273878, "global_step/max_steps": "59465/65595", "percentage": "90.65%", "elapsed_time": "2d 23h 4m 32s", "remaining_time": "7h 19m 36s"}
+{"loss": 0.02844474, "token_acc": 0.98947052, "grad_norm": 2.58400536, "learning_rate": 2.14e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232398, "epoch": 4.5331199, "global_step/max_steps": "59470/65595", "percentage": "90.66%", "elapsed_time": "2d 23h 4m 54s", "remaining_time": "7h 19m 15s"}
+{"loss": 0.03365178, "token_acc": 0.98371336, "grad_norm": 0.29105398, "learning_rate": 2.13e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232403, "epoch": 4.53350103, "global_step/max_steps": "59475/65595", "percentage": "90.67%", "elapsed_time": "2d 23h 5m 10s", "remaining_time": "7h 18m 53s"}
+{"loss": 0.02271615, "token_acc": 0.99287072, "grad_norm": 0.88190007, "learning_rate": 2.13e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23241, "epoch": 4.53388216, "global_step/max_steps": "59480/65595", "percentage": "90.68%", "elapsed_time": "2d 23h 5m 24s", "remaining_time": "7h 18m 31s"}
+{"loss": 0.02598224, "token_acc": 0.98817346, "grad_norm": 1.00857997, "learning_rate": 2.13e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232417, "epoch": 4.53426328, "global_step/max_steps": "59485/65595", "percentage": "90.69%", "elapsed_time": "2d 23h 5m 39s", "remaining_time": "7h 18m 8s"}
+{"loss": 0.01930323, "token_acc": 0.99147432, "grad_norm": 1.23486173, "learning_rate": 2.12e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23242, "epoch": 4.53464441, "global_step/max_steps": "59490/65595", "percentage": "90.69%", "elapsed_time": "2d 23h 5m 56s", "remaining_time": "7h 17m 46s"}
+{"loss": 0.02672015, "token_acc": 0.98815121, "grad_norm": 0.27074683, "learning_rate": 2.12e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232425, "epoch": 4.53502554, "global_step/max_steps": "59495/65595", "percentage": "90.70%", "elapsed_time": "2d 23h 6m 13s", "remaining_time": "7h 17m 24s"}
+{"loss": 0.01873173, "token_acc": 0.9930265, "grad_norm": 1.05854046, "learning_rate": 2.12e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232428, "epoch": 4.53540666, "global_step/max_steps": "59500/65595", "percentage": "90.71%", "elapsed_time": "2d 23h 6m 30s", "remaining_time": "7h 17m 2s"}
+{"loss": 0.04239074, "token_acc": 0.9856598, "grad_norm": 1.26478696, "learning_rate": 2.11e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23243, "epoch": 4.53578779, "global_step/max_steps": "59505/65595", "percentage": "90.72%", "elapsed_time": "2d 23h 6m 50s", "remaining_time": "7h 16m 41s"}
+{"loss": 0.02090407, "token_acc": 0.99201542, "grad_norm": 1.00123966, "learning_rate": 2.11e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232436, "epoch": 4.53616892, "global_step/max_steps": "59510/65595", "percentage": "90.72%", "elapsed_time": "2d 23h 7m 5s", "remaining_time": "7h 16m 19s"}
+{"loss": 0.03060945, "token_acc": 0.98830161, "grad_norm": 0.64504361, "learning_rate": 2.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232436, "epoch": 4.53655004, "global_step/max_steps": "59515/65595", "percentage": "90.73%", "elapsed_time": "2d 23h 7m 26s", "remaining_time": "7h 15m 57s"}
+{"loss": 0.01471718, "token_acc": 0.99465701, "grad_norm": 0.05225018, "learning_rate": 2.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23244, "epoch": 4.53693117, "global_step/max_steps": "59520/65595", "percentage": "90.74%", "elapsed_time": "2d 23h 7m 43s", "remaining_time": "7h 15m 35s"}
+{"loss": 0.02443905, "token_acc": 0.99163636, "grad_norm": 0.46276325, "learning_rate": 2.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232443, "epoch": 4.5373123, "global_step/max_steps": "59525/65595", "percentage": "90.75%", "elapsed_time": "2d 23h 8m 2s", "remaining_time": "7h 15m 13s"}
+{"loss": 0.02544834, "token_acc": 0.9920264, "grad_norm": 0.47965482, "learning_rate": 2.09e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232448, "epoch": 4.53769342, "global_step/max_steps": "59530/65595", "percentage": "90.75%", "elapsed_time": "2d 23h 8m 17s", "remaining_time": "7h 14m 51s"}
+{"loss": 0.02821296, "token_acc": 0.98733804, "grad_norm": 0.37837327, "learning_rate": 2.09e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232452, "epoch": 4.53807455, "global_step/max_steps": "59535/65595", "percentage": "90.76%", "elapsed_time": "2d 23h 8m 35s", "remaining_time": "7h 14m 29s"}
+{"loss": 0.02351955, "token_acc": 0.98742703, "grad_norm": 1.09398544, "learning_rate": 2.09e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232457, "epoch": 4.53845567, "global_step/max_steps": "59540/65595", "percentage": "90.77%", "elapsed_time": "2d 23h 8m 51s", "remaining_time": "7h 14m 7s"}
+{"loss": 0.03578497, "token_acc": 0.98287811, "grad_norm": 0.93820047, "learning_rate": 2.08e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232463, "epoch": 4.5388368, "global_step/max_steps": "59545/65595", "percentage": "90.78%", "elapsed_time": "2d 23h 9m 6s", "remaining_time": "7h 13m 45s"}
+{"loss": 0.02501701, "token_acc": 0.99090909, "grad_norm": 0.87816131, "learning_rate": 2.08e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23247, "epoch": 4.53921793, "global_step/max_steps": "59550/65595", "percentage": "90.78%", "elapsed_time": "2d 23h 9m 20s", "remaining_time": "7h 13m 23s"}
+{"loss": 0.03040772, "token_acc": 0.99024628, "grad_norm": 1.4861927, "learning_rate": 2.08e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232474, "epoch": 4.53959905, "global_step/max_steps": "59555/65595", "percentage": "90.79%", "elapsed_time": "2d 23h 9m 37s", "remaining_time": "7h 13m 1s"}
+{"loss": 0.03359721, "token_acc": 0.98831461, "grad_norm": 3.32466507, "learning_rate": 2.07e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23248, "epoch": 4.53998018, "global_step/max_steps": "59560/65595", "percentage": "90.80%", "elapsed_time": "2d 23h 9m 51s", "remaining_time": "7h 12m 38s"}
+{"loss": 0.02911857, "token_acc": 0.98789238, "grad_norm": 1.09183502, "learning_rate": 2.07e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232484, "epoch": 4.54036131, "global_step/max_steps": "59565/65595", "percentage": "90.81%", "elapsed_time": "2d 23h 10m 9s", "remaining_time": "7h 12m 17s"}
+{"loss": 0.04684201, "token_acc": 0.97860082, "grad_norm": 0.82691664, "learning_rate": 2.07e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232487, "epoch": 4.54074243, "global_step/max_steps": "59570/65595", "percentage": "90.81%", "elapsed_time": "2d 23h 10m 27s", "remaining_time": "7h 11m 55s"}
+{"loss": 0.02573265, "token_acc": 0.99069928, "grad_norm": 2.42320943, "learning_rate": 2.06e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232492, "epoch": 4.54112356, "global_step/max_steps": "59575/65595", "percentage": "90.82%", "elapsed_time": "2d 23h 10m 42s", "remaining_time": "7h 11m 33s"}
+{"loss": 0.03527886, "token_acc": 0.97964912, "grad_norm": 0.4151006, "learning_rate": 2.06e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232498, "epoch": 4.54150469, "global_step/max_steps": "59580/65595", "percentage": "90.83%", "elapsed_time": "2d 23h 10m 57s", "remaining_time": "7h 11m 10s"}
+{"loss": 0.02455411, "token_acc": 0.98869314, "grad_norm": 1.35778224, "learning_rate": 2.06e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232504, "epoch": 4.54188581, "global_step/max_steps": "59585/65595", "percentage": "90.84%", "elapsed_time": "2d 23h 11m 13s", "remaining_time": "7h 10m 48s"}
+{"loss": 0.05196772, "token_acc": 0.98645401, "grad_norm": 1.34926522, "learning_rate": 2.05e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232509, "epoch": 4.54226694, "global_step/max_steps": "59590/65595", "percentage": "90.85%", "elapsed_time": "2d 23h 11m 29s", "remaining_time": "7h 10m 26s"}
+{"loss": 0.02853428, "token_acc": 0.98573227, "grad_norm": 0.20614959, "learning_rate": 2.05e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232515, "epoch": 4.54264807, "global_step/max_steps": "59595/65595", "percentage": "90.85%", "elapsed_time": "2d 23h 11m 43s", "remaining_time": "7h 10m 4s"}
+{"loss": 0.03679392, "token_acc": 0.98026857, "grad_norm": 1.25761533, "learning_rate": 2.05e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232521, "epoch": 4.54302919, "global_step/max_steps": "59600/65595", "percentage": "90.86%", "elapsed_time": "2d 23h 11m 58s", "remaining_time": "7h 9m 42s"}
+{"eval_loss": 0.04827757, "eval_token_acc": 0.98047557, "eval_runtime": 211.7134, "eval_samples_per_second": 2.503, "eval_steps_per_second": 2.503, "epoch": 4.54302919, "global_step/max_steps": "59600/65595", "percentage": "90.86%", "elapsed_time": "2d 23h 15m 30s", "remaining_time": "7h 10m 3s"}
+{"loss": 0.02414417, "token_acc": 0.98081413, "grad_norm": 0.32399765, "learning_rate": 2.04e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232334, "epoch": 4.54341032, "global_step/max_steps": "59605/65595", "percentage": "90.87%", "elapsed_time": "2d 23h 15m 45s", "remaining_time": "7h 9m 41s"}
+{"loss": 0.02683835, "token_acc": 0.99369423, "grad_norm": 1.59263313, "learning_rate": 2.04e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232338, "epoch": 4.54379145, "global_step/max_steps": "59610/65595", "percentage": "90.88%", "elapsed_time": "2d 23h 16m 3s", "remaining_time": "7h 9m 19s"}
+{"loss": 0.03284374, "token_acc": 0.99135945, "grad_norm": 1.56497848, "learning_rate": 2.04e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232342, "epoch": 4.54417257, "global_step/max_steps": "59615/65595", "percentage": "90.88%", "elapsed_time": "2d 23h 16m 20s", "remaining_time": "7h 8m 57s"}
+{"loss": 0.02136882, "token_acc": 0.99023199, "grad_norm": 0.57263088, "learning_rate": 2.03e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232343, "epoch": 4.5445537, "global_step/max_steps": "59620/65595", "percentage": "90.89%", "elapsed_time": "2d 23h 16m 41s", "remaining_time": "7h 8m 36s"}
+{"loss": 0.03329999, "token_acc": 0.98863985, "grad_norm": 1.13487124, "learning_rate": 2.03e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232348, "epoch": 4.54493483, "global_step/max_steps": "59625/65595", "percentage": "90.90%", "elapsed_time": "2d 23h 16m 56s", "remaining_time": "7h 8m 13s"}
+{"loss": 0.04057266, "token_acc": 0.98736326, "grad_norm": 1.43806303, "learning_rate": 2.03e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232352, "epoch": 4.54531595, "global_step/max_steps": "59630/65595", "percentage": "90.91%", "elapsed_time": "2d 23h 17m 13s", "remaining_time": "7h 7m 52s"}
+{"loss": 0.02033831, "token_acc": 0.99258905, "grad_norm": 1.26138783, "learning_rate": 2.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232357, "epoch": 4.54569708, "global_step/max_steps": "59635/65595", "percentage": "90.91%", "elapsed_time": "2d 23h 17m 29s", "remaining_time": "7h 7m 29s"}
+{"loss": 0.0375098, "token_acc": 0.98613037, "grad_norm": 1.38343132, "learning_rate": 2.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232361, "epoch": 4.54607821, "global_step/max_steps": "59640/65595", "percentage": "90.92%", "elapsed_time": "2d 23h 17m 47s", "remaining_time": "7h 7m 8s"}
+{"loss": 0.03351049, "token_acc": 0.98659612, "grad_norm": 0.51544946, "learning_rate": 2.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232364, "epoch": 4.54645933, "global_step/max_steps": "59645/65595", "percentage": "90.93%", "elapsed_time": "2d 23h 18m 6s", "remaining_time": "7h 6m 46s"}
+{"loss": 0.02149341, "token_acc": 0.99013612, "grad_norm": 0.87550801, "learning_rate": 2.01e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232368, "epoch": 4.54684046, "global_step/max_steps": "59650/65595", "percentage": "90.94%", "elapsed_time": "2d 23h 18m 22s", "remaining_time": "7h 6m 24s"}
+{"loss": 0.01980929, "token_acc": 0.98958826, "grad_norm": 0.17881258, "learning_rate": 2.01e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232371, "epoch": 4.54722159, "global_step/max_steps": "59655/65595", "percentage": "90.94%", "elapsed_time": "2d 23h 18m 41s", "remaining_time": "7h 6m 2s"}
+{"loss": 0.03220491, "token_acc": 0.98963677, "grad_norm": 0.77746487, "learning_rate": 2.01e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232371, "epoch": 4.54760271, "global_step/max_steps": "59660/65595", "percentage": "90.95%", "elapsed_time": "2d 23h 19m 2s", "remaining_time": "7h 5m 40s"}
+{"loss": 0.03375125, "token_acc": 0.98426202, "grad_norm": 0.72141683, "learning_rate": 2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232376, "epoch": 4.54798384, "global_step/max_steps": "59665/65595", "percentage": "90.96%", "elapsed_time": "2d 23h 19m 17s", "remaining_time": "7h 5m 18s"}
+{"loss": 0.0313037, "token_acc": 0.98912452, "grad_norm": 2.10242534, "learning_rate": 2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232384, "epoch": 4.54836497, "global_step/max_steps": "59670/65595", "percentage": "90.97%", "elapsed_time": "2d 23h 19m 31s", "remaining_time": "7h 4m 56s"}
+{"loss": 0.03149843, "token_acc": 0.99034594, "grad_norm": 0.84221363, "learning_rate": 2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232389, "epoch": 4.54874609, "global_step/max_steps": "59675/65595", "percentage": "90.97%", "elapsed_time": "2d 23h 19m 47s", "remaining_time": "7h 4m 34s"}
+{"loss": 0.02500755, "token_acc": 0.99025658, "grad_norm": 0.70724803, "learning_rate": 1.99e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232394, "epoch": 4.54912722, "global_step/max_steps": "59680/65595", "percentage": "90.98%", "elapsed_time": "2d 23h 20m 2s", "remaining_time": "7h 4m 12s"}
+{"loss": 0.04127134, "token_acc": 0.98309278, "grad_norm": 1.12283659, "learning_rate": 1.99e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232399, "epoch": 4.54950835, "global_step/max_steps": "59685/65595", "percentage": "90.99%", "elapsed_time": "2d 23h 20m 19s", "remaining_time": "7h 3m 50s"}
+{"loss": 0.02617311, "token_acc": 0.98898288, "grad_norm": 1.20250845, "learning_rate": 1.99e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232403, "epoch": 4.54988947, "global_step/max_steps": "59690/65595", "percentage": "91.00%", "elapsed_time": "2d 23h 20m 36s", "remaining_time": "7h 3m 28s"}
+{"loss": 0.0154533, "token_acc": 0.9937417, "grad_norm": 0.62442082, "learning_rate": 1.98e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232407, "epoch": 4.5502706, "global_step/max_steps": "59695/65595", "percentage": "91.01%", "elapsed_time": "2d 23h 20m 53s", "remaining_time": "7h 3m 6s"}
+{"loss": 0.03021601, "token_acc": 0.98477157, "grad_norm": 0.91405553, "learning_rate": 1.98e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232412, "epoch": 4.55065173, "global_step/max_steps": "59700/65595", "percentage": "91.01%", "elapsed_time": "2d 23h 21m 8s", "remaining_time": "7h 2m 44s"}
+{"loss": 0.02145916, "token_acc": 0.99248403, "grad_norm": 1.00983906, "learning_rate": 1.98e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232418, "epoch": 4.55103285, "global_step/max_steps": "59705/65595", "percentage": "91.02%", "elapsed_time": "2d 23h 21m 23s", "remaining_time": "7h 2m 22s"}
+{"loss": 0.02196122, "token_acc": 0.99184387, "grad_norm": 1.27820611, "learning_rate": 1.97e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232424, "epoch": 4.55141398, "global_step/max_steps": "59710/65595", "percentage": "91.03%", "elapsed_time": "2d 23h 21m 38s", "remaining_time": "7h 1m 59s"}
+{"loss": 0.02751024, "token_acc": 0.99078014, "grad_norm": 1.92329228, "learning_rate": 1.97e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232429, "epoch": 4.55179511, "global_step/max_steps": "59715/65595", "percentage": "91.04%", "elapsed_time": "2d 23h 21m 54s", "remaining_time": "7h 1m 37s"}
+{"loss": 0.02092494, "token_acc": 0.99298147, "grad_norm": 0.77039725, "learning_rate": 1.97e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232434, "epoch": 4.55217623, "global_step/max_steps": "59720/65595", "percentage": "91.04%", "elapsed_time": "2d 23h 22m 10s", "remaining_time": "7h 1m 15s"}
+{"loss": 0.02152086, "token_acc": 0.98992226, "grad_norm": 0.80638129, "learning_rate": 1.96e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23244, "epoch": 4.55255736, "global_step/max_steps": "59725/65595", "percentage": "91.05%", "elapsed_time": "2d 23h 22m 26s", "remaining_time": "7h 0m 53s"}
+{"loss": 0.0376386, "token_acc": 0.9863388, "grad_norm": 3.15640426, "learning_rate": 1.96e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232444, "epoch": 4.55293849, "global_step/max_steps": "59730/65595", "percentage": "91.06%", "elapsed_time": "2d 23h 22m 42s", "remaining_time": "7h 0m 31s"}
+{"loss": 0.0355874, "token_acc": 0.98511119, "grad_norm": 0.98547971, "learning_rate": 1.96e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232448, "epoch": 4.55331961, "global_step/max_steps": "59735/65595", "percentage": "91.07%", "elapsed_time": "2d 23h 23m 0s", "remaining_time": "7h 0m 9s"}
+{"loss": 0.03120019, "token_acc": 0.98338369, "grad_norm": 1.09368765, "learning_rate": 1.95e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232453, "epoch": 4.55370074, "global_step/max_steps": "59740/65595", "percentage": "91.07%", "elapsed_time": "2d 23h 23m 16s", "remaining_time": "6h 59m 47s"}
+{"loss": 0.02619071, "token_acc": 0.98907706, "grad_norm": 0.81573355, "learning_rate": 1.95e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232454, "epoch": 4.55408187, "global_step/max_steps": "59745/65595", "percentage": "91.08%", "elapsed_time": "2d 23h 23m 36s", "remaining_time": "6h 59m 26s"}
+{"loss": 0.02601424, "token_acc": 0.9877172, "grad_norm": 0.76742512, "learning_rate": 1.95e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23246, "epoch": 4.55446299, "global_step/max_steps": "59750/65595", "percentage": "91.09%", "elapsed_time": "2d 23h 23m 51s", "remaining_time": "6h 59m 3s"}
+{"loss": 0.04848223, "token_acc": 0.98062475, "grad_norm": 0.75618583, "learning_rate": 1.94e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232466, "epoch": 4.55484412, "global_step/max_steps": "59755/65595", "percentage": "91.10%", "elapsed_time": "2d 23h 24m 6s", "remaining_time": "6h 58m 41s"}
+{"loss": 0.0167603, "token_acc": 0.99310205, "grad_norm": 0.4120377, "learning_rate": 1.94e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23247, "epoch": 4.55522525, "global_step/max_steps": "59760/65595", "percentage": "91.10%", "elapsed_time": "2d 23h 24m 23s", "remaining_time": "6h 58m 19s"}
+{"loss": 0.03101349, "token_acc": 0.98741822, "grad_norm": 1.66617274, "learning_rate": 1.94e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232474, "epoch": 4.55560637, "global_step/max_steps": "59765/65595", "percentage": "91.11%", "elapsed_time": "2d 23h 24m 40s", "remaining_time": "6h 57m 57s"}
+{"loss": 0.03297176, "token_acc": 0.98741419, "grad_norm": 1.09176612, "learning_rate": 1.93e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232478, "epoch": 4.5559875, "global_step/max_steps": "59770/65595", "percentage": "91.12%", "elapsed_time": "2d 23h 24m 57s", "remaining_time": "6h 57m 35s"}
+{"loss": 0.06286223, "token_acc": 0.98291149, "grad_norm": 4.68240261, "learning_rate": 1.93e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232482, "epoch": 4.55636863, "global_step/max_steps": "59775/65595", "percentage": "91.13%", "elapsed_time": "2d 23h 25m 14s", "remaining_time": "6h 57m 14s"}
+{"loss": 0.0299111, "token_acc": 0.98746082, "grad_norm": 0.99167567, "learning_rate": 1.93e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232488, "epoch": 4.55674975, "global_step/max_steps": "59780/65595", "percentage": "91.13%", "elapsed_time": "2d 23h 25m 29s", "remaining_time": "6h 56m 51s"}
+{"loss": 0.02888641, "token_acc": 0.98583147, "grad_norm": 0.35853305, "learning_rate": 1.92e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232493, "epoch": 4.55713088, "global_step/max_steps": "59785/65595", "percentage": "91.14%", "elapsed_time": "2d 23h 25m 45s", "remaining_time": "6h 56m 29s"}
+{"loss": 0.03280781, "token_acc": 0.98789657, "grad_norm": 0.94676346, "learning_rate": 1.92e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232498, "epoch": 4.55751201, "global_step/max_steps": "59790/65595", "percentage": "91.15%", "elapsed_time": "2d 23h 26m 1s", "remaining_time": "6h 56m 7s"}
+{"loss": 0.02114567, "token_acc": 0.98915865, "grad_norm": 1.29083776, "learning_rate": 1.92e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232501, "epoch": 4.55789313, "global_step/max_steps": "59795/65595", "percentage": "91.16%", "elapsed_time": "2d 23h 26m 19s", "remaining_time": "6h 55m 45s"}
+{"loss": 0.0203058, "token_acc": 0.99114583, "grad_norm": 1.86619473, "learning_rate": 1.91e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232509, "epoch": 4.55827426, "global_step/max_steps": "59800/65595", "percentage": "91.17%", "elapsed_time": "2d 23h 26m 32s", "remaining_time": "6h 55m 23s"}
+{"eval_loss": 0.04819339, "eval_token_acc": 0.98050569, "eval_runtime": 214.5971, "eval_samples_per_second": 2.47, "eval_steps_per_second": 2.47, "epoch": 4.55827426, "global_step/max_steps": "59800/65595", "percentage": "91.17%", "elapsed_time": "2d 23h 30m 7s", "remaining_time": "6h 55m 44s"}
+{"loss": 0.03159806, "token_acc": 0.98080298, "grad_norm": 1.44776392, "learning_rate": 1.91e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232319, "epoch": 4.55865539, "global_step/max_steps": "59805/65595", "percentage": "91.17%", "elapsed_time": "2d 23h 30m 23s", "remaining_time": "6h 55m 22s"}
+{"loss": 0.01412241, "token_acc": 0.99516454, "grad_norm": 0.29099897, "learning_rate": 1.91e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232322, "epoch": 4.55903651, "global_step/max_steps": "59810/65595", "percentage": "91.18%", "elapsed_time": "2d 23h 30m 41s", "remaining_time": "6h 55m 0s"}
+{"loss": 0.04422851, "token_acc": 0.98420139, "grad_norm": 0.85634893, "learning_rate": 1.9e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232326, "epoch": 4.55941764, "global_step/max_steps": "59815/65595", "percentage": "91.19%", "elapsed_time": "2d 23h 30m 58s", "remaining_time": "6h 54m 38s"}
+{"loss": 0.04460326, "token_acc": 0.98470097, "grad_norm": 1.49267638, "learning_rate": 1.9e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232332, "epoch": 4.55979877, "global_step/max_steps": "59820/65595", "percentage": "91.20%", "elapsed_time": "2d 23h 31m 13s", "remaining_time": "6h 54m 16s"}
+{"loss": 0.03104166, "token_acc": 0.98800857, "grad_norm": 1.55164945, "learning_rate": 1.9e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232336, "epoch": 4.56017989, "global_step/max_steps": "59825/65595", "percentage": "91.20%", "elapsed_time": "2d 23h 31m 30s", "remaining_time": "6h 53m 54s"}
+{"loss": 0.0219419, "token_acc": 0.99169235, "grad_norm": 0.86115235, "learning_rate": 1.89e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232338, "epoch": 4.56056102, "global_step/max_steps": "59830/65595", "percentage": "91.21%", "elapsed_time": "2d 23h 31m 50s", "remaining_time": "6h 53m 32s"}
+{"loss": 0.03041358, "token_acc": 0.98839034, "grad_norm": 0.6052525, "learning_rate": 1.89e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23234, "epoch": 4.56094214, "global_step/max_steps": "59835/65595", "percentage": "91.22%", "elapsed_time": "2d 23h 32m 10s", "remaining_time": "6h 53m 11s"}
+{"loss": 0.01695952, "token_acc": 0.99371529, "grad_norm": 2.27309895, "learning_rate": 1.89e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232343, "epoch": 4.56132327, "global_step/max_steps": "59840/65595", "percentage": "91.23%", "elapsed_time": "2d 23h 32m 28s", "remaining_time": "6h 52m 49s"}
+{"loss": 0.03472367, "token_acc": 0.99043367, "grad_norm": 0.64915985, "learning_rate": 1.88e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232348, "epoch": 4.5617044, "global_step/max_steps": "59845/65595", "percentage": "91.23%", "elapsed_time": "2d 23h 32m 43s", "remaining_time": "6h 52m 27s"}
+{"loss": 0.03398745, "token_acc": 0.98734177, "grad_norm": 2.49655485, "learning_rate": 1.88e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232355, "epoch": 4.56208552, "global_step/max_steps": "59850/65595", "percentage": "91.24%", "elapsed_time": "2d 23h 32m 57s", "remaining_time": "6h 52m 4s"}
+{"loss": 0.02491555, "token_acc": 0.98610784, "grad_norm": 1.14489067, "learning_rate": 1.88e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232361, "epoch": 4.56246665, "global_step/max_steps": "59855/65595", "percentage": "91.25%", "elapsed_time": "2d 23h 33m 12s", "remaining_time": "6h 51m 42s"}
+{"loss": 0.01068854, "token_acc": 0.99536366, "grad_norm": 0.12641916, "learning_rate": 1.87e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232367, "epoch": 4.56284778, "global_step/max_steps": "59860/65595", "percentage": "91.26%", "elapsed_time": "2d 23h 33m 27s", "remaining_time": "6h 51m 20s"}
+{"loss": 0.04527594, "token_acc": 0.97946324, "grad_norm": 2.5580318, "learning_rate": 1.87e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23237, "epoch": 4.5632289, "global_step/max_steps": "59865/65595", "percentage": "91.26%", "elapsed_time": "2d 23h 33m 45s", "remaining_time": "6h 50m 58s"}
+{"loss": 0.04814789, "token_acc": 0.98487334, "grad_norm": 0.42424238, "learning_rate": 1.87e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232373, "epoch": 4.56361003, "global_step/max_steps": "59870/65595", "percentage": "91.27%", "elapsed_time": "2d 23h 34m 3s", "remaining_time": "6h 50m 36s"}
+{"loss": 0.03324069, "token_acc": 0.98536343, "grad_norm": 0.77155828, "learning_rate": 1.86e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232375, "epoch": 4.56399116, "global_step/max_steps": "59875/65595", "percentage": "91.28%", "elapsed_time": "2d 23h 34m 22s", "remaining_time": "6h 50m 15s"}
+{"loss": 0.02642384, "token_acc": 0.98527487, "grad_norm": 1.09194803, "learning_rate": 1.86e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232381, "epoch": 4.56437228, "global_step/max_steps": "59880/65595", "percentage": "91.29%", "elapsed_time": "2d 23h 34m 38s", "remaining_time": "6h 49m 53s"}
+{"loss": 0.02024441, "token_acc": 0.99263308, "grad_norm": 1.1979574, "learning_rate": 1.86e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232384, "epoch": 4.56475341, "global_step/max_steps": "59885/65595", "percentage": "91.30%", "elapsed_time": "2d 23h 34m 56s", "remaining_time": "6h 49m 31s"}
+{"loss": 0.02203556, "token_acc": 0.99038639, "grad_norm": 0.54510897, "learning_rate": 1.85e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232388, "epoch": 4.56513454, "global_step/max_steps": "59890/65595", "percentage": "91.30%", "elapsed_time": "2d 23h 35m 13s", "remaining_time": "6h 49m 9s"}
+{"loss": 0.03979501, "token_acc": 0.98353025, "grad_norm": 2.20994592, "learning_rate": 1.85e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232391, "epoch": 4.56551566, "global_step/max_steps": "59895/65595", "percentage": "91.31%", "elapsed_time": "2d 23h 35m 31s", "remaining_time": "6h 48m 47s"}
+{"loss": 0.02842617, "token_acc": 0.98953824, "grad_norm": 0.85512638, "learning_rate": 1.85e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232394, "epoch": 4.56589679, "global_step/max_steps": "59900/65595", "percentage": "91.32%", "elapsed_time": "2d 23h 35m 49s", "remaining_time": "6h 48m 25s"}
+{"loss": 0.0143954, "token_acc": 0.99344907, "grad_norm": 2.05553317, "learning_rate": 1.85e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232399, "epoch": 4.56627792, "global_step/max_steps": "59905/65595", "percentage": "91.33%", "elapsed_time": "2d 23h 36m 5s", "remaining_time": "6h 48m 3s"}
+{"loss": 0.01426648, "token_acc": 0.99206874, "grad_norm": 0.00016284, "learning_rate": 1.84e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232406, "epoch": 4.56665904, "global_step/max_steps": "59910/65595", "percentage": "91.33%", "elapsed_time": "2d 23h 36m 19s", "remaining_time": "6h 47m 41s"}
+{"loss": 0.03153958, "token_acc": 0.99089222, "grad_norm": 0.66013193, "learning_rate": 1.84e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232409, "epoch": 4.56704017, "global_step/max_steps": "59915/65595", "percentage": "91.34%", "elapsed_time": "2d 23h 36m 37s", "remaining_time": "6h 47m 19s"}
+{"loss": 0.03184412, "token_acc": 0.98779779, "grad_norm": 1.14549661, "learning_rate": 1.84e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232415, "epoch": 4.5674213, "global_step/max_steps": "59920/65595", "percentage": "91.35%", "elapsed_time": "2d 23h 36m 52s", "remaining_time": "6h 46m 57s"}
+{"loss": 0.01895517, "token_acc": 0.98958333, "grad_norm": 0.55300713, "learning_rate": 1.83e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232419, "epoch": 4.56780242, "global_step/max_steps": "59925/65595", "percentage": "91.36%", "elapsed_time": "2d 23h 37m 9s", "remaining_time": "6h 46m 35s"}
+{"loss": 0.02974201, "token_acc": 0.99186624, "grad_norm": 1.61460757, "learning_rate": 1.83e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232426, "epoch": 4.56818355, "global_step/max_steps": "59930/65595", "percentage": "91.36%", "elapsed_time": "2d 23h 37m 23s", "remaining_time": "6h 46m 13s"}
+{"loss": 0.02609831, "token_acc": 0.98735666, "grad_norm": 1.92633271, "learning_rate": 1.83e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232431, "epoch": 4.56856468, "global_step/max_steps": "59935/65595", "percentage": "91.37%", "elapsed_time": "2d 23h 37m 39s", "remaining_time": "6h 45m 51s"}
+{"loss": 0.02403084, "token_acc": 0.99008004, "grad_norm": 0.66768909, "learning_rate": 1.82e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23243, "epoch": 4.5689458, "global_step/max_steps": "59940/65595", "percentage": "91.38%", "elapsed_time": "2d 23h 38m 1s", "remaining_time": "6h 45m 29s"}
+{"loss": 0.01886496, "token_acc": 0.99120235, "grad_norm": 1.53467083, "learning_rate": 1.82e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232435, "epoch": 4.56932693, "global_step/max_steps": "59945/65595", "percentage": "91.39%", "elapsed_time": "2d 23h 38m 17s", "remaining_time": "6h 45m 7s"}
+{"loss": 0.02930338, "token_acc": 0.98596241, "grad_norm": 0.91639382, "learning_rate": 1.82e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232439, "epoch": 4.56970806, "global_step/max_steps": "59950/65595", "percentage": "91.39%", "elapsed_time": "2d 23h 38m 34s", "remaining_time": "6h 44m 45s"}
+{"loss": 0.0226311, "token_acc": 0.99069767, "grad_norm": 0.96488911, "learning_rate": 1.81e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232444, "epoch": 4.57008918, "global_step/max_steps": "59955/65595", "percentage": "91.40%", "elapsed_time": "2d 23h 38m 51s", "remaining_time": "6h 44m 23s"}
+{"loss": 0.03433564, "token_acc": 0.98522637, "grad_norm": 1.71888709, "learning_rate": 1.81e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232447, "epoch": 4.57047031, "global_step/max_steps": "59960/65595", "percentage": "91.41%", "elapsed_time": "2d 23h 39m 8s", "remaining_time": "6h 44m 1s"}
+{"loss": 0.02235321, "token_acc": 0.99201782, "grad_norm": 0.71205866, "learning_rate": 1.81e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23245, "epoch": 4.57085144, "global_step/max_steps": "59965/65595", "percentage": "91.42%", "elapsed_time": "2d 23h 39m 26s", "remaining_time": "6h 43m 40s"}
+{"loss": 0.02100102, "token_acc": 0.98642051, "grad_norm": 0.68887287, "learning_rate": 1.8e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232452, "epoch": 4.57123256, "global_step/max_steps": "59970/65595", "percentage": "91.42%", "elapsed_time": "2d 23h 39m 46s", "remaining_time": "6h 43m 18s"}
+{"loss": 0.01822527, "token_acc": 0.99116189, "grad_norm": 0.12956004, "learning_rate": 1.8e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232456, "epoch": 4.57161369, "global_step/max_steps": "59975/65595", "percentage": "91.43%", "elapsed_time": "2d 23h 40m 3s", "remaining_time": "6h 42m 56s"}
+{"loss": 0.03434207, "token_acc": 0.98676146, "grad_norm": 0.68901235, "learning_rate": 1.8e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232457, "epoch": 4.57199482, "global_step/max_steps": "59980/65595", "percentage": "91.44%", "elapsed_time": "2d 23h 40m 24s", "remaining_time": "6h 42m 34s"}
+{"loss": 0.02447667, "token_acc": 0.9918984, "grad_norm": 0.84671128, "learning_rate": 1.79e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232462, "epoch": 4.57237594, "global_step/max_steps": "59985/65595", "percentage": "91.45%", "elapsed_time": "2d 23h 40m 40s", "remaining_time": "6h 42m 12s"}
+{"loss": 0.02795928, "token_acc": 0.98800723, "grad_norm": 1.35036027, "learning_rate": 1.79e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232464, "epoch": 4.57275707, "global_step/max_steps": "59990/65595", "percentage": "91.46%", "elapsed_time": "2d 23h 40m 59s", "remaining_time": "6h 41m 51s"}
+{"loss": 0.01380186, "token_acc": 0.99433642, "grad_norm": 0.54840177, "learning_rate": 1.79e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232467, "epoch": 4.5731382, "global_step/max_steps": "59995/65595", "percentage": "91.46%", "elapsed_time": "2d 23h 41m 16s", "remaining_time": "6h 41m 29s"}
+{"loss": 0.03162352, "token_acc": 0.98431677, "grad_norm": 0.84911931, "learning_rate": 1.78e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23247, "epoch": 4.57351932, "global_step/max_steps": "60000/65595", "percentage": "91.47%", "elapsed_time": "2d 23h 41m 35s", "remaining_time": "6h 41m 7s"}
+{"eval_loss": 0.04785449, "eval_token_acc": 0.98070146, "eval_runtime": 220.2794, "eval_samples_per_second": 2.406, "eval_steps_per_second": 2.406, "epoch": 4.57351932, "global_step/max_steps": "60000/65595", "percentage": "91.47%", "elapsed_time": "2d 23h 45m 16s", "remaining_time": "6h 41m 27s"}
+{"loss": 0.01598949, "token_acc": 0.9810926, "grad_norm": 0.9440217, "learning_rate": 1.78e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232274, "epoch": 4.57390045, "global_step/max_steps": "60005/65595", "percentage": "91.48%", "elapsed_time": "2d 23h 45m 34s", "remaining_time": "6h 41m 6s"}
+{"loss": 0.04291319, "token_acc": 0.98386804, "grad_norm": 0.67733109, "learning_rate": 1.78e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232278, "epoch": 4.57428158, "global_step/max_steps": "60010/65595", "percentage": "91.49%", "elapsed_time": "2d 23h 45m 51s", "remaining_time": "6h 40m 44s"}
+{"loss": 0.01898896, "token_acc": 0.99189902, "grad_norm": 0.72330749, "learning_rate": 1.77e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232282, "epoch": 4.5746627, "global_step/max_steps": "60015/65595", "percentage": "91.49%", "elapsed_time": "2d 23h 46m 9s", "remaining_time": "6h 40m 22s"}
+{"loss": 0.02928109, "token_acc": 0.9885685, "grad_norm": 1.51374185, "learning_rate": 1.77e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232286, "epoch": 4.57504383, "global_step/max_steps": "60020/65595", "percentage": "91.50%", "elapsed_time": "2d 23h 46m 26s", "remaining_time": "6h 40m 0s"}
+{"loss": 0.03004045, "token_acc": 0.99053422, "grad_norm": 1.13021147, "learning_rate": 1.77e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232288, "epoch": 4.57542496, "global_step/max_steps": "60025/65595", "percentage": "91.51%", "elapsed_time": "2d 23h 46m 45s", "remaining_time": "6h 39m 38s"}
+{"loss": 0.04015747, "token_acc": 0.98400312, "grad_norm": 0.13967666, "learning_rate": 1.77e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232294, "epoch": 4.57580608, "global_step/max_steps": "60030/65595", "percentage": "91.52%", "elapsed_time": "2d 23h 47m 0s", "remaining_time": "6h 39m 16s"}
+{"loss": 0.04450113, "token_acc": 0.98665588, "grad_norm": 1.89565563, "learning_rate": 1.76e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2323, "epoch": 4.57618721, "global_step/max_steps": "60035/65595", "percentage": "91.52%", "elapsed_time": "2d 23h 47m 15s", "remaining_time": "6h 38m 54s"}
+{"loss": 0.04491731, "token_acc": 0.98340536, "grad_norm": 1.3249234, "learning_rate": 1.76e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232304, "epoch": 4.57656834, "global_step/max_steps": "60040/65595", "percentage": "91.53%", "elapsed_time": "2d 23h 47m 32s", "remaining_time": "6h 38m 32s"}
+{"loss": 0.04440485, "token_acc": 0.98110465, "grad_norm": 1.18080032, "learning_rate": 1.76e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232303, "epoch": 4.57694946, "global_step/max_steps": "60045/65595", "percentage": "91.54%", "elapsed_time": "2d 23h 47m 54s", "remaining_time": "6h 38m 10s"}
+{"loss": 0.02665989, "token_acc": 0.99147517, "grad_norm": 1.00665927, "learning_rate": 1.75e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23231, "epoch": 4.57733059, "global_step/max_steps": "60050/65595", "percentage": "91.55%", "elapsed_time": "2d 23h 48m 9s", "remaining_time": "6h 37m 48s"}
+{"loss": 0.02752258, "token_acc": 0.98902821, "grad_norm": 1.42815042, "learning_rate": 1.75e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232313, "epoch": 4.57771172, "global_step/max_steps": "60055/65595", "percentage": "91.55%", "elapsed_time": "2d 23h 48m 26s", "remaining_time": "6h 37m 26s"}
+{"loss": 0.03984653, "token_acc": 0.98262819, "grad_norm": 1.17691171, "learning_rate": 1.75e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232319, "epoch": 4.57809284, "global_step/max_steps": "60060/65595", "percentage": "91.56%", "elapsed_time": "2d 23h 48m 42s", "remaining_time": "6h 37m 4s"}
+{"loss": 0.03071816, "token_acc": 0.98939488, "grad_norm": 1.89630795, "learning_rate": 1.74e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232318, "epoch": 4.57847397, "global_step/max_steps": "60065/65595", "percentage": "91.57%", "elapsed_time": "2d 23h 49m 3s", "remaining_time": "6h 36m 43s"}
+{"loss": 0.03846812, "token_acc": 0.98697371, "grad_norm": 0.66340417, "learning_rate": 1.74e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232322, "epoch": 4.5788551, "global_step/max_steps": "60070/65595", "percentage": "91.58%", "elapsed_time": "2d 23h 49m 21s", "remaining_time": "6h 36m 21s"}
+{"loss": 0.02282102, "token_acc": 0.99154369, "grad_norm": 1.04759538, "learning_rate": 1.74e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232325, "epoch": 4.57923622, "global_step/max_steps": "60075/65595", "percentage": "91.58%", "elapsed_time": "2d 23h 49m 39s", "remaining_time": "6h 35m 59s"}
+{"loss": 0.03492639, "token_acc": 0.98570663, "grad_norm": 2.20485997, "learning_rate": 1.73e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232329, "epoch": 4.57961735, "global_step/max_steps": "60080/65595", "percentage": "91.59%", "elapsed_time": "2d 23h 49m 56s", "remaining_time": "6h 35m 37s"}
+{"loss": 0.02819115, "token_acc": 0.98838677, "grad_norm": 0.70426637, "learning_rate": 1.73e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232334, "epoch": 4.57999848, "global_step/max_steps": "60085/65595", "percentage": "91.60%", "elapsed_time": "2d 23h 50m 12s", "remaining_time": "6h 35m 15s"}
+{"loss": 0.04407321, "token_acc": 0.98107326, "grad_norm": 0.82635236, "learning_rate": 1.73e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232337, "epoch": 4.5803796, "global_step/max_steps": "60090/65595", "percentage": "91.61%", "elapsed_time": "2d 23h 50m 30s", "remaining_time": "6h 34m 53s"}
+{"loss": 0.04985377, "token_acc": 0.98392694, "grad_norm": 1.74609482, "learning_rate": 1.72e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23234, "epoch": 4.58076073, "global_step/max_steps": "60095/65595", "percentage": "91.62%", "elapsed_time": "2d 23h 50m 48s", "remaining_time": "6h 34m 31s"}
+{"loss": 0.03984478, "token_acc": 0.98287363, "grad_norm": 1.21981406, "learning_rate": 1.72e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232343, "epoch": 4.58114186, "global_step/max_steps": "60100/65595", "percentage": "91.62%", "elapsed_time": "2d 23h 51m 7s", "remaining_time": "6h 34m 10s"}
+{"loss": 0.03478081, "token_acc": 0.98602213, "grad_norm": 2.42595291, "learning_rate": 1.72e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232347, "epoch": 4.58152298, "global_step/max_steps": "60105/65595", "percentage": "91.63%", "elapsed_time": "2d 23h 51m 24s", "remaining_time": "6h 33m 48s"}
+{"loss": 0.02363281, "token_acc": 0.99105717, "grad_norm": 1.12532055, "learning_rate": 1.72e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23235, "epoch": 4.58190411, "global_step/max_steps": "60110/65595", "percentage": "91.64%", "elapsed_time": "2d 23h 51m 41s", "remaining_time": "6h 33m 26s"}
+{"loss": 0.02038879, "token_acc": 0.99507659, "grad_norm": 0.96110564, "learning_rate": 1.71e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232355, "epoch": 4.58228524, "global_step/max_steps": "60115/65595", "percentage": "91.65%", "elapsed_time": "2d 23h 51m 57s", "remaining_time": "6h 33m 4s"}
+{"loss": 0.02071342, "token_acc": 0.99290393, "grad_norm": 2.91297126, "learning_rate": 1.71e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232361, "epoch": 4.58266636, "global_step/max_steps": "60120/65595", "percentage": "91.65%", "elapsed_time": "2d 23h 52m 13s", "remaining_time": "6h 32m 42s"}
+{"loss": 0.02550273, "token_acc": 0.98579623, "grad_norm": 1.0447681, "learning_rate": 1.71e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232365, "epoch": 4.58304749, "global_step/max_steps": "60125/65595", "percentage": "91.66%", "elapsed_time": "2d 23h 52m 29s", "remaining_time": "6h 32m 20s"}
+{"loss": 0.01678879, "token_acc": 0.99089636, "grad_norm": 1.36505985, "learning_rate": 1.7e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232372, "epoch": 4.58342861, "global_step/max_steps": "60130/65595", "percentage": "91.67%", "elapsed_time": "2d 23h 52m 43s", "remaining_time": "6h 31m 58s"}
+{"loss": 0.04885046, "token_acc": 0.98638298, "grad_norm": 3.72658157, "learning_rate": 1.7e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232375, "epoch": 4.58380974, "global_step/max_steps": "60135/65595", "percentage": "91.68%", "elapsed_time": "2d 23h 53m 1s", "remaining_time": "6h 31m 36s"}
+{"loss": 0.03516623, "token_acc": 0.98592021, "grad_norm": 1.95323801, "learning_rate": 1.7e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232381, "epoch": 4.58419087, "global_step/max_steps": "60140/65595", "percentage": "91.68%", "elapsed_time": "2d 23h 53m 16s", "remaining_time": "6h 31m 14s"}
+{"loss": 0.04128715, "token_acc": 0.98516567, "grad_norm": 0.6070447, "learning_rate": 1.69e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232383, "epoch": 4.58457199, "global_step/max_steps": "60145/65595", "percentage": "91.69%", "elapsed_time": "2d 23h 53m 35s", "remaining_time": "6h 30m 52s"}
+{"loss": 0.03146966, "token_acc": 0.99376376, "grad_norm": 0.54735982, "learning_rate": 1.69e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232387, "epoch": 4.58495312, "global_step/max_steps": "60150/65595", "percentage": "91.70%", "elapsed_time": "2d 23h 53m 52s", "remaining_time": "6h 30m 30s"}
+{"loss": 0.03277583, "token_acc": 0.98852894, "grad_norm": 1.80832815, "learning_rate": 1.69e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232388, "epoch": 4.58533425, "global_step/max_steps": "60155/65595", "percentage": "91.71%", "elapsed_time": "2d 23h 54m 13s", "remaining_time": "6h 30m 8s"}
+{"loss": 0.01426462, "token_acc": 0.9935085, "grad_norm": 1.2016108, "learning_rate": 1.68e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232394, "epoch": 4.58571537, "global_step/max_steps": "60160/65595", "percentage": "91.71%", "elapsed_time": "2d 23h 54m 28s", "remaining_time": "6h 29m 46s"}
+{"loss": 0.07167746, "token_acc": 0.97907648, "grad_norm": 1.7381525, "learning_rate": 1.68e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232399, "epoch": 4.5860965, "global_step/max_steps": "60165/65595", "percentage": "91.72%", "elapsed_time": "2d 23h 54m 44s", "remaining_time": "6h 29m 24s"}
+{"loss": 0.04054155, "token_acc": 0.98622638, "grad_norm": 0.43545344, "learning_rate": 1.68e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232403, "epoch": 4.58647763, "global_step/max_steps": "60170/65595", "percentage": "91.73%", "elapsed_time": "2d 23h 55m 1s", "remaining_time": "6h 29m 2s"}
+{"loss": 0.02674809, "token_acc": 0.98686205, "grad_norm": 1.05972552, "learning_rate": 1.68e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23241, "epoch": 4.58685875, "global_step/max_steps": "60175/65595", "percentage": "91.74%", "elapsed_time": "2d 23h 55m 15s", "remaining_time": "6h 28m 40s"}
+{"loss": 0.03155942, "token_acc": 0.99097921, "grad_norm": 0.72245795, "learning_rate": 1.67e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232411, "epoch": 4.58723988, "global_step/max_steps": "60180/65595", "percentage": "91.74%", "elapsed_time": "2d 23h 55m 36s", "remaining_time": "6h 28m 19s"}
+{"loss": 0.03997042, "token_acc": 0.98123827, "grad_norm": 1.12988055, "learning_rate": 1.67e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232417, "epoch": 4.58762101, "global_step/max_steps": "60185/65595", "percentage": "91.75%", "elapsed_time": "2d 23h 55m 50s", "remaining_time": "6h 27m 56s"}
+{"loss": 0.03959152, "token_acc": 0.98646084, "grad_norm": 1.40095878, "learning_rate": 1.67e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232421, "epoch": 4.58800213, "global_step/max_steps": "60190/65595", "percentage": "91.76%", "elapsed_time": "2d 23h 56m 7s", "remaining_time": "6h 27m 35s"}
+{"loss": 0.02778138, "token_acc": 0.98576771, "grad_norm": 0.76327932, "learning_rate": 1.66e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232423, "epoch": 4.58838326, "global_step/max_steps": "60195/65595", "percentage": "91.77%", "elapsed_time": "2d 23h 56m 26s", "remaining_time": "6h 27m 13s"}
+{"loss": 0.03650281, "token_acc": 0.9893723, "grad_norm": 2.53022552, "learning_rate": 1.66e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232429, "epoch": 4.58876439, "global_step/max_steps": "60200/65595", "percentage": "91.78%", "elapsed_time": "2d 23h 56m 41s", "remaining_time": "6h 26m 51s"}
+{"eval_loss": 0.0477891, "eval_token_acc": 0.98045298, "eval_runtime": 218.2845, "eval_samples_per_second": 2.428, "eval_steps_per_second": 2.428, "epoch": 4.58876439, "global_step/max_steps": "60200/65595", "percentage": "91.78%", "elapsed_time": "3d 0h 0m 19s", "remaining_time": "6h 27m 10s"}
+{"loss": 0.03022997, "token_acc": 0.98087759, "grad_norm": 1.190732, "learning_rate": 1.66e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232234, "epoch": 4.58914551, "global_step/max_steps": "60205/65595", "percentage": "91.78%", "elapsed_time": "3d 0h 0m 40s", "remaining_time": "6h 26m 49s"}
+{"loss": 0.025506, "token_acc": 0.9912045, "grad_norm": 1.10809231, "learning_rate": 1.65e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232238, "epoch": 4.58952664, "global_step/max_steps": "60210/65595", "percentage": "91.79%", "elapsed_time": "3d 0h 0m 57s", "remaining_time": "6h 26m 27s"}
+{"loss": 0.04169832, "token_acc": 0.98703033, "grad_norm": 0.74238902, "learning_rate": 1.65e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232242, "epoch": 4.58990777, "global_step/max_steps": "60215/65595", "percentage": "91.80%", "elapsed_time": "3d 0h 1m 14s", "remaining_time": "6h 26m 5s"}
+{"loss": 0.0310492, "token_acc": 0.98413328, "grad_norm": 1.86904693, "learning_rate": 1.65e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232248, "epoch": 4.59028889, "global_step/max_steps": "60220/65595", "percentage": "91.81%", "elapsed_time": "3d 0h 1m 29s", "remaining_time": "6h 25m 43s"}
+{"loss": 0.03798304, "token_acc": 0.98440231, "grad_norm": 0.85351396, "learning_rate": 1.64e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232252, "epoch": 4.59067002, "global_step/max_steps": "60225/65595", "percentage": "91.81%", "elapsed_time": "3d 0h 1m 46s", "remaining_time": "6h 25m 21s"}
+{"loss": 0.02485654, "token_acc": 0.99319971, "grad_norm": 1.008358, "learning_rate": 1.64e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232256, "epoch": 4.59105115, "global_step/max_steps": "60230/65595", "percentage": "91.82%", "elapsed_time": "3d 0h 2m 3s", "remaining_time": "6h 24m 59s"}
+{"loss": 0.04464722, "token_acc": 0.98591059, "grad_norm": 2.17631459, "learning_rate": 1.64e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23226, "epoch": 4.59143227, "global_step/max_steps": "60235/65595", "percentage": "91.83%", "elapsed_time": "3d 0h 2m 20s", "remaining_time": "6h 24m 37s"}
+{"loss": 0.04464127, "token_acc": 0.98116286, "grad_norm": 1.05181432, "learning_rate": 1.64e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232263, "epoch": 4.5918134, "global_step/max_steps": "60240/65595", "percentage": "91.84%", "elapsed_time": "3d 0h 2m 38s", "remaining_time": "6h 24m 15s"}
+{"loss": 0.02101952, "token_acc": 0.985, "grad_norm": 0.59993243, "learning_rate": 1.63e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232267, "epoch": 4.59219453, "global_step/max_steps": "60245/65595", "percentage": "91.84%", "elapsed_time": "3d 0h 2m 56s", "remaining_time": "6h 23m 53s"}
+{"loss": 0.0278572, "token_acc": 0.98862417, "grad_norm": 1.57714999, "learning_rate": 1.63e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232272, "epoch": 4.59257565, "global_step/max_steps": "60250/65595", "percentage": "91.85%", "elapsed_time": "3d 0h 3m 12s", "remaining_time": "6h 23m 31s"}
+{"loss": 0.06257406, "token_acc": 0.9776339, "grad_norm": 2.96904945, "learning_rate": 1.63e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232277, "epoch": 4.59295678, "global_step/max_steps": "60255/65595", "percentage": "91.86%", "elapsed_time": "3d 0h 3m 27s", "remaining_time": "6h 23m 9s"}
+{"loss": 0.0251923, "token_acc": 0.99260325, "grad_norm": 0.93822473, "learning_rate": 1.62e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232281, "epoch": 4.59333791, "global_step/max_steps": "60260/65595", "percentage": "91.87%", "elapsed_time": "3d 0h 3m 44s", "remaining_time": "6h 22m 47s"}
+{"loss": 0.03916913, "token_acc": 0.98428835, "grad_norm": 1.1227423, "learning_rate": 1.62e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232286, "epoch": 4.59371903, "global_step/max_steps": "60265/65595", "percentage": "91.87%", "elapsed_time": "3d 0h 4m 1s", "remaining_time": "6h 22m 25s"}
+{"loss": 0.02818733, "token_acc": 0.9876348, "grad_norm": 0.2245138, "learning_rate": 1.62e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232286, "epoch": 4.59410016, "global_step/max_steps": "60270/65595", "percentage": "91.88%", "elapsed_time": "3d 0h 4m 21s", "remaining_time": "6h 22m 4s"}
+{"loss": 0.04928331, "token_acc": 0.98934426, "grad_norm": 1.12643254, "learning_rate": 1.61e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232291, "epoch": 4.59448129, "global_step/max_steps": "60275/65595", "percentage": "91.89%", "elapsed_time": "3d 0h 4m 37s", "remaining_time": "6h 21m 42s"}
+{"loss": 0.01613883, "token_acc": 0.99606428, "grad_norm": 0.47045502, "learning_rate": 1.61e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232297, "epoch": 4.59486241, "global_step/max_steps": "60280/65595", "percentage": "91.90%", "elapsed_time": "3d 0h 4m 53s", "remaining_time": "6h 21m 20s"}
+{"loss": 0.04160494, "token_acc": 0.98662704, "grad_norm": 1.04403603, "learning_rate": 1.61e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232302, "epoch": 4.59524354, "global_step/max_steps": "60285/65595", "percentage": "91.90%", "elapsed_time": "3d 0h 5m 9s", "remaining_time": "6h 20m 57s"}
+{"loss": 0.01825101, "token_acc": 0.99148418, "grad_norm": 1.02938998, "learning_rate": 1.61e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232306, "epoch": 4.59562467, "global_step/max_steps": "60290/65595", "percentage": "91.91%", "elapsed_time": "3d 0h 5m 25s", "remaining_time": "6h 20m 36s"}
+{"loss": 0.03104699, "token_acc": 0.98866692, "grad_norm": 1.9113884, "learning_rate": 1.6e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23231, "epoch": 4.59600579, "global_step/max_steps": "60295/65595", "percentage": "91.92%", "elapsed_time": "3d 0h 5m 43s", "remaining_time": "6h 20m 14s"}
+{"loss": 0.03172898, "token_acc": 0.98473282, "grad_norm": 0.96456617, "learning_rate": 1.6e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232313, "epoch": 4.59638692, "global_step/max_steps": "60300/65595", "percentage": "91.93%", "elapsed_time": "3d 0h 6m 1s", "remaining_time": "6h 19m 52s"}
+{"loss": 0.03904721, "token_acc": 0.98654493, "grad_norm": 2.86798739, "learning_rate": 1.6e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232317, "epoch": 4.59676805, "global_step/max_steps": "60305/65595", "percentage": "91.94%", "elapsed_time": "3d 0h 6m 18s", "remaining_time": "6h 19m 30s"}
+{"loss": 0.02249241, "token_acc": 0.98981223, "grad_norm": 0.86914724, "learning_rate": 1.59e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232321, "epoch": 4.59714917, "global_step/max_steps": "60310/65595", "percentage": "91.94%", "elapsed_time": "3d 0h 6m 35s", "remaining_time": "6h 19m 8s"}
+{"loss": 0.01667033, "token_acc": 0.9934892, "grad_norm": 0.97129714, "learning_rate": 1.59e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232327, "epoch": 4.5975303, "global_step/max_steps": "60315/65595", "percentage": "91.95%", "elapsed_time": "3d 0h 6m 50s", "remaining_time": "6h 18m 46s"}
+{"loss": 0.03517068, "token_acc": 0.9892151, "grad_norm": 0.72168666, "learning_rate": 1.59e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232333, "epoch": 4.59791143, "global_step/max_steps": "60320/65595", "percentage": "91.96%", "elapsed_time": "3d 0h 7m 5s", "remaining_time": "6h 18m 24s"}
+{"loss": 0.02844512, "token_acc": 0.9884781, "grad_norm": 0.93199658, "learning_rate": 1.58e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232333, "epoch": 4.59829255, "global_step/max_steps": "60325/65595", "percentage": "91.97%", "elapsed_time": "3d 0h 7m 26s", "remaining_time": "6h 18m 2s"}
+{"loss": 0.04616423, "token_acc": 0.98596134, "grad_norm": 1.09592164, "learning_rate": 1.58e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232336, "epoch": 4.59867368, "global_step/max_steps": "60330/65595", "percentage": "91.97%", "elapsed_time": "3d 0h 7m 45s", "remaining_time": "6h 17m 40s"}
+{"loss": 0.02717118, "token_acc": 0.99056911, "grad_norm": 0.52806473, "learning_rate": 1.58e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232337, "epoch": 4.59905481, "global_step/max_steps": "60335/65595", "percentage": "91.98%", "elapsed_time": "3d 0h 8m 5s", "remaining_time": "6h 17m 19s"}
+{"loss": 0.02270206, "token_acc": 0.9905161, "grad_norm": 0.88906115, "learning_rate": 1.58e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232342, "epoch": 4.59943593, "global_step/max_steps": "60340/65595", "percentage": "91.99%", "elapsed_time": "3d 0h 8m 21s", "remaining_time": "6h 16m 57s"}
+{"loss": 0.0339916, "token_acc": 0.98428732, "grad_norm": 1.44452429, "learning_rate": 1.57e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232346, "epoch": 4.59981706, "global_step/max_steps": "60345/65595", "percentage": "92.00%", "elapsed_time": "3d 0h 8m 38s", "remaining_time": "6h 16m 35s"}
+{"loss": 0.02634704, "token_acc": 0.99118425, "grad_norm": 0.95312339, "learning_rate": 1.57e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232351, "epoch": 4.60019819, "global_step/max_steps": "60350/65595", "percentage": "92.00%", "elapsed_time": "3d 0h 8m 53s", "remaining_time": "6h 16m 13s"}
+{"loss": 0.02107894, "token_acc": 0.99278141, "grad_norm": 1.6160419, "learning_rate": 1.57e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232351, "epoch": 4.60057931, "global_step/max_steps": "60355/65595", "percentage": "92.01%", "elapsed_time": "3d 0h 9m 15s", "remaining_time": "6h 15m 51s"}
+{"loss": 0.03138361, "token_acc": 0.98892897, "grad_norm": 1.32022989, "learning_rate": 1.56e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232353, "epoch": 4.60096044, "global_step/max_steps": "60360/65595", "percentage": "92.02%", "elapsed_time": "3d 0h 9m 34s", "remaining_time": "6h 15m 30s"}
+{"loss": 0.02727666, "token_acc": 0.9892336, "grad_norm": 1.00441372, "learning_rate": 1.56e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232355, "epoch": 4.60134157, "global_step/max_steps": "60365/65595", "percentage": "92.03%", "elapsed_time": "3d 0h 9m 54s", "remaining_time": "6h 15m 8s"}
+{"loss": 0.0294623, "token_acc": 0.98887286, "grad_norm": 2.3414638, "learning_rate": 1.56e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232358, "epoch": 4.60172269, "global_step/max_steps": "60370/65595", "percentage": "92.03%", "elapsed_time": "3d 0h 10m 11s", "remaining_time": "6h 14m 46s"}
+{"loss": 0.02054045, "token_acc": 0.99212211, "grad_norm": 0.867598, "learning_rate": 1.55e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232364, "epoch": 4.60210382, "global_step/max_steps": "60375/65595", "percentage": "92.04%", "elapsed_time": "3d 0h 10m 27s", "remaining_time": "6h 14m 24s"}
+{"loss": 0.02840463, "token_acc": 0.98783455, "grad_norm": 0.78152341, "learning_rate": 1.55e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232368, "epoch": 4.60248495, "global_step/max_steps": "60380/65595", "percentage": "92.05%", "elapsed_time": "3d 0h 10m 44s", "remaining_time": "6h 14m 2s"}
+{"loss": 0.04037464, "token_acc": 0.98229497, "grad_norm": 1.17867064, "learning_rate": 1.55e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232372, "epoch": 4.60286607, "global_step/max_steps": "60385/65595", "percentage": "92.06%", "elapsed_time": "3d 0h 11m 1s", "remaining_time": "6h 13m 40s"}
+{"loss": 0.03109561, "token_acc": 0.9888171, "grad_norm": 0.78713912, "learning_rate": 1.55e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232376, "epoch": 4.6032472, "global_step/max_steps": "60390/65595", "percentage": "92.06%", "elapsed_time": "3d 0h 11m 17s", "remaining_time": "6h 13m 18s"}
+{"loss": 0.0685094, "token_acc": 0.97752622, "grad_norm": 1.69745564, "learning_rate": 1.54e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23238, "epoch": 4.60362833, "global_step/max_steps": "60395/65595", "percentage": "92.07%", "elapsed_time": "3d 0h 11m 34s", "remaining_time": "6h 12m 56s"}
+{"loss": 0.0165436, "token_acc": 0.99236175, "grad_norm": 0.84236163, "learning_rate": 1.54e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232386, "epoch": 4.60400945, "global_step/max_steps": "60400/65595", "percentage": "92.08%", "elapsed_time": "3d 0h 11m 50s", "remaining_time": "6h 12m 34s"}
+{"eval_loss": 0.04711604, "eval_token_acc": 0.98079935, "eval_runtime": 220.0164, "eval_samples_per_second": 2.409, "eval_steps_per_second": 2.409, "epoch": 4.60400945, "global_step/max_steps": "60400/65595", "percentage": "92.08%", "elapsed_time": "3d 0h 15m 30s", "remaining_time": "6h 12m 53s"}
+{"loss": 0.02904555, "token_acc": 0.98125495, "grad_norm": 1.95487058, "learning_rate": 1.54e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232191, "epoch": 4.60439058, "global_step/max_steps": "60405/65595", "percentage": "92.09%", "elapsed_time": "3d 0h 15m 49s", "remaining_time": "6h 12m 32s"}
+{"loss": 0.03357354, "token_acc": 0.98626519, "grad_norm": 1.17927992, "learning_rate": 1.53e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232193, "epoch": 4.60477171, "global_step/max_steps": "60410/65595", "percentage": "92.10%", "elapsed_time": "3d 0h 16m 9s", "remaining_time": "6h 12m 10s"}
+{"loss": 0.03355427, "token_acc": 0.986574, "grad_norm": 2.30912471, "learning_rate": 1.53e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232197, "epoch": 4.60515283, "global_step/max_steps": "60415/65595", "percentage": "92.10%", "elapsed_time": "3d 0h 16m 26s", "remaining_time": "6h 11m 48s"}
+{"loss": 0.03464476, "token_acc": 0.98803034, "grad_norm": 1.00972319, "learning_rate": 1.53e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232197, "epoch": 4.60553396, "global_step/max_steps": "60420/65595", "percentage": "92.11%", "elapsed_time": "3d 0h 16m 47s", "remaining_time": "6h 11m 26s"}
+{"loss": 0.03323263, "token_acc": 0.98869901, "grad_norm": 0.5804013, "learning_rate": 1.52e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232197, "epoch": 4.60591508, "global_step/max_steps": "60425/65595", "percentage": "92.12%", "elapsed_time": "3d 0h 17m 9s", "remaining_time": "6h 11m 5s"}
+{"loss": 0.03758747, "token_acc": 0.98456555, "grad_norm": 1.05676627, "learning_rate": 1.52e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2322, "epoch": 4.60629621, "global_step/max_steps": "60430/65595", "percentage": "92.13%", "elapsed_time": "3d 0h 17m 27s", "remaining_time": "6h 10m 43s"}
+{"loss": 0.04613993, "token_acc": 0.97959184, "grad_norm": 1.46150208, "learning_rate": 1.52e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232206, "epoch": 4.60667734, "global_step/max_steps": "60435/65595", "percentage": "92.13%", "elapsed_time": "3d 0h 17m 42s", "remaining_time": "6h 10m 21s"}
+{"loss": 0.02312078, "token_acc": 0.99186813, "grad_norm": 1.35085833, "learning_rate": 1.52e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232211, "epoch": 4.60705846, "global_step/max_steps": "60440/65595", "percentage": "92.14%", "elapsed_time": "3d 0h 17m 58s", "remaining_time": "6h 9m 59s"}
+{"loss": 0.01077825, "token_acc": 0.9944069, "grad_norm": 0.27848518, "learning_rate": 1.51e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232216, "epoch": 4.60743959, "global_step/max_steps": "60445/65595", "percentage": "92.15%", "elapsed_time": "3d 0h 18m 14s", "remaining_time": "6h 9m 37s"}
+{"loss": 0.02597236, "token_acc": 0.98341584, "grad_norm": 0.98884714, "learning_rate": 1.51e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23222, "epoch": 4.60782072, "global_step/max_steps": "60450/65595", "percentage": "92.16%", "elapsed_time": "3d 0h 18m 30s", "remaining_time": "6h 9m 15s"}
+{"loss": 0.02236653, "token_acc": 0.99253963, "grad_norm": 0.78904361, "learning_rate": 1.51e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232224, "epoch": 4.60820184, "global_step/max_steps": "60455/65595", "percentage": "92.16%", "elapsed_time": "3d 0h 18m 48s", "remaining_time": "6h 8m 53s"}
+{"loss": 0.01818064, "token_acc": 0.99252026, "grad_norm": 0.50207013, "learning_rate": 1.5e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232228, "epoch": 4.60858297, "global_step/max_steps": "60460/65595", "percentage": "92.17%", "elapsed_time": "3d 0h 19m 5s", "remaining_time": "6h 8m 31s"}
+{"loss": 0.02030506, "token_acc": 0.99116398, "grad_norm": 0.57533228, "learning_rate": 1.5e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232232, "epoch": 4.6089641, "global_step/max_steps": "60465/65595", "percentage": "92.18%", "elapsed_time": "3d 0h 19m 22s", "remaining_time": "6h 8m 9s"}
+{"loss": 0.02703652, "token_acc": 0.98421224, "grad_norm": 0.38562125, "learning_rate": 1.5e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232234, "epoch": 4.60934522, "global_step/max_steps": "60470/65595", "percentage": "92.19%", "elapsed_time": "3d 0h 19m 41s", "remaining_time": "6h 7m 48s"}
+{"loss": 0.01227883, "token_acc": 0.99316266, "grad_norm": 0.49534312, "learning_rate": 1.5e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232238, "epoch": 4.60972635, "global_step/max_steps": "60475/65595", "percentage": "92.19%", "elapsed_time": "3d 0h 19m 58s", "remaining_time": "6h 7m 26s"}
+{"loss": 0.01853234, "token_acc": 0.98813056, "grad_norm": 0.90843773, "learning_rate": 1.49e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232245, "epoch": 4.61010748, "global_step/max_steps": "60480/65595", "percentage": "92.20%", "elapsed_time": "3d 0h 20m 12s", "remaining_time": "6h 7m 3s"}
+{"loss": 0.02720957, "token_acc": 0.98860471, "grad_norm": 1.22576714, "learning_rate": 1.49e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23225, "epoch": 4.6104886, "global_step/max_steps": "60485/65595", "percentage": "92.21%", "elapsed_time": "3d 0h 20m 28s", "remaining_time": "6h 6m 41s"}
+{"loss": 0.01400508, "token_acc": 0.99558233, "grad_norm": 0.63289034, "learning_rate": 1.49e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232256, "epoch": 4.61086973, "global_step/max_steps": "60490/65595", "percentage": "92.22%", "elapsed_time": "3d 0h 20m 43s", "remaining_time": "6h 6m 19s"}
+{"loss": 0.02788619, "token_acc": 0.98678875, "grad_norm": 0.72895306, "learning_rate": 1.48e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232258, "epoch": 4.61125086, "global_step/max_steps": "60495/65595", "percentage": "92.23%", "elapsed_time": "3d 0h 21m 2s", "remaining_time": "6h 5m 58s"}
+{"loss": 0.0406642, "token_acc": 0.98680179, "grad_norm": 1.66211653, "learning_rate": 1.48e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232263, "epoch": 4.61163198, "global_step/max_steps": "60500/65595", "percentage": "92.23%", "elapsed_time": "3d 0h 21m 18s", "remaining_time": "6h 5m 36s"}
+{"loss": 0.02636278, "token_acc": 0.98966408, "grad_norm": 3.47557187, "learning_rate": 1.48e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232265, "epoch": 4.61201311, "global_step/max_steps": "60505/65595", "percentage": "92.24%", "elapsed_time": "3d 0h 21m 37s", "remaining_time": "6h 5m 14s"}
+{"loss": 0.04226142, "token_acc": 0.98396408, "grad_norm": 0.46171358, "learning_rate": 1.48e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232266, "epoch": 4.61239424, "global_step/max_steps": "60510/65595", "percentage": "92.25%", "elapsed_time": "3d 0h 21m 57s", "remaining_time": "6h 4m 52s"}
+{"loss": 0.0405919, "token_acc": 0.98589458, "grad_norm": 1.72025418, "learning_rate": 1.47e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232269, "epoch": 4.61277536, "global_step/max_steps": "60515/65595", "percentage": "92.26%", "elapsed_time": "3d 0h 22m 16s", "remaining_time": "6h 4m 31s"}
+{"loss": 0.03071293, "token_acc": 0.9887285, "grad_norm": 0.5399847, "learning_rate": 1.47e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232269, "epoch": 4.61315649, "global_step/max_steps": "60520/65595", "percentage": "92.26%", "elapsed_time": "3d 0h 22m 38s", "remaining_time": "6h 4m 9s"}
+{"loss": 0.02588285, "token_acc": 0.98894843, "grad_norm": 1.66128922, "learning_rate": 1.47e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232275, "epoch": 4.61353762, "global_step/max_steps": "60525/65595", "percentage": "92.27%", "elapsed_time": "3d 0h 22m 52s", "remaining_time": "6h 3m 47s"}
+{"loss": 0.04016628, "token_acc": 0.98828125, "grad_norm": 1.89402735, "learning_rate": 1.46e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232279, "epoch": 4.61391874, "global_step/max_steps": "60530/65595", "percentage": "92.28%", "elapsed_time": "3d 0h 23m 9s", "remaining_time": "6h 3m 25s"}
+{"loss": 0.03418774, "token_acc": 0.98852587, "grad_norm": 1.34578836, "learning_rate": 1.46e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232284, "epoch": 4.61429987, "global_step/max_steps": "60535/65595", "percentage": "92.29%", "elapsed_time": "3d 0h 23m 25s", "remaining_time": "6h 3m 3s"}
+{"loss": 0.02613743, "token_acc": 0.98907048, "grad_norm": 1.0306673, "learning_rate": 1.46e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232286, "epoch": 4.614681, "global_step/max_steps": "60540/65595", "percentage": "92.29%", "elapsed_time": "3d 0h 23m 44s", "remaining_time": "6h 2m 41s"}
+{"loss": 0.02020762, "token_acc": 0.99007979, "grad_norm": 0.59748799, "learning_rate": 1.46e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232291, "epoch": 4.61506212, "global_step/max_steps": "60545/65595", "percentage": "92.30%", "elapsed_time": "3d 0h 24m 0s", "remaining_time": "6h 2m 19s"}
+{"loss": 0.05483081, "token_acc": 0.97789337, "grad_norm": 1.16105485, "learning_rate": 1.45e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232294, "epoch": 4.61544325, "global_step/max_steps": "60550/65595", "percentage": "92.31%", "elapsed_time": "3d 0h 24m 18s", "remaining_time": "6h 1m 57s"}
+{"loss": 0.03199745, "token_acc": 0.98746587, "grad_norm": 0.9316417, "learning_rate": 1.45e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232296, "epoch": 4.61582438, "global_step/max_steps": "60555/65595", "percentage": "92.32%", "elapsed_time": "3d 0h 24m 38s", "remaining_time": "6h 1m 36s"}
+{"loss": 0.0306574, "token_acc": 0.98600813, "grad_norm": 0.87728798, "learning_rate": 1.45e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232297, "epoch": 4.6162055, "global_step/max_steps": "60560/65595", "percentage": "92.32%", "elapsed_time": "3d 0h 24m 58s", "remaining_time": "6h 1m 14s"}
+{"loss": 0.0284768, "token_acc": 0.98701299, "grad_norm": 1.05684221, "learning_rate": 1.44e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232301, "epoch": 4.61658663, "global_step/max_steps": "60565/65595", "percentage": "92.33%", "elapsed_time": "3d 0h 25m 15s", "remaining_time": "6h 0m 52s"}
+{"loss": 0.03285401, "token_acc": 0.98839099, "grad_norm": 0.74628228, "learning_rate": 1.44e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232305, "epoch": 4.61696776, "global_step/max_steps": "60570/65595", "percentage": "92.34%", "elapsed_time": "3d 0h 25m 32s", "remaining_time": "6h 0m 30s"}
+{"loss": 0.02071422, "token_acc": 0.99084596, "grad_norm": 0.26486948, "learning_rate": 1.44e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232311, "epoch": 4.61734888, "global_step/max_steps": "60575/65595", "percentage": "92.35%", "elapsed_time": "3d 0h 25m 47s", "remaining_time": "6h 0m 8s"}
+{"loss": 0.03996903, "token_acc": 0.98210373, "grad_norm": 1.33767533, "learning_rate": 1.44e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232315, "epoch": 4.61773001, "global_step/max_steps": "60580/65595", "percentage": "92.35%", "elapsed_time": "3d 0h 26m 4s", "remaining_time": "5h 59m 46s"}
+{"loss": 0.0280879, "token_acc": 0.98848921, "grad_norm": 1.66575313, "learning_rate": 1.43e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232319, "epoch": 4.61811114, "global_step/max_steps": "60585/65595", "percentage": "92.36%", "elapsed_time": "3d 0h 26m 21s", "remaining_time": "5h 59m 24s"}
+{"loss": 0.0315558, "token_acc": 0.98821102, "grad_norm": 2.36254191, "learning_rate": 1.43e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232321, "epoch": 4.61849226, "global_step/max_steps": "60590/65595", "percentage": "92.37%", "elapsed_time": "3d 0h 26m 40s", "remaining_time": "5h 59m 3s"}
+{"loss": 0.02320813, "token_acc": 0.98878654, "grad_norm": 0.40944019, "learning_rate": 1.43e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232328, "epoch": 4.61887339, "global_step/max_steps": "60595/65595", "percentage": "92.38%", "elapsed_time": "3d 0h 26m 54s", "remaining_time": "5h 58m 41s"}
+{"loss": 0.03086243, "token_acc": 0.98548339, "grad_norm": 1.15409815, "learning_rate": 1.42e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232329, "epoch": 4.61925452, "global_step/max_steps": "60600/65595", "percentage": "92.39%", "elapsed_time": "3d 0h 27m 14s", "remaining_time": "5h 58m 19s"}
+{"eval_loss": 0.04741703, "eval_token_acc": 0.98086712, "eval_runtime": 218.4448, "eval_samples_per_second": 2.426, "eval_steps_per_second": 2.426, "epoch": 4.61925452, "global_step/max_steps": "60600/65595", "percentage": "92.39%", "elapsed_time": "3d 0h 30m 53s", "remaining_time": "5h 58m 37s"}
+{"loss": 0.03382263, "token_acc": 0.98129434, "grad_norm": 0.6390304, "learning_rate": 1.42e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232139, "epoch": 4.61963564, "global_step/max_steps": "60605/65595", "percentage": "92.39%", "elapsed_time": "3d 0h 31m 9s", "remaining_time": "5h 58m 15s"}
+{"loss": 0.03828955, "token_acc": 0.98939819, "grad_norm": 0.97059494, "learning_rate": 1.42e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232143, "epoch": 4.62001677, "global_step/max_steps": "60610/65595", "percentage": "92.40%", "elapsed_time": "3d 0h 31m 27s", "remaining_time": "5h 57m 53s"}
+{"loss": 0.03169429, "token_acc": 0.98538075, "grad_norm": 2.01197219, "learning_rate": 1.42e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232148, "epoch": 4.6203979, "global_step/max_steps": "60615/65595", "percentage": "92.41%", "elapsed_time": "3d 0h 31m 42s", "remaining_time": "5h 57m 31s"}
+{"loss": 0.06127045, "token_acc": 0.97402005, "grad_norm": 1.41561973, "learning_rate": 1.41e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232154, "epoch": 4.62077902, "global_step/max_steps": "60620/65595", "percentage": "92.42%", "elapsed_time": "3d 0h 31m 57s", "remaining_time": "5h 57m 9s"}
+{"loss": 0.04739214, "token_acc": 0.98498382, "grad_norm": 1.85002589, "learning_rate": 1.41e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232154, "epoch": 4.62116015, "global_step/max_steps": "60625/65595", "percentage": "92.42%", "elapsed_time": "3d 0h 32m 18s", "remaining_time": "5h 56m 47s"}
+{"loss": 0.03260249, "token_acc": 0.98809524, "grad_norm": 1.01704013, "learning_rate": 1.41e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23216, "epoch": 4.62154128, "global_step/max_steps": "60630/65595", "percentage": "92.43%", "elapsed_time": "3d 0h 32m 34s", "remaining_time": "5h 56m 25s"}
+{"loss": 0.03542076, "token_acc": 0.98428184, "grad_norm": 1.5877409, "learning_rate": 1.4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232165, "epoch": 4.6219224, "global_step/max_steps": "60635/65595", "percentage": "92.44%", "elapsed_time": "3d 0h 32m 50s", "remaining_time": "5h 56m 3s"}
+{"loss": 0.03789733, "token_acc": 0.98758704, "grad_norm": 2.02370691, "learning_rate": 1.4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232169, "epoch": 4.62230353, "global_step/max_steps": "60640/65595", "percentage": "92.45%", "elapsed_time": "3d 0h 33m 7s", "remaining_time": "5h 55m 42s"}
+{"loss": 0.04644272, "token_acc": 0.9759887, "grad_norm": 2.67958355, "learning_rate": 1.4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232173, "epoch": 4.62268466, "global_step/max_steps": "60645/65595", "percentage": "92.45%", "elapsed_time": "3d 0h 33m 23s", "remaining_time": "5h 55m 20s"}
+{"loss": 0.03213365, "token_acc": 0.98687879, "grad_norm": 0.81928259, "learning_rate": 1.4e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232176, "epoch": 4.62306578, "global_step/max_steps": "60650/65595", "percentage": "92.46%", "elapsed_time": "3d 0h 33m 41s", "remaining_time": "5h 54m 58s"}
+{"loss": 0.02497448, "token_acc": 0.99108854, "grad_norm": 0.82297808, "learning_rate": 1.39e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232176, "epoch": 4.62344691, "global_step/max_steps": "60655/65595", "percentage": "92.47%", "elapsed_time": "3d 0h 34m 3s", "remaining_time": "5h 54m 36s"}
+{"loss": 0.02285028, "token_acc": 0.99152819, "grad_norm": 0.75130546, "learning_rate": 1.39e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232182, "epoch": 4.62382804, "global_step/max_steps": "60660/65595", "percentage": "92.48%", "elapsed_time": "3d 0h 34m 18s", "remaining_time": "5h 54m 14s"}
+{"loss": 0.03840476, "token_acc": 0.9881589, "grad_norm": 4.19672155, "learning_rate": 1.39e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232187, "epoch": 4.62420916, "global_step/max_steps": "60665/65595", "percentage": "92.48%", "elapsed_time": "3d 0h 34m 34s", "remaining_time": "5h 53m 52s"}
+{"loss": 0.02410112, "token_acc": 0.99045445, "grad_norm": 1.23806179, "learning_rate": 1.38e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232191, "epoch": 4.62459029, "global_step/max_steps": "60670/65595", "percentage": "92.49%", "elapsed_time": "3d 0h 34m 51s", "remaining_time": "5h 53m 30s"}
+{"loss": 0.04096147, "token_acc": 0.97889405, "grad_norm": 1.59477854, "learning_rate": 1.38e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232197, "epoch": 4.62497142, "global_step/max_steps": "60675/65595", "percentage": "92.50%", "elapsed_time": "3d 0h 35m 5s", "remaining_time": "5h 53m 8s"}
+{"loss": 0.02008314, "token_acc": 0.9925187, "grad_norm": 1.22461915, "learning_rate": 1.38e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232201, "epoch": 4.62535254, "global_step/max_steps": "60680/65595", "percentage": "92.51%", "elapsed_time": "3d 0h 35m 22s", "remaining_time": "5h 52m 46s"}
+{"loss": 0.02447317, "token_acc": 0.98973026, "grad_norm": 1.05097187, "learning_rate": 1.38e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232203, "epoch": 4.62573367, "global_step/max_steps": "60685/65595", "percentage": "92.51%", "elapsed_time": "3d 0h 35m 42s", "remaining_time": "5h 52m 25s"}
+{"loss": 0.03910635, "token_acc": 0.9804946, "grad_norm": 1.10277236, "learning_rate": 1.37e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232209, "epoch": 4.6261148, "global_step/max_steps": "60690/65595", "percentage": "92.52%", "elapsed_time": "3d 0h 35m 57s", "remaining_time": "5h 52m 3s"}
+{"loss": 0.01774743, "token_acc": 0.99205541, "grad_norm": 1.5473671, "learning_rate": 1.37e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232211, "epoch": 4.62649592, "global_step/max_steps": "60695/65595", "percentage": "92.53%", "elapsed_time": "3d 0h 36m 16s", "remaining_time": "5h 51m 41s"}
+{"loss": 0.02820539, "token_acc": 0.98997494, "grad_norm": 1.84847069, "learning_rate": 1.37e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232217, "epoch": 4.62687705, "global_step/max_steps": "60700/65595", "percentage": "92.54%", "elapsed_time": "3d 0h 36m 31s", "remaining_time": "5h 51m 19s"}
+{"loss": 0.02229377, "token_acc": 0.98995696, "grad_norm": 1.92658663, "learning_rate": 1.36e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232221, "epoch": 4.62725818, "global_step/max_steps": "60705/65595", "percentage": "92.55%", "elapsed_time": "3d 0h 36m 48s", "remaining_time": "5h 50m 57s"}
+{"loss": 0.03962633, "token_acc": 0.97853844, "grad_norm": 1.13456738, "learning_rate": 1.36e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232226, "epoch": 4.6276393, "global_step/max_steps": "60710/65595", "percentage": "92.55%", "elapsed_time": "3d 0h 37m 3s", "remaining_time": "5h 50m 35s"}
+{"loss": 0.0258799, "token_acc": 0.99065056, "grad_norm": 1.96665215, "learning_rate": 1.36e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232232, "epoch": 4.62802043, "global_step/max_steps": "60715/65595", "percentage": "92.56%", "elapsed_time": "3d 0h 37m 19s", "remaining_time": "5h 50m 13s"}
+{"loss": 0.04547637, "token_acc": 0.98865379, "grad_norm": 1.73320282, "learning_rate": 1.36e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232237, "epoch": 4.62840155, "global_step/max_steps": "60720/65595", "percentage": "92.57%", "elapsed_time": "3d 0h 37m 35s", "remaining_time": "5h 49m 51s"}
+{"loss": 0.02467719, "token_acc": 0.98950839, "grad_norm": 1.29277635, "learning_rate": 1.35e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232242, "epoch": 4.62878268, "global_step/max_steps": "60725/65595", "percentage": "92.58%", "elapsed_time": "3d 0h 37m 50s", "remaining_time": "5h 49m 29s"}
+{"loss": 0.05328918, "token_acc": 0.98251566, "grad_norm": 0.87193519, "learning_rate": 1.35e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232246, "epoch": 4.62916381, "global_step/max_steps": "60730/65595", "percentage": "92.58%", "elapsed_time": "3d 0h 38m 7s", "remaining_time": "5h 49m 7s"}
+{"loss": 0.02673322, "token_acc": 0.98446458, "grad_norm": 0.82213229, "learning_rate": 1.35e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232251, "epoch": 4.62954493, "global_step/max_steps": "60735/65595", "percentage": "92.59%", "elapsed_time": "3d 0h 38m 24s", "remaining_time": "5h 48m 45s"}
+{"loss": 0.0215962, "token_acc": 0.99000182, "grad_norm": 0.71596736, "learning_rate": 1.35e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232253, "epoch": 4.62992606, "global_step/max_steps": "60740/65595", "percentage": "92.60%", "elapsed_time": "3d 0h 38m 42s", "remaining_time": "5h 48m 23s"}
+{"loss": 0.01857145, "token_acc": 0.99014085, "grad_norm": 1.24135709, "learning_rate": 1.34e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232257, "epoch": 4.63030719, "global_step/max_steps": "60745/65595", "percentage": "92.61%", "elapsed_time": "3d 0h 38m 59s", "remaining_time": "5h 48m 1s"}
+{"loss": 0.020455, "token_acc": 0.99551971, "grad_norm": 1.08428705, "learning_rate": 1.34e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232263, "epoch": 4.63068831, "global_step/max_steps": "60750/65595", "percentage": "92.61%", "elapsed_time": "3d 0h 39m 14s", "remaining_time": "5h 47m 39s"}
+{"loss": 0.02223328, "token_acc": 0.98661568, "grad_norm": 0.54091209, "learning_rate": 1.34e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232266, "epoch": 4.63106944, "global_step/max_steps": "60755/65595", "percentage": "92.62%", "elapsed_time": "3d 0h 39m 32s", "remaining_time": "5h 47m 17s"}
+{"loss": 0.01713176, "token_acc": 0.99168501, "grad_norm": 0.74306762, "learning_rate": 1.33e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232271, "epoch": 4.63145057, "global_step/max_steps": "60760/65595", "percentage": "92.63%", "elapsed_time": "3d 0h 39m 49s", "remaining_time": "5h 46m 56s"}
+{"loss": 0.03269219, "token_acc": 0.98560411, "grad_norm": 1.3821677, "learning_rate": 1.33e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232275, "epoch": 4.63183169, "global_step/max_steps": "60765/65595", "percentage": "92.64%", "elapsed_time": "3d 0h 40m 5s", "remaining_time": "5h 46m 34s"}
+{"loss": 0.04462644, "token_acc": 0.98438263, "grad_norm": 1.74033058, "learning_rate": 1.33e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232281, "epoch": 4.63221282, "global_step/max_steps": "60770/65595", "percentage": "92.64%", "elapsed_time": "3d 0h 40m 20s", "remaining_time": "5h 46m 12s"}
+{"loss": 0.02309452, "token_acc": 0.99041752, "grad_norm": 2.04545927, "learning_rate": 1.33e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232285, "epoch": 4.63259395, "global_step/max_steps": "60775/65595", "percentage": "92.65%", "elapsed_time": "3d 0h 40m 36s", "remaining_time": "5h 45m 50s"}
+{"loss": 0.02649299, "token_acc": 0.99013158, "grad_norm": 1.41812825, "learning_rate": 1.32e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232288, "epoch": 4.63297507, "global_step/max_steps": "60780/65595", "percentage": "92.66%", "elapsed_time": "3d 0h 40m 55s", "remaining_time": "5h 45m 28s"}
+{"loss": 0.04507728, "token_acc": 0.98497409, "grad_norm": 1.29038692, "learning_rate": 1.32e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232293, "epoch": 4.6333562, "global_step/max_steps": "60785/65595", "percentage": "92.67%", "elapsed_time": "3d 0h 41m 11s", "remaining_time": "5h 45m 6s"}
+{"loss": 0.03285354, "token_acc": 0.98805621, "grad_norm": 2.35051203, "learning_rate": 1.32e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232297, "epoch": 4.63373733, "global_step/max_steps": "60790/65595", "percentage": "92.67%", "elapsed_time": "3d 0h 41m 28s", "remaining_time": "5h 44m 44s"}
+{"loss": 0.01621952, "token_acc": 0.99130855, "grad_norm": 0.57909489, "learning_rate": 1.32e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232303, "epoch": 4.63411845, "global_step/max_steps": "60795/65595", "percentage": "92.68%", "elapsed_time": "3d 0h 41m 43s", "remaining_time": "5h 44m 22s"}
+{"loss": 0.02293941, "token_acc": 0.98869657, "grad_norm": 1.67903376, "learning_rate": 1.31e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232306, "epoch": 4.63449958, "global_step/max_steps": "60800/65595", "percentage": "92.69%", "elapsed_time": "3d 0h 42m 0s", "remaining_time": "5h 44m 0s"}
+{"eval_loss": 0.04755192, "eval_token_acc": 0.98093488, "eval_runtime": 222.8452, "eval_samples_per_second": 2.378, "eval_steps_per_second": 2.378, "epoch": 4.63449958, "global_step/max_steps": "60800/65595", "percentage": "92.69%", "elapsed_time": "3d 0h 45m 43s", "remaining_time": "5h 44m 18s"}
+{"loss": 0.02660923, "token_acc": 0.98113667, "grad_norm": 0.6930747, "learning_rate": 1.31e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232114, "epoch": 4.63488071, "global_step/max_steps": "60805/65595", "percentage": "92.70%", "elapsed_time": "3d 0h 45m 59s", "remaining_time": "5h 43m 56s"}
+{"loss": 0.02571679, "token_acc": 0.99163653, "grad_norm": 0.91426545, "learning_rate": 1.31e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232119, "epoch": 4.63526183, "global_step/max_steps": "60810/65595", "percentage": "92.71%", "elapsed_time": "3d 0h 46m 15s", "remaining_time": "5h 43m 34s"}
+{"loss": 0.03184525, "token_acc": 0.9872913, "grad_norm": 0.70664406, "learning_rate": 1.3e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23212, "epoch": 4.63564296, "global_step/max_steps": "60815/65595", "percentage": "92.71%", "elapsed_time": "3d 0h 46m 35s", "remaining_time": "5h 43m 12s"}
+{"loss": 0.03515508, "token_acc": 0.9871507, "grad_norm": 0.79855359, "learning_rate": 1.3e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232121, "epoch": 4.63602409, "global_step/max_steps": "60820/65595", "percentage": "92.72%", "elapsed_time": "3d 0h 46m 55s", "remaining_time": "5h 42m 50s"}
+{"loss": 0.02949815, "token_acc": 0.99030365, "grad_norm": 1.17157888, "learning_rate": 1.3e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232126, "epoch": 4.63640521, "global_step/max_steps": "60825/65595", "percentage": "92.73%", "elapsed_time": "3d 0h 47m 12s", "remaining_time": "5h 42m 29s"}
+{"loss": 0.01609745, "token_acc": 0.9922573, "grad_norm": 0.80283767, "learning_rate": 1.3e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23213, "epoch": 4.63678634, "global_step/max_steps": "60830/65595", "percentage": "92.74%", "elapsed_time": "3d 0h 47m 29s", "remaining_time": "5h 42m 7s"}
+{"loss": 0.01777867, "token_acc": 0.99335208, "grad_norm": 1.72930956, "learning_rate": 1.29e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232131, "epoch": 4.63716747, "global_step/max_steps": "60835/65595", "percentage": "92.74%", "elapsed_time": "3d 0h 47m 49s", "remaining_time": "5h 41m 45s"}
+{"loss": 0.04016014, "token_acc": 0.97995749, "grad_norm": 0.31759837, "learning_rate": 1.29e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232137, "epoch": 4.63754859, "global_step/max_steps": "60840/65595", "percentage": "92.75%", "elapsed_time": "3d 0h 48m 4s", "remaining_time": "5h 41m 23s"}
+{"loss": 0.0553738, "token_acc": 0.98220124, "grad_norm": 1.54799139, "learning_rate": 1.29e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232143, "epoch": 4.63792972, "global_step/max_steps": "60845/65595", "percentage": "92.76%", "elapsed_time": "3d 0h 48m 18s", "remaining_time": "5h 41m 1s"}
+{"loss": 0.04579851, "token_acc": 0.98306001, "grad_norm": 1.16559601, "learning_rate": 1.29e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232147, "epoch": 4.63831085, "global_step/max_steps": "60850/65595", "percentage": "92.77%", "elapsed_time": "3d 0h 48m 36s", "remaining_time": "5h 40m 39s"}
+{"loss": 0.03539061, "token_acc": 0.98826777, "grad_norm": 1.26539075, "learning_rate": 1.28e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232151, "epoch": 4.63869197, "global_step/max_steps": "60855/65595", "percentage": "92.77%", "elapsed_time": "3d 0h 48m 52s", "remaining_time": "5h 40m 17s"}
+{"loss": 0.02589531, "token_acc": 0.99169064, "grad_norm": 0.89683819, "learning_rate": 1.28e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232154, "epoch": 4.6390731, "global_step/max_steps": "60860/65595", "percentage": "92.78%", "elapsed_time": "3d 0h 49m 11s", "remaining_time": "5h 39m 55s"}
+{"loss": 0.02579318, "token_acc": 0.9869998, "grad_norm": 1.79078329, "learning_rate": 1.28e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232158, "epoch": 4.63945423, "global_step/max_steps": "60865/65595", "percentage": "92.79%", "elapsed_time": "3d 0h 49m 28s", "remaining_time": "5h 39m 33s"}
+{"loss": 0.03707886, "token_acc": 0.98624362, "grad_norm": 1.64479005, "learning_rate": 1.27e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232163, "epoch": 4.63983535, "global_step/max_steps": "60870/65595", "percentage": "92.80%", "elapsed_time": "3d 0h 49m 44s", "remaining_time": "5h 39m 11s"}
+{"loss": 0.02903561, "token_acc": 0.98751578, "grad_norm": 1.0288949, "learning_rate": 1.27e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232165, "epoch": 4.64021648, "global_step/max_steps": "60875/65595", "percentage": "92.80%", "elapsed_time": "3d 0h 50m 3s", "remaining_time": "5h 38m 50s"}
+{"loss": 0.0353045, "token_acc": 0.98761835, "grad_norm": 1.04189909, "learning_rate": 1.27e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232169, "epoch": 4.64059761, "global_step/max_steps": "60880/65595", "percentage": "92.81%", "elapsed_time": "3d 0h 50m 20s", "remaining_time": "5h 38m 28s"}
+{"loss": 0.01583732, "token_acc": 0.99492202, "grad_norm": 0.74572146, "learning_rate": 1.27e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232175, "epoch": 4.64097873, "global_step/max_steps": "60885/65595", "percentage": "92.82%", "elapsed_time": "3d 0h 50m 35s", "remaining_time": "5h 38m 6s"}
+{"loss": 0.02022457, "token_acc": 0.99166516, "grad_norm": 1.51982248, "learning_rate": 1.26e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232179, "epoch": 4.64135986, "global_step/max_steps": "60890/65595", "percentage": "92.83%", "elapsed_time": "3d 0h 50m 51s", "remaining_time": "5h 37m 44s"}
+{"loss": 0.02447828, "token_acc": 0.99084859, "grad_norm": 1.38797092, "learning_rate": 1.26e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232186, "epoch": 4.64174099, "global_step/max_steps": "60895/65595", "percentage": "92.83%", "elapsed_time": "3d 0h 51m 6s", "remaining_time": "5h 37m 22s"}
+{"loss": 0.04593879, "token_acc": 0.98152794, "grad_norm": 2.13938808, "learning_rate": 1.26e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232189, "epoch": 4.64212211, "global_step/max_steps": "60900/65595", "percentage": "92.84%", "elapsed_time": "3d 0h 51m 24s", "remaining_time": "5h 37m 0s"}
+{"loss": 0.02198896, "token_acc": 0.98970205, "grad_norm": 0.65829331, "learning_rate": 1.26e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232191, "epoch": 4.64250324, "global_step/max_steps": "60905/65595", "percentage": "92.85%", "elapsed_time": "3d 0h 51m 43s", "remaining_time": "5h 36m 38s"}
+{"loss": 0.03884891, "token_acc": 0.98489426, "grad_norm": 0.96256179, "learning_rate": 1.25e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232192, "epoch": 4.64288437, "global_step/max_steps": "60910/65595", "percentage": "92.86%", "elapsed_time": "3d 0h 52m 3s", "remaining_time": "5h 36m 17s"}
+{"loss": 0.02027291, "token_acc": 0.99320463, "grad_norm": 0.85986376, "learning_rate": 1.25e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232194, "epoch": 4.64326549, "global_step/max_steps": "60915/65595", "percentage": "92.87%", "elapsed_time": "3d 0h 52m 22s", "remaining_time": "5h 35m 55s"}
+{"loss": 0.01964682, "token_acc": 0.99285714, "grad_norm": 0.70108557, "learning_rate": 1.25e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2322, "epoch": 4.64364662, "global_step/max_steps": "60920/65595", "percentage": "92.87%", "elapsed_time": "3d 0h 52m 37s", "remaining_time": "5h 35m 33s"}
+{"loss": 0.02939088, "token_acc": 0.99029126, "grad_norm": 1.7703141, "learning_rate": 1.25e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232207, "epoch": 4.64402775, "global_step/max_steps": "60925/65595", "percentage": "92.88%", "elapsed_time": "3d 0h 52m 51s", "remaining_time": "5h 35m 11s"}
+{"loss": 0.03095629, "token_acc": 0.98548487, "grad_norm": 1.97865152, "learning_rate": 1.24e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232212, "epoch": 4.64440887, "global_step/max_steps": "60930/65595", "percentage": "92.89%", "elapsed_time": "3d 0h 53m 6s", "remaining_time": "5h 34m 49s"}
+{"loss": 0.02429785, "token_acc": 0.98792813, "grad_norm": 4.31284809, "learning_rate": 1.24e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232218, "epoch": 4.64479, "global_step/max_steps": "60935/65595", "percentage": "92.90%", "elapsed_time": "3d 0h 53m 21s", "remaining_time": "5h 34m 27s"}
+{"loss": 0.03646836, "token_acc": 0.98668738, "grad_norm": 2.0148232, "learning_rate": 1.24e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232223, "epoch": 4.64517113, "global_step/max_steps": "60940/65595", "percentage": "92.90%", "elapsed_time": "3d 0h 53m 38s", "remaining_time": "5h 34m 5s"}
+{"loss": 0.03379871, "token_acc": 0.98632512, "grad_norm": 0.74533451, "learning_rate": 1.23e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232221, "epoch": 4.64555225, "global_step/max_steps": "60945/65595", "percentage": "92.91%", "elapsed_time": "3d 0h 54m 1s", "remaining_time": "5h 33m 43s"}
+{"loss": 0.05026022, "token_acc": 0.98048019, "grad_norm": 2.07341313, "learning_rate": 1.23e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232224, "epoch": 4.64593338, "global_step/max_steps": "60950/65595", "percentage": "92.92%", "elapsed_time": "3d 0h 54m 19s", "remaining_time": "5h 33m 22s"}
+{"loss": 0.02279872, "token_acc": 0.9896679, "grad_norm": 1.37603843, "learning_rate": 1.23e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23223, "epoch": 4.64631451, "global_step/max_steps": "60955/65595", "percentage": "92.93%", "elapsed_time": "3d 0h 54m 34s", "remaining_time": "5h 33m 0s"}
+{"loss": 0.04089239, "token_acc": 0.9894757, "grad_norm": 2.88863349, "learning_rate": 1.23e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232234, "epoch": 4.64669563, "global_step/max_steps": "60960/65595", "percentage": "92.93%", "elapsed_time": "3d 0h 54m 51s", "remaining_time": "5h 32m 38s"}
+{"loss": 0.01341483, "token_acc": 0.99515419, "grad_norm": 1.01704156, "learning_rate": 1.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23224, "epoch": 4.64707676, "global_step/max_steps": "60965/65595", "percentage": "92.94%", "elapsed_time": "3d 0h 55m 6s", "remaining_time": "5h 32m 16s"}
+{"loss": 0.02452039, "token_acc": 0.98924318, "grad_norm": 0.56106251, "learning_rate": 1.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232246, "epoch": 4.64745789, "global_step/max_steps": "60970/65595", "percentage": "92.95%", "elapsed_time": "3d 0h 55m 21s", "remaining_time": "5h 31m 54s"}
+{"loss": 0.03728448, "token_acc": 0.98028238, "grad_norm": 1.93989432, "learning_rate": 1.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232251, "epoch": 4.64783901, "global_step/max_steps": "60975/65595", "percentage": "92.96%", "elapsed_time": "3d 0h 55m 36s", "remaining_time": "5h 31m 32s"}
+{"loss": 0.03300497, "token_acc": 0.98628978, "grad_norm": 1.34701908, "learning_rate": 1.22e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232254, "epoch": 4.64822014, "global_step/max_steps": "60980/65595", "percentage": "92.96%", "elapsed_time": "3d 0h 55m 54s", "remaining_time": "5h 31m 10s"}
+{"loss": 0.02264382, "token_acc": 0.99263247, "grad_norm": 0.9502182, "learning_rate": 1.21e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232259, "epoch": 4.64860127, "global_step/max_steps": "60985/65595", "percentage": "92.97%", "elapsed_time": "3d 0h 56m 10s", "remaining_time": "5h 30m 48s"}
+{"loss": 0.04179537, "token_acc": 0.98649833, "grad_norm": 1.39282739, "learning_rate": 1.21e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232263, "epoch": 4.64898239, "global_step/max_steps": "60990/65595", "percentage": "92.98%", "elapsed_time": "3d 0h 56m 27s", "remaining_time": "5h 30m 26s"}
+{"loss": 0.02792971, "token_acc": 0.9833887, "grad_norm": 1.5768187, "learning_rate": 1.21e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232268, "epoch": 4.64936352, "global_step/max_steps": "60995/65595", "percentage": "92.99%", "elapsed_time": "3d 0h 56m 43s", "remaining_time": "5h 30m 4s"}
+{"loss": 0.02724821, "token_acc": 0.98965193, "grad_norm": 1.17596853, "learning_rate": 1.21e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232273, "epoch": 4.64974465, "global_step/max_steps": "61000/65595", "percentage": "92.99%", "elapsed_time": "3d 0h 56m 59s", "remaining_time": "5h 29m 42s"}
+{"eval_loss": 0.04737625, "eval_token_acc": 0.98088971, "eval_runtime": 221.0618, "eval_samples_per_second": 2.398, "eval_steps_per_second": 2.398, "epoch": 4.64974465, "global_step/max_steps": "61000/65595", "percentage": "92.99%", "elapsed_time": "3d 1h 0m 41s", "remaining_time": "5h 29m 59s"}
+{"loss": 0.01381382, "token_acc": 0.98111827, "grad_norm": 0.17850451, "learning_rate": 1.2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232083, "epoch": 4.65012577, "global_step/max_steps": "61005/65595", "percentage": "93.00%", "elapsed_time": "3d 1h 0m 55s", "remaining_time": "5h 29m 37s"}
+{"loss": 0.02960699, "token_acc": 0.98517187, "grad_norm": 2.20875502, "learning_rate": 1.2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232088, "epoch": 4.6505069, "global_step/max_steps": "61010/65595", "percentage": "93.01%", "elapsed_time": "3d 1h 1m 12s", "remaining_time": "5h 29m 15s"}
+{"loss": 0.02231596, "token_acc": 0.99280177, "grad_norm": 0.50647372, "learning_rate": 1.2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232095, "epoch": 4.65088803, "global_step/max_steps": "61015/65595", "percentage": "93.02%", "elapsed_time": "3d 1h 1m 25s", "remaining_time": "5h 28m 53s"}
+{"loss": 0.03992014, "token_acc": 0.98314503, "grad_norm": 1.65229106, "learning_rate": 1.2e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232098, "epoch": 4.65126915, "global_step/max_steps": "61020/65595", "percentage": "93.03%", "elapsed_time": "3d 1h 1m 43s", "remaining_time": "5h 28m 31s"}
+{"loss": 0.02204791, "token_acc": 0.99135345, "grad_norm": 1.14532757, "learning_rate": 1.19e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232101, "epoch": 4.65165028, "global_step/max_steps": "61025/65595", "percentage": "93.03%", "elapsed_time": "3d 1h 2m 1s", "remaining_time": "5h 28m 9s"}
+{"loss": 0.03789315, "token_acc": 0.98759019, "grad_norm": 1.07194257, "learning_rate": 1.19e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232107, "epoch": 4.6520314, "global_step/max_steps": "61030/65595", "percentage": "93.04%", "elapsed_time": "3d 1h 2m 16s", "remaining_time": "5h 27m 47s"}
+{"loss": 0.02126286, "token_acc": 0.99116054, "grad_norm": 1.37312591, "learning_rate": 1.19e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232112, "epoch": 4.65241253, "global_step/max_steps": "61035/65595", "percentage": "93.05%", "elapsed_time": "3d 1h 2m 32s", "remaining_time": "5h 27m 25s"}
+{"loss": 0.03698338, "token_acc": 0.98623304, "grad_norm": 0.65404177, "learning_rate": 1.19e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232116, "epoch": 4.65279366, "global_step/max_steps": "61040/65595", "percentage": "93.06%", "elapsed_time": "3d 1h 2m 49s", "remaining_time": "5h 27m 3s"}
+{"loss": 0.04454313, "token_acc": 0.98207018, "grad_norm": 0.91153818, "learning_rate": 1.18e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232116, "epoch": 4.65317478, "global_step/max_steps": "61045/65595", "percentage": "93.06%", "elapsed_time": "3d 1h 3m 11s", "remaining_time": "5h 26m 42s"}
+{"loss": 0.02541456, "token_acc": 0.98721622, "grad_norm": 0.412148, "learning_rate": 1.18e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232121, "epoch": 4.65355591, "global_step/max_steps": "61050/65595", "percentage": "93.07%", "elapsed_time": "3d 1h 3m 27s", "remaining_time": "5h 26m 20s"}
+{"loss": 0.01942001, "token_acc": 0.99231656, "grad_norm": 0.22972764, "learning_rate": 1.18e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232123, "epoch": 4.65393704, "global_step/max_steps": "61055/65595", "percentage": "93.08%", "elapsed_time": "3d 1h 3m 46s", "remaining_time": "5h 25m 58s"}
+{"loss": 0.0288428, "token_acc": 0.98750732, "grad_norm": 1.12894773, "learning_rate": 1.17e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232126, "epoch": 4.65431816, "global_step/max_steps": "61060/65595", "percentage": "93.09%", "elapsed_time": "3d 1h 4m 4s", "remaining_time": "5h 25m 36s"}
+{"loss": 0.02264594, "token_acc": 0.98937279, "grad_norm": 0.83309048, "learning_rate": 1.17e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232129, "epoch": 4.65469929, "global_step/max_steps": "61065/65595", "percentage": "93.09%", "elapsed_time": "3d 1h 4m 23s", "remaining_time": "5h 25m 14s"}
+{"loss": 0.02747665, "token_acc": 0.99138606, "grad_norm": 0.60462368, "learning_rate": 1.17e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232132, "epoch": 4.65508042, "global_step/max_steps": "61070/65595", "percentage": "93.10%", "elapsed_time": "3d 1h 4m 40s", "remaining_time": "5h 24m 53s"}
+{"loss": 0.03714557, "token_acc": 0.98722605, "grad_norm": 1.03190529, "learning_rate": 1.17e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232133, "epoch": 4.65546154, "global_step/max_steps": "61075/65595", "percentage": "93.11%", "elapsed_time": "3d 1h 5m 1s", "remaining_time": "5h 24m 31s"}
+{"loss": 0.03279048, "token_acc": 0.98803763, "grad_norm": 1.10240924, "learning_rate": 1.16e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232133, "epoch": 4.65584267, "global_step/max_steps": "61080/65595", "percentage": "93.12%", "elapsed_time": "3d 1h 5m 22s", "remaining_time": "5h 24m 9s"}
+{"loss": 0.02527885, "token_acc": 0.98908189, "grad_norm": 0.62665647, "learning_rate": 1.16e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232138, "epoch": 4.6562238, "global_step/max_steps": "61085/65595", "percentage": "93.12%", "elapsed_time": "3d 1h 5m 38s", "remaining_time": "5h 23m 47s"}
+{"loss": 0.01874104, "token_acc": 0.99112216, "grad_norm": 1.95434034, "learning_rate": 1.16e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232141, "epoch": 4.65660492, "global_step/max_steps": "61090/65595", "percentage": "93.13%", "elapsed_time": "3d 1h 5m 57s", "remaining_time": "5h 23m 26s"}
+{"loss": 0.04945862, "token_acc": 0.986127, "grad_norm": 0.94952732, "learning_rate": 1.16e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232142, "epoch": 4.65698605, "global_step/max_steps": "61095/65595", "percentage": "93.14%", "elapsed_time": "3d 1h 6m 16s", "remaining_time": "5h 23m 4s"}
+{"loss": 0.02130085, "token_acc": 0.99060179, "grad_norm": 1.01587665, "learning_rate": 1.15e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232146, "epoch": 4.65736718, "global_step/max_steps": "61100/65595", "percentage": "93.15%", "elapsed_time": "3d 1h 6m 34s", "remaining_time": "5h 22m 42s"}
+{"loss": 0.0409909, "token_acc": 0.981991, "grad_norm": 1.1285429, "learning_rate": 1.15e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23215, "epoch": 4.6577483, "global_step/max_steps": "61105/65595", "percentage": "93.15%", "elapsed_time": "3d 1h 6m 50s", "remaining_time": "5h 22m 20s"}
+{"loss": 0.04017637, "token_acc": 0.98307194, "grad_norm": 1.88499057, "learning_rate": 1.15e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232155, "epoch": 4.65812943, "global_step/max_steps": "61110/65595", "percentage": "93.16%", "elapsed_time": "3d 1h 7m 6s", "remaining_time": "5h 21m 58s"}
+{"loss": 0.01749351, "token_acc": 0.99611462, "grad_norm": 1.13300133, "learning_rate": 1.15e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232161, "epoch": 4.65851056, "global_step/max_steps": "61115/65595", "percentage": "93.17%", "elapsed_time": "3d 1h 7m 21s", "remaining_time": "5h 21m 36s"}
+{"loss": 0.04211142, "token_acc": 0.98286787, "grad_norm": 0.95208156, "learning_rate": 1.14e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232165, "epoch": 4.65889168, "global_step/max_steps": "61120/65595", "percentage": "93.18%", "elapsed_time": "3d 1h 7m 38s", "remaining_time": "5h 21m 14s"}
+{"loss": 0.01746745, "token_acc": 0.99223301, "grad_norm": 1.54123259, "learning_rate": 1.14e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232172, "epoch": 4.65927281, "global_step/max_steps": "61125/65595", "percentage": "93.19%", "elapsed_time": "3d 1h 7m 52s", "remaining_time": "5h 20m 52s"}
+{"loss": 0.02607642, "token_acc": 0.98673505, "grad_norm": 0.62030488, "learning_rate": 1.14e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232174, "epoch": 4.65965394, "global_step/max_steps": "61130/65595", "percentage": "93.19%", "elapsed_time": "3d 1h 8m 11s", "remaining_time": "5h 20m 31s"}
+{"loss": 0.02890809, "token_acc": 0.99191375, "grad_norm": 1.8143307, "learning_rate": 1.14e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23218, "epoch": 4.66003506, "global_step/max_steps": "61135/65595", "percentage": "93.20%", "elapsed_time": "3d 1h 8m 25s", "remaining_time": "5h 20m 9s"}
+{"loss": 0.03409014, "token_acc": 0.98836081, "grad_norm": 2.37089276, "learning_rate": 1.13e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232184, "epoch": 4.66041619, "global_step/max_steps": "61140/65595", "percentage": "93.21%", "elapsed_time": "3d 1h 8m 43s", "remaining_time": "5h 19m 47s"}
+{"loss": 0.01564977, "token_acc": 0.99276139, "grad_norm": 0.570315, "learning_rate": 1.13e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232188, "epoch": 4.66079732, "global_step/max_steps": "61145/65595", "percentage": "93.22%", "elapsed_time": "3d 1h 9m 0s", "remaining_time": "5h 19m 25s"}
+{"loss": 0.03463202, "token_acc": 0.9847012, "grad_norm": 0.740776, "learning_rate": 1.13e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23219, "epoch": 4.66117844, "global_step/max_steps": "61150/65595", "percentage": "93.22%", "elapsed_time": "3d 1h 9m 19s", "remaining_time": "5h 19m 3s"}
+{"loss": 0.02987428, "token_acc": 0.98532441, "grad_norm": 0.9579795, "learning_rate": 1.13e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232194, "epoch": 4.66155957, "global_step/max_steps": "61155/65595", "percentage": "93.23%", "elapsed_time": "3d 1h 9m 36s", "remaining_time": "5h 18m 41s"}
+{"loss": 0.05609453, "token_acc": 0.98343522, "grad_norm": 3.41818857, "learning_rate": 1.12e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232198, "epoch": 4.6619407, "global_step/max_steps": "61160/65595", "percentage": "93.24%", "elapsed_time": "3d 1h 9m 53s", "remaining_time": "5h 18m 19s"}
+{"loss": 0.01676937, "token_acc": 0.99409388, "grad_norm": 1.46790266, "learning_rate": 1.12e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232203, "epoch": 4.66232182, "global_step/max_steps": "61165/65595", "percentage": "93.25%", "elapsed_time": "3d 1h 10m 9s", "remaining_time": "5h 17m 57s"}
+{"loss": 0.03027599, "token_acc": 0.98907502, "grad_norm": 2.04388094, "learning_rate": 1.12e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232207, "epoch": 4.66270295, "global_step/max_steps": "61170/65595", "percentage": "93.25%", "elapsed_time": "3d 1h 10m 26s", "remaining_time": "5h 17m 36s"}
+{"loss": 0.02424231, "token_acc": 0.9880015, "grad_norm": 1.8113023, "learning_rate": 1.12e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232214, "epoch": 4.66308408, "global_step/max_steps": "61175/65595", "percentage": "93.26%", "elapsed_time": "3d 1h 10m 40s", "remaining_time": "5h 17m 14s"}
+{"loss": 0.0436379, "token_acc": 0.98355049, "grad_norm": 1.5368346, "learning_rate": 1.11e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232216, "epoch": 4.6634652, "global_step/max_steps": "61180/65595", "percentage": "93.27%", "elapsed_time": "3d 1h 10m 58s", "remaining_time": "5h 16m 52s"}
+{"loss": 0.02655358, "token_acc": 0.98870968, "grad_norm": 1.00307441, "learning_rate": 1.11e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232221, "epoch": 4.66384633, "global_step/max_steps": "61185/65595", "percentage": "93.28%", "elapsed_time": "3d 1h 11m 15s", "remaining_time": "5h 16m 30s"}
+{"loss": 0.0151522, "token_acc": 0.99464704, "grad_norm": 0.98075283, "learning_rate": 1.11e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232226, "epoch": 4.66422746, "global_step/max_steps": "61190/65595", "percentage": "93.28%", "elapsed_time": "3d 1h 11m 30s", "remaining_time": "5h 16m 8s"}
+{"loss": 0.0279158, "token_acc": 0.98886292, "grad_norm": 0.70722461, "learning_rate": 1.11e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232228, "epoch": 4.66460858, "global_step/max_steps": "61195/65595", "percentage": "93.29%", "elapsed_time": "3d 1h 11m 50s", "remaining_time": "5h 15m 46s"}
+{"loss": 0.02189537, "token_acc": 0.99095287, "grad_norm": 0.68905538, "learning_rate": 1.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232231, "epoch": 4.66498971, "global_step/max_steps": "61200/65595", "percentage": "93.30%", "elapsed_time": "3d 1h 12m 8s", "remaining_time": "5h 15m 24s"}
+{"eval_loss": 0.0473851, "eval_token_acc": 0.98090476, "eval_runtime": 221.98, "eval_samples_per_second": 2.388, "eval_steps_per_second": 2.388, "epoch": 4.66498971, "global_step/max_steps": "61200/65595", "percentage": "93.30%", "elapsed_time": "3d 1h 15m 50s", "remaining_time": "5h 15m 40s"}
+{"loss": 0.02638588, "token_acc": 0.98124274, "grad_norm": 1.09013677, "learning_rate": 1.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232038, "epoch": 4.66537084, "global_step/max_steps": "61205/65595", "percentage": "93.31%", "elapsed_time": "3d 1h 16m 9s", "remaining_time": "5h 15m 19s"}
+{"loss": 0.03670257, "token_acc": 0.98618958, "grad_norm": 1.1585325, "learning_rate": 1.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232043, "epoch": 4.66575196, "global_step/max_steps": "61210/65595", "percentage": "93.32%", "elapsed_time": "3d 1h 16m 25s", "remaining_time": "5h 14m 57s"}
+{"loss": 0.0219652, "token_acc": 0.99387352, "grad_norm": 0.68992257, "learning_rate": 1.1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232047, "epoch": 4.66613309, "global_step/max_steps": "61215/65595", "percentage": "93.32%", "elapsed_time": "3d 1h 16m 42s", "remaining_time": "5h 14m 35s"}
+{"loss": 0.01721942, "token_acc": 0.99341486, "grad_norm": 0.73925954, "learning_rate": 1.09e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23205, "epoch": 4.66651422, "global_step/max_steps": "61220/65595", "percentage": "93.33%", "elapsed_time": "3d 1h 17m 0s", "remaining_time": "5h 14m 13s"}
+{"loss": 0.02986265, "token_acc": 0.99007883, "grad_norm": 0.52527535, "learning_rate": 1.09e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232051, "epoch": 4.66689534, "global_step/max_steps": "61225/65595", "percentage": "93.34%", "elapsed_time": "3d 1h 17m 20s", "remaining_time": "5h 13m 51s"}
+{"loss": 0.02238975, "token_acc": 0.98957791, "grad_norm": 0.89663231, "learning_rate": 1.09e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232054, "epoch": 4.66727647, "global_step/max_steps": "61230/65595", "percentage": "93.35%", "elapsed_time": "3d 1h 17m 39s", "remaining_time": "5h 13m 30s"}
+{"loss": 0.03807793, "token_acc": 0.98477306, "grad_norm": 1.64286399, "learning_rate": 1.09e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232058, "epoch": 4.6676576, "global_step/max_steps": "61235/65595", "percentage": "93.35%", "elapsed_time": "3d 1h 17m 55s", "remaining_time": "5h 13m 8s"}
+{"loss": 0.03622758, "token_acc": 0.9807288, "grad_norm": 0.19019271, "learning_rate": 1.08e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232064, "epoch": 4.66803872, "global_step/max_steps": "61240/65595", "percentage": "93.36%", "elapsed_time": "3d 1h 18m 10s", "remaining_time": "5h 12m 46s"}
+{"loss": 0.03262119, "token_acc": 0.99059116, "grad_norm": 0.53257167, "learning_rate": 1.08e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232067, "epoch": 4.66841985, "global_step/max_steps": "61245/65595", "percentage": "93.37%", "elapsed_time": "3d 1h 18m 28s", "remaining_time": "5h 12m 24s"}
+{"loss": 0.02463591, "token_acc": 0.99078341, "grad_norm": 0.94727582, "learning_rate": 1.08e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23207, "epoch": 4.66880098, "global_step/max_steps": "61250/65595", "percentage": "93.38%", "elapsed_time": "3d 1h 18m 46s", "remaining_time": "5h 12m 2s"}
+{"loss": 0.02425718, "token_acc": 0.98877227, "grad_norm": 0.83440202, "learning_rate": 1.08e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232076, "epoch": 4.6691821, "global_step/max_steps": "61255/65595", "percentage": "93.38%", "elapsed_time": "3d 1h 19m 1s", "remaining_time": "5h 11m 40s"}
+{"loss": 0.02577685, "token_acc": 0.99018003, "grad_norm": 2.42405319, "learning_rate": 1.07e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232082, "epoch": 4.66956323, "global_step/max_steps": "61260/65595", "percentage": "93.39%", "elapsed_time": "3d 1h 19m 16s", "remaining_time": "5h 11m 18s"}
+{"loss": 0.03682132, "token_acc": 0.98866015, "grad_norm": 2.41740847, "learning_rate": 1.07e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232085, "epoch": 4.66994436, "global_step/max_steps": "61265/65595", "percentage": "93.40%", "elapsed_time": "3d 1h 19m 34s", "remaining_time": "5h 10m 56s"}
+{"loss": 0.02891078, "token_acc": 0.98636444, "grad_norm": 0.92866272, "learning_rate": 1.07e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232088, "epoch": 4.67032548, "global_step/max_steps": "61270/65595", "percentage": "93.41%", "elapsed_time": "3d 1h 19m 52s", "remaining_time": "5h 10m 35s"}
+{"loss": 0.02586784, "token_acc": 0.98753935, "grad_norm": 1.3224529, "learning_rate": 1.07e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232089, "epoch": 4.67070661, "global_step/max_steps": "61275/65595", "percentage": "93.41%", "elapsed_time": "3d 1h 20m 13s", "remaining_time": "5h 10m 13s"}
+{"loss": 0.0268463, "token_acc": 0.9905482, "grad_norm": 1.2540983, "learning_rate": 1.06e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232093, "epoch": 4.67108774, "global_step/max_steps": "61280/65595", "percentage": "93.42%", "elapsed_time": "3d 1h 20m 30s", "remaining_time": "5h 9m 51s"}
+{"loss": 0.02661086, "token_acc": 0.99265751, "grad_norm": 1.53559804, "learning_rate": 1.06e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232097, "epoch": 4.67146886, "global_step/max_steps": "61285/65595", "percentage": "93.43%", "elapsed_time": "3d 1h 20m 46s", "remaining_time": "5h 9m 29s"}
+{"loss": 0.03639009, "token_acc": 0.98730703, "grad_norm": 0.95959944, "learning_rate": 1.06e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232103, "epoch": 4.67184999, "global_step/max_steps": "61290/65595", "percentage": "93.44%", "elapsed_time": "3d 1h 21m 1s", "remaining_time": "5h 9m 7s"}
+{"loss": 0.02731316, "token_acc": 0.98774538, "grad_norm": 0.81457615, "learning_rate": 1.06e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232104, "epoch": 4.67223112, "global_step/max_steps": "61295/65595", "percentage": "93.44%", "elapsed_time": "3d 1h 21m 22s", "remaining_time": "5h 8m 46s"}
+{"loss": 0.03316416, "token_acc": 0.98712312, "grad_norm": 0.84852016, "learning_rate": 1.05e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232109, "epoch": 4.67261224, "global_step/max_steps": "61300/65595", "percentage": "93.45%", "elapsed_time": "3d 1h 21m 37s", "remaining_time": "5h 8m 24s"}
+{"loss": 0.0384928, "token_acc": 0.98465295, "grad_norm": 1.34387279, "learning_rate": 1.05e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232112, "epoch": 4.67299337, "global_step/max_steps": "61305/65595", "percentage": "93.46%", "elapsed_time": "3d 1h 21m 56s", "remaining_time": "5h 8m 2s"}
+{"loss": 0.02775142, "token_acc": 0.98527666, "grad_norm": 1.07037413, "learning_rate": 1.05e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232117, "epoch": 4.6733745, "global_step/max_steps": "61310/65595", "percentage": "93.47%", "elapsed_time": "3d 1h 22m 11s", "remaining_time": "5h 7m 40s"}
+{"loss": 0.02177598, "token_acc": 0.99037325, "grad_norm": 1.10009038, "learning_rate": 1.05e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23212, "epoch": 4.67375562, "global_step/max_steps": "61315/65595", "percentage": "93.48%", "elapsed_time": "3d 1h 22m 30s", "remaining_time": "5h 7m 18s"}
+{"loss": 0.03665758, "token_acc": 0.99084967, "grad_norm": 0.2971774, "learning_rate": 1.04e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232125, "epoch": 4.67413675, "global_step/max_steps": "61320/65595", "percentage": "93.48%", "elapsed_time": "3d 1h 22m 45s", "remaining_time": "5h 6m 56s"}
+{"loss": 0.03333698, "token_acc": 0.98348577, "grad_norm": 0.17276864, "learning_rate": 1.04e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232131, "epoch": 4.67451787, "global_step/max_steps": "61325/65595", "percentage": "93.49%", "elapsed_time": "3d 1h 23m 0s", "remaining_time": "5h 6m 34s"}
+{"loss": 0.05338285, "token_acc": 0.97639981, "grad_norm": 1.5690614, "learning_rate": 1.04e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232136, "epoch": 4.674899, "global_step/max_steps": "61330/65595", "percentage": "93.50%", "elapsed_time": "3d 1h 23m 16s", "remaining_time": "5h 6m 12s"}
+{"loss": 0.04203073, "token_acc": 0.98932131, "grad_norm": 0.83496398, "learning_rate": 1.04e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232141, "epoch": 4.67528013, "global_step/max_steps": "61335/65595", "percentage": "93.51%", "elapsed_time": "3d 1h 23m 32s", "remaining_time": "5h 5m 50s"}
+{"loss": 0.03405932, "token_acc": 0.98765432, "grad_norm": 0.58677274, "learning_rate": 1.03e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232144, "epoch": 4.67566125, "global_step/max_steps": "61340/65595", "percentage": "93.51%", "elapsed_time": "3d 1h 23m 49s", "remaining_time": "5h 5m 28s"}
+{"loss": 0.02312143, "token_acc": 0.99163028, "grad_norm": 0.72536212, "learning_rate": 1.03e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232149, "epoch": 4.67604238, "global_step/max_steps": "61345/65595", "percentage": "93.52%", "elapsed_time": "3d 1h 24m 6s", "remaining_time": "5h 5m 7s"}
+{"loss": 0.03506519, "token_acc": 0.98843485, "grad_norm": 2.23060679, "learning_rate": 1.03e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232153, "epoch": 4.67642351, "global_step/max_steps": "61350/65595", "percentage": "93.53%", "elapsed_time": "3d 1h 24m 23s", "remaining_time": "5h 4m 45s"}
+{"loss": 0.02353169, "token_acc": 0.98901454, "grad_norm": 1.20002842, "learning_rate": 1.03e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232157, "epoch": 4.67680463, "global_step/max_steps": "61355/65595", "percentage": "93.54%", "elapsed_time": "3d 1h 24m 40s", "remaining_time": "5h 4m 23s"}
+{"loss": 0.03846723, "token_acc": 0.98511568, "grad_norm": 1.94389904, "learning_rate": 1.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232161, "epoch": 4.67718576, "global_step/max_steps": "61360/65595", "percentage": "93.54%", "elapsed_time": "3d 1h 24m 57s", "remaining_time": "5h 4m 1s"}
+{"loss": 0.02936606, "token_acc": 0.9906449, "grad_norm": 0.52163595, "learning_rate": 1.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232164, "epoch": 4.67756689, "global_step/max_steps": "61365/65595", "percentage": "93.55%", "elapsed_time": "3d 1h 25m 15s", "remaining_time": "5h 3m 39s"}
+{"loss": 0.02630409, "token_acc": 0.98927944, "grad_norm": 0.64160538, "learning_rate": 1.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232167, "epoch": 4.67794801, "global_step/max_steps": "61370/65595", "percentage": "93.56%", "elapsed_time": "3d 1h 25m 33s", "remaining_time": "5h 3m 17s"}
+{"loss": 0.02009653, "token_acc": 0.99179451, "grad_norm": 0.74185556, "learning_rate": 1.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232171, "epoch": 4.67832914, "global_step/max_steps": "61375/65595", "percentage": "93.57%", "elapsed_time": "3d 1h 25m 50s", "remaining_time": "5h 2m 56s"}
+{"loss": 0.02887269, "token_acc": 0.98978693, "grad_norm": 1.98752153, "learning_rate": 1.02e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232174, "epoch": 4.67871027, "global_step/max_steps": "61380/65595", "percentage": "93.57%", "elapsed_time": "3d 1h 26m 8s", "remaining_time": "5h 2m 34s"}
+{"loss": 0.02235587, "token_acc": 0.99274194, "grad_norm": 0.89820963, "learning_rate": 1.01e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232181, "epoch": 4.67909139, "global_step/max_steps": "61385/65595", "percentage": "93.58%", "elapsed_time": "3d 1h 26m 22s", "remaining_time": "5h 2m 12s"}
+{"loss": 0.06918458, "token_acc": 0.97933538, "grad_norm": 4.21433115, "learning_rate": 1.01e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232185, "epoch": 4.67947252, "global_step/max_steps": "61390/65595", "percentage": "93.59%", "elapsed_time": "3d 1h 26m 38s", "remaining_time": "5h 1m 50s"}
+{"loss": 0.03418445, "token_acc": 0.98687392, "grad_norm": 1.0535382, "learning_rate": 1.01e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232189, "epoch": 4.67985365, "global_step/max_steps": "61395/65595", "percentage": "93.60%", "elapsed_time": "3d 1h 26m 55s", "remaining_time": "5h 1m 28s"}
+{"loss": 0.02471144, "token_acc": 0.99017816, "grad_norm": 1.12686813, "learning_rate": 1.01e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23219, "epoch": 4.68023477, "global_step/max_steps": "61400/65595", "percentage": "93.60%", "elapsed_time": "3d 1h 27m 16s", "remaining_time": "5h 1m 6s"}
+{"eval_loss": 0.04719125, "eval_token_acc": 0.98107042, "eval_runtime": 221.9428, "eval_samples_per_second": 2.388, "eval_steps_per_second": 2.388, "epoch": 4.68023477, "global_step/max_steps": "61400/65595", "percentage": "93.60%", "elapsed_time": "3d 1h 30m 58s", "remaining_time": "5h 1m 22s"}
+{"loss": 0.02062628, "token_acc": 0.98132455, "grad_norm": 0.72730416, "learning_rate": 1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232002, "epoch": 4.6806159, "global_step/max_steps": "61405/65595", "percentage": "93.61%", "elapsed_time": "3d 1h 31m 12s", "remaining_time": "5h 1m 0s"}
+{"loss": 0.02882614, "token_acc": 0.98685048, "grad_norm": 1.66937435, "learning_rate": 1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232005, "epoch": 4.68099703, "global_step/max_steps": "61410/65595", "percentage": "93.62%", "elapsed_time": "3d 1h 31m 30s", "remaining_time": "5h 0m 38s"}
+{"loss": 0.02470496, "token_acc": 0.98703595, "grad_norm": 1.10430062, "learning_rate": 1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232009, "epoch": 4.68137815, "global_step/max_steps": "61415/65595", "percentage": "93.63%", "elapsed_time": "3d 1h 31m 46s", "remaining_time": "5h 0m 16s"}
+{"loss": 0.02989821, "token_acc": 0.990617, "grad_norm": 0.45690188, "learning_rate": 1e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232014, "epoch": 4.68175928, "global_step/max_steps": "61420/65595", "percentage": "93.64%", "elapsed_time": "3d 1h 32m 3s", "remaining_time": "4h 59m 54s"}
+{"loss": 0.01822897, "token_acc": 0.99331439, "grad_norm": 1.25257325, "learning_rate": 9.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232017, "epoch": 4.68214041, "global_step/max_steps": "61425/65595", "percentage": "93.64%", "elapsed_time": "3d 1h 32m 21s", "remaining_time": "4h 59m 32s"}
+{"loss": 0.05927089, "token_acc": 0.98323196, "grad_norm": 0.69754887, "learning_rate": 9.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232019, "epoch": 4.68252153, "global_step/max_steps": "61430/65595", "percentage": "93.65%", "elapsed_time": "3d 1h 32m 40s", "remaining_time": "4h 59m 10s"}
+{"loss": 0.05055044, "token_acc": 0.98023385, "grad_norm": 1.73425913, "learning_rate": 9.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232024, "epoch": 4.68290266, "global_step/max_steps": "61435/65595", "percentage": "93.66%", "elapsed_time": "3d 1h 32m 56s", "remaining_time": "4h 58m 49s"}
+{"loss": 0.03690926, "token_acc": 0.98667767, "grad_norm": 0.86118025, "learning_rate": 9.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232025, "epoch": 4.68328379, "global_step/max_steps": "61440/65595", "percentage": "93.67%", "elapsed_time": "3d 1h 33m 16s", "remaining_time": "4h 58m 27s"}
+{"loss": 0.02296068, "token_acc": 0.99026468, "grad_norm": 1.13438177, "learning_rate": 9.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232031, "epoch": 4.68366491, "global_step/max_steps": "61445/65595", "percentage": "93.67%", "elapsed_time": "3d 1h 33m 32s", "remaining_time": "4h 58m 5s"}
+{"loss": 0.04980856, "token_acc": 0.97715421, "grad_norm": 2.34312153, "learning_rate": 9.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232035, "epoch": 4.68404604, "global_step/max_steps": "61450/65595", "percentage": "93.68%", "elapsed_time": "3d 1h 33m 48s", "remaining_time": "4h 57m 43s"}
+{"loss": 0.03279307, "token_acc": 0.98791095, "grad_norm": 0.93853146, "learning_rate": 9.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232037, "epoch": 4.68442717, "global_step/max_steps": "61455/65595", "percentage": "93.69%", "elapsed_time": "3d 1h 34m 8s", "remaining_time": "4h 57m 21s"}
+{"loss": 0.02930585, "token_acc": 0.98827138, "grad_norm": 1.15984702, "learning_rate": 9.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23204, "epoch": 4.68480829, "global_step/max_steps": "61460/65595", "percentage": "93.70%", "elapsed_time": "3d 1h 34m 25s", "remaining_time": "4h 57m 0s"}
+{"loss": 0.03499046, "token_acc": 0.98436123, "grad_norm": 1.09442651, "learning_rate": 9.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232045, "epoch": 4.68518942, "global_step/max_steps": "61465/65595", "percentage": "93.70%", "elapsed_time": "3d 1h 34m 41s", "remaining_time": "4h 56m 38s"}
+{"loss": 0.01546192, "token_acc": 0.99264706, "grad_norm": 1.10095024, "learning_rate": 9.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23205, "epoch": 4.68557055, "global_step/max_steps": "61470/65595", "percentage": "93.71%", "elapsed_time": "3d 1h 34m 57s", "remaining_time": "4h 56m 16s"}
+{"loss": 0.02363167, "token_acc": 0.98999825, "grad_norm": 0.63259327, "learning_rate": 9.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232052, "epoch": 4.68595167, "global_step/max_steps": "61475/65595", "percentage": "93.72%", "elapsed_time": "3d 1h 35m 16s", "remaining_time": "4h 55m 54s"}
+{"loss": 0.02912146, "token_acc": 0.98707071, "grad_norm": 0.75119072, "learning_rate": 9.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232055, "epoch": 4.6863328, "global_step/max_steps": "61480/65595", "percentage": "93.73%", "elapsed_time": "3d 1h 35m 34s", "remaining_time": "4h 55m 32s"}
+{"loss": 0.05861667, "token_acc": 0.98047786, "grad_norm": 1.29103923, "learning_rate": 9.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232061, "epoch": 4.68671393, "global_step/max_steps": "61485/65595", "percentage": "93.73%", "elapsed_time": "3d 1h 35m 49s", "remaining_time": "4h 55m 10s"}
+{"loss": 0.04002288, "token_acc": 0.98648649, "grad_norm": 0.71967489, "learning_rate": 9.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232063, "epoch": 4.68709505, "global_step/max_steps": "61490/65595", "percentage": "93.74%", "elapsed_time": "3d 1h 36m 8s", "remaining_time": "4h 54m 48s"}
+{"loss": 0.03163853, "token_acc": 0.98861676, "grad_norm": 1.13949203, "learning_rate": 9.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232068, "epoch": 4.68747618, "global_step/max_steps": "61495/65595", "percentage": "93.75%", "elapsed_time": "3d 1h 36m 24s", "remaining_time": "4h 54m 27s"}
+{"loss": 0.03853622, "token_acc": 0.98311329, "grad_norm": 1.24875343, "learning_rate": 9.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232071, "epoch": 4.68785731, "global_step/max_steps": "61500/65595", "percentage": "93.76%", "elapsed_time": "3d 1h 36m 42s", "remaining_time": "4h 54m 5s"}
+{"loss": 0.02272607, "token_acc": 0.99027237, "grad_norm": 1.29182458, "learning_rate": 9.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232073, "epoch": 4.68823843, "global_step/max_steps": "61505/65595", "percentage": "93.76%", "elapsed_time": "3d 1h 37m 1s", "remaining_time": "4h 53m 43s"}
+{"loss": 0.04696459, "token_acc": 0.98635182, "grad_norm": 1.24849212, "learning_rate": 9.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232076, "epoch": 4.68861956, "global_step/max_steps": "61510/65595", "percentage": "93.77%", "elapsed_time": "3d 1h 37m 20s", "remaining_time": "4h 53m 21s"}
+{"loss": 0.03556176, "token_acc": 0.98837209, "grad_norm": 0.9017998, "learning_rate": 9.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232082, "epoch": 4.68900069, "global_step/max_steps": "61515/65595", "percentage": "93.78%", "elapsed_time": "3d 1h 37m 35s", "remaining_time": "4h 52m 59s"}
+{"loss": 0.01928848, "token_acc": 0.99086162, "grad_norm": 0.79093075, "learning_rate": 9.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232087, "epoch": 4.68938181, "global_step/max_steps": "61520/65595", "percentage": "93.79%", "elapsed_time": "3d 1h 37m 50s", "remaining_time": "4h 52m 37s"}
+{"loss": 0.02296292, "token_acc": 0.99207081, "grad_norm": 0.69795001, "learning_rate": 9.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232091, "epoch": 4.68976294, "global_step/max_steps": "61525/65595", "percentage": "93.80%", "elapsed_time": "3d 1h 38m 8s", "remaining_time": "4h 52m 16s"}
+{"loss": 0.02409725, "token_acc": 0.99111785, "grad_norm": 1.03227186, "learning_rate": 9.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232095, "epoch": 4.69014407, "global_step/max_steps": "61530/65595", "percentage": "93.80%", "elapsed_time": "3d 1h 38m 24s", "remaining_time": "4h 51m 54s"}
+{"loss": 0.0265603, "token_acc": 0.98918546, "grad_norm": 0.83910531, "learning_rate": 9.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2321, "epoch": 4.69052519, "global_step/max_steps": "61535/65595", "percentage": "93.81%", "elapsed_time": "3d 1h 38m 40s", "remaining_time": "4h 51m 32s"}
+{"loss": 0.02746863, "token_acc": 0.9875753, "grad_norm": 0.85894668, "learning_rate": 9.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232101, "epoch": 4.69090632, "global_step/max_steps": "61540/65595", "percentage": "93.82%", "elapsed_time": "3d 1h 39m 0s", "remaining_time": "4h 51m 10s"}
+{"loss": 0.03988373, "token_acc": 0.98747947, "grad_norm": 0.80500895, "learning_rate": 9.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232105, "epoch": 4.69128745, "global_step/max_steps": "61545/65595", "percentage": "93.83%", "elapsed_time": "3d 1h 39m 17s", "remaining_time": "4h 50m 48s"}
+{"loss": 0.01630429, "token_acc": 0.99217604, "grad_norm": 0.7987445, "learning_rate": 9.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232107, "epoch": 4.69166857, "global_step/max_steps": "61550/65595", "percentage": "93.83%", "elapsed_time": "3d 1h 39m 37s", "remaining_time": "4h 50m 27s"}
+{"loss": 0.03597459, "token_acc": 0.98702114, "grad_norm": 0.63477522, "learning_rate": 9.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23211, "epoch": 4.6920497, "global_step/max_steps": "61555/65595", "percentage": "93.84%", "elapsed_time": "3d 1h 39m 55s", "remaining_time": "4h 50m 5s"}
+{"loss": 0.04172978, "token_acc": 0.98248525, "grad_norm": 1.4847877, "learning_rate": 9.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232113, "epoch": 4.69243083, "global_step/max_steps": "61560/65595", "percentage": "93.85%", "elapsed_time": "3d 1h 40m 13s", "remaining_time": "4h 49m 43s"}
+{"loss": 0.01844359, "token_acc": 0.98995128, "grad_norm": 0.13778836, "learning_rate": 9.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232118, "epoch": 4.69281195, "global_step/max_steps": "61565/65595", "percentage": "93.86%", "elapsed_time": "3d 1h 40m 29s", "remaining_time": "4h 49m 21s"}
+{"loss": 0.01809677, "token_acc": 0.9925816, "grad_norm": 0.59157246, "learning_rate": 9.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232121, "epoch": 4.69319308, "global_step/max_steps": "61570/65595", "percentage": "93.86%", "elapsed_time": "3d 1h 40m 47s", "remaining_time": "4h 48m 59s"}
+{"loss": 0.03465459, "token_acc": 0.985, "grad_norm": 0.4606469, "learning_rate": 9.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232125, "epoch": 4.69357421, "global_step/max_steps": "61575/65595", "percentage": "93.87%", "elapsed_time": "3d 1h 41m 4s", "remaining_time": "4h 48m 38s"}
+{"loss": 0.02218567, "token_acc": 0.98923586, "grad_norm": 0.66571587, "learning_rate": 9.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232124, "epoch": 4.69395533, "global_step/max_steps": "61580/65595", "percentage": "93.88%", "elapsed_time": "3d 1h 41m 27s", "remaining_time": "4h 48m 16s"}
+{"loss": 0.05128745, "token_acc": 0.98480551, "grad_norm": 0.95435929, "learning_rate": 9.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232127, "epoch": 4.69433646, "global_step/max_steps": "61585/65595", "percentage": "93.89%", "elapsed_time": "3d 1h 41m 44s", "remaining_time": "4h 47m 54s"}
+{"loss": 0.01474791, "token_acc": 0.99499919, "grad_norm": 1.20652246, "learning_rate": 9.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232131, "epoch": 4.69471759, "global_step/max_steps": "61590/65595", "percentage": "93.89%", "elapsed_time": "3d 1h 42m 1s", "remaining_time": "4h 47m 33s"}
+{"loss": 0.01551687, "token_acc": 0.99271845, "grad_norm": 1.57195127, "learning_rate": 9.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232137, "epoch": 4.69509871, "global_step/max_steps": "61595/65595", "percentage": "93.90%", "elapsed_time": "3d 1h 42m 16s", "remaining_time": "4h 47m 11s"}
+{"loss": 0.02921837, "token_acc": 0.99173699, "grad_norm": 4.40760994, "learning_rate": 9.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232139, "epoch": 4.69547984, "global_step/max_steps": "61600/65595", "percentage": "93.91%", "elapsed_time": "3d 1h 42m 36s", "remaining_time": "4h 46m 49s"}
+{"eval_loss": 0.04735063, "eval_token_acc": 0.9810403, "eval_runtime": 219.8368, "eval_samples_per_second": 2.411, "eval_steps_per_second": 2.411, "epoch": 4.69547984, "global_step/max_steps": "61600/65595", "percentage": "93.91%", "elapsed_time": "3d 1h 46m 16s", "remaining_time": "4h 47m 3s"}
+{"loss": 0.03033344, "token_acc": 0.98125527, "grad_norm": 1.08612013, "learning_rate": 9.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231951, "epoch": 4.69586097, "global_step/max_steps": "61605/65595", "percentage": "93.92%", "elapsed_time": "3d 1h 46m 32s", "remaining_time": "4h 46m 41s"}
+{"loss": 0.04480908, "token_acc": 0.98767834, "grad_norm": 0.70251709, "learning_rate": 9.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231951, "epoch": 4.69624209, "global_step/max_steps": "61610/65595", "percentage": "93.92%", "elapsed_time": "3d 1h 46m 53s", "remaining_time": "4h 46m 20s"}
+{"loss": 0.02841502, "token_acc": 0.98877434, "grad_norm": 1.91823447, "learning_rate": 9.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231956, "epoch": 4.69662322, "global_step/max_steps": "61615/65595", "percentage": "93.93%", "elapsed_time": "3d 1h 47m 9s", "remaining_time": "4h 45m 58s"}
+{"loss": 0.02682051, "token_acc": 0.98717949, "grad_norm": 0.8859213, "learning_rate": 9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231961, "epoch": 4.69700434, "global_step/max_steps": "61620/65595", "percentage": "93.94%", "elapsed_time": "3d 1h 47m 26s", "remaining_time": "4h 45m 36s"}
+{"loss": 0.02152459, "token_acc": 0.99200178, "grad_norm": 1.18334937, "learning_rate": 9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231965, "epoch": 4.69738547, "global_step/max_steps": "61625/65595", "percentage": "93.95%", "elapsed_time": "3d 1h 47m 42s", "remaining_time": "4h 45m 14s"}
+{"loss": 0.03222577, "token_acc": 0.98559166, "grad_norm": 1.37566113, "learning_rate": 9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23197, "epoch": 4.6977666, "global_step/max_steps": "61630/65595", "percentage": "93.96%", "elapsed_time": "3d 1h 47m 58s", "remaining_time": "4h 44m 52s"}
+{"loss": 0.01870659, "token_acc": 0.98905804, "grad_norm": 0.15146059, "learning_rate": 9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231977, "epoch": 4.69814772, "global_step/max_steps": "61635/65595", "percentage": "93.96%", "elapsed_time": "3d 1h 48m 12s", "remaining_time": "4h 44m 30s"}
+{"loss": 0.03512516, "token_acc": 0.98795944, "grad_norm": 0.67712635, "learning_rate": 8.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231982, "epoch": 4.69852885, "global_step/max_steps": "61640/65595", "percentage": "93.97%", "elapsed_time": "3d 1h 48m 28s", "remaining_time": "4h 44m 8s"}
+{"loss": 0.03166311, "token_acc": 0.98770418, "grad_norm": 0.57804197, "learning_rate": 8.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23198, "epoch": 4.69890998, "global_step/max_steps": "61645/65595", "percentage": "93.98%", "elapsed_time": "3d 1h 48m 51s", "remaining_time": "4h 43m 47s"}
+{"loss": 0.02082998, "token_acc": 0.99058693, "grad_norm": 0.97079277, "learning_rate": 8.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231983, "epoch": 4.6992911, "global_step/max_steps": "61650/65595", "percentage": "93.99%", "elapsed_time": "3d 1h 49m 9s", "remaining_time": "4h 43m 25s"}
+{"loss": 0.03369963, "token_acc": 0.98129749, "grad_norm": 1.07424724, "learning_rate": 8.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231987, "epoch": 4.69967223, "global_step/max_steps": "61655/65595", "percentage": "93.99%", "elapsed_time": "3d 1h 49m 27s", "remaining_time": "4h 43m 3s"}
+{"loss": 0.0315276, "token_acc": 0.99134199, "grad_norm": 1.85688722, "learning_rate": 8.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231992, "epoch": 4.70005336, "global_step/max_steps": "61660/65595", "percentage": "94.00%", "elapsed_time": "3d 1h 49m 42s", "remaining_time": "4h 42m 41s"}
+{"loss": 0.02084215, "token_acc": 0.99253731, "grad_norm": 0.87445247, "learning_rate": 8.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231999, "epoch": 4.70043448, "global_step/max_steps": "61665/65595", "percentage": "94.01%", "elapsed_time": "3d 1h 49m 56s", "remaining_time": "4h 42m 19s"}
+{"loss": 0.03047745, "token_acc": 0.98733149, "grad_norm": 1.02365565, "learning_rate": 8.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232, "epoch": 4.70081561, "global_step/max_steps": "61670/65595", "percentage": "94.02%", "elapsed_time": "3d 1h 50m 17s", "remaining_time": "4h 41m 57s"}
+{"loss": 0.03263699, "token_acc": 0.9828212, "grad_norm": 1.08578968, "learning_rate": 8.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232004, "epoch": 4.70119674, "global_step/max_steps": "61675/65595", "percentage": "94.02%", "elapsed_time": "3d 1h 50m 33s", "remaining_time": "4h 41m 36s"}
+{"loss": 0.0294444, "token_acc": 0.98598458, "grad_norm": 1.58330238, "learning_rate": 8.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232009, "epoch": 4.70157786, "global_step/max_steps": "61680/65595", "percentage": "94.03%", "elapsed_time": "3d 1h 50m 49s", "remaining_time": "4h 41m 14s"}
+{"loss": 0.0283043, "token_acc": 0.99143717, "grad_norm": 1.98600662, "learning_rate": 8.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232013, "epoch": 4.70195899, "global_step/max_steps": "61685/65595", "percentage": "94.04%", "elapsed_time": "3d 1h 51m 5s", "remaining_time": "4h 40m 52s"}
+{"loss": 0.02755452, "token_acc": 0.99005266, "grad_norm": 2.21796536, "learning_rate": 8.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232017, "epoch": 4.70234012, "global_step/max_steps": "61690/65595", "percentage": "94.05%", "elapsed_time": "3d 1h 51m 22s", "remaining_time": "4h 40m 30s"}
+{"loss": 0.0277816, "token_acc": 0.99098244, "grad_norm": 1.19068229, "learning_rate": 8.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232022, "epoch": 4.70272124, "global_step/max_steps": "61695/65595", "percentage": "94.05%", "elapsed_time": "3d 1h 51m 39s", "remaining_time": "4h 40m 8s"}
+{"loss": 0.03505501, "token_acc": 0.98080849, "grad_norm": 1.39768124, "learning_rate": 8.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232027, "epoch": 4.70310237, "global_step/max_steps": "61700/65595", "percentage": "94.06%", "elapsed_time": "3d 1h 51m 55s", "remaining_time": "4h 39m 46s"}
+{"loss": 0.0251204, "token_acc": 0.98921216, "grad_norm": 0.70815754, "learning_rate": 8.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232029, "epoch": 4.7034835, "global_step/max_steps": "61705/65595", "percentage": "94.07%", "elapsed_time": "3d 1h 52m 14s", "remaining_time": "4h 39m 24s"}
+{"loss": 0.0432628, "token_acc": 0.98191871, "grad_norm": 1.72179615, "learning_rate": 8.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232031, "epoch": 4.70386462, "global_step/max_steps": "61710/65595", "percentage": "94.08%", "elapsed_time": "3d 1h 52m 33s", "remaining_time": "4h 39m 3s"}
+{"loss": 0.02333463, "token_acc": 0.98997135, "grad_norm": 0.87076265, "learning_rate": 8.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232036, "epoch": 4.70424575, "global_step/max_steps": "61715/65595", "percentage": "94.08%", "elapsed_time": "3d 1h 52m 49s", "remaining_time": "4h 38m 41s"}
+{"loss": 0.02877186, "token_acc": 0.99120956, "grad_norm": 0.95878232, "learning_rate": 8.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232042, "epoch": 4.70462688, "global_step/max_steps": "61720/65595", "percentage": "94.09%", "elapsed_time": "3d 1h 53m 4s", "remaining_time": "4h 38m 19s"}
+{"loss": 0.01867756, "token_acc": 0.98896986, "grad_norm": 0.62407279, "learning_rate": 8.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232045, "epoch": 4.705008, "global_step/max_steps": "61725/65595", "percentage": "94.10%", "elapsed_time": "3d 1h 53m 22s", "remaining_time": "4h 37m 57s"}
+{"loss": 0.03948388, "token_acc": 0.98675855, "grad_norm": 1.56119466, "learning_rate": 8.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232046, "epoch": 4.70538913, "global_step/max_steps": "61730/65595", "percentage": "94.11%", "elapsed_time": "3d 1h 53m 42s", "remaining_time": "4h 37m 36s"}
+{"loss": 0.02257587, "token_acc": 0.99161509, "grad_norm": 0.73973668, "learning_rate": 8.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23205, "epoch": 4.70577026, "global_step/max_steps": "61735/65595", "percentage": "94.12%", "elapsed_time": "3d 1h 53m 59s", "remaining_time": "4h 37m 14s"}
+{"loss": 0.02491088, "token_acc": 0.99042044, "grad_norm": 0.5449602, "learning_rate": 8.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232049, "epoch": 4.70615138, "global_step/max_steps": "61740/65595", "percentage": "94.12%", "elapsed_time": "3d 1h 54m 22s", "remaining_time": "4h 36m 52s"}
+{"loss": 0.05982747, "token_acc": 0.98151333, "grad_norm": 3.47837353, "learning_rate": 8.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232053, "epoch": 4.70653251, "global_step/max_steps": "61745/65595", "percentage": "94.13%", "elapsed_time": "3d 1h 54m 38s", "remaining_time": "4h 36m 30s"}
+{"loss": 0.03244303, "token_acc": 0.98900474, "grad_norm": 1.12359321, "learning_rate": 8.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232056, "epoch": 4.70691364, "global_step/max_steps": "61750/65595", "percentage": "94.14%", "elapsed_time": "3d 1h 54m 57s", "remaining_time": "4h 36m 9s"}
+{"loss": 0.03795555, "token_acc": 0.98522784, "grad_norm": 1.93155253, "learning_rate": 8.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232058, "epoch": 4.70729476, "global_step/max_steps": "61755/65595", "percentage": "94.15%", "elapsed_time": "3d 1h 55m 16s", "remaining_time": "4h 35m 47s"}
+{"loss": 0.03910398, "token_acc": 0.98610575, "grad_norm": 1.55924249, "learning_rate": 8.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232063, "epoch": 4.70767589, "global_step/max_steps": "61760/65595", "percentage": "94.15%", "elapsed_time": "3d 1h 55m 31s", "remaining_time": "4h 35m 25s"}
+{"loss": 0.01750762, "token_acc": 0.99269955, "grad_norm": 1.40204048, "learning_rate": 8.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232066, "epoch": 4.70805702, "global_step/max_steps": "61765/65595", "percentage": "94.16%", "elapsed_time": "3d 1h 55m 49s", "remaining_time": "4h 35m 3s"}
+{"loss": 0.0614896, "token_acc": 0.97420374, "grad_norm": 1.84664738, "learning_rate": 8.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232072, "epoch": 4.70843814, "global_step/max_steps": "61770/65595", "percentage": "94.17%", "elapsed_time": "3d 1h 56m 5s", "remaining_time": "4h 34m 41s"}
+{"loss": 0.0317941, "token_acc": 0.99082148, "grad_norm": 1.15210867, "learning_rate": 8.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232076, "epoch": 4.70881927, "global_step/max_steps": "61775/65595", "percentage": "94.18%", "elapsed_time": "3d 1h 56m 22s", "remaining_time": "4h 34m 20s"}
+{"loss": 0.03324617, "token_acc": 0.98805162, "grad_norm": 1.90392601, "learning_rate": 8.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232077, "epoch": 4.7092004, "global_step/max_steps": "61780/65595", "percentage": "94.18%", "elapsed_time": "3d 1h 56m 42s", "remaining_time": "4h 33m 58s"}
+{"loss": 0.03460844, "token_acc": 0.9872381, "grad_norm": 1.19521737, "learning_rate": 8.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23208, "epoch": 4.70958152, "global_step/max_steps": "61785/65595", "percentage": "94.19%", "elapsed_time": "3d 1h 57m 0s", "remaining_time": "4h 33m 36s"}
+{"loss": 0.03240299, "token_acc": 0.99211686, "grad_norm": 0.47921759, "learning_rate": 8.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232084, "epoch": 4.70996265, "global_step/max_steps": "61790/65595", "percentage": "94.20%", "elapsed_time": "3d 1h 57m 17s", "remaining_time": "4h 33m 14s"}
+{"loss": 0.03487452, "token_acc": 0.98203964, "grad_norm": 1.75549853, "learning_rate": 8.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232089, "epoch": 4.71034378, "global_step/max_steps": "61795/65595", "percentage": "94.21%", "elapsed_time": "3d 1h 57m 33s", "remaining_time": "4h 32m 52s"}
+{"loss": 0.03156453, "token_acc": 0.98997265, "grad_norm": 2.27588439, "learning_rate": 8.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232092, "epoch": 4.7107249, "global_step/max_steps": "61800/65595", "percentage": "94.21%", "elapsed_time": "3d 1h 57m 51s", "remaining_time": "4h 32m 31s"}
+{"eval_loss": 0.04724436, "eval_token_acc": 0.98087465, "eval_runtime": 220.4037, "eval_samples_per_second": 2.405, "eval_steps_per_second": 2.405, "epoch": 4.7107249, "global_step/max_steps": "61800/65595", "percentage": "94.21%", "elapsed_time": "3d 2h 1m 31s", "remaining_time": "4h 32m 44s"}
+{"loss": 0.01986164, "token_acc": 0.9811945, "grad_norm": 1.05912435, "learning_rate": 8.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231905, "epoch": 4.71110603, "global_step/max_steps": "61805/65595", "percentage": "94.22%", "elapsed_time": "3d 2h 1m 47s", "remaining_time": "4h 32m 22s"}
+{"loss": 0.02865302, "token_acc": 0.98737325, "grad_norm": 1.22266757, "learning_rate": 8.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231909, "epoch": 4.71148716, "global_step/max_steps": "61810/65595", "percentage": "94.23%", "elapsed_time": "3d 2h 2m 4s", "remaining_time": "4h 32m 0s"}
+{"loss": 0.02840881, "token_acc": 0.98812458, "grad_norm": 1.36266339, "learning_rate": 8.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231914, "epoch": 4.71186828, "global_step/max_steps": "61815/65595", "percentage": "94.24%", "elapsed_time": "3d 2h 2m 20s", "remaining_time": "4h 31m 39s"}
+{"loss": 0.02421339, "token_acc": 0.99157999, "grad_norm": 0.77128434, "learning_rate": 8.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231917, "epoch": 4.71224941, "global_step/max_steps": "61820/65595", "percentage": "94.24%", "elapsed_time": "3d 2h 2m 38s", "remaining_time": "4h 31m 17s"}
+{"loss": 0.04592409, "token_acc": 0.98407643, "grad_norm": 0.61193264, "learning_rate": 8.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231919, "epoch": 4.71263054, "global_step/max_steps": "61825/65595", "percentage": "94.25%", "elapsed_time": "3d 2h 2m 57s", "remaining_time": "4h 30m 55s"}
+{"loss": 0.0215868, "token_acc": 0.98964908, "grad_norm": 1.09831953, "learning_rate": 8.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231924, "epoch": 4.71301166, "global_step/max_steps": "61830/65595", "percentage": "94.26%", "elapsed_time": "3d 2h 3m 13s", "remaining_time": "4h 30m 33s"}
+{"loss": 0.03197258, "token_acc": 0.98604132, "grad_norm": 1.00409579, "learning_rate": 8.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231927, "epoch": 4.71339279, "global_step/max_steps": "61835/65595", "percentage": "94.27%", "elapsed_time": "3d 2h 3m 31s", "remaining_time": "4h 30m 11s"}
+{"loss": 0.02559064, "token_acc": 0.9900652, "grad_norm": 1.26147652, "learning_rate": 8.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231933, "epoch": 4.71377392, "global_step/max_steps": "61840/65595", "percentage": "94.28%", "elapsed_time": "3d 2h 3m 46s", "remaining_time": "4h 29m 49s"}
+{"loss": 0.02578799, "token_acc": 0.98928708, "grad_norm": 1.1566534, "learning_rate": 8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231935, "epoch": 4.71415504, "global_step/max_steps": "61845/65595", "percentage": "94.28%", "elapsed_time": "3d 2h 4m 6s", "remaining_time": "4h 29m 28s"}
+{"loss": 0.02338683, "token_acc": 0.98971899, "grad_norm": 0.92576647, "learning_rate": 8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23194, "epoch": 4.71453617, "global_step/max_steps": "61850/65595", "percentage": "94.29%", "elapsed_time": "3d 2h 4m 21s", "remaining_time": "4h 29m 6s"}
+{"loss": 0.01736158, "token_acc": 0.99245046, "grad_norm": 0.92537493, "learning_rate": 8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231942, "epoch": 4.7149173, "global_step/max_steps": "61855/65595", "percentage": "94.30%", "elapsed_time": "3d 2h 4m 41s", "remaining_time": "4h 28m 44s"}
+{"loss": 0.02777492, "token_acc": 0.99050967, "grad_norm": 1.70431781, "learning_rate": 8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231946, "epoch": 4.71529842, "global_step/max_steps": "61860/65595", "percentage": "94.31%", "elapsed_time": "3d 2h 4m 57s", "remaining_time": "4h 28m 22s"}
+{"loss": 0.02023883, "token_acc": 0.99105288, "grad_norm": 0.79020399, "learning_rate": 8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231949, "epoch": 4.71567955, "global_step/max_steps": "61865/65595", "percentage": "94.31%", "elapsed_time": "3d 2h 5m 16s", "remaining_time": "4h 28m 1s"}
+{"loss": 0.02498894, "token_acc": 0.98351972, "grad_norm": 0.44558504, "learning_rate": 7.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231953, "epoch": 4.71606068, "global_step/max_steps": "61870/65595", "percentage": "94.32%", "elapsed_time": "3d 2h 5m 33s", "remaining_time": "4h 27m 39s"}
+{"loss": 0.02573546, "token_acc": 0.98683527, "grad_norm": 0.93019921, "learning_rate": 7.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231955, "epoch": 4.7164418, "global_step/max_steps": "61875/65595", "percentage": "94.33%", "elapsed_time": "3d 2h 5m 52s", "remaining_time": "4h 27m 17s"}
+{"loss": 0.03395584, "token_acc": 0.98595726, "grad_norm": 0.85726595, "learning_rate": 7.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231954, "epoch": 4.71682293, "global_step/max_steps": "61880/65595", "percentage": "94.34%", "elapsed_time": "3d 2h 6m 14s", "remaining_time": "4h 26m 55s"}
+{"loss": 0.02312899, "token_acc": 0.99184364, "grad_norm": 0.45193106, "learning_rate": 7.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231958, "epoch": 4.71720406, "global_step/max_steps": "61885/65595", "percentage": "94.34%", "elapsed_time": "3d 2h 6m 31s", "remaining_time": "4h 26m 34s"}
+{"loss": 0.02137289, "token_acc": 0.99103904, "grad_norm": 0.96845257, "learning_rate": 7.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231963, "epoch": 4.71758518, "global_step/max_steps": "61890/65595", "percentage": "94.35%", "elapsed_time": "3d 2h 6m 48s", "remaining_time": "4h 26m 12s"}
+{"loss": 0.02309268, "token_acc": 0.99077554, "grad_norm": 0.40511158, "learning_rate": 7.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231968, "epoch": 4.71796631, "global_step/max_steps": "61895/65595", "percentage": "94.36%", "elapsed_time": "3d 2h 7m 3s", "remaining_time": "4h 25m 50s"}
+{"loss": 0.02946893, "token_acc": 0.98714286, "grad_norm": 1.27239394, "learning_rate": 7.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231973, "epoch": 4.71834744, "global_step/max_steps": "61900/65595", "percentage": "94.37%", "elapsed_time": "3d 2h 7m 19s", "remaining_time": "4h 25m 28s"}
+{"loss": 0.02567544, "token_acc": 0.99054717, "grad_norm": 0.76967567, "learning_rate": 7.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231977, "epoch": 4.71872856, "global_step/max_steps": "61905/65595", "percentage": "94.37%", "elapsed_time": "3d 2h 7m 36s", "remaining_time": "4h 25m 6s"}
+{"loss": 0.03240589, "token_acc": 0.99078813, "grad_norm": 1.29755485, "learning_rate": 7.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231981, "epoch": 4.71910969, "global_step/max_steps": "61910/65595", "percentage": "94.38%", "elapsed_time": "3d 2h 7m 52s", "remaining_time": "4h 24m 44s"}
+{"loss": 0.01970825, "token_acc": 0.99116831, "grad_norm": 0.76956302, "learning_rate": 7.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231986, "epoch": 4.71949081, "global_step/max_steps": "61915/65595", "percentage": "94.39%", "elapsed_time": "3d 2h 8m 9s", "remaining_time": "4h 24m 22s"}
+{"loss": 0.03007329, "token_acc": 0.98716921, "grad_norm": 0.52837408, "learning_rate": 7.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231988, "epoch": 4.71987194, "global_step/max_steps": "61920/65595", "percentage": "94.40%", "elapsed_time": "3d 2h 8m 27s", "remaining_time": "4h 24m 1s"}
+{"loss": 0.03328523, "token_acc": 0.98881361, "grad_norm": 0.69992375, "learning_rate": 7.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23199, "epoch": 4.72025307, "global_step/max_steps": "61925/65595", "percentage": "94.41%", "elapsed_time": "3d 2h 8m 47s", "remaining_time": "4h 23m 39s"}
+{"loss": 0.04166866, "token_acc": 0.97953138, "grad_norm": 1.43863821, "learning_rate": 7.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231995, "epoch": 4.72063419, "global_step/max_steps": "61930/65595", "percentage": "94.41%", "elapsed_time": "3d 2h 9m 3s", "remaining_time": "4h 23m 17s"}
+{"loss": 0.02248874, "token_acc": 0.99116608, "grad_norm": 0.97549075, "learning_rate": 7.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232001, "epoch": 4.72101532, "global_step/max_steps": "61935/65595", "percentage": "94.42%", "elapsed_time": "3d 2h 9m 17s", "remaining_time": "4h 22m 55s"}
+{"loss": 0.03315885, "token_acc": 0.99152542, "grad_norm": 2.04880428, "learning_rate": 7.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232004, "epoch": 4.72139645, "global_step/max_steps": "61940/65595", "percentage": "94.43%", "elapsed_time": "3d 2h 9m 35s", "remaining_time": "4h 22m 33s"}
+{"loss": 0.04028114, "token_acc": 0.98353511, "grad_norm": 1.65681148, "learning_rate": 7.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232009, "epoch": 4.72177757, "global_step/max_steps": "61945/65595", "percentage": "94.44%", "elapsed_time": "3d 2h 9m 51s", "remaining_time": "4h 22m 12s"}
+{"loss": 0.04070684, "token_acc": 0.98692649, "grad_norm": 3.12312317, "learning_rate": 7.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232013, "epoch": 4.7221587, "global_step/max_steps": "61950/65595", "percentage": "94.44%", "elapsed_time": "3d 2h 10m 8s", "remaining_time": "4h 21m 50s"}
+{"loss": 0.01038898, "token_acc": 0.99531158, "grad_norm": 0.20124853, "learning_rate": 7.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232018, "epoch": 4.72253983, "global_step/max_steps": "61955/65595", "percentage": "94.45%", "elapsed_time": "3d 2h 10m 25s", "remaining_time": "4h 21m 28s"}
+{"loss": 0.02554753, "token_acc": 0.9878391, "grad_norm": 0.85774857, "learning_rate": 7.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232023, "epoch": 4.72292095, "global_step/max_steps": "61960/65595", "percentage": "94.46%", "elapsed_time": "3d 2h 10m 40s", "remaining_time": "4h 21m 6s"}
+{"loss": 0.01273319, "token_acc": 0.99361022, "grad_norm": 0.12411086, "learning_rate": 7.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232031, "epoch": 4.72330208, "global_step/max_steps": "61965/65595", "percentage": "94.47%", "elapsed_time": "3d 2h 10m 53s", "remaining_time": "4h 20m 44s"}
+{"loss": 0.01841069, "token_acc": 0.99262735, "grad_norm": 1.43213534, "learning_rate": 7.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232036, "epoch": 4.72368321, "global_step/max_steps": "61970/65595", "percentage": "94.47%", "elapsed_time": "3d 2h 11m 7s", "remaining_time": "4h 20m 22s"}
+{"loss": 0.03941004, "token_acc": 0.98668147, "grad_norm": 1.25527287, "learning_rate": 7.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232041, "epoch": 4.72406433, "global_step/max_steps": "61975/65595", "percentage": "94.48%", "elapsed_time": "3d 2h 11m 23s", "remaining_time": "4h 20m 0s"}
+{"loss": 0.03132751, "token_acc": 0.98752599, "grad_norm": 1.22140801, "learning_rate": 7.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232044, "epoch": 4.72444546, "global_step/max_steps": "61980/65595", "percentage": "94.49%", "elapsed_time": "3d 2h 11m 41s", "remaining_time": "4h 19m 38s"}
+{"loss": 0.04029571, "token_acc": 0.98330914, "grad_norm": 0.07226367, "learning_rate": 7.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232048, "epoch": 4.72482659, "global_step/max_steps": "61985/65595", "percentage": "94.50%", "elapsed_time": "3d 2h 11m 59s", "remaining_time": "4h 19m 16s"}
+{"loss": 0.04633508, "token_acc": 0.98578392, "grad_norm": 0.80229044, "learning_rate": 7.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232051, "epoch": 4.72520771, "global_step/max_steps": "61990/65595", "percentage": "94.50%", "elapsed_time": "3d 2h 12m 17s", "remaining_time": "4h 18m 55s"}
+{"loss": 0.02963472, "token_acc": 0.98467322, "grad_norm": 0.1450692, "learning_rate": 7.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232056, "epoch": 4.72558884, "global_step/max_steps": "61995/65595", "percentage": "94.51%", "elapsed_time": "3d 2h 12m 32s", "remaining_time": "4h 18m 33s"}
+{"loss": 0.04888958, "token_acc": 0.98843837, "grad_norm": 0.86839026, "learning_rate": 7.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232059, "epoch": 4.72596997, "global_step/max_steps": "62000/65595", "percentage": "94.52%", "elapsed_time": "3d 2h 12m 50s", "remaining_time": "4h 18m 11s"}
+{"eval_loss": 0.0472506, "eval_token_acc": 0.98105536, "eval_runtime": 220.7027, "eval_samples_per_second": 2.401, "eval_steps_per_second": 2.401, "epoch": 4.72596997, "global_step/max_steps": "62000/65595", "percentage": "94.52%", "elapsed_time": "3d 2h 16m 31s", "remaining_time": "4h 18m 24s"}
+{"loss": 0.01640581, "token_acc": 0.98142231, "grad_norm": 0.74273574, "learning_rate": 7.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231871, "epoch": 4.72635109, "global_step/max_steps": "62005/65595", "percentage": "94.53%", "elapsed_time": "3d 2h 16m 49s", "remaining_time": "4h 18m 2s"}
+{"loss": 0.02136082, "token_acc": 0.99139466, "grad_norm": 0.83435553, "learning_rate": 7.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231873, "epoch": 4.72673222, "global_step/max_steps": "62010/65595", "percentage": "94.53%", "elapsed_time": "3d 2h 17m 8s", "remaining_time": "4h 17m 40s"}
+{"loss": 0.02023686, "token_acc": 0.99092147, "grad_norm": 0.91061431, "learning_rate": 7.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231878, "epoch": 4.72711335, "global_step/max_steps": "62015/65595", "percentage": "94.54%", "elapsed_time": "3d 2h 17m 24s", "remaining_time": "4h 17m 19s"}
+{"loss": 0.03119144, "token_acc": 0.98396151, "grad_norm": 1.31738865, "learning_rate": 7.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231881, "epoch": 4.72749447, "global_step/max_steps": "62020/65595", "percentage": "94.55%", "elapsed_time": "3d 2h 17m 42s", "remaining_time": "4h 16m 57s"}
+{"loss": 0.04561899, "token_acc": 0.9885466, "grad_norm": 0.48401129, "learning_rate": 7.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231883, "epoch": 4.7278756, "global_step/max_steps": "62025/65595", "percentage": "94.56%", "elapsed_time": "3d 2h 18m 2s", "remaining_time": "4h 16m 35s"}
+{"loss": 0.02207397, "token_acc": 0.99304521, "grad_norm": 3.98316407, "learning_rate": 7.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231889, "epoch": 4.72825673, "global_step/max_steps": "62030/65595", "percentage": "94.57%", "elapsed_time": "3d 2h 18m 16s", "remaining_time": "4h 16m 13s"}
+{"loss": 0.04355312, "token_acc": 0.9831432, "grad_norm": 1.90339327, "learning_rate": 7.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231892, "epoch": 4.72863785, "global_step/max_steps": "62035/65595", "percentage": "94.57%", "elapsed_time": "3d 2h 18m 34s", "remaining_time": "4h 15m 51s"}
+{"loss": 0.03705786, "token_acc": 0.98511018, "grad_norm": 0.71807075, "learning_rate": 7.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231897, "epoch": 4.72901898, "global_step/max_steps": "62040/65595", "percentage": "94.58%", "elapsed_time": "3d 2h 18m 50s", "remaining_time": "4h 15m 29s"}
+{"loss": 0.0261565, "token_acc": 0.98729163, "grad_norm": 0.92310458, "learning_rate": 7.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231899, "epoch": 4.72940011, "global_step/max_steps": "62045/65595", "percentage": "94.59%", "elapsed_time": "3d 2h 19m 9s", "remaining_time": "4h 15m 8s"}
+{"loss": 0.03484537, "token_acc": 0.98181365, "grad_norm": 2.43275118, "learning_rate": 7.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231904, "epoch": 4.72978123, "global_step/max_steps": "62050/65595", "percentage": "94.60%", "elapsed_time": "3d 2h 19m 25s", "remaining_time": "4h 14m 46s"}
+{"loss": 0.02547896, "token_acc": 0.99123596, "grad_norm": 1.1704489, "learning_rate": 7.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231907, "epoch": 4.73016236, "global_step/max_steps": "62055/65595", "percentage": "94.60%", "elapsed_time": "3d 2h 19m 42s", "remaining_time": "4h 14m 24s"}
+{"loss": 0.01753988, "token_acc": 0.98884491, "grad_norm": 0.91669267, "learning_rate": 7.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231912, "epoch": 4.73054349, "global_step/max_steps": "62060/65595", "percentage": "94.61%", "elapsed_time": "3d 2h 19m 58s", "remaining_time": "4h 14m 2s"}
+{"loss": 0.03528834, "token_acc": 0.98462354, "grad_norm": 1.76375651, "learning_rate": 7.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231916, "epoch": 4.73092461, "global_step/max_steps": "62065/65595", "percentage": "94.62%", "elapsed_time": "3d 2h 20m 15s", "remaining_time": "4h 13m 40s"}
+{"loss": 0.02063931, "token_acc": 0.99403816, "grad_norm": 0.44966134, "learning_rate": 7.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231921, "epoch": 4.73130574, "global_step/max_steps": "62070/65595", "percentage": "94.63%", "elapsed_time": "3d 2h 20m 31s", "remaining_time": "4h 13m 19s"}
+{"loss": 0.01986888, "token_acc": 0.99079402, "grad_norm": 0.72462934, "learning_rate": 7.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231924, "epoch": 4.73168687, "global_step/max_steps": "62075/65595", "percentage": "94.63%", "elapsed_time": "3d 2h 20m 49s", "remaining_time": "4h 12m 57s"}
+{"loss": 0.03042006, "token_acc": 0.9891568, "grad_norm": 0.41684482, "learning_rate": 7.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231927, "epoch": 4.73206799, "global_step/max_steps": "62080/65595", "percentage": "94.64%", "elapsed_time": "3d 2h 21m 8s", "remaining_time": "4h 12m 35s"}
+{"loss": 0.02299325, "token_acc": 0.9889682, "grad_norm": 0.73712635, "learning_rate": 7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231932, "epoch": 4.73244912, "global_step/max_steps": "62085/65595", "percentage": "94.65%", "elapsed_time": "3d 2h 21m 23s", "remaining_time": "4h 12m 13s"}
+{"loss": 0.03909605, "token_acc": 0.98724239, "grad_norm": 0.96551198, "learning_rate": 7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231936, "epoch": 4.73283025, "global_step/max_steps": "62090/65595", "percentage": "94.66%", "elapsed_time": "3d 2h 21m 41s", "remaining_time": "4h 11m 51s"}
+{"loss": 0.0208644, "token_acc": 0.99224934, "grad_norm": 0.5992924, "learning_rate": 7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231939, "epoch": 4.73321137, "global_step/max_steps": "62095/65595", "percentage": "94.66%", "elapsed_time": "3d 2h 21m 59s", "remaining_time": "4h 11m 30s"}
+{"loss": 0.02787828, "token_acc": 0.99188342, "grad_norm": 1.13254619, "learning_rate": 7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231942, "epoch": 4.7335925, "global_step/max_steps": "62100/65595", "percentage": "94.67%", "elapsed_time": "3d 2h 22m 17s", "remaining_time": "4h 11m 8s"}
+{"loss": 0.03279573, "token_acc": 0.98153491, "grad_norm": 0.70479101, "learning_rate": 7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231946, "epoch": 4.73397363, "global_step/max_steps": "62105/65595", "percentage": "94.68%", "elapsed_time": "3d 2h 22m 34s", "remaining_time": "4h 10m 46s"}
+{"loss": 0.04115169, "token_acc": 0.98602287, "grad_norm": 2.02390218, "learning_rate": 6.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23195, "epoch": 4.73435475, "global_step/max_steps": "62110/65595", "percentage": "94.69%", "elapsed_time": "3d 2h 22m 50s", "remaining_time": "4h 10m 24s"}
+{"loss": 0.05206549, "token_acc": 0.97845601, "grad_norm": 1.6473341, "learning_rate": 6.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231955, "epoch": 4.73473588, "global_step/max_steps": "62115/65595", "percentage": "94.69%", "elapsed_time": "3d 2h 23m 6s", "remaining_time": "4h 10m 2s"}
+{"loss": 0.02740557, "token_acc": 0.98918823, "grad_norm": 1.03708994, "learning_rate": 6.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231959, "epoch": 4.73511701, "global_step/max_steps": "62120/65595", "percentage": "94.70%", "elapsed_time": "3d 2h 23m 24s", "remaining_time": "4h 9m 40s"}
+{"loss": 0.03533194, "token_acc": 0.98647005, "grad_norm": 1.05963922, "learning_rate": 6.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231961, "epoch": 4.73549813, "global_step/max_steps": "62125/65595", "percentage": "94.71%", "elapsed_time": "3d 2h 23m 42s", "remaining_time": "4h 9m 19s"}
+{"loss": 0.02211125, "token_acc": 0.99091759, "grad_norm": 1.1916573, "learning_rate": 6.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231964, "epoch": 4.73587926, "global_step/max_steps": "62130/65595", "percentage": "94.72%", "elapsed_time": "3d 2h 24m 1s", "remaining_time": "4h 8m 57s"}
+{"loss": 0.02866093, "token_acc": 0.9874314, "grad_norm": 0.64416707, "learning_rate": 6.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231967, "epoch": 4.73626039, "global_step/max_steps": "62135/65595", "percentage": "94.73%", "elapsed_time": "3d 2h 24m 19s", "remaining_time": "4h 8m 35s"}
+{"loss": 0.03742862, "token_acc": 0.98507781, "grad_norm": 2.09979987, "learning_rate": 6.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231971, "epoch": 4.73664151, "global_step/max_steps": "62140/65595", "percentage": "94.73%", "elapsed_time": "3d 2h 24m 36s", "remaining_time": "4h 8m 13s"}
+{"loss": 0.03053495, "token_acc": 0.98894737, "grad_norm": 1.98418868, "learning_rate": 6.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231976, "epoch": 4.73702264, "global_step/max_steps": "62145/65595", "percentage": "94.74%", "elapsed_time": "3d 2h 24m 51s", "remaining_time": "4h 7m 52s"}
+{"loss": 0.03626873, "token_acc": 0.98583162, "grad_norm": 3.20260406, "learning_rate": 6.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23198, "epoch": 4.73740377, "global_step/max_steps": "62150/65595", "percentage": "94.75%", "elapsed_time": "3d 2h 25m 8s", "remaining_time": "4h 7m 30s"}
+{"loss": 0.03568436, "token_acc": 0.98864846, "grad_norm": 1.10236168, "learning_rate": 6.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231986, "epoch": 4.73778489, "global_step/max_steps": "62155/65595", "percentage": "94.76%", "elapsed_time": "3d 2h 25m 23s", "remaining_time": "4h 7m 8s"}
+{"loss": 0.02593481, "token_acc": 0.98891437, "grad_norm": 1.14126277, "learning_rate": 6.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231991, "epoch": 4.73816602, "global_step/max_steps": "62160/65595", "percentage": "94.76%", "elapsed_time": "3d 2h 25m 38s", "remaining_time": "4h 6m 46s"}
+{"loss": 0.02438505, "token_acc": 0.99152303, "grad_norm": 2.47030377, "learning_rate": 6.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231996, "epoch": 4.73854715, "global_step/max_steps": "62165/65595", "percentage": "94.77%", "elapsed_time": "3d 2h 25m 54s", "remaining_time": "4h 6m 24s"}
+{"loss": 0.04534029, "token_acc": 0.98046745, "grad_norm": 1.45953822, "learning_rate": 6.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232, "epoch": 4.73892827, "global_step/max_steps": "62170/65595", "percentage": "94.78%", "elapsed_time": "3d 2h 26m 12s", "remaining_time": "4h 6m 2s"}
+{"loss": 0.02040701, "token_acc": 0.99256349, "grad_norm": 0.96526349, "learning_rate": 6.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232001, "epoch": 4.7393094, "global_step/max_steps": "62175/65595", "percentage": "94.79%", "elapsed_time": "3d 2h 26m 32s", "remaining_time": "4h 5m 41s"}
+{"loss": 0.04225782, "token_acc": 0.98436063, "grad_norm": 2.84779382, "learning_rate": 6.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232007, "epoch": 4.73969053, "global_step/max_steps": "62180/65595", "percentage": "94.79%", "elapsed_time": "3d 2h 26m 47s", "remaining_time": "4h 5m 19s"}
+{"loss": 0.02972603, "token_acc": 0.98782961, "grad_norm": 0.92229372, "learning_rate": 6.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232012, "epoch": 4.74007165, "global_step/max_steps": "62185/65595", "percentage": "94.80%", "elapsed_time": "3d 2h 27m 2s", "remaining_time": "4h 4m 57s"}
+{"loss": 0.03561308, "token_acc": 0.988677, "grad_norm": 2.94803882, "learning_rate": 6.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232016, "epoch": 4.74045278, "global_step/max_steps": "62190/65595", "percentage": "94.81%", "elapsed_time": "3d 2h 27m 19s", "remaining_time": "4h 4m 35s"}
+{"loss": 0.02535498, "token_acc": 0.98921146, "grad_norm": 1.01531386, "learning_rate": 6.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232019, "epoch": 4.74083391, "global_step/max_steps": "62195/65595", "percentage": "94.82%", "elapsed_time": "3d 2h 27m 37s", "remaining_time": "4h 4m 13s"}
+{"loss": 0.05014971, "token_acc": 0.98376331, "grad_norm": 2.35405135, "learning_rate": 6.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232023, "epoch": 4.74121503, "global_step/max_steps": "62200/65595", "percentage": "94.82%", "elapsed_time": "3d 2h 27m 55s", "remaining_time": "4h 3m 52s"}
+{"eval_loss": 0.04706527, "eval_token_acc": 0.98090476, "eval_runtime": 217.7774, "eval_samples_per_second": 2.434, "eval_steps_per_second": 2.434, "epoch": 4.74121503, "global_step/max_steps": "62200/65595", "percentage": "94.82%", "elapsed_time": "3d 2h 31m 32s", "remaining_time": "4h 4m 3s"}
+{"loss": 0.02844292, "token_acc": 0.98119913, "grad_norm": 1.19348598, "learning_rate": 6.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231839, "epoch": 4.74159616, "global_step/max_steps": "62205/65595", "percentage": "94.83%", "elapsed_time": "3d 2h 31m 48s", "remaining_time": "4h 3m 42s"}
+{"loss": 0.02180907, "token_acc": 0.98783373, "grad_norm": 1.37388849, "learning_rate": 6.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231845, "epoch": 4.74197728, "global_step/max_steps": "62210/65595", "percentage": "94.84%", "elapsed_time": "3d 2h 32m 3s", "remaining_time": "4h 3m 20s"}
+{"loss": 0.04933923, "token_acc": 0.98431917, "grad_norm": 0.94539493, "learning_rate": 6.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231849, "epoch": 4.74235841, "global_step/max_steps": "62215/65595", "percentage": "94.85%", "elapsed_time": "3d 2h 32m 21s", "remaining_time": "4h 2m 58s"}
+{"loss": 0.02582308, "token_acc": 0.98766859, "grad_norm": 1.95856464, "learning_rate": 6.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231854, "epoch": 4.74273954, "global_step/max_steps": "62220/65595", "percentage": "94.85%", "elapsed_time": "3d 2h 32m 35s", "remaining_time": "4h 2m 36s"}
+{"loss": 0.02454625, "token_acc": 0.98144139, "grad_norm": 1.08337617, "learning_rate": 6.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23186, "epoch": 4.74312066, "global_step/max_steps": "62225/65595", "percentage": "94.86%", "elapsed_time": "3d 2h 32m 51s", "remaining_time": "4h 2m 14s"}
+{"loss": 0.04541406, "token_acc": 0.98542714, "grad_norm": 1.99657094, "learning_rate": 6.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231864, "epoch": 4.74350179, "global_step/max_steps": "62230/65595", "percentage": "94.87%", "elapsed_time": "3d 2h 33m 8s", "remaining_time": "4h 1m 52s"}
+{"loss": 0.02768689, "token_acc": 0.98835275, "grad_norm": 0.9628796, "learning_rate": 6.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231869, "epoch": 4.74388292, "global_step/max_steps": "62235/65595", "percentage": "94.88%", "elapsed_time": "3d 2h 33m 23s", "remaining_time": "4h 1m 30s"}
+{"loss": 0.03241329, "token_acc": 0.98442311, "grad_norm": 1.10975158, "learning_rate": 6.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231872, "epoch": 4.74426404, "global_step/max_steps": "62240/65595", "percentage": "94.89%", "elapsed_time": "3d 2h 33m 41s", "remaining_time": "4h 1m 9s"}
+{"loss": 0.02875047, "token_acc": 0.98645465, "grad_norm": 0.21415046, "learning_rate": 6.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231879, "epoch": 4.74464517, "global_step/max_steps": "62245/65595", "percentage": "94.89%", "elapsed_time": "3d 2h 33m 55s", "remaining_time": "4h 0m 47s"}
+{"loss": 0.02609841, "token_acc": 0.99027492, "grad_norm": 1.98998058, "learning_rate": 6.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231881, "epoch": 4.7450263, "global_step/max_steps": "62250/65595", "percentage": "94.90%", "elapsed_time": "3d 2h 34m 14s", "remaining_time": "4h 0m 25s"}
+{"loss": 0.0217923, "token_acc": 0.98860553, "grad_norm": 0.86321932, "learning_rate": 6.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231885, "epoch": 4.74540742, "global_step/max_steps": "62255/65595", "percentage": "94.91%", "elapsed_time": "3d 2h 34m 31s", "remaining_time": "4h 0m 3s"}
+{"loss": 0.0205956, "token_acc": 0.98983387, "grad_norm": 0.87612385, "learning_rate": 6.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231889, "epoch": 4.74578855, "global_step/max_steps": "62260/65595", "percentage": "94.92%", "elapsed_time": "3d 2h 34m 47s", "remaining_time": "3h 59m 41s"}
+{"loss": 0.02895288, "token_acc": 0.98836191, "grad_norm": 1.70939064, "learning_rate": 6.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231891, "epoch": 4.74616968, "global_step/max_steps": "62265/65595", "percentage": "94.92%", "elapsed_time": "3d 2h 35m 7s", "remaining_time": "3h 59m 20s"}
+{"loss": 0.02614383, "token_acc": 0.98809524, "grad_norm": 1.08519673, "learning_rate": 6.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231897, "epoch": 4.7465508, "global_step/max_steps": "62270/65595", "percentage": "94.93%", "elapsed_time": "3d 2h 35m 22s", "remaining_time": "3h 58m 58s"}
+{"loss": 0.02856022, "token_acc": 0.99073731, "grad_norm": 1.1354301, "learning_rate": 6.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231903, "epoch": 4.74693193, "global_step/max_steps": "62275/65595", "percentage": "94.94%", "elapsed_time": "3d 2h 35m 36s", "remaining_time": "3h 58m 36s"}
+{"loss": 0.02938147, "token_acc": 0.9894373, "grad_norm": 0.74415261, "learning_rate": 6.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231905, "epoch": 4.74731306, "global_step/max_steps": "62280/65595", "percentage": "94.95%", "elapsed_time": "3d 2h 35m 55s", "remaining_time": "3h 58m 14s"}
+{"loss": 0.02637208, "token_acc": 0.98592932, "grad_norm": 2.03067374, "learning_rate": 6.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231911, "epoch": 4.74769418, "global_step/max_steps": "62285/65595", "percentage": "94.95%", "elapsed_time": "3d 2h 36m 10s", "remaining_time": "3h 57m 52s"}
+{"loss": 0.02447264, "token_acc": 0.9893617, "grad_norm": 1.97862637, "learning_rate": 6.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231915, "epoch": 4.74807531, "global_step/max_steps": "62290/65595", "percentage": "94.96%", "elapsed_time": "3d 2h 36m 27s", "remaining_time": "3h 57m 30s"}
+{"loss": 0.04496138, "token_acc": 0.9790241, "grad_norm": 1.44588482, "learning_rate": 6.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231918, "epoch": 4.74845644, "global_step/max_steps": "62295/65595", "percentage": "94.97%", "elapsed_time": "3d 2h 36m 45s", "remaining_time": "3h 57m 9s"}
+{"loss": 0.01831356, "token_acc": 0.99045888, "grad_norm": 0.82537836, "learning_rate": 6.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231921, "epoch": 4.74883756, "global_step/max_steps": "62300/65595", "percentage": "94.98%", "elapsed_time": "3d 2h 37m 3s", "remaining_time": "3h 56m 47s"}
+{"loss": 0.02432799, "token_acc": 0.99070385, "grad_norm": 0.73126179, "learning_rate": 6.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231919, "epoch": 4.74921869, "global_step/max_steps": "62305/65595", "percentage": "94.98%", "elapsed_time": "3d 2h 37m 28s", "remaining_time": "3h 56m 25s"}
+{"loss": 0.03758768, "token_acc": 0.98443936, "grad_norm": 1.6132623, "learning_rate": 6.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231925, "epoch": 4.74959982, "global_step/max_steps": "62310/65595", "percentage": "94.99%", "elapsed_time": "3d 2h 37m 42s", "remaining_time": "3h 56m 3s"}
+{"loss": 0.01992135, "token_acc": 0.98963466, "grad_norm": 1.49227583, "learning_rate": 6.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231928, "epoch": 4.74998094, "global_step/max_steps": "62315/65595", "percentage": "95.00%", "elapsed_time": "3d 2h 38m 0s", "remaining_time": "3h 55m 42s"}
+{"loss": 0.0344273, "token_acc": 0.98776978, "grad_norm": 0.00054923, "learning_rate": 6.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231933, "epoch": 4.75036207, "global_step/max_steps": "62320/65595", "percentage": "95.01%", "elapsed_time": "3d 2h 38m 15s", "remaining_time": "3h 55m 20s"}
+{"loss": 0.03334043, "token_acc": 0.98676108, "grad_norm": 3.06451535, "learning_rate": 6.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231939, "epoch": 4.7507432, "global_step/max_steps": "62325/65595", "percentage": "95.01%", "elapsed_time": "3d 2h 38m 30s", "remaining_time": "3h 54m 58s"}
+{"loss": 0.06582322, "token_acc": 0.975, "grad_norm": 0.83218485, "learning_rate": 6.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231944, "epoch": 4.75112432, "global_step/max_steps": "62330/65595", "percentage": "95.02%", "elapsed_time": "3d 2h 38m 46s", "remaining_time": "3h 54m 36s"}
+{"loss": 0.03961111, "token_acc": 0.98443753, "grad_norm": 1.69971871, "learning_rate": 6.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231948, "epoch": 4.75150545, "global_step/max_steps": "62335/65595", "percentage": "95.03%", "elapsed_time": "3d 2h 39m 3s", "remaining_time": "3h 54m 14s"}
+{"loss": 0.04903178, "token_acc": 0.98417806, "grad_norm": 3.15550923, "learning_rate": 6.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231953, "epoch": 4.75188658, "global_step/max_steps": "62340/65595", "percentage": "95.04%", "elapsed_time": "3d 2h 39m 18s", "remaining_time": "3h 53m 52s"}
+{"loss": 0.02441655, "token_acc": 0.99066468, "grad_norm": 1.44476247, "learning_rate": 6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231959, "epoch": 4.7522677, "global_step/max_steps": "62345/65595", "percentage": "95.05%", "elapsed_time": "3d 2h 39m 33s", "remaining_time": "3h 53m 30s"}
+{"loss": 0.04181149, "token_acc": 0.99123867, "grad_norm": 1.1554879, "learning_rate": 6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231965, "epoch": 4.75264883, "global_step/max_steps": "62350/65595", "percentage": "95.05%", "elapsed_time": "3d 2h 39m 48s", "remaining_time": "3h 53m 9s"}
+{"loss": 0.01479737, "token_acc": 0.99054768, "grad_norm": 1.22153652, "learning_rate": 6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23197, "epoch": 4.75302996, "global_step/max_steps": "62355/65595", "percentage": "95.06%", "elapsed_time": "3d 2h 40m 3s", "remaining_time": "3h 52m 47s"}
+{"loss": 0.03001357, "token_acc": 0.99055818, "grad_norm": 2.38722444, "learning_rate": 6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231972, "epoch": 4.75341108, "global_step/max_steps": "62360/65595", "percentage": "95.07%", "elapsed_time": "3d 2h 40m 23s", "remaining_time": "3h 52m 25s"}
+{"loss": 0.04754049, "token_acc": 0.98701299, "grad_norm": 1.14595139, "learning_rate": 6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231974, "epoch": 4.75379221, "global_step/max_steps": "62365/65595", "percentage": "95.08%", "elapsed_time": "3d 2h 40m 42s", "remaining_time": "3h 52m 3s"}
+{"loss": 0.02701812, "token_acc": 0.98652695, "grad_norm": 0.96390915, "learning_rate": 6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231978, "epoch": 4.75417334, "global_step/max_steps": "62370/65595", "percentage": "95.08%", "elapsed_time": "3d 2h 40m 59s", "remaining_time": "3h 51m 42s"}
+{"loss": 0.03779638, "token_acc": 0.99053498, "grad_norm": 0.96351272, "learning_rate": 5.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231982, "epoch": 4.75455446, "global_step/max_steps": "62375/65595", "percentage": "95.09%", "elapsed_time": "3d 2h 41m 16s", "remaining_time": "3h 51m 20s"}
+{"loss": 0.04272338, "token_acc": 0.98178188, "grad_norm": 1.66908193, "learning_rate": 5.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231985, "epoch": 4.75493559, "global_step/max_steps": "62380/65595", "percentage": "95.10%", "elapsed_time": "3d 2h 41m 33s", "remaining_time": "3h 50m 58s"}
+{"loss": 0.02480891, "token_acc": 0.98963111, "grad_norm": 0.78763956, "learning_rate": 5.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231989, "epoch": 4.75531672, "global_step/max_steps": "62385/65595", "percentage": "95.11%", "elapsed_time": "3d 2h 41m 50s", "remaining_time": "3h 50m 36s"}
+{"loss": 0.02863585, "token_acc": 0.98428732, "grad_norm": 0.60034651, "learning_rate": 5.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231995, "epoch": 4.75569784, "global_step/max_steps": "62390/65595", "percentage": "95.11%", "elapsed_time": "3d 2h 42m 5s", "remaining_time": "3h 50m 14s"}
+{"loss": 0.03112586, "token_acc": 0.98534697, "grad_norm": 0.92499733, "learning_rate": 5.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231999, "epoch": 4.75607897, "global_step/max_steps": "62395/65595", "percentage": "95.12%", "elapsed_time": "3d 2h 42m 22s", "remaining_time": "3h 49m 53s"}
+{"loss": 0.03501253, "token_acc": 0.99169119, "grad_norm": 1.48789668, "learning_rate": 5.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232002, "epoch": 4.7564601, "global_step/max_steps": "62400/65595", "percentage": "95.13%", "elapsed_time": "3d 2h 42m 40s", "remaining_time": "3h 49m 31s"}
+{"eval_loss": 0.04716079, "eval_token_acc": 0.98098006, "eval_runtime": 220.1925, "eval_samples_per_second": 2.407, "eval_steps_per_second": 2.407, "epoch": 4.7564601, "global_step/max_steps": "62400/65595", "percentage": "95.13%", "elapsed_time": "3d 2h 46m 20s", "remaining_time": "3h 49m 42s"}
+{"loss": 0.02963381, "token_acc": 0.98139896, "grad_norm": 1.02136922, "learning_rate": 5.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231815, "epoch": 4.75684122, "global_step/max_steps": "62405/65595", "percentage": "95.14%", "elapsed_time": "3d 2h 46m 39s", "remaining_time": "3h 49m 20s"}
+{"loss": 0.03304466, "token_acc": 0.99103612, "grad_norm": 0.56509912, "learning_rate": 5.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23182, "epoch": 4.75722235, "global_step/max_steps": "62410/65595", "percentage": "95.14%", "elapsed_time": "3d 2h 46m 55s", "remaining_time": "3h 48m 59s"}
+{"loss": 0.0508383, "token_acc": 0.98684499, "grad_norm": 0.71096724, "learning_rate": 5.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231823, "epoch": 4.75760348, "global_step/max_steps": "62415/65595", "percentage": "95.15%", "elapsed_time": "3d 2h 47m 13s", "remaining_time": "3h 48m 37s"}
+{"loss": 0.03181655, "token_acc": 0.9907884, "grad_norm": 1.00598001, "learning_rate": 5.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231828, "epoch": 4.7579846, "global_step/max_steps": "62420/65595", "percentage": "95.16%", "elapsed_time": "3d 2h 47m 29s", "remaining_time": "3h 48m 15s"}
+{"loss": 0.02930476, "token_acc": 0.98705866, "grad_norm": 1.9135834, "learning_rate": 5.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231831, "epoch": 4.75836573, "global_step/max_steps": "62425/65595", "percentage": "95.17%", "elapsed_time": "3d 2h 47m 47s", "remaining_time": "3h 47m 53s"}
+{"loss": 0.01368329, "token_acc": 0.99378083, "grad_norm": 1.1706748, "learning_rate": 5.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231835, "epoch": 4.75874686, "global_step/max_steps": "62430/65595", "percentage": "95.17%", "elapsed_time": "3d 2h 48m 4s", "remaining_time": "3h 47m 31s"}
+{"loss": 0.03754612, "token_acc": 0.98667586, "grad_norm": 0.68380612, "learning_rate": 5.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231834, "epoch": 4.75912798, "global_step/max_steps": "62435/65595", "percentage": "95.18%", "elapsed_time": "3d 2h 48m 26s", "remaining_time": "3h 47m 10s"}
+{"loss": 0.02070359, "token_acc": 0.99167275, "grad_norm": 0.91378063, "learning_rate": 5.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231836, "epoch": 4.75950911, "global_step/max_steps": "62440/65595", "percentage": "95.19%", "elapsed_time": "3d 2h 48m 46s", "remaining_time": "3h 46m 48s"}
+{"loss": 0.03472551, "token_acc": 0.98694613, "grad_norm": 2.27642298, "learning_rate": 5.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231839, "epoch": 4.75989024, "global_step/max_steps": "62445/65595", "percentage": "95.20%", "elapsed_time": "3d 2h 49m 4s", "remaining_time": "3h 46m 26s"}
+{"loss": 0.04124759, "token_acc": 0.98174746, "grad_norm": 1.68561769, "learning_rate": 5.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231844, "epoch": 4.76027136, "global_step/max_steps": "62450/65595", "percentage": "95.21%", "elapsed_time": "3d 2h 49m 19s", "remaining_time": "3h 46m 5s"}
+{"loss": 0.02724032, "token_acc": 0.9877313, "grad_norm": 0.99909687, "learning_rate": 5.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231848, "epoch": 4.76065249, "global_step/max_steps": "62455/65595", "percentage": "95.21%", "elapsed_time": "3d 2h 49m 37s", "remaining_time": "3h 45m 43s"}
+{"loss": 0.04734381, "token_acc": 0.98404628, "grad_norm": 1.72262704, "learning_rate": 5.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231851, "epoch": 4.76103362, "global_step/max_steps": "62460/65595", "percentage": "95.22%", "elapsed_time": "3d 2h 49m 54s", "remaining_time": "3h 45m 21s"}
+{"loss": 0.02780659, "token_acc": 0.99242086, "grad_norm": 2.63653255, "learning_rate": 5.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231855, "epoch": 4.76141474, "global_step/max_steps": "62465/65595", "percentage": "95.23%", "elapsed_time": "3d 2h 50m 11s", "remaining_time": "3h 44m 59s"}
+{"loss": 0.03544677, "token_acc": 0.98966408, "grad_norm": 0.65517437, "learning_rate": 5.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231857, "epoch": 4.76179587, "global_step/max_steps": "62470/65595", "percentage": "95.24%", "elapsed_time": "3d 2h 50m 31s", "remaining_time": "3h 44m 38s"}
+{"loss": 0.0258576, "token_acc": 0.99061449, "grad_norm": 1.07034361, "learning_rate": 5.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23186, "epoch": 4.762177, "global_step/max_steps": "62475/65595", "percentage": "95.24%", "elapsed_time": "3d 2h 50m 49s", "remaining_time": "3h 44m 16s"}
+{"loss": 0.02224053, "token_acc": 0.99106966, "grad_norm": 1.12626195, "learning_rate": 5.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231864, "epoch": 4.76255812, "global_step/max_steps": "62480/65595", "percentage": "95.25%", "elapsed_time": "3d 2h 51m 6s", "remaining_time": "3h 43m 54s"}
+{"loss": 0.0456272, "token_acc": 0.98094598, "grad_norm": 0.96272177, "learning_rate": 5.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231869, "epoch": 4.76293925, "global_step/max_steps": "62485/65595", "percentage": "95.26%", "elapsed_time": "3d 2h 51m 21s", "remaining_time": "3h 43m 32s"}
+{"loss": 0.01992851, "token_acc": 0.98637396, "grad_norm": 2.37673545, "learning_rate": 5.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231874, "epoch": 4.76332038, "global_step/max_steps": "62490/65595", "percentage": "95.27%", "elapsed_time": "3d 2h 51m 37s", "remaining_time": "3h 43m 10s"}
+{"loss": 0.0313721, "token_acc": 0.98701566, "grad_norm": 1.88136303, "learning_rate": 5.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231878, "epoch": 4.7637015, "global_step/max_steps": "62495/65595", "percentage": "95.27%", "elapsed_time": "3d 2h 51m 54s", "remaining_time": "3h 42m 48s"}
+{"loss": 0.02145342, "token_acc": 0.9926522, "grad_norm": 1.95619977, "learning_rate": 5.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231884, "epoch": 4.76408263, "global_step/max_steps": "62500/65595", "percentage": "95.28%", "elapsed_time": "3d 2h 52m 8s", "remaining_time": "3h 42m 27s"}
+{"loss": 0.05595534, "token_acc": 0.97757136, "grad_norm": 2.38916469, "learning_rate": 5.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231888, "epoch": 4.76446375, "global_step/max_steps": "62505/65595", "percentage": "95.29%", "elapsed_time": "3d 2h 52m 26s", "remaining_time": "3h 42m 5s"}
+{"loss": 0.03650898, "token_acc": 0.98247908, "grad_norm": 1.02001369, "learning_rate": 5.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231893, "epoch": 4.76484488, "global_step/max_steps": "62510/65595", "percentage": "95.30%", "elapsed_time": "3d 2h 52m 41s", "remaining_time": "3h 41m 43s"}
+{"loss": 0.03666797, "token_acc": 0.98442368, "grad_norm": 1.54673529, "learning_rate": 5.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231898, "epoch": 4.76522601, "global_step/max_steps": "62515/65595", "percentage": "95.30%", "elapsed_time": "3d 2h 52m 57s", "remaining_time": "3h 41m 21s"}
+{"loss": 0.03494621, "token_acc": 0.98412698, "grad_norm": 1.31676102, "learning_rate": 5.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231902, "epoch": 4.76560713, "global_step/max_steps": "62520/65595", "percentage": "95.31%", "elapsed_time": "3d 2h 53m 14s", "remaining_time": "3h 40m 59s"}
+{"loss": 0.0179752, "token_acc": 0.98906486, "grad_norm": 0.99782443, "learning_rate": 5.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231908, "epoch": 4.76598826, "global_step/max_steps": "62525/65595", "percentage": "95.32%", "elapsed_time": "3d 2h 53m 29s", "remaining_time": "3h 40m 37s"}
+{"loss": 0.01723694, "token_acc": 0.99377885, "grad_norm": 0.7265721, "learning_rate": 5.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231911, "epoch": 4.76636939, "global_step/max_steps": "62530/65595", "percentage": "95.33%", "elapsed_time": "3d 2h 53m 46s", "remaining_time": "3h 40m 16s"}
+{"loss": 0.01352825, "token_acc": 0.99386937, "grad_norm": 0.6945504, "learning_rate": 5.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231915, "epoch": 4.76675051, "global_step/max_steps": "62535/65595", "percentage": "95.34%", "elapsed_time": "3d 2h 54m 3s", "remaining_time": "3h 39m 54s"}
+{"loss": 0.01474086, "token_acc": 0.99443612, "grad_norm": 0.36731958, "learning_rate": 5.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231919, "epoch": 4.76713164, "global_step/max_steps": "62540/65595", "percentage": "95.34%", "elapsed_time": "3d 2h 54m 21s", "remaining_time": "3h 39m 32s"}
+{"loss": 0.03522383, "token_acc": 0.9870109, "grad_norm": 0.94588202, "learning_rate": 5.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231922, "epoch": 4.76751277, "global_step/max_steps": "62545/65595", "percentage": "95.35%", "elapsed_time": "3d 2h 54m 39s", "remaining_time": "3h 39m 10s"}
+{"loss": 0.03572394, "token_acc": 0.98900524, "grad_norm": 0.75754094, "learning_rate": 5.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231927, "epoch": 4.76789389, "global_step/max_steps": "62550/65595", "percentage": "95.36%", "elapsed_time": "3d 2h 54m 54s", "remaining_time": "3h 38m 49s"}
+{"loss": 0.02583631, "token_acc": 0.98924468, "grad_norm": 1.09453773, "learning_rate": 5.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23193, "epoch": 4.76827502, "global_step/max_steps": "62555/65595", "percentage": "95.37%", "elapsed_time": "3d 2h 55m 12s", "remaining_time": "3h 38m 27s"}
+{"loss": 0.02612438, "token_acc": 0.99014972, "grad_norm": 0.97550488, "learning_rate": 5.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231935, "epoch": 4.76865615, "global_step/max_steps": "62560/65595", "percentage": "95.37%", "elapsed_time": "3d 2h 55m 28s", "remaining_time": "3h 38m 5s"}
+{"loss": 0.03251497, "token_acc": 0.98422091, "grad_norm": 0.78759277, "learning_rate": 5.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23194, "epoch": 4.76903727, "global_step/max_steps": "62565/65595", "percentage": "95.38%", "elapsed_time": "3d 2h 55m 44s", "remaining_time": "3h 37m 43s"}
+{"loss": 0.03806656, "token_acc": 0.98640297, "grad_norm": 1.18089187, "learning_rate": 5.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231944, "epoch": 4.7694184, "global_step/max_steps": "62570/65595", "percentage": "95.39%", "elapsed_time": "3d 2h 56m 1s", "remaining_time": "3h 37m 21s"}
+{"loss": 0.02997133, "token_acc": 0.98765795, "grad_norm": 1.16377604, "learning_rate": 5.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231947, "epoch": 4.76979953, "global_step/max_steps": "62575/65595", "percentage": "95.40%", "elapsed_time": "3d 2h 56m 18s", "remaining_time": "3h 37m 0s"}
+{"loss": 0.03605891, "token_acc": 0.98852841, "grad_norm": 0.58174461, "learning_rate": 5.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23195, "epoch": 4.77018065, "global_step/max_steps": "62580/65595", "percentage": "95.40%", "elapsed_time": "3d 2h 56m 37s", "remaining_time": "3h 36m 38s"}
+{"loss": 0.0308144, "token_acc": 0.98820004, "grad_norm": 1.42011607, "learning_rate": 5.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231953, "epoch": 4.77056178, "global_step/max_steps": "62585/65595", "percentage": "95.41%", "elapsed_time": "3d 2h 56m 55s", "remaining_time": "3h 36m 16s"}
+{"loss": 0.02942414, "token_acc": 0.98833652, "grad_norm": 0.80101067, "learning_rate": 5.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231957, "epoch": 4.77094291, "global_step/max_steps": "62590/65595", "percentage": "95.42%", "elapsed_time": "3d 2h 57m 12s", "remaining_time": "3h 35m 54s"}
+{"loss": 0.03727589, "token_acc": 0.98507463, "grad_norm": 1.04889154, "learning_rate": 5.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231962, "epoch": 4.77132403, "global_step/max_steps": "62595/65595", "percentage": "95.43%", "elapsed_time": "3d 2h 57m 27s", "remaining_time": "3h 35m 33s"}
+{"loss": 0.02356186, "token_acc": 0.99078766, "grad_norm": 1.64802551, "learning_rate": 5.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231966, "epoch": 4.77170516, "global_step/max_steps": "62600/65595", "percentage": "95.43%", "elapsed_time": "3d 2h 57m 44s", "remaining_time": "3h 35m 11s"}
+{"eval_loss": 0.04693402, "eval_token_acc": 0.98106289, "eval_runtime": 219.4664, "eval_samples_per_second": 2.415, "eval_steps_per_second": 2.415, "epoch": 4.77170516, "global_step/max_steps": "62600/65595", "percentage": "95.43%", "elapsed_time": "3d 3h 1m 23s", "remaining_time": "3h 35m 21s"}
+{"loss": 0.04506607, "token_acc": 0.98122853, "grad_norm": 2.22419143, "learning_rate": 5.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231778, "epoch": 4.77208629, "global_step/max_steps": "62605/65595", "percentage": "95.44%", "elapsed_time": "3d 3h 1m 45s", "remaining_time": "3h 35m 0s"}
+{"loss": 0.03577405, "token_acc": 0.98400175, "grad_norm": 1.2512331, "learning_rate": 5.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231783, "epoch": 4.77246741, "global_step/max_steps": "62610/65595", "percentage": "95.45%", "elapsed_time": "3d 3h 2m 1s", "remaining_time": "3h 34m 38s"}
+{"loss": 0.02062277, "token_acc": 0.99330523, "grad_norm": 1.01796889, "learning_rate": 5.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231787, "epoch": 4.77284854, "global_step/max_steps": "62615/65595", "percentage": "95.46%", "elapsed_time": "3d 3h 2m 18s", "remaining_time": "3h 34m 16s"}
+{"loss": 0.03325316, "token_acc": 0.98638519, "grad_norm": 0.85497111, "learning_rate": 5.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231789, "epoch": 4.77322967, "global_step/max_steps": "62620/65595", "percentage": "95.46%", "elapsed_time": "3d 3h 2m 36s", "remaining_time": "3h 33m 54s"}
+{"loss": 0.03270209, "token_acc": 0.99241036, "grad_norm": 3.89694834, "learning_rate": 5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231794, "epoch": 4.77361079, "global_step/max_steps": "62625/65595", "percentage": "95.47%", "elapsed_time": "3d 3h 2m 53s", "remaining_time": "3h 33m 32s"}
+{"loss": 0.02458725, "token_acc": 0.99053405, "grad_norm": 0.65850586, "learning_rate": 5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231796, "epoch": 4.77399192, "global_step/max_steps": "62630/65595", "percentage": "95.48%", "elapsed_time": "3d 3h 3m 11s", "remaining_time": "3h 33m 11s"}
+{"loss": 0.02192717, "token_acc": 0.99189127, "grad_norm": 0.82189679, "learning_rate": 5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231798, "epoch": 4.77437305, "global_step/max_steps": "62635/65595", "percentage": "95.49%", "elapsed_time": "3d 3h 3m 31s", "remaining_time": "3h 32m 49s"}
+{"loss": 0.02788855, "token_acc": 0.98787375, "grad_norm": 0.8402375, "learning_rate": 5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231801, "epoch": 4.77475417, "global_step/max_steps": "62640/65595", "percentage": "95.50%", "elapsed_time": "3d 3h 3m 49s", "remaining_time": "3h 32m 27s"}
+{"loss": 0.01651356, "token_acc": 0.99235669, "grad_norm": 1.52690911, "learning_rate": 5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231808, "epoch": 4.7751353, "global_step/max_steps": "62645/65595", "percentage": "95.50%", "elapsed_time": "3d 3h 4m 2s", "remaining_time": "3h 32m 5s"}
+{"loss": 0.04495646, "token_acc": 0.98734965, "grad_norm": 2.24418855, "learning_rate": 5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231813, "epoch": 4.77551643, "global_step/max_steps": "62650/65595", "percentage": "95.51%", "elapsed_time": "3d 3h 4m 18s", "remaining_time": "3h 31m 44s"}
+{"loss": 0.02423515, "token_acc": 0.98871409, "grad_norm": 0.91901052, "learning_rate": 4.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231815, "epoch": 4.77589755, "global_step/max_steps": "62655/65595", "percentage": "95.52%", "elapsed_time": "3d 3h 4m 37s", "remaining_time": "3h 31m 22s"}
+{"loss": 0.02572435, "token_acc": 0.9901088, "grad_norm": 1.35444593, "learning_rate": 4.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231818, "epoch": 4.77627868, "global_step/max_steps": "62660/65595", "percentage": "95.53%", "elapsed_time": "3d 3h 4m 55s", "remaining_time": "3h 31m 0s"}
+{"loss": 0.03743478, "token_acc": 0.98865276, "grad_norm": 4.32785463, "learning_rate": 4.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231818, "epoch": 4.77665981, "global_step/max_steps": "62665/65595", "percentage": "95.53%", "elapsed_time": "3d 3h 5m 17s", "remaining_time": "3h 30m 39s"}
+{"loss": 0.02070882, "token_acc": 0.98984639, "grad_norm": 0.65623391, "learning_rate": 4.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231823, "epoch": 4.77704093, "global_step/max_steps": "62670/65595", "percentage": "95.54%", "elapsed_time": "3d 3h 5m 33s", "remaining_time": "3h 30m 17s"}
+{"loss": 0.02966776, "token_acc": 0.98894425, "grad_norm": 2.04366398, "learning_rate": 4.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231826, "epoch": 4.77742206, "global_step/max_steps": "62675/65595", "percentage": "95.55%", "elapsed_time": "3d 3h 5m 50s", "remaining_time": "3h 29m 55s"}
+{"loss": 0.02962102, "token_acc": 0.98783629, "grad_norm": 1.16421437, "learning_rate": 4.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231827, "epoch": 4.77780319, "global_step/max_steps": "62680/65595", "percentage": "95.56%", "elapsed_time": "3d 3h 6m 12s", "remaining_time": "3h 29m 33s"}
+{"loss": 0.02497588, "token_acc": 0.98621654, "grad_norm": 1.42334926, "learning_rate": 4.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231829, "epoch": 4.77818431, "global_step/max_steps": "62685/65595", "percentage": "95.56%", "elapsed_time": "3d 3h 6m 30s", "remaining_time": "3h 29m 12s"}
+{"loss": 0.01600744, "token_acc": 0.99037139, "grad_norm": 0.22307444, "learning_rate": 4.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231833, "epoch": 4.77856544, "global_step/max_steps": "62690/65595", "percentage": "95.57%", "elapsed_time": "3d 3h 6m 47s", "remaining_time": "3h 28m 50s"}
+{"loss": 0.02300964, "token_acc": 0.99231324, "grad_norm": 0.7013185, "learning_rate": 4.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231838, "epoch": 4.77894657, "global_step/max_steps": "62695/65595", "percentage": "95.58%", "elapsed_time": "3d 3h 7m 3s", "remaining_time": "3h 28m 28s"}
+{"loss": 0.02938429, "token_acc": 0.98939929, "grad_norm": 1.33412707, "learning_rate": 4.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23184, "epoch": 4.77932769, "global_step/max_steps": "62700/65595", "percentage": "95.59%", "elapsed_time": "3d 3h 7m 22s", "remaining_time": "3h 28m 6s"}
+{"loss": 0.02776591, "token_acc": 0.99006044, "grad_norm": 1.50462174, "learning_rate": 4.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231842, "epoch": 4.77970882, "global_step/max_steps": "62705/65595", "percentage": "95.59%", "elapsed_time": "3d 3h 7m 42s", "remaining_time": "3h 27m 45s"}
+{"loss": 0.03564045, "token_acc": 0.98564368, "grad_norm": 1.21914387, "learning_rate": 4.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231846, "epoch": 4.78008995, "global_step/max_steps": "62710/65595", "percentage": "95.60%", "elapsed_time": "3d 3h 7m 58s", "remaining_time": "3h 27m 23s"}
+{"loss": 0.04566242, "token_acc": 0.98142025, "grad_norm": 0.94449782, "learning_rate": 4.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231849, "epoch": 4.78047107, "global_step/max_steps": "62715/65595", "percentage": "95.61%", "elapsed_time": "3d 3h 8m 16s", "remaining_time": "3h 27m 1s"}
+{"loss": 0.03482695, "token_acc": 0.98695784, "grad_norm": 0.68968987, "learning_rate": 4.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231851, "epoch": 4.7808522, "global_step/max_steps": "62720/65595", "percentage": "95.62%", "elapsed_time": "3d 3h 8m 36s", "remaining_time": "3h 26m 40s"}
+{"loss": 0.02139241, "token_acc": 0.99160946, "grad_norm": 0.91600722, "learning_rate": 4.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231853, "epoch": 4.78123333, "global_step/max_steps": "62725/65595", "percentage": "95.62%", "elapsed_time": "3d 3h 8m 55s", "remaining_time": "3h 26m 18s"}
+{"loss": 0.03498616, "token_acc": 0.98504983, "grad_norm": 0.934668, "learning_rate": 4.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231857, "epoch": 4.78161445, "global_step/max_steps": "62730/65595", "percentage": "95.63%", "elapsed_time": "3d 3h 9m 12s", "remaining_time": "3h 25m 56s"}
+{"loss": 0.03120189, "token_acc": 0.98352554, "grad_norm": 1.29757059, "learning_rate": 4.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231862, "epoch": 4.78199558, "global_step/max_steps": "62735/65595", "percentage": "95.64%", "elapsed_time": "3d 3h 9m 28s", "remaining_time": "3h 25m 34s"}
+{"loss": 0.02988582, "token_acc": 0.98815661, "grad_norm": 1.0884558, "learning_rate": 4.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231865, "epoch": 4.78237671, "global_step/max_steps": "62740/65595", "percentage": "95.65%", "elapsed_time": "3d 3h 9m 46s", "remaining_time": "3h 25m 13s"}
+{"loss": 0.04001254, "token_acc": 0.9848268, "grad_norm": 1.69321108, "learning_rate": 4.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231865, "epoch": 4.78275783, "global_step/max_steps": "62745/65595", "percentage": "95.66%", "elapsed_time": "3d 3h 10m 7s", "remaining_time": "3h 24m 51s"}
+{"loss": 0.04118228, "token_acc": 0.98051123, "grad_norm": 1.39079285, "learning_rate": 4.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231867, "epoch": 4.78313896, "global_step/max_steps": "62750/65595", "percentage": "95.66%", "elapsed_time": "3d 3h 10m 27s", "remaining_time": "3h 24m 29s"}
+{"loss": 0.02443225, "token_acc": 0.98890339, "grad_norm": 0.68445313, "learning_rate": 4.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231869, "epoch": 4.78352009, "global_step/max_steps": "62755/65595", "percentage": "95.67%", "elapsed_time": "3d 3h 10m 46s", "remaining_time": "3h 24m 8s"}
+{"loss": 0.0253369, "token_acc": 0.98901949, "grad_norm": 1.2198782, "learning_rate": 4.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231873, "epoch": 4.78390121, "global_step/max_steps": "62760/65595", "percentage": "95.68%", "elapsed_time": "3d 3h 11m 3s", "remaining_time": "3h 23m 46s"}
+{"loss": 0.02390979, "token_acc": 0.99325139, "grad_norm": 1.93715703, "learning_rate": 4.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231878, "epoch": 4.78428234, "global_step/max_steps": "62765/65595", "percentage": "95.69%", "elapsed_time": "3d 3h 11m 19s", "remaining_time": "3h 23m 24s"}
+{"loss": 0.02518339, "token_acc": 0.98832146, "grad_norm": 2.16328263, "learning_rate": 4.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231882, "epoch": 4.78466347, "global_step/max_steps": "62770/65595", "percentage": "95.69%", "elapsed_time": "3d 3h 11m 36s", "remaining_time": "3h 23m 2s"}
+{"loss": 0.04961448, "token_acc": 0.98300221, "grad_norm": 1.75389421, "learning_rate": 4.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231885, "epoch": 4.78504459, "global_step/max_steps": "62775/65595", "percentage": "95.70%", "elapsed_time": "3d 3h 11m 53s", "remaining_time": "3h 22m 41s"}
+{"loss": 0.02752042, "token_acc": 0.98741007, "grad_norm": 0.82115179, "learning_rate": 4.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231889, "epoch": 4.78542572, "global_step/max_steps": "62780/65595", "percentage": "95.71%", "elapsed_time": "3d 3h 12m 11s", "remaining_time": "3h 22m 19s"}
+{"loss": 0.01908148, "token_acc": 0.99224953, "grad_norm": 1.92810667, "learning_rate": 4.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231893, "epoch": 4.78580685, "global_step/max_steps": "62785/65595", "percentage": "95.72%", "elapsed_time": "3d 3h 12m 27s", "remaining_time": "3h 21m 57s"}
+{"loss": 0.02234602, "token_acc": 0.99222126, "grad_norm": 1.5437454, "learning_rate": 4.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231897, "epoch": 4.78618797, "global_step/max_steps": "62790/65595", "percentage": "95.72%", "elapsed_time": "3d 3h 12m 44s", "remaining_time": "3h 21m 35s"}
+{"loss": 0.03302787, "token_acc": 0.98670566, "grad_norm": 2.17529249, "learning_rate": 4.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231902, "epoch": 4.7865691, "global_step/max_steps": "62795/65595", "percentage": "95.73%", "elapsed_time": "3d 3h 13m 0s", "remaining_time": "3h 21m 13s"}
+{"loss": 0.01971404, "token_acc": 0.99271282, "grad_norm": 0.93851453, "learning_rate": 4.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231908, "epoch": 4.78695022, "global_step/max_steps": "62800/65595", "percentage": "95.74%", "elapsed_time": "3d 3h 13m 15s", "remaining_time": "3h 20m 52s"}
+{"eval_loss": 0.04687352, "eval_token_acc": 0.98091229, "eval_runtime": 220.9384, "eval_samples_per_second": 2.399, "eval_steps_per_second": 2.399, "epoch": 4.78695022, "global_step/max_steps": "62800/65595", "percentage": "95.74%", "elapsed_time": "3d 3h 16m 56s", "remaining_time": "3h 21m 1s"}
+{"loss": 0.02114021, "token_acc": 0.98145918, "grad_norm": 0.67706639, "learning_rate": 4.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231721, "epoch": 4.78733135, "global_step/max_steps": "62805/65595", "percentage": "95.75%", "elapsed_time": "3d 3h 17m 15s", "remaining_time": "3h 20m 40s"}
+{"loss": 0.03847983, "token_acc": 0.98342246, "grad_norm": 1.34213448, "learning_rate": 4.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231727, "epoch": 4.78771248, "global_step/max_steps": "62810/65595", "percentage": "95.75%", "elapsed_time": "3d 3h 17m 29s", "remaining_time": "3h 20m 18s"}
+{"loss": 0.02283702, "token_acc": 0.98831886, "grad_norm": 0.69331002, "learning_rate": 4.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23173, "epoch": 4.7880936, "global_step/max_steps": "62815/65595", "percentage": "95.76%", "elapsed_time": "3d 3h 17m 47s", "remaining_time": "3h 19m 56s"}
+{"loss": 0.01403957, "token_acc": 0.99391974, "grad_norm": 2.59879565, "learning_rate": 4.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231735, "epoch": 4.78847473, "global_step/max_steps": "62820/65595", "percentage": "95.77%", "elapsed_time": "3d 3h 18m 2s", "remaining_time": "3h 19m 34s"}
+{"loss": 0.04708207, "token_acc": 0.98139256, "grad_norm": 1.7249819, "learning_rate": 4.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231739, "epoch": 4.78885586, "global_step/max_steps": "62825/65595", "percentage": "95.78%", "elapsed_time": "3d 3h 18m 20s", "remaining_time": "3h 19m 13s"}
+{"loss": 0.01698652, "token_acc": 0.99274262, "grad_norm": 1.19981623, "learning_rate": 4.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231742, "epoch": 4.78923698, "global_step/max_steps": "62830/65595", "percentage": "95.78%", "elapsed_time": "3d 3h 18m 38s", "remaining_time": "3h 18m 51s"}
+{"loss": 0.02178147, "token_acc": 0.98945805, "grad_norm": 0.19533002, "learning_rate": 4.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231746, "epoch": 4.78961811, "global_step/max_steps": "62835/65595", "percentage": "95.79%", "elapsed_time": "3d 3h 18m 55s", "remaining_time": "3h 18m 29s"}
+{"loss": 0.02966471, "token_acc": 0.98998419, "grad_norm": 1.01025748, "learning_rate": 4.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23175, "epoch": 4.78999924, "global_step/max_steps": "62840/65595", "percentage": "95.80%", "elapsed_time": "3d 3h 19m 11s", "remaining_time": "3h 18m 7s"}
+{"loss": 0.02815386, "token_acc": 0.99259259, "grad_norm": 0.8018893, "learning_rate": 4.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231755, "epoch": 4.79038036, "global_step/max_steps": "62845/65595", "percentage": "95.81%", "elapsed_time": "3d 3h 19m 28s", "remaining_time": "3h 17m 45s"}
+{"loss": 0.02002036, "token_acc": 0.99101847, "grad_norm": 1.11742067, "learning_rate": 4.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231758, "epoch": 4.79076149, "global_step/max_steps": "62850/65595", "percentage": "95.82%", "elapsed_time": "3d 3h 19m 45s", "remaining_time": "3h 17m 24s"}
+{"loss": 0.05269259, "token_acc": 0.98135066, "grad_norm": 2.82403684, "learning_rate": 4.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231764, "epoch": 4.79114262, "global_step/max_steps": "62855/65595", "percentage": "95.82%", "elapsed_time": "3d 3h 20m 0s", "remaining_time": "3h 17m 2s"}
+{"loss": 0.03694606, "token_acc": 0.98502231, "grad_norm": 0.92597991, "learning_rate": 4.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231769, "epoch": 4.79152374, "global_step/max_steps": "62860/65595", "percentage": "95.83%", "elapsed_time": "3d 3h 20m 16s", "remaining_time": "3h 16m 40s"}
+{"loss": 0.02567569, "token_acc": 0.98684211, "grad_norm": 1.42553544, "learning_rate": 4.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231773, "epoch": 4.79190487, "global_step/max_steps": "62865/65595", "percentage": "95.84%", "elapsed_time": "3d 3h 20m 32s", "remaining_time": "3h 16m 18s"}
+{"loss": 0.04000739, "token_acc": 0.98347458, "grad_norm": 0.47609106, "learning_rate": 4.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231776, "epoch": 4.792286, "global_step/max_steps": "62870/65595", "percentage": "95.85%", "elapsed_time": "3d 3h 20m 51s", "remaining_time": "3h 15m 56s"}
+{"loss": 0.04857101, "token_acc": 0.97767211, "grad_norm": 1.2595787, "learning_rate": 4.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23178, "epoch": 4.79266712, "global_step/max_steps": "62875/65595", "percentage": "95.85%", "elapsed_time": "3d 3h 21m 8s", "remaining_time": "3h 15m 35s"}
+{"loss": 0.0168611, "token_acc": 0.99351176, "grad_norm": 0.79806465, "learning_rate": 4.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231784, "epoch": 4.79304825, "global_step/max_steps": "62880/65595", "percentage": "95.86%", "elapsed_time": "3d 3h 21m 24s", "remaining_time": "3h 15m 13s"}
+{"loss": 0.03081633, "token_acc": 0.98877427, "grad_norm": 0.67025226, "learning_rate": 4.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231789, "epoch": 4.79342938, "global_step/max_steps": "62885/65595", "percentage": "95.87%", "elapsed_time": "3d 3h 21m 40s", "remaining_time": "3h 14m 51s"}
+{"loss": 0.01690306, "token_acc": 0.99322034, "grad_norm": 0.08056657, "learning_rate": 4.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231794, "epoch": 4.7938105, "global_step/max_steps": "62890/65595", "percentage": "95.88%", "elapsed_time": "3d 3h 21m 56s", "remaining_time": "3h 14m 29s"}
+{"loss": 0.01735968, "token_acc": 0.99216632, "grad_norm": 0.63697022, "learning_rate": 4.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231799, "epoch": 4.79419163, "global_step/max_steps": "62895/65595", "percentage": "95.88%", "elapsed_time": "3d 3h 22m 11s", "remaining_time": "3h 14m 7s"}
+{"loss": 0.01313075, "token_acc": 0.99417287, "grad_norm": 1.53356087, "learning_rate": 4.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231804, "epoch": 4.79457276, "global_step/max_steps": "62900/65595", "percentage": "95.89%", "elapsed_time": "3d 3h 22m 27s", "remaining_time": "3h 13m 46s"}
+{"loss": 0.03364245, "token_acc": 0.98204265, "grad_norm": 1.61173892, "learning_rate": 4.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231808, "epoch": 4.79495388, "global_step/max_steps": "62905/65595", "percentage": "95.90%", "elapsed_time": "3d 3h 22m 44s", "remaining_time": "3h 13m 24s"}
+{"loss": 0.03443013, "token_acc": 0.99020065, "grad_norm": 1.98090446, "learning_rate": 4.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231813, "epoch": 4.79533501, "global_step/max_steps": "62910/65595", "percentage": "95.91%", "elapsed_time": "3d 3h 23m 0s", "remaining_time": "3h 13m 2s"}
+{"loss": 0.02791816, "token_acc": 0.99088667, "grad_norm": 0.99027628, "learning_rate": 4.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231813, "epoch": 4.79571614, "global_step/max_steps": "62915/65595", "percentage": "95.91%", "elapsed_time": "3d 3h 23m 21s", "remaining_time": "3h 12m 40s"}
+{"loss": 0.02120277, "token_acc": 0.99205824, "grad_norm": 0.73667306, "learning_rate": 4.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23182, "epoch": 4.79609726, "global_step/max_steps": "62920/65595", "percentage": "95.92%", "elapsed_time": "3d 3h 23m 35s", "remaining_time": "3h 12m 19s"}
+{"loss": 0.01669573, "token_acc": 0.99127797, "grad_norm": 0.32609922, "learning_rate": 4.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231825, "epoch": 4.79647839, "global_step/max_steps": "62925/65595", "percentage": "95.93%", "elapsed_time": "3d 3h 23m 50s", "remaining_time": "3h 11m 57s"}
+{"loss": 0.02739084, "token_acc": 0.98694706, "grad_norm": 0.91128582, "learning_rate": 4.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231829, "epoch": 4.79685952, "global_step/max_steps": "62930/65595", "percentage": "95.94%", "elapsed_time": "3d 3h 24m 7s", "remaining_time": "3h 11m 35s"}
+{"loss": 0.03713294, "token_acc": 0.98548387, "grad_norm": 2.9881928, "learning_rate": 4.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231833, "epoch": 4.79724064, "global_step/max_steps": "62935/65595", "percentage": "95.94%", "elapsed_time": "3d 3h 24m 24s", "remaining_time": "3h 11m 13s"}
+{"loss": 0.0391715, "token_acc": 0.97856586, "grad_norm": 1.56798041, "learning_rate": 4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231837, "epoch": 4.79762177, "global_step/max_steps": "62940/65595", "percentage": "95.95%", "elapsed_time": "3d 3h 24m 41s", "remaining_time": "3h 10m 51s"}
+{"loss": 0.0282026, "token_acc": 0.98889961, "grad_norm": 0.31848493, "learning_rate": 4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231843, "epoch": 4.7980029, "global_step/max_steps": "62945/65595", "percentage": "95.96%", "elapsed_time": "3d 3h 24m 55s", "remaining_time": "3h 10m 30s"}
+{"loss": 0.04333561, "token_acc": 0.98328339, "grad_norm": 1.19216371, "learning_rate": 4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231847, "epoch": 4.79838402, "global_step/max_steps": "62950/65595", "percentage": "95.97%", "elapsed_time": "3d 3h 25m 13s", "remaining_time": "3h 10m 8s"}
+{"loss": 0.06382642, "token_acc": 0.97309115, "grad_norm": 1.04586542, "learning_rate": 4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231851, "epoch": 4.79876515, "global_step/max_steps": "62955/65595", "percentage": "95.98%", "elapsed_time": "3d 3h 25m 29s", "remaining_time": "3h 9m 46s"}
+{"loss": 0.03001713, "token_acc": 0.98898629, "grad_norm": 0.91632313, "learning_rate": 4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231855, "epoch": 4.79914628, "global_step/max_steps": "62960/65595", "percentage": "95.98%", "elapsed_time": "3d 3h 25m 46s", "remaining_time": "3h 9m 24s"}
+{"loss": 0.03238447, "token_acc": 0.98814134, "grad_norm": 1.67848051, "learning_rate": 4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23186, "epoch": 4.7995274, "global_step/max_steps": "62965/65595", "percentage": "95.99%", "elapsed_time": "3d 3h 26m 2s", "remaining_time": "3h 9m 2s"}
+{"loss": 0.03999952, "token_acc": 0.98429569, "grad_norm": 1.19869208, "learning_rate": 3.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231863, "epoch": 4.79990853, "global_step/max_steps": "62970/65595", "percentage": "96.00%", "elapsed_time": "3d 3h 26m 21s", "remaining_time": "3h 8m 41s"}
+{"loss": 0.02826565, "token_acc": 0.98906135, "grad_norm": 1.23010349, "learning_rate": 3.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231865, "epoch": 4.80028966, "global_step/max_steps": "62975/65595", "percentage": "96.01%", "elapsed_time": "3d 3h 26m 39s", "remaining_time": "3h 8m 19s"}
+{"loss": 0.02559392, "token_acc": 0.98899013, "grad_norm": 1.81537747, "learning_rate": 3.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23187, "epoch": 4.80067078, "global_step/max_steps": "62980/65595", "percentage": "96.01%", "elapsed_time": "3d 3h 26m 55s", "remaining_time": "3h 7m 57s"}
+{"loss": 0.0250342, "token_acc": 0.99069878, "grad_norm": 1.44845593, "learning_rate": 3.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231875, "epoch": 4.80105191, "global_step/max_steps": "62985/65595", "percentage": "96.02%", "elapsed_time": "3d 3h 27m 10s", "remaining_time": "3h 7m 35s"}
+{"loss": 0.04700169, "token_acc": 0.97833992, "grad_norm": 0.87720555, "learning_rate": 3.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231878, "epoch": 4.80143304, "global_step/max_steps": "62990/65595", "percentage": "96.03%", "elapsed_time": "3d 3h 27m 28s", "remaining_time": "3h 7m 14s"}
+{"loss": 0.03213859, "token_acc": 0.98802249, "grad_norm": 1.03761649, "learning_rate": 3.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231883, "epoch": 4.80181416, "global_step/max_steps": "62995/65595", "percentage": "96.04%", "elapsed_time": "3d 3h 27m 45s", "remaining_time": "3h 6m 52s"}
+{"loss": 0.02355343, "token_acc": 0.98875273, "grad_norm": 1.26664841, "learning_rate": 3.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231886, "epoch": 4.80219529, "global_step/max_steps": "63000/65595", "percentage": "96.04%", "elapsed_time": "3d 3h 28m 3s", "remaining_time": "3h 6m 30s"}
+{"eval_loss": 0.04697603, "eval_token_acc": 0.98100265, "eval_runtime": 219.2182, "eval_samples_per_second": 2.418, "eval_steps_per_second": 2.418, "epoch": 4.80219529, "global_step/max_steps": "63000/65595", "percentage": "96.04%", "elapsed_time": "3d 3h 31m 42s", "remaining_time": "3h 6m 39s"}
+{"loss": 0.01897578, "token_acc": 0.98125165, "grad_norm": 0.95642614, "learning_rate": 3.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231702, "epoch": 4.80257642, "global_step/max_steps": "63005/65595", "percentage": "96.05%", "elapsed_time": "3d 3h 31m 59s", "remaining_time": "3h 6m 18s"}
+{"loss": 0.03789075, "token_acc": 0.98709188, "grad_norm": 0.63007134, "learning_rate": 3.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231704, "epoch": 4.80295754, "global_step/max_steps": "63010/65595", "percentage": "96.06%", "elapsed_time": "3d 3h 32m 19s", "remaining_time": "3h 5m 56s"}
+{"loss": 0.02221546, "token_acc": 0.99051315, "grad_norm": 1.65596461, "learning_rate": 3.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231711, "epoch": 4.80333867, "global_step/max_steps": "63015/65595", "percentage": "96.07%", "elapsed_time": "3d 3h 32m 33s", "remaining_time": "3h 5m 34s"}
+{"loss": 0.01466372, "token_acc": 0.99188563, "grad_norm": 1.16854692, "learning_rate": 3.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231717, "epoch": 4.8037198, "global_step/max_steps": "63020/65595", "percentage": "96.07%", "elapsed_time": "3d 3h 32m 47s", "remaining_time": "3h 5m 12s"}
+{"loss": 0.03989016, "token_acc": 0.98602484, "grad_norm": 0.97038859, "learning_rate": 3.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23172, "epoch": 4.80410092, "global_step/max_steps": "63025/65595", "percentage": "96.08%", "elapsed_time": "3d 3h 33m 5s", "remaining_time": "3h 4m 50s"}
+{"loss": 0.02132368, "token_acc": 0.9921875, "grad_norm": 0.94764, "learning_rate": 3.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231724, "epoch": 4.80448205, "global_step/max_steps": "63030/65595", "percentage": "96.09%", "elapsed_time": "3d 3h 33m 21s", "remaining_time": "3h 4m 29s"}
+{"loss": 0.04156842, "token_acc": 0.98735178, "grad_norm": 1.2856133, "learning_rate": 3.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23173, "epoch": 4.80486318, "global_step/max_steps": "63035/65595", "percentage": "96.10%", "elapsed_time": "3d 3h 33m 36s", "remaining_time": "3h 4m 7s"}
+{"loss": 0.0309492, "token_acc": 0.98875562, "grad_norm": 2.24356484, "learning_rate": 3.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231736, "epoch": 4.8052443, "global_step/max_steps": "63040/65595", "percentage": "96.10%", "elapsed_time": "3d 3h 33m 51s", "remaining_time": "3h 3m 45s"}
+{"loss": 0.03716635, "token_acc": 0.9876506, "grad_norm": 0.88756686, "learning_rate": 3.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231741, "epoch": 4.80562543, "global_step/max_steps": "63045/65595", "percentage": "96.11%", "elapsed_time": "3d 3h 34m 7s", "remaining_time": "3h 3m 23s"}
+{"loss": 0.01666198, "token_acc": 0.99342891, "grad_norm": 0.62927425, "learning_rate": 3.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231746, "epoch": 4.80600656, "global_step/max_steps": "63050/65595", "percentage": "96.12%", "elapsed_time": "3d 3h 34m 22s", "remaining_time": "3h 3m 1s"}
+{"loss": 0.01516688, "token_acc": 0.99286564, "grad_norm": 1.11020613, "learning_rate": 3.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231752, "epoch": 4.80638768, "global_step/max_steps": "63055/65595", "percentage": "96.13%", "elapsed_time": "3d 3h 34m 37s", "remaining_time": "3h 2m 39s"}
+{"loss": 0.01713034, "token_acc": 0.98874598, "grad_norm": 0.55885911, "learning_rate": 3.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231753, "epoch": 4.80676881, "global_step/max_steps": "63060/65595", "percentage": "96.14%", "elapsed_time": "3d 3h 34m 57s", "remaining_time": "3h 2m 18s"}
+{"loss": 0.01334497, "token_acc": 0.9937664, "grad_norm": 0.00022453, "learning_rate": 3.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231759, "epoch": 4.80714994, "global_step/max_steps": "63065/65595", "percentage": "96.14%", "elapsed_time": "3d 3h 35m 12s", "remaining_time": "3h 1m 56s"}
+{"loss": 0.02962635, "token_acc": 0.98949955, "grad_norm": 0.94725251, "learning_rate": 3.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231763, "epoch": 4.80753106, "global_step/max_steps": "63070/65595", "percentage": "96.15%", "elapsed_time": "3d 3h 35m 29s", "remaining_time": "3h 1m 34s"}
+{"loss": 0.03310932, "token_acc": 0.9825988, "grad_norm": 1.07647955, "learning_rate": 3.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231767, "epoch": 4.80791219, "global_step/max_steps": "63075/65595", "percentage": "96.16%", "elapsed_time": "3d 3h 35m 46s", "remaining_time": "3h 1m 12s"}
+{"loss": 0.04004574, "token_acc": 0.99144174, "grad_norm": 0.72397858, "learning_rate": 3.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231771, "epoch": 4.80829332, "global_step/max_steps": "63080/65595", "percentage": "96.17%", "elapsed_time": "3d 3h 36m 3s", "remaining_time": "3h 0m 51s"}
+{"loss": 0.03008197, "token_acc": 0.98874296, "grad_norm": 1.54512918, "learning_rate": 3.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231776, "epoch": 4.80867444, "global_step/max_steps": "63085/65595", "percentage": "96.17%", "elapsed_time": "3d 3h 36m 18s", "remaining_time": "3h 0m 29s"}
+{"loss": 0.02376447, "token_acc": 0.99066179, "grad_norm": 0.91977543, "learning_rate": 3.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231779, "epoch": 4.80905557, "global_step/max_steps": "63090/65595", "percentage": "96.18%", "elapsed_time": "3d 3h 36m 36s", "remaining_time": "3h 0m 7s"}
+{"loss": 0.0370751, "token_acc": 0.98450502, "grad_norm": 1.28623378, "learning_rate": 3.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231781, "epoch": 4.80943669, "global_step/max_steps": "63095/65595", "percentage": "96.19%", "elapsed_time": "3d 3h 36m 55s", "remaining_time": "2h 59m 45s"}
+{"loss": 0.02521965, "token_acc": 0.98947536, "grad_norm": 0.35624862, "learning_rate": 3.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231784, "epoch": 4.80981782, "global_step/max_steps": "63100/65595", "percentage": "96.20%", "elapsed_time": "3d 3h 37m 14s", "remaining_time": "2h 59m 24s"}
+{"loss": 0.03258058, "token_acc": 0.98357964, "grad_norm": 0.87124771, "learning_rate": 3.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231788, "epoch": 4.81019895, "global_step/max_steps": "63105/65595", "percentage": "96.20%", "elapsed_time": "3d 3h 37m 30s", "remaining_time": "2h 59m 2s"}
+{"loss": 0.02015356, "token_acc": 0.99308961, "grad_norm": 0.46595016, "learning_rate": 3.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231792, "epoch": 4.81058007, "global_step/max_steps": "63110/65595", "percentage": "96.21%", "elapsed_time": "3d 3h 37m 47s", "remaining_time": "2h 58m 40s"}
+{"loss": 0.03812218, "token_acc": 0.98525493, "grad_norm": 1.56451631, "learning_rate": 3.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231796, "epoch": 4.8109612, "global_step/max_steps": "63115/65595", "percentage": "96.22%", "elapsed_time": "3d 3h 38m 4s", "remaining_time": "2h 58m 18s"}
+{"loss": 0.02219025, "token_acc": 0.99606385, "grad_norm": 0.31255126, "learning_rate": 3.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2318, "epoch": 4.81134233, "global_step/max_steps": "63120/65595", "percentage": "96.23%", "elapsed_time": "3d 3h 38m 21s", "remaining_time": "2h 57m 57s"}
+{"loss": 0.03771839, "token_acc": 0.988058, "grad_norm": 0.91724515, "learning_rate": 3.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231801, "epoch": 4.81172345, "global_step/max_steps": "63125/65595", "percentage": "96.23%", "elapsed_time": "3d 3h 38m 41s", "remaining_time": "2h 57m 35s"}
+{"loss": 0.05779516, "token_acc": 0.98337141, "grad_norm": 3.18511224, "learning_rate": 3.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231803, "epoch": 4.81210458, "global_step/max_steps": "63130/65595", "percentage": "96.24%", "elapsed_time": "3d 3h 39m 1s", "remaining_time": "2h 57m 13s"}
+{"loss": 0.06222885, "token_acc": 0.98011287, "grad_norm": 1.87571037, "learning_rate": 3.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231808, "epoch": 4.81248571, "global_step/max_steps": "63135/65595", "percentage": "96.25%", "elapsed_time": "3d 3h 39m 17s", "remaining_time": "2h 56m 52s"}
+{"loss": 0.03085375, "token_acc": 0.98830979, "grad_norm": 0.51179534, "learning_rate": 3.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231811, "epoch": 4.81286683, "global_step/max_steps": "63140/65595", "percentage": "96.26%", "elapsed_time": "3d 3h 39m 34s", "remaining_time": "2h 56m 30s"}
+{"loss": 0.03281426, "token_acc": 0.98728953, "grad_norm": 0.78037143, "learning_rate": 3.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231814, "epoch": 4.81324796, "global_step/max_steps": "63145/65595", "percentage": "96.26%", "elapsed_time": "3d 3h 39m 53s", "remaining_time": "2h 56m 8s"}
+{"loss": 0.02768348, "token_acc": 0.99066546, "grad_norm": 1.84756136, "learning_rate": 3.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231817, "epoch": 4.81362909, "global_step/max_steps": "63150/65595", "percentage": "96.27%", "elapsed_time": "3d 3h 40m 11s", "remaining_time": "2h 55m 47s"}
+{"loss": 0.02422388, "token_acc": 0.99093974, "grad_norm": 0.93375784, "learning_rate": 3.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23182, "epoch": 4.81401021, "global_step/max_steps": "63155/65595", "percentage": "96.28%", "elapsed_time": "3d 3h 40m 29s", "remaining_time": "2h 55m 25s"}
+{"loss": 0.01840487, "token_acc": 0.98949795, "grad_norm": 0.59360671, "learning_rate": 3.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231821, "epoch": 4.81439134, "global_step/max_steps": "63160/65595", "percentage": "96.29%", "elapsed_time": "3d 3h 40m 49s", "remaining_time": "2h 55m 3s"}
+{"loss": 0.0204276, "token_acc": 0.98866539, "grad_norm": 0.02073055, "learning_rate": 3.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231823, "epoch": 4.81477247, "global_step/max_steps": "63165/65595", "percentage": "96.30%", "elapsed_time": "3d 3h 41m 8s", "remaining_time": "2h 54m 42s"}
+{"loss": 0.02678158, "token_acc": 0.99183303, "grad_norm": 1.30154884, "learning_rate": 3.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231828, "epoch": 4.81515359, "global_step/max_steps": "63170/65595", "percentage": "96.30%", "elapsed_time": "3d 3h 41m 23s", "remaining_time": "2h 54m 20s"}
+{"loss": 0.02882943, "token_acc": 0.98805426, "grad_norm": 0.39878672, "learning_rate": 3.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231832, "epoch": 4.81553472, "global_step/max_steps": "63175/65595", "percentage": "96.31%", "elapsed_time": "3d 3h 41m 40s", "remaining_time": "2h 53m 58s"}
+{"loss": 0.05064422, "token_acc": 0.98605769, "grad_norm": 3.61635613, "learning_rate": 3.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231838, "epoch": 4.81591585, "global_step/max_steps": "63180/65595", "percentage": "96.32%", "elapsed_time": "3d 3h 41m 55s", "remaining_time": "2h 53m 36s"}
+{"loss": 0.02438847, "token_acc": 0.99149956, "grad_norm": 0.91888416, "learning_rate": 3.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231842, "epoch": 4.81629697, "global_step/max_steps": "63185/65595", "percentage": "96.33%", "elapsed_time": "3d 3h 42m 12s", "remaining_time": "2h 53m 14s"}
+{"loss": 0.04107388, "token_acc": 0.98409056, "grad_norm": 0.91541052, "learning_rate": 3.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231845, "epoch": 4.8166781, "global_step/max_steps": "63190/65595", "percentage": "96.33%", "elapsed_time": "3d 3h 42m 30s", "remaining_time": "2h 52m 53s"}
+{"loss": 0.03948026, "token_acc": 0.98640695, "grad_norm": 1.40266263, "learning_rate": 3.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231847, "epoch": 4.81705923, "global_step/max_steps": "63195/65595", "percentage": "96.34%", "elapsed_time": "3d 3h 42m 49s", "remaining_time": "2h 52m 31s"}
+{"loss": 0.02891394, "token_acc": 0.98952123, "grad_norm": 1.02183688, "learning_rate": 3.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23185, "epoch": 4.81744035, "global_step/max_steps": "63200/65595", "percentage": "96.35%", "elapsed_time": "3d 3h 43m 7s", "remaining_time": "2h 52m 9s"}
+{"eval_loss": 0.04694462, "eval_token_acc": 0.98097253, "eval_runtime": 216.6095, "eval_samples_per_second": 2.447, "eval_steps_per_second": 2.447, "epoch": 4.81744035, "global_step/max_steps": "63200/65595", "percentage": "96.35%", "elapsed_time": "3d 3h 46m 44s", "remaining_time": "2h 52m 18s"}
+{"loss": 0.04224671, "token_acc": 0.98097973, "grad_norm": 2.01212215, "learning_rate": 3.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231672, "epoch": 4.81782148, "global_step/max_steps": "63205/65595", "percentage": "96.36%", "elapsed_time": "3d 3h 46m 58s", "remaining_time": "2h 51m 56s"}
+{"loss": 0.015448, "token_acc": 0.99415205, "grad_norm": 0.72405398, "learning_rate": 3.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231676, "epoch": 4.81820261, "global_step/max_steps": "63210/65595", "percentage": "96.36%", "elapsed_time": "3d 3h 47m 15s", "remaining_time": "2h 51m 34s"}
+{"loss": 0.02839659, "token_acc": 0.98683917, "grad_norm": 0.69056469, "learning_rate": 3.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231682, "epoch": 4.81858373, "global_step/max_steps": "63215/65595", "percentage": "96.37%", "elapsed_time": "3d 3h 47m 30s", "remaining_time": "2h 51m 12s"}
+{"loss": 0.03027711, "token_acc": 0.99122807, "grad_norm": 3.06634331, "learning_rate": 3.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231686, "epoch": 4.81896486, "global_step/max_steps": "63220/65595", "percentage": "96.38%", "elapsed_time": "3d 3h 47m 46s", "remaining_time": "2h 50m 50s"}
+{"loss": 0.0454956, "token_acc": 0.98471616, "grad_norm": 1.78455114, "learning_rate": 3.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231688, "epoch": 4.81934599, "global_step/max_steps": "63225/65595", "percentage": "96.39%", "elapsed_time": "3d 3h 48m 6s", "remaining_time": "2h 50m 29s"}
+{"loss": 0.02647362, "token_acc": 0.99444702, "grad_norm": 2.56653214, "learning_rate": 3.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231694, "epoch": 4.81972711, "global_step/max_steps": "63230/65595", "percentage": "96.39%", "elapsed_time": "3d 3h 48m 20s", "remaining_time": "2h 50m 7s"}
+{"loss": 0.05439101, "token_acc": 0.97697942, "grad_norm": 42.41481781, "learning_rate": 3.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2317, "epoch": 4.82010824, "global_step/max_steps": "63235/65595", "percentage": "96.40%", "elapsed_time": "3d 3h 48m 35s", "remaining_time": "2h 49m 45s"}
+{"loss": 0.02520388, "token_acc": 0.99158249, "grad_norm": 2.35136509, "learning_rate": 3.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231704, "epoch": 4.82048937, "global_step/max_steps": "63240/65595", "percentage": "96.41%", "elapsed_time": "3d 3h 48m 52s", "remaining_time": "2h 49m 23s"}
+{"loss": 0.02403454, "token_acc": 0.98957126, "grad_norm": 0.70236403, "learning_rate": 3.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23171, "epoch": 4.82087049, "global_step/max_steps": "63245/65595", "percentage": "96.42%", "elapsed_time": "3d 3h 49m 6s", "remaining_time": "2h 49m 1s"}
+{"loss": 0.02616578, "token_acc": 0.99119077, "grad_norm": 0.79279798, "learning_rate": 3.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231712, "epoch": 4.82125162, "global_step/max_steps": "63250/65595", "percentage": "96.43%", "elapsed_time": "3d 3h 49m 26s", "remaining_time": "2h 48m 40s"}
+{"loss": 0.03302352, "token_acc": 0.99013333, "grad_norm": 0.59392595, "learning_rate": 3.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231716, "epoch": 4.82163275, "global_step/max_steps": "63255/65595", "percentage": "96.43%", "elapsed_time": "3d 3h 49m 42s", "remaining_time": "2h 48m 18s"}
+{"loss": 0.03276252, "token_acc": 0.98322039, "grad_norm": 0.25786605, "learning_rate": 3.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231721, "epoch": 4.82201387, "global_step/max_steps": "63260/65595", "percentage": "96.44%", "elapsed_time": "3d 3h 49m 58s", "remaining_time": "2h 47m 56s"}
+{"loss": 0.01646102, "token_acc": 0.98719397, "grad_norm": 0.08026442, "learning_rate": 3.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231727, "epoch": 4.822395, "global_step/max_steps": "63265/65595", "percentage": "96.45%", "elapsed_time": "3d 3h 50m 13s", "remaining_time": "2h 47m 34s"}
+{"loss": 0.02368229, "token_acc": 0.98882265, "grad_norm": 1.18992102, "learning_rate": 3.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231731, "epoch": 4.82277613, "global_step/max_steps": "63270/65595", "percentage": "96.46%", "elapsed_time": "3d 3h 50m 30s", "remaining_time": "2h 47m 13s"}
+{"loss": 0.04990383, "token_acc": 0.98533724, "grad_norm": 1.78170836, "learning_rate": 3.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231734, "epoch": 4.82315725, "global_step/max_steps": "63275/65595", "percentage": "96.46%", "elapsed_time": "3d 3h 50m 47s", "remaining_time": "2h 46m 51s"}
+{"loss": 0.0174318, "token_acc": 0.99487382, "grad_norm": 0.51867706, "learning_rate": 3.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23174, "epoch": 4.82353838, "global_step/max_steps": "63280/65595", "percentage": "96.47%", "elapsed_time": "3d 3h 51m 2s", "remaining_time": "2h 46m 29s"}
+{"loss": 0.02420383, "token_acc": 0.99081286, "grad_norm": 1.64001453, "learning_rate": 3.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231743, "epoch": 4.82391951, "global_step/max_steps": "63285/65595", "percentage": "96.48%", "elapsed_time": "3d 3h 51m 20s", "remaining_time": "2h 46m 7s"}
+{"loss": 0.04476314, "token_acc": 0.98340807, "grad_norm": 1.04961431, "learning_rate": 3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231746, "epoch": 4.82430063, "global_step/max_steps": "63290/65595", "percentage": "96.49%", "elapsed_time": "3d 3h 51m 37s", "remaining_time": "2h 45m 46s"}
+{"loss": 0.02051415, "token_acc": 0.99268739, "grad_norm": 0.73080188, "learning_rate": 3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231751, "epoch": 4.82468176, "global_step/max_steps": "63295/65595", "percentage": "96.49%", "elapsed_time": "3d 3h 51m 54s", "remaining_time": "2h 45m 24s"}
+{"loss": 0.02273242, "token_acc": 0.98698329, "grad_norm": 0.86353219, "learning_rate": 3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231755, "epoch": 4.82506289, "global_step/max_steps": "63300/65595", "percentage": "96.50%", "elapsed_time": "3d 3h 52m 11s", "remaining_time": "2h 45m 2s"}
+{"loss": 0.02302743, "token_acc": 0.99195441, "grad_norm": 1.0389148, "learning_rate": 3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23176, "epoch": 4.82544401, "global_step/max_steps": "63305/65595", "percentage": "96.51%", "elapsed_time": "3d 3h 52m 26s", "remaining_time": "2h 44m 40s"}
+{"loss": 0.0319664, "token_acc": 0.98467759, "grad_norm": 1.41479897, "learning_rate": 3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231765, "epoch": 4.82582514, "global_step/max_steps": "63310/65595", "percentage": "96.52%", "elapsed_time": "3d 3h 52m 42s", "remaining_time": "2h 44m 19s"}
+{"loss": 0.01896231, "token_acc": 0.99303902, "grad_norm": 0.95603055, "learning_rate": 3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231768, "epoch": 4.82620627, "global_step/max_steps": "63315/65595", "percentage": "96.52%", "elapsed_time": "3d 3h 53m 0s", "remaining_time": "2h 43m 57s"}
+{"loss": 0.024062, "token_acc": 0.98932113, "grad_norm": 0.38244718, "learning_rate": 3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231773, "epoch": 4.82658739, "global_step/max_steps": "63320/65595", "percentage": "96.53%", "elapsed_time": "3d 3h 53m 16s", "remaining_time": "2h 43m 35s"}
+{"loss": 0.02644027, "token_acc": 0.99217778, "grad_norm": 0.98730677, "learning_rate": 3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231776, "epoch": 4.82696852, "global_step/max_steps": "63325/65595", "percentage": "96.54%", "elapsed_time": "3d 3h 53m 34s", "remaining_time": "2h 43m 13s"}
+{"loss": 0.03402244, "token_acc": 0.98865735, "grad_norm": 1.03254426, "learning_rate": 2.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23178, "epoch": 4.82734965, "global_step/max_steps": "63330/65595", "percentage": "96.55%", "elapsed_time": "3d 3h 53m 51s", "remaining_time": "2h 42m 52s"}
+{"loss": 0.03840147, "token_acc": 0.98510374, "grad_norm": 1.35398364, "learning_rate": 2.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231784, "epoch": 4.82773077, "global_step/max_steps": "63335/65595", "percentage": "96.55%", "elapsed_time": "3d 3h 54m 8s", "remaining_time": "2h 42m 30s"}
+{"loss": 0.01807029, "token_acc": 0.99226804, "grad_norm": 1.10622597, "learning_rate": 2.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231786, "epoch": 4.8281119, "global_step/max_steps": "63340/65595", "percentage": "96.56%", "elapsed_time": "3d 3h 54m 26s", "remaining_time": "2h 42m 8s"}
+{"loss": 0.04154585, "token_acc": 0.98444742, "grad_norm": 0.76807177, "learning_rate": 2.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231787, "epoch": 4.82849303, "global_step/max_steps": "63345/65595", "percentage": "96.57%", "elapsed_time": "3d 3h 54m 47s", "remaining_time": "2h 41m 47s"}
+{"loss": 0.02780632, "token_acc": 0.98975465, "grad_norm": 2.32072568, "learning_rate": 2.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231792, "epoch": 4.82887415, "global_step/max_steps": "63350/65595", "percentage": "96.58%", "elapsed_time": "3d 3h 55m 2s", "remaining_time": "2h 41m 25s"}
+{"loss": 0.05175224, "token_acc": 0.98727924, "grad_norm": 0.68017554, "learning_rate": 2.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231793, "epoch": 4.82925528, "global_step/max_steps": "63355/65595", "percentage": "96.59%", "elapsed_time": "3d 3h 55m 22s", "remaining_time": "2h 41m 3s"}
+{"loss": 0.03218091, "token_acc": 0.98607322, "grad_norm": 1.26678205, "learning_rate": 2.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231797, "epoch": 4.82963641, "global_step/max_steps": "63360/65595", "percentage": "96.59%", "elapsed_time": "3d 3h 55m 40s", "remaining_time": "2h 40m 41s"}
+{"loss": 0.06372234, "token_acc": 0.98534936, "grad_norm": 4.03755045, "learning_rate": 2.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231799, "epoch": 4.83001753, "global_step/max_steps": "63365/65595", "percentage": "96.60%", "elapsed_time": "3d 3h 55m 59s", "remaining_time": "2h 40m 20s"}
+{"loss": 0.01915058, "token_acc": 0.9920244, "grad_norm": 1.7080946, "learning_rate": 2.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231803, "epoch": 4.83039866, "global_step/max_steps": "63370/65595", "percentage": "96.61%", "elapsed_time": "3d 3h 56m 15s", "remaining_time": "2h 39m 58s"}
+{"loss": 0.03380067, "token_acc": 0.98570942, "grad_norm": 0.73030311, "learning_rate": 2.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231806, "epoch": 4.83077979, "global_step/max_steps": "63375/65595", "percentage": "96.62%", "elapsed_time": "3d 3h 56m 34s", "remaining_time": "2h 39m 36s"}
+{"loss": 0.02840716, "token_acc": 0.98000769, "grad_norm": 1.45932603, "learning_rate": 2.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231812, "epoch": 4.83116091, "global_step/max_steps": "63380/65595", "percentage": "96.62%", "elapsed_time": "3d 3h 56m 48s", "remaining_time": "2h 39m 15s"}
+{"loss": 0.03029269, "token_acc": 0.98597585, "grad_norm": 1.07834601, "learning_rate": 2.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231818, "epoch": 4.83154204, "global_step/max_steps": "63385/65595", "percentage": "96.63%", "elapsed_time": "3d 3h 57m 3s", "remaining_time": "2h 38m 53s"}
+{"loss": 0.03331115, "token_acc": 0.98730516, "grad_norm": 1.04399669, "learning_rate": 2.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231821, "epoch": 4.83192316, "global_step/max_steps": "63390/65595", "percentage": "96.64%", "elapsed_time": "3d 3h 57m 21s", "remaining_time": "2h 38m 31s"}
+{"loss": 0.02863774, "token_acc": 0.98898678, "grad_norm": 1.02505553, "learning_rate": 2.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231824, "epoch": 4.83230429, "global_step/max_steps": "63395/65595", "percentage": "96.65%", "elapsed_time": "3d 3h 57m 39s", "remaining_time": "2h 38m 9s"}
+{"loss": 0.03011667, "token_acc": 0.98738599, "grad_norm": 1.12586355, "learning_rate": 2.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231828, "epoch": 4.83268542, "global_step/max_steps": "63400/65595", "percentage": "96.65%", "elapsed_time": "3d 3h 57m 56s", "remaining_time": "2h 37m 48s"}
+{"eval_loss": 0.04672358, "eval_token_acc": 0.98105536, "eval_runtime": 218.6935, "eval_samples_per_second": 2.423, "eval_steps_per_second": 2.423, "epoch": 4.83268542, "global_step/max_steps": "63400/65595", "percentage": "96.65%", "elapsed_time": "3d 4h 1m 35s", "remaining_time": "2h 37m 55s"}
+{"loss": 0.01910361, "token_acc": 0.98135068, "grad_norm": 0.81407809, "learning_rate": 2.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231648, "epoch": 4.83306654, "global_step/max_steps": "63405/65595", "percentage": "96.66%", "elapsed_time": "3d 4h 1m 50s", "remaining_time": "2h 37m 33s"}
+{"loss": 0.02483049, "token_acc": 0.99037668, "grad_norm": 0.55924839, "learning_rate": 2.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23165, "epoch": 4.83344767, "global_step/max_steps": "63410/65595", "percentage": "96.67%", "elapsed_time": "3d 4h 2m 9s", "remaining_time": "2h 37m 12s"}
+{"loss": 0.01745525, "token_acc": 0.99262333, "grad_norm": 0.86104691, "learning_rate": 2.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231654, "epoch": 4.8338288, "global_step/max_steps": "63415/65595", "percentage": "96.68%", "elapsed_time": "3d 4h 2m 26s", "remaining_time": "2h 36m 50s"}
+{"loss": 0.0234638, "token_acc": 0.99241886, "grad_norm": 0.46733794, "learning_rate": 2.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231659, "epoch": 4.83420992, "global_step/max_steps": "63420/65595", "percentage": "96.68%", "elapsed_time": "3d 4h 2m 42s", "remaining_time": "2h 36m 28s"}
+{"loss": 0.04918606, "token_acc": 0.98337626, "grad_norm": 1.08604825, "learning_rate": 2.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231663, "epoch": 4.83459105, "global_step/max_steps": "63425/65595", "percentage": "96.69%", "elapsed_time": "3d 4h 2m 59s", "remaining_time": "2h 36m 6s"}
+{"loss": 0.03133138, "token_acc": 0.98690592, "grad_norm": 2.13033271, "learning_rate": 2.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231667, "epoch": 4.83497218, "global_step/max_steps": "63430/65595", "percentage": "96.70%", "elapsed_time": "3d 4h 3m 15s", "remaining_time": "2h 35m 45s"}
+{"loss": 0.05537206, "token_acc": 0.98398275, "grad_norm": 1.08871353, "learning_rate": 2.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231671, "epoch": 4.8353533, "global_step/max_steps": "63435/65595", "percentage": "96.71%", "elapsed_time": "3d 4h 3m 33s", "remaining_time": "2h 35m 23s"}
+{"loss": 0.04109824, "token_acc": 0.97980518, "grad_norm": 1.52801096, "learning_rate": 2.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231675, "epoch": 4.83573443, "global_step/max_steps": "63440/65595", "percentage": "96.71%", "elapsed_time": "3d 4h 3m 49s", "remaining_time": "2h 35m 1s"}
+{"loss": 0.03276314, "token_acc": 0.98331568, "grad_norm": 0.07485716, "learning_rate": 2.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23168, "epoch": 4.83611556, "global_step/max_steps": "63445/65595", "percentage": "96.72%", "elapsed_time": "3d 4h 4m 5s", "remaining_time": "2h 34m 39s"}
+{"loss": 0.03638096, "token_acc": 0.98558897, "grad_norm": 0.00063525, "learning_rate": 2.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231683, "epoch": 4.83649668, "global_step/max_steps": "63450/65595", "percentage": "96.73%", "elapsed_time": "3d 4h 4m 23s", "remaining_time": "2h 34m 18s"}
+{"loss": 0.02634527, "token_acc": 0.988, "grad_norm": 0.83821893, "learning_rate": 2.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231688, "epoch": 4.83687781, "global_step/max_steps": "63455/65595", "percentage": "96.74%", "elapsed_time": "3d 4h 4m 39s", "remaining_time": "2h 33m 56s"}
+{"loss": 0.02258852, "token_acc": 0.98890895, "grad_norm": 2.32208061, "learning_rate": 2.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231692, "epoch": 4.83725894, "global_step/max_steps": "63460/65595", "percentage": "96.75%", "elapsed_time": "3d 4h 4m 55s", "remaining_time": "2h 33m 34s"}
+{"loss": 0.01936069, "token_acc": 0.99272378, "grad_norm": 0.6515767, "learning_rate": 2.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231694, "epoch": 4.83764006, "global_step/max_steps": "63465/65595", "percentage": "96.75%", "elapsed_time": "3d 4h 5m 15s", "remaining_time": "2h 33m 13s"}
+{"loss": 0.03466072, "token_acc": 0.98625145, "grad_norm": 0.58629781, "learning_rate": 2.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231697, "epoch": 4.83802119, "global_step/max_steps": "63470/65595", "percentage": "96.76%", "elapsed_time": "3d 4h 5m 33s", "remaining_time": "2h 32m 51s"}
+{"loss": 0.03136466, "token_acc": 0.98657829, "grad_norm": 1.18508279, "learning_rate": 2.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2317, "epoch": 4.83840232, "global_step/max_steps": "63475/65595", "percentage": "96.77%", "elapsed_time": "3d 4h 5m 50s", "remaining_time": "2h 32m 29s"}
+{"loss": 0.01974187, "token_acc": 0.98738119, "grad_norm": 0.87091529, "learning_rate": 2.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231703, "epoch": 4.83878344, "global_step/max_steps": "63480/65595", "percentage": "96.78%", "elapsed_time": "3d 4h 6m 8s", "remaining_time": "2h 32m 7s"}
+{"loss": 0.02091221, "token_acc": 0.99215994, "grad_norm": 1.02386713, "learning_rate": 2.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231707, "epoch": 4.83916457, "global_step/max_steps": "63485/65595", "percentage": "96.78%", "elapsed_time": "3d 4h 6m 26s", "remaining_time": "2h 31m 46s"}
+{"loss": 0.03098947, "token_acc": 0.99075786, "grad_norm": 1.37714016, "learning_rate": 2.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23171, "epoch": 4.8395457, "global_step/max_steps": "63490/65595", "percentage": "96.79%", "elapsed_time": "3d 4h 6m 43s", "remaining_time": "2h 31m 24s"}
+{"loss": 0.02163786, "token_acc": 0.99087493, "grad_norm": 1.30725336, "learning_rate": 2.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231715, "epoch": 4.83992682, "global_step/max_steps": "63495/65595", "percentage": "96.80%", "elapsed_time": "3d 4h 7m 0s", "remaining_time": "2h 31m 2s"}
+{"loss": 0.03606013, "token_acc": 0.98564684, "grad_norm": 1.20551598, "learning_rate": 2.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231717, "epoch": 4.84030795, "global_step/max_steps": "63500/65595", "percentage": "96.81%", "elapsed_time": "3d 4h 7m 18s", "remaining_time": "2h 30m 41s"}
+{"loss": 0.03131107, "token_acc": 0.98408051, "grad_norm": 0.67597693, "learning_rate": 2.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231721, "epoch": 4.84068908, "global_step/max_steps": "63505/65595", "percentage": "96.81%", "elapsed_time": "3d 4h 7m 35s", "remaining_time": "2h 30m 19s"}
+{"loss": 0.03179471, "token_acc": 0.98631082, "grad_norm": 0.94179136, "learning_rate": 2.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231722, "epoch": 4.8410702, "global_step/max_steps": "63510/65595", "percentage": "96.82%", "elapsed_time": "3d 4h 7m 56s", "remaining_time": "2h 29m 57s"}
+{"loss": 0.03096889, "token_acc": 0.98907701, "grad_norm": 1.2885313, "learning_rate": 2.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231728, "epoch": 4.84145133, "global_step/max_steps": "63515/65595", "percentage": "96.83%", "elapsed_time": "3d 4h 8m 11s", "remaining_time": "2h 29m 35s"}
+{"loss": 0.02667336, "token_acc": 0.99036008, "grad_norm": 0.63196522, "learning_rate": 2.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23173, "epoch": 4.84183246, "global_step/max_steps": "63520/65595", "percentage": "96.84%", "elapsed_time": "3d 4h 8m 30s", "remaining_time": "2h 29m 14s"}
+{"loss": 0.03151824, "token_acc": 0.9847468, "grad_norm": 1.48920047, "learning_rate": 2.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231736, "epoch": 4.84221358, "global_step/max_steps": "63525/65595", "percentage": "96.84%", "elapsed_time": "3d 4h 8m 44s", "remaining_time": "2h 28m 52s"}
+{"loss": 0.02518466, "token_acc": 0.98981077, "grad_norm": 1.34814513, "learning_rate": 2.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23174, "epoch": 4.84259471, "global_step/max_steps": "63530/65595", "percentage": "96.85%", "elapsed_time": "3d 4h 9m 0s", "remaining_time": "2h 28m 30s"}
+{"loss": 0.03211407, "token_acc": 0.98616071, "grad_norm": 1.20582342, "learning_rate": 2.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231745, "epoch": 4.84297584, "global_step/max_steps": "63535/65595", "percentage": "96.86%", "elapsed_time": "3d 4h 9m 17s", "remaining_time": "2h 28m 9s"}
+{"loss": 0.04759748, "token_acc": 0.97884505, "grad_norm": 1.32363975, "learning_rate": 2.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23175, "epoch": 4.84335696, "global_step/max_steps": "63540/65595", "percentage": "96.87%", "elapsed_time": "3d 4h 9m 32s", "remaining_time": "2h 27m 47s"}
+{"loss": 0.02224902, "token_acc": 0.98861078, "grad_norm": 1.60060978, "learning_rate": 2.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231752, "epoch": 4.84373809, "global_step/max_steps": "63545/65595", "percentage": "96.87%", "elapsed_time": "3d 4h 9m 51s", "remaining_time": "2h 27m 25s"}
+{"loss": 0.02475768, "token_acc": 0.98523985, "grad_norm": 1.39324784, "learning_rate": 2.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231758, "epoch": 4.84411922, "global_step/max_steps": "63550/65595", "percentage": "96.88%", "elapsed_time": "3d 4h 10m 6s", "remaining_time": "2h 27m 3s"}
+{"loss": 0.02743589, "token_acc": 0.98727984, "grad_norm": 1.32400608, "learning_rate": 2.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231761, "epoch": 4.84450034, "global_step/max_steps": "63555/65595", "percentage": "96.89%", "elapsed_time": "3d 4h 10m 23s", "remaining_time": "2h 26m 42s"}
+{"loss": 0.02540753, "token_acc": 0.99067816, "grad_norm": 1.77256393, "learning_rate": 2.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231764, "epoch": 4.84488147, "global_step/max_steps": "63560/65595", "percentage": "96.90%", "elapsed_time": "3d 4h 10m 41s", "remaining_time": "2h 26m 20s"}
+{"loss": 0.03956394, "token_acc": 0.98634099, "grad_norm": 1.04479265, "learning_rate": 2.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231768, "epoch": 4.8452626, "global_step/max_steps": "63565/65595", "percentage": "96.91%", "elapsed_time": "3d 4h 10m 58s", "remaining_time": "2h 25m 58s"}
+{"loss": 0.03137912, "token_acc": 0.98690528, "grad_norm": 0.63372833, "learning_rate": 2.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231774, "epoch": 4.84564372, "global_step/max_steps": "63570/65595", "percentage": "96.91%", "elapsed_time": "3d 4h 11m 14s", "remaining_time": "2h 25m 36s"}
+{"loss": 0.02483737, "token_acc": 0.99168399, "grad_norm": 0.10651112, "learning_rate": 2.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23178, "epoch": 4.84602485, "global_step/max_steps": "63575/65595", "percentage": "96.92%", "elapsed_time": "3d 4h 11m 27s", "remaining_time": "2h 25m 15s"}
+{"loss": 0.0193907, "token_acc": 0.99232417, "grad_norm": 0.70445251, "learning_rate": 2.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231783, "epoch": 4.84640598, "global_step/max_steps": "63580/65595", "percentage": "96.93%", "elapsed_time": "3d 4h 11m 46s", "remaining_time": "2h 24m 53s"}
+{"loss": 0.03701809, "token_acc": 0.98333096, "grad_norm": 0.51591164, "learning_rate": 2.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231785, "epoch": 4.8467871, "global_step/max_steps": "63585/65595", "percentage": "96.94%", "elapsed_time": "3d 4h 12m 5s", "remaining_time": "2h 24m 31s"}
+{"loss": 0.02985481, "token_acc": 0.98805078, "grad_norm": 0.78645158, "learning_rate": 2.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231784, "epoch": 4.84716823, "global_step/max_steps": "63590/65595", "percentage": "96.94%", "elapsed_time": "3d 4h 12m 27s", "remaining_time": "2h 24m 10s"}
+{"loss": 0.01789814, "token_acc": 0.99232246, "grad_norm": 0.19863026, "learning_rate": 2.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23179, "epoch": 4.84754936, "global_step/max_steps": "63595/65595", "percentage": "96.95%", "elapsed_time": "3d 4h 12m 42s", "remaining_time": "2h 23m 48s"}
+{"loss": 0.0250423, "token_acc": 0.98697318, "grad_norm": 0.14372772, "learning_rate": 2.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231794, "epoch": 4.84793048, "global_step/max_steps": "63600/65595", "percentage": "96.96%", "elapsed_time": "3d 4h 12m 59s", "remaining_time": "2h 23m 26s"}
+{"eval_loss": 0.04667769, "eval_token_acc": 0.9810403, "eval_runtime": 220.0074, "eval_samples_per_second": 2.409, "eval_steps_per_second": 2.409, "epoch": 4.84793048, "global_step/max_steps": "63600/65595", "percentage": "96.96%", "elapsed_time": "3d 4h 16m 39s", "remaining_time": "2h 23m 33s"}
+{"loss": 0.03381919, "token_acc": 0.98119621, "grad_norm": 0.88136613, "learning_rate": 2.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231612, "epoch": 4.84831161, "global_step/max_steps": "63605/65595", "percentage": "96.97%", "elapsed_time": "3d 4h 16m 56s", "remaining_time": "2h 23m 11s"}
+{"loss": 0.02814544, "token_acc": 0.98982558, "grad_norm": 0.98194879, "learning_rate": 2.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231615, "epoch": 4.84869274, "global_step/max_steps": "63610/65595", "percentage": "96.97%", "elapsed_time": "3d 4h 17m 14s", "remaining_time": "2h 22m 50s"}
+{"loss": 0.01513757, "token_acc": 0.99466583, "grad_norm": 0.11429768, "learning_rate": 2.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23162, "epoch": 4.84907386, "global_step/max_steps": "63615/65595", "percentage": "96.98%", "elapsed_time": "3d 4h 17m 29s", "remaining_time": "2h 22m 28s"}
+{"loss": 0.03259873, "token_acc": 0.9852833, "grad_norm": 0.93450922, "learning_rate": 2.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231621, "epoch": 4.84945499, "global_step/max_steps": "63620/65595", "percentage": "96.99%", "elapsed_time": "3d 4h 17m 50s", "remaining_time": "2h 22m 6s"}
+{"loss": 0.03991618, "token_acc": 0.98486825, "grad_norm": 1.17752755, "learning_rate": 2.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231624, "epoch": 4.84983612, "global_step/max_steps": "63625/65595", "percentage": "97.00%", "elapsed_time": "3d 4h 18m 8s", "remaining_time": "2h 21m 45s"}
+{"loss": 0.0293502, "token_acc": 0.9872966, "grad_norm": 1.27566838, "learning_rate": 2.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231626, "epoch": 4.85021724, "global_step/max_steps": "63630/65595", "percentage": "97.00%", "elapsed_time": "3d 4h 18m 27s", "remaining_time": "2h 21m 23s"}
+{"loss": 0.02846666, "token_acc": 0.99052337, "grad_norm": 0.70960015, "learning_rate": 2.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231631, "epoch": 4.85059837, "global_step/max_steps": "63635/65595", "percentage": "97.01%", "elapsed_time": "3d 4h 18m 44s", "remaining_time": "2h 21m 1s"}
+{"loss": 0.03962083, "token_acc": 0.98423024, "grad_norm": 0.49754393, "learning_rate": 2.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231634, "epoch": 4.8509795, "global_step/max_steps": "63640/65595", "percentage": "97.02%", "elapsed_time": "3d 4h 19m 1s", "remaining_time": "2h 20m 39s"}
+{"loss": 0.04339951, "token_acc": 0.9830665, "grad_norm": 2.1654501, "learning_rate": 2.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23164, "epoch": 4.85136062, "global_step/max_steps": "63645/65595", "percentage": "97.03%", "elapsed_time": "3d 4h 19m 16s", "remaining_time": "2h 20m 18s"}
+{"loss": 0.03994792, "token_acc": 0.9869338, "grad_norm": 0.75439471, "learning_rate": 2.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231642, "epoch": 4.85174175, "global_step/max_steps": "63650/65595", "percentage": "97.03%", "elapsed_time": "3d 4h 19m 34s", "remaining_time": "2h 19m 56s"}
+{"loss": 0.02521111, "token_acc": 0.98750319, "grad_norm": 0.91232991, "learning_rate": 2.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231648, "epoch": 4.85212288, "global_step/max_steps": "63655/65595", "percentage": "97.04%", "elapsed_time": "3d 4h 19m 49s", "remaining_time": "2h 19m 34s"}
+{"loss": 0.03371897, "token_acc": 0.98839138, "grad_norm": 2.66312432, "learning_rate": 2.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231652, "epoch": 4.852504, "global_step/max_steps": "63660/65595", "percentage": "97.05%", "elapsed_time": "3d 4h 20m 7s", "remaining_time": "2h 19m 12s"}
+{"loss": 0.05090123, "token_acc": 0.97979215, "grad_norm": 0.75137556, "learning_rate": 2.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231657, "epoch": 4.85288513, "global_step/max_steps": "63665/65595", "percentage": "97.06%", "elapsed_time": "3d 4h 20m 22s", "remaining_time": "2h 18m 51s"}
+{"loss": 0.02126115, "token_acc": 0.98962517, "grad_norm": 0.47310883, "learning_rate": 2.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231662, "epoch": 4.85326626, "global_step/max_steps": "63670/65595", "percentage": "97.07%", "elapsed_time": "3d 4h 20m 37s", "remaining_time": "2h 18m 29s"}
+{"loss": 0.02856182, "token_acc": 0.98755537, "grad_norm": 1.65515542, "learning_rate": 2.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231666, "epoch": 4.85364738, "global_step/max_steps": "63675/65595", "percentage": "97.07%", "elapsed_time": "3d 4h 20m 55s", "remaining_time": "2h 18m 7s"}
+{"loss": 0.01993939, "token_acc": 0.99226873, "grad_norm": 0.59027797, "learning_rate": 2.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23167, "epoch": 4.85402851, "global_step/max_steps": "63680/65595", "percentage": "97.08%", "elapsed_time": "3d 4h 21m 11s", "remaining_time": "2h 17m 46s"}
+{"loss": 0.02671527, "token_acc": 0.98942598, "grad_norm": 1.87462687, "learning_rate": 2.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231675, "epoch": 4.85440963, "global_step/max_steps": "63685/65595", "percentage": "97.09%", "elapsed_time": "3d 4h 21m 27s", "remaining_time": "2h 17m 24s"}
+{"loss": 0.04649493, "token_acc": 0.97883733, "grad_norm": 2.07692122, "learning_rate": 2.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231679, "epoch": 4.85479076, "global_step/max_steps": "63690/65595", "percentage": "97.10%", "elapsed_time": "3d 4h 21m 43s", "remaining_time": "2h 17m 2s"}
+{"loss": 0.02172109, "token_acc": 0.99317173, "grad_norm": 1.78906846, "learning_rate": 2.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231685, "epoch": 4.85517189, "global_step/max_steps": "63695/65595", "percentage": "97.10%", "elapsed_time": "3d 4h 21m 58s", "remaining_time": "2h 16m 40s"}
+{"loss": 0.03151506, "token_acc": 0.98367553, "grad_norm": 1.11555099, "learning_rate": 2.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231688, "epoch": 4.85555301, "global_step/max_steps": "63700/65595", "percentage": "97.11%", "elapsed_time": "3d 4h 22m 16s", "remaining_time": "2h 16m 19s"}
+{"loss": 0.01962813, "token_acc": 0.99373882, "grad_norm": 0.87924844, "learning_rate": 2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231692, "epoch": 4.85593414, "global_step/max_steps": "63705/65595", "percentage": "97.12%", "elapsed_time": "3d 4h 22m 33s", "remaining_time": "2h 15m 57s"}
+{"loss": 0.0248753, "token_acc": 0.99017749, "grad_norm": 1.22494197, "learning_rate": 2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231695, "epoch": 4.85631527, "global_step/max_steps": "63710/65595", "percentage": "97.13%", "elapsed_time": "3d 4h 22m 51s", "remaining_time": "2h 15m 35s"}
+{"loss": 0.02446195, "token_acc": 0.99043766, "grad_norm": 1.65161264, "learning_rate": 2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231701, "epoch": 4.85669639, "global_step/max_steps": "63715/65595", "percentage": "97.13%", "elapsed_time": "3d 4h 23m 5s", "remaining_time": "2h 15m 13s"}
+{"loss": 0.02694354, "token_acc": 0.98761184, "grad_norm": 0.34866184, "learning_rate": 2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231706, "epoch": 4.85707752, "global_step/max_steps": "63720/65595", "percentage": "97.14%", "elapsed_time": "3d 4h 23m 21s", "remaining_time": "2h 14m 52s"}
+{"loss": 0.0230572, "token_acc": 0.99084787, "grad_norm": 0.48512539, "learning_rate": 2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23171, "epoch": 4.85745865, "global_step/max_steps": "63725/65595", "percentage": "97.15%", "elapsed_time": "3d 4h 23m 38s", "remaining_time": "2h 14m 30s"}
+{"loss": 0.03242328, "token_acc": 0.98655288, "grad_norm": 1.10197473, "learning_rate": 2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231715, "epoch": 4.85783977, "global_step/max_steps": "63730/65595", "percentage": "97.16%", "elapsed_time": "3d 4h 23m 53s", "remaining_time": "2h 14m 8s"}
+{"loss": 0.02253218, "token_acc": 0.98905908, "grad_norm": 1.01732481, "learning_rate": 2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231719, "epoch": 4.8582209, "global_step/max_steps": "63735/65595", "percentage": "97.16%", "elapsed_time": "3d 4h 24m 11s", "remaining_time": "2h 13m 46s"}
+{"loss": 0.02522284, "token_acc": 0.98994354, "grad_norm": 1.41369617, "learning_rate": 2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231721, "epoch": 4.85860203, "global_step/max_steps": "63740/65595", "percentage": "97.17%", "elapsed_time": "3d 4h 24m 29s", "remaining_time": "2h 13m 25s"}
+{"loss": 0.02823565, "token_acc": 0.99023107, "grad_norm": 0.69445682, "learning_rate": 2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231724, "epoch": 4.85898315, "global_step/max_steps": "63745/65595", "percentage": "97.18%", "elapsed_time": "3d 4h 24m 47s", "remaining_time": "2h 13m 3s"}
+{"loss": 0.03028588, "token_acc": 0.98687144, "grad_norm": 1.87777615, "learning_rate": 2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231729, "epoch": 4.85936428, "global_step/max_steps": "63750/65595", "percentage": "97.19%", "elapsed_time": "3d 4h 25m 3s", "remaining_time": "2h 12m 41s"}
+{"loss": 0.02566978, "token_acc": 0.99036532, "grad_norm": 0.91927177, "learning_rate": 1.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23173, "epoch": 4.85974541, "global_step/max_steps": "63755/65595", "percentage": "97.19%", "elapsed_time": "3d 4h 25m 23s", "remaining_time": "2h 12m 20s"}
+{"loss": 0.03496771, "token_acc": 0.98664039, "grad_norm": 1.36444628, "learning_rate": 1.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231734, "epoch": 4.86012653, "global_step/max_steps": "63760/65595", "percentage": "97.20%", "elapsed_time": "3d 4h 25m 40s", "remaining_time": "2h 11m 58s"}
+{"loss": 0.0220205, "token_acc": 0.98852888, "grad_norm": 0.9638567, "learning_rate": 1.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231737, "epoch": 4.86050766, "global_step/max_steps": "63765/65595", "percentage": "97.21%", "elapsed_time": "3d 4h 25m 59s", "remaining_time": "2h 11m 36s"}
+{"loss": 0.02205311, "token_acc": 0.99489175, "grad_norm": 0.6192764, "learning_rate": 1.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231741, "epoch": 4.86088879, "global_step/max_steps": "63770/65595", "percentage": "97.22%", "elapsed_time": "3d 4h 26m 16s", "remaining_time": "2h 11m 15s"}
+{"loss": 0.02168119, "token_acc": 0.99103474, "grad_norm": 0.54185539, "learning_rate": 1.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231745, "epoch": 4.86126991, "global_step/max_steps": "63775/65595", "percentage": "97.23%", "elapsed_time": "3d 4h 26m 32s", "remaining_time": "2h 10m 53s"}
+{"loss": 0.03009656, "token_acc": 0.98750193, "grad_norm": 0.67581183, "learning_rate": 1.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231749, "epoch": 4.86165104, "global_step/max_steps": "63780/65595", "percentage": "97.23%", "elapsed_time": "3d 4h 26m 49s", "remaining_time": "2h 10m 31s"}
+{"loss": 0.0170123, "token_acc": 0.99264214, "grad_norm": 1.7213093, "learning_rate": 1.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231756, "epoch": 4.86203217, "global_step/max_steps": "63785/65595", "percentage": "97.24%", "elapsed_time": "3d 4h 27m 2s", "remaining_time": "2h 10m 9s"}
+{"loss": 0.04599956, "token_acc": 0.98316971, "grad_norm": 1.1647675, "learning_rate": 1.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23176, "epoch": 4.86241329, "global_step/max_steps": "63790/65595", "percentage": "97.25%", "elapsed_time": "3d 4h 27m 19s", "remaining_time": "2h 9m 48s"}
+{"loss": 0.02074465, "token_acc": 0.99096639, "grad_norm": 1.94518697, "learning_rate": 1.9e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231763, "epoch": 4.86279442, "global_step/max_steps": "63795/65595", "percentage": "97.26%", "elapsed_time": "3d 4h 27m 37s", "remaining_time": "2h 9m 26s"}
+{"loss": 0.01798749, "token_acc": 0.99006705, "grad_norm": 0.95816725, "learning_rate": 1.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231767, "epoch": 4.86317555, "global_step/max_steps": "63800/65595", "percentage": "97.26%", "elapsed_time": "3d 4h 27m 54s", "remaining_time": "2h 9m 4s"}
+{"eval_loss": 0.04679752, "eval_token_acc": 0.98109301, "eval_runtime": 219.9157, "eval_samples_per_second": 2.41, "eval_steps_per_second": 2.41, "epoch": 4.86317555, "global_step/max_steps": "63800/65595", "percentage": "97.26%", "elapsed_time": "3d 4h 31m 34s", "remaining_time": "2h 9m 10s"}
+{"loss": 0.01974797, "token_acc": 0.98139443, "grad_norm": 1.11212468, "learning_rate": 1.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231587, "epoch": 4.86355667, "global_step/max_steps": "63805/65595", "percentage": "97.27%", "elapsed_time": "3d 4h 31m 50s", "remaining_time": "2h 8m 49s"}
+{"loss": 0.0230247, "token_acc": 0.99354614, "grad_norm": 0.90486461, "learning_rate": 1.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231589, "epoch": 4.8639378, "global_step/max_steps": "63810/65595", "percentage": "97.28%", "elapsed_time": "3d 4h 32m 8s", "remaining_time": "2h 8m 27s"}
+{"loss": 0.03786338, "token_acc": 0.98110393, "grad_norm": 2.30695438, "learning_rate": 1.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231595, "epoch": 4.86431893, "global_step/max_steps": "63815/65595", "percentage": "97.29%", "elapsed_time": "3d 4h 32m 23s", "remaining_time": "2h 8m 5s"}
+{"loss": 0.04126025, "token_acc": 0.98625017, "grad_norm": 1.39535952, "learning_rate": 1.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231597, "epoch": 4.86470005, "global_step/max_steps": "63820/65595", "percentage": "97.29%", "elapsed_time": "3d 4h 32m 42s", "remaining_time": "2h 7m 44s"}
+{"loss": 0.0304711, "token_acc": 0.98486503, "grad_norm": 0.83970422, "learning_rate": 1.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231601, "epoch": 4.86508118, "global_step/max_steps": "63825/65595", "percentage": "97.30%", "elapsed_time": "3d 4h 32m 59s", "remaining_time": "2h 7m 22s"}
+{"loss": 0.03378259, "token_acc": 0.98590755, "grad_norm": 0.81985742, "learning_rate": 1.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231605, "epoch": 4.86546231, "global_step/max_steps": "63830/65595", "percentage": "97.31%", "elapsed_time": "3d 4h 33m 16s", "remaining_time": "2h 7m 0s"}
+{"loss": 0.01276576, "token_acc": 0.9969752, "grad_norm": 2.73457289, "learning_rate": 1.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231611, "epoch": 4.86584343, "global_step/max_steps": "63835/65595", "percentage": "97.32%", "elapsed_time": "3d 4h 33m 30s", "remaining_time": "2h 6m 38s"}
+{"loss": 0.02739353, "token_acc": 0.98670864, "grad_norm": 1.55775428, "learning_rate": 1.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231617, "epoch": 4.86622456, "global_step/max_steps": "63840/65595", "percentage": "97.32%", "elapsed_time": "3d 4h 33m 45s", "remaining_time": "2h 6m 17s"}
+{"loss": 0.02663713, "token_acc": 0.98698225, "grad_norm": 1.59312272, "learning_rate": 1.8e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231622, "epoch": 4.86660569, "global_step/max_steps": "63845/65595", "percentage": "97.33%", "elapsed_time": "3d 4h 34m 0s", "remaining_time": "2h 5m 55s"}
+{"loss": 0.0310095, "token_acc": 0.98563055, "grad_norm": 0.10796253, "learning_rate": 1.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231626, "epoch": 4.86698681, "global_step/max_steps": "63850/65595", "percentage": "97.34%", "elapsed_time": "3d 4h 34m 17s", "remaining_time": "2h 5m 33s"}
+{"loss": 0.02970399, "token_acc": 0.98935993, "grad_norm": 1.12736726, "learning_rate": 1.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231629, "epoch": 4.86736794, "global_step/max_steps": "63855/65595", "percentage": "97.35%", "elapsed_time": "3d 4h 34m 35s", "remaining_time": "2h 5m 11s"}
+{"loss": 0.0362506, "token_acc": 0.98729447, "grad_norm": 1.78102708, "learning_rate": 1.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231631, "epoch": 4.86774907, "global_step/max_steps": "63860/65595", "percentage": "97.35%", "elapsed_time": "3d 4h 34m 55s", "remaining_time": "2h 4m 50s"}
+{"loss": 0.0283657, "token_acc": 0.98817481, "grad_norm": 1.09382308, "learning_rate": 1.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231632, "epoch": 4.86813019, "global_step/max_steps": "63865/65595", "percentage": "97.36%", "elapsed_time": "3d 4h 35m 14s", "remaining_time": "2h 4m 28s"}
+{"loss": 0.01668953, "token_acc": 0.99103139, "grad_norm": 1.42462647, "learning_rate": 1.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231639, "epoch": 4.86851132, "global_step/max_steps": "63870/65595", "percentage": "97.37%", "elapsed_time": "3d 4h 35m 28s", "remaining_time": "2h 4m 6s"}
+{"loss": 0.03373219, "token_acc": 0.98513243, "grad_norm": 0.59277439, "learning_rate": 1.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231639, "epoch": 4.86889245, "global_step/max_steps": "63875/65595", "percentage": "97.38%", "elapsed_time": "3d 4h 35m 49s", "remaining_time": "2h 3m 45s"}
+{"loss": 0.02650003, "token_acc": 0.98968777, "grad_norm": 1.53828287, "learning_rate": 1.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231644, "epoch": 4.86927357, "global_step/max_steps": "63880/65595", "percentage": "97.39%", "elapsed_time": "3d 4h 36m 5s", "remaining_time": "2h 3m 23s"}
+{"loss": 0.04125989, "token_acc": 0.98319328, "grad_norm": 2.19823217, "learning_rate": 1.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23165, "epoch": 4.8696547, "global_step/max_steps": "63885/65595", "percentage": "97.39%", "elapsed_time": "3d 4h 36m 20s", "remaining_time": "2h 3m 1s"}
+{"loss": 0.0326161, "token_acc": 0.98724194, "grad_norm": 1.88822258, "learning_rate": 1.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231654, "epoch": 4.87003583, "global_step/max_steps": "63890/65595", "percentage": "97.40%", "elapsed_time": "3d 4h 36m 37s", "remaining_time": "2h 2m 40s"}
+{"loss": 0.0238148, "token_acc": 0.99446494, "grad_norm": 2.49666739, "learning_rate": 1.7e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23166, "epoch": 4.87041695, "global_step/max_steps": "63895/65595", "percentage": "97.41%", "elapsed_time": "3d 4h 36m 51s", "remaining_time": "2h 2m 18s"}
+{"loss": 0.02310695, "token_acc": 0.99101617, "grad_norm": 0.54115123, "learning_rate": 1.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231664, "epoch": 4.87079808, "global_step/max_steps": "63900/65595", "percentage": "97.42%", "elapsed_time": "3d 4h 37m 8s", "remaining_time": "2h 1m 56s"}
+{"loss": 0.03294144, "token_acc": 0.98938224, "grad_norm": 1.05600715, "learning_rate": 1.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231669, "epoch": 4.87117921, "global_step/max_steps": "63905/65595", "percentage": "97.42%", "elapsed_time": "3d 4h 37m 24s", "remaining_time": "2h 1m 34s"}
+{"loss": 0.02467992, "token_acc": 0.99095364, "grad_norm": 1.69141948, "learning_rate": 1.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231674, "epoch": 4.87156033, "global_step/max_steps": "63910/65595", "percentage": "97.43%", "elapsed_time": "3d 4h 37m 39s", "remaining_time": "2h 1m 13s"}
+{"loss": 0.01988966, "token_acc": 0.99237288, "grad_norm": 1.08632171, "learning_rate": 1.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23168, "epoch": 4.87194146, "global_step/max_steps": "63915/65595", "percentage": "97.44%", "elapsed_time": "3d 4h 37m 54s", "remaining_time": "2h 0m 51s"}
+{"loss": 0.02319077, "token_acc": 0.99049154, "grad_norm": 0.85070962, "learning_rate": 1.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231681, "epoch": 4.87232259, "global_step/max_steps": "63920/65595", "percentage": "97.45%", "elapsed_time": "3d 4h 38m 13s", "remaining_time": "2h 0m 29s"}
+{"loss": 0.03189521, "token_acc": 0.98743493, "grad_norm": 1.32135201, "learning_rate": 1.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231681, "epoch": 4.87270371, "global_step/max_steps": "63925/65595", "percentage": "97.45%", "elapsed_time": "3d 4h 38m 35s", "remaining_time": "2h 0m 8s"}
+{"loss": 0.03810795, "token_acc": 0.98697437, "grad_norm": 0.09521715, "learning_rate": 1.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231684, "epoch": 4.87308484, "global_step/max_steps": "63930/65595", "percentage": "97.46%", "elapsed_time": "3d 4h 38m 53s", "remaining_time": "1h 59m 46s"}
+{"loss": 0.01369285, "token_acc": 0.99622562, "grad_norm": 0.35735428, "learning_rate": 1.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231688, "epoch": 4.87346597, "global_step/max_steps": "63935/65595", "percentage": "97.47%", "elapsed_time": "3d 4h 39m 10s", "remaining_time": "1h 59m 24s"}
+{"loss": 0.03750294, "token_acc": 0.98410318, "grad_norm": 1.15192556, "learning_rate": 1.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231691, "epoch": 4.87384709, "global_step/max_steps": "63940/65595", "percentage": "97.48%", "elapsed_time": "3d 4h 39m 28s", "remaining_time": "1h 59m 3s"}
+{"loss": 0.02370485, "token_acc": 0.98685969, "grad_norm": 1.08482254, "learning_rate": 1.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231696, "epoch": 4.87422822, "global_step/max_steps": "63945/65595", "percentage": "97.48%", "elapsed_time": "3d 4h 39m 44s", "remaining_time": "1h 58m 41s"}
+{"loss": 0.02131504, "token_acc": 0.98847343, "grad_norm": 1.05929625, "learning_rate": 1.6e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231701, "epoch": 4.87460935, "global_step/max_steps": "63950/65595", "percentage": "97.49%", "elapsed_time": "3d 4h 39m 59s", "remaining_time": "1h 58m 19s"}
+{"loss": 0.03387021, "token_acc": 0.98827174, "grad_norm": 1.99111962, "learning_rate": 1.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231704, "epoch": 4.87499047, "global_step/max_steps": "63955/65595", "percentage": "97.50%", "elapsed_time": "3d 4h 40m 17s", "remaining_time": "1h 57m 57s"}
+{"loss": 0.02007123, "token_acc": 0.99399253, "grad_norm": 1.09065711, "learning_rate": 1.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231707, "epoch": 4.8753716, "global_step/max_steps": "63960/65595", "percentage": "97.51%", "elapsed_time": "3d 4h 40m 35s", "remaining_time": "1h 57m 36s"}
+{"loss": 0.016641, "token_acc": 0.99533147, "grad_norm": 0.52334267, "learning_rate": 1.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231712, "epoch": 4.87575273, "global_step/max_steps": "63965/65595", "percentage": "97.52%", "elapsed_time": "3d 4h 40m 51s", "remaining_time": "1h 57m 14s"}
+{"loss": 0.03010579, "token_acc": 0.99015803, "grad_norm": 1.05010104, "learning_rate": 1.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231714, "epoch": 4.87613385, "global_step/max_steps": "63970/65595", "percentage": "97.52%", "elapsed_time": "3d 4h 41m 10s", "remaining_time": "1h 56m 52s"}
+{"loss": 0.02602627, "token_acc": 0.99001848, "grad_norm": 0.98332441, "learning_rate": 1.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231718, "epoch": 4.87651498, "global_step/max_steps": "63975/65595", "percentage": "97.53%", "elapsed_time": "3d 4h 41m 28s", "remaining_time": "1h 56m 31s"}
+{"loss": 0.0293489, "token_acc": 0.98773163, "grad_norm": 0.73055375, "learning_rate": 1.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23172, "epoch": 4.8768961, "global_step/max_steps": "63980/65595", "percentage": "97.54%", "elapsed_time": "3d 4h 41m 46s", "remaining_time": "1h 56m 9s"}
+{"loss": 0.0280208, "token_acc": 0.98901999, "grad_norm": 1.25846529, "learning_rate": 1.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231723, "epoch": 4.87727723, "global_step/max_steps": "63985/65595", "percentage": "97.55%", "elapsed_time": "3d 4h 42m 5s", "remaining_time": "1h 55m 47s"}
+{"loss": 0.04660446, "token_acc": 0.97659422, "grad_norm": 1.52125227, "learning_rate": 1.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231727, "epoch": 4.87765836, "global_step/max_steps": "63990/65595", "percentage": "97.55%", "elapsed_time": "3d 4h 42m 21s", "remaining_time": "1h 55m 26s"}
+{"loss": 0.02829294, "token_acc": 0.99024463, "grad_norm": 1.87346458, "learning_rate": 1.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231729, "epoch": 4.87803948, "global_step/max_steps": "63995/65595", "percentage": "97.56%", "elapsed_time": "3d 4h 42m 41s", "remaining_time": "1h 55m 4s"}
+{"loss": 0.05091788, "token_acc": 0.98446566, "grad_norm": 2.4227078, "learning_rate": 1.5e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23173, "epoch": 4.87842061, "global_step/max_steps": "64000/65595", "percentage": "97.57%", "elapsed_time": "3d 4h 43m 1s", "remaining_time": "1h 54m 42s"}
+{"eval_loss": 0.04665451, "eval_token_acc": 0.98112313, "eval_runtime": 220.0789, "eval_samples_per_second": 2.408, "eval_steps_per_second": 2.408, "epoch": 4.87842061, "global_step/max_steps": "64000/65595", "percentage": "97.57%", "elapsed_time": "3d 4h 46m 41s", "remaining_time": "1h 54m 48s"}
+{"loss": 0.02137819, "token_acc": 0.98134139, "grad_norm": 1.17465866, "learning_rate": 1.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231549, "epoch": 4.87880174, "global_step/max_steps": "64005/65595", "percentage": "97.58%", "elapsed_time": "3d 4h 46m 58s", "remaining_time": "1h 54m 26s"}
+{"loss": 0.0372955, "token_acc": 0.98735092, "grad_norm": 1.5716579, "learning_rate": 1.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231554, "epoch": 4.87918286, "global_step/max_steps": "64010/65595", "percentage": "97.58%", "elapsed_time": "3d 4h 47m 13s", "remaining_time": "1h 54m 4s"}
+{"loss": 0.01444767, "token_acc": 0.99253945, "grad_norm": 1.13905525, "learning_rate": 1.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231559, "epoch": 4.87956399, "global_step/max_steps": "64015/65595", "percentage": "97.59%", "elapsed_time": "3d 4h 47m 29s", "remaining_time": "1h 53m 43s"}
+{"loss": 0.02098757, "token_acc": 0.99089751, "grad_norm": 1.43480027, "learning_rate": 1.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231562, "epoch": 4.87994512, "global_step/max_steps": "64020/65595", "percentage": "97.60%", "elapsed_time": "3d 4h 47m 47s", "remaining_time": "1h 53m 21s"}
+{"loss": 0.02780424, "token_acc": 0.98929689, "grad_norm": 0.95256776, "learning_rate": 1.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231567, "epoch": 4.88032624, "global_step/max_steps": "64025/65595", "percentage": "97.61%", "elapsed_time": "3d 4h 48m 3s", "remaining_time": "1h 52m 59s"}
+{"loss": 0.04998819, "token_acc": 0.98441848, "grad_norm": 1.3490206, "learning_rate": 1.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231571, "epoch": 4.88070737, "global_step/max_steps": "64030/65595", "percentage": "97.61%", "elapsed_time": "3d 4h 48m 20s", "remaining_time": "1h 52m 38s"}
+{"loss": 0.02781565, "token_acc": 0.9868192, "grad_norm": 1.35871482, "learning_rate": 1.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231575, "epoch": 4.8810885, "global_step/max_steps": "64035/65595", "percentage": "97.62%", "elapsed_time": "3d 4h 48m 37s", "remaining_time": "1h 52m 16s"}
+{"loss": 0.0340498, "token_acc": 0.98521174, "grad_norm": 1.98086548, "learning_rate": 1.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231578, "epoch": 4.88146962, "global_step/max_steps": "64040/65595", "percentage": "97.63%", "elapsed_time": "3d 4h 48m 55s", "remaining_time": "1h 51m 54s"}
+{"loss": 0.03142692, "token_acc": 0.97812396, "grad_norm": 1.88508666, "learning_rate": 1.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231583, "epoch": 4.88185075, "global_step/max_steps": "64045/65595", "percentage": "97.64%", "elapsed_time": "3d 4h 49m 10s", "remaining_time": "1h 51m 33s"}
+{"loss": 0.03678169, "token_acc": 0.98814564, "grad_norm": 0.53787333, "learning_rate": 1.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231586, "epoch": 4.88223188, "global_step/max_steps": "64050/65595", "percentage": "97.64%", "elapsed_time": "3d 4h 49m 29s", "remaining_time": "1h 51m 11s"}
+{"loss": 0.07014009, "token_acc": 0.97819516, "grad_norm": 3.75546861, "learning_rate": 1.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23159, "epoch": 4.882613, "global_step/max_steps": "64055/65595", "percentage": "97.65%", "elapsed_time": "3d 4h 49m 46s", "remaining_time": "1h 50m 49s"}
+{"loss": 0.02781138, "token_acc": 0.98992508, "grad_norm": 0.72621715, "learning_rate": 1.4e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231591, "epoch": 4.88299413, "global_step/max_steps": "64060/65595", "percentage": "97.66%", "elapsed_time": "3d 4h 50m 6s", "remaining_time": "1h 50m 28s"}
+{"loss": 0.01782449, "token_acc": 0.99383097, "grad_norm": 0.86236805, "learning_rate": 1.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231596, "epoch": 4.88337526, "global_step/max_steps": "64065/65595", "percentage": "97.67%", "elapsed_time": "3d 4h 50m 22s", "remaining_time": "1h 50m 6s"}
+{"loss": 0.01931393, "token_acc": 0.99290551, "grad_norm": 1.25040472, "learning_rate": 1.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231601, "epoch": 4.88375638, "global_step/max_steps": "64070/65595", "percentage": "97.68%", "elapsed_time": "3d 4h 50m 37s", "remaining_time": "1h 49m 44s"}
+{"loss": 0.03352259, "token_acc": 0.9844078, "grad_norm": 2.28788996, "learning_rate": 1.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231607, "epoch": 4.88413751, "global_step/max_steps": "64075/65595", "percentage": "97.68%", "elapsed_time": "3d 4h 50m 52s", "remaining_time": "1h 49m 22s"}
+{"loss": 0.0337063, "token_acc": 0.99080793, "grad_norm": 3.98191357, "learning_rate": 1.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231612, "epoch": 4.88451864, "global_step/max_steps": "64080/65595", "percentage": "97.69%", "elapsed_time": "3d 4h 51m 7s", "remaining_time": "1h 49m 1s"}
+{"loss": 0.02924657, "token_acc": 0.98544315, "grad_norm": 0.63628107, "learning_rate": 1.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231615, "epoch": 4.88489976, "global_step/max_steps": "64085/65595", "percentage": "97.70%", "elapsed_time": "3d 4h 51m 25s", "remaining_time": "1h 48m 39s"}
+{"loss": 0.02342715, "token_acc": 0.99068935, "grad_norm": 0.78240973, "learning_rate": 1.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231617, "epoch": 4.88528089, "global_step/max_steps": "64090/65595", "percentage": "97.71%", "elapsed_time": "3d 4h 51m 44s", "remaining_time": "1h 48m 17s"}
+{"loss": 0.02870201, "token_acc": 0.98829909, "grad_norm": 0.3662391, "learning_rate": 1.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231622, "epoch": 4.88566202, "global_step/max_steps": "64095/65595", "percentage": "97.71%", "elapsed_time": "3d 4h 52m 0s", "remaining_time": "1h 47m 56s"}
+{"loss": 0.03188498, "token_acc": 0.9905932, "grad_norm": 0.55035877, "learning_rate": 1.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231626, "epoch": 4.88604314, "global_step/max_steps": "64100/65595", "percentage": "97.72%", "elapsed_time": "3d 4h 52m 17s", "remaining_time": "1h 47m 34s"}
+{"loss": 0.03042743, "token_acc": 0.98852772, "grad_norm": 0.45227796, "learning_rate": 1.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231627, "epoch": 4.88642427, "global_step/max_steps": "64105/65595", "percentage": "97.73%", "elapsed_time": "3d 4h 52m 36s", "remaining_time": "1h 47m 12s"}
+{"loss": 0.0293609, "token_acc": 0.98766213, "grad_norm": 2.01212382, "learning_rate": 1.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231629, "epoch": 4.8868054, "global_step/max_steps": "64110/65595", "percentage": "97.74%", "elapsed_time": "3d 4h 52m 56s", "remaining_time": "1h 46m 51s"}
+{"loss": 0.0370635, "token_acc": 0.98798211, "grad_norm": 1.27369976, "learning_rate": 1.3e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231634, "epoch": 4.88718652, "global_step/max_steps": "64115/65595", "percentage": "97.74%", "elapsed_time": "3d 4h 53m 12s", "remaining_time": "1h 46m 29s"}
+{"loss": 0.05292032, "token_acc": 0.97699983, "grad_norm": 1.0322516, "learning_rate": 1.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231637, "epoch": 4.88756765, "global_step/max_steps": "64120/65595", "percentage": "97.75%", "elapsed_time": "3d 4h 53m 30s", "remaining_time": "1h 46m 7s"}
+{"loss": 0.01593741, "token_acc": 0.994232, "grad_norm": 0.57784355, "learning_rate": 1.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231641, "epoch": 4.88794878, "global_step/max_steps": "64125/65595", "percentage": "97.76%", "elapsed_time": "3d 4h 53m 47s", "remaining_time": "1h 45m 45s"}
+{"loss": 0.02904029, "token_acc": 0.98830812, "grad_norm": 0.78224635, "learning_rate": 1.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231647, "epoch": 4.8883299, "global_step/max_steps": "64130/65595", "percentage": "97.77%", "elapsed_time": "3d 4h 54m 1s", "remaining_time": "1h 45m 24s"}
+{"loss": 0.04620934, "token_acc": 0.98151515, "grad_norm": 0.79121405, "learning_rate": 1.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231652, "epoch": 4.88871103, "global_step/max_steps": "64135/65595", "percentage": "97.77%", "elapsed_time": "3d 4h 54m 17s", "remaining_time": "1h 45m 2s"}
+{"loss": 0.02891822, "token_acc": 0.99324213, "grad_norm": 1.36228657, "learning_rate": 1.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231654, "epoch": 4.88909216, "global_step/max_steps": "64140/65595", "percentage": "97.78%", "elapsed_time": "3d 4h 54m 36s", "remaining_time": "1h 44m 40s"}
+{"loss": 0.02719883, "token_acc": 0.99068805, "grad_norm": 1.58691645, "learning_rate": 1.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23166, "epoch": 4.88947328, "global_step/max_steps": "64145/65595", "percentage": "97.79%", "elapsed_time": "3d 4h 54m 50s", "remaining_time": "1h 44m 19s"}
+{"loss": 0.02340464, "token_acc": 0.99068034, "grad_norm": 1.49795568, "learning_rate": 1.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231665, "epoch": 4.88985441, "global_step/max_steps": "64150/65595", "percentage": "97.80%", "elapsed_time": "3d 4h 55m 6s", "remaining_time": "1h 43m 57s"}
+{"loss": 0.04877746, "token_acc": 0.98377648, "grad_norm": 0.97550774, "learning_rate": 1.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231667, "epoch": 4.89023554, "global_step/max_steps": "64155/65595", "percentage": "97.80%", "elapsed_time": "3d 4h 55m 25s", "remaining_time": "1h 43m 35s"}
+{"loss": 0.03770903, "token_acc": 0.98898708, "grad_norm": 0.45193055, "learning_rate": 1.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231667, "epoch": 4.89061666, "global_step/max_steps": "64160/65595", "percentage": "97.81%", "elapsed_time": "3d 4h 55m 47s", "remaining_time": "1h 43m 14s"}
+{"loss": 0.04038098, "token_acc": 0.98667871, "grad_norm": 1.71053231, "learning_rate": 1.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231672, "epoch": 4.89099779, "global_step/max_steps": "64165/65595", "percentage": "97.82%", "elapsed_time": "3d 4h 56m 2s", "remaining_time": "1h 42m 52s"}
+{"loss": 0.02085369, "token_acc": 0.98760258, "grad_norm": 0.76191878, "learning_rate": 1.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231674, "epoch": 4.89137892, "global_step/max_steps": "64170/65595", "percentage": "97.83%", "elapsed_time": "3d 4h 56m 21s", "remaining_time": "1h 42m 30s"}
+{"loss": 0.02986462, "token_acc": 0.9892274, "grad_norm": 0.81324393, "learning_rate": 1.2e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231677, "epoch": 4.89176004, "global_step/max_steps": "64175/65595", "percentage": "97.84%", "elapsed_time": "3d 4h 56m 39s", "remaining_time": "1h 42m 9s"}
+{"loss": 0.02019457, "token_acc": 0.9906713, "grad_norm": 0.9379161, "learning_rate": 1.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23168, "epoch": 4.89214117, "global_step/max_steps": "64180/65595", "percentage": "97.84%", "elapsed_time": "3d 4h 56m 58s", "remaining_time": "1h 41m 47s"}
+{"loss": 0.02492622, "token_acc": 0.99268364, "grad_norm": 0.52521563, "learning_rate": 1.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231684, "epoch": 4.8925223, "global_step/max_steps": "64185/65595", "percentage": "97.85%", "elapsed_time": "3d 4h 57m 14s", "remaining_time": "1h 41m 25s"}
+{"loss": 0.05386235, "token_acc": 0.98544325, "grad_norm": 1.00791717, "learning_rate": 1.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231687, "epoch": 4.89290342, "global_step/max_steps": "64190/65595", "percentage": "97.86%", "elapsed_time": "3d 4h 57m 32s", "remaining_time": "1h 41m 4s"}
+{"loss": 0.01835243, "token_acc": 0.9905633, "grad_norm": 0.53695399, "learning_rate": 1.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231688, "epoch": 4.89328455, "global_step/max_steps": "64195/65595", "percentage": "97.87%", "elapsed_time": "3d 4h 57m 52s", "remaining_time": "1h 40m 42s"}
+{"loss": 0.03027788, "token_acc": 0.98352034, "grad_norm": 1.69852543, "learning_rate": 1.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231694, "epoch": 4.89366568, "global_step/max_steps": "64200/65595", "percentage": "97.87%", "elapsed_time": "3d 4h 58m 7s", "remaining_time": "1h 40m 20s"}
+{"eval_loss": 0.04665606, "eval_token_acc": 0.98116077, "eval_runtime": 221.393, "eval_samples_per_second": 2.394, "eval_steps_per_second": 2.394, "epoch": 4.89366568, "global_step/max_steps": "64200/65595", "percentage": "97.87%", "elapsed_time": "3d 5h 1m 49s", "remaining_time": "1h 40m 25s"}
+{"loss": 0.01863902, "token_acc": 0.98158086, "grad_norm": 0.89775807, "learning_rate": 1.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231512, "epoch": 4.8940468, "global_step/max_steps": "64205/65595", "percentage": "97.88%", "elapsed_time": "3d 5h 2m 6s", "remaining_time": "1h 40m 3s"}
+{"loss": 0.01690723, "token_acc": 0.99269974, "grad_norm": 0.64536244, "learning_rate": 1.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231513, "epoch": 4.89442793, "global_step/max_steps": "64210/65595", "percentage": "97.89%", "elapsed_time": "3d 5h 2m 26s", "remaining_time": "1h 39m 42s"}
+{"loss": 0.01265117, "token_acc": 0.99623431, "grad_norm": 0.5604943, "learning_rate": 1.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23152, "epoch": 4.89480906, "global_step/max_steps": "64215/65595", "percentage": "97.90%", "elapsed_time": "3d 5h 2m 40s", "remaining_time": "1h 39m 20s"}
+{"loss": 0.02251924, "token_acc": 0.98830409, "grad_norm": 0.85470182, "learning_rate": 1.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231523, "epoch": 4.89519018, "global_step/max_steps": "64220/65595", "percentage": "97.90%", "elapsed_time": "3d 5h 2m 58s", "remaining_time": "1h 38m 58s"}
+{"loss": 0.02179551, "token_acc": 0.9924338, "grad_norm": 0.42718202, "learning_rate": 1.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231528, "epoch": 4.89557131, "global_step/max_steps": "64225/65595", "percentage": "97.91%", "elapsed_time": "3d 5h 3m 13s", "remaining_time": "1h 38m 37s"}
+{"loss": 0.03028526, "token_acc": 0.98853047, "grad_norm": 1.29565728, "learning_rate": 1.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231532, "epoch": 4.89595244, "global_step/max_steps": "64230/65595", "percentage": "97.92%", "elapsed_time": "3d 5h 3m 31s", "remaining_time": "1h 38m 15s"}
+{"loss": 0.02601749, "token_acc": 0.98970542, "grad_norm": 1.33663034, "learning_rate": 1.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231533, "epoch": 4.89633356, "global_step/max_steps": "64235/65595", "percentage": "97.93%", "elapsed_time": "3d 5h 3m 51s", "remaining_time": "1h 37m 53s"}
+{"loss": 0.01694464, "token_acc": 0.99092513, "grad_norm": 1.08703947, "learning_rate": 1.1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231538, "epoch": 4.89671469, "global_step/max_steps": "64240/65595", "percentage": "97.93%", "elapsed_time": "3d 5h 4m 6s", "remaining_time": "1h 37m 32s"}
+{"loss": 0.03651675, "token_acc": 0.98802329, "grad_norm": 1.37480485, "learning_rate": 1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231538, "epoch": 4.89709582, "global_step/max_steps": "64245/65595", "percentage": "97.94%", "elapsed_time": "3d 5h 4m 28s", "remaining_time": "1h 37m 10s"}
+{"loss": 0.03201047, "token_acc": 0.98743233, "grad_norm": 1.20455921, "learning_rate": 1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231542, "epoch": 4.89747694, "global_step/max_steps": "64250/65595", "percentage": "97.95%", "elapsed_time": "3d 5h 4m 44s", "remaining_time": "1h 36m 48s"}
+{"loss": 0.03226055, "token_acc": 0.99160168, "grad_norm": 1.74986005, "learning_rate": 1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231547, "epoch": 4.89785807, "global_step/max_steps": "64255/65595", "percentage": "97.96%", "elapsed_time": "3d 5h 5m 0s", "remaining_time": "1h 36m 27s"}
+{"loss": 0.02282372, "token_acc": 0.9893447, "grad_norm": 1.10310614, "learning_rate": 1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231549, "epoch": 4.8982392, "global_step/max_steps": "64260/65595", "percentage": "97.96%", "elapsed_time": "3d 5h 5m 19s", "remaining_time": "1h 36m 5s"}
+{"loss": 0.03022526, "token_acc": 0.98318367, "grad_norm": 0.82609069, "learning_rate": 1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231553, "epoch": 4.89862032, "global_step/max_steps": "64265/65595", "percentage": "97.97%", "elapsed_time": "3d 5h 5m 37s", "remaining_time": "1h 35m 43s"}
+{"loss": 0.03397706, "token_acc": 0.98637681, "grad_norm": 1.20393443, "learning_rate": 1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231557, "epoch": 4.89900145, "global_step/max_steps": "64270/65595", "percentage": "97.98%", "elapsed_time": "3d 5h 5m 53s", "remaining_time": "1h 35m 22s"}
+{"loss": 0.01343467, "token_acc": 0.99561884, "grad_norm": 0.98295921, "learning_rate": 1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231563, "epoch": 4.89938257, "global_step/max_steps": "64275/65595", "percentage": "97.99%", "elapsed_time": "3d 5h 6m 8s", "remaining_time": "1h 35m 0s"}
+{"loss": 0.01752602, "token_acc": 0.99089184, "grad_norm": 0.73028219, "learning_rate": 1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231566, "epoch": 4.8997637, "global_step/max_steps": "64280/65595", "percentage": "98.00%", "elapsed_time": "3d 5h 6m 25s", "remaining_time": "1h 34m 38s"}
+{"loss": 0.02817841, "token_acc": 0.9904212, "grad_norm": 1.8883884, "learning_rate": 1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231568, "epoch": 4.90014483, "global_step/max_steps": "64285/65595", "percentage": "98.00%", "elapsed_time": "3d 5h 6m 45s", "remaining_time": "1h 34m 17s"}
+{"loss": 0.0219207, "token_acc": 0.99263158, "grad_norm": 0.53477609, "learning_rate": 1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231572, "epoch": 4.90052595, "global_step/max_steps": "64290/65595", "percentage": "98.01%", "elapsed_time": "3d 5h 7m 2s", "remaining_time": "1h 33m 55s"}
+{"loss": 0.02078361, "token_acc": 0.99158148, "grad_norm": 0.65993327, "learning_rate": 1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231577, "epoch": 4.90090708, "global_step/max_steps": "64295/65595", "percentage": "98.02%", "elapsed_time": "3d 5h 7m 17s", "remaining_time": "1h 33m 33s"}
+{"loss": 0.03194462, "token_acc": 0.99268548, "grad_norm": 2.03644824, "learning_rate": 1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231581, "epoch": 4.90128821, "global_step/max_steps": "64300/65595", "percentage": "98.03%", "elapsed_time": "3d 5h 7m 34s", "remaining_time": "1h 33m 11s"}
+{"loss": 0.0400995, "token_acc": 0.97847279, "grad_norm": 0.94339836, "learning_rate": 1e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231586, "epoch": 4.90166933, "global_step/max_steps": "64305/65595", "percentage": "98.03%", "elapsed_time": "3d 5h 7m 49s", "remaining_time": "1h 32m 50s"}
+{"loss": 0.03706355, "token_acc": 0.98639456, "grad_norm": 0.88050115, "learning_rate": 9e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231589, "epoch": 4.90205046, "global_step/max_steps": "64310/65595", "percentage": "98.04%", "elapsed_time": "3d 5h 8m 8s", "remaining_time": "1h 32m 28s"}
+{"loss": 0.03462998, "token_acc": 0.98478656, "grad_norm": 2.16484046, "learning_rate": 9e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231594, "epoch": 4.90243159, "global_step/max_steps": "64315/65595", "percentage": "98.05%", "elapsed_time": "3d 5h 8m 23s", "remaining_time": "1h 32m 6s"}
+{"loss": 0.03989481, "token_acc": 0.98469123, "grad_norm": 1.21491325, "learning_rate": 9e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231598, "epoch": 4.90281271, "global_step/max_steps": "64320/65595", "percentage": "98.06%", "elapsed_time": "3d 5h 8m 39s", "remaining_time": "1h 31m 45s"}
+{"loss": 0.02207945, "token_acc": 0.99178645, "grad_norm": 0.8736729, "learning_rate": 9e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231603, "epoch": 4.90319384, "global_step/max_steps": "64325/65595", "percentage": "98.06%", "elapsed_time": "3d 5h 8m 55s", "remaining_time": "1h 31m 23s"}
+{"loss": 0.02352596, "token_acc": 0.99017802, "grad_norm": 2.51890588, "learning_rate": 9e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231607, "epoch": 4.90357497, "global_step/max_steps": "64330/65595", "percentage": "98.07%", "elapsed_time": "3d 5h 9m 12s", "remaining_time": "1h 31m 1s"}
+{"loss": 0.02384883, "token_acc": 0.99077126, "grad_norm": 0.84304291, "learning_rate": 9e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23161, "epoch": 4.90395609, "global_step/max_steps": "64335/65595", "percentage": "98.08%", "elapsed_time": "3d 5h 9m 30s", "remaining_time": "1h 30m 40s"}
+{"loss": 0.01806344, "token_acc": 0.98807044, "grad_norm": 0.00050455, "learning_rate": 9e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231612, "epoch": 4.90433722, "global_step/max_steps": "64340/65595", "percentage": "98.09%", "elapsed_time": "3d 5h 9m 49s", "remaining_time": "1h 30m 18s"}
+{"loss": 0.01591356, "token_acc": 0.99429285, "grad_norm": 0.79039758, "learning_rate": 9e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231616, "epoch": 4.90471835, "global_step/max_steps": "64345/65595", "percentage": "98.09%", "elapsed_time": "3d 5h 10m 6s", "remaining_time": "1h 29m 56s"}
+{"loss": 0.04123897, "token_acc": 0.98411935, "grad_norm": 2.10217524, "learning_rate": 9e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231622, "epoch": 4.90509947, "global_step/max_steps": "64350/65595", "percentage": "98.10%", "elapsed_time": "3d 5h 10m 21s", "remaining_time": "1h 29m 35s"}
+{"loss": 0.02247782, "token_acc": 0.99273835, "grad_norm": 0.63286936, "learning_rate": 9e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231626, "epoch": 4.9054806, "global_step/max_steps": "64355/65595", "percentage": "98.11%", "elapsed_time": "3d 5h 10m 38s", "remaining_time": "1h 29m 13s"}
+{"loss": 0.03008895, "token_acc": 0.98343872, "grad_norm": 1.40575111, "learning_rate": 9e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231631, "epoch": 4.90586173, "global_step/max_steps": "64360/65595", "percentage": "98.12%", "elapsed_time": "3d 5h 10m 53s", "remaining_time": "1h 28m 51s"}
+{"loss": 0.02452969, "token_acc": 0.98941799, "grad_norm": 1.01783323, "learning_rate": 9e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231634, "epoch": 4.90624285, "global_step/max_steps": "64365/65595", "percentage": "98.12%", "elapsed_time": "3d 5h 11m 11s", "remaining_time": "1h 28m 30s"}
+{"loss": 0.0450146, "token_acc": 0.98167539, "grad_norm": 1.00001097, "learning_rate": 9e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231639, "epoch": 4.90662398, "global_step/max_steps": "64370/65595", "percentage": "98.13%", "elapsed_time": "3d 5h 11m 27s", "remaining_time": "1h 28m 8s"}
+{"loss": 0.0530442, "token_acc": 0.9853708, "grad_norm": 2.44176698, "learning_rate": 9e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231641, "epoch": 4.90700511, "global_step/max_steps": "64375/65595", "percentage": "98.14%", "elapsed_time": "3d 5h 11m 46s", "remaining_time": "1h 27m 46s"}
+{"loss": 0.04128436, "token_acc": 0.98659474, "grad_norm": 0.60180426, "learning_rate": 8e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231644, "epoch": 4.90738623, "global_step/max_steps": "64380/65595", "percentage": "98.15%", "elapsed_time": "3d 5h 12m 4s", "remaining_time": "1h 27m 25s"}
+{"loss": 0.04116612, "token_acc": 0.98006645, "grad_norm": 1.25363708, "learning_rate": 8e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231649, "epoch": 4.90776736, "global_step/max_steps": "64385/65595", "percentage": "98.16%", "elapsed_time": "3d 5h 12m 20s", "remaining_time": "1h 27m 3s"}
+{"loss": 0.04201065, "token_acc": 0.98215863, "grad_norm": 1.29915297, "learning_rate": 8e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231652, "epoch": 4.90814849, "global_step/max_steps": "64390/65595", "percentage": "98.16%", "elapsed_time": "3d 5h 12m 37s", "remaining_time": "1h 26m 41s"}
+{"loss": 0.03325927, "token_acc": 0.98353458, "grad_norm": 1.56067479, "learning_rate": 8e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231657, "epoch": 4.90852961, "global_step/max_steps": "64395/65595", "percentage": "98.17%", "elapsed_time": "3d 5h 12m 53s", "remaining_time": "1h 26m 20s"}
+{"loss": 0.02837897, "token_acc": 0.98546512, "grad_norm": 0.67358828, "learning_rate": 8e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231661, "epoch": 4.90891074, "global_step/max_steps": "64400/65595", "percentage": "98.18%", "elapsed_time": "3d 5h 13m 10s", "remaining_time": "1h 25m 58s"}
+{"eval_loss": 0.04684532, "eval_token_acc": 0.98098759, "eval_runtime": 221.7702, "eval_samples_per_second": 2.39, "eval_steps_per_second": 2.39, "epoch": 4.90891074, "global_step/max_steps": "64400/65595", "percentage": "98.18%", "elapsed_time": "3d 5h 16m 52s", "remaining_time": "1h 26m 2s"}
+{"loss": 0.04875497, "token_acc": 0.98119749, "grad_norm": 0.75526369, "learning_rate": 8e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231479, "epoch": 4.90929187, "global_step/max_steps": "64405/65595", "percentage": "98.19%", "elapsed_time": "3d 5h 17m 10s", "remaining_time": "1h 25m 40s"}
+{"loss": 0.02993651, "token_acc": 0.98669751, "grad_norm": 1.59970307, "learning_rate": 8e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231483, "epoch": 4.90967299, "global_step/max_steps": "64410/65595", "percentage": "98.19%", "elapsed_time": "3d 5h 17m 27s", "remaining_time": "1h 25m 19s"}
+{"loss": 0.0432303, "token_acc": 0.98234429, "grad_norm": 0.82303494, "learning_rate": 8e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231487, "epoch": 4.91005412, "global_step/max_steps": "64415/65595", "percentage": "98.20%", "elapsed_time": "3d 5h 17m 43s", "remaining_time": "1h 24m 57s"}
+{"loss": 0.03099622, "token_acc": 0.98740554, "grad_norm": 1.65162694, "learning_rate": 8e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231491, "epoch": 4.91043525, "global_step/max_steps": "64420/65595", "percentage": "98.21%", "elapsed_time": "3d 5h 18m 0s", "remaining_time": "1h 24m 35s"}
+{"loss": 0.04162881, "token_acc": 0.9785861, "grad_norm": 1.36369181, "learning_rate": 8e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231496, "epoch": 4.91081637, "global_step/max_steps": "64425/65595", "percentage": "98.22%", "elapsed_time": "3d 5h 18m 16s", "remaining_time": "1h 24m 14s"}
+{"loss": 0.041896, "token_acc": 0.99127989, "grad_norm": 0.54357415, "learning_rate": 8e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231501, "epoch": 4.9111975, "global_step/max_steps": "64430/65595", "percentage": "98.22%", "elapsed_time": "3d 5h 18m 32s", "remaining_time": "1h 23m 52s"}
+{"loss": 0.02558418, "token_acc": 0.99101094, "grad_norm": 0.37745205, "learning_rate": 8e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231502, "epoch": 4.91157863, "global_step/max_steps": "64435/65595", "percentage": "98.23%", "elapsed_time": "3d 5h 18m 52s", "remaining_time": "1h 23m 30s"}
+{"loss": 0.0232651, "token_acc": 0.98975553, "grad_norm": 1.44386411, "learning_rate": 8e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231505, "epoch": 4.91195975, "global_step/max_steps": "64440/65595", "percentage": "98.24%", "elapsed_time": "3d 5h 19m 10s", "remaining_time": "1h 23m 9s"}
+{"loss": 0.04066857, "token_acc": 0.98009188, "grad_norm": 1.39468253, "learning_rate": 8e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231508, "epoch": 4.91234088, "global_step/max_steps": "64445/65595", "percentage": "98.25%", "elapsed_time": "3d 5h 19m 28s", "remaining_time": "1h 22m 47s"}
+{"loss": 0.02325343, "token_acc": 0.99128102, "grad_norm": 1.18528068, "learning_rate": 8e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231512, "epoch": 4.91272201, "global_step/max_steps": "64450/65595", "percentage": "98.25%", "elapsed_time": "3d 5h 19m 44s", "remaining_time": "1h 22m 25s"}
+{"loss": 0.03005021, "token_acc": 0.98821681, "grad_norm": 1.22307038, "learning_rate": 7e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231515, "epoch": 4.91310313, "global_step/max_steps": "64455/65595", "percentage": "98.26%", "elapsed_time": "3d 5h 20m 2s", "remaining_time": "1h 22m 4s"}
+{"loss": 0.03916605, "token_acc": 0.98320844, "grad_norm": 2.92908025, "learning_rate": 7e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231518, "epoch": 4.91348426, "global_step/max_steps": "64460/65595", "percentage": "98.27%", "elapsed_time": "3d 5h 20m 21s", "remaining_time": "1h 21m 42s"}
+{"loss": 0.04162599, "token_acc": 0.9871714, "grad_norm": 1.87060475, "learning_rate": 7e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231519, "epoch": 4.91386539, "global_step/max_steps": "64465/65595", "percentage": "98.28%", "elapsed_time": "3d 5h 20m 41s", "remaining_time": "1h 21m 20s"}
+{"loss": 0.05081264, "token_acc": 0.98253707, "grad_norm": 0.97446102, "learning_rate": 7e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231522, "epoch": 4.91424651, "global_step/max_steps": "64470/65595", "percentage": "98.28%", "elapsed_time": "3d 5h 20m 59s", "remaining_time": "1h 20m 59s"}
+{"loss": 0.03673213, "token_acc": 0.981423, "grad_norm": 0.11970565, "learning_rate": 7e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231524, "epoch": 4.91462764, "global_step/max_steps": "64475/65595", "percentage": "98.29%", "elapsed_time": "3d 5h 21m 18s", "remaining_time": "1h 20m 37s"}
+{"loss": 0.03086423, "token_acc": 0.98828787, "grad_norm": 0.65408826, "learning_rate": 7e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231528, "epoch": 4.91500877, "global_step/max_steps": "64480/65595", "percentage": "98.30%", "elapsed_time": "3d 5h 21m 35s", "remaining_time": "1h 20m 15s"}
+{"loss": 0.037468, "token_acc": 0.98235887, "grad_norm": 1.05748272, "learning_rate": 7e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231534, "epoch": 4.91538989, "global_step/max_steps": "64485/65595", "percentage": "98.31%", "elapsed_time": "3d 5h 21m 50s", "remaining_time": "1h 19m 54s"}
+{"loss": 0.03385822, "token_acc": 0.98568873, "grad_norm": 0.70933354, "learning_rate": 7e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231537, "epoch": 4.91577102, "global_step/max_steps": "64490/65595", "percentage": "98.32%", "elapsed_time": "3d 5h 22m 7s", "remaining_time": "1h 19m 32s"}
+{"loss": 0.03083773, "token_acc": 0.98937214, "grad_norm": 1.10350478, "learning_rate": 7e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231541, "epoch": 4.91615215, "global_step/max_steps": "64495/65595", "percentage": "98.32%", "elapsed_time": "3d 5h 22m 24s", "remaining_time": "1h 19m 10s"}
+{"loss": 0.03197336, "token_acc": 0.98671672, "grad_norm": 1.96085572, "learning_rate": 7e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231545, "epoch": 4.91653327, "global_step/max_steps": "64500/65595", "percentage": "98.33%", "elapsed_time": "3d 5h 22m 41s", "remaining_time": "1h 18m 49s"}
+{"loss": 0.03345221, "token_acc": 0.98841654, "grad_norm": 0.3497912, "learning_rate": 7e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231546, "epoch": 4.9169144, "global_step/max_steps": "64505/65595", "percentage": "98.34%", "elapsed_time": "3d 5h 23m 2s", "remaining_time": "1h 18m 27s"}
+{"loss": 0.02262633, "token_acc": 0.99025891, "grad_norm": 1.37079966, "learning_rate": 7e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231551, "epoch": 4.91729553, "global_step/max_steps": "64510/65595", "percentage": "98.35%", "elapsed_time": "3d 5h 23m 17s", "remaining_time": "1h 18m 5s"}
+{"loss": 0.0590191, "token_acc": 0.98285714, "grad_norm": 0.80202222, "learning_rate": 7e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231556, "epoch": 4.91767665, "global_step/max_steps": "64515/65595", "percentage": "98.35%", "elapsed_time": "3d 5h 23m 32s", "remaining_time": "1h 17m 44s"}
+{"loss": 0.05534981, "token_acc": 0.99052988, "grad_norm": 0.55976278, "learning_rate": 7e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23156, "epoch": 4.91805778, "global_step/max_steps": "64520/65595", "percentage": "98.36%", "elapsed_time": "3d 5h 23m 50s", "remaining_time": "1h 17m 22s"}
+{"loss": 0.04920347, "token_acc": 0.98178269, "grad_norm": 3.04622722, "learning_rate": 7e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231565, "epoch": 4.91843891, "global_step/max_steps": "64525/65595", "percentage": "98.37%", "elapsed_time": "3d 5h 24m 5s", "remaining_time": "1h 17m 0s"}
+{"loss": 0.02071723, "token_acc": 0.99287894, "grad_norm": 1.11455274, "learning_rate": 7e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23157, "epoch": 4.91882003, "global_step/max_steps": "64530/65595", "percentage": "98.38%", "elapsed_time": "3d 5h 24m 20s", "remaining_time": "1h 16m 39s"}
+{"loss": 0.02747706, "token_acc": 0.99174285, "grad_norm": 0.65102106, "learning_rate": 6e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231572, "epoch": 4.91920116, "global_step/max_steps": "64535/65595", "percentage": "98.38%", "elapsed_time": "3d 5h 24m 39s", "remaining_time": "1h 16m 17s"}
+{"loss": 0.02899023, "token_acc": 0.98793305, "grad_norm": 0.99330616, "learning_rate": 6e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231578, "epoch": 4.91958229, "global_step/max_steps": "64540/65595", "percentage": "98.39%", "elapsed_time": "3d 5h 24m 54s", "remaining_time": "1h 15m 55s"}
+{"loss": 0.02477267, "token_acc": 0.98963134, "grad_norm": 0.96685123, "learning_rate": 6e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231583, "epoch": 4.91996341, "global_step/max_steps": "64545/65595", "percentage": "98.40%", "elapsed_time": "3d 5h 25m 10s", "remaining_time": "1h 15m 33s"}
+{"loss": 0.02928393, "token_acc": 0.98921774, "grad_norm": 0.42658889, "learning_rate": 6e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231582, "epoch": 4.92034454, "global_step/max_steps": "64550/65595", "percentage": "98.41%", "elapsed_time": "3d 5h 25m 33s", "remaining_time": "1h 15m 12s"}
+{"loss": 0.04231945, "token_acc": 0.98185638, "grad_norm": 0.58156681, "learning_rate": 6e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231586, "epoch": 4.92072567, "global_step/max_steps": "64555/65595", "percentage": "98.41%", "elapsed_time": "3d 5h 25m 49s", "remaining_time": "1h 14m 50s"}
+{"loss": 0.03468429, "token_acc": 0.98629321, "grad_norm": 0.70544732, "learning_rate": 6e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23159, "epoch": 4.92110679, "global_step/max_steps": "64560/65595", "percentage": "98.42%", "elapsed_time": "3d 5h 26m 6s", "remaining_time": "1h 14m 29s"}
+{"loss": 0.02745641, "token_acc": 0.98865851, "grad_norm": 0.78552121, "learning_rate": 6e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231593, "epoch": 4.92148792, "global_step/max_steps": "64565/65595", "percentage": "98.43%", "elapsed_time": "3d 5h 26m 24s", "remaining_time": "1h 14m 7s"}
+{"loss": 0.01862726, "token_acc": 0.99032133, "grad_norm": 0.9582119, "learning_rate": 6e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231597, "epoch": 4.92186904, "global_step/max_steps": "64570/65595", "percentage": "98.44%", "elapsed_time": "3d 5h 26m 41s", "remaining_time": "1h 13m 45s"}
+{"loss": 0.03103384, "token_acc": 0.98948204, "grad_norm": 0.58461457, "learning_rate": 6e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231599, "epoch": 4.92225017, "global_step/max_steps": "64575/65595", "percentage": "98.45%", "elapsed_time": "3d 5h 26m 59s", "remaining_time": "1h 13m 24s"}
+{"loss": 0.03770174, "token_acc": 0.98439973, "grad_norm": 2.12601066, "learning_rate": 6e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231603, "epoch": 4.9226313, "global_step/max_steps": "64580/65595", "percentage": "98.45%", "elapsed_time": "3d 5h 27m 16s", "remaining_time": "1h 13m 2s"}
+{"loss": 0.03209035, "token_acc": 0.98464759, "grad_norm": 0.93734193, "learning_rate": 6e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231606, "epoch": 4.92301242, "global_step/max_steps": "64585/65595", "percentage": "98.46%", "elapsed_time": "3d 5h 27m 34s", "remaining_time": "1h 12m 40s"}
+{"loss": 0.01878658, "token_acc": 0.9924812, "grad_norm": 1.36917162, "learning_rate": 6e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231611, "epoch": 4.92339355, "global_step/max_steps": "64590/65595", "percentage": "98.47%", "elapsed_time": "3d 5h 27m 49s", "remaining_time": "1h 12m 19s"}
+{"loss": 0.0256216, "token_acc": 0.98832594, "grad_norm": 0.8006615, "learning_rate": 6e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231614, "epoch": 4.92377468, "global_step/max_steps": "64595/65595", "percentage": "98.48%", "elapsed_time": "3d 5h 28m 8s", "remaining_time": "1h 11m 57s"}
+{"loss": 0.02495528, "token_acc": 0.99084859, "grad_norm": 1.24991679, "learning_rate": 6e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231619, "epoch": 4.9241558, "global_step/max_steps": "64600/65595", "percentage": "98.48%", "elapsed_time": "3d 5h 28m 24s", "remaining_time": "1h 11m 35s"}
+{"eval_loss": 0.04685001, "eval_token_acc": 0.98105536, "eval_runtime": 221.9456, "eval_samples_per_second": 2.388, "eval_steps_per_second": 2.388, "epoch": 4.9241558, "global_step/max_steps": "64600/65595", "percentage": "98.48%", "elapsed_time": "3d 5h 32m 6s", "remaining_time": "1h 11m 39s"}
+{"loss": 0.02209991, "token_acc": 0.98139558, "grad_norm": 0.32861644, "learning_rate": 6e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231438, "epoch": 4.92453693, "global_step/max_steps": "64605/65595", "percentage": "98.49%", "elapsed_time": "3d 5h 32m 23s", "remaining_time": "1h 11m 17s"}
+{"loss": 0.02588384, "token_acc": 0.99055148, "grad_norm": 0.88964945, "learning_rate": 6e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231442, "epoch": 4.92491806, "global_step/max_steps": "64610/65595", "percentage": "98.50%", "elapsed_time": "3d 5h 32m 40s", "remaining_time": "1h 10m 55s"}
+{"loss": 0.02337444, "token_acc": 0.99122967, "grad_norm": 0.83992416, "learning_rate": 6e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231445, "epoch": 4.92529918, "global_step/max_steps": "64615/65595", "percentage": "98.51%", "elapsed_time": "3d 5h 32m 59s", "remaining_time": "1h 10m 34s"}
+{"loss": 0.02859618, "token_acc": 0.99137105, "grad_norm": 1.05655587, "learning_rate": 5e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231448, "epoch": 4.92568031, "global_step/max_steps": "64620/65595", "percentage": "98.51%", "elapsed_time": "3d 5h 33m 16s", "remaining_time": "1h 10m 12s"}
+{"loss": 0.02525949, "token_acc": 0.99103567, "grad_norm": 0.97643119, "learning_rate": 5e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231452, "epoch": 4.92606144, "global_step/max_steps": "64625/65595", "percentage": "98.52%", "elapsed_time": "3d 5h 33m 33s", "remaining_time": "1h 9m 50s"}
+{"loss": 0.01648154, "token_acc": 0.9917231, "grad_norm": 0.56725609, "learning_rate": 5e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231456, "epoch": 4.92644256, "global_step/max_steps": "64630/65595", "percentage": "98.53%", "elapsed_time": "3d 5h 33m 50s", "remaining_time": "1h 9m 29s"}
+{"loss": 0.03268475, "token_acc": 0.98709534, "grad_norm": 0.83510798, "learning_rate": 5e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231455, "epoch": 4.92682369, "global_step/max_steps": "64635/65595", "percentage": "98.54%", "elapsed_time": "3d 5h 34m 12s", "remaining_time": "1h 9m 7s"}
+{"loss": 0.01562106, "token_acc": 0.99302163, "grad_norm": 0.89306313, "learning_rate": 5e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231462, "epoch": 4.92720482, "global_step/max_steps": "64640/65595", "percentage": "98.54%", "elapsed_time": "3d 5h 34m 25s", "remaining_time": "1h 8m 45s"}
+{"loss": 0.02269629, "token_acc": 0.98795397, "grad_norm": 0.80516863, "learning_rate": 5e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231465, "epoch": 4.92758594, "global_step/max_steps": "64645/65595", "percentage": "98.55%", "elapsed_time": "3d 5h 34m 44s", "remaining_time": "1h 8m 24s"}
+{"loss": 0.02815522, "token_acc": 0.99047619, "grad_norm": 1.46992815, "learning_rate": 5e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231468, "epoch": 4.92796707, "global_step/max_steps": "64650/65595", "percentage": "98.56%", "elapsed_time": "3d 5h 35m 2s", "remaining_time": "1h 8m 2s"}
+{"loss": 0.043796, "token_acc": 0.98364933, "grad_norm": 1.77213883, "learning_rate": 5e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231472, "epoch": 4.9283482, "global_step/max_steps": "64655/65595", "percentage": "98.57%", "elapsed_time": "3d 5h 35m 19s", "remaining_time": "1h 7m 40s"}
+{"loss": 0.02898723, "token_acc": 0.9877464, "grad_norm": 1.91794646, "learning_rate": 5e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231477, "epoch": 4.92872932, "global_step/max_steps": "64660/65595", "percentage": "98.57%", "elapsed_time": "3d 5h 35m 33s", "remaining_time": "1h 7m 19s"}
+{"loss": 0.04030443, "token_acc": 0.98653017, "grad_norm": 0.71016598, "learning_rate": 5e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231481, "epoch": 4.92911045, "global_step/max_steps": "64665/65595", "percentage": "98.58%", "elapsed_time": "3d 5h 35m 50s", "remaining_time": "1h 6m 57s"}
+{"loss": 0.0371634, "token_acc": 0.98599512, "grad_norm": 0.8892743, "learning_rate": 5e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231483, "epoch": 4.92949158, "global_step/max_steps": "64670/65595", "percentage": "98.59%", "elapsed_time": "3d 5h 36m 10s", "remaining_time": "1h 6m 35s"}
+{"loss": 0.02908652, "token_acc": 0.99070128, "grad_norm": 2.04885745, "learning_rate": 5e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231486, "epoch": 4.9298727, "global_step/max_steps": "64675/65595", "percentage": "98.60%", "elapsed_time": "3d 5h 36m 28s", "remaining_time": "1h 6m 14s"}
+{"loss": 0.04813656, "token_acc": 0.98081501, "grad_norm": 1.67480409, "learning_rate": 5e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231488, "epoch": 4.93025383, "global_step/max_steps": "64680/65595", "percentage": "98.61%", "elapsed_time": "3d 5h 36m 47s", "remaining_time": "1h 5m 52s"}
+{"loss": 0.02259388, "token_acc": 0.99382385, "grad_norm": 1.50277197, "learning_rate": 5e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231493, "epoch": 4.93063496, "global_step/max_steps": "64685/65595", "percentage": "98.61%", "elapsed_time": "3d 5h 37m 3s", "remaining_time": "1h 5m 30s"}
+{"loss": 0.02091292, "token_acc": 0.99210823, "grad_norm": 1.09813118, "learning_rate": 5e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231495, "epoch": 4.93101608, "global_step/max_steps": "64690/65595", "percentage": "98.62%", "elapsed_time": "3d 5h 37m 22s", "remaining_time": "1h 5m 9s"}
+{"loss": 0.02103598, "token_acc": 0.99338041, "grad_norm": 2.20433426, "learning_rate": 5e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2315, "epoch": 4.93139721, "global_step/max_steps": "64695/65595", "percentage": "98.63%", "elapsed_time": "3d 5h 37m 38s", "remaining_time": "1h 4m 47s"}
+{"loss": 0.01695243, "token_acc": 0.99291856, "grad_norm": 0.48203087, "learning_rate": 5e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231506, "epoch": 4.93177834, "global_step/max_steps": "64700/65595", "percentage": "98.64%", "elapsed_time": "3d 5h 37m 52s", "remaining_time": "1h 4m 25s"}
+{"loss": 0.02097765, "token_acc": 0.99115696, "grad_norm": 1.05870247, "learning_rate": 5e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231512, "epoch": 4.93215946, "global_step/max_steps": "64705/65595", "percentage": "98.64%", "elapsed_time": "3d 5h 38m 7s", "remaining_time": "1h 4m 4s"}
+{"loss": 0.03883736, "token_acc": 0.98575603, "grad_norm": 2.01386642, "learning_rate": 4e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231515, "epoch": 4.93254059, "global_step/max_steps": "64710/65595", "percentage": "98.65%", "elapsed_time": "3d 5h 38m 24s", "remaining_time": "1h 3m 42s"}
+{"loss": 0.03540684, "token_acc": 0.9897182, "grad_norm": 3.03831959, "learning_rate": 4e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231521, "epoch": 4.93292172, "global_step/max_steps": "64715/65595", "percentage": "98.66%", "elapsed_time": "3d 5h 38m 39s", "remaining_time": "1h 3m 20s"}
+{"loss": 0.02034511, "token_acc": 0.99088838, "grad_norm": 0.41020554, "learning_rate": 4e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231524, "epoch": 4.93330284, "global_step/max_steps": "64720/65595", "percentage": "98.67%", "elapsed_time": "3d 5h 38m 56s", "remaining_time": "1h 2m 59s"}
+{"loss": 0.0317811, "token_acc": 0.98759157, "grad_norm": 1.65708768, "learning_rate": 4e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231527, "epoch": 4.93368397, "global_step/max_steps": "64725/65595", "percentage": "98.67%", "elapsed_time": "3d 5h 39m 14s", "remaining_time": "1h 2m 37s"}
+{"loss": 0.03792876, "token_acc": 0.98343762, "grad_norm": 0.66569769, "learning_rate": 4e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231532, "epoch": 4.9340651, "global_step/max_steps": "64730/65595", "percentage": "98.68%", "elapsed_time": "3d 5h 39m 30s", "remaining_time": "1h 2m 15s"}
+{"loss": 0.06975325, "token_acc": 0.97963558, "grad_norm": 1.59172738, "learning_rate": 4e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231537, "epoch": 4.93444622, "global_step/max_steps": "64735/65595", "percentage": "98.69%", "elapsed_time": "3d 5h 39m 46s", "remaining_time": "1h 1m 54s"}
+{"loss": 0.02882661, "token_acc": 0.98818999, "grad_norm": 2.15802073, "learning_rate": 4e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231541, "epoch": 4.93482735, "global_step/max_steps": "64740/65595", "percentage": "98.70%", "elapsed_time": "3d 5h 40m 2s", "remaining_time": "1h 1m 32s"}
+{"loss": 0.03715924, "token_acc": 0.98909569, "grad_norm": 1.21838212, "learning_rate": 4e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231545, "epoch": 4.93520848, "global_step/max_steps": "64745/65595", "percentage": "98.70%", "elapsed_time": "3d 5h 40m 19s", "remaining_time": "1h 1m 10s"}
+{"loss": 0.04037887, "token_acc": 0.9912138, "grad_norm": 0.63092214, "learning_rate": 4e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23155, "epoch": 4.9355896, "global_step/max_steps": "64750/65595", "percentage": "98.71%", "elapsed_time": "3d 5h 40m 35s", "remaining_time": "1h 0m 49s"}
+{"loss": 0.02808077, "token_acc": 0.99140434, "grad_norm": 0.67970926, "learning_rate": 4e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231552, "epoch": 4.93597073, "global_step/max_steps": "64755/65595", "percentage": "98.72%", "elapsed_time": "3d 5h 40m 54s", "remaining_time": "1h 0m 27s"}
+{"loss": 0.0306457, "token_acc": 0.98676034, "grad_norm": 2.41736865, "learning_rate": 4e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231557, "epoch": 4.93635186, "global_step/max_steps": "64760/65595", "percentage": "98.73%", "elapsed_time": "3d 5h 41m 9s", "remaining_time": "1h 0m 5s"}
+{"loss": 0.02241525, "token_acc": 0.99247072, "grad_norm": 0.56236959, "learning_rate": 4e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231562, "epoch": 4.93673298, "global_step/max_steps": "64765/65595", "percentage": "98.73%", "elapsed_time": "3d 5h 41m 25s", "remaining_time": "59m 44s"}
+{"loss": 0.0253967, "token_acc": 0.99139554, "grad_norm": 2.10189295, "learning_rate": 4e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231566, "epoch": 4.93711411, "global_step/max_steps": "64770/65595", "percentage": "98.74%", "elapsed_time": "3d 5h 41m 41s", "remaining_time": "59m 22s"}
+{"loss": 0.02127471, "token_acc": 0.98587571, "grad_norm": 0.96935123, "learning_rate": 4e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23157, "epoch": 4.93749524, "global_step/max_steps": "64775/65595", "percentage": "98.75%", "elapsed_time": "3d 5h 41m 58s", "remaining_time": "59m 1s"}
+{"loss": 0.02112865, "token_acc": 0.99141144, "grad_norm": 1.07329381, "learning_rate": 4e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231574, "epoch": 4.93787636, "global_step/max_steps": "64780/65595", "percentage": "98.76%", "elapsed_time": "3d 5h 42m 15s", "remaining_time": "58m 39s"}
+{"loss": 0.03221612, "token_acc": 0.98870347, "grad_norm": 1.46961904, "learning_rate": 4e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231577, "epoch": 4.93825749, "global_step/max_steps": "64785/65595", "percentage": "98.77%", "elapsed_time": "3d 5h 42m 33s", "remaining_time": "58m 17s"}
+{"loss": 0.02014222, "token_acc": 0.99115914, "grad_norm": 0.80491185, "learning_rate": 4e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231582, "epoch": 4.93863862, "global_step/max_steps": "64790/65595", "percentage": "98.77%", "elapsed_time": "3d 5h 42m 48s", "remaining_time": "57m 56s"}
+{"loss": 0.03407996, "token_acc": 0.98844376, "grad_norm": 3.75556302, "learning_rate": 4e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231588, "epoch": 4.93901974, "global_step/max_steps": "64795/65595", "percentage": "98.78%", "elapsed_time": "3d 5h 43m 2s", "remaining_time": "57m 34s"}
+{"loss": 0.01177351, "token_acc": 0.99829642, "grad_norm": 0.36309808, "learning_rate": 4e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231595, "epoch": 4.93940087, "global_step/max_steps": "64800/65595", "percentage": "98.79%", "elapsed_time": "3d 5h 43m 15s", "remaining_time": "57m 12s"}
+{"eval_loss": 0.04665434, "eval_token_acc": 0.98098759, "eval_runtime": 222.2225, "eval_samples_per_second": 2.385, "eval_steps_per_second": 2.385, "epoch": 4.93940087, "global_step/max_steps": "64800/65595", "percentage": "98.79%", "elapsed_time": "3d 5h 46m 58s", "remaining_time": "57m 15s"}
+{"loss": 0.02866887, "token_acc": 0.98110701, "grad_norm": 0.95179766, "learning_rate": 4e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231417, "epoch": 4.939782, "global_step/max_steps": "64805/65595", "percentage": "98.80%", "elapsed_time": "3d 5h 47m 13s", "remaining_time": "56m 53s"}
+{"loss": 0.02447061, "token_acc": 0.9916182, "grad_norm": 1.24927866, "learning_rate": 4e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231421, "epoch": 4.94016312, "global_step/max_steps": "64810/65595", "percentage": "98.80%", "elapsed_time": "3d 5h 47m 30s", "remaining_time": "56m 32s"}
+{"loss": 0.0335188, "token_acc": 0.9844189, "grad_norm": 1.57293332, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231425, "epoch": 4.94054425, "global_step/max_steps": "64815/65595", "percentage": "98.81%", "elapsed_time": "3d 5h 47m 46s", "remaining_time": "56m 10s"}
+{"loss": 0.01493589, "token_acc": 0.99590909, "grad_norm": 1.37258756, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231431, "epoch": 4.94092538, "global_step/max_steps": "64820/65595", "percentage": "98.82%", "elapsed_time": "3d 5h 48m 0s", "remaining_time": "55m 48s"}
+{"loss": 0.01631131, "token_acc": 0.99057838, "grad_norm": 0.84458834, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231436, "epoch": 4.9413065, "global_step/max_steps": "64825/65595", "percentage": "98.83%", "elapsed_time": "3d 5h 48m 17s", "remaining_time": "55m 27s"}
+{"loss": 0.04226733, "token_acc": 0.98364104, "grad_norm": 2.07952118, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23144, "epoch": 4.94168763, "global_step/max_steps": "64830/65595", "percentage": "98.83%", "elapsed_time": "3d 5h 48m 33s", "remaining_time": "55m 5s"}
+{"loss": 0.01906786, "token_acc": 0.99037373, "grad_norm": 0.59097183, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231443, "epoch": 4.94206876, "global_step/max_steps": "64835/65595", "percentage": "98.84%", "elapsed_time": "3d 5h 48m 51s", "remaining_time": "54m 43s"}
+{"loss": 0.03901463, "token_acc": 0.98545259, "grad_norm": 0.53865153, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231447, "epoch": 4.94244988, "global_step/max_steps": "64840/65595", "percentage": "98.85%", "elapsed_time": "3d 5h 49m 7s", "remaining_time": "54m 22s"}
+{"loss": 0.03347412, "token_acc": 0.98633225, "grad_norm": 0.55223548, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231449, "epoch": 4.94283101, "global_step/max_steps": "64845/65595", "percentage": "98.86%", "elapsed_time": "3d 5h 49m 27s", "remaining_time": "54m 0s"}
+{"loss": 0.05130731, "token_acc": 0.98448795, "grad_norm": 1.69527078, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231452, "epoch": 4.94321214, "global_step/max_steps": "64850/65595", "percentage": "98.86%", "elapsed_time": "3d 5h 49m 45s", "remaining_time": "53m 38s"}
+{"loss": 0.02917306, "token_acc": 0.98591938, "grad_norm": 1.30786729, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231456, "epoch": 4.94359326, "global_step/max_steps": "64855/65595", "percentage": "98.87%", "elapsed_time": "3d 5h 50m 2s", "remaining_time": "53m 17s"}
+{"loss": 0.04606363, "token_acc": 0.9801061, "grad_norm": 1.40025568, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23146, "epoch": 4.94397439, "global_step/max_steps": "64860/65595", "percentage": "98.88%", "elapsed_time": "3d 5h 50m 18s", "remaining_time": "52m 55s"}
+{"loss": 0.02860475, "token_acc": 0.98876712, "grad_norm": 1.57043719, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231464, "epoch": 4.94435551, "global_step/max_steps": "64865/65595", "percentage": "98.89%", "elapsed_time": "3d 5h 50m 36s", "remaining_time": "52m 33s"}
+{"loss": 0.01679227, "token_acc": 0.99357798, "grad_norm": 0.52818447, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231468, "epoch": 4.94473664, "global_step/max_steps": "64870/65595", "percentage": "98.89%", "elapsed_time": "3d 5h 50m 52s", "remaining_time": "52m 12s"}
+{"loss": 0.0404168, "token_acc": 0.98467124, "grad_norm": 2.82469177, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231471, "epoch": 4.94511777, "global_step/max_steps": "64875/65595", "percentage": "98.90%", "elapsed_time": "3d 5h 51m 10s", "remaining_time": "51m 50s"}
+{"loss": 0.03101765, "token_acc": 0.98853105, "grad_norm": 0.88143212, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23147, "epoch": 4.94549889, "global_step/max_steps": "64880/65595", "percentage": "98.91%", "elapsed_time": "3d 5h 51m 33s", "remaining_time": "51m 28s"}
+{"loss": 0.01895586, "token_acc": 0.99419729, "grad_norm": 0.82966846, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231474, "epoch": 4.94588002, "global_step/max_steps": "64885/65595", "percentage": "98.92%", "elapsed_time": "3d 5h 51m 50s", "remaining_time": "51m 7s"}
+{"loss": 0.02274322, "token_acc": 0.98676391, "grad_norm": 0.69993091, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231478, "epoch": 4.94626115, "global_step/max_steps": "64890/65595", "percentage": "98.93%", "elapsed_time": "3d 5h 52m 7s", "remaining_time": "50m 45s"}
+{"loss": 0.0250533, "token_acc": 0.98971722, "grad_norm": 1.62554538, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23148, "epoch": 4.94664227, "global_step/max_steps": "64895/65595", "percentage": "98.93%", "elapsed_time": "3d 5h 52m 26s", "remaining_time": "50m 23s"}
+{"loss": 0.04155233, "token_acc": 0.98435518, "grad_norm": 0.80392927, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231483, "epoch": 4.9470234, "global_step/max_steps": "64900/65595", "percentage": "98.94%", "elapsed_time": "3d 5h 52m 43s", "remaining_time": "50m 2s"}
+{"loss": 0.04283004, "token_acc": 0.98233004, "grad_norm": 1.49351501, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231484, "epoch": 4.94740453, "global_step/max_steps": "64905/65595", "percentage": "98.95%", "elapsed_time": "3d 5h 53m 4s", "remaining_time": "49m 40s"}
+{"loss": 0.02452823, "token_acc": 0.98762094, "grad_norm": 1.40702438, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231487, "epoch": 4.94778565, "global_step/max_steps": "64910/65595", "percentage": "98.96%", "elapsed_time": "3d 5h 53m 22s", "remaining_time": "49m 19s"}
+{"loss": 0.02214341, "token_acc": 0.99116913, "grad_norm": 0.86410254, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231491, "epoch": 4.94816678, "global_step/max_steps": "64915/65595", "percentage": "98.96%", "elapsed_time": "3d 5h 53m 39s", "remaining_time": "48m 57s"}
+{"loss": 0.02473823, "token_acc": 0.99050237, "grad_norm": 0.7885651, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231492, "epoch": 4.94854791, "global_step/max_steps": "64920/65595", "percentage": "98.97%", "elapsed_time": "3d 5h 53m 59s", "remaining_time": "48m 35s"}
+{"loss": 0.02357115, "token_acc": 0.99210988, "grad_norm": 2.65248919, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231497, "epoch": 4.94892903, "global_step/max_steps": "64925/65595", "percentage": "98.98%", "elapsed_time": "3d 5h 54m 14s", "remaining_time": "48m 14s"}
+{"loss": 0.01811076, "token_acc": 0.99309392, "grad_norm": 0.29396805, "learning_rate": 3e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231504, "epoch": 4.94931016, "global_step/max_steps": "64930/65595", "percentage": "98.99%", "elapsed_time": "3d 5h 54m 28s", "remaining_time": "47m 52s"}
+{"loss": 0.02518024, "token_acc": 0.98815029, "grad_norm": 1.04830801, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231507, "epoch": 4.94969129, "global_step/max_steps": "64935/65595", "percentage": "98.99%", "elapsed_time": "3d 5h 54m 46s", "remaining_time": "47m 30s"}
+{"loss": 0.02978017, "token_acc": 0.98696201, "grad_norm": 0.54641634, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231509, "epoch": 4.95007241, "global_step/max_steps": "64940/65595", "percentage": "99.00%", "elapsed_time": "3d 5h 55m 5s", "remaining_time": "47m 9s"}
+{"loss": 0.03299559, "token_acc": 0.98672566, "grad_norm": 1.05949044, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231515, "epoch": 4.95045354, "global_step/max_steps": "64945/65595", "percentage": "99.01%", "elapsed_time": "3d 5h 55m 19s", "remaining_time": "46m 47s"}
+{"loss": 0.02429732, "token_acc": 0.99145861, "grad_norm": 0.83033234, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23152, "epoch": 4.95083467, "global_step/max_steps": "64950/65595", "percentage": "99.02%", "elapsed_time": "3d 5h 55m 35s", "remaining_time": "46m 25s"}
+{"loss": 0.03633801, "token_acc": 0.98734468, "grad_norm": 1.27797127, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231524, "epoch": 4.95121579, "global_step/max_steps": "64955/65595", "percentage": "99.02%", "elapsed_time": "3d 5h 55m 51s", "remaining_time": "46m 4s"}
+{"loss": 0.02755128, "token_acc": 0.99214145, "grad_norm": 1.50798094, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231528, "epoch": 4.95159692, "global_step/max_steps": "64960/65595", "percentage": "99.03%", "elapsed_time": "3d 5h 56m 8s", "remaining_time": "45m 42s"}
+{"loss": 0.02932872, "token_acc": 0.98756219, "grad_norm": 2.71506047, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231533, "epoch": 4.95197805, "global_step/max_steps": "64965/65595", "percentage": "99.04%", "elapsed_time": "3d 5h 56m 24s", "remaining_time": "45m 20s"}
+{"loss": 0.03708009, "token_acc": 0.98636302, "grad_norm": 0.84602922, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231534, "epoch": 4.95235917, "global_step/max_steps": "64970/65595", "percentage": "99.05%", "elapsed_time": "3d 5h 56m 44s", "remaining_time": "44m 59s"}
+{"loss": 0.02369356, "token_acc": 0.99274179, "grad_norm": 1.47459829, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231537, "epoch": 4.9527403, "global_step/max_steps": "64975/65595", "percentage": "99.05%", "elapsed_time": "3d 5h 57m 2s", "remaining_time": "44m 37s"}
+{"loss": 0.01364545, "token_acc": 0.99151302, "grad_norm": 0.95383543, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231542, "epoch": 4.95312143, "global_step/max_steps": "64980/65595", "percentage": "99.06%", "elapsed_time": "3d 5h 57m 18s", "remaining_time": "44m 16s"}
+{"loss": 0.02005359, "token_acc": 0.99382353, "grad_norm": 0.75095332, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231546, "epoch": 4.95350255, "global_step/max_steps": "64985/65595", "percentage": "99.07%", "elapsed_time": "3d 5h 57m 34s", "remaining_time": "43m 54s"}
+{"loss": 0.02259217, "token_acc": 0.98968428, "grad_norm": 0.80920118, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231549, "epoch": 4.95388368, "global_step/max_steps": "64990/65595", "percentage": "99.08%", "elapsed_time": "3d 5h 57m 52s", "remaining_time": "43m 32s"}
+{"loss": 0.05001831, "token_acc": 0.98587361, "grad_norm": 0.9203254, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231553, "epoch": 4.95426481, "global_step/max_steps": "64995/65595", "percentage": "99.09%", "elapsed_time": "3d 5h 58m 9s", "remaining_time": "43m 11s"}
+{"loss": 0.03090926, "token_acc": 0.98715152, "grad_norm": 0.31398591, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231557, "epoch": 4.95464593, "global_step/max_steps": "65000/65595", "percentage": "99.09%", "elapsed_time": "3d 5h 58m 25s", "remaining_time": "42m 49s"}
+{"eval_loss": 0.04671008, "eval_token_acc": 0.98121348, "eval_runtime": 221.4601, "eval_samples_per_second": 2.393, "eval_steps_per_second": 2.393, "epoch": 4.95464593, "global_step/max_steps": "65000/65595", "percentage": "99.09%", "elapsed_time": "3d 6h 2m 7s", "remaining_time": "42m 51s"}
+{"loss": 0.04022557, "token_acc": 0.98134722, "grad_norm": 1.29351354, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231378, "epoch": 4.95502706, "global_step/max_steps": "65005/65595", "percentage": "99.10%", "elapsed_time": "3d 6h 2m 25s", "remaining_time": "42m 29s"}
+{"loss": 0.02672841, "token_acc": 0.98768029, "grad_norm": 0.90893573, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23138, "epoch": 4.95540819, "global_step/max_steps": "65010/65595", "percentage": "99.11%", "elapsed_time": "3d 6h 2m 44s", "remaining_time": "42m 8s"}
+{"loss": 0.03082018, "token_acc": 0.98395722, "grad_norm": 1.94160247, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231385, "epoch": 4.95578931, "global_step/max_steps": "65015/65595", "percentage": "99.12%", "elapsed_time": "3d 6h 2m 59s", "remaining_time": "41m 46s"}
+{"loss": 0.04307262, "token_acc": 0.98397659, "grad_norm": 2.29138803, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231387, "epoch": 4.95617044, "global_step/max_steps": "65020/65595", "percentage": "99.12%", "elapsed_time": "3d 6h 3m 18s", "remaining_time": "41m 24s"}
+{"loss": 0.02130861, "token_acc": 0.99444885, "grad_norm": 1.15802968, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231393, "epoch": 4.95655157, "global_step/max_steps": "65025/65595", "percentage": "99.13%", "elapsed_time": "3d 6h 3m 33s", "remaining_time": "41m 3s"}
+{"loss": 0.0282457, "token_acc": 0.98731189, "grad_norm": 1.56686103, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231398, "epoch": 4.95693269, "global_step/max_steps": "65030/65595", "percentage": "99.14%", "elapsed_time": "3d 6h 3m 49s", "remaining_time": "40m 41s"}
+{"loss": 0.01952408, "token_acc": 0.99201742, "grad_norm": 0.9121356, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231404, "epoch": 4.95731382, "global_step/max_steps": "65035/65595", "percentage": "99.15%", "elapsed_time": "3d 6h 4m 3s", "remaining_time": "40m 19s"}
+{"loss": 0.03305492, "token_acc": 0.98396065, "grad_norm": 1.48255372, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231407, "epoch": 4.95769495, "global_step/max_steps": "65040/65595", "percentage": "99.15%", "elapsed_time": "3d 6h 4m 21s", "remaining_time": "39m 58s"}
+{"loss": 0.02989745, "token_acc": 0.98760184, "grad_norm": 1.69189513, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23141, "epoch": 4.95807607, "global_step/max_steps": "65045/65595", "percentage": "99.16%", "elapsed_time": "3d 6h 4m 38s", "remaining_time": "39m 36s"}
+{"loss": 0.02342854, "token_acc": 0.98922745, "grad_norm": 0.3942675, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231415, "epoch": 4.9584572, "global_step/max_steps": "65050/65595", "percentage": "99.17%", "elapsed_time": "3d 6h 4m 54s", "remaining_time": "39m 15s"}
+{"loss": 0.03034379, "token_acc": 0.99302184, "grad_norm": 1.38997602, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231421, "epoch": 4.95883833, "global_step/max_steps": "65055/65595", "percentage": "99.18%", "elapsed_time": "3d 6h 5m 9s", "remaining_time": "38m 53s"}
+{"loss": 0.03011386, "token_acc": 0.99036609, "grad_norm": 1.01906967, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231426, "epoch": 4.95921945, "global_step/max_steps": "65060/65595", "percentage": "99.18%", "elapsed_time": "3d 6h 5m 24s", "remaining_time": "38m 31s"}
+{"loss": 0.05882562, "token_acc": 0.98105827, "grad_norm": 1.62865698, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23143, "epoch": 4.95960058, "global_step/max_steps": "65065/65595", "percentage": "99.19%", "elapsed_time": "3d 6h 5m 40s", "remaining_time": "38m 10s"}
+{"loss": 0.03664924, "token_acc": 0.98770144, "grad_norm": 0.72912973, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231432, "epoch": 4.95998171, "global_step/max_steps": "65070/65595", "percentage": "99.20%", "elapsed_time": "3d 6h 6m 0s", "remaining_time": "37m 48s"}
+{"loss": 0.0222823, "token_acc": 0.98577173, "grad_norm": 0.82214159, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231438, "epoch": 4.96036283, "global_step/max_steps": "65075/65595", "percentage": "99.21%", "elapsed_time": "3d 6h 6m 15s", "remaining_time": "37m 26s"}
+{"loss": 0.03262795, "token_acc": 0.98083141, "grad_norm": 2.07931376, "learning_rate": 2e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231442, "epoch": 4.96074396, "global_step/max_steps": "65080/65595", "percentage": "99.21%", "elapsed_time": "3d 6h 6m 31s", "remaining_time": "37m 5s"}
+{"loss": 0.02813913, "token_acc": 0.99150142, "grad_norm": 0.59291875, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231446, "epoch": 4.96112509, "global_step/max_steps": "65085/65595", "percentage": "99.22%", "elapsed_time": "3d 6h 6m 47s", "remaining_time": "36m 43s"}
+{"loss": 0.04026231, "token_acc": 0.9839853, "grad_norm": 1.52178669, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231451, "epoch": 4.96150621, "global_step/max_steps": "65090/65595", "percentage": "99.23%", "elapsed_time": "3d 6h 7m 3s", "remaining_time": "36m 21s"}
+{"loss": 0.0366032, "token_acc": 0.98516798, "grad_norm": 1.18440759, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231454, "epoch": 4.96188734, "global_step/max_steps": "65095/65595", "percentage": "99.24%", "elapsed_time": "3d 6h 7m 21s", "remaining_time": "36m 0s"}
+{"loss": 0.01340558, "token_acc": 0.99641834, "grad_norm": 0.24081405, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231461, "epoch": 4.96226847, "global_step/max_steps": "65100/65595", "percentage": "99.25%", "elapsed_time": "3d 6h 7m 34s", "remaining_time": "35m 38s"}
+{"loss": 0.02830808, "token_acc": 0.98626413, "grad_norm": 0.49624214, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231462, "epoch": 4.96264959, "global_step/max_steps": "65105/65595", "percentage": "99.25%", "elapsed_time": "3d 6h 7m 54s", "remaining_time": "35m 16s"}
+{"loss": 0.02492205, "token_acc": 0.99006664, "grad_norm": 0.80273807, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231463, "epoch": 4.96303072, "global_step/max_steps": "65110/65595", "percentage": "99.26%", "elapsed_time": "3d 6h 8m 15s", "remaining_time": "34m 55s"}
+{"loss": 0.01799151, "token_acc": 0.99381593, "grad_norm": 1.41134346, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231466, "epoch": 4.96341185, "global_step/max_steps": "65115/65595", "percentage": "99.27%", "elapsed_time": "3d 6h 8m 33s", "remaining_time": "34m 33s"}
+{"loss": 0.03441024, "token_acc": 0.98568966, "grad_norm": 1.26062441, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231469, "epoch": 4.96379297, "global_step/max_steps": "65120/65595", "percentage": "99.28%", "elapsed_time": "3d 6h 8m 50s", "remaining_time": "34m 12s"}
+{"loss": 0.03796733, "token_acc": 0.98411659, "grad_norm": 1.51962972, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231472, "epoch": 4.9641741, "global_step/max_steps": "65125/65595", "percentage": "99.28%", "elapsed_time": "3d 6h 9m 9s", "remaining_time": "33m 50s"}
+{"loss": 0.01437816, "token_acc": 0.992862, "grad_norm": 0.68063766, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231475, "epoch": 4.96455523, "global_step/max_steps": "65130/65595", "percentage": "99.29%", "elapsed_time": "3d 6h 9m 27s", "remaining_time": "33m 28s"}
+{"loss": 0.02905448, "token_acc": 0.98935585, "grad_norm": 1.85433722, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231478, "epoch": 4.96493635, "global_step/max_steps": "65135/65595", "percentage": "99.30%", "elapsed_time": "3d 6h 9m 45s", "remaining_time": "33m 7s"}
+{"loss": 0.03121215, "token_acc": 0.99016902, "grad_norm": 3.06281662, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23148, "epoch": 4.96531748, "global_step/max_steps": "65140/65595", "percentage": "99.31%", "elapsed_time": "3d 6h 10m 4s", "remaining_time": "32m 45s"}
+{"loss": 0.01906051, "token_acc": 0.99239077, "grad_norm": 0.69151866, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231485, "epoch": 4.96569861, "global_step/max_steps": "65145/65595", "percentage": "99.31%", "elapsed_time": "3d 6h 10m 20s", "remaining_time": "32m 23s"}
+{"loss": 0.03185619, "token_acc": 0.98921235, "grad_norm": 0.64365357, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231487, "epoch": 4.96607973, "global_step/max_steps": "65150/65595", "percentage": "99.32%", "elapsed_time": "3d 6h 10m 38s", "remaining_time": "32m 2s"}
+{"loss": 0.02127186, "token_acc": 0.99050972, "grad_norm": 1.2644999, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231489, "epoch": 4.96646086, "global_step/max_steps": "65155/65595", "percentage": "99.33%", "elapsed_time": "3d 6h 10m 57s", "remaining_time": "31m 40s"}
+{"loss": 0.02183342, "token_acc": 0.98819914, "grad_norm": 0.90063971, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23149, "epoch": 4.96684198, "global_step/max_steps": "65160/65595", "percentage": "99.34%", "elapsed_time": "3d 6h 11m 18s", "remaining_time": "31m 19s"}
+{"loss": 0.02468249, "token_acc": 0.99065912, "grad_norm": 0.68732327, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231492, "epoch": 4.96722311, "global_step/max_steps": "65165/65595", "percentage": "99.34%", "elapsed_time": "3d 6h 11m 37s", "remaining_time": "30m 57s"}
+{"loss": 0.02184087, "token_acc": 0.99098857, "grad_norm": 1.08977401, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231493, "epoch": 4.96760424, "global_step/max_steps": "65170/65595", "percentage": "99.35%", "elapsed_time": "3d 6h 11m 58s", "remaining_time": "30m 35s"}
+{"loss": 0.04938349, "token_acc": 0.97660691, "grad_norm": 1.70819902, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231497, "epoch": 4.96798536, "global_step/max_steps": "65175/65595", "percentage": "99.36%", "elapsed_time": "3d 6h 12m 14s", "remaining_time": "30m 14s"}
+{"loss": 0.02472899, "token_acc": 0.98623494, "grad_norm": 1.2780807, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2315, "epoch": 4.96836649, "global_step/max_steps": "65180/65595", "percentage": "99.37%", "elapsed_time": "3d 6h 12m 32s", "remaining_time": "29m 52s"}
+{"loss": 0.02268993, "token_acc": 0.99104949, "grad_norm": 0.22565471, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231503, "epoch": 4.96874762, "global_step/max_steps": "65185/65595", "percentage": "99.37%", "elapsed_time": "3d 6h 12m 50s", "remaining_time": "29m 31s"}
+{"loss": 0.01685959, "token_acc": 0.99330181, "grad_norm": 1.14555538, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231509, "epoch": 4.96912874, "global_step/max_steps": "65190/65595", "percentage": "99.38%", "elapsed_time": "3d 6h 13m 5s", "remaining_time": "29m 9s"}
+{"loss": 0.02300791, "token_acc": 0.98954053, "grad_norm": 0.74039972, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23151, "epoch": 4.96950987, "global_step/max_steps": "65195/65595", "percentage": "99.39%", "elapsed_time": "3d 6h 13m 24s", "remaining_time": "28m 47s"}
+{"loss": 0.03366773, "token_acc": 0.98853616, "grad_norm": 1.19291461, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231516, "epoch": 4.969891, "global_step/max_steps": "65200/65595", "percentage": "99.40%", "elapsed_time": "3d 6h 13m 39s", "remaining_time": "28m 26s"}
+{"eval_loss": 0.04665221, "eval_token_acc": 0.98113818, "eval_runtime": 224.6805, "eval_samples_per_second": 2.359, "eval_steps_per_second": 2.359, "epoch": 4.969891, "global_step/max_steps": "65200/65595", "percentage": "99.40%", "elapsed_time": "3d 6h 17m 23s", "remaining_time": "28m 27s"}
+{"loss": 0.02933708, "token_acc": 0.98134361, "grad_norm": 0.85867107, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231335, "epoch": 4.97027212, "global_step/max_steps": "65205/65595", "percentage": "99.41%", "elapsed_time": "3d 6h 17m 41s", "remaining_time": "28m 5s"}
+{"loss": 0.06538776, "token_acc": 0.98104056, "grad_norm": 2.82997847, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231337, "epoch": 4.97065325, "global_step/max_steps": "65210/65595", "percentage": "99.41%", "elapsed_time": "3d 6h 18m 1s", "remaining_time": "27m 44s"}
+{"loss": 0.03537497, "token_acc": 0.98558695, "grad_norm": 0.11697399, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23134, "epoch": 4.97103438, "global_step/max_steps": "65215/65595", "percentage": "99.42%", "elapsed_time": "3d 6h 18m 19s", "remaining_time": "27m 22s"}
+{"loss": 0.03401351, "token_acc": 0.99162679, "grad_norm": 0.59815401, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231341, "epoch": 4.9714155, "global_step/max_steps": "65220/65595", "percentage": "99.43%", "elapsed_time": "3d 6h 18m 39s", "remaining_time": "27m 0s"}
+{"loss": 0.03006205, "token_acc": 0.98676845, "grad_norm": 1.01305735, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231343, "epoch": 4.97179663, "global_step/max_steps": "65225/65595", "percentage": "99.44%", "elapsed_time": "3d 6h 18m 58s", "remaining_time": "26m 39s"}
+{"loss": 0.04310883, "token_acc": 0.98662885, "grad_norm": 1.72821164, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231347, "epoch": 4.97217776, "global_step/max_steps": "65230/65595", "percentage": "99.44%", "elapsed_time": "3d 6h 19m 15s", "remaining_time": "26m 17s"}
+{"loss": 0.02577806, "token_acc": 0.98963099, "grad_norm": 2.29642272, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231352, "epoch": 4.97255888, "global_step/max_steps": "65235/65595", "percentage": "99.45%", "elapsed_time": "3d 6h 19m 31s", "remaining_time": "25m 56s"}
+{"loss": 0.02091791, "token_acc": 0.98977161, "grad_norm": 1.08799994, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231354, "epoch": 4.97294001, "global_step/max_steps": "65240/65595", "percentage": "99.46%", "elapsed_time": "3d 6h 19m 49s", "remaining_time": "25m 34s"}
+{"loss": 0.02510723, "token_acc": 0.98866275, "grad_norm": 0.84840858, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231355, "epoch": 4.97332114, "global_step/max_steps": "65245/65595", "percentage": "99.47%", "elapsed_time": "3d 6h 20m 10s", "remaining_time": "25m 12s"}
+{"loss": 0.02714187, "token_acc": 0.98868839, "grad_norm": 1.54662573, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23136, "epoch": 4.97370226, "global_step/max_steps": "65250/65595", "percentage": "99.47%", "elapsed_time": "3d 6h 20m 25s", "remaining_time": "24m 51s"}
+{"loss": 0.01920577, "token_acc": 0.99272538, "grad_norm": 1.38783658, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231365, "epoch": 4.97408339, "global_step/max_steps": "65255/65595", "percentage": "99.48%", "elapsed_time": "3d 6h 20m 41s", "remaining_time": "24m 29s"}
+{"loss": 0.01441892, "token_acc": 0.99292525, "grad_norm": 0.51579559, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231369, "epoch": 4.97446452, "global_step/max_steps": "65260/65595", "percentage": "99.49%", "elapsed_time": "3d 6h 20m 57s", "remaining_time": "24m 7s"}
+{"loss": 0.03876893, "token_acc": 0.98587674, "grad_norm": 2.87911654, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231373, "epoch": 4.97484564, "global_step/max_steps": "65265/65595", "percentage": "99.50%", "elapsed_time": "3d 6h 21m 14s", "remaining_time": "23m 46s"}
+{"loss": 0.03767937, "token_acc": 0.99064721, "grad_norm": 0.64062977, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231376, "epoch": 4.97522677, "global_step/max_steps": "65270/65595", "percentage": "99.50%", "elapsed_time": "3d 6h 21m 32s", "remaining_time": "23m 24s"}
+{"loss": 0.03493504, "token_acc": 0.9866905, "grad_norm": 1.90372825, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23138, "epoch": 4.9756079, "global_step/max_steps": "65275/65595", "percentage": "99.51%", "elapsed_time": "3d 6h 21m 48s", "remaining_time": "23m 2s"}
+{"loss": 0.01518304, "token_acc": 0.99331942, "grad_norm": 1.09675729, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231384, "epoch": 4.97598902, "global_step/max_steps": "65280/65595", "percentage": "99.52%", "elapsed_time": "3d 6h 22m 6s", "remaining_time": "22m 41s"}
+{"loss": 0.03923347, "token_acc": 0.9867709, "grad_norm": 1.01539063, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231389, "epoch": 4.97637015, "global_step/max_steps": "65285/65595", "percentage": "99.53%", "elapsed_time": "3d 6h 22m 22s", "remaining_time": "22m 19s"}
+{"loss": 0.02188968, "token_acc": 0.98885493, "grad_norm": 0.07758076, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231392, "epoch": 4.97675128, "global_step/max_steps": "65290/65595", "percentage": "99.54%", "elapsed_time": "3d 6h 22m 39s", "remaining_time": "21m 58s"}
+{"loss": 0.02238306, "token_acc": 0.99064421, "grad_norm": 2.40935826, "learning_rate": 1e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231397, "epoch": 4.9771324, "global_step/max_steps": "65295/65595", "percentage": "99.54%", "elapsed_time": "3d 6h 22m 55s", "remaining_time": "21m 36s"}
+{"loss": 0.02836737, "token_acc": 0.98899419, "grad_norm": 1.13099253, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231401, "epoch": 4.97751353, "global_step/max_steps": "65300/65595", "percentage": "99.55%", "elapsed_time": "3d 6h 23m 11s", "remaining_time": "21m 14s"}
+{"loss": 0.02132539, "token_acc": 0.99234889, "grad_norm": 2.41685033, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231407, "epoch": 4.97789466, "global_step/max_steps": "65305/65595", "percentage": "99.56%", "elapsed_time": "3d 6h 23m 26s", "remaining_time": "20m 53s"}
+{"loss": 0.03614624, "token_acc": 0.98385029, "grad_norm": 0.76493961, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231411, "epoch": 4.97827578, "global_step/max_steps": "65310/65595", "percentage": "99.57%", "elapsed_time": "3d 6h 23m 43s", "remaining_time": "20m 31s"}
+{"loss": 0.02194123, "token_acc": 0.99759976, "grad_norm": 1.12000656, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231415, "epoch": 4.97865691, "global_step/max_steps": "65315/65595", "percentage": "99.57%", "elapsed_time": "3d 6h 23m 59s", "remaining_time": "20m 9s"}
+{"loss": 0.01347273, "token_acc": 0.99262782, "grad_norm": 0.09340681, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23142, "epoch": 4.97903804, "global_step/max_steps": "65320/65595", "percentage": "99.58%", "elapsed_time": "3d 6h 24m 15s", "remaining_time": "19m 48s"}
+{"loss": 0.02665995, "token_acc": 0.98747354, "grad_norm": 1.48068774, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231422, "epoch": 4.97941916, "global_step/max_steps": "65325/65595", "percentage": "99.59%", "elapsed_time": "3d 6h 24m 33s", "remaining_time": "19m 26s"}
+{"loss": 0.02555483, "token_acc": 0.98843047, "grad_norm": 1.25736153, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231427, "epoch": 4.97980029, "global_step/max_steps": "65330/65595", "percentage": "99.60%", "elapsed_time": "3d 6h 24m 50s", "remaining_time": "19m 5s"}
+{"loss": 0.0290117, "token_acc": 0.98799796, "grad_norm": 2.60612416, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231431, "epoch": 4.98018142, "global_step/max_steps": "65335/65595", "percentage": "99.60%", "elapsed_time": "3d 6h 25m 7s", "remaining_time": "18m 43s"}
+{"loss": 0.02219431, "token_acc": 0.99014665, "grad_norm": 0.96919322, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231434, "epoch": 4.98056254, "global_step/max_steps": "65340/65595", "percentage": "99.61%", "elapsed_time": "3d 6h 25m 23s", "remaining_time": "18m 21s"}
+{"loss": 0.02464966, "token_acc": 0.99196626, "grad_norm": 0.53339571, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231438, "epoch": 4.98094367, "global_step/max_steps": "65345/65595", "percentage": "99.62%", "elapsed_time": "3d 6h 25m 41s", "remaining_time": "18m 0s"}
+{"loss": 0.0391099, "token_acc": 0.98313771, "grad_norm": 1.37313461, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23144, "epoch": 4.9813248, "global_step/max_steps": "65350/65595", "percentage": "99.63%", "elapsed_time": "3d 6h 26m 0s", "remaining_time": "17m 38s"}
+{"loss": 0.02757016, "token_acc": 0.9876652, "grad_norm": 1.48438525, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231445, "epoch": 4.98170592, "global_step/max_steps": "65355/65595", "percentage": "99.63%", "elapsed_time": "3d 6h 26m 15s", "remaining_time": "17m 16s"}
+{"loss": 0.01714064, "token_acc": 0.99333662, "grad_norm": 0.5947727, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23145, "epoch": 4.98208705, "global_step/max_steps": "65360/65595", "percentage": "99.64%", "elapsed_time": "3d 6h 26m 31s", "remaining_time": "16m 55s"}
+{"loss": 0.04749036, "token_acc": 0.98366415, "grad_norm": 0.81163323, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231453, "epoch": 4.98246818, "global_step/max_steps": "65365/65595", "percentage": "99.65%", "elapsed_time": "3d 6h 26m 49s", "remaining_time": "16m 33s"}
+{"loss": 0.02130833, "token_acc": 0.99104478, "grad_norm": 0.79898912, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231459, "epoch": 4.9828493, "global_step/max_steps": "65370/65595", "percentage": "99.66%", "elapsed_time": "3d 6h 27m 3s", "remaining_time": "16m 12s"}
+{"loss": 0.04035531, "token_acc": 0.98291199, "grad_norm": 1.05201256, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231463, "epoch": 4.98323043, "global_step/max_steps": "65375/65595", "percentage": "99.66%", "elapsed_time": "3d 6h 27m 19s", "remaining_time": "15m 50s"}
+{"loss": 0.0390225, "token_acc": 0.97883096, "grad_norm": 0.75797945, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231468, "epoch": 4.98361156, "global_step/max_steps": "65380/65595", "percentage": "99.67%", "elapsed_time": "3d 6h 27m 35s", "remaining_time": "15m 28s"}
+{"loss": 0.03690943, "token_acc": 0.98302847, "grad_norm": 1.03155947, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231472, "epoch": 4.98399268, "global_step/max_steps": "65385/65595", "percentage": "99.68%", "elapsed_time": "3d 6h 27m 52s", "remaining_time": "15m 7s"}
+{"loss": 0.02546239, "token_acc": 0.98753073, "grad_norm": 1.58890128, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231476, "epoch": 4.98437381, "global_step/max_steps": "65390/65595", "percentage": "99.69%", "elapsed_time": "3d 6h 28m 9s", "remaining_time": "14m 45s"}
+{"loss": 0.02976463, "token_acc": 0.98801855, "grad_norm": 1.01779723, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231478, "epoch": 4.98475494, "global_step/max_steps": "65395/65595", "percentage": "99.70%", "elapsed_time": "3d 6h 28m 28s", "remaining_time": "14m 24s"}
+{"loss": 0.03030233, "token_acc": 0.98602663, "grad_norm": 1.09921563, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23148, "epoch": 4.98513606, "global_step/max_steps": "65400/65595", "percentage": "99.70%", "elapsed_time": "3d 6h 28m 47s", "remaining_time": "14m 2s"}
+{"eval_loss": 0.04671035, "eval_token_acc": 0.98101771, "eval_runtime": 222.316, "eval_samples_per_second": 2.384, "eval_steps_per_second": 2.384, "epoch": 4.98513606, "global_step/max_steps": "65400/65595", "percentage": "99.70%", "elapsed_time": "3d 6h 32m 30s", "remaining_time": "14m 3s"}
+{"loss": 0.02832961, "token_acc": 0.98116679, "grad_norm": 0.28120902, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231303, "epoch": 4.98551719, "global_step/max_steps": "65405/65595", "percentage": "99.71%", "elapsed_time": "3d 6h 32m 45s", "remaining_time": "13m 41s"}
+{"loss": 0.02814641, "token_acc": 0.98802947, "grad_norm": 0.86284041, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231308, "epoch": 4.98589832, "global_step/max_steps": "65410/65595", "percentage": "99.72%", "elapsed_time": "3d 6h 33m 1s", "remaining_time": "13m 19s"}
+{"loss": 0.03356319, "token_acc": 0.98511106, "grad_norm": 0.94075197, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231312, "epoch": 4.98627944, "global_step/max_steps": "65415/65595", "percentage": "99.73%", "elapsed_time": "3d 6h 33m 17s", "remaining_time": "12m 58s"}
+{"loss": 0.05196954, "token_acc": 0.98158605, "grad_norm": 1.05512905, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231316, "epoch": 4.98666057, "global_step/max_steps": "65420/65595", "percentage": "99.73%", "elapsed_time": "3d 6h 33m 34s", "remaining_time": "12m 36s"}
+{"loss": 0.03537276, "token_acc": 0.98608871, "grad_norm": 0.79840761, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23132, "epoch": 4.9870417, "global_step/max_steps": "65425/65595", "percentage": "99.74%", "elapsed_time": "3d 6h 33m 51s", "remaining_time": "12m 14s"}
+{"loss": 0.03638844, "token_acc": 0.98306306, "grad_norm": 3.47465038, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231325, "epoch": 4.98742282, "global_step/max_steps": "65430/65595", "percentage": "99.75%", "elapsed_time": "3d 6h 34m 6s", "remaining_time": "11m 53s"}
+{"loss": 0.04962451, "token_acc": 0.98123487, "grad_norm": 2.14528871, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23133, "epoch": 4.98780395, "global_step/max_steps": "65435/65595", "percentage": "99.76%", "elapsed_time": "3d 6h 34m 22s", "remaining_time": "11m 31s"}
+{"loss": 0.03781523, "token_acc": 0.98374424, "grad_norm": 1.39409745, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231335, "epoch": 4.98818508, "global_step/max_steps": "65440/65595", "percentage": "99.76%", "elapsed_time": "3d 6h 34m 37s", "remaining_time": "11m 10s"}
+{"loss": 0.0276152, "token_acc": 0.98971911, "grad_norm": 1.25803411, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231338, "epoch": 4.9885662, "global_step/max_steps": "65445/65595", "percentage": "99.77%", "elapsed_time": "3d 6h 34m 55s", "remaining_time": "10m 48s"}
+{"loss": 0.02976725, "token_acc": 0.98891001, "grad_norm": 0.63719237, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231342, "epoch": 4.98894733, "global_step/max_steps": "65450/65595", "percentage": "99.78%", "elapsed_time": "3d 6h 35m 12s", "remaining_time": "10m 26s"}
+{"loss": 0.03673175, "token_acc": 0.98365123, "grad_norm": 1.90308952, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231347, "epoch": 4.98932845, "global_step/max_steps": "65455/65595", "percentage": "99.79%", "elapsed_time": "3d 6h 35m 28s", "remaining_time": "10m 5s"}
+{"loss": 0.01749137, "token_acc": 0.99354334, "grad_norm": 0.50816953, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23135, "epoch": 4.98970958, "global_step/max_steps": "65460/65595", "percentage": "99.79%", "elapsed_time": "3d 6h 35m 45s", "remaining_time": "9m 43s"}
+{"loss": 0.02723114, "token_acc": 0.99111863, "grad_norm": 0.56336969, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231354, "epoch": 4.99009071, "global_step/max_steps": "65465/65595", "percentage": "99.80%", "elapsed_time": "3d 6h 36m 1s", "remaining_time": "9m 21s"}
+{"loss": 0.02035694, "token_acc": 0.99390372, "grad_norm": 0.62696409, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231358, "epoch": 4.99047183, "global_step/max_steps": "65470/65595", "percentage": "99.81%", "elapsed_time": "3d 6h 36m 18s", "remaining_time": "9m 0s"}
+{"loss": 0.02714584, "token_acc": 0.98982763, "grad_norm": 0.82832253, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231362, "epoch": 4.99085296, "global_step/max_steps": "65475/65595", "percentage": "99.82%", "elapsed_time": "3d 6h 36m 35s", "remaining_time": "8m 38s"}
+{"loss": 0.01567468, "token_acc": 0.99318569, "grad_norm": 0.50343287, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231368, "epoch": 4.99123409, "global_step/max_steps": "65480/65595", "percentage": "99.82%", "elapsed_time": "3d 6h 36m 50s", "remaining_time": "8m 17s"}
+{"loss": 0.02915339, "token_acc": 0.98791078, "grad_norm": 0.98322713, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23137, "epoch": 4.99161521, "global_step/max_steps": "65485/65595", "percentage": "99.83%", "elapsed_time": "3d 6h 37m 8s", "remaining_time": "7m 55s"}
+{"loss": 0.02367573, "token_acc": 0.99445791, "grad_norm": 0.70394182, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231375, "epoch": 4.99199634, "global_step/max_steps": "65490/65595", "percentage": "99.84%", "elapsed_time": "3d 6h 37m 24s", "remaining_time": "7m 33s"}
+{"loss": 0.03463009, "token_acc": 0.9827464, "grad_norm": 1.90904903, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23138, "epoch": 4.99237747, "global_step/max_steps": "65495/65595", "percentage": "99.85%", "elapsed_time": "3d 6h 37m 40s", "remaining_time": "7m 12s"}
+{"loss": 0.02752065, "token_acc": 0.99329609, "grad_norm": 0.51097685, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231384, "epoch": 4.99275859, "global_step/max_steps": "65500/65595", "percentage": "99.86%", "elapsed_time": "3d 6h 37m 56s", "remaining_time": "6m 50s"}
+{"loss": 0.03614895, "token_acc": 0.98683191, "grad_norm": 1.63599074, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231386, "epoch": 4.99313972, "global_step/max_steps": "65505/65595", "percentage": "99.86%", "elapsed_time": "3d 6h 38m 16s", "remaining_time": "6m 28s"}
+{"loss": 0.02623135, "token_acc": 0.994116, "grad_norm": 1.24803185, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23139, "epoch": 4.99352085, "global_step/max_steps": "65510/65595", "percentage": "99.87%", "elapsed_time": "3d 6h 38m 32s", "remaining_time": "6m 7s"}
+{"loss": 0.02500405, "token_acc": 0.98894912, "grad_norm": 0.62901312, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231394, "epoch": 4.99390197, "global_step/max_steps": "65515/65595", "percentage": "99.88%", "elapsed_time": "3d 6h 38m 50s", "remaining_time": "5m 45s"}
+{"loss": 0.01711073, "token_acc": 0.99132816, "grad_norm": 0.31219065, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231399, "epoch": 4.9942831, "global_step/max_steps": "65520/65595", "percentage": "99.89%", "elapsed_time": "3d 6h 39m 4s", "remaining_time": "5m 24s"}
+{"loss": 0.02991516, "token_acc": 0.98857376, "grad_norm": 0.85946965, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231404, "epoch": 4.99466423, "global_step/max_steps": "65525/65595", "percentage": "99.89%", "elapsed_time": "3d 6h 39m 20s", "remaining_time": "5m 2s"}
+{"loss": 0.04611398, "token_acc": 0.98010511, "grad_norm": 0.95355296, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231409, "epoch": 4.99504535, "global_step/max_steps": "65530/65595", "percentage": "99.90%", "elapsed_time": "3d 6h 39m 35s", "remaining_time": "4m 40s"}
+{"loss": 0.03199195, "token_acc": 0.98865223, "grad_norm": 0.65335119, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231412, "epoch": 4.99542648, "global_step/max_steps": "65535/65595", "percentage": "99.91%", "elapsed_time": "3d 6h 39m 54s", "remaining_time": "4m 19s"}
+{"loss": 0.02318093, "token_acc": 0.99092726, "grad_norm": 1.39347351, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231414, "epoch": 4.99580761, "global_step/max_steps": "65540/65595", "percentage": "99.92%", "elapsed_time": "3d 6h 40m 13s", "remaining_time": "3m 57s"}
+{"loss": 0.03193975, "token_acc": 0.9888308, "grad_norm": 1.28762412, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231418, "epoch": 4.99618873, "global_step/max_steps": "65545/65595", "percentage": "99.92%", "elapsed_time": "3d 6h 40m 29s", "remaining_time": "3m 36s"}
+{"loss": 0.0415554, "token_acc": 0.98593662, "grad_norm": 1.88200688, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231422, "epoch": 4.99656986, "global_step/max_steps": "65550/65595", "percentage": "99.93%", "elapsed_time": "3d 6h 40m 47s", "remaining_time": "3m 14s"}
+{"loss": 0.02497487, "token_acc": 0.98958097, "grad_norm": 0.48003295, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231425, "epoch": 4.99695099, "global_step/max_steps": "65555/65595", "percentage": "99.94%", "elapsed_time": "3d 6h 41m 3s", "remaining_time": "2m 52s"}
+{"loss": 0.02746617, "token_acc": 0.98471094, "grad_norm": 1.23631167, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23143, "epoch": 4.99733211, "global_step/max_steps": "65560/65595", "percentage": "99.95%", "elapsed_time": "3d 6h 41m 20s", "remaining_time": "2m 31s"}
+{"loss": 0.01858559, "token_acc": 0.99349005, "grad_norm": 0.39299336, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231436, "epoch": 4.99771324, "global_step/max_steps": "65565/65595", "percentage": "99.95%", "elapsed_time": "3d 6h 41m 34s", "remaining_time": "2m 9s"}
+{"loss": 0.01804553, "token_acc": 0.99398557, "grad_norm": 0.70087117, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23144, "epoch": 4.99809437, "global_step/max_steps": "65570/65595", "percentage": "99.96%", "elapsed_time": "3d 6h 41m 51s", "remaining_time": "1m 48s"}
+{"loss": 0.02195794, "token_acc": 0.99117647, "grad_norm": 1.44516039, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231445, "epoch": 4.99847549, "global_step/max_steps": "65575/65595", "percentage": "99.97%", "elapsed_time": "3d 6h 42m 6s", "remaining_time": "1m 26s"}
+{"loss": 0.04381293, "token_acc": 0.98753008, "grad_norm": 4.25526905, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231449, "epoch": 4.99885662, "global_step/max_steps": "65580/65595", "percentage": "99.98%", "elapsed_time": "3d 6h 42m 23s", "remaining_time": "1m 4s"}
+{"loss": 0.02502805, "token_acc": 0.98984011, "grad_norm": 0.90696084, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231448, "epoch": 4.99923775, "global_step/max_steps": "65585/65595", "percentage": "99.98%", "elapsed_time": "3d 6h 42m 45s", "remaining_time": "43s"}
+{"loss": 0.02040767, "token_acc": 0.99019868, "grad_norm": 1.05532289, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23145, "epoch": 4.99961887, "global_step/max_steps": "65590/65595", "percentage": "99.99%", "elapsed_time": "3d 6h 43m 5s", "remaining_time": "21s"}
+{"loss": 0.01947695, "token_acc": 0.99011579, "grad_norm": 0.86086094, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231456, "epoch": 5.0, "global_step/max_steps": "65595/65595", "percentage": "100.00%", "elapsed_time": "3d 6h 43m 19s", "remaining_time": "0s"}
+{"eval_loss": 0.04670508, "eval_token_acc": 0.9810403, "eval_runtime": 219.0908, "eval_samples_per_second": 2.419, "eval_steps_per_second": 2.419, "epoch": 5.0, "global_step/max_steps": "65595/65595", "percentage": "100.00%", "elapsed_time": "3d 6h 46m 58s", "remaining_time": "0s"}
+{"train_runtime": 283621.8951, "train_samples_per_second": 0.925, "train_steps_per_second": 0.231, "total_flos": 1.3292660732573645e+19, "train_loss": 0.10274054, "epoch": 5.0, "global_step/max_steps": "65595/65595", "percentage": "100.00%", "elapsed_time": "3d 6h 47m 0s", "remaining_time": "0s"}
+{"model_parameter_info": "PeftModelForCausalLM: 8312.3517M Params (20.1851M Trainable [0.2428%]), 0.0019M Buffers.", "last_model_checkpoint": "/home/sushant/D1/MIUA/kvasir-format/training2/v0-20250204-233638/checkpoint-65595", "best_model_checkpoint": "/home/sushant/D1/MIUA/kvasir-format/training2/v0-20250204-233638/checkpoint-65200", "best_metric": 0.04665221, "global_step": 65595, "log_history": [{"loss": 1.9246152639389038, "token_acc": 0.6773049645390071, "grad_norm": 4.528491020202637, "learning_rate": 9.999999994265464e-05, "memory(GiB)": 27.45, "train_speed(iter/s)": 0.144363, "epoch": 7.622532205198568e-05, "step": 1}, {"loss": 1.202160120010376, "token_acc": 0.6860735910572893, "grad_norm": 1.751957893371582, "learning_rate": 9.999999856636602e-05, "memory(GiB)": 55.68, "train_speed(iter/s)": 0.253992, "epoch": 0.00038112661025992833, "step": 5}, {"loss": 0.6056160449981689, "token_acc": 0.8009572072072072, "grad_norm": 0.46129679679870605, "learning_rate": 9.999999426546414e-05, "memory(GiB)": 75.01, "train_speed(iter/s)": 0.261969, "epoch": 0.0007622532205198567, "step": 10}, {"loss": 0.626449728012085, "token_acc": 0.7716919739696312, "grad_norm": 0.3930913209915161, "learning_rate": 9.999998709729462e-05, "memory(GiB)": 75.01, "train_speed(iter/s)": 0.281731, "epoch": 0.001143379830779785, "step": 15}, {"loss": 0.510352373123169, "token_acc": 0.7957918467029871, "grad_norm": 0.5390567183494568, "learning_rate": 9.999997706185787e-05, "memory(GiB)": 75.01, "train_speed(iter/s)": 0.286165, "epoch": 0.0015245064410397133, "step": 20}, {"loss": 0.47327170372009275, "token_acc": 0.8311387900355872, "grad_norm": 0.3768530488014221, "learning_rate": 9.999996415915447e-05, "memory(GiB)": 75.01, "train_speed(iter/s)": 0.286581, "epoch": 0.0019056330512996417, "step": 25}, {"loss": 0.5166455745697022, "token_acc": 0.81693028705331, "grad_norm": 0.9930228590965271, "learning_rate": 9.999994838918515e-05, "memory(GiB)": 75.01, "train_speed(iter/s)": 0.292458, "epoch": 0.00228675966155957, "step": 30}, {"loss": 0.4076542854309082, "token_acc": 0.8522645578720345, "grad_norm": 0.2230115830898285, "learning_rate": 9.99999297519508e-05, "memory(GiB)": 101.64, "train_speed(iter/s)": 0.282366, "epoch": 0.0026678862718194983, "step": 35}, {"loss": 0.45731205940246583, "token_acc": 0.8287697647512534, "grad_norm": 0.5454061031341553, "learning_rate": 9.999990824745254e-05, "memory(GiB)": 101.64, "train_speed(iter/s)": 0.284384, "epoch": 0.0030490128820794267, "step": 40}, {"loss": 0.42831859588623045, "token_acc": 0.852589641434263, "grad_norm": 0.6889848709106445, "learning_rate": 9.999988387569155e-05, "memory(GiB)": 101.64, "train_speed(iter/s)": 0.290818, "epoch": 0.003430139492339355, "step": 45}, {"loss": 0.4950111389160156, "token_acc": 0.8203249442497611, "grad_norm": 0.5877910256385803, "learning_rate": 9.999985663666924e-05, "memory(GiB)": 101.64, "train_speed(iter/s)": 0.288583, "epoch": 0.0038112661025992835, "step": 50}, {"loss": 0.5511288166046142, "token_acc": 0.7799592517132803, "grad_norm": 0.40256166458129883, "learning_rate": 9.99998265303872e-05, "memory(GiB)": 101.64, "train_speed(iter/s)": 0.28885, "epoch": 0.004192392712859211, "step": 55}, {"loss": 0.4428769588470459, "token_acc": 0.8411040656471466, "grad_norm": 0.490213006734848, "learning_rate": 9.999979355684712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.287094, "epoch": 0.00457351932311914, "step": 60}, {"loss": 0.4864951133728027, "token_acc": 0.8173539518900343, "grad_norm": 0.7190462350845337, "learning_rate": 9.999975771605092e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.285589, "epoch": 0.004954645933379068, "step": 65}, {"loss": 0.3921785354614258, "token_acc": 0.8481855764813964, "grad_norm": 0.6336663365364075, "learning_rate": 9.999971900800063e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.286862, "epoch": 0.005335772543638997, "step": 70}, {"loss": 0.4328573226928711, "token_acc": 0.8483591097698981, "grad_norm": 0.25349387526512146, "learning_rate": 9.99996774326985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.286473, "epoch": 0.005716899153898925, "step": 75}, {"loss": 0.4801319122314453, "token_acc": 0.8177020506634499, "grad_norm": 0.8416159152984619, "learning_rate": 9.999963299014687e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.286314, "epoch": 0.006098025764158853, "step": 80}, {"loss": 0.5126121044158936, "token_acc": 0.7738552953512757, "grad_norm": 1.5706214904785156, "learning_rate": 9.999958568034832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.288732, "epoch": 0.006479152374418782, "step": 85}, {"loss": 0.4611966133117676, "token_acc": 0.8080450187578158, "grad_norm": 0.3812929391860962, "learning_rate": 9.999953550330556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.289571, "epoch": 0.00686027898467871, "step": 90}, {"loss": 0.49420366287231443, "token_acc": 0.8193152214365463, "grad_norm": 0.5538367629051208, "learning_rate": 9.999948245902148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.290225, "epoch": 0.0072414055949386385, "step": 95}, {"loss": 0.5629151344299317, "token_acc": 0.7596277278562259, "grad_norm": 0.6944217085838318, "learning_rate": 9.999942654749909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.291891, "epoch": 0.007622532205198567, "step": 100}, {"loss": 0.4801185607910156, "token_acc": 0.8235092529129541, "grad_norm": 0.43158140778541565, "learning_rate": 9.999936776874162e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.293535, "epoch": 0.008003658815458496, "step": 105}, {"loss": 0.38431410789489745, "token_acc": 0.8450786255096098, "grad_norm": 0.5736222863197327, "learning_rate": 9.999930612275243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.296656, "epoch": 0.008384785425718423, "step": 110}, {"loss": 0.38381361961364746, "token_acc": 0.8520732162868883, "grad_norm": 0.6656768321990967, "learning_rate": 9.999924160953506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298319, "epoch": 0.008765912035978351, "step": 115}, {"loss": 0.45654473304748533, "token_acc": 0.8286196707471507, "grad_norm": 1.1191989183425903, "learning_rate": 9.999917422909322e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.299776, "epoch": 0.00914703864623828, "step": 120}, {"loss": 0.4776431083679199, "token_acc": 0.8123598305507101, "grad_norm": 1.0045593976974487, "learning_rate": 9.999910398143075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.3002, "epoch": 0.009528165256498208, "step": 125}, {"loss": 0.4598785400390625, "token_acc": 0.8288269331930563, "grad_norm": 0.7601901888847351, "learning_rate": 9.999903086655171e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298578, "epoch": 0.009909291866758136, "step": 130}, {"loss": 0.3817711591720581, "token_acc": 0.8470910752360645, "grad_norm": 0.42522627115249634, "learning_rate": 9.999895488446025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298282, "epoch": 0.010290418477018065, "step": 135}, {"loss": 0.4092557430267334, "token_acc": 0.8293347873500545, "grad_norm": 0.44290637969970703, "learning_rate": 9.999887603516075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.29882, "epoch": 0.010671545087277993, "step": 140}, {"loss": 0.4724125385284424, "token_acc": 0.8090737240075614, "grad_norm": 0.48456859588623047, "learning_rate": 9.999879431865775e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298429, "epoch": 0.011052671697537922, "step": 145}, {"loss": 0.4015656471252441, "token_acc": 0.832496971794428, "grad_norm": 0.5638869404792786, "learning_rate": 9.99987097349559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298221, "epoch": 0.01143379830779785, "step": 150}, {"loss": 0.3583400011062622, "token_acc": 0.8633340052408789, "grad_norm": 0.6350157260894775, "learning_rate": 9.99986222840601e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298018, "epoch": 0.011814924918057778, "step": 155}, {"loss": 0.41852712631225586, "token_acc": 0.7804347826086957, "grad_norm": 0.7299162745475769, "learning_rate": 9.999853196597531e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298977, "epoch": 0.012196051528317707, "step": 160}, {"loss": 0.4489565849304199, "token_acc": 0.8196943972835314, "grad_norm": 0.8121874928474426, "learning_rate": 9.999843878070673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.29989, "epoch": 0.012577178138577635, "step": 165}, {"loss": 0.3791668176651001, "token_acc": 0.8517262023548194, "grad_norm": 0.405847430229187, "learning_rate": 9.999834272825971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.299447, "epoch": 0.012958304748837563, "step": 170}, {"loss": 0.4233840465545654, "token_acc": 0.8390994657847876, "grad_norm": 0.8079923391342163, "learning_rate": 9.999824380863975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.296935, "epoch": 0.013339431359097492, "step": 175}, {"loss": 0.5039567470550537, "token_acc": 0.813451425408248, "grad_norm": 1.0664503574371338, "learning_rate": 9.999814202185254e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.297514, "epoch": 0.01372055796935742, "step": 180}, {"loss": 0.45125503540039064, "token_acc": 0.8211943389713496, "grad_norm": 0.9102248549461365, "learning_rate": 9.999803736790391e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298491, "epoch": 0.014101684579617349, "step": 185}, {"loss": 0.3918847799301147, "token_acc": 0.836739843552864, "grad_norm": 0.5232564210891724, "learning_rate": 9.999792984679986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298917, "epoch": 0.014482811189877277, "step": 190}, {"loss": 0.47884335517883303, "token_acc": 0.8149618320610686, "grad_norm": 0.7289205193519592, "learning_rate": 9.999781945854652e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298475, "epoch": 0.014863937800137205, "step": 195}, {"loss": 0.3874505996704102, "token_acc": 0.8417340191036002, "grad_norm": 0.34483739733695984, "learning_rate": 9.999770620315028e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.298135, "epoch": 0.015245064410397134, "step": 200}, {"eval_loss": 0.35053905844688416, "eval_token_acc": 0.8361996265285224, "eval_runtime": 194.0246, "eval_samples_per_second": 2.732, "eval_steps_per_second": 2.732, "epoch": 0.015245064410397134, "step": 200}, {"loss": 0.48143720626831055, "token_acc": 0.8356118754525707, "grad_norm": 0.869731068611145, "learning_rate": 9.99975900806176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232612, "epoch": 0.015626191020657064, "step": 205}, {"loss": 0.4894747734069824, "token_acc": 0.7937556289402582, "grad_norm": 1.4615966081619263, "learning_rate": 9.999747109095514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234395, "epoch": 0.016007317630916992, "step": 210}, {"loss": 0.4120072841644287, "token_acc": 0.8441496163682864, "grad_norm": 1.5600606203079224, "learning_rate": 9.999734923416974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235235, "epoch": 0.016388444241176917, "step": 215}, {"loss": 0.44687700271606445, "token_acc": 0.8321864058915852, "grad_norm": 0.9481793642044067, "learning_rate": 9.999722451026837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235175, "epoch": 0.016769570851436846, "step": 220}, {"loss": 0.44192066192626955, "token_acc": 0.8430707876370888, "grad_norm": 0.8998978137969971, "learning_rate": 9.999709691925818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236345, "epoch": 0.017150697461696774, "step": 225}, {"loss": 0.42284693717956545, "token_acc": 0.8319887758681165, "grad_norm": 0.6256055235862732, "learning_rate": 9.999696646114651e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237912, "epoch": 0.017531824071956702, "step": 230}, {"loss": 0.3381479263305664, "token_acc": 0.8573446327683616, "grad_norm": 1.3327051401138306, "learning_rate": 9.999683313594083e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238446, "epoch": 0.01791295068221663, "step": 235}, {"loss": 0.4608944892883301, "token_acc": 0.8080599328338931, "grad_norm": 1.0581331253051758, "learning_rate": 9.999669694364878e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239826, "epoch": 0.01829407729247656, "step": 240}, {"loss": 0.4396797180175781, "token_acc": 0.82760663507109, "grad_norm": 1.003026008605957, "learning_rate": 9.999655788427817e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241188, "epoch": 0.018675203902736488, "step": 245}, {"loss": 0.4889055252075195, "token_acc": 0.7832465688594415, "grad_norm": 2.65301251411438, "learning_rate": 9.999641595783699e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24279, "epoch": 0.019056330512996416, "step": 250}, {"loss": 0.36986827850341797, "token_acc": 0.8325727324586423, "grad_norm": 0.6014110445976257, "learning_rate": 9.999627116433335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244074, "epoch": 0.019437457123256344, "step": 255}, {"loss": 0.40722270011901857, "token_acc": 0.8420222947866232, "grad_norm": 0.6963219046592712, "learning_rate": 9.999612350377559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244368, "epoch": 0.019818583733516273, "step": 260}, {"loss": 0.3730503797531128, "token_acc": 0.8629600626468285, "grad_norm": 0.495159387588501, "learning_rate": 9.999597297617213e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245124, "epoch": 0.0201997103437762, "step": 265}, {"loss": 0.4320246696472168, "token_acc": 0.8030902822117226, "grad_norm": 0.43080323934555054, "learning_rate": 9.999581958153165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246039, "epoch": 0.02058083695403613, "step": 270}, {"loss": 0.4725799560546875, "token_acc": 0.784859448928472, "grad_norm": 0.9531773924827576, "learning_rate": 9.999566331986293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247121, "epoch": 0.020961963564296058, "step": 275}, {"loss": 0.3928366661071777, "token_acc": 0.827170582226762, "grad_norm": 1.5243268013000488, "learning_rate": 9.999550419117489e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.248078, "epoch": 0.021343090174555986, "step": 280}, {"loss": 0.37721011638641355, "token_acc": 0.8557114228456913, "grad_norm": 0.95951247215271, "learning_rate": 9.999534219547673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.248213, "epoch": 0.021724216784815915, "step": 285}, {"loss": 0.33346145153045653, "token_acc": 0.8577140953015662, "grad_norm": 0.7358139753341675, "learning_rate": 9.999517733277769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.249156, "epoch": 0.022105343395075843, "step": 290}, {"loss": 0.3752711772918701, "token_acc": 0.8514014839241549, "grad_norm": 0.4751031696796417, "learning_rate": 9.999500960308723e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.249662, "epoch": 0.02248647000533577, "step": 295}, {"loss": 0.3588348388671875, "token_acc": 0.8601759175007583, "grad_norm": 0.6474721431732178, "learning_rate": 9.999483900641498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.250854, "epoch": 0.0228675966155957, "step": 300}, {"loss": 0.4338569164276123, "token_acc": 0.8326075122482308, "grad_norm": 0.7326136827468872, "learning_rate": 9.999466554277072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.251247, "epoch": 0.023248723225855628, "step": 305}, {"loss": 0.4193264484405518, "token_acc": 0.8413978494623656, "grad_norm": 0.4683168828487396, "learning_rate": 9.999448921216438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.251192, "epoch": 0.023629849836115557, "step": 310}, {"loss": 0.4343080997467041, "token_acc": 0.8151284627529783, "grad_norm": 0.46098604798316956, "learning_rate": 9.999431001460611e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.251629, "epoch": 0.024010976446375485, "step": 315}, {"loss": 0.429913330078125, "token_acc": 0.8274948483956432, "grad_norm": 0.5721769332885742, "learning_rate": 9.999412795010615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.252658, "epoch": 0.024392103056635413, "step": 320}, {"loss": 0.47609596252441405, "token_acc": 0.8352841800410281, "grad_norm": 0.30305206775665283, "learning_rate": 9.999394301867495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.252577, "epoch": 0.024773229666895342, "step": 325}, {"loss": 0.35333943367004395, "token_acc": 0.8452774715178243, "grad_norm": 0.38029199838638306, "learning_rate": 9.999375522032313e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.253365, "epoch": 0.02515435627715527, "step": 330}, {"loss": 0.4180303573608398, "token_acc": 0.8379776405806775, "grad_norm": 0.9743106365203857, "learning_rate": 9.999356455506143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.253802, "epoch": 0.0255354828874152, "step": 335}, {"loss": 0.4610589981079102, "token_acc": 0.8129402556744064, "grad_norm": 1.1414568424224854, "learning_rate": 9.999337102290083e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.254605, "epoch": 0.025916609497675127, "step": 340}, {"loss": 0.4676199913024902, "token_acc": 0.7753973738769868, "grad_norm": 0.7228065729141235, "learning_rate": 9.999317462385238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.255637, "epoch": 0.026297736107935055, "step": 345}, {"loss": 0.3708998203277588, "token_acc": 0.8554350505299483, "grad_norm": 0.38195085525512695, "learning_rate": 9.999297535792736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.25576, "epoch": 0.026678862718194984, "step": 350}, {"loss": 0.42815542221069336, "token_acc": 0.8350820006111846, "grad_norm": 0.4837827682495117, "learning_rate": 9.99927732251372e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.255386, "epoch": 0.027059989328454912, "step": 355}, {"loss": 0.41931886672973634, "token_acc": 0.8338378206149435, "grad_norm": 0.5391905903816223, "learning_rate": 9.999256822549349e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.255675, "epoch": 0.02744111593871484, "step": 360}, {"loss": 0.4532865047454834, "token_acc": 0.8296431362333941, "grad_norm": 0.5956388115882874, "learning_rate": 9.999236035900799e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.256309, "epoch": 0.02782224254897477, "step": 365}, {"loss": 0.38429875373840333, "token_acc": 0.8312441534144059, "grad_norm": 0.6002485156059265, "learning_rate": 9.999214962569261e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.256908, "epoch": 0.028203369159234697, "step": 370}, {"loss": 0.38420839309692384, "token_acc": 0.8263841421736159, "grad_norm": 0.7980237603187561, "learning_rate": 9.999193602555946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.257219, "epoch": 0.028584495769494626, "step": 375}, {"loss": 0.39796831607818606, "token_acc": 0.8312723722746502, "grad_norm": 1.9750065803527832, "learning_rate": 9.999171955862075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.257562, "epoch": 0.028965622379754554, "step": 380}, {"loss": 0.3543954372406006, "token_acc": 0.8525121555915721, "grad_norm": 0.6654983162879944, "learning_rate": 9.999150022488891e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.258147, "epoch": 0.029346748990014482, "step": 385}, {"loss": 0.420991039276123, "token_acc": 0.8441044579266684, "grad_norm": 0.6314485669136047, "learning_rate": 9.999127802437654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.258796, "epoch": 0.02972787560027441, "step": 390}, {"loss": 0.34807798862457273, "token_acc": 0.8563394683026585, "grad_norm": 0.7217302322387695, "learning_rate": 9.999105295709635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.259362, "epoch": 0.03010900221053434, "step": 395}, {"loss": 0.44669809341430666, "token_acc": 0.7998065764023211, "grad_norm": 0.8781742453575134, "learning_rate": 9.999082502306126e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.260001, "epoch": 0.030490128820794268, "step": 400}, {"eval_loss": 0.31395217776298523, "eval_token_acc": 0.8472531775194265, "eval_runtime": 184.9028, "eval_samples_per_second": 2.866, "eval_steps_per_second": 2.866, "epoch": 0.030490128820794268, "step": 400}, {"loss": 0.48725070953369143, "token_acc": 0.8459585915635554, "grad_norm": 1.139358401298523, "learning_rate": 9.999059422228434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232722, "epoch": 0.030871255431054196, "step": 405}, {"loss": 0.33954520225524903, "token_acc": 0.8506464556397682, "grad_norm": 0.7483011484146118, "learning_rate": 9.999036055477883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233269, "epoch": 0.03125238204131413, "step": 410}, {"loss": 0.3194799184799194, "token_acc": 0.8708342409061207, "grad_norm": 0.6765672564506531, "learning_rate": 9.999012402055812e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234019, "epoch": 0.031633508651574056, "step": 415}, {"loss": 0.4671616554260254, "token_acc": 0.8207862818904225, "grad_norm": 0.7512357831001282, "learning_rate": 9.998988461963578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234798, "epoch": 0.032014635261833985, "step": 420}, {"loss": 0.32560741901397705, "token_acc": 0.86752281176073, "grad_norm": 0.8870928287506104, "learning_rate": 9.998964235202554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235599, "epoch": 0.03239576187209391, "step": 425}, {"loss": 0.3868344783782959, "token_acc": 0.8306651262584585, "grad_norm": 0.7087309956550598, "learning_rate": 9.99893972177413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236148, "epoch": 0.032776888482353835, "step": 430}, {"loss": 0.41447787284851073, "token_acc": 0.8408316291751875, "grad_norm": 0.4838944673538208, "learning_rate": 9.998914921679712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236785, "epoch": 0.03315801509261376, "step": 435}, {"loss": 0.3463392496109009, "token_acc": 0.8546085615117625, "grad_norm": 1.3201626539230347, "learning_rate": 9.998889834920718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237625, "epoch": 0.03353914170287369, "step": 440}, {"loss": 0.3136441707611084, "token_acc": 0.8744167962674961, "grad_norm": 1.3567754030227661, "learning_rate": 9.998864461498592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238504, "epoch": 0.03392026831313362, "step": 445}, {"loss": 0.3825905084609985, "token_acc": 0.8521446007206789, "grad_norm": 0.6349946856498718, "learning_rate": 9.998838801414785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238717, "epoch": 0.03430139492339355, "step": 450}, {"loss": 0.4890433311462402, "token_acc": 0.8064168819982773, "grad_norm": 0.7947877049446106, "learning_rate": 9.998812854670772e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239305, "epoch": 0.034682521533653476, "step": 455}, {"loss": 0.36441137790679934, "token_acc": 0.8524590163934426, "grad_norm": 1.0431760549545288, "learning_rate": 9.998786621268038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239876, "epoch": 0.035063648143913405, "step": 460}, {"loss": 0.41066956520080566, "token_acc": 0.8544642857142857, "grad_norm": 1.1932413578033447, "learning_rate": 9.998760101208087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240276, "epoch": 0.03544477475417333, "step": 465}, {"loss": 0.3186405897140503, "token_acc": 0.8375808292126283, "grad_norm": 1.577191710472107, "learning_rate": 9.998733294492444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241127, "epoch": 0.03582590136443326, "step": 470}, {"loss": 0.42525033950805663, "token_acc": 0.8299128479055383, "grad_norm": 0.7229084372520447, "learning_rate": 9.998706201122641e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241785, "epoch": 0.03620702797469319, "step": 475}, {"loss": 0.3694032669067383, "token_acc": 0.8582842724978974, "grad_norm": 0.41239479184150696, "learning_rate": 9.998678821100235e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242385, "epoch": 0.03658815458495312, "step": 480}, {"loss": 0.39645626544952395, "token_acc": 0.8437158469945355, "grad_norm": 1.160628318786621, "learning_rate": 9.998651154426796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24281, "epoch": 0.03696928119521305, "step": 485}, {"loss": 0.31522388458251954, "token_acc": 0.8616138763197587, "grad_norm": 0.5555111169815063, "learning_rate": 9.99862320110391e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243348, "epoch": 0.037350407805472975, "step": 490}, {"loss": 0.40636935234069826, "token_acc": 0.8518052811208909, "grad_norm": 0.32308223843574524, "learning_rate": 9.998594961133181e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243587, "epoch": 0.037731534415732904, "step": 495}, {"loss": 0.415405797958374, "token_acc": 0.8308977035490606, "grad_norm": 0.8555343747138977, "learning_rate": 9.998566434516226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243855, "epoch": 0.03811266102599283, "step": 500}, {"loss": 0.40863685607910155, "token_acc": 0.8112258406142441, "grad_norm": 0.8992118835449219, "learning_rate": 9.99853762125468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24454, "epoch": 0.03849378763625276, "step": 505}, {"loss": 0.3729743242263794, "token_acc": 0.8407970859224341, "grad_norm": 0.48962679505348206, "learning_rate": 9.998508521350201e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24501, "epoch": 0.03887491424651269, "step": 510}, {"loss": 0.31490697860717776, "token_acc": 0.8582721626199887, "grad_norm": 0.7814298868179321, "learning_rate": 9.998479134804453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245637, "epoch": 0.03925604085677262, "step": 515}, {"loss": 0.3379648447036743, "token_acc": 0.8733570159857904, "grad_norm": 0.4278663992881775, "learning_rate": 9.998449461619121e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245892, "epoch": 0.039637167467032546, "step": 520}, {"loss": 0.4239678382873535, "token_acc": 0.8335500650195059, "grad_norm": 0.6275119185447693, "learning_rate": 9.99841950179591e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246305, "epoch": 0.040018294077292474, "step": 525}, {"loss": 0.3082572460174561, "token_acc": 0.8701431492842536, "grad_norm": 1.5933401584625244, "learning_rate": 9.998389255336535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24708, "epoch": 0.0403994206875524, "step": 530}, {"loss": 0.4067962646484375, "token_acc": 0.8366409024441195, "grad_norm": 0.5892673134803772, "learning_rate": 9.998358722242731e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247567, "epoch": 0.04078054729781233, "step": 535}, {"loss": 0.42982120513916017, "token_acc": 0.8277149777957207, "grad_norm": 0.4958355724811554, "learning_rate": 9.998327902516251e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247619, "epoch": 0.04116167390807226, "step": 540}, {"loss": 0.33466572761535646, "token_acc": 0.8730695524743547, "grad_norm": 0.3523523211479187, "learning_rate": 9.998296796158859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247475, "epoch": 0.04154280051833219, "step": 545}, {"loss": 0.3507689476013184, "token_acc": 0.8283169533169533, "grad_norm": 0.7282472848892212, "learning_rate": 9.998265403172343e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.248143, "epoch": 0.041923927128592116, "step": 550}, {"loss": 0.4202248573303223, "token_acc": 0.8383141762452108, "grad_norm": 0.8247482180595398, "learning_rate": 9.998233723558499e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24834, "epoch": 0.042305053738852044, "step": 555}, {"loss": 0.3287726163864136, "token_acc": 0.8721461187214612, "grad_norm": 0.5519070029258728, "learning_rate": 9.998201757319146e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.248729, "epoch": 0.04268618034911197, "step": 560}, {"loss": 0.3594696044921875, "token_acc": 0.8660205245153934, "grad_norm": 0.39140045642852783, "learning_rate": 9.998169504456118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.249071, "epoch": 0.0430673069593719, "step": 565}, {"loss": 0.40318799018859863, "token_acc": 0.8423368907470569, "grad_norm": 0.46012499928474426, "learning_rate": 9.99813696497126e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.249162, "epoch": 0.04344843356963183, "step": 570}, {"loss": 0.3010098934173584, "token_acc": 0.8664741168629193, "grad_norm": 0.8278694152832031, "learning_rate": 9.998104138866445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.249552, "epoch": 0.04382956017989176, "step": 575}, {"loss": 0.3806741237640381, "token_acc": 0.8451010488616014, "grad_norm": 0.45664680004119873, "learning_rate": 9.99807102614355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.249605, "epoch": 0.044210686790151686, "step": 580}, {"loss": 0.36945419311523436, "token_acc": 0.8483567172784932, "grad_norm": 0.9615135788917542, "learning_rate": 9.998037626804475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.249867, "epoch": 0.044591813400411615, "step": 585}, {"loss": 0.26711182594299315, "token_acc": 0.8865629420084865, "grad_norm": 0.9080905914306641, "learning_rate": 9.998003940851137e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.250311, "epoch": 0.04497294001067154, "step": 590}, {"loss": 0.3248094320297241, "token_acc": 0.8773170265622015, "grad_norm": 0.4471183717250824, "learning_rate": 9.997969968285465e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.25054, "epoch": 0.04535406662093147, "step": 595}, {"loss": 0.3596322536468506, "token_acc": 0.8488296488946684, "grad_norm": 0.42623019218444824, "learning_rate": 9.997935709109412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.250607, "epoch": 0.0457351932311914, "step": 600}, {"eval_loss": 0.28870463371276855, "eval_token_acc": 0.8538341063791338, "eval_runtime": 184.503, "eval_samples_per_second": 2.873, "eval_steps_per_second": 2.873, "epoch": 0.0457351932311914, "step": 600}, {"loss": 0.395623517036438, "token_acc": 0.8534692844487833, "grad_norm": 0.6523170471191406, "learning_rate": 9.997901163324936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232978, "epoch": 0.04611631984145133, "step": 605}, {"loss": 0.3646019220352173, "token_acc": 0.8678474114441417, "grad_norm": 4.184655666351318, "learning_rate": 9.997866330934023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233265, "epoch": 0.046497446451711257, "step": 610}, {"loss": 0.38559694290161134, "token_acc": 0.8545313107740179, "grad_norm": 0.8908939361572266, "learning_rate": 9.997831211938669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233727, "epoch": 0.046878573061971185, "step": 615}, {"loss": 0.28753085136413575, "token_acc": 0.8619008935824533, "grad_norm": 1.195573091506958, "learning_rate": 9.997795806340886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234258, "epoch": 0.04725969967223111, "step": 620}, {"loss": 0.29034254550933836, "token_acc": 0.8762759591693066, "grad_norm": 1.7803226709365845, "learning_rate": 9.997760114142706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234406, "epoch": 0.04764082628249104, "step": 625}, {"loss": 0.4173550605773926, "token_acc": 0.8509212730318257, "grad_norm": 1.0109211206436157, "learning_rate": 9.997724135346179e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234911, "epoch": 0.04802195289275097, "step": 630}, {"loss": 0.4255978107452393, "token_acc": 0.8513257575757576, "grad_norm": 1.0904144048690796, "learning_rate": 9.997687869953363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235067, "epoch": 0.0484030795030109, "step": 635}, {"loss": 0.3378890514373779, "token_acc": 0.8601312551271534, "grad_norm": 0.6953149437904358, "learning_rate": 9.99765131796634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235478, "epoch": 0.04878420611327083, "step": 640}, {"loss": 0.4118244171142578, "token_acc": 0.8357826614534178, "grad_norm": 0.8727684020996094, "learning_rate": 9.997614479387205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2357, "epoch": 0.049165332723530755, "step": 645}, {"loss": 0.3344784498214722, "token_acc": 0.8690078037904125, "grad_norm": 1.953823208808899, "learning_rate": 9.997577354218073e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236235, "epoch": 0.049546459333790684, "step": 650}, {"loss": 0.25777881145477294, "token_acc": 0.9104046242774566, "grad_norm": 1.8870900869369507, "learning_rate": 9.99753994246107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236905, "epoch": 0.04992758594405061, "step": 655}, {"loss": 0.3343281984329224, "token_acc": 0.8643035170312933, "grad_norm": 1.2711288928985596, "learning_rate": 9.997502244118344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237409, "epoch": 0.05030871255431054, "step": 660}, {"loss": 0.3363473892211914, "token_acc": 0.8750624687656172, "grad_norm": 1.5099661350250244, "learning_rate": 9.997464259192055e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237861, "epoch": 0.05068983916457047, "step": 665}, {"loss": 0.2955607891082764, "token_acc": 0.8609826589595375, "grad_norm": 0.9354046583175659, "learning_rate": 9.997425987684381e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238294, "epoch": 0.0510709657748304, "step": 670}, {"loss": 0.4170533180236816, "token_acc": 0.8409090909090909, "grad_norm": 1.2429924011230469, "learning_rate": 9.997387429597518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238694, "epoch": 0.051452092385090326, "step": 675}, {"loss": 0.3688316822052002, "token_acc": 0.8493396015222745, "grad_norm": 0.6801356077194214, "learning_rate": 9.997348584933677e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239034, "epoch": 0.051833218995350254, "step": 680}, {"loss": 0.3974099636077881, "token_acc": 0.8362831858407079, "grad_norm": 0.49400457739830017, "learning_rate": 9.997309453695084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239304, "epoch": 0.05221434560561018, "step": 685}, {"loss": 0.33188796043395996, "token_acc": 0.8397753551370994, "grad_norm": 1.8052300214767456, "learning_rate": 9.997270035883985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239741, "epoch": 0.05259547221587011, "step": 690}, {"loss": 0.33836963176727297, "token_acc": 0.8622799164428528, "grad_norm": 0.5305536985397339, "learning_rate": 9.99723033150264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239988, "epoch": 0.05297659882613004, "step": 695}, {"loss": 0.47834248542785646, "token_acc": 0.7888947092718701, "grad_norm": 0.9012311697006226, "learning_rate": 9.997190340553327e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240509, "epoch": 0.05335772543638997, "step": 700}, {"loss": 0.44519920349121095, "token_acc": 0.8241646291768541, "grad_norm": 0.736178457736969, "learning_rate": 9.997150063038335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240913, "epoch": 0.053738852046649896, "step": 705}, {"loss": 0.4126322269439697, "token_acc": 0.8461144321093083, "grad_norm": 3.8395962715148926, "learning_rate": 9.997109498959977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241237, "epoch": 0.054119978656909824, "step": 710}, {"loss": 0.3138087272644043, "token_acc": 0.8558558558558559, "grad_norm": 0.6108548641204834, "learning_rate": 9.99706864832058e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241453, "epoch": 0.05450110526716975, "step": 715}, {"loss": 0.40671577453613283, "token_acc": 0.8495662949194548, "grad_norm": 0.4257928729057312, "learning_rate": 9.997027511122484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241816, "epoch": 0.05488223187742968, "step": 720}, {"loss": 0.34661815166473386, "token_acc": 0.8383768913342503, "grad_norm": 1.4600634574890137, "learning_rate": 9.996986087368049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242306, "epoch": 0.05526335848768961, "step": 725}, {"loss": 0.3573688268661499, "token_acc": 0.8417240770181946, "grad_norm": 0.9344198107719421, "learning_rate": 9.996944377059651e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242616, "epoch": 0.05564448509794954, "step": 730}, {"loss": 0.38165082931518557, "token_acc": 0.840377358490566, "grad_norm": 0.9474985003471375, "learning_rate": 9.996902380199684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242905, "epoch": 0.056025611708209466, "step": 735}, {"loss": 0.39323973655700684, "token_acc": 0.8546952938625028, "grad_norm": 0.588057279586792, "learning_rate": 9.996860096790551e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243271, "epoch": 0.056406738318469395, "step": 740}, {"loss": 0.3299025297164917, "token_acc": 0.8650793650793651, "grad_norm": 0.709802508354187, "learning_rate": 9.996817526834681e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243641, "epoch": 0.05678786492872932, "step": 745}, {"loss": 0.3359744310379028, "token_acc": 0.871193210184723, "grad_norm": 0.5205948948860168, "learning_rate": 9.996774670334514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243566, "epoch": 0.05716899153898925, "step": 750}, {"loss": 0.34018242359161377, "token_acc": 0.8499406880189798, "grad_norm": 1.0935746431350708, "learning_rate": 9.996731527292506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243834, "epoch": 0.05755011814924918, "step": 755}, {"loss": 0.4345408916473389, "token_acc": 0.8001955671447197, "grad_norm": 0.7897275686264038, "learning_rate": 9.996688097711133e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244267, "epoch": 0.05793124475950911, "step": 760}, {"loss": 0.3156434059143066, "token_acc": 0.8763452205106562, "grad_norm": 0.8327571153640747, "learning_rate": 9.996644381592887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244545, "epoch": 0.05831237136976904, "step": 765}, {"loss": 0.2986889362335205, "token_acc": 0.8552897088498126, "grad_norm": 1.4792498350143433, "learning_rate": 9.996600378940271e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244874, "epoch": 0.058693497980028965, "step": 770}, {"loss": 0.329836368560791, "token_acc": 0.8491984678677826, "grad_norm": 0.537405788898468, "learning_rate": 9.99655608975581e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244992, "epoch": 0.05907462459028889, "step": 775}, {"loss": 0.3233332633972168, "token_acc": 0.8738760056791292, "grad_norm": 0.8622668981552124, "learning_rate": 9.996511514042047e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24533, "epoch": 0.05945575120054882, "step": 780}, {"loss": 0.34236159324646, "token_acc": 0.8532408411012357, "grad_norm": 0.9952224493026733, "learning_rate": 9.996466651801532e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245643, "epoch": 0.05983687781080875, "step": 785}, {"loss": 0.34651975631713866, "token_acc": 0.8621695178849145, "grad_norm": 0.7318833470344543, "learning_rate": 9.996421503036844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246023, "epoch": 0.06021800442106868, "step": 790}, {"loss": 0.27611613273620605, "token_acc": 0.8787362349239644, "grad_norm": 0.6247409582138062, "learning_rate": 9.996376067750566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246005, "epoch": 0.06059913103132861, "step": 795}, {"loss": 0.2856283187866211, "token_acc": 0.8682824025289779, "grad_norm": 0.38995155692100525, "learning_rate": 9.996330345945309e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246117, "epoch": 0.060980257641588535, "step": 800}, {"eval_loss": 0.2596844434738159, "eval_token_acc": 0.8607538702487801, "eval_runtime": 179.5753, "eval_samples_per_second": 2.951, "eval_steps_per_second": 2.951, "epoch": 0.060980257641588535, "step": 800}, {"loss": 0.3654125690460205, "token_acc": 0.8609802450976822, "grad_norm": 0.9964883923530579, "learning_rate": 9.996284337623692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233627, "epoch": 0.061361384251848464, "step": 805}, {"loss": 0.34076025485992434, "token_acc": 0.8723227282179247, "grad_norm": 2.0521633625030518, "learning_rate": 9.996238042788353e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233991, "epoch": 0.06174251086210839, "step": 810}, {"loss": 0.33114984035491946, "token_acc": 0.8523692928129051, "grad_norm": 0.40977340936660767, "learning_rate": 9.996191461441947e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234164, "epoch": 0.06212363747236832, "step": 815}, {"loss": 0.3621030569076538, "token_acc": 0.8619943759463552, "grad_norm": 0.4104391634464264, "learning_rate": 9.996144593587147e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234559, "epoch": 0.06250476408262826, "step": 820}, {"loss": 0.3756758213043213, "token_acc": 0.8572417373247967, "grad_norm": 0.46353575587272644, "learning_rate": 9.996097439226639e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234786, "epoch": 0.06288589069288818, "step": 825}, {"loss": 0.34291815757751465, "token_acc": 0.8714689265536724, "grad_norm": 0.6371397972106934, "learning_rate": 9.996049998363128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235211, "epoch": 0.06326701730314811, "step": 830}, {"loss": 0.39930191040039065, "token_acc": 0.8456093361392768, "grad_norm": 1.5204706192016602, "learning_rate": 9.996002270999334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23549, "epoch": 0.06364814391340803, "step": 835}, {"loss": 0.41980547904968263, "token_acc": 0.8417827298050139, "grad_norm": 0.4767929017543793, "learning_rate": 9.995954257137994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235662, "epoch": 0.06402927052366797, "step": 840}, {"loss": 0.27288260459899905, "token_acc": 0.8750187097739859, "grad_norm": 0.48393455147743225, "learning_rate": 9.995905956781861e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235896, "epoch": 0.06441039713392789, "step": 845}, {"loss": 0.2528748273849487, "token_acc": 0.8775692582663092, "grad_norm": 1.389690637588501, "learning_rate": 9.995857369933705e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236291, "epoch": 0.06479152374418783, "step": 850}, {"loss": 0.2959144592285156, "token_acc": 0.8768359211078472, "grad_norm": 3.3885436058044434, "learning_rate": 9.995808496596313e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236637, "epoch": 0.06517265035444775, "step": 855}, {"loss": 0.2919294357299805, "token_acc": 0.869021190716448, "grad_norm": 1.3807339668273926, "learning_rate": 9.995759336772487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236979, "epoch": 0.06555377696470767, "step": 860}, {"loss": 0.32124958038330076, "token_acc": 0.8601161665053243, "grad_norm": 0.7133747935295105, "learning_rate": 9.995709890465048e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237208, "epoch": 0.0659349035749676, "step": 865}, {"loss": 0.2846105098724365, "token_acc": 0.8661876092445135, "grad_norm": 1.3251805305480957, "learning_rate": 9.995660157676828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237601, "epoch": 0.06631603018522753, "step": 870}, {"loss": 0.3328379154205322, "token_acc": 0.84472049689441, "grad_norm": 0.5018326044082642, "learning_rate": 9.99561013841068e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237976, "epoch": 0.06669715679548746, "step": 875}, {"loss": 0.26777560710906984, "token_acc": 0.8835669781931464, "grad_norm": 1.7366342544555664, "learning_rate": 9.995559832669475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238405, "epoch": 0.06707828340574738, "step": 880}, {"loss": 0.3424130916595459, "token_acc": 0.8552557616638561, "grad_norm": 0.63080233335495, "learning_rate": 9.995509240456093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238749, "epoch": 0.06745941001600732, "step": 885}, {"loss": 0.3544909000396729, "token_acc": 0.8791465932553338, "grad_norm": 0.6132400631904602, "learning_rate": 9.995458361773439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238945, "epoch": 0.06784053662626724, "step": 890}, {"loss": 0.3807902574539185, "token_acc": 0.8664766498574874, "grad_norm": 1.3464102745056152, "learning_rate": 9.995407196624431e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239296, "epoch": 0.06822166323652717, "step": 895}, {"loss": 0.2929649353027344, "token_acc": 0.881107189299647, "grad_norm": 0.9776564836502075, "learning_rate": 9.995355745012001e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23948, "epoch": 0.0686027898467871, "step": 900}, {"loss": 0.2820343017578125, "token_acc": 0.8640106241699868, "grad_norm": 0.5579814910888672, "learning_rate": 9.995304006939101e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239846, "epoch": 0.06898391645704703, "step": 905}, {"loss": 0.2548708438873291, "token_acc": 0.8831203407880724, "grad_norm": 1.1656994819641113, "learning_rate": 9.995251982408697e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240131, "epoch": 0.06936504306730695, "step": 910}, {"loss": 0.3587518215179443, "token_acc": 0.8552851569756641, "grad_norm": 0.44933393597602844, "learning_rate": 9.995199671423772e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240361, "epoch": 0.06974616967756689, "step": 915}, {"loss": 0.38188230991363525, "token_acc": 0.8455592105263158, "grad_norm": 1.205645203590393, "learning_rate": 9.995147073987326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240513, "epoch": 0.07012729628782681, "step": 920}, {"loss": 0.2624641418457031, "token_acc": 0.8802816901408451, "grad_norm": 1.0860291719436646, "learning_rate": 9.995094190102376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240717, "epoch": 0.07050842289808675, "step": 925}, {"loss": 0.24951796531677245, "token_acc": 0.8836772983114447, "grad_norm": 0.7993502020835876, "learning_rate": 9.995041019771956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240964, "epoch": 0.07088954950834667, "step": 930}, {"loss": 0.2515277862548828, "token_acc": 0.8518062397372742, "grad_norm": 0.6376010775566101, "learning_rate": 9.994987562999111e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241248, "epoch": 0.0712706761186066, "step": 935}, {"loss": 0.2447023868560791, "token_acc": 0.8923917612442203, "grad_norm": 1.588802695274353, "learning_rate": 9.994933819786908e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241676, "epoch": 0.07165180272886652, "step": 940}, {"loss": 0.3769711971282959, "token_acc": 0.804950917626974, "grad_norm": 0.6258974075317383, "learning_rate": 9.994879790138434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242087, "epoch": 0.07203292933912646, "step": 945}, {"loss": 0.30419011116027833, "token_acc": 0.8668415874057068, "grad_norm": 1.1066696643829346, "learning_rate": 9.994825474056779e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242473, "epoch": 0.07241405594938638, "step": 950}, {"loss": 0.27971978187561036, "token_acc": 0.8687992582290218, "grad_norm": 1.1749000549316406, "learning_rate": 9.994770871545065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242874, "epoch": 0.07279518255964632, "step": 955}, {"loss": 0.3986749887466431, "token_acc": 0.8473098330241188, "grad_norm": 0.40407902002334595, "learning_rate": 9.994715982606418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243142, "epoch": 0.07317630916990624, "step": 960}, {"loss": 0.30558109283447266, "token_acc": 0.8496570121951219, "grad_norm": 0.5659456253051758, "learning_rate": 9.994660807243988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243374, "epoch": 0.07355743578016617, "step": 965}, {"loss": 0.3275512456893921, "token_acc": 0.8582995951417004, "grad_norm": 0.5996445417404175, "learning_rate": 9.994605345460939e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243737, "epoch": 0.0739385623904261, "step": 970}, {"loss": 0.38637099266052244, "token_acc": 0.8534602879702741, "grad_norm": 1.0778344869613647, "learning_rate": 9.994549597260452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244063, "epoch": 0.07431968900068603, "step": 975}, {"loss": 0.3450649261474609, "token_acc": 0.8646434805962132, "grad_norm": 0.603624701499939, "learning_rate": 9.994493562645721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244064, "epoch": 0.07470081561094595, "step": 980}, {"loss": 0.44653897285461425, "token_acc": 0.8378594249201278, "grad_norm": 1.0091614723205566, "learning_rate": 9.994437241619964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244172, "epoch": 0.07508194222120589, "step": 985}, {"loss": 0.274582052230835, "token_acc": 0.8760886777513855, "grad_norm": 0.6648703217506409, "learning_rate": 9.994380634186406e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244417, "epoch": 0.07546306883146581, "step": 990}, {"loss": 0.3271946907043457, "token_acc": 0.8453681710213776, "grad_norm": 0.5610662698745728, "learning_rate": 9.994323740348297e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244679, "epoch": 0.07584419544172574, "step": 995}, {"loss": 0.34681341648101804, "token_acc": 0.8584206491183235, "grad_norm": 0.6179755926132202, "learning_rate": 9.994266560108897e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245014, "epoch": 0.07622532205198566, "step": 1000}, {"eval_loss": 0.24275702238082886, "eval_token_acc": 0.8643530510210228, "eval_runtime": 182.8854, "eval_samples_per_second": 2.898, "eval_steps_per_second": 2.898, "epoch": 0.07622532205198566, "step": 1000}, {"loss": 0.36008760929107664, "token_acc": 0.8644340491884612, "grad_norm": 0.5093851685523987, "learning_rate": 9.994209093471488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234598, "epoch": 0.0766064486622456, "step": 1005}, {"loss": 0.39787113666534424, "token_acc": 0.8376172990616075, "grad_norm": 0.7020618915557861, "learning_rate": 9.994151340439362e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234846, "epoch": 0.07698757527250552, "step": 1010}, {"loss": 0.3583847999572754, "token_acc": 0.846822130772748, "grad_norm": 1.0691577196121216, "learning_rate": 9.99409330101583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235139, "epoch": 0.07736870188276546, "step": 1015}, {"loss": 0.32695066928863525, "token_acc": 0.8698096885813149, "grad_norm": 0.6342916488647461, "learning_rate": 9.994034975204226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235449, "epoch": 0.07774982849302538, "step": 1020}, {"loss": 0.2463550090789795, "token_acc": 0.8688442211055276, "grad_norm": 1.0491770505905151, "learning_rate": 9.993976363007891e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235883, "epoch": 0.07813095510328531, "step": 1025}, {"loss": 0.338565468788147, "token_acc": 0.8475743348982786, "grad_norm": 0.6031205058097839, "learning_rate": 9.993917464430185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236207, "epoch": 0.07851208171354523, "step": 1030}, {"loss": 0.3718540191650391, "token_acc": 0.8558182055635366, "grad_norm": 2.2066619396209717, "learning_rate": 9.993858279474487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236272, "epoch": 0.07889320832380517, "step": 1035}, {"loss": 0.2756333351135254, "token_acc": 0.8514399771884802, "grad_norm": 0.6382604837417603, "learning_rate": 9.993798808144192e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236617, "epoch": 0.07927433493406509, "step": 1040}, {"loss": 0.25544419288635256, "token_acc": 0.8737040527803959, "grad_norm": 0.6233166456222534, "learning_rate": 9.99373905044271e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236925, "epoch": 0.07965546154432503, "step": 1045}, {"loss": 0.269423508644104, "token_acc": 0.8596367483688944, "grad_norm": 0.42494675517082214, "learning_rate": 9.993679006373465e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237201, "epoch": 0.08003658815458495, "step": 1050}, {"loss": 0.3445001125335693, "token_acc": 0.8548939082819986, "grad_norm": 0.8544996380805969, "learning_rate": 9.993618675939904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237337, "epoch": 0.08041771476484488, "step": 1055}, {"loss": 0.35902574062347414, "token_acc": 0.8614755254619834, "grad_norm": 0.8256821036338806, "learning_rate": 9.993558059145485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237479, "epoch": 0.0807988413751048, "step": 1060}, {"loss": 0.2837635040283203, "token_acc": 0.8841632088520055, "grad_norm": 0.9025565981864929, "learning_rate": 9.993497155993684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237813, "epoch": 0.08117996798536474, "step": 1065}, {"loss": 0.3160522937774658, "token_acc": 0.8536357986326911, "grad_norm": 1.369053840637207, "learning_rate": 9.993435966487995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238128, "epoch": 0.08156109459562466, "step": 1070}, {"loss": 0.23799140453338624, "token_acc": 0.8656273199703044, "grad_norm": 1.2012816667556763, "learning_rate": 9.993374490631924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238359, "epoch": 0.0819422212058846, "step": 1075}, {"loss": 0.3389333009719849, "token_acc": 0.8610755441741357, "grad_norm": 0.5712122321128845, "learning_rate": 9.993312728428998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238663, "epoch": 0.08232334781614452, "step": 1080}, {"loss": 0.3630231380462646, "token_acc": 0.8538951636258326, "grad_norm": 0.9947119355201721, "learning_rate": 9.99325067988276e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238824, "epoch": 0.08270447442640445, "step": 1085}, {"loss": 0.3080313682556152, "token_acc": 0.8792769528728211, "grad_norm": 0.6455538868904114, "learning_rate": 9.993188344996767e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23896, "epoch": 0.08308560103666437, "step": 1090}, {"loss": 0.391520619392395, "token_acc": 0.8449853587115667, "grad_norm": 0.946351170539856, "learning_rate": 9.993125723774592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239167, "epoch": 0.08346672764692431, "step": 1095}, {"loss": 0.31511199474334717, "token_acc": 0.8728813559322034, "grad_norm": 0.6497941017150879, "learning_rate": 9.99306281621983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239223, "epoch": 0.08384785425718423, "step": 1100}, {"loss": 0.3096617698669434, "token_acc": 0.8768566493955094, "grad_norm": 0.49627619981765747, "learning_rate": 9.992999622336084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239381, "epoch": 0.08422898086744417, "step": 1105}, {"loss": 0.2844571590423584, "token_acc": 0.8689743045232533, "grad_norm": 0.4730762541294098, "learning_rate": 9.992936142126982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239649, "epoch": 0.08461010747770409, "step": 1110}, {"loss": 0.36366708278656007, "token_acc": 0.854664914586071, "grad_norm": 0.8984159827232361, "learning_rate": 9.992872375596161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239866, "epoch": 0.08499123408796402, "step": 1115}, {"loss": 0.2679781675338745, "token_acc": 0.8914285714285715, "grad_norm": 0.9417855143547058, "learning_rate": 9.992808322747279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24006, "epoch": 0.08537236069822395, "step": 1120}, {"loss": 0.29336235523223875, "token_acc": 0.8756307992837375, "grad_norm": 0.837355375289917, "learning_rate": 9.992743983584009e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240274, "epoch": 0.08575348730848388, "step": 1125}, {"loss": 0.25902409553527833, "token_acc": 0.8917301414581066, "grad_norm": 0.63333660364151, "learning_rate": 9.992679358110042e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240508, "epoch": 0.0861346139187438, "step": 1130}, {"loss": 0.3177644729614258, "token_acc": 0.8709876543209877, "grad_norm": 1.2863445281982422, "learning_rate": 9.992614446329082e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240876, "epoch": 0.08651574052900374, "step": 1135}, {"loss": 0.4172356128692627, "token_acc": 0.8535829567462879, "grad_norm": 0.6825645565986633, "learning_rate": 9.992549248244852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240918, "epoch": 0.08689686713926366, "step": 1140}, {"loss": 0.2891047954559326, "token_acc": 0.8595665811234674, "grad_norm": 0.44224679470062256, "learning_rate": 9.99248376386109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241054, "epoch": 0.0872779937495236, "step": 1145}, {"loss": 0.3258754014968872, "token_acc": 0.8505302378905131, "grad_norm": 0.6717022657394409, "learning_rate": 9.992417993181553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241231, "epoch": 0.08765912035978352, "step": 1150}, {"loss": 0.38921537399291994, "token_acc": 0.8573030557891785, "grad_norm": 0.6225957274436951, "learning_rate": 9.992351936210012e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241496, "epoch": 0.08804024697004345, "step": 1155}, {"loss": 0.46387519836425783, "token_acc": 0.7927281148679944, "grad_norm": 0.8881798386573792, "learning_rate": 9.992285592950255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241755, "epoch": 0.08842137358030337, "step": 1160}, {"loss": 0.3640100955963135, "token_acc": 0.8696841241624504, "grad_norm": 0.951678454875946, "learning_rate": 9.992218963406085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241867, "epoch": 0.08880250019056331, "step": 1165}, {"loss": 0.2853125810623169, "token_acc": 0.8570491803278688, "grad_norm": 0.7177585363388062, "learning_rate": 9.992152047581324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242103, "epoch": 0.08918362680082323, "step": 1170}, {"loss": 0.3742716312408447, "token_acc": 0.8662235147486498, "grad_norm": 0.5735414624214172, "learning_rate": 9.992084845479811e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242321, "epoch": 0.08956475341108316, "step": 1175}, {"loss": 0.3318443298339844, "token_acc": 0.8697549513259483, "grad_norm": 2.1042873859405518, "learning_rate": 9.992017357105398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242456, "epoch": 0.08994588002134309, "step": 1180}, {"loss": 0.34972808361053465, "token_acc": 0.8520315342631898, "grad_norm": 0.5025081634521484, "learning_rate": 9.991949582461955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24268, "epoch": 0.09032700663160302, "step": 1185}, {"loss": 0.23997759819030762, "token_acc": 0.8969979296066253, "grad_norm": 1.5829836130142212, "learning_rate": 9.991881521553368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242924, "epoch": 0.09070813324186294, "step": 1190}, {"loss": 0.3860133647918701, "token_acc": 0.8561777777777778, "grad_norm": 0.47387367486953735, "learning_rate": 9.991813174383542e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243106, "epoch": 0.09108925985212288, "step": 1195}, {"loss": 0.18847503662109374, "token_acc": 0.9123062015503876, "grad_norm": 0.4456857740879059, "learning_rate": 9.991744540956395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243434, "epoch": 0.0914703864623828, "step": 1200}, {"eval_loss": 0.2286582589149475, "eval_token_acc": 0.8675832781157762, "eval_runtime": 186.3302, "eval_samples_per_second": 2.844, "eval_steps_per_second": 2.844, "epoch": 0.0914703864623828, "step": 1200}, {"loss": 0.3584898948669434, "token_acc": 0.8669753736055568, "grad_norm": 2.2292988300323486, "learning_rate": 9.991675621275863e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234783, "epoch": 0.09185151307264273, "step": 1205}, {"loss": 0.43616819381713867, "token_acc": 0.8140200286123033, "grad_norm": 0.7625659704208374, "learning_rate": 9.991606415345899e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235004, "epoch": 0.09223263968290266, "step": 1210}, {"loss": 0.3124186277389526, "token_acc": 0.8570397111913357, "grad_norm": 3.531126022338867, "learning_rate": 9.991536923170471e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235333, "epoch": 0.09261376629316259, "step": 1215}, {"loss": 0.3472038984298706, "token_acc": 0.8600472813238771, "grad_norm": 1.0546016693115234, "learning_rate": 9.991467144753564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235462, "epoch": 0.09299489290342251, "step": 1220}, {"loss": 0.3956183433532715, "token_acc": 0.8519461622408149, "grad_norm": 1.1548722982406616, "learning_rate": 9.991397080099179e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235432, "epoch": 0.09337601951368245, "step": 1225}, {"loss": 0.3487874746322632, "token_acc": 0.8684613031508106, "grad_norm": 0.8083139657974243, "learning_rate": 9.991326729211333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235559, "epoch": 0.09375714612394237, "step": 1230}, {"loss": 0.22699143886566162, "token_acc": 0.8984327294931813, "grad_norm": 1.159450888633728, "learning_rate": 9.991256092094064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235754, "epoch": 0.0941382727342023, "step": 1235}, {"loss": 0.2988017797470093, "token_acc": 0.8737962493664471, "grad_norm": 0.6520458459854126, "learning_rate": 9.991185168751417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236066, "epoch": 0.09451939934446223, "step": 1240}, {"loss": 0.3303156137466431, "token_acc": 0.8714442013129103, "grad_norm": 1.3390988111495972, "learning_rate": 9.991113959187465e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236323, "epoch": 0.09490052595472216, "step": 1245}, {"loss": 0.2293933868408203, "token_acc": 0.8765576323987538, "grad_norm": 0.8916099667549133, "learning_rate": 9.991042463406291e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2365, "epoch": 0.09528165256498208, "step": 1250}, {"loss": 0.30124123096466066, "token_acc": 0.8611197030621713, "grad_norm": 1.4430028200149536, "learning_rate": 9.990970681411991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23678, "epoch": 0.09566277917524202, "step": 1255}, {"loss": 0.26608264446258545, "token_acc": 0.8742969628796401, "grad_norm": 0.9661933779716492, "learning_rate": 9.990898613208683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237038, "epoch": 0.09604390578550194, "step": 1260}, {"loss": 0.2631381511688232, "token_acc": 0.8767017724120216, "grad_norm": 1.7531121969223022, "learning_rate": 9.9908262588005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237276, "epoch": 0.09642503239576188, "step": 1265}, {"loss": 0.3002780914306641, "token_acc": 0.8698266713830917, "grad_norm": 1.0919272899627686, "learning_rate": 9.99075361819159e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237582, "epoch": 0.0968061590060218, "step": 1270}, {"loss": 0.31622114181518557, "token_acc": 0.8653295128939829, "grad_norm": 0.4003828465938568, "learning_rate": 9.990680691386122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237778, "epoch": 0.09718728561628173, "step": 1275}, {"loss": 0.2420757532119751, "token_acc": 0.8963707914298207, "grad_norm": 0.869187593460083, "learning_rate": 9.990607478388277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23793, "epoch": 0.09756841222654165, "step": 1280}, {"loss": 0.317791748046875, "token_acc": 0.8691065662002153, "grad_norm": 0.9983544945716858, "learning_rate": 9.99053397920225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238116, "epoch": 0.09794953883680159, "step": 1285}, {"loss": 0.38195137977600097, "token_acc": 0.8528873356631719, "grad_norm": 0.9206972718238831, "learning_rate": 9.990460193832259e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238219, "epoch": 0.09833066544706151, "step": 1290}, {"loss": 0.27911901473999023, "token_acc": 0.8647210822313421, "grad_norm": 0.7186734676361084, "learning_rate": 9.990386122282536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238401, "epoch": 0.09871179205732145, "step": 1295}, {"loss": 0.240960693359375, "token_acc": 0.8952569169960475, "grad_norm": 1.2912830114364624, "learning_rate": 9.990311764557325e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238724, "epoch": 0.09909291866758137, "step": 1300}, {"loss": 0.29543271064758303, "token_acc": 0.885692068429238, "grad_norm": 0.8165742754936218, "learning_rate": 9.990237120660893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238797, "epoch": 0.0994740452778413, "step": 1305}, {"loss": 0.35995898246765134, "token_acc": 0.8355452971725332, "grad_norm": 1.6282451152801514, "learning_rate": 9.990162190597518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239023, "epoch": 0.09985517188810122, "step": 1310}, {"loss": 0.3592132329940796, "token_acc": 0.8727954450770726, "grad_norm": 1.3043659925460815, "learning_rate": 9.990086974371501e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2391, "epoch": 0.10023629849836116, "step": 1315}, {"loss": 0.2668302059173584, "token_acc": 0.8741192153875452, "grad_norm": 0.828529417514801, "learning_rate": 9.990011471987152e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239246, "epoch": 0.10061742510862108, "step": 1320}, {"loss": 0.2705280303955078, "token_acc": 0.8837427632608356, "grad_norm": 0.37373417615890503, "learning_rate": 9.989935683448801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239329, "epoch": 0.10099855171888102, "step": 1325}, {"loss": 0.2926818609237671, "token_acc": 0.8362573099415205, "grad_norm": 1.517012119293213, "learning_rate": 9.989859608760796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239624, "epoch": 0.10137967832914094, "step": 1330}, {"loss": 0.27550106048583983, "token_acc": 0.8929016189290162, "grad_norm": 0.7579478621482849, "learning_rate": 9.989783247927496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239897, "epoch": 0.10176080493940087, "step": 1335}, {"loss": 0.3209331750869751, "token_acc": 0.8760054934275063, "grad_norm": 0.7756716012954712, "learning_rate": 9.989706600953284e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240064, "epoch": 0.1021419315496608, "step": 1340}, {"loss": 0.3144501209259033, "token_acc": 0.8818351560416111, "grad_norm": 0.5040755867958069, "learning_rate": 9.989629667842553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240099, "epoch": 0.10252305815992073, "step": 1345}, {"loss": 0.2784042596817017, "token_acc": 0.8801115241635687, "grad_norm": 1.6665209531784058, "learning_rate": 9.989552448599715e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240348, "epoch": 0.10290418477018065, "step": 1350}, {"loss": 0.22038679122924804, "token_acc": 0.8879042977403633, "grad_norm": 0.9837320446968079, "learning_rate": 9.9894749432292e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240546, "epoch": 0.10328531138044059, "step": 1355}, {"loss": 0.32283544540405273, "token_acc": 0.8532675709001233, "grad_norm": 0.9569424390792847, "learning_rate": 9.98939715173545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240871, "epoch": 0.10366643799070051, "step": 1360}, {"loss": 0.3877655744552612, "token_acc": 0.8407489803485354, "grad_norm": 1.1798166036605835, "learning_rate": 9.989319074122926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241065, "epoch": 0.10404756460096044, "step": 1365}, {"loss": 0.38001341819763185, "token_acc": 0.8498631565228724, "grad_norm": 0.763592004776001, "learning_rate": 9.989240710396105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241176, "epoch": 0.10442869121122036, "step": 1370}, {"loss": 0.33876938819885255, "token_acc": 0.8855004158580538, "grad_norm": 1.0278587341308594, "learning_rate": 9.989162060559486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241295, "epoch": 0.1048098178214803, "step": 1375}, {"loss": 0.3480438947677612, "token_acc": 0.8747120326067694, "grad_norm": 0.7296426296234131, "learning_rate": 9.989083124617573e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241363, "epoch": 0.10519094443174022, "step": 1380}, {"loss": 0.26218817234039304, "token_acc": 0.881966014982642, "grad_norm": 0.4497007131576538, "learning_rate": 9.989003902574896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241579, "epoch": 0.10557207104200016, "step": 1385}, {"loss": 0.33171398639678956, "token_acc": 0.8681318681318682, "grad_norm": 1.4578773975372314, "learning_rate": 9.988924394435997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24182, "epoch": 0.10595319765226008, "step": 1390}, {"loss": 0.36407334804534913, "token_acc": 0.8591804392121349, "grad_norm": 1.069934606552124, "learning_rate": 9.988844600205434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242027, "epoch": 0.10633432426252001, "step": 1395}, {"loss": 0.23869426250457765, "token_acc": 0.8888683431952663, "grad_norm": 1.2276278734207153, "learning_rate": 9.988764519887786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2422, "epoch": 0.10671545087277994, "step": 1400}, {"eval_loss": 0.22189576923847198, "eval_token_acc": 0.8742093849768087, "eval_runtime": 190.7476, "eval_samples_per_second": 2.779, "eval_steps_per_second": 2.779, "epoch": 0.10671545087277994, "step": 1400}, {"loss": 0.30362708568573, "token_acc": 0.874016388593066, "grad_norm": 0.7361118793487549, "learning_rate": 9.988684153487642e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234743, "epoch": 0.10709657748303987, "step": 1405}, {"loss": 0.2677700281143188, "token_acc": 0.8877637130801688, "grad_norm": 0.8145195841789246, "learning_rate": 9.988603501009614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234873, "epoch": 0.10747770409329979, "step": 1410}, {"loss": 0.2873891830444336, "token_acc": 0.8896593307205306, "grad_norm": 0.43503913283348083, "learning_rate": 9.988522562458324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234953, "epoch": 0.10785883070355973, "step": 1415}, {"loss": 0.2769100904464722, "token_acc": 0.8816752011704463, "grad_norm": 0.5774110555648804, "learning_rate": 9.988441337838414e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235138, "epoch": 0.10823995731381965, "step": 1420}, {"loss": 0.3621359348297119, "token_acc": 0.8643317230273752, "grad_norm": 0.5970641374588013, "learning_rate": 9.988359827154543e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235256, "epoch": 0.10862108392407958, "step": 1425}, {"loss": 0.4518928050994873, "token_acc": 0.8198607326672722, "grad_norm": 1.4232295751571655, "learning_rate": 9.988278030411385e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235493, "epoch": 0.1090022105343395, "step": 1430}, {"loss": 0.23796632289886474, "token_acc": 0.9016029593094944, "grad_norm": 1.0085704326629639, "learning_rate": 9.98819594761363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235703, "epoch": 0.10938333714459944, "step": 1435}, {"loss": 0.32533955574035645, "token_acc": 0.870767960363336, "grad_norm": 1.0184452533721924, "learning_rate": 9.988113578765986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235975, "epoch": 0.10976446375485936, "step": 1440}, {"loss": 0.37515578269958494, "token_acc": 0.8475103734439834, "grad_norm": 0.7100988030433655, "learning_rate": 9.988030923873175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236224, "epoch": 0.1101455903651193, "step": 1445}, {"loss": 0.3003732681274414, "token_acc": 0.8784977908689249, "grad_norm": 0.9686647057533264, "learning_rate": 9.987947982939938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236474, "epoch": 0.11052671697537922, "step": 1450}, {"loss": 0.34993298053741456, "token_acc": 0.8628963153384748, "grad_norm": 0.7090170979499817, "learning_rate": 9.987864755971033e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236702, "epoch": 0.11090784358563915, "step": 1455}, {"loss": 0.3135263919830322, "token_acc": 0.8648468708388815, "grad_norm": 2.440566301345825, "learning_rate": 9.987781242971228e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236859, "epoch": 0.11128897019589908, "step": 1460}, {"loss": 0.2933166742324829, "token_acc": 0.8869983948635634, "grad_norm": 0.7448179721832275, "learning_rate": 9.987697443945316e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237022, "epoch": 0.11167009680615901, "step": 1465}, {"loss": 0.39398696422576907, "token_acc": 0.8522899188557282, "grad_norm": 0.8079035878181458, "learning_rate": 9.987613358898101e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237173, "epoch": 0.11205122341641893, "step": 1470}, {"loss": 0.335716700553894, "token_acc": 0.8657760814249363, "grad_norm": 0.8160979747772217, "learning_rate": 9.987528987834407e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23726, "epoch": 0.11243235002667887, "step": 1475}, {"loss": 0.19432508945465088, "token_acc": 0.9091144484722942, "grad_norm": 0.7681664824485779, "learning_rate": 9.987444330759068e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237457, "epoch": 0.11281347663693879, "step": 1480}, {"loss": 0.25733270645141604, "token_acc": 0.8769722388655882, "grad_norm": 0.6677245497703552, "learning_rate": 9.987359387676943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237593, "epoch": 0.11319460324719872, "step": 1485}, {"loss": 0.32406370639801024, "token_acc": 0.8802365697387876, "grad_norm": 1.208254098892212, "learning_rate": 9.987274158592901e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237667, "epoch": 0.11357572985745865, "step": 1490}, {"loss": 0.23168556690216063, "token_acc": 0.8855488141202427, "grad_norm": 1.6211367845535278, "learning_rate": 9.98718864351183e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237868, "epoch": 0.11395685646771858, "step": 1495}, {"loss": 0.30960783958435056, "token_acc": 0.8748577929465301, "grad_norm": 1.0309813022613525, "learning_rate": 9.987102842438632e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237943, "epoch": 0.1143379830779785, "step": 1500}, {"loss": 0.28080313205718993, "token_acc": 0.8971603990790483, "grad_norm": 1.669249176979065, "learning_rate": 9.98701675537823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238177, "epoch": 0.11471910968823844, "step": 1505}, {"loss": 0.3472938537597656, "token_acc": 0.8624587847385775, "grad_norm": 0.6794307231903076, "learning_rate": 9.98693038233556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238256, "epoch": 0.11510023629849836, "step": 1510}, {"loss": 0.29816570281982424, "token_acc": 0.8914603779112348, "grad_norm": 0.47566187381744385, "learning_rate": 9.986843723315574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238321, "epoch": 0.1154813629087583, "step": 1515}, {"loss": 0.2521768569946289, "token_acc": 0.8954648526077098, "grad_norm": 0.5965967774391174, "learning_rate": 9.986756778323243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23854, "epoch": 0.11586248951901822, "step": 1520}, {"loss": 0.353248143196106, "token_acc": 0.8665246028671058, "grad_norm": 0.897229790687561, "learning_rate": 9.986669547363552e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238696, "epoch": 0.11624361612927815, "step": 1525}, {"loss": 0.31049978733062744, "token_acc": 0.8638324873096447, "grad_norm": 0.39634236693382263, "learning_rate": 9.986582030441503e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238821, "epoch": 0.11662474273953807, "step": 1530}, {"loss": 0.3601567506790161, "token_acc": 0.8356112376613516, "grad_norm": 1.684451937675476, "learning_rate": 9.986494227562115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239089, "epoch": 0.11700586934979801, "step": 1535}, {"loss": 0.26783323287963867, "token_acc": 0.8914873713751169, "grad_norm": 0.76612389087677, "learning_rate": 9.986406138730425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239333, "epoch": 0.11738699596005793, "step": 1540}, {"loss": 0.49721155166625974, "token_acc": 0.8011350737797956, "grad_norm": 0.9397041201591492, "learning_rate": 9.986317763951481e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239524, "epoch": 0.11776812257031787, "step": 1545}, {"loss": 0.2924522876739502, "token_acc": 0.8673213941844791, "grad_norm": 0.5398195385932922, "learning_rate": 9.986229103230352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239715, "epoch": 0.11814924918057779, "step": 1550}, {"loss": 0.20286931991577148, "token_acc": 0.90625, "grad_norm": 1.0232571363449097, "learning_rate": 9.986140156572124e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239916, "epoch": 0.11853037579083772, "step": 1555}, {"loss": 0.29258365631103517, "token_acc": 0.8631926952141058, "grad_norm": 1.2158668041229248, "learning_rate": 9.986050923981896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240055, "epoch": 0.11891150240109764, "step": 1560}, {"loss": 0.272230863571167, "token_acc": 0.8911049062624651, "grad_norm": 0.8256687521934509, "learning_rate": 9.985961405464785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240305, "epoch": 0.11929262901135758, "step": 1565}, {"loss": 0.1582486152648926, "token_acc": 0.9267326732673268, "grad_norm": 1.230517029762268, "learning_rate": 9.985871601025927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240612, "epoch": 0.1196737556216175, "step": 1570}, {"loss": 0.2275702476501465, "token_acc": 0.8994169096209913, "grad_norm": 0.5284491777420044, "learning_rate": 9.985781510670468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240816, "epoch": 0.12005488223187744, "step": 1575}, {"loss": 0.27314493656158445, "token_acc": 0.8875368731563422, "grad_norm": 1.0637966394424438, "learning_rate": 9.985691134403579e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240998, "epoch": 0.12043600884213736, "step": 1580}, {"loss": 0.24440603256225585, "token_acc": 0.9009735744089012, "grad_norm": 0.7315467596054077, "learning_rate": 9.985600472230438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241177, "epoch": 0.12081713545239729, "step": 1585}, {"loss": 0.38775172233581545, "token_acc": 0.8499304589707928, "grad_norm": 1.1298457384109497, "learning_rate": 9.985509524156245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241257, "epoch": 0.12119826206265721, "step": 1590}, {"loss": 0.3445568084716797, "token_acc": 0.8621887666473653, "grad_norm": 1.1297736167907715, "learning_rate": 9.985418290186216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241487, "epoch": 0.12157938867291715, "step": 1595}, {"loss": 0.2280574321746826, "token_acc": 0.8745032419995816, "grad_norm": 1.1153380870819092, "learning_rate": 9.985326770325587e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241677, "epoch": 0.12196051528317707, "step": 1600}, {"eval_loss": 0.21934306621551514, "eval_token_acc": 0.8781850490934281, "eval_runtime": 187.9074, "eval_samples_per_second": 2.821, "eval_steps_per_second": 2.821, "epoch": 0.12196051528317707, "step": 1600}, {"loss": 0.3189119815826416, "token_acc": 0.8780609588210538, "grad_norm": 0.8126972317695618, "learning_rate": 9.985234964579599e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235103, "epoch": 0.122341641893437, "step": 1605}, {"loss": 0.24471602439880372, "token_acc": 0.8847689674843126, "grad_norm": 0.5869296789169312, "learning_rate": 9.985142872953521e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235352, "epoch": 0.12272276850369693, "step": 1610}, {"loss": 0.3701769828796387, "token_acc": 0.8579792572766811, "grad_norm": 0.9726985692977905, "learning_rate": 9.985050495452634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23548, "epoch": 0.12310389511395686, "step": 1615}, {"loss": 0.17985012531280517, "token_acc": 0.9097542242703534, "grad_norm": 0.5328789949417114, "learning_rate": 9.984957832082233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235689, "epoch": 0.12348502172421678, "step": 1620}, {"loss": 0.24752767086029054, "token_acc": 0.8722466960352423, "grad_norm": 0.6906195878982544, "learning_rate": 9.984864882847635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235802, "epoch": 0.12386614833447672, "step": 1625}, {"loss": 0.3235522985458374, "token_acc": 0.8742690058479532, "grad_norm": 0.7773347496986389, "learning_rate": 9.984771647754168e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236023, "epoch": 0.12424727494473664, "step": 1630}, {"loss": 0.36856827735900877, "token_acc": 0.8507347254447022, "grad_norm": 0.7570682764053345, "learning_rate": 9.984678126807178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236264, "epoch": 0.12462840155499658, "step": 1635}, {"loss": 0.3217953681945801, "token_acc": 0.8672319959498798, "grad_norm": 0.5138041973114014, "learning_rate": 9.98458432001203e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236375, "epoch": 0.1250095281652565, "step": 1640}, {"loss": 0.2245692014694214, "token_acc": 0.9133550488599349, "grad_norm": 0.7398234009742737, "learning_rate": 9.984490227374103e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236479, "epoch": 0.12539065477551642, "step": 1645}, {"loss": 0.26722254753112795, "token_acc": 0.8760414549888235, "grad_norm": 0.7383055686950684, "learning_rate": 9.984395848898793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236648, "epoch": 0.12577178138577635, "step": 1650}, {"loss": 0.3560169696807861, "token_acc": 0.8408034219825181, "grad_norm": 0.7976310849189758, "learning_rate": 9.984301184591509e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23679, "epoch": 0.1261529079960363, "step": 1655}, {"loss": 0.24000742435455322, "token_acc": 0.8801005608199575, "grad_norm": 0.7168083786964417, "learning_rate": 9.984206234457683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236988, "epoch": 0.12653403460629623, "step": 1660}, {"loss": 0.2531128883361816, "token_acc": 0.8903225806451613, "grad_norm": 0.6233680844306946, "learning_rate": 9.98411099850276e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237157, "epoch": 0.12691516121655613, "step": 1665}, {"loss": 0.22955164909362794, "token_acc": 0.8998077333903012, "grad_norm": 0.6759544610977173, "learning_rate": 9.9840154767322e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237333, "epoch": 0.12729628782681607, "step": 1670}, {"loss": 0.25714402198791503, "token_acc": 0.8724091520861372, "grad_norm": 1.4952698945999146, "learning_rate": 9.98391966915148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237546, "epoch": 0.127677414437076, "step": 1675}, {"loss": 0.25081815719604494, "token_acc": 0.8753277711561382, "grad_norm": 0.2818395793437958, "learning_rate": 9.983823575766097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237744, "epoch": 0.12805854104733594, "step": 1680}, {"loss": 0.2657924652099609, "token_acc": 0.8488372093023255, "grad_norm": 1.3141353130340576, "learning_rate": 9.983727196581558e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237992, "epoch": 0.12843966765759585, "step": 1685}, {"loss": 0.2389721155166626, "token_acc": 0.901840490797546, "grad_norm": 1.5208375453948975, "learning_rate": 9.983630531603393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238136, "epoch": 0.12882079426785578, "step": 1690}, {"loss": 0.4329957962036133, "token_acc": 0.8464687819856704, "grad_norm": 1.6626639366149902, "learning_rate": 9.983533580837143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23828, "epoch": 0.12920192087811572, "step": 1695}, {"loss": 0.33500621318817136, "token_acc": 0.8754257907542579, "grad_norm": 0.9874489903450012, "learning_rate": 9.983436344288368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23843, "epoch": 0.12958304748837565, "step": 1700}, {"loss": 0.2787923336029053, "token_acc": 0.8704839809134287, "grad_norm": 0.5268015265464783, "learning_rate": 9.983338821962647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238568, "epoch": 0.12996417409863556, "step": 1705}, {"loss": 0.32826807498931887, "token_acc": 0.8601455133387227, "grad_norm": 1.4461921453475952, "learning_rate": 9.983241013865568e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238768, "epoch": 0.1303453007088955, "step": 1710}, {"loss": 0.3203974485397339, "token_acc": 0.8750318147111225, "grad_norm": 0.9359697699546814, "learning_rate": 9.983142920002742e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238944, "epoch": 0.13072642731915543, "step": 1715}, {"loss": 0.28200974464416506, "token_acc": 0.8971155612713577, "grad_norm": 0.6711606979370117, "learning_rate": 9.983044540379795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239066, "epoch": 0.13110755392941534, "step": 1720}, {"loss": 0.3281579494476318, "token_acc": 0.8809922896413007, "grad_norm": 0.6044157147407532, "learning_rate": 9.982945875002367e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239226, "epoch": 0.13148868053967527, "step": 1725}, {"loss": 0.24423377513885497, "token_acc": 0.9073339940535183, "grad_norm": 1.8961362838745117, "learning_rate": 9.982846923876116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239474, "epoch": 0.1318698071499352, "step": 1730}, {"loss": 0.2893033027648926, "token_acc": 0.8914563697172393, "grad_norm": 1.1634563207626343, "learning_rate": 9.982747687006719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239596, "epoch": 0.13225093376019514, "step": 1735}, {"loss": 0.3639101982116699, "token_acc": 0.8460291734197731, "grad_norm": 0.7382217049598694, "learning_rate": 9.982648164399864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239742, "epoch": 0.13263206037045505, "step": 1740}, {"loss": 0.2679546356201172, "token_acc": 0.896854764107308, "grad_norm": 0.7665942311286926, "learning_rate": 9.98254835606126e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239782, "epoch": 0.133013186980715, "step": 1745}, {"loss": 0.2662910223007202, "token_acc": 0.8751046025104603, "grad_norm": 1.0224422216415405, "learning_rate": 9.982448261996629e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239966, "epoch": 0.13339431359097492, "step": 1750}, {"loss": 0.17339050769805908, "token_acc": 0.9032822757111597, "grad_norm": 0.23131869733333588, "learning_rate": 9.982347882211711e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240097, "epoch": 0.13377544020123486, "step": 1755}, {"loss": 0.32798640727996825, "token_acc": 0.8807142857142857, "grad_norm": 0.873803436756134, "learning_rate": 9.982247216712264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240245, "epoch": 0.13415656681149477, "step": 1760}, {"loss": 0.3122976064682007, "token_acc": 0.881060116354234, "grad_norm": 1.3829140663146973, "learning_rate": 9.982146265504057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240384, "epoch": 0.1345376934217547, "step": 1765}, {"loss": 0.34187591075897217, "token_acc": 0.8577038577038577, "grad_norm": 1.5748395919799805, "learning_rate": 9.982045028592884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240542, "epoch": 0.13491882003201464, "step": 1770}, {"loss": 0.3357156991958618, "token_acc": 0.8569656883009508, "grad_norm": 0.7609471678733826, "learning_rate": 9.981943505984548e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240721, "epoch": 0.13529994664227457, "step": 1775}, {"loss": 0.28749325275421145, "token_acc": 0.8792022792022792, "grad_norm": 0.4783948063850403, "learning_rate": 9.98184169768487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240889, "epoch": 0.13568107325253448, "step": 1780}, {"loss": 0.2604418992996216, "token_acc": 0.8742548963951178, "grad_norm": 0.7209165096282959, "learning_rate": 9.981739603699691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240976, "epoch": 0.13606219986279441, "step": 1785}, {"loss": 0.32602221965789796, "token_acc": 0.8773459435495788, "grad_norm": 1.444502592086792, "learning_rate": 9.981637224034862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241047, "epoch": 0.13644332647305435, "step": 1790}, {"loss": 0.2807781219482422, "token_acc": 0.8816680205794747, "grad_norm": 0.8601609468460083, "learning_rate": 9.981534558696258e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241138, "epoch": 0.13682445308331428, "step": 1795}, {"loss": 0.26647086143493653, "token_acc": 0.8788659793814433, "grad_norm": 1.36115300655365, "learning_rate": 9.981431607689762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241304, "epoch": 0.1372055796935742, "step": 1800}, {"eval_loss": 0.20519913733005524, "eval_token_acc": 0.8880263237154389, "eval_runtime": 187.5612, "eval_samples_per_second": 2.826, "eval_steps_per_second": 2.826, "epoch": 0.1372055796935742, "step": 1800}, {"loss": 0.3051834344863892, "token_acc": 0.8870226101218369, "grad_norm": 0.9871574640274048, "learning_rate": 9.98132837102128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235602, "epoch": 0.13758670630383413, "step": 1805}, {"loss": 0.20040321350097656, "token_acc": 0.926112510495382, "grad_norm": 0.8670793175697327, "learning_rate": 9.981224848696733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235783, "epoch": 0.13796783291409406, "step": 1810}, {"loss": 0.2009223222732544, "token_acc": 0.9164007657945118, "grad_norm": 0.8690879940986633, "learning_rate": 9.981121040722057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236036, "epoch": 0.138348959524354, "step": 1815}, {"loss": 0.3130302429199219, "token_acc": 0.8684786574242978, "grad_norm": 0.7145750522613525, "learning_rate": 9.981016947103204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236171, "epoch": 0.1387300861346139, "step": 1820}, {"loss": 0.32374980449676516, "token_acc": 0.8695733532934131, "grad_norm": 1.1669580936431885, "learning_rate": 9.980912567846143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2363, "epoch": 0.13911121274487384, "step": 1825}, {"loss": 0.23629510402679443, "token_acc": 0.8929453746911886, "grad_norm": 0.9976136684417725, "learning_rate": 9.980807902956862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236458, "epoch": 0.13949233935513378, "step": 1830}, {"loss": 0.2617368459701538, "token_acc": 0.8948871750928307, "grad_norm": 1.4495136737823486, "learning_rate": 9.98070295244136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236667, "epoch": 0.1398734659653937, "step": 1835}, {"loss": 0.24829914569854736, "token_acc": 0.8998002151529122, "grad_norm": 0.8070573210716248, "learning_rate": 9.980597716305658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236736, "epoch": 0.14025459257565362, "step": 1840}, {"loss": 0.24158000946044922, "token_acc": 0.8975365940735451, "grad_norm": 1.3157578706741333, "learning_rate": 9.980492194555788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236934, "epoch": 0.14063571918591355, "step": 1845}, {"loss": 0.39017138481140134, "token_acc": 0.8480383454642286, "grad_norm": 0.7841731905937195, "learning_rate": 9.980386387197805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237082, "epoch": 0.1410168457961735, "step": 1850}, {"loss": 0.22648651599884034, "token_acc": 0.8981968444778362, "grad_norm": 1.1406445503234863, "learning_rate": 9.980280294237774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237304, "epoch": 0.14139797240643343, "step": 1855}, {"loss": 0.2971674919128418, "token_acc": 0.8874868559411146, "grad_norm": 1.1483399868011475, "learning_rate": 9.98017391568178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237507, "epoch": 0.14177909901669333, "step": 1860}, {"loss": 0.3522101879119873, "token_acc": 0.8594978442810043, "grad_norm": 1.3195897340774536, "learning_rate": 9.980067251535922e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237663, "epoch": 0.14216022562695327, "step": 1865}, {"loss": 0.3194094657897949, "token_acc": 0.8613229787824157, "grad_norm": 0.5908188223838806, "learning_rate": 9.979960301806317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237768, "epoch": 0.1425413522372132, "step": 1870}, {"loss": 0.30899298191070557, "token_acc": 0.8873239436619719, "grad_norm": 1.5131807327270508, "learning_rate": 9.9798530664991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237915, "epoch": 0.14292247884747314, "step": 1875}, {"loss": 0.2468344211578369, "token_acc": 0.9106749816581071, "grad_norm": 0.9198616147041321, "learning_rate": 9.979745545620418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238061, "epoch": 0.14330360545773305, "step": 1880}, {"loss": 0.3103508472442627, "token_acc": 0.8868662186927306, "grad_norm": 1.0523463487625122, "learning_rate": 9.979637739176437e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238106, "epoch": 0.14368473206799298, "step": 1885}, {"loss": 0.3548320770263672, "token_acc": 0.8629969418960245, "grad_norm": 1.820716381072998, "learning_rate": 9.979529647173342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238248, "epoch": 0.14406585867825292, "step": 1890}, {"loss": 0.25311760902404784, "token_acc": 0.8962025316455696, "grad_norm": 0.843774676322937, "learning_rate": 9.979421269617328e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238477, "epoch": 0.14444698528851285, "step": 1895}, {"loss": 0.20560357570648194, "token_acc": 0.893775228383259, "grad_norm": 1.19166898727417, "learning_rate": 9.979312606514613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238622, "epoch": 0.14482811189877276, "step": 1900}, {"loss": 0.2838034152984619, "token_acc": 0.8902870625245772, "grad_norm": 0.6783161759376526, "learning_rate": 9.979203657871426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238749, "epoch": 0.1452092385090327, "step": 1905}, {"loss": 0.21685729026794434, "token_acc": 0.916065911431514, "grad_norm": 0.5095587968826294, "learning_rate": 9.979094423694015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238916, "epoch": 0.14559036511929263, "step": 1910}, {"loss": 0.27637245655059817, "token_acc": 0.877690176859152, "grad_norm": 0.6157704591751099, "learning_rate": 9.978984903988644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239071, "epoch": 0.14597149172955257, "step": 1915}, {"loss": 0.22433173656463623, "token_acc": 0.9058589638638755, "grad_norm": 0.5641518235206604, "learning_rate": 9.978875098761595e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239135, "epoch": 0.14635261833981247, "step": 1920}, {"loss": 0.345409631729126, "token_acc": 0.8713904931141715, "grad_norm": 1.3883605003356934, "learning_rate": 9.978765008019165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239249, "epoch": 0.1467337449500724, "step": 1925}, {"loss": 0.3504453182220459, "token_acc": 0.8709171674941207, "grad_norm": 1.2038651704788208, "learning_rate": 9.978654631767665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239432, "epoch": 0.14711487156033234, "step": 1930}, {"loss": 0.2633713960647583, "token_acc": 0.878415551072804, "grad_norm": 1.9789129495620728, "learning_rate": 9.978543970013425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239562, "epoch": 0.14749599817059228, "step": 1935}, {"loss": 0.24987993240356446, "token_acc": 0.8959395656279509, "grad_norm": 0.604311466217041, "learning_rate": 9.978433022762794e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239657, "epoch": 0.1478771247808522, "step": 1940}, {"loss": 0.2976180076599121, "token_acc": 0.8881148706283765, "grad_norm": 0.878157913684845, "learning_rate": 9.97832179002213e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2397, "epoch": 0.14825825139111212, "step": 1945}, {"loss": 0.3298220157623291, "token_acc": 0.8717737789203085, "grad_norm": 0.7941150665283203, "learning_rate": 9.978210271797813e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239703, "epoch": 0.14863937800137206, "step": 1950}, {"loss": 0.3037374496459961, "token_acc": 0.8667074289208193, "grad_norm": 0.8733285665512085, "learning_rate": 9.97809846809624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239856, "epoch": 0.149020504611632, "step": 1955}, {"loss": 0.23170437812805175, "token_acc": 0.8865487222690256, "grad_norm": 1.3003733158111572, "learning_rate": 9.97798637892382e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240042, "epoch": 0.1494016312218919, "step": 1960}, {"loss": 0.3253824710845947, "token_acc": 0.8826634185952091, "grad_norm": 0.9020549654960632, "learning_rate": 9.977874004286982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240101, "epoch": 0.14978275783215184, "step": 1965}, {"loss": 0.21997196674346925, "token_acc": 0.9049307122139865, "grad_norm": 1.3014813661575317, "learning_rate": 9.977761344192171e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240288, "epoch": 0.15016388444241177, "step": 1970}, {"loss": 0.3753857135772705, "token_acc": 0.8583705172698728, "grad_norm": 1.3385120630264282, "learning_rate": 9.977648398645846e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240382, "epoch": 0.1505450110526717, "step": 1975}, {"loss": 0.22391667366027831, "token_acc": 0.9056902002107482, "grad_norm": 1.4283915758132935, "learning_rate": 9.977535167654483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240522, "epoch": 0.15092613766293161, "step": 1980}, {"loss": 0.34629182815551757, "token_acc": 0.8764965343415249, "grad_norm": 1.1512219905853271, "learning_rate": 9.977421651224579e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240591, "epoch": 0.15130726427319155, "step": 1985}, {"loss": 0.30235106945037843, "token_acc": 0.8854909955827387, "grad_norm": 1.2600854635238647, "learning_rate": 9.97730784936264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240772, "epoch": 0.15168839088345148, "step": 1990}, {"loss": 0.21035428047180177, "token_acc": 0.8959897061977268, "grad_norm": 0.447229266166687, "learning_rate": 9.977193762075194e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240918, "epoch": 0.15206951749371142, "step": 1995}, {"loss": 0.24118647575378419, "token_acc": 0.9077608142493638, "grad_norm": 0.8872116804122925, "learning_rate": 9.977079389368782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241137, "epoch": 0.15245064410397133, "step": 2000}, {"eval_loss": 0.20668385922908783, "eval_token_acc": 0.885714715980965, "eval_runtime": 184.1995, "eval_samples_per_second": 2.877, "eval_steps_per_second": 2.877, "epoch": 0.15245064410397133, "step": 2000}, {"loss": 0.265593957901001, "token_acc": 0.8852057777030927, "grad_norm": 1.1372349262237549, "learning_rate": 9.976964731249965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236015, "epoch": 0.15283177071423126, "step": 2005}, {"loss": 0.20663881301879883, "token_acc": 0.898103220114689, "grad_norm": 2.123196601867676, "learning_rate": 9.976849787725315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236148, "epoch": 0.1532128973244912, "step": 2010}, {"loss": 0.27978086471557617, "token_acc": 0.8739085772984078, "grad_norm": 1.8054008483886719, "learning_rate": 9.976734558801426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236294, "epoch": 0.15359402393475113, "step": 2015}, {"loss": 0.21602773666381836, "token_acc": 0.8905552010210593, "grad_norm": 0.8437690138816833, "learning_rate": 9.976619044484905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236479, "epoch": 0.15397515054501104, "step": 2020}, {"loss": 0.22199716567993164, "token_acc": 0.9176019709827539, "grad_norm": 1.1259104013442993, "learning_rate": 9.976503244782376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236648, "epoch": 0.15435627715527098, "step": 2025}, {"loss": 0.19872859716415406, "token_acc": 0.8967343336275375, "grad_norm": 0.92354416847229, "learning_rate": 9.976387159700479e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236763, "epoch": 0.1547374037655309, "step": 2030}, {"loss": 0.17748762369155885, "token_acc": 0.9172433679354095, "grad_norm": 1.0854308605194092, "learning_rate": 9.976270789245872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236926, "epoch": 0.15511853037579085, "step": 2035}, {"loss": 0.2648783683776855, "token_acc": 0.8918850806451613, "grad_norm": 1.5527721643447876, "learning_rate": 9.976154133425228e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237077, "epoch": 0.15549965698605075, "step": 2040}, {"loss": 0.21418545246124268, "token_acc": 0.877910447761194, "grad_norm": 1.4501986503601074, "learning_rate": 9.976037192245237e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237183, "epoch": 0.1558807835963107, "step": 2045}, {"loss": 0.2681345224380493, "token_acc": 0.8947151114781172, "grad_norm": 0.7141785025596619, "learning_rate": 9.975919965712603e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237214, "epoch": 0.15626191020657063, "step": 2050}, {"loss": 0.2997597694396973, "token_acc": 0.8774156877605154, "grad_norm": 1.6140422821044922, "learning_rate": 9.975802453834053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237345, "epoch": 0.15664303681683056, "step": 2055}, {"loss": 0.1712648630142212, "token_acc": 0.9270758122743682, "grad_norm": 1.0279288291931152, "learning_rate": 9.975684656616321e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237401, "epoch": 0.15702416342709047, "step": 2060}, {"loss": 0.2513648509979248, "token_acc": 0.8996113989637305, "grad_norm": 1.6670385599136353, "learning_rate": 9.975566574066164e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237488, "epoch": 0.1574052900373504, "step": 2065}, {"loss": 0.22825837135314941, "token_acc": 0.8874788494077834, "grad_norm": 0.7845636010169983, "learning_rate": 9.975448206190355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237677, "epoch": 0.15778641664761034, "step": 2070}, {"loss": 0.17792811393737792, "token_acc": 0.9224137931034483, "grad_norm": 0.340576708316803, "learning_rate": 9.975329552995678e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237859, "epoch": 0.15816754325787027, "step": 2075}, {"loss": 0.30759634971618655, "token_acc": 0.8793243462725353, "grad_norm": 1.1290943622589111, "learning_rate": 9.975210614488939e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237907, "epoch": 0.15854866986813018, "step": 2080}, {"loss": 0.3035086154937744, "token_acc": 0.8951680672268908, "grad_norm": 2.1738476753234863, "learning_rate": 9.975091390676961e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238019, "epoch": 0.15892979647839012, "step": 2085}, {"loss": 0.3861212968826294, "token_acc": 0.8492569002123143, "grad_norm": 1.1320093870162964, "learning_rate": 9.97497188156658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238173, "epoch": 0.15931092308865005, "step": 2090}, {"loss": 0.3135369300842285, "token_acc": 0.8503618919373843, "grad_norm": 0.9966463446617126, "learning_rate": 9.974852087164645e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238323, "epoch": 0.15969204969891, "step": 2095}, {"loss": 0.23520112037658691, "token_acc": 0.9032090424840847, "grad_norm": 0.21104849874973297, "learning_rate": 9.974732007478031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23838, "epoch": 0.1600731763091699, "step": 2100}, {"loss": 0.24723215103149415, "token_acc": 0.9000299760191847, "grad_norm": 0.7030470967292786, "learning_rate": 9.974611642513622e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238483, "epoch": 0.16045430291942983, "step": 2105}, {"loss": 0.2639194965362549, "token_acc": 0.9041769041769042, "grad_norm": 0.6704449653625488, "learning_rate": 9.97449099227832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238566, "epoch": 0.16083542952968977, "step": 2110}, {"loss": 0.30077123641967773, "token_acc": 0.8836830311672439, "grad_norm": 0.9133105874061584, "learning_rate": 9.974370056779044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238699, "epoch": 0.1612165561399497, "step": 2115}, {"loss": 0.27397823333740234, "token_acc": 0.8956294846705806, "grad_norm": 0.6244292259216309, "learning_rate": 9.974248836022728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238718, "epoch": 0.1615976827502096, "step": 2120}, {"loss": 0.3413764476776123, "token_acc": 0.8930018158960749, "grad_norm": 1.4584237337112427, "learning_rate": 9.974127330016325e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238755, "epoch": 0.16197880936046954, "step": 2125}, {"loss": 0.24233701229095458, "token_acc": 0.9027848966342047, "grad_norm": 0.59260094165802, "learning_rate": 9.974005538766803e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238858, "epoch": 0.16235993597072948, "step": 2130}, {"loss": 0.3027610778808594, "token_acc": 0.8899117039263573, "grad_norm": 1.5250327587127686, "learning_rate": 9.973883462281146e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238961, "epoch": 0.16274106258098942, "step": 2135}, {"loss": 0.21650912761688232, "token_acc": 0.9123244929797192, "grad_norm": 1.7640290260314941, "learning_rate": 9.973761100566354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239135, "epoch": 0.16312218919124932, "step": 2140}, {"loss": 0.2717435836791992, "token_acc": 0.9024311183144247, "grad_norm": 2.394850015640259, "learning_rate": 9.973638453629443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239295, "epoch": 0.16350331580150926, "step": 2145}, {"loss": 0.27200021743774416, "token_acc": 0.8996625421822272, "grad_norm": 1.7957568168640137, "learning_rate": 9.973515521477448e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239406, "epoch": 0.1638844424117692, "step": 2150}, {"loss": 0.28477942943573, "token_acc": 0.8939520624303233, "grad_norm": 1.2874975204467773, "learning_rate": 9.973392304117418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239507, "epoch": 0.16426556902202913, "step": 2155}, {"loss": 0.251181435585022, "token_acc": 0.897028897028897, "grad_norm": 0.6684015393257141, "learning_rate": 9.973268801556418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239632, "epoch": 0.16464669563228904, "step": 2160}, {"loss": 0.3319683074951172, "token_acc": 0.8660578386605784, "grad_norm": 1.5154551267623901, "learning_rate": 9.973145013801532e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239782, "epoch": 0.16502782224254897, "step": 2165}, {"loss": 0.2190579891204834, "token_acc": 0.8989776046738072, "grad_norm": 0.9595803618431091, "learning_rate": 9.973020940859856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239905, "epoch": 0.1654089488528089, "step": 2170}, {"loss": 0.3877572536468506, "token_acc": 0.8187591597459697, "grad_norm": 0.9698189496994019, "learning_rate": 9.972896582738509e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240065, "epoch": 0.16579007546306884, "step": 2175}, {"loss": 0.3530031442642212, "token_acc": 0.8819084438977243, "grad_norm": 0.5570741891860962, "learning_rate": 9.972771939444618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240032, "epoch": 0.16617120207332875, "step": 2180}, {"loss": 0.19612634181976318, "token_acc": 0.8913894324853229, "grad_norm": 0.7085857391357422, "learning_rate": 9.972647010985335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240194, "epoch": 0.16655232868358869, "step": 2185}, {"loss": 0.2705382823944092, "token_acc": 0.898902054571149, "grad_norm": 0.5055636763572693, "learning_rate": 9.97252179736782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240138, "epoch": 0.16693345529384862, "step": 2190}, {"loss": 0.2956686973571777, "token_acc": 0.8897560975609756, "grad_norm": 1.396628975868225, "learning_rate": 9.972396298599255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240296, "epoch": 0.16731458190410856, "step": 2195}, {"loss": 0.3205678462982178, "token_acc": 0.8811737712836614, "grad_norm": 0.9214076995849609, "learning_rate": 9.972270514686836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240373, "epoch": 0.16769570851436846, "step": 2200}, {"eval_loss": 0.19462092220783234, "eval_token_acc": 0.8964821396301428, "eval_runtime": 192.7243, "eval_samples_per_second": 2.75, "eval_steps_per_second": 2.75, "epoch": 0.16769570851436846, "step": 2200}, {"loss": 0.3501262664794922, "token_acc": 0.8955404645529651, "grad_norm": 1.0538688898086548, "learning_rate": 9.97214444563778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235489, "epoch": 0.1680768351246284, "step": 2205}, {"loss": 0.3005554676055908, "token_acc": 0.8797385620915033, "grad_norm": 1.378690242767334, "learning_rate": 9.972018091459312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235616, "epoch": 0.16845796173488833, "step": 2210}, {"loss": 0.29862303733825685, "token_acc": 0.8950563746747615, "grad_norm": 1.0340962409973145, "learning_rate": 9.971891452158679e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23574, "epoch": 0.16883908834514827, "step": 2215}, {"loss": 0.2782621145248413, "token_acc": 0.8913583312639682, "grad_norm": 1.8549689054489136, "learning_rate": 9.971764527743146e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235774, "epoch": 0.16922021495540818, "step": 2220}, {"loss": 0.1819000720977783, "token_acc": 0.9229157938835358, "grad_norm": 0.8636431097984314, "learning_rate": 9.971637318219987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235953, "epoch": 0.1696013415656681, "step": 2225}, {"loss": 0.24790711402893068, "token_acc": 0.8953188352377442, "grad_norm": 0.9445730447769165, "learning_rate": 9.971509823596499e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236072, "epoch": 0.16998246817592805, "step": 2230}, {"loss": 0.26198453903198243, "token_acc": 0.8889661164205039, "grad_norm": 0.7660523056983948, "learning_rate": 9.971382043879993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236161, "epoch": 0.17036359478618798, "step": 2235}, {"loss": 0.27241039276123047, "token_acc": 0.8815615932471643, "grad_norm": 0.9888396859169006, "learning_rate": 9.971253979077799e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236324, "epoch": 0.1707447213964479, "step": 2240}, {"loss": 0.2658933162689209, "token_acc": 0.8860200046522447, "grad_norm": 1.3814053535461426, "learning_rate": 9.971125629197257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236459, "epoch": 0.17112584800670783, "step": 2245}, {"loss": 0.2792464256286621, "token_acc": 0.8834281072298944, "grad_norm": 0.8118754625320435, "learning_rate": 9.970996994245729e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236567, "epoch": 0.17150697461696776, "step": 2250}, {"loss": 0.28833248615264895, "token_acc": 0.9071070136538686, "grad_norm": 0.7182120680809021, "learning_rate": 9.970868074230592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236592, "epoch": 0.1718881012272277, "step": 2255}, {"loss": 0.1648984432220459, "token_acc": 0.9259119969913502, "grad_norm": 0.7893413305282593, "learning_rate": 9.970738869159238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236673, "epoch": 0.1722692278374876, "step": 2260}, {"loss": 0.2591114521026611, "token_acc": 0.8794814664776179, "grad_norm": 0.7585846185684204, "learning_rate": 9.970609379039077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236763, "epoch": 0.17265035444774754, "step": 2265}, {"loss": 0.2379659652709961, "token_acc": 0.9015221402214022, "grad_norm": 1.5939124822616577, "learning_rate": 9.970479603877536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236847, "epoch": 0.17303148105800747, "step": 2270}, {"loss": 0.2918152570724487, "token_acc": 0.8930031803725579, "grad_norm": 1.9114692211151123, "learning_rate": 9.970349543682053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236987, "epoch": 0.1734126076682674, "step": 2275}, {"loss": 0.18986796140670775, "token_acc": 0.8945222929936306, "grad_norm": 0.40412506461143494, "learning_rate": 9.970219198460091e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237061, "epoch": 0.17379373427852732, "step": 2280}, {"loss": 0.31163616180419923, "token_acc": 0.8847457627118644, "grad_norm": 0.9701446890830994, "learning_rate": 9.970088568219123e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237126, "epoch": 0.17417486088878725, "step": 2285}, {"loss": 0.30379929542541506, "token_acc": 0.90121500264131, "grad_norm": 0.6267778873443604, "learning_rate": 9.969957652966638e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237136, "epoch": 0.1745559874990472, "step": 2290}, {"loss": 0.28214635848999026, "token_acc": 0.8850802456905092, "grad_norm": 0.8504393696784973, "learning_rate": 9.969826452710147e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237282, "epoch": 0.17493711410930712, "step": 2295}, {"loss": 0.3197032928466797, "token_acc": 0.8903364116094987, "grad_norm": 0.9132372736930847, "learning_rate": 9.96969496745717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237369, "epoch": 0.17531824071956703, "step": 2300}, {"loss": 0.2892963647842407, "token_acc": 0.8918021324943192, "grad_norm": 0.912675678730011, "learning_rate": 9.969563197215249e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237464, "epoch": 0.17569936732982697, "step": 2305}, {"loss": 0.3183117866516113, "token_acc": 0.868801652892562, "grad_norm": 1.037492275238037, "learning_rate": 9.96943114199194e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23756, "epoch": 0.1760804939400869, "step": 2310}, {"loss": 0.41812591552734374, "token_acc": 0.8625424251774144, "grad_norm": 1.219845175743103, "learning_rate": 9.969298801794817e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237607, "epoch": 0.17646162055034684, "step": 2315}, {"loss": 0.2722818613052368, "token_acc": 0.9027064862342511, "grad_norm": 2.3860533237457275, "learning_rate": 9.969166176631468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237722, "epoch": 0.17684274716060674, "step": 2320}, {"loss": 0.20225563049316406, "token_acc": 0.9, "grad_norm": 0.7258024215698242, "learning_rate": 9.969033266509498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23782, "epoch": 0.17722387377086668, "step": 2325}, {"loss": 0.24534997940063477, "token_acc": 0.9017755334745072, "grad_norm": 0.7142091989517212, "learning_rate": 9.96890007143653e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237896, "epoch": 0.17760500038112662, "step": 2330}, {"loss": 0.2938971519470215, "token_acc": 0.8955114054451803, "grad_norm": 0.6796156764030457, "learning_rate": 9.9687665914202e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23799, "epoch": 0.17798612699138655, "step": 2335}, {"loss": 0.23135616779327392, "token_acc": 0.9143423258649596, "grad_norm": 1.2401645183563232, "learning_rate": 9.968632826468165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238033, "epoch": 0.17836725360164646, "step": 2340}, {"loss": 0.28963940143585204, "token_acc": 0.8730591119585944, "grad_norm": 1.4266185760498047, "learning_rate": 9.968498776588093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238151, "epoch": 0.1787483802119064, "step": 2345}, {"loss": 0.28890018463134765, "token_acc": 0.8675510633817646, "grad_norm": 1.120025634765625, "learning_rate": 9.968364441787674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238247, "epoch": 0.17912950682216633, "step": 2350}, {"loss": 0.2971433401107788, "token_acc": 0.8989539748953975, "grad_norm": 1.624452829360962, "learning_rate": 9.968229822074611e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238331, "epoch": 0.17951063343242626, "step": 2355}, {"loss": 0.22624199390411376, "token_acc": 0.9141007697690693, "grad_norm": 1.5802233219146729, "learning_rate": 9.968094917456622e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238413, "epoch": 0.17989176004268617, "step": 2360}, {"loss": 0.28411753177642823, "token_acc": 0.8900576008014025, "grad_norm": 2.044118881225586, "learning_rate": 9.967959727941445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238537, "epoch": 0.1802728866529461, "step": 2365}, {"loss": 0.23213346004486085, "token_acc": 0.9068166169382603, "grad_norm": 1.1494495868682861, "learning_rate": 9.967824253536832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23862, "epoch": 0.18065401326320604, "step": 2370}, {"loss": 0.28689911365509035, "token_acc": 0.8853850818677986, "grad_norm": 0.9547458291053772, "learning_rate": 9.96768849425055e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238732, "epoch": 0.18103513987346598, "step": 2375}, {"loss": 0.16776807308197023, "token_acc": 0.9188034188034188, "grad_norm": 0.9832682609558105, "learning_rate": 9.967552450090389e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238894, "epoch": 0.18141626648372589, "step": 2380}, {"loss": 0.27297630310058596, "token_acc": 0.8710927408938259, "grad_norm": 1.1946977376937866, "learning_rate": 9.967416121064144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239047, "epoch": 0.18179739309398582, "step": 2385}, {"loss": 0.2590020656585693, "token_acc": 0.8862559241706162, "grad_norm": 1.58622145652771, "learning_rate": 9.967279507179638e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239167, "epoch": 0.18217851970424576, "step": 2390}, {"loss": 0.2869682550430298, "token_acc": 0.894065446478092, "grad_norm": 12.433429718017578, "learning_rate": 9.967142608444702e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239272, "epoch": 0.1825596463145057, "step": 2395}, {"loss": 0.2666119813919067, "token_acc": 0.8774570024570024, "grad_norm": 0.9357939958572388, "learning_rate": 9.967005424867188e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239404, "epoch": 0.1829407729247656, "step": 2400}, {"eval_loss": 0.18799619376659393, "eval_token_acc": 0.8982892596831517, "eval_runtime": 189.4045, "eval_samples_per_second": 2.798, "eval_steps_per_second": 2.798, "epoch": 0.1829407729247656, "step": 2400}, {"loss": 0.2422574281692505, "token_acc": 0.8983217166688313, "grad_norm": 0.6364712715148926, "learning_rate": 9.966867956454963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23506, "epoch": 0.18332189953502553, "step": 2405}, {"loss": 0.28159847259521487, "token_acc": 0.9008742244782854, "grad_norm": 1.0952332019805908, "learning_rate": 9.966730203215911e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235151, "epoch": 0.18370302614528547, "step": 2410}, {"loss": 0.32275192737579345, "token_acc": 0.8790554414784394, "grad_norm": 1.0299922227859497, "learning_rate": 9.966592165157929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235247, "epoch": 0.1840841527555454, "step": 2415}, {"loss": 0.2838776111602783, "token_acc": 0.8908661198387321, "grad_norm": 0.916754424571991, "learning_rate": 9.966453842288934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235288, "epoch": 0.1844652793658053, "step": 2420}, {"loss": 0.16249300241470338, "token_acc": 0.9173982442138867, "grad_norm": 0.8388864994049072, "learning_rate": 9.966315234616857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235459, "epoch": 0.18484640597606525, "step": 2425}, {"loss": 0.17313649654388427, "token_acc": 0.9202240387526491, "grad_norm": 0.7737628221511841, "learning_rate": 9.966176342149649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235553, "epoch": 0.18522753258632518, "step": 2430}, {"loss": 0.29317526817321776, "token_acc": 0.8829466973614308, "grad_norm": 1.4051605463027954, "learning_rate": 9.966037164895275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235642, "epoch": 0.18560865919658512, "step": 2435}, {"loss": 0.3096605777740479, "token_acc": 0.878177966101695, "grad_norm": 1.3052648305892944, "learning_rate": 9.965897702861712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23578, "epoch": 0.18598978580684503, "step": 2440}, {"loss": 0.29300546646118164, "token_acc": 0.8965463108320251, "grad_norm": 0.8876438140869141, "learning_rate": 9.965757956056962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23586, "epoch": 0.18637091241710496, "step": 2445}, {"loss": 0.29401659965515137, "token_acc": 0.8965925925925926, "grad_norm": 1.0546586513519287, "learning_rate": 9.965617924489038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235944, "epoch": 0.1867520390273649, "step": 2450}, {"loss": 0.2643908500671387, "token_acc": 0.8815762746292911, "grad_norm": 1.3227176666259766, "learning_rate": 9.965477608165969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236052, "epoch": 0.18713316563762483, "step": 2455}, {"loss": 0.30490238666534425, "token_acc": 0.8823322177206271, "grad_norm": 0.7268185615539551, "learning_rate": 9.965337007095801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236138, "epoch": 0.18751429224788474, "step": 2460}, {"loss": 0.25411453247070315, "token_acc": 0.8869687062120505, "grad_norm": 0.8339267373085022, "learning_rate": 9.965196121286597e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236257, "epoch": 0.18789541885814467, "step": 2465}, {"loss": 0.23019378185272216, "token_acc": 0.9074605451936872, "grad_norm": 1.2658578157424927, "learning_rate": 9.965054950746438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236405, "epoch": 0.1882765454684046, "step": 2470}, {"loss": 0.27036480903625487, "token_acc": 0.8906513668579142, "grad_norm": 1.0540765523910522, "learning_rate": 9.964913495483418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236477, "epoch": 0.18865767207866455, "step": 2475}, {"loss": 0.24350364208221437, "token_acc": 0.910212819544138, "grad_norm": 0.7257567048072815, "learning_rate": 9.964771755505649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236536, "epoch": 0.18903879868892445, "step": 2480}, {"loss": 0.27180159091949463, "token_acc": 0.9041190723433714, "grad_norm": 1.064794659614563, "learning_rate": 9.964629730821258e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23664, "epoch": 0.1894199252991844, "step": 2485}, {"loss": 0.22177386283874512, "token_acc": 0.9085553278688525, "grad_norm": 1.8649581670761108, "learning_rate": 9.964487421438393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23679, "epoch": 0.18980105190944432, "step": 2490}, {"loss": 0.2417988061904907, "token_acc": 0.8990056541236109, "grad_norm": 1.0809030532836914, "learning_rate": 9.96434482736521e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236898, "epoch": 0.19018217851970426, "step": 2495}, {"loss": 0.22393262386322021, "token_acc": 0.9252017380509001, "grad_norm": 1.0591228008270264, "learning_rate": 9.96420194860989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236947, "epoch": 0.19056330512996417, "step": 2500}, {"loss": 0.3084451198577881, "token_acc": 0.8759355210132412, "grad_norm": 0.9385740756988525, "learning_rate": 9.964058785180626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237072, "epoch": 0.1909444317402241, "step": 2505}, {"loss": 0.28600873947143557, "token_acc": 0.8976744186046511, "grad_norm": 2.0610008239746094, "learning_rate": 9.963915337085624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237206, "epoch": 0.19132555835048404, "step": 2510}, {"loss": 0.2500518798828125, "token_acc": 0.872556684910086, "grad_norm": 0.8145803809165955, "learning_rate": 9.963771604333114e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237302, "epoch": 0.19170668496074397, "step": 2515}, {"loss": 0.24223783016204833, "token_acc": 0.9089930822444273, "grad_norm": 0.9426414966583252, "learning_rate": 9.963627586931337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237414, "epoch": 0.19208781157100388, "step": 2520}, {"loss": 0.27820515632629395, "token_acc": 0.8989247311827957, "grad_norm": 0.7931233048439026, "learning_rate": 9.963483284888553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237491, "epoch": 0.19246893818126382, "step": 2525}, {"loss": 0.21210806369781493, "token_acc": 0.9124891335844683, "grad_norm": 0.896723210811615, "learning_rate": 9.963338698213035e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237642, "epoch": 0.19285006479152375, "step": 2530}, {"loss": 0.20797309875488282, "token_acc": 0.9022679448211363, "grad_norm": 15.007954597473145, "learning_rate": 9.963193826913075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237759, "epoch": 0.1932311914017837, "step": 2535}, {"loss": 0.18652567863464356, "token_acc": 0.9158704883227177, "grad_norm": 0.9164189100265503, "learning_rate": 9.963048670996983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237831, "epoch": 0.1936123180120436, "step": 2540}, {"loss": 0.31068108081817625, "token_acc": 0.8727373476172885, "grad_norm": 0.7434625029563904, "learning_rate": 9.96290323047308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237936, "epoch": 0.19399344462230353, "step": 2545}, {"loss": 0.2795144557952881, "token_acc": 0.8749647191645498, "grad_norm": 1.120155930519104, "learning_rate": 9.962757505349706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238072, "epoch": 0.19437457123256346, "step": 2550}, {"loss": 0.27224392890930177, "token_acc": 0.8871421134825611, "grad_norm": 0.8912761211395264, "learning_rate": 9.962611495635222e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23806, "epoch": 0.1947556978428234, "step": 2555}, {"loss": 0.35443429946899413, "token_acc": 0.8769391408114559, "grad_norm": 1.1786255836486816, "learning_rate": 9.962465201337995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238125, "epoch": 0.1951368244530833, "step": 2560}, {"loss": 0.23119680881500243, "token_acc": 0.9175105485232068, "grad_norm": 0.7733458876609802, "learning_rate": 9.96231862246642e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238186, "epoch": 0.19551795106334324, "step": 2565}, {"loss": 0.2671044826507568, "token_acc": 0.9100946372239748, "grad_norm": 2.044074535369873, "learning_rate": 9.962171759028898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238293, "epoch": 0.19589907767360318, "step": 2570}, {"loss": 0.23819494247436523, "token_acc": 0.9002039428959892, "grad_norm": 0.9324264526367188, "learning_rate": 9.962024611033853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238326, "epoch": 0.19628020428386309, "step": 2575}, {"loss": 0.22369728088378907, "token_acc": 0.9132791327913279, "grad_norm": 2.344309091567993, "learning_rate": 9.961877178489723e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238457, "epoch": 0.19666133089412302, "step": 2580}, {"loss": 0.25209481716156007, "token_acc": 0.8942350332594236, "grad_norm": 0.7523909211158752, "learning_rate": 9.961729461404963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238563, "epoch": 0.19704245750438296, "step": 2585}, {"loss": 0.2027686357498169, "token_acc": 0.9085735963581184, "grad_norm": 0.7247744202613831, "learning_rate": 9.961581459788046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238716, "epoch": 0.1974235841146429, "step": 2590}, {"loss": 0.2022995948791504, "token_acc": 0.9069709127382146, "grad_norm": 0.8465806245803833, "learning_rate": 9.961433173647454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238828, "epoch": 0.1978047107249028, "step": 2595}, {"loss": 0.2387778043746948, "token_acc": 0.9080708813742939, "grad_norm": 0.6251646280288696, "learning_rate": 9.961284602991693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238802, "epoch": 0.19818583733516273, "step": 2600}, {"eval_loss": 0.1864442676305771, "eval_token_acc": 0.9033416661646889, "eval_runtime": 183.519, "eval_samples_per_second": 2.888, "eval_steps_per_second": 2.888, "epoch": 0.19818583733516273, "step": 2600}, {"loss": 0.24641871452331543, "token_acc": 0.9031442360488975, "grad_norm": 0.9214624166488647, "learning_rate": 9.961135747829285e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234914, "epoch": 0.19856696394542267, "step": 2605}, {"loss": 0.25508747100830076, "token_acc": 0.8790882061446977, "grad_norm": 0.5550523400306702, "learning_rate": 9.960986608168765e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235043, "epoch": 0.1989480905556826, "step": 2610}, {"loss": 0.21692023277282715, "token_acc": 0.9107769423558897, "grad_norm": 2.148348093032837, "learning_rate": 9.960837184018683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235179, "epoch": 0.1993292171659425, "step": 2615}, {"loss": 0.22900691032409667, "token_acc": 0.9188916876574307, "grad_norm": 0.6543712019920349, "learning_rate": 9.96068747538761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23529, "epoch": 0.19971034377620245, "step": 2620}, {"loss": 0.26583716869354246, "token_acc": 0.9007904500725924, "grad_norm": 0.811438262462616, "learning_rate": 9.960537482284131e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235214, "epoch": 0.20009147038646238, "step": 2625}, {"loss": 0.27449994087219237, "token_acc": 0.8955324909747292, "grad_norm": 1.0107061862945557, "learning_rate": 9.960387204716847e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235307, "epoch": 0.20047259699672232, "step": 2630}, {"loss": 0.2563391923904419, "token_acc": 0.9129880071446798, "grad_norm": 0.8719041347503662, "learning_rate": 9.960236642694376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235357, "epoch": 0.20085372360698223, "step": 2635}, {"loss": 0.26113128662109375, "token_acc": 0.8726790450928382, "grad_norm": 1.2094417810440063, "learning_rate": 9.960085796225351e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235461, "epoch": 0.20123485021724216, "step": 2640}, {"loss": 0.26352725028991697, "token_acc": 0.8966889525628781, "grad_norm": 2.2879045009613037, "learning_rate": 9.959934665318425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235543, "epoch": 0.2016159768275021, "step": 2645}, {"loss": 0.25647845268249514, "token_acc": 0.9062092922275293, "grad_norm": 1.3269717693328857, "learning_rate": 9.959783249982262e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235604, "epoch": 0.20199710343776203, "step": 2650}, {"loss": 0.2731334686279297, "token_acc": 0.9054154856034612, "grad_norm": 0.7037633657455444, "learning_rate": 9.959631550225544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235643, "epoch": 0.20237823004802194, "step": 2655}, {"loss": 0.2736817359924316, "token_acc": 0.906088387400094, "grad_norm": 0.7377872467041016, "learning_rate": 9.959479566056973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235695, "epoch": 0.20275935665828188, "step": 2660}, {"loss": 0.25736782550811765, "token_acc": 0.9065420560747663, "grad_norm": 1.9063527584075928, "learning_rate": 9.959327297485266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235828, "epoch": 0.2031404832685418, "step": 2665}, {"loss": 0.211942720413208, "token_acc": 0.9118173063695144, "grad_norm": 0.6375294327735901, "learning_rate": 9.95917474451915e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235854, "epoch": 0.20352160987880175, "step": 2670}, {"loss": 0.2032244920730591, "token_acc": 0.9070769230769231, "grad_norm": 1.0100284814834595, "learning_rate": 9.959021907167377e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235943, "epoch": 0.20390273648906165, "step": 2675}, {"loss": 0.09047021269798279, "token_acc": 0.9531970995385629, "grad_norm": 0.9140448570251465, "learning_rate": 9.95886878543871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236109, "epoch": 0.2042838630993216, "step": 2680}, {"loss": 0.23606657981872559, "token_acc": 0.8705308775731311, "grad_norm": 1.1633543968200684, "learning_rate": 9.958715379341929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236248, "epoch": 0.20466498970958152, "step": 2685}, {"loss": 0.26520609855651855, "token_acc": 0.90436688057599, "grad_norm": 0.824425458908081, "learning_rate": 9.958561688885834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236297, "epoch": 0.20504611631984146, "step": 2690}, {"loss": 0.2350114107131958, "token_acc": 0.9132678541701349, "grad_norm": 1.1514136791229248, "learning_rate": 9.958407714079237e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236375, "epoch": 0.20542724293010137, "step": 2695}, {"loss": 0.23689453601837157, "token_acc": 0.9215900802334063, "grad_norm": 0.7021647691726685, "learning_rate": 9.958253454930965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236418, "epoch": 0.2058083695403613, "step": 2700}, {"loss": 0.24244177341461182, "token_acc": 0.8824043333915779, "grad_norm": 0.9109348058700562, "learning_rate": 9.958098911449869e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236492, "epoch": 0.20618949615062124, "step": 2705}, {"loss": 0.34205060005187987, "token_acc": 0.8714831047645978, "grad_norm": 1.3590582609176636, "learning_rate": 9.957944083644808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236568, "epoch": 0.20657062276088117, "step": 2710}, {"loss": 0.24093873500823976, "token_acc": 0.9198751300728408, "grad_norm": 0.8659549355506897, "learning_rate": 9.95778897152466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236639, "epoch": 0.20695174937114108, "step": 2715}, {"loss": 0.21360211372375487, "token_acc": 0.90732889158086, "grad_norm": 1.3699175119400024, "learning_rate": 9.957633575098323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236793, "epoch": 0.20733287598140102, "step": 2720}, {"loss": 0.21014256477355958, "token_acc": 0.9089754445385266, "grad_norm": 1.0688623189926147, "learning_rate": 9.957477894374707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2369, "epoch": 0.20771400259166095, "step": 2725}, {"loss": 0.3316061496734619, "token_acc": 0.879504753482202, "grad_norm": 1.6176766157150269, "learning_rate": 9.957321929362737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237014, "epoch": 0.2080951292019209, "step": 2730}, {"loss": 0.27490577697753904, "token_acc": 0.8975659229208925, "grad_norm": 0.7980506420135498, "learning_rate": 9.957165680071362e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237087, "epoch": 0.2084762558121808, "step": 2735}, {"loss": 0.20973918437957764, "token_acc": 0.915633423180593, "grad_norm": 0.5326893925666809, "learning_rate": 9.957009146509537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237124, "epoch": 0.20885738242244073, "step": 2740}, {"loss": 0.2609852313995361, "token_acc": 0.9146508443633045, "grad_norm": 2.553304672241211, "learning_rate": 9.956852328686243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237208, "epoch": 0.20923850903270066, "step": 2745}, {"loss": 0.1911757469177246, "token_acc": 0.9115418894830659, "grad_norm": 1.7659505605697632, "learning_rate": 9.956695226610469e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237335, "epoch": 0.2096196356429606, "step": 2750}, {"loss": 0.21332383155822754, "token_acc": 0.9128984432913269, "grad_norm": 1.21354079246521, "learning_rate": 9.956537840291226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237479, "epoch": 0.2100007622532205, "step": 2755}, {"loss": 0.28225853443145754, "token_acc": 0.9047619047619048, "grad_norm": 1.082421898841858, "learning_rate": 9.956380169737538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237556, "epoch": 0.21038188886348044, "step": 2760}, {"loss": 0.2824878454208374, "token_acc": 0.8720089930945881, "grad_norm": 1.0504456758499146, "learning_rate": 9.956222214958449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237648, "epoch": 0.21076301547374038, "step": 2765}, {"loss": 0.2612369298934937, "token_acc": 0.8914285714285715, "grad_norm": 1.2931427955627441, "learning_rate": 9.956063975963016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237761, "epoch": 0.2111441420840003, "step": 2770}, {"loss": 0.20278472900390626, "token_acc": 0.8832467013194722, "grad_norm": 0.6961236596107483, "learning_rate": 9.955905452760312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237907, "epoch": 0.21152526869426022, "step": 2775}, {"loss": 0.26557509899139403, "token_acc": 0.8906009244992296, "grad_norm": 1.669674277305603, "learning_rate": 9.955746645359429e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238059, "epoch": 0.21190639530452016, "step": 2780}, {"loss": 0.21491804122924804, "token_acc": 0.9086875291919664, "grad_norm": 0.8587361574172974, "learning_rate": 9.955587553769472e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238183, "epoch": 0.2122875219147801, "step": 2785}, {"loss": 0.2557761430740356, "token_acc": 0.9022629730784237, "grad_norm": 1.6778310537338257, "learning_rate": 9.955428177999567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238268, "epoch": 0.21266864852504003, "step": 2790}, {"loss": 0.2547274589538574, "token_acc": 0.9068892161675667, "grad_norm": 0.9391726851463318, "learning_rate": 9.955268518058852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23833, "epoch": 0.21304977513529993, "step": 2795}, {"loss": 0.22569553852081298, "token_acc": 0.9115835485793761, "grad_norm": 0.7006628513336182, "learning_rate": 9.955108573956482e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23841, "epoch": 0.21343090174555987, "step": 2800}, {"eval_loss": 0.18260350823402405, "eval_token_acc": 0.9065191855912295, "eval_runtime": 177.8285, "eval_samples_per_second": 2.98, "eval_steps_per_second": 2.98, "epoch": 0.21343090174555987, "step": 2800}, {"loss": 0.2199695110321045, "token_acc": 0.9066239962245507, "grad_norm": 1.637231707572937, "learning_rate": 9.954948345701631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234986, "epoch": 0.2138120283558198, "step": 2805}, {"loss": 0.19925637245178224, "token_acc": 0.9264099037138928, "grad_norm": 0.727758526802063, "learning_rate": 9.954787833303484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235057, "epoch": 0.21419315496607974, "step": 2810}, {"loss": 0.28996098041534424, "token_acc": 0.8951467944877172, "grad_norm": 1.5735499858856201, "learning_rate": 9.95462703677125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235185, "epoch": 0.21457428157633965, "step": 2815}, {"loss": 0.31084303855895995, "token_acc": 0.8873048200950441, "grad_norm": 0.6912621855735779, "learning_rate": 9.954465956114147e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235253, "epoch": 0.21495540818659958, "step": 2820}, {"loss": 0.2760448455810547, "token_acc": 0.8987269618088543, "grad_norm": 1.4661269187927246, "learning_rate": 9.954304591341412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235357, "epoch": 0.21533653479685952, "step": 2825}, {"loss": 0.21004006862640381, "token_acc": 0.8876543209876543, "grad_norm": 0.8792543411254883, "learning_rate": 9.9541429424623e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235492, "epoch": 0.21571766140711945, "step": 2830}, {"loss": 0.28317430019378664, "token_acc": 0.8931870669745958, "grad_norm": 1.5133110284805298, "learning_rate": 9.953981009486082e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235575, "epoch": 0.21609878801737936, "step": 2835}, {"loss": 0.26878812313079836, "token_acc": 0.915051726650153, "grad_norm": 2.760392665863037, "learning_rate": 9.953818792422041e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235666, "epoch": 0.2164799146276393, "step": 2840}, {"loss": 0.1937252998352051, "token_acc": 0.9190668888359914, "grad_norm": 1.522216796875, "learning_rate": 9.953656291279479e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235762, "epoch": 0.21686104123789923, "step": 2845}, {"loss": 0.2693490743637085, "token_acc": 0.8991386843090751, "grad_norm": 0.9268574118614197, "learning_rate": 9.953493506067719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235786, "epoch": 0.21724216784815917, "step": 2850}, {"loss": 0.13875045776367187, "token_acc": 0.938239159001314, "grad_norm": 0.9280834794044495, "learning_rate": 9.953330436796093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235938, "epoch": 0.21762329445841908, "step": 2855}, {"loss": 0.24726285934448242, "token_acc": 0.889272030651341, "grad_norm": 0.8001015782356262, "learning_rate": 9.953167083473952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236063, "epoch": 0.218004421068679, "step": 2860}, {"loss": 0.27178049087524414, "token_acc": 0.9158696076517665, "grad_norm": 1.183586597442627, "learning_rate": 9.953003446110665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236116, "epoch": 0.21838554767893895, "step": 2865}, {"loss": 0.22229323387145997, "token_acc": 0.8989441930618401, "grad_norm": 0.8943457007408142, "learning_rate": 9.952839524715613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236244, "epoch": 0.21876667428919888, "step": 2870}, {"loss": 0.20779016017913818, "token_acc": 0.9083465999545144, "grad_norm": 1.0590628385543823, "learning_rate": 9.952675319298202e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236364, "epoch": 0.2191478008994588, "step": 2875}, {"loss": 0.1972639560699463, "token_acc": 0.9008097165991903, "grad_norm": 0.7936352491378784, "learning_rate": 9.952510829867842e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23648, "epoch": 0.21952892750971872, "step": 2880}, {"loss": 0.3077178955078125, "token_acc": 0.8817857142857143, "grad_norm": 1.21434485912323, "learning_rate": 9.952346056433968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236566, "epoch": 0.21991005411997866, "step": 2885}, {"loss": 0.31396069526672366, "token_acc": 0.904284919309961, "grad_norm": 1.7283354997634888, "learning_rate": 9.95218099900603e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236629, "epoch": 0.2202911807302386, "step": 2890}, {"loss": 0.24241323471069337, "token_acc": 0.8955707598127476, "grad_norm": 1.0907855033874512, "learning_rate": 9.952015657593494e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236718, "epoch": 0.2206723073404985, "step": 2895}, {"loss": 0.25373985767364504, "token_acc": 0.9000498919008815, "grad_norm": 1.0760691165924072, "learning_rate": 9.951850032205838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236767, "epoch": 0.22105343395075844, "step": 2900}, {"loss": 0.22792911529541016, "token_acc": 0.9071487263763353, "grad_norm": 1.8809890747070312, "learning_rate": 9.951684122852564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236888, "epoch": 0.22143456056101837, "step": 2905}, {"loss": 0.1528017520904541, "token_acc": 0.9208523592085236, "grad_norm": 1.1051658391952515, "learning_rate": 9.951517929543184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237053, "epoch": 0.2218156871712783, "step": 2910}, {"loss": 0.2564688682556152, "token_acc": 0.8857971014492754, "grad_norm": 1.2754848003387451, "learning_rate": 9.951351452287227e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237171, "epoch": 0.22219681378153822, "step": 2915}, {"loss": 0.2512900590896606, "token_acc": 0.9047619047619048, "grad_norm": 1.2825138568878174, "learning_rate": 9.951184691094242e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237251, "epoch": 0.22257794039179815, "step": 2920}, {"loss": 0.16372698545455933, "token_acc": 0.9442231075697212, "grad_norm": 0.869334876537323, "learning_rate": 9.951017645973791e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237403, "epoch": 0.2229590670020581, "step": 2925}, {"loss": 0.23336520195007324, "token_acc": 0.9092443277704857, "grad_norm": 1.1826997995376587, "learning_rate": 9.950850316935454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237488, "epoch": 0.22334019361231802, "step": 2930}, {"loss": 0.21436161994934083, "token_acc": 0.920939147101102, "grad_norm": 1.1250578165054321, "learning_rate": 9.950682703988827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237597, "epoch": 0.22372132022257793, "step": 2935}, {"loss": 0.2755215883255005, "token_acc": 0.8976268031642625, "grad_norm": 0.8603762984275818, "learning_rate": 9.950514807143519e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237701, "epoch": 0.22410244683283786, "step": 2940}, {"loss": 0.24103894233703613, "token_acc": 0.9054545454545454, "grad_norm": 1.2917633056640625, "learning_rate": 9.950346626409161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237774, "epoch": 0.2244835734430978, "step": 2945}, {"loss": 0.16997655630111694, "token_acc": 0.9125567322239032, "grad_norm": 0.2856813371181488, "learning_rate": 9.950178161795398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237899, "epoch": 0.22486470005335774, "step": 2950}, {"loss": 0.3091901302337646, "token_acc": 0.8827639751552795, "grad_norm": 1.7071458101272583, "learning_rate": 9.950009413311887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238016, "epoch": 0.22524582666361764, "step": 2955}, {"loss": 0.3077983379364014, "token_acc": 0.910167686984296, "grad_norm": 0.6557905077934265, "learning_rate": 9.949840380968307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238017, "epoch": 0.22562695327387758, "step": 2960}, {"loss": 0.20038692951202391, "token_acc": 0.9223257878384377, "grad_norm": 0.7364832758903503, "learning_rate": 9.949671064774352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238117, "epoch": 0.2260080798841375, "step": 2965}, {"loss": 0.24209947586059571, "token_acc": 0.9153509353854319, "grad_norm": 0.9470295906066895, "learning_rate": 9.94950146473973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238166, "epoch": 0.22638920649439745, "step": 2970}, {"loss": 0.20953779220581054, "token_acc": 0.9175981284117494, "grad_norm": 1.2002469301223755, "learning_rate": 9.949331580874168e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238284, "epoch": 0.22677033310465736, "step": 2975}, {"loss": 0.22920627593994142, "token_acc": 0.9086670323642347, "grad_norm": 0.8938823342323303, "learning_rate": 9.949161413187407e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238405, "epoch": 0.2271514597149173, "step": 2980}, {"loss": 0.285231876373291, "token_acc": 0.8833192923336142, "grad_norm": 1.5594325065612793, "learning_rate": 9.948990961689206e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238508, "epoch": 0.22753258632517723, "step": 2985}, {"loss": 0.20185692310333253, "token_acc": 0.9234211834908006, "grad_norm": 2.552048921585083, "learning_rate": 9.94882022638934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238596, "epoch": 0.22791371293543716, "step": 2990}, {"loss": 0.23562324047088623, "token_acc": 0.9075667328480035, "grad_norm": 0.729674756526947, "learning_rate": 9.948649207297598e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23871, "epoch": 0.22829483954569707, "step": 2995}, {"loss": 0.28632240295410155, "token_acc": 0.8821952091526636, "grad_norm": 1.557638168334961, "learning_rate": 9.94847790442379e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238797, "epoch": 0.228675966155957, "step": 3000}, {"eval_loss": 0.17560459673404694, "eval_token_acc": 0.9075432202879344, "eval_runtime": 173.4133, "eval_samples_per_second": 3.056, "eval_steps_per_second": 3.056, "epoch": 0.228675966155957, "step": 3000}, {"loss": 0.21831119060516357, "token_acc": 0.9069361671573203, "grad_norm": 1.2724863290786743, "learning_rate": 9.948306317777738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23563, "epoch": 0.22905709276621694, "step": 3005}, {"loss": 0.2699413537979126, "token_acc": 0.9053231192300137, "grad_norm": 2.302628993988037, "learning_rate": 9.948134447369282e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235736, "epoch": 0.22943821937647688, "step": 3010}, {"loss": 0.1842190980911255, "token_acc": 0.9181071737251513, "grad_norm": 0.5406407117843628, "learning_rate": 9.947962293208276e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23583, "epoch": 0.22981934598673678, "step": 3015}, {"loss": 0.28391437530517577, "token_acc": 0.8878093916261856, "grad_norm": 1.6050798892974854, "learning_rate": 9.947789855304594e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235921, "epoch": 0.23020047259699672, "step": 3020}, {"loss": 0.33120408058166506, "token_acc": 0.8814759597465524, "grad_norm": 1.3347240686416626, "learning_rate": 9.947617133668126e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236004, "epoch": 0.23058159920725665, "step": 3025}, {"loss": 0.31291651725769043, "token_acc": 0.8815145713677941, "grad_norm": 2.320920467376709, "learning_rate": 9.947444128308774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236111, "epoch": 0.2309627258175166, "step": 3030}, {"loss": 0.2676500082015991, "token_acc": 0.9064327485380117, "grad_norm": 1.0707837343215942, "learning_rate": 9.94727083923646e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23622, "epoch": 0.2313438524277765, "step": 3035}, {"loss": 0.21562507152557372, "token_acc": 0.9158584770114943, "grad_norm": 0.6968094706535339, "learning_rate": 9.947097266461122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236183, "epoch": 0.23172497903803643, "step": 3040}, {"loss": 0.25662598609924314, "token_acc": 0.9027862829148806, "grad_norm": 1.3075065612792969, "learning_rate": 9.946923409992713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23626, "epoch": 0.23210610564829637, "step": 3045}, {"loss": 0.32373528480529784, "token_acc": 0.8936643835616438, "grad_norm": 1.158544898033142, "learning_rate": 9.946749269841202e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236346, "epoch": 0.2324872322585563, "step": 3050}, {"loss": 0.2111349105834961, "token_acc": 0.9240481357269679, "grad_norm": 0.8692493438720703, "learning_rate": 9.946574846016576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236442, "epoch": 0.2328683588688162, "step": 3055}, {"loss": 0.2535152196884155, "token_acc": 0.910182119205298, "grad_norm": 0.7209978699684143, "learning_rate": 9.946400138528839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236534, "epoch": 0.23324948547907615, "step": 3060}, {"loss": 0.1996615171432495, "token_acc": 0.9344827586206896, "grad_norm": 1.6100413799285889, "learning_rate": 9.946225147388008e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236649, "epoch": 0.23363061208933608, "step": 3065}, {"loss": 0.19076142311096192, "token_acc": 0.9263308603410126, "grad_norm": 0.5853747129440308, "learning_rate": 9.946049872604118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23671, "epoch": 0.23401173869959602, "step": 3070}, {"loss": 0.1573173999786377, "token_acc": 0.9301282051282052, "grad_norm": 1.0467084646224976, "learning_rate": 9.94587431418722e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23678, "epoch": 0.23439286530985592, "step": 3075}, {"loss": 0.22424046993255614, "token_acc": 0.9121919014084507, "grad_norm": 0.873877763748169, "learning_rate": 9.945698472147381e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236876, "epoch": 0.23477399192011586, "step": 3080}, {"loss": 0.2645240783691406, "token_acc": 0.8848433530906011, "grad_norm": 0.9595664739608765, "learning_rate": 9.945522346494687e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236986, "epoch": 0.2351551185303758, "step": 3085}, {"loss": 0.23919687271118165, "token_acc": 0.8791384124451536, "grad_norm": 1.1004600524902344, "learning_rate": 9.945345937239235e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237075, "epoch": 0.23553624514063573, "step": 3090}, {"loss": 0.27618086338043213, "token_acc": 0.9003135830995214, "grad_norm": 1.029441237449646, "learning_rate": 9.945169244391143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237119, "epoch": 0.23591737175089564, "step": 3095}, {"loss": 0.2633334159851074, "token_acc": 0.9025434399395619, "grad_norm": 1.2731555700302124, "learning_rate": 9.944992267960544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237231, "epoch": 0.23629849836115557, "step": 3100}, {"loss": 0.24857263565063475, "token_acc": 0.9057723431037583, "grad_norm": 0.790225625038147, "learning_rate": 9.944815007957586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237307, "epoch": 0.2366796249714155, "step": 3105}, {"loss": 0.2545635461807251, "token_acc": 0.9111872857588034, "grad_norm": 0.7994900345802307, "learning_rate": 9.944637464392432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237402, "epoch": 0.23706075158167544, "step": 3110}, {"loss": 0.22408416271209716, "token_acc": 0.9147859922178988, "grad_norm": 0.7714027762413025, "learning_rate": 9.944459637275267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237497, "epoch": 0.23744187819193535, "step": 3115}, {"loss": 0.19041059017181397, "token_acc": 0.9184692179700499, "grad_norm": 0.4827883839607239, "learning_rate": 9.944281526616288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237577, "epoch": 0.2378230048021953, "step": 3120}, {"loss": 0.1797332763671875, "token_acc": 0.921984472637758, "grad_norm": 1.3856830596923828, "learning_rate": 9.944103132425706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237655, "epoch": 0.23820413141245522, "step": 3125}, {"loss": 0.22646827697753907, "token_acc": 0.907399299474606, "grad_norm": 0.8524709343910217, "learning_rate": 9.943924454713754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237745, "epoch": 0.23858525802271516, "step": 3130}, {"loss": 0.1917391300201416, "token_acc": 0.9235703812316716, "grad_norm": 1.333315372467041, "learning_rate": 9.943745493490675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237837, "epoch": 0.23896638463297507, "step": 3135}, {"loss": 0.2412860155105591, "token_acc": 0.907120318287831, "grad_norm": 0.5328627824783325, "learning_rate": 9.943566248766736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237897, "epoch": 0.239347511243235, "step": 3140}, {"loss": 0.28713202476501465, "token_acc": 0.8859700330803658, "grad_norm": 0.8098029494285583, "learning_rate": 9.943386720552212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237997, "epoch": 0.23972863785349494, "step": 3145}, {"loss": 0.28592920303344727, "token_acc": 0.8952585692105578, "grad_norm": 0.9971261620521545, "learning_rate": 9.9432069088574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238002, "epoch": 0.24010976446375487, "step": 3150}, {"loss": 0.24353208541870117, "token_acc": 0.902889050740471, "grad_norm": 0.6764193773269653, "learning_rate": 9.943026813692613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238097, "epoch": 0.24049089107401478, "step": 3155}, {"loss": 0.1882363438606262, "token_acc": 0.9081547453381575, "grad_norm": 2.8658385276794434, "learning_rate": 9.942846435068174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238204, "epoch": 0.24087201768427471, "step": 3160}, {"loss": 0.250874662399292, "token_acc": 0.8764044943820225, "grad_norm": 0.3709406554698944, "learning_rate": 9.94266577299443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238344, "epoch": 0.24125314429453465, "step": 3165}, {"loss": 0.23544712066650392, "token_acc": 0.8917011438306157, "grad_norm": 0.7960156798362732, "learning_rate": 9.942484827481743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238455, "epoch": 0.24163427090479458, "step": 3170}, {"loss": 0.28400382995605467, "token_acc": 0.9008578027053777, "grad_norm": 0.9147986769676208, "learning_rate": 9.942303598540486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238509, "epoch": 0.2420153975150545, "step": 3175}, {"loss": 0.26421821117401123, "token_acc": 0.8852361028093245, "grad_norm": 1.8006359338760376, "learning_rate": 9.942122086181051e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23865, "epoch": 0.24239652412531443, "step": 3180}, {"loss": 0.2546346664428711, "token_acc": 0.9090909090909091, "grad_norm": 0.9444708824157715, "learning_rate": 9.94194029041385e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238735, "epoch": 0.24277765073557436, "step": 3185}, {"loss": 0.15003867149353028, "token_acc": 0.9171067738231917, "grad_norm": 0.47868970036506653, "learning_rate": 9.941758211249307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238832, "epoch": 0.2431587773458343, "step": 3190}, {"loss": 0.2325118064880371, "token_acc": 0.9111183994752378, "grad_norm": 0.9796867370605469, "learning_rate": 9.941575848697861e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238948, "epoch": 0.2435399039560942, "step": 3195}, {"loss": 0.22563722133636474, "token_acc": 0.9069649211997967, "grad_norm": 0.6418392658233643, "learning_rate": 9.941393202769975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23902, "epoch": 0.24392103056635414, "step": 3200}, {"eval_loss": 0.17317873239517212, "eval_token_acc": 0.9117221854105174, "eval_runtime": 184.3518, "eval_samples_per_second": 2.875, "eval_steps_per_second": 2.875, "epoch": 0.24392103056635414, "step": 3200}, {"loss": 0.3449040651321411, "token_acc": 0.9105958094516747, "grad_norm": 1.0575624704360962, "learning_rate": 9.941210273476119e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235864, "epoch": 0.24430215717661408, "step": 3205}, {"loss": 0.22462077140808107, "token_acc": 0.9096739711384286, "grad_norm": 0.9067206382751465, "learning_rate": 9.941027060826782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235948, "epoch": 0.244683283786874, "step": 3210}, {"loss": 0.27300095558166504, "token_acc": 0.8946373091989734, "grad_norm": 0.9184339642524719, "learning_rate": 9.940843564832474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236002, "epoch": 0.24506441039713392, "step": 3215}, {"loss": 0.2927708148956299, "token_acc": 0.8986756621689156, "grad_norm": 2.172671318054199, "learning_rate": 9.940659785503714e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236034, "epoch": 0.24544553700739385, "step": 3220}, {"loss": 0.25940144062042236, "token_acc": 0.9004392386530015, "grad_norm": 1.213593602180481, "learning_rate": 9.940475722851043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236127, "epoch": 0.2458266636176538, "step": 3225}, {"loss": 0.21597435474395751, "token_acc": 0.9092138884713663, "grad_norm": 0.9681768417358398, "learning_rate": 9.940291376885019e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2362, "epoch": 0.24620779022791373, "step": 3230}, {"loss": 0.19244909286499023, "token_acc": 0.9123775601068567, "grad_norm": 1.9438751935958862, "learning_rate": 9.940106747616207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236292, "epoch": 0.24658891683817363, "step": 3235}, {"loss": 0.24726567268371583, "token_acc": 0.9115367077063383, "grad_norm": 2.376807928085327, "learning_rate": 9.9399218350552e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236426, "epoch": 0.24697004344843357, "step": 3240}, {"loss": 0.23982903957366944, "token_acc": 0.9087575179697814, "grad_norm": 1.0981007814407349, "learning_rate": 9.939736639212597e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236494, "epoch": 0.2473511700586935, "step": 3245}, {"loss": 0.20327491760253907, "token_acc": 0.9225153476024556, "grad_norm": 1.2942782640457153, "learning_rate": 9.939551160099023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23657, "epoch": 0.24773229666895344, "step": 3250}, {"loss": 0.2752419710159302, "token_acc": 0.9080308444611623, "grad_norm": 0.9806642532348633, "learning_rate": 9.939365397725114e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236646, "epoch": 0.24811342327921335, "step": 3255}, {"loss": 0.33398849964141847, "token_acc": 0.885455590686979, "grad_norm": 0.7788330316543579, "learning_rate": 9.939179352101517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236713, "epoch": 0.24849454988947328, "step": 3260}, {"loss": 0.24198424816131592, "token_acc": 0.9095539435098009, "grad_norm": 0.5816663503646851, "learning_rate": 9.938993023238908e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236797, "epoch": 0.24887567649973322, "step": 3265}, {"loss": 0.3066340446472168, "token_acc": 0.8832648487112439, "grad_norm": 1.1989275217056274, "learning_rate": 9.938806411147968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23686, "epoch": 0.24925680310999315, "step": 3270}, {"loss": 0.2677659749984741, "token_acc": 0.8883374689826302, "grad_norm": 1.0874223709106445, "learning_rate": 9.938619515839398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236928, "epoch": 0.24963792972025306, "step": 3275}, {"loss": 0.1826395273208618, "token_acc": 0.9138014527845036, "grad_norm": 0.8574619293212891, "learning_rate": 9.938432337323917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237014, "epoch": 0.250019056330513, "step": 3280}, {"loss": 0.2682335376739502, "token_acc": 0.9012509981368113, "grad_norm": 0.7394911646842957, "learning_rate": 9.93824487561226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237124, "epoch": 0.25040018294077293, "step": 3285}, {"loss": 0.1726750135421753, "token_acc": 0.9339160839160839, "grad_norm": 0.939775288105011, "learning_rate": 9.938057130715172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23724, "epoch": 0.25078130955103284, "step": 3290}, {"loss": 0.19674288034439086, "token_acc": 0.9157088122605364, "grad_norm": 0.9436139464378357, "learning_rate": 9.937869102643427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237346, "epoch": 0.2511624361612928, "step": 3295}, {"loss": 0.2688908576965332, "token_acc": 0.8824618232299861, "grad_norm": 0.8856566548347473, "learning_rate": 9.937680791407802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237478, "epoch": 0.2515435627715527, "step": 3300}, {"loss": 0.23878166675567628, "token_acc": 0.908303520994163, "grad_norm": 0.8745558261871338, "learning_rate": 9.937492197019098e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237573, "epoch": 0.2519246893818126, "step": 3305}, {"loss": 0.18626414537429808, "token_acc": 0.9165925266903915, "grad_norm": 1.1011661291122437, "learning_rate": 9.937303319488128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237671, "epoch": 0.2523058159920726, "step": 3310}, {"loss": 0.2733391046524048, "token_acc": 0.9027979945010512, "grad_norm": 0.6140720844268799, "learning_rate": 9.937114158825724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237743, "epoch": 0.2526869426023325, "step": 3315}, {"loss": 0.24545023441314698, "token_acc": 0.909877800407332, "grad_norm": 0.9019266366958618, "learning_rate": 9.936924715042735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237777, "epoch": 0.25306806921259245, "step": 3320}, {"loss": 0.19869577884674072, "token_acc": 0.9315490288962577, "grad_norm": 0.6621191501617432, "learning_rate": 9.936734988150025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237863, "epoch": 0.25344919582285236, "step": 3325}, {"loss": 0.19741605520248412, "token_acc": 0.9223942208462332, "grad_norm": 0.8921169638633728, "learning_rate": 9.936544978158471e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237938, "epoch": 0.25383032243311227, "step": 3330}, {"loss": 0.26518831253051756, "token_acc": 0.8884177047442353, "grad_norm": 1.2893176078796387, "learning_rate": 9.936354685078971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238038, "epoch": 0.25421144904337223, "step": 3335}, {"loss": 0.34899344444274905, "token_acc": 0.8854574786817239, "grad_norm": 0.9657509326934814, "learning_rate": 9.936164108922439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238124, "epoch": 0.25459257565363214, "step": 3340}, {"loss": 0.2303415298461914, "token_acc": 0.9177974947807933, "grad_norm": 1.2672642469406128, "learning_rate": 9.935973249699799e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238219, "epoch": 0.25497370226389204, "step": 3345}, {"loss": 0.18209826946258545, "token_acc": 0.9254746387078493, "grad_norm": 0.9719008803367615, "learning_rate": 9.935782107422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238317, "epoch": 0.255354828874152, "step": 3350}, {"loss": 0.1636431932449341, "token_acc": 0.9257690182354025, "grad_norm": 1.4309730529785156, "learning_rate": 9.935590682100003e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238402, "epoch": 0.2557359554844119, "step": 3355}, {"loss": 0.2573086261749268, "token_acc": 0.9025433800808177, "grad_norm": 1.1790541410446167, "learning_rate": 9.935398973744785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238499, "epoch": 0.2561170820946719, "step": 3360}, {"loss": 0.2728036165237427, "token_acc": 0.8803030303030303, "grad_norm": 3.0535683631896973, "learning_rate": 9.935206982367338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238621, "epoch": 0.2564982087049318, "step": 3365}, {"loss": 0.21414058208465575, "token_acc": 0.9285714285714286, "grad_norm": 1.0349944829940796, "learning_rate": 9.935014707978672e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238728, "epoch": 0.2568793353151917, "step": 3370}, {"loss": 0.23120806217193604, "token_acc": 0.9028726287262873, "grad_norm": 0.7342001795768738, "learning_rate": 9.934822150589814e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238766, "epoch": 0.25726046192545166, "step": 3375}, {"loss": 0.250041127204895, "token_acc": 0.9158024257338724, "grad_norm": 1.517551064491272, "learning_rate": 9.934629310211805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238852, "epoch": 0.25764158853571156, "step": 3380}, {"loss": 0.2873279094696045, "token_acc": 0.8852150537634409, "grad_norm": 1.1558641195297241, "learning_rate": 9.934436186855707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238946, "epoch": 0.25802271514597147, "step": 3385}, {"loss": 0.2011775016784668, "token_acc": 0.9093851132686084, "grad_norm": 1.0578992366790771, "learning_rate": 9.93424278053259e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238994, "epoch": 0.25840384175623143, "step": 3390}, {"loss": 0.24157338142395018, "token_acc": 0.9071748878923767, "grad_norm": 1.4725910425186157, "learning_rate": 9.934049091253548e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239063, "epoch": 0.25878496836649134, "step": 3395}, {"loss": 0.26102404594421386, "token_acc": 0.9064890204786578, "grad_norm": 2.4549434185028076, "learning_rate": 9.933855119029689e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239152, "epoch": 0.2591660949767513, "step": 3400}, {"eval_loss": 0.16867278516292572, "eval_token_acc": 0.9134615384615384, "eval_runtime": 174.9074, "eval_samples_per_second": 3.03, "eval_steps_per_second": 3.03, "epoch": 0.2591660949767513, "step": 3400}, {"loss": 0.23485116958618163, "token_acc": 0.9128931023686261, "grad_norm": 1.1177119016647339, "learning_rate": 9.933660863872132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236354, "epoch": 0.2595472215870112, "step": 3405}, {"loss": 0.20799870491027833, "token_acc": 0.9240226986128626, "grad_norm": 1.0032718181610107, "learning_rate": 9.933466325792022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236414, "epoch": 0.2599283481972711, "step": 3410}, {"loss": 0.2600240230560303, "token_acc": 0.9068931721659589, "grad_norm": 1.2010462284088135, "learning_rate": 9.93327150480051e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23648, "epoch": 0.2603094748075311, "step": 3415}, {"loss": 0.1761531114578247, "token_acc": 0.9365230651925276, "grad_norm": 0.5950063467025757, "learning_rate": 9.933076400908772e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236548, "epoch": 0.260690601417791, "step": 3420}, {"loss": 0.21790056228637694, "token_acc": 0.9130969460955114, "grad_norm": 0.9771429300308228, "learning_rate": 9.932881014127994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236617, "epoch": 0.2610717280280509, "step": 3425}, {"loss": 0.2700880289077759, "token_acc": 0.8914512338425382, "grad_norm": 1.1972030401229858, "learning_rate": 9.932685344469381e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236685, "epoch": 0.26145285463831086, "step": 3430}, {"loss": 0.19975472688674928, "token_acc": 0.8982843137254902, "grad_norm": 1.2683387994766235, "learning_rate": 9.932489391944155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236784, "epoch": 0.26183398124857077, "step": 3435}, {"loss": 0.19390435218811036, "token_acc": 0.9198506176386096, "grad_norm": 1.400316834449768, "learning_rate": 9.93229315656355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236883, "epoch": 0.2622151078588307, "step": 3440}, {"loss": 0.2701341390609741, "token_acc": 0.8865601257532093, "grad_norm": 1.341288685798645, "learning_rate": 9.932096638338823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236984, "epoch": 0.26259623446909064, "step": 3445}, {"loss": 0.21112780570983886, "token_acc": 0.9133243606998654, "grad_norm": 0.8914660215377808, "learning_rate": 9.931899837281241e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237023, "epoch": 0.26297736107935055, "step": 3450}, {"loss": 0.24273712635040284, "token_acc": 0.9034447300771208, "grad_norm": 1.003970742225647, "learning_rate": 9.93170275340209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237041, "epoch": 0.2633584876896105, "step": 3455}, {"loss": 0.1922098159790039, "token_acc": 0.9400851063829787, "grad_norm": 0.6195768117904663, "learning_rate": 9.931505386712672e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23713, "epoch": 0.2637396142998704, "step": 3460}, {"loss": 0.255895733833313, "token_acc": 0.9087471641038568, "grad_norm": 1.3243917226791382, "learning_rate": 9.931307737224304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237229, "epoch": 0.2641207409101303, "step": 3465}, {"loss": 0.20632717609405518, "token_acc": 0.9187958011487424, "grad_norm": 2.165931463241577, "learning_rate": 9.931109804948323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237309, "epoch": 0.2645018675203903, "step": 3470}, {"loss": 0.16089391708374023, "token_acc": 0.9304748547385293, "grad_norm": 0.7715216279029846, "learning_rate": 9.930911589896076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237385, "epoch": 0.2648829941306502, "step": 3475}, {"loss": 0.24356555938720703, "token_acc": 0.8989237248479176, "grad_norm": 0.7170222997665405, "learning_rate": 9.930713092078934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237508, "epoch": 0.2652641207409101, "step": 3480}, {"loss": 0.20824167728424073, "token_acc": 0.8899310344827587, "grad_norm": 0.5387678146362305, "learning_rate": 9.930514311508277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237612, "epoch": 0.26564524735117007, "step": 3485}, {"loss": 0.18840088844299316, "token_acc": 0.9052688560086611, "grad_norm": 1.108339548110962, "learning_rate": 9.930315248195504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237673, "epoch": 0.26602637396143, "step": 3490}, {"loss": 0.1913951277732849, "token_acc": 0.9241052177662785, "grad_norm": 0.7743140459060669, "learning_rate": 9.930115902152031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237783, "epoch": 0.26640750057168994, "step": 3495}, {"loss": 0.23452506065368653, "token_acc": 0.9047390329811079, "grad_norm": 0.9980422258377075, "learning_rate": 9.929916273389288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237842, "epoch": 0.26678862718194984, "step": 3500}, {"loss": 0.2480475425720215, "token_acc": 0.9011361709343734, "grad_norm": 0.8973496556282043, "learning_rate": 9.929716361918726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2379, "epoch": 0.26716975379220975, "step": 3505}, {"loss": 0.23145952224731445, "token_acc": 0.9164243267163991, "grad_norm": 0.6842448711395264, "learning_rate": 9.929516167751807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237966, "epoch": 0.2675508804024697, "step": 3510}, {"loss": 0.19792087078094484, "token_acc": 0.9211363154547382, "grad_norm": 0.7292288541793823, "learning_rate": 9.929315690900012e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237966, "epoch": 0.2679320070127296, "step": 3515}, {"loss": 0.1762663722038269, "token_acc": 0.9299137399876771, "grad_norm": 0.7580230832099915, "learning_rate": 9.929114931374837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238022, "epoch": 0.26831313362298953, "step": 3520}, {"loss": 0.24382281303405762, "token_acc": 0.9020307966971658, "grad_norm": 1.1261988878250122, "learning_rate": 9.928913889187793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238088, "epoch": 0.2686942602332495, "step": 3525}, {"loss": 0.2871715545654297, "token_acc": 0.9099351085253972, "grad_norm": 1.465376853942871, "learning_rate": 9.928712564350412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238108, "epoch": 0.2690753868435094, "step": 3530}, {"loss": 0.18003413677215577, "token_acc": 0.9056809905316825, "grad_norm": 0.7649602293968201, "learning_rate": 9.928510956874238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238216, "epoch": 0.26945651345376936, "step": 3535}, {"loss": 0.21303415298461914, "token_acc": 0.9257958801498127, "grad_norm": 1.277117371559143, "learning_rate": 9.928309066770829e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238272, "epoch": 0.26983764006402927, "step": 3540}, {"loss": 0.23207998275756836, "token_acc": 0.916243654822335, "grad_norm": 0.9539743661880493, "learning_rate": 9.928106894051767e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238356, "epoch": 0.2702187666742892, "step": 3545}, {"loss": 0.15991783142089844, "token_acc": 0.9404517453798767, "grad_norm": 2.1878561973571777, "learning_rate": 9.927904438728643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238444, "epoch": 0.27059989328454914, "step": 3550}, {"loss": 0.21476442813873292, "token_acc": 0.9276504297994269, "grad_norm": 0.7157286405563354, "learning_rate": 9.92770170081307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238521, "epoch": 0.27098101989480905, "step": 3555}, {"loss": 0.23420584201812744, "token_acc": 0.9083296606434552, "grad_norm": 0.6534081697463989, "learning_rate": 9.927498680316669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238588, "epoch": 0.27136214650506896, "step": 3560}, {"loss": 0.25551881790161135, "token_acc": 0.8934195725534309, "grad_norm": 1.2813585996627808, "learning_rate": 9.927295377251087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238674, "epoch": 0.2717432731153289, "step": 3565}, {"loss": 0.21334559917449952, "token_acc": 0.933417614833544, "grad_norm": 2.6385676860809326, "learning_rate": 9.927091791627979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238739, "epoch": 0.27212439972558883, "step": 3570}, {"loss": 0.2088496208190918, "token_acc": 0.9285811825754472, "grad_norm": 1.2019128799438477, "learning_rate": 9.926887923459023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23876, "epoch": 0.2725055263358488, "step": 3575}, {"loss": 0.27340919971466066, "token_acc": 0.8933244621867377, "grad_norm": 0.41644740104675293, "learning_rate": 9.926683772755907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23885, "epoch": 0.2728866529461087, "step": 3580}, {"loss": 0.19977269172668458, "token_acc": 0.9330977620730271, "grad_norm": 1.343954086303711, "learning_rate": 9.926479339530338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238946, "epoch": 0.2732677795563686, "step": 3585}, {"loss": 0.2534071445465088, "token_acc": 0.9095354523227384, "grad_norm": 1.3609980344772339, "learning_rate": 9.926274623794043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239034, "epoch": 0.27364890616662857, "step": 3590}, {"loss": 0.23006744384765626, "token_acc": 0.9043081199126464, "grad_norm": 0.633151113986969, "learning_rate": 9.926069625558758e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239118, "epoch": 0.2740300327768885, "step": 3595}, {"loss": 0.21232750415802001, "token_acc": 0.9212889593238246, "grad_norm": 1.6816885471343994, "learning_rate": 9.92586434483624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239199, "epoch": 0.2744111593871484, "step": 3600}, {"eval_loss": 0.1650475561618805, "eval_token_acc": 0.9163604602132401, "eval_runtime": 180.7892, "eval_samples_per_second": 2.932, "eval_steps_per_second": 2.932, "epoch": 0.2744111593871484, "step": 3600}, {"loss": 0.319395112991333, "token_acc": 0.915130125980439, "grad_norm": 1.3818657398223877, "learning_rate": 9.925658781638259e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236451, "epoch": 0.27479228599740835, "step": 3605}, {"loss": 0.1826668381690979, "token_acc": 0.9064607352621274, "grad_norm": 4.460085391998291, "learning_rate": 9.925452935976607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236538, "epoch": 0.27517341260766826, "step": 3610}, {"loss": 0.180306339263916, "token_acc": 0.9257668711656442, "grad_norm": 1.6251816749572754, "learning_rate": 9.925246807863085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236649, "epoch": 0.2755545392179282, "step": 3615}, {"loss": 0.2512223243713379, "token_acc": 0.9098647210822314, "grad_norm": 0.5841586589813232, "learning_rate": 9.925040397309514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236724, "epoch": 0.2759356658281881, "step": 3620}, {"loss": 0.2753078699111938, "token_acc": 0.890748740100792, "grad_norm": 1.2649734020233154, "learning_rate": 9.924833704327732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236797, "epoch": 0.27631679243844803, "step": 3625}, {"loss": 0.23215384483337403, "token_acc": 0.9213973799126638, "grad_norm": 1.1432018280029297, "learning_rate": 9.924626728929591e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236859, "epoch": 0.276697919048708, "step": 3630}, {"loss": 0.16317994594573976, "token_acc": 0.9264406151565685, "grad_norm": 0.7991051077842712, "learning_rate": 9.92441947112696e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236926, "epoch": 0.2770790456589679, "step": 3635}, {"loss": 0.1973349094390869, "token_acc": 0.8882870683818551, "grad_norm": 1.2029961347579956, "learning_rate": 9.924211930931724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237036, "epoch": 0.2774601722692278, "step": 3640}, {"loss": 0.14963338375091553, "token_acc": 0.9291154071470415, "grad_norm": 1.158065915107727, "learning_rate": 9.924004108355785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237168, "epoch": 0.2778412988794878, "step": 3645}, {"loss": 0.1647646427154541, "token_acc": 0.9395120298203998, "grad_norm": 1.0671676397323608, "learning_rate": 9.923796003411061e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237236, "epoch": 0.2782224254897477, "step": 3650}, {"loss": 0.26507527828216554, "token_acc": 0.8826979472140762, "grad_norm": 0.6510996222496033, "learning_rate": 9.923587616109486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23735, "epoch": 0.27860355210000765, "step": 3655}, {"loss": 0.2802137851715088, "token_acc": 0.9048991354466859, "grad_norm": 1.2515778541564941, "learning_rate": 9.923378946463009e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237417, "epoch": 0.27898467871026755, "step": 3660}, {"loss": 0.2557238578796387, "token_acc": 0.8941034897713598, "grad_norm": 1.608299732208252, "learning_rate": 9.923169994483596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237527, "epoch": 0.27936580532052746, "step": 3665}, {"loss": 0.24433546066284179, "token_acc": 0.9148444718201417, "grad_norm": 0.6452434659004211, "learning_rate": 9.922960760183231e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23758, "epoch": 0.2797469319307874, "step": 3670}, {"loss": 0.2526653528213501, "token_acc": 0.8977532368621478, "grad_norm": 0.6923612952232361, "learning_rate": 9.922751243573911e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23766, "epoch": 0.28012805854104733, "step": 3675}, {"loss": 0.17130155563354493, "token_acc": 0.918280485209619, "grad_norm": 1.4394978284835815, "learning_rate": 9.922541444667651e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237755, "epoch": 0.28050918515130724, "step": 3680}, {"loss": 0.21357426643371583, "token_acc": 0.9027603513174404, "grad_norm": 1.5354546308517456, "learning_rate": 9.922331363476484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237835, "epoch": 0.2808903117615672, "step": 3685}, {"loss": 0.25745654106140137, "token_acc": 0.9044991511035654, "grad_norm": 1.8061509132385254, "learning_rate": 9.922121000012454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237891, "epoch": 0.2812714383718271, "step": 3690}, {"loss": 0.22261836528778076, "token_acc": 0.918961335425881, "grad_norm": 0.9210394024848938, "learning_rate": 9.921910354287629e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237927, "epoch": 0.2816525649820871, "step": 3695}, {"loss": 0.19088282585144042, "token_acc": 0.9281833215213796, "grad_norm": 0.6888054013252258, "learning_rate": 9.921699426314083e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238, "epoch": 0.282033691592347, "step": 3700}, {"loss": 0.19038491249084472, "token_acc": 0.9301692865779927, "grad_norm": 1.356488585472107, "learning_rate": 9.921488216103915e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238094, "epoch": 0.2824148182026069, "step": 3705}, {"loss": 0.2070256233215332, "token_acc": 0.9185203094777563, "grad_norm": 1.6840875148773193, "learning_rate": 9.921276723669236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238199, "epoch": 0.28279594481286685, "step": 3710}, {"loss": 0.2563567399978638, "token_acc": 0.907211961301671, "grad_norm": 0.9993820190429688, "learning_rate": 9.921064949022176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238284, "epoch": 0.28317707142312676, "step": 3715}, {"loss": 0.2962583065032959, "token_acc": 0.8812075741336192, "grad_norm": 0.8365705609321594, "learning_rate": 9.920852892174876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238354, "epoch": 0.28355819803338667, "step": 3720}, {"loss": 0.19074175357818604, "token_acc": 0.9218841086627025, "grad_norm": 0.8835217356681824, "learning_rate": 9.920640553139498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238338, "epoch": 0.28393932464364663, "step": 3725}, {"loss": 0.14768129587173462, "token_acc": 0.9305974652987327, "grad_norm": 0.5738128423690796, "learning_rate": 9.92042793192822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238448, "epoch": 0.28432045125390654, "step": 3730}, {"loss": 0.26588714122772217, "token_acc": 0.8905180840664711, "grad_norm": 0.8134034872055054, "learning_rate": 9.920215028553233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238537, "epoch": 0.2847015778641665, "step": 3735}, {"loss": 0.2341309070587158, "token_acc": 0.9027423469387755, "grad_norm": 0.9359223246574402, "learning_rate": 9.920001843026747e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238636, "epoch": 0.2850827044744264, "step": 3740}, {"loss": 0.23413732051849365, "token_acc": 0.9065331425846447, "grad_norm": 0.6174564361572266, "learning_rate": 9.919788375360988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238707, "epoch": 0.2854638310846863, "step": 3745}, {"loss": 0.23686749935150148, "token_acc": 0.9133136554295479, "grad_norm": 0.9077537655830383, "learning_rate": 9.919574625568194e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238737, "epoch": 0.2858449576949463, "step": 3750}, {"loss": 0.16650717258453368, "token_acc": 0.9236000906823849, "grad_norm": 0.7610635757446289, "learning_rate": 9.919360593660625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23881, "epoch": 0.2862260843052062, "step": 3755}, {"loss": 0.2183854341506958, "token_acc": 0.8936312849162011, "grad_norm": 0.5986360311508179, "learning_rate": 9.919146279650557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238913, "epoch": 0.2866072109154661, "step": 3760}, {"loss": 0.2984266996383667, "token_acc": 0.8878923766816144, "grad_norm": 1.6000279188156128, "learning_rate": 9.918931683550275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238999, "epoch": 0.28698833752572606, "step": 3765}, {"loss": 0.26599960327148436, "token_acc": 0.9116186693147964, "grad_norm": 0.5970331430435181, "learning_rate": 9.91871680537209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239061, "epoch": 0.28736946413598596, "step": 3770}, {"loss": 0.22742514610290526, "token_acc": 0.9037956970439042, "grad_norm": 0.8425403833389282, "learning_rate": 9.91850164512832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239136, "epoch": 0.2877505907462459, "step": 3775}, {"loss": 0.23566601276397706, "token_acc": 0.9046314058646204, "grad_norm": 1.4226981401443481, "learning_rate": 9.918286202831306e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239223, "epoch": 0.28813171735650583, "step": 3780}, {"loss": 0.20050652027130128, "token_acc": 0.9032388663967611, "grad_norm": 1.1607344150543213, "learning_rate": 9.918070478493401e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239334, "epoch": 0.28851284396676574, "step": 3785}, {"loss": 0.2734500885009766, "token_acc": 0.8924634014097235, "grad_norm": 0.902807891368866, "learning_rate": 9.917854472126978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23941, "epoch": 0.2888939705770257, "step": 3790}, {"loss": 0.26230859756469727, "token_acc": 0.89185667752443, "grad_norm": 1.7995579242706299, "learning_rate": 9.917638183744422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239481, "epoch": 0.2892750971872856, "step": 3795}, {"loss": 0.2629070520401001, "token_acc": 0.904055390702275, "grad_norm": 0.9189042448997498, "learning_rate": 9.917421613358135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239589, "epoch": 0.2896562237975455, "step": 3800}, {"eval_loss": 0.1631811261177063, "eval_token_acc": 0.9171360159026565, "eval_runtime": 175.635, "eval_samples_per_second": 3.018, "eval_steps_per_second": 3.018, "epoch": 0.2896562237975455, "step": 3800}, {"loss": 0.18599164485931396, "token_acc": 0.9177390644605912, "grad_norm": 0.9109868407249451, "learning_rate": 9.917204760980541e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237048, "epoch": 0.2900373504078055, "step": 3805}, {"loss": 0.17642409801483155, "token_acc": 0.9292261777872521, "grad_norm": 1.229832649230957, "learning_rate": 9.916987626624072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237141, "epoch": 0.2904184770180654, "step": 3810}, {"loss": 0.13773136138916015, "token_acc": 0.9271480608527962, "grad_norm": 0.8242142200469971, "learning_rate": 9.916770210301178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237237, "epoch": 0.29079960362832535, "step": 3815}, {"loss": 0.23176062107086182, "token_acc": 0.9193378480060196, "grad_norm": 1.1672394275665283, "learning_rate": 9.916552512024331e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23727, "epoch": 0.29118073023858526, "step": 3820}, {"loss": 0.23980484008789063, "token_acc": 0.9237995824634656, "grad_norm": 0.7400051951408386, "learning_rate": 9.916334531806013e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23735, "epoch": 0.29156185684884517, "step": 3825}, {"loss": 0.2162524700164795, "token_acc": 0.9218097957390732, "grad_norm": 0.9316531419754028, "learning_rate": 9.916116269658724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237436, "epoch": 0.29194298345910513, "step": 3830}, {"loss": 0.22804114818572999, "token_acc": 0.9287211740041929, "grad_norm": 1.165887713432312, "learning_rate": 9.91589772559498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23751, "epoch": 0.29232411006936504, "step": 3835}, {"loss": 0.1847672462463379, "token_acc": 0.9242572641201436, "grad_norm": 1.6244484186172485, "learning_rate": 9.915678899627315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237599, "epoch": 0.29270523667962495, "step": 3840}, {"loss": 0.18626983165740968, "token_acc": 0.9316979316979317, "grad_norm": 1.3747047185897827, "learning_rate": 9.915459791768275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237659, "epoch": 0.2930863632898849, "step": 3845}, {"loss": 0.20370087623596192, "token_acc": 0.9231667445119103, "grad_norm": 0.8788254857063293, "learning_rate": 9.915240402030429e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237747, "epoch": 0.2934674899001448, "step": 3850}, {"loss": 0.22718002796173095, "token_acc": 0.9056115107913669, "grad_norm": 1.5376348495483398, "learning_rate": 9.915020730426354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237847, "epoch": 0.2938486165104048, "step": 3855}, {"loss": 0.1832464814186096, "token_acc": 0.9295921924015337, "grad_norm": 1.2390118837356567, "learning_rate": 9.914800776968649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237947, "epoch": 0.2942297431206647, "step": 3860}, {"loss": 0.24632763862609863, "token_acc": 0.9128651973347002, "grad_norm": 1.525604009628296, "learning_rate": 9.914580541669926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238002, "epoch": 0.2946108697309246, "step": 3865}, {"loss": 0.24633004665374755, "token_acc": 0.9100570753788624, "grad_norm": 0.7186420559883118, "learning_rate": 9.914360024542816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238064, "epoch": 0.29499199634118456, "step": 3870}, {"loss": 0.2644335746765137, "token_acc": 0.9050632911392406, "grad_norm": 1.4764314889907837, "learning_rate": 9.914139225599963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238137, "epoch": 0.29537312295144447, "step": 3875}, {"loss": 0.21223621368408202, "token_acc": 0.912027199320017, "grad_norm": 0.9560542106628418, "learning_rate": 9.91391814485403e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238195, "epoch": 0.2957542495617044, "step": 3880}, {"loss": 0.24758048057556153, "token_acc": 0.9194982534137821, "grad_norm": 1.5893220901489258, "learning_rate": 9.913696782317697e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23823, "epoch": 0.29613537617196434, "step": 3885}, {"loss": 0.2554394960403442, "token_acc": 0.8995180722891566, "grad_norm": 0.7844113111495972, "learning_rate": 9.913475138003654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238256, "epoch": 0.29651650278222424, "step": 3890}, {"loss": 0.1777181386947632, "token_acc": 0.9320575842696629, "grad_norm": 0.8095011115074158, "learning_rate": 9.913253211924614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238309, "epoch": 0.2968976293924842, "step": 3895}, {"loss": 0.1919344663619995, "token_acc": 0.9157159884215903, "grad_norm": 1.1218451261520386, "learning_rate": 9.913031004093301e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238375, "epoch": 0.2972787560027441, "step": 3900}, {"loss": 0.16441253423690796, "token_acc": 0.9219895287958115, "grad_norm": 0.9153861999511719, "learning_rate": 9.91280851452246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238489, "epoch": 0.297659882613004, "step": 3905}, {"loss": 0.18797452449798585, "token_acc": 0.9125, "grad_norm": 0.7768386006355286, "learning_rate": 9.912585743224849e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23857, "epoch": 0.298041009223264, "step": 3910}, {"loss": 0.14880895614624023, "token_acc": 0.9400981151562097, "grad_norm": 1.6011404991149902, "learning_rate": 9.912362690213244e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238646, "epoch": 0.2984221358335239, "step": 3915}, {"loss": 0.1459873676300049, "token_acc": 0.930111038536904, "grad_norm": 0.5681048035621643, "learning_rate": 9.912139355500434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23875, "epoch": 0.2988032624437838, "step": 3920}, {"loss": 0.15983959436416625, "token_acc": 0.9332734217029881, "grad_norm": 0.9166677594184875, "learning_rate": 9.911915739099227e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238843, "epoch": 0.29918438905404376, "step": 3925}, {"loss": 0.35452492237091066, "token_acc": 0.8596247394023627, "grad_norm": 1.5516111850738525, "learning_rate": 9.911691841022446e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238911, "epoch": 0.29956551566430367, "step": 3930}, {"loss": 0.2383397102355957, "token_acc": 0.9054325955734407, "grad_norm": 0.9620996117591858, "learning_rate": 9.911467661282931e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238962, "epoch": 0.29994664227456364, "step": 3935}, {"loss": 0.2852769374847412, "token_acc": 0.8894382022471911, "grad_norm": 1.067201852798462, "learning_rate": 9.911243199893537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239044, "epoch": 0.30032776888482354, "step": 3940}, {"loss": 0.23722679615020753, "token_acc": 0.9112492933860938, "grad_norm": 1.2879979610443115, "learning_rate": 9.911018456867139e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239112, "epoch": 0.30070889549508345, "step": 3945}, {"loss": 0.1851056694984436, "token_acc": 0.9236754353464246, "grad_norm": 0.7311355471611023, "learning_rate": 9.910793432216618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239212, "epoch": 0.3010900221053434, "step": 3950}, {"loss": 0.22263648509979247, "token_acc": 0.9063520871143376, "grad_norm": 0.6522814631462097, "learning_rate": 9.910568125954886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239259, "epoch": 0.3014711487156033, "step": 3955}, {"loss": 0.17572932243347167, "token_acc": 0.9254674077817079, "grad_norm": 0.8051279783248901, "learning_rate": 9.91034253809486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239332, "epoch": 0.30185227532586323, "step": 3960}, {"loss": 0.21699295043945313, "token_acc": 0.9038563127311147, "grad_norm": 1.3910726308822632, "learning_rate": 9.910116668649474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239397, "epoch": 0.3022334019361232, "step": 3965}, {"loss": 0.2199930429458618, "token_acc": 0.9206431535269709, "grad_norm": 1.4917962551116943, "learning_rate": 9.909890517631684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239477, "epoch": 0.3026145285463831, "step": 3970}, {"loss": 0.20893681049346924, "token_acc": 0.9345747357825868, "grad_norm": 1.0026804208755493, "learning_rate": 9.909664085054458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23954, "epoch": 0.30299565515664306, "step": 3975}, {"loss": 0.22319746017456055, "token_acc": 0.9361233480176211, "grad_norm": 1.9620113372802734, "learning_rate": 9.90943737093078e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239639, "epoch": 0.30337678176690297, "step": 3980}, {"loss": 0.21058027744293212, "token_acc": 0.8931222167243938, "grad_norm": 0.5851895213127136, "learning_rate": 9.909210375273651e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239749, "epoch": 0.3037579083771629, "step": 3985}, {"loss": 0.1244768500328064, "token_acc": 0.9324258629071464, "grad_norm": 1.386438012123108, "learning_rate": 9.90898309809609e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23985, "epoch": 0.30413903498742284, "step": 3990}, {"loss": 0.2152198076248169, "token_acc": 0.9132169576059851, "grad_norm": 1.069390892982483, "learning_rate": 9.908755539411127e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239957, "epoch": 0.30452016159768275, "step": 3995}, {"loss": 0.19948571920394897, "token_acc": 0.9277817832251862, "grad_norm": 0.887519121170044, "learning_rate": 9.908527699231814e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239981, "epoch": 0.30490128820794266, "step": 4000}, {"eval_loss": 0.16043721139431, "eval_token_acc": 0.9189356062887778, "eval_runtime": 182.6084, "eval_samples_per_second": 2.902, "eval_steps_per_second": 2.902, "epoch": 0.30490128820794266, "step": 4000}, {"loss": 0.23665983676910402, "token_acc": 0.9190054856264991, "grad_norm": 1.6303051710128784, "learning_rate": 9.908299577571214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237416, "epoch": 0.3052824148182026, "step": 4005}, {"loss": 0.10649605989456176, "token_acc": 0.9595216191352346, "grad_norm": 1.4951375722885132, "learning_rate": 9.908071174442412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237524, "epoch": 0.3056635414284625, "step": 4010}, {"loss": 0.22793295383453369, "token_acc": 0.9122844827586207, "grad_norm": 0.6984847187995911, "learning_rate": 9.907842489858506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237557, "epoch": 0.3060446680387225, "step": 4015}, {"loss": 0.17504299879074098, "token_acc": 0.9285714285714286, "grad_norm": 1.0836694240570068, "learning_rate": 9.907613523832606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237637, "epoch": 0.3064257946489824, "step": 4020}, {"loss": 0.20650815963745117, "token_acc": 0.9077343421605717, "grad_norm": 1.5219589471817017, "learning_rate": 9.907384276377845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237711, "epoch": 0.3068069212592423, "step": 4025}, {"loss": 0.17307276725769044, "token_acc": 0.9208571428571428, "grad_norm": 1.3062764406204224, "learning_rate": 9.907154747507369e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237744, "epoch": 0.30718804786950227, "step": 4030}, {"loss": 0.21304497718811036, "token_acc": 0.911119661408234, "grad_norm": 0.8394153714179993, "learning_rate": 9.906924937234341e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237803, "epoch": 0.3075691744797622, "step": 4035}, {"loss": 0.21893436908721925, "token_acc": 0.9153967419863374, "grad_norm": 0.9296163320541382, "learning_rate": 9.906694845571938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237869, "epoch": 0.3079503010900221, "step": 4040}, {"loss": 0.16982815265655518, "token_acc": 0.9210423959548814, "grad_norm": 1.2029460668563843, "learning_rate": 9.906464472533354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237973, "epoch": 0.30833142770028205, "step": 4045}, {"loss": 0.22065658569335939, "token_acc": 0.9222222222222223, "grad_norm": 0.9618740677833557, "learning_rate": 9.906233818131804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238056, "epoch": 0.30871255431054195, "step": 4050}, {"loss": 0.19825893640518188, "token_acc": 0.9174265450861195, "grad_norm": 0.8810694813728333, "learning_rate": 9.906002882380511e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238135, "epoch": 0.3090936809208019, "step": 4055}, {"loss": 0.26341843605041504, "token_acc": 0.9019681584555598, "grad_norm": 0.9672714471817017, "learning_rate": 9.905771665292718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238152, "epoch": 0.3094748075310618, "step": 4060}, {"loss": 0.23597030639648436, "token_acc": 0.9129076352274946, "grad_norm": 1.217863917350769, "learning_rate": 9.905540166881688e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238204, "epoch": 0.30985593414132173, "step": 4065}, {"loss": 0.24470624923706055, "token_acc": 0.8967345799609266, "grad_norm": 1.4500690698623657, "learning_rate": 9.905308387160693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23829, "epoch": 0.3102370607515817, "step": 4070}, {"loss": 0.2063844919204712, "token_acc": 0.9235822202758923, "grad_norm": 2.103872537612915, "learning_rate": 9.905076326143025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23836, "epoch": 0.3106181873618416, "step": 4075}, {"loss": 0.2196591854095459, "token_acc": 0.912630579297246, "grad_norm": 1.673287272453308, "learning_rate": 9.904843983841992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238451, "epoch": 0.3109993139721015, "step": 4080}, {"loss": 0.19457906484603882, "token_acc": 0.9270530319982099, "grad_norm": 1.0091794729232788, "learning_rate": 9.904611360270918e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23852, "epoch": 0.3113804405823615, "step": 4085}, {"loss": 0.23503849506378174, "token_acc": 0.9040796019900498, "grad_norm": 1.0252200365066528, "learning_rate": 9.904378455443142e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23859, "epoch": 0.3117615671926214, "step": 4090}, {"loss": 0.14758527278900146, "token_acc": 0.929811689899731, "grad_norm": 1.831763744354248, "learning_rate": 9.904145269372023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238666, "epoch": 0.31214269380288134, "step": 4095}, {"loss": 0.22610418796539306, "token_acc": 0.9239896180941787, "grad_norm": 2.021737575531006, "learning_rate": 9.903911802070929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238707, "epoch": 0.31252382041314125, "step": 4100}, {"loss": 0.2990562438964844, "token_acc": 0.8825410360264336, "grad_norm": 1.4990754127502441, "learning_rate": 9.90367805355325e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238781, "epoch": 0.31290494702340116, "step": 4105}, {"loss": 0.24256362915039062, "token_acc": 0.8989755264655663, "grad_norm": 0.8787904381752014, "learning_rate": 9.90344402383239e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238876, "epoch": 0.3132860736336611, "step": 4110}, {"loss": 0.1433349609375, "token_acc": 0.9423076923076923, "grad_norm": 0.6961368918418884, "learning_rate": 9.903209712921771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238974, "epoch": 0.31366720024392103, "step": 4115}, {"loss": 0.18326587677001954, "token_acc": 0.9200171086398631, "grad_norm": 0.8254474401473999, "learning_rate": 9.902975120834827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239051, "epoch": 0.31404832685418094, "step": 4120}, {"loss": 0.19578639268875123, "token_acc": 0.9091247672253259, "grad_norm": 0.6695936918258667, "learning_rate": 9.902740247585015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239152, "epoch": 0.3144294534644409, "step": 4125}, {"loss": 0.20988306999206544, "token_acc": 0.9130069930069931, "grad_norm": 1.3632125854492188, "learning_rate": 9.902505093185801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239227, "epoch": 0.3148105800747008, "step": 4130}, {"loss": 0.12283908128738404, "token_acc": 0.9480621680110172, "grad_norm": 0.6102461218833923, "learning_rate": 9.90226965765067e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239277, "epoch": 0.31519170668496077, "step": 4135}, {"loss": 0.22585663795471192, "token_acc": 0.8958496476115897, "grad_norm": 0.7741445302963257, "learning_rate": 9.90203394099312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239382, "epoch": 0.3155728332952207, "step": 4140}, {"loss": 0.15612078905105592, "token_acc": 0.9186152444579411, "grad_norm": 1.4226940870285034, "learning_rate": 9.901797943226677e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239486, "epoch": 0.3159539599054806, "step": 4145}, {"loss": 0.21535608768463135, "token_acc": 0.9009139009139009, "grad_norm": 1.1313964128494263, "learning_rate": 9.901561664364866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239568, "epoch": 0.31633508651574055, "step": 4150}, {"loss": 0.2122407913208008, "token_acc": 0.9018162674387997, "grad_norm": 1.2719677686691284, "learning_rate": 9.901325104421239e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239632, "epoch": 0.31671621312600046, "step": 4155}, {"loss": 0.2670113563537598, "token_acc": 0.8989389459036354, "grad_norm": 1.3929712772369385, "learning_rate": 9.901088263409364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239675, "epoch": 0.31709733973626036, "step": 4160}, {"loss": 0.18694796562194824, "token_acc": 0.9182292673497003, "grad_norm": 1.2345364093780518, "learning_rate": 9.900851141342819e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239759, "epoch": 0.3174784663465203, "step": 4165}, {"loss": 0.23480262756347656, "token_acc": 0.9175672279467203, "grad_norm": 0.605176568031311, "learning_rate": 9.900613738235207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239777, "epoch": 0.31785959295678023, "step": 4170}, {"loss": 0.18888258934020996, "token_acc": 0.9247949746990054, "grad_norm": 1.4108123779296875, "learning_rate": 9.900376054100135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239841, "epoch": 0.3182407195670402, "step": 4175}, {"loss": 0.11539915800094605, "token_acc": 0.9387063119457486, "grad_norm": 0.6928850412368774, "learning_rate": 9.900138088951239e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239919, "epoch": 0.3186218461773001, "step": 4180}, {"loss": 0.2850198745727539, "token_acc": 0.8942042318307267, "grad_norm": 0.8720833659172058, "learning_rate": 9.899899842802163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240003, "epoch": 0.31900297278756, "step": 4185}, {"loss": 0.1919572353363037, "token_acc": 0.926303175554224, "grad_norm": 1.1678751707077026, "learning_rate": 9.899661315666568e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240084, "epoch": 0.31938409939782, "step": 4190}, {"loss": 0.24949705600738525, "token_acc": 0.9082515868436237, "grad_norm": 1.3113218545913696, "learning_rate": 9.899422507558136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240125, "epoch": 0.3197652260080799, "step": 4195}, {"loss": 0.17391358613967894, "token_acc": 0.9365617433414044, "grad_norm": 0.7104855179786682, "learning_rate": 9.899183418490559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240128, "epoch": 0.3201463526183398, "step": 4200}, {"eval_loss": 0.15915754437446594, "eval_token_acc": 0.9213149810252395, "eval_runtime": 171.6959, "eval_samples_per_second": 3.087, "eval_steps_per_second": 3.087, "epoch": 0.3201463526183398, "step": 4200}, {"loss": 0.2302011251449585, "token_acc": 0.920938530493467, "grad_norm": 0.8591658473014832, "learning_rate": 9.898944048477546e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237883, "epoch": 0.32052747922859975, "step": 4205}, {"loss": 0.20005967617034912, "token_acc": 0.9204168640454761, "grad_norm": 0.9804273843765259, "learning_rate": 9.898704397532827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237981, "epoch": 0.32090860583885966, "step": 4210}, {"loss": 0.3182472467422485, "token_acc": 0.882266833960686, "grad_norm": 1.5433894395828247, "learning_rate": 9.898464465670143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238061, "epoch": 0.3212897324491196, "step": 4215}, {"loss": 0.2517979145050049, "token_acc": 0.8992958899623383, "grad_norm": 4.612955570220947, "learning_rate": 9.898224252903254e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238113, "epoch": 0.32167085905937953, "step": 4220}, {"loss": 0.22427866458892823, "token_acc": 0.9130039750141965, "grad_norm": 1.3339136838912964, "learning_rate": 9.897983759245934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238155, "epoch": 0.32205198566963944, "step": 4225}, {"loss": 0.22492904663085939, "token_acc": 0.9160021265284424, "grad_norm": 0.9820786118507385, "learning_rate": 9.897742984711976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238238, "epoch": 0.3224331122798994, "step": 4230}, {"loss": 0.1517077922821045, "token_acc": 0.9448187359640681, "grad_norm": 0.8684553503990173, "learning_rate": 9.897501929315185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238319, "epoch": 0.3228142388901593, "step": 4235}, {"loss": 0.23897197246551513, "token_acc": 0.9075734927752865, "grad_norm": 1.1157253980636597, "learning_rate": 9.897260593069384e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238398, "epoch": 0.3231953655004192, "step": 4240}, {"loss": 0.21777374744415284, "token_acc": 0.9067015063018752, "grad_norm": 0.6829708218574524, "learning_rate": 9.897018975988417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238445, "epoch": 0.3235764921106792, "step": 4245}, {"loss": 0.22612643241882324, "token_acc": 0.9192169837331128, "grad_norm": 0.875093400478363, "learning_rate": 9.896777078086135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238529, "epoch": 0.3239576187209391, "step": 4250}, {"loss": 0.21973307132720948, "token_acc": 0.9201414468837483, "grad_norm": 0.7694298028945923, "learning_rate": 9.896534899376413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238564, "epoch": 0.32433874533119905, "step": 4255}, {"loss": 0.19122434854507447, "token_acc": 0.9279538904899135, "grad_norm": 1.1033087968826294, "learning_rate": 9.896292439873135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23866, "epoch": 0.32471987194145896, "step": 4260}, {"loss": 0.19516137838363648, "token_acc": 0.9250207813798836, "grad_norm": 0.736356794834137, "learning_rate": 9.89604969959021e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238707, "epoch": 0.32510099855171887, "step": 4265}, {"loss": 0.20950119495391845, "token_acc": 0.930245084837059, "grad_norm": 1.6150696277618408, "learning_rate": 9.895806678541553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238739, "epoch": 0.32548212516197883, "step": 4270}, {"loss": 0.17677361965179444, "token_acc": 0.9255093378607809, "grad_norm": 1.345765471458435, "learning_rate": 9.895563376741103e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238802, "epoch": 0.32586325177223874, "step": 4275}, {"loss": 0.19305839538574218, "token_acc": 0.9002966005019393, "grad_norm": 1.126879334449768, "learning_rate": 9.895319794202811e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23888, "epoch": 0.32624437838249865, "step": 4280}, {"loss": 0.2019503593444824, "token_acc": 0.9059615384615385, "grad_norm": 1.7144269943237305, "learning_rate": 9.895075930940647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238955, "epoch": 0.3266255049927586, "step": 4285}, {"loss": 0.25740005970001223, "token_acc": 0.9076077318673523, "grad_norm": 0.8250619769096375, "learning_rate": 9.894831786968592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239011, "epoch": 0.3270066316030185, "step": 4290}, {"loss": 0.21496527194976806, "token_acc": 0.908001546192501, "grad_norm": 1.1889468431472778, "learning_rate": 9.894587362300652e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239101, "epoch": 0.3273877582132784, "step": 4295}, {"loss": 0.22259387969970704, "token_acc": 0.9224635222259925, "grad_norm": 1.0302143096923828, "learning_rate": 9.894342656950839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239151, "epoch": 0.3277688848235384, "step": 4300}, {"loss": 0.19236416816711427, "token_acc": 0.9012096774193549, "grad_norm": 1.4209058284759521, "learning_rate": 9.894097670933186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239238, "epoch": 0.3281500114337983, "step": 4305}, {"loss": 0.2333930492401123, "token_acc": 0.9048792508624939, "grad_norm": 0.8729272484779358, "learning_rate": 9.893852404261743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239328, "epoch": 0.32853113804405826, "step": 4310}, {"loss": 0.1638605237007141, "token_acc": 0.9310784036229833, "grad_norm": 0.7527387738227844, "learning_rate": 9.893606856950578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239356, "epoch": 0.32891226465431816, "step": 4315}, {"loss": 0.1715386390686035, "token_acc": 0.9263589743589744, "grad_norm": 0.8294212818145752, "learning_rate": 9.893361029013766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239419, "epoch": 0.3292933912645781, "step": 4320}, {"loss": 0.20924828052520753, "token_acc": 0.909813407049067, "grad_norm": 0.8740025162696838, "learning_rate": 9.893114920465408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239509, "epoch": 0.32967451787483804, "step": 4325}, {"loss": 0.19981666803359985, "token_acc": 0.9161918328584995, "grad_norm": 0.07779546082019806, "learning_rate": 9.892868531319615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239585, "epoch": 0.33005564448509794, "step": 4330}, {"loss": 0.1883603811264038, "token_acc": 0.907776560788609, "grad_norm": 0.7961308360099792, "learning_rate": 9.892621861590517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239657, "epoch": 0.33043677109535785, "step": 4335}, {"loss": 0.16226965188980103, "token_acc": 0.9333172263831844, "grad_norm": 1.0699453353881836, "learning_rate": 9.892374911292261e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239729, "epoch": 0.3308178977056178, "step": 4340}, {"loss": 0.13513892889022827, "token_acc": 0.9352839931153184, "grad_norm": 1.3683314323425293, "learning_rate": 9.892127680439008e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239821, "epoch": 0.3311990243158777, "step": 4345}, {"loss": 0.2122182607650757, "token_acc": 0.9037089871611983, "grad_norm": 0.7663138508796692, "learning_rate": 9.891880169044934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239896, "epoch": 0.3315801509261377, "step": 4350}, {"loss": 0.24187083244323732, "token_acc": 0.9202274573517466, "grad_norm": 1.2376339435577393, "learning_rate": 9.891632377124232e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239967, "epoch": 0.3319612775363976, "step": 4355}, {"loss": 0.18405020236968994, "token_acc": 0.9383336555190411, "grad_norm": 0.6914349794387817, "learning_rate": 9.891384304691115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240036, "epoch": 0.3323424041466575, "step": 4360}, {"loss": 0.23341946601867675, "token_acc": 0.9023277042446372, "grad_norm": 1.0132614374160767, "learning_rate": 9.891135951759807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240131, "epoch": 0.33272353075691746, "step": 4365}, {"loss": 0.2776163578033447, "token_acc": 0.8745556119857796, "grad_norm": 0.8744183778762817, "learning_rate": 9.890887318344548e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240221, "epoch": 0.33310465736717737, "step": 4370}, {"loss": 0.20449295043945312, "token_acc": 0.9200333889816361, "grad_norm": 0.8210816979408264, "learning_rate": 9.890638404459599e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24026, "epoch": 0.3334857839774373, "step": 4375}, {"loss": 0.19327890872955322, "token_acc": 0.9149623250807319, "grad_norm": 0.9798177480697632, "learning_rate": 9.890389210119233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240345, "epoch": 0.33386691058769724, "step": 4380}, {"loss": 0.24963245391845704, "token_acc": 0.8872536136662287, "grad_norm": 11.674511909484863, "learning_rate": 9.89013973533774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240429, "epoch": 0.33424803719795715, "step": 4385}, {"loss": 0.16933200359344483, "token_acc": 0.9112554112554112, "grad_norm": 1.0615803003311157, "learning_rate": 9.889889980129425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240514, "epoch": 0.3346291638082171, "step": 4390}, {"loss": 0.23872504234313965, "token_acc": 0.9106824925816024, "grad_norm": 1.074690580368042, "learning_rate": 9.889639944508614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240552, "epoch": 0.335010290418477, "step": 4395}, {"loss": 0.20713512897491454, "token_acc": 0.9092420212765957, "grad_norm": 0.880744218826294, "learning_rate": 9.88938962848964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240626, "epoch": 0.3353914170287369, "step": 4400}, {"eval_loss": 0.15811727941036224, "eval_token_acc": 0.9216613457020661, "eval_runtime": 173.9477, "eval_samples_per_second": 3.047, "eval_steps_per_second": 3.047, "epoch": 0.3353914170287369, "step": 4400}, {"loss": 0.24947676658630372, "token_acc": 0.9212314639918365, "grad_norm": 0.9664312601089478, "learning_rate": 9.889139032086863e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238438, "epoch": 0.3357725436389969, "step": 4405}, {"loss": 0.2606205463409424, "token_acc": 0.9059621067269251, "grad_norm": 1.9522829055786133, "learning_rate": 9.888888155314649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238502, "epoch": 0.3361536702492568, "step": 4410}, {"loss": 0.1794285297393799, "token_acc": 0.9269461077844311, "grad_norm": 0.905967116355896, "learning_rate": 9.888636998187386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238543, "epoch": 0.3365347968595167, "step": 4415}, {"loss": 0.18638668060302735, "token_acc": 0.9282684630738522, "grad_norm": 1.0438493490219116, "learning_rate": 9.888385560719479e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238552, "epoch": 0.33691592346977667, "step": 4420}, {"loss": 0.23789846897125244, "token_acc": 0.9151047409040793, "grad_norm": 1.1250914335250854, "learning_rate": 9.888133842925344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238607, "epoch": 0.3372970500800366, "step": 4425}, {"loss": 0.2605221509933472, "token_acc": 0.8993319511633264, "grad_norm": 0.7370328307151794, "learning_rate": 9.887881844819417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238674, "epoch": 0.33767817669029654, "step": 4430}, {"loss": 0.26715242862701416, "token_acc": 0.884843790343403, "grad_norm": 0.794122040271759, "learning_rate": 9.88762956641615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238754, "epoch": 0.33805930330055645, "step": 4435}, {"loss": 0.22917850017547609, "token_acc": 0.929726909027657, "grad_norm": 1.5435172319412231, "learning_rate": 9.887377007730006e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238794, "epoch": 0.33844042991081635, "step": 4440}, {"loss": 0.24095613956451417, "token_acc": 0.9094147582697201, "grad_norm": 1.0698354244232178, "learning_rate": 9.887124168775473e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238858, "epoch": 0.3388215565210763, "step": 4445}, {"loss": 0.19846370220184326, "token_acc": 0.9333333333333333, "grad_norm": 3.2474963665008545, "learning_rate": 9.886871049567047e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238954, "epoch": 0.3392026831313362, "step": 4450}, {"loss": 0.2050023555755615, "token_acc": 0.9200355397601067, "grad_norm": 0.889411985874176, "learning_rate": 9.886617650119246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238975, "epoch": 0.33958380974159613, "step": 4455}, {"loss": 0.14530785083770753, "token_acc": 0.9396281091523786, "grad_norm": 0.8893768787384033, "learning_rate": 9.886363970446597e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239048, "epoch": 0.3399649363518561, "step": 4460}, {"loss": 0.20404436588287353, "token_acc": 0.9132143937103114, "grad_norm": 1.1720106601715088, "learning_rate": 9.88611001056365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239128, "epoch": 0.340346062962116, "step": 4465}, {"loss": 0.26153614521026614, "token_acc": 0.9004935519821684, "grad_norm": 1.176992654800415, "learning_rate": 9.885855770484969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239174, "epoch": 0.34072718957237597, "step": 4470}, {"loss": 0.2723444700241089, "token_acc": 0.9017990145525381, "grad_norm": 0.797675371170044, "learning_rate": 9.885601250225133e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23919, "epoch": 0.3411083161826359, "step": 4475}, {"loss": 0.18525922298431396, "token_acc": 0.9296897238827213, "grad_norm": 1.2383085489273071, "learning_rate": 9.885346449798735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23927, "epoch": 0.3414894427928958, "step": 4480}, {"loss": 0.16029869318008422, "token_acc": 0.9331254331254332, "grad_norm": 1.2479459047317505, "learning_rate": 9.885091369220392e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239362, "epoch": 0.34187056940315574, "step": 4485}, {"loss": 0.1721025824546814, "token_acc": 0.9274863857838922, "grad_norm": 0.9152981638908386, "learning_rate": 9.884836008504727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239439, "epoch": 0.34225169601341565, "step": 4490}, {"loss": 0.21854076385498047, "token_acc": 0.9096690273160861, "grad_norm": 1.1927741765975952, "learning_rate": 9.884580367666387e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239472, "epoch": 0.34263282262367556, "step": 4495}, {"loss": 0.18531676530838012, "token_acc": 0.9246798350336445, "grad_norm": 1.3850657939910889, "learning_rate": 9.884324446720028e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239523, "epoch": 0.3430139492339355, "step": 4500}, {"loss": 0.24971094131469726, "token_acc": 0.9175972927241963, "grad_norm": 0.8446358442306519, "learning_rate": 9.884068245680329e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239555, "epoch": 0.34339507584419543, "step": 4505}, {"loss": 0.2597987413406372, "token_acc": 0.9047956867196367, "grad_norm": 1.349091649055481, "learning_rate": 9.883811764561981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239599, "epoch": 0.3437762024544554, "step": 4510}, {"loss": 0.19508850574493408, "token_acc": 0.9025010597710894, "grad_norm": 1.3688730001449585, "learning_rate": 9.883555003379691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239671, "epoch": 0.3441573290647153, "step": 4515}, {"loss": 0.24026741981506347, "token_acc": 0.904951709336195, "grad_norm": 0.7208614945411682, "learning_rate": 9.883297962148185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239726, "epoch": 0.3445384556749752, "step": 4520}, {"loss": 0.1955849289894104, "token_acc": 0.9165900735294118, "grad_norm": 0.9864040017127991, "learning_rate": 9.883040640882202e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239806, "epoch": 0.34491958228523517, "step": 4525}, {"loss": 0.2046663999557495, "token_acc": 0.9186751441667899, "grad_norm": 1.0644468069076538, "learning_rate": 9.882783039596497e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23986, "epoch": 0.3453007088954951, "step": 4530}, {"loss": 0.25109865665435793, "token_acc": 0.9078088823405599, "grad_norm": 2.1824541091918945, "learning_rate": 9.882525158305845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239924, "epoch": 0.345681835505755, "step": 4535}, {"loss": 0.2180487871170044, "token_acc": 0.9176755447941889, "grad_norm": 0.762199342250824, "learning_rate": 9.882266997025034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239992, "epoch": 0.34606296211601495, "step": 4540}, {"loss": 0.1035007357597351, "token_acc": 0.9476744186046512, "grad_norm": 0.21728816628456116, "learning_rate": 9.882008555768865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240099, "epoch": 0.34644408872627486, "step": 4545}, {"loss": 0.128145968914032, "token_acc": 0.9377940407736539, "grad_norm": 1.0724139213562012, "learning_rate": 9.881749834552161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240169, "epoch": 0.3468252153365348, "step": 4550}, {"loss": 0.1804369330406189, "token_acc": 0.9181404749873674, "grad_norm": 0.7069359421730042, "learning_rate": 9.881490833389759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240261, "epoch": 0.3472063419467947, "step": 4555}, {"loss": 0.18763837814331055, "token_acc": 0.9078757225433526, "grad_norm": 0.948927104473114, "learning_rate": 9.88123155229651e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240355, "epoch": 0.34758746855705464, "step": 4560}, {"loss": 0.2074981927871704, "token_acc": 0.9213695395513577, "grad_norm": 0.6958962678909302, "learning_rate": 9.880971991287283e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240433, "epoch": 0.3479685951673146, "step": 4565}, {"loss": 0.1625828504562378, "token_acc": 0.9349801910976462, "grad_norm": 0.6374287605285645, "learning_rate": 9.880712150376963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240499, "epoch": 0.3483497217775745, "step": 4570}, {"loss": 0.16879878044128419, "token_acc": 0.9282359571670111, "grad_norm": 0.7840526700019836, "learning_rate": 9.88045202958045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240576, "epoch": 0.3487308483878344, "step": 4575}, {"loss": 0.1550325036048889, "token_acc": 0.9312941176470588, "grad_norm": 2.3380706310272217, "learning_rate": 9.880191628912662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240674, "epoch": 0.3491119749980944, "step": 4580}, {"loss": 0.16306592226028443, "token_acc": 0.9245426829268293, "grad_norm": 0.8310628533363342, "learning_rate": 9.879930948388531e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240767, "epoch": 0.3494931016083543, "step": 4585}, {"loss": 0.1873743176460266, "token_acc": 0.9067193675889328, "grad_norm": 0.866337776184082, "learning_rate": 9.879669988023004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240855, "epoch": 0.34987422821861425, "step": 4590}, {"loss": 0.23075032234191895, "token_acc": 0.9196269982238011, "grad_norm": 0.8613419532775879, "learning_rate": 9.879408747831049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24089, "epoch": 0.35025535482887415, "step": 4595}, {"loss": 0.16877565383911133, "token_acc": 0.8987108655616943, "grad_norm": 1.0420233011245728, "learning_rate": 9.879147227827645e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240985, "epoch": 0.35063648143913406, "step": 4600}, {"eval_loss": 0.15667736530303955, "eval_token_acc": 0.9220077103788928, "eval_runtime": 176.1338, "eval_samples_per_second": 3.009, "eval_steps_per_second": 3.009, "epoch": 0.35063648143913406, "step": 4600}, {"loss": 0.22312352657318116, "token_acc": 0.9216227344636033, "grad_norm": 1.1197593212127686, "learning_rate": 9.878885428027791e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238835, "epoch": 0.351017608049394, "step": 4605}, {"loss": 0.179567551612854, "token_acc": 0.9369076631464933, "grad_norm": 1.0067657232284546, "learning_rate": 9.878623348446497e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238887, "epoch": 0.35139873465965393, "step": 4610}, {"loss": 0.2074800491333008, "token_acc": 0.9068599033816425, "grad_norm": 1.0698491334915161, "learning_rate": 9.878360989098794e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238955, "epoch": 0.35177986126991384, "step": 4615}, {"loss": 0.17751567363739013, "token_acc": 0.9202069716775599, "grad_norm": 0.949504017829895, "learning_rate": 9.878098349999728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239029, "epoch": 0.3521609878801738, "step": 4620}, {"loss": 0.19807982444763184, "token_acc": 0.9290404575301843, "grad_norm": 1.0140291452407837, "learning_rate": 9.877835431164358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23908, "epoch": 0.3525421144904337, "step": 4625}, {"loss": 0.24102630615234374, "token_acc": 0.9286092949284326, "grad_norm": 1.6643022298812866, "learning_rate": 9.877572232607759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239117, "epoch": 0.3529232411006937, "step": 4630}, {"loss": 0.23084421157836915, "token_acc": 0.9161813117244872, "grad_norm": 0.9363781809806824, "learning_rate": 9.877308754345031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239192, "epoch": 0.3533043677109536, "step": 4635}, {"loss": 0.2624385833740234, "token_acc": 0.9072710103871577, "grad_norm": 1.3742951154708862, "learning_rate": 9.877044996391279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239248, "epoch": 0.3536854943212135, "step": 4640}, {"loss": 0.21875174045562745, "token_acc": 0.928646105593309, "grad_norm": 0.961320161819458, "learning_rate": 9.876780958761626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239328, "epoch": 0.35406662093147345, "step": 4645}, {"loss": 0.2157068967819214, "token_acc": 0.9257488398256223, "grad_norm": 1.5214426517486572, "learning_rate": 9.876516641471219e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239353, "epoch": 0.35444774754173336, "step": 4650}, {"loss": 0.22569336891174316, "token_acc": 0.9131996037642397, "grad_norm": 0.6670135855674744, "learning_rate": 9.87625204453521e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239393, "epoch": 0.35482887415199327, "step": 4655}, {"loss": 0.19718537330627442, "token_acc": 0.9202188940092166, "grad_norm": 0.799538791179657, "learning_rate": 9.875987167968775e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239418, "epoch": 0.35521000076225323, "step": 4660}, {"loss": 0.1284249544143677, "token_acc": 0.9438490214352283, "grad_norm": 0.9834874272346497, "learning_rate": 9.875722011787105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239486, "epoch": 0.35559112737251314, "step": 4665}, {"loss": 0.16127818822860718, "token_acc": 0.9308323563892146, "grad_norm": 0.7410391569137573, "learning_rate": 9.875456576005402e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239548, "epoch": 0.3559722539827731, "step": 4670}, {"loss": 0.13834574222564697, "token_acc": 0.943090787716956, "grad_norm": 0.7877100110054016, "learning_rate": 9.875190860638892e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2396, "epoch": 0.356353380593033, "step": 4675}, {"loss": 0.1840498685836792, "token_acc": 0.9261939218523878, "grad_norm": 0.9883182048797607, "learning_rate": 9.874924865702807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239636, "epoch": 0.3567345072032929, "step": 4680}, {"loss": 0.18100385665893554, "token_acc": 0.9261433113230618, "grad_norm": 0.9080489873886108, "learning_rate": 9.874658591212404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239698, "epoch": 0.3571156338135529, "step": 4685}, {"loss": 0.26099352836608886, "token_acc": 0.8976491862567811, "grad_norm": 1.140531301498413, "learning_rate": 9.874392037182953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239744, "epoch": 0.3574967604238128, "step": 4690}, {"loss": 0.21333322525024415, "token_acc": 0.9264923532313765, "grad_norm": 0.7949675917625427, "learning_rate": 9.874125203629737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239798, "epoch": 0.3578778870340727, "step": 4695}, {"loss": 0.2975268840789795, "token_acc": 0.9006211180124224, "grad_norm": 1.2855316400527954, "learning_rate": 9.87385809056806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239865, "epoch": 0.35825901364433266, "step": 4700}, {"loss": 0.1567288041114807, "token_acc": 0.9332677165354331, "grad_norm": 0.6822090744972229, "learning_rate": 9.873590698013239e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239918, "epoch": 0.35864014025459257, "step": 4705}, {"loss": 0.2116835117340088, "token_acc": 0.9261983572391811, "grad_norm": 1.307555079460144, "learning_rate": 9.873323025980609e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239942, "epoch": 0.35902126686485253, "step": 4710}, {"loss": 0.1808045744895935, "token_acc": 0.9267690619857378, "grad_norm": 1.60109281539917, "learning_rate": 9.873055074485517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240004, "epoch": 0.35940239347511244, "step": 4715}, {"loss": 0.13485660552978515, "token_acc": 0.941814334832055, "grad_norm": 0.9124451279640198, "learning_rate": 9.87278684354333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240082, "epoch": 0.35978352008537234, "step": 4720}, {"loss": 0.2680462598800659, "token_acc": 0.8968119513322039, "grad_norm": 1.0666978359222412, "learning_rate": 9.872518333169431e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240129, "epoch": 0.3601646466956323, "step": 4725}, {"loss": 0.0836132287979126, "token_acc": 0.9593716143011918, "grad_norm": 0.534623384475708, "learning_rate": 9.872249543379216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24023, "epoch": 0.3605457733058922, "step": 4730}, {"loss": 0.16108639240264894, "token_acc": 0.9252247988641742, "grad_norm": 1.2304494380950928, "learning_rate": 9.8719804741881e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240264, "epoch": 0.3609268999161521, "step": 4735}, {"loss": 0.15151898860931395, "token_acc": 0.9314755596162632, "grad_norm": 1.151193380355835, "learning_rate": 9.871711125611513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240323, "epoch": 0.3613080265264121, "step": 4740}, {"loss": 0.21075305938720704, "token_acc": 0.9283538186784326, "grad_norm": 0.6995449662208557, "learning_rate": 9.8714414976649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240336, "epoch": 0.361689153136672, "step": 4745}, {"loss": 0.196136212348938, "token_acc": 0.9203474403991868, "grad_norm": 0.6059656739234924, "learning_rate": 9.871171590363723e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240392, "epoch": 0.36207027974693196, "step": 4750}, {"loss": 0.16549742221832275, "token_acc": 0.9391695318698757, "grad_norm": 1.7953662872314453, "learning_rate": 9.87090140372346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240452, "epoch": 0.36245140635719186, "step": 4755}, {"loss": 0.23433010578155516, "token_acc": 0.9260723463135007, "grad_norm": 0.9908974170684814, "learning_rate": 9.870630937759606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240514, "epoch": 0.36283253296745177, "step": 4760}, {"loss": 0.19182584285736085, "token_acc": 0.9332323996971991, "grad_norm": 0.9677805304527283, "learning_rate": 9.870360192487672e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240547, "epoch": 0.36321365957771173, "step": 4765}, {"loss": 0.20310027599334718, "token_acc": 0.9084945883896359, "grad_norm": 1.4979366064071655, "learning_rate": 9.87008916792318e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240633, "epoch": 0.36359478618797164, "step": 4770}, {"loss": 0.18223538398742675, "token_acc": 0.9310900016100467, "grad_norm": 1.0055533647537231, "learning_rate": 9.869817864081673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240672, "epoch": 0.36397591279823155, "step": 4775}, {"loss": 0.1447862982749939, "token_acc": 0.9344447584063295, "grad_norm": 0.8194828033447266, "learning_rate": 9.869546280978712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240742, "epoch": 0.3643570394084915, "step": 4780}, {"loss": 0.20292248725891113, "token_acc": 0.9329323856387826, "grad_norm": 0.8647611737251282, "learning_rate": 9.86927441862987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240794, "epoch": 0.3647381660187514, "step": 4785}, {"loss": 0.205535888671875, "token_acc": 0.9311546840958606, "grad_norm": 0.6766430735588074, "learning_rate": 9.869002277050734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240836, "epoch": 0.3651192926290114, "step": 4790}, {"loss": 0.20031869411468506, "token_acc": 0.9225978647686833, "grad_norm": 0.8801077604293823, "learning_rate": 9.868729856256914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240872, "epoch": 0.3655004192392713, "step": 4795}, {"loss": 0.1959167718887329, "token_acc": 0.9278169014084507, "grad_norm": 0.8264265656471252, "learning_rate": 9.868457156264031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240914, "epoch": 0.3658815458495312, "step": 4800}, {"eval_loss": 0.15245549380779266, "eval_token_acc": 0.924394614782242, "eval_runtime": 175.0853, "eval_samples_per_second": 3.027, "eval_steps_per_second": 3.027, "epoch": 0.3658815458495312, "step": 4800}, {"loss": 0.1542346715927124, "token_acc": 0.9247288408764212, "grad_norm": 0.8004920482635498, "learning_rate": 9.86818417708772e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238873, "epoch": 0.36626267245979116, "step": 4805}, {"loss": 0.14435558319091796, "token_acc": 0.9341142020497804, "grad_norm": 1.1550219058990479, "learning_rate": 9.867910918743639e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238921, "epoch": 0.36664379907005107, "step": 4810}, {"loss": 0.1131820797920227, "token_acc": 0.9479166666666666, "grad_norm": 0.44425806403160095, "learning_rate": 9.867637381247457e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23899, "epoch": 0.367024925680311, "step": 4815}, {"loss": 0.22952535152435302, "token_acc": 0.913777455073516, "grad_norm": 1.2150404453277588, "learning_rate": 9.86736356461486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239038, "epoch": 0.36740605229057094, "step": 4820}, {"loss": 0.19099726676940917, "token_acc": 0.9361970057366727, "grad_norm": 0.8951210379600525, "learning_rate": 9.86708946886155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239058, "epoch": 0.36778717890083085, "step": 4825}, {"loss": 0.14610296487808228, "token_acc": 0.9388773388773389, "grad_norm": 0.7850123643875122, "learning_rate": 9.866815094003243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239149, "epoch": 0.3681683055110908, "step": 4830}, {"loss": 0.20278141498565674, "token_acc": 0.9188505331646485, "grad_norm": 0.8659340739250183, "learning_rate": 9.866540440055677e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239204, "epoch": 0.3685494321213507, "step": 4835}, {"loss": 0.19950945377349855, "token_acc": 0.9230896460469732, "grad_norm": 0.8424884080886841, "learning_rate": 9.8662655070346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239243, "epoch": 0.3689305587316106, "step": 4840}, {"loss": 0.1673001766204834, "token_acc": 0.9209849320102903, "grad_norm": 1.6758841276168823, "learning_rate": 9.865990294955778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239326, "epoch": 0.3693116853418706, "step": 4845}, {"loss": 0.20846846103668212, "token_acc": 0.9346005883684091, "grad_norm": 0.8280849456787109, "learning_rate": 9.865714803834994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239386, "epoch": 0.3696928119521305, "step": 4850}, {"loss": 0.17613157033920288, "token_acc": 0.9181010024588614, "grad_norm": 0.8610410094261169, "learning_rate": 9.865439033688046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239446, "epoch": 0.3700739385623904, "step": 4855}, {"loss": 0.16918354034423827, "token_acc": 0.9284346577309718, "grad_norm": 0.6586319208145142, "learning_rate": 9.865162984530748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23951, "epoch": 0.37045506517265037, "step": 4860}, {"loss": 0.19900877475738527, "token_acc": 0.9201865057597367, "grad_norm": 0.9983252882957458, "learning_rate": 9.86488665637893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239574, "epoch": 0.3708361917829103, "step": 4865}, {"loss": 0.24607391357421876, "token_acc": 0.9066073697585769, "grad_norm": 0.739035427570343, "learning_rate": 9.864610049248435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239629, "epoch": 0.37121731839317024, "step": 4870}, {"loss": 0.22616519927978515, "token_acc": 0.9158447684391081, "grad_norm": 0.5734931826591492, "learning_rate": 9.86433316315513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239653, "epoch": 0.37159844500343014, "step": 4875}, {"loss": 0.21596689224243165, "token_acc": 0.90715667311412, "grad_norm": 0.7829099297523499, "learning_rate": 9.864055998114893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239729, "epoch": 0.37197957161369005, "step": 4880}, {"loss": 0.21100916862487792, "token_acc": 0.9205479452054794, "grad_norm": 1.5658643245697021, "learning_rate": 9.863778554143615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239788, "epoch": 0.37236069822395, "step": 4885}, {"loss": 0.20950567722320557, "token_acc": 0.9169837426496023, "grad_norm": 0.8149398565292358, "learning_rate": 9.863500831257209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239875, "epoch": 0.3727418248342099, "step": 4890}, {"loss": 0.19631320238113403, "token_acc": 0.905577216477369, "grad_norm": 1.0802415609359741, "learning_rate": 9.863222829471599e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23992, "epoch": 0.37312295144446983, "step": 4895}, {"loss": 0.19555288553237915, "token_acc": 0.9283824015878267, "grad_norm": 0.9780798554420471, "learning_rate": 9.862944548802727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239951, "epoch": 0.3735040780547298, "step": 4900}, {"loss": 0.31761305332183837, "token_acc": 0.8839078406858367, "grad_norm": 1.3320714235305786, "learning_rate": 9.862665989266554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240009, "epoch": 0.3738852046649897, "step": 4905}, {"loss": 0.23569085597991943, "token_acc": 0.9163506580414901, "grad_norm": 0.8094413876533508, "learning_rate": 9.862387150879049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240061, "epoch": 0.37426633127524966, "step": 4910}, {"loss": 0.16934081315994262, "token_acc": 0.934181240063593, "grad_norm": 0.7483161687850952, "learning_rate": 9.862108033656207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240111, "epoch": 0.37464745788550957, "step": 4915}, {"loss": 0.16175122261047364, "token_acc": 0.9397898324339676, "grad_norm": 1.1448999643325806, "learning_rate": 9.861828637614031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240184, "epoch": 0.3750285844957695, "step": 4920}, {"loss": 0.21855635643005372, "token_acc": 0.9170589553911679, "grad_norm": 1.6378339529037476, "learning_rate": 9.861548962768546e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240249, "epoch": 0.37540971110602944, "step": 4925}, {"loss": 0.23356881141662597, "token_acc": 0.9166666666666666, "grad_norm": 1.7824002504348755, "learning_rate": 9.861269009135787e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240294, "epoch": 0.37579083771628935, "step": 4930}, {"loss": 0.1736738920211792, "token_acc": 0.9240387621131604, "grad_norm": 0.23918123543262482, "learning_rate": 9.86098877673181e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240337, "epoch": 0.37617196432654926, "step": 4935}, {"loss": 0.21452882289886474, "token_acc": 0.9186519465427078, "grad_norm": 0.5896286368370056, "learning_rate": 9.860708265572684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24043, "epoch": 0.3765530909368092, "step": 4940}, {"loss": 0.2024442195892334, "token_acc": 0.9324826560951437, "grad_norm": 1.4239826202392578, "learning_rate": 9.860427475674496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240463, "epoch": 0.37693421754706913, "step": 4945}, {"loss": 0.1630520701408386, "token_acc": 0.9201619901648829, "grad_norm": 1.3806772232055664, "learning_rate": 9.860146407053347e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240533, "epoch": 0.3773153441573291, "step": 4950}, {"loss": 0.16299794912338256, "token_acc": 0.9257203277821835, "grad_norm": 0.4779732823371887, "learning_rate": 9.859865059725355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240597, "epoch": 0.377696470767589, "step": 4955}, {"loss": 0.22518444061279297, "token_acc": 0.9078498293515358, "grad_norm": 1.8744924068450928, "learning_rate": 9.859583433706654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240679, "epoch": 0.3780775973778489, "step": 4960}, {"loss": 0.19942010641098024, "token_acc": 0.9268059320682507, "grad_norm": 1.910704493522644, "learning_rate": 9.859301529013396e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240717, "epoch": 0.37845872398810887, "step": 4965}, {"loss": 0.16888455152511597, "token_acc": 0.9153371075656201, "grad_norm": 1.0774117708206177, "learning_rate": 9.859019345661744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240795, "epoch": 0.3788398505983688, "step": 4970}, {"loss": 0.28023395538330076, "token_acc": 0.909070796460177, "grad_norm": 1.585683822631836, "learning_rate": 9.858736883667882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240807, "epoch": 0.3792209772086287, "step": 4975}, {"loss": 0.16453282833099364, "token_acc": 0.9195509822263798, "grad_norm": 0.4177914261817932, "learning_rate": 9.858454143048006e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240857, "epoch": 0.37960210381888865, "step": 4980}, {"loss": 0.1851676106452942, "token_acc": 0.9130505709624797, "grad_norm": 0.8462322354316711, "learning_rate": 9.858171123818332e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240913, "epoch": 0.37998323042914856, "step": 4985}, {"loss": 0.2045442819595337, "token_acc": 0.9264555669050051, "grad_norm": 1.0969089269638062, "learning_rate": 9.857887825995088e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24096, "epoch": 0.3803643570394085, "step": 4990}, {"loss": 0.1960723042488098, "token_acc": 0.9226856561546287, "grad_norm": 1.1775494813919067, "learning_rate": 9.857604249594521e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241053, "epoch": 0.3807454836496684, "step": 4995}, {"loss": 0.1684521198272705, "token_acc": 0.9192764053686053, "grad_norm": 0.6412020325660706, "learning_rate": 9.857320394632892e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241116, "epoch": 0.38112661025992833, "step": 5000}, {"eval_loss": 0.15154628455638885, "eval_token_acc": 0.924394614782242, "eval_runtime": 172.6344, "eval_samples_per_second": 3.07, "eval_steps_per_second": 3.07, "epoch": 0.38112661025992833, "step": 5000}, {"loss": 0.18690760135650636, "token_acc": 0.9242719881744272, "grad_norm": 1.034816026687622, "learning_rate": 9.857036261126477e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239201, "epoch": 0.3815077368701883, "step": 5005}, {"loss": 0.17478065490722655, "token_acc": 0.9284806102987921, "grad_norm": 0.5642911791801453, "learning_rate": 9.856751849091575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239272, "epoch": 0.3818888634804482, "step": 5010}, {"loss": 0.22216565608978273, "token_acc": 0.9060933281912842, "grad_norm": 0.7116358876228333, "learning_rate": 9.856467158544492e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239309, "epoch": 0.3822699900907081, "step": 5015}, {"loss": 0.2557823657989502, "token_acc": 0.899803536345776, "grad_norm": 0.9811486601829529, "learning_rate": 9.856182189501553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23937, "epoch": 0.3826511167009681, "step": 5020}, {"loss": 0.1496975064277649, "token_acc": 0.946751863684771, "grad_norm": 1.153630256652832, "learning_rate": 9.855896941979101e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239411, "epoch": 0.383032243311228, "step": 5025}, {"loss": 0.22639055252075196, "token_acc": 0.9081059390048154, "grad_norm": 1.405582308769226, "learning_rate": 9.855611415993496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239468, "epoch": 0.38341336992148795, "step": 5030}, {"loss": 0.17762513160705568, "token_acc": 0.9357460808980066, "grad_norm": 1.1265263557434082, "learning_rate": 9.855325611561106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239521, "epoch": 0.38379449653174785, "step": 5035}, {"loss": 0.23240838050842286, "token_acc": 0.9301343570057582, "grad_norm": 1.0546566247940063, "learning_rate": 9.855039528698325e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239558, "epoch": 0.38417562314200776, "step": 5040}, {"loss": 0.20711357593536378, "token_acc": 0.9281578947368421, "grad_norm": 0.6104698181152344, "learning_rate": 9.854753167421556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239561, "epoch": 0.3845567497522677, "step": 5045}, {"loss": 0.21583545207977295, "token_acc": 0.9161153119092628, "grad_norm": 0.8007349371910095, "learning_rate": 9.854466527747223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239617, "epoch": 0.38493787636252763, "step": 5050}, {"loss": 0.19706590175628663, "token_acc": 0.9141799172293618, "grad_norm": 0.9082942605018616, "learning_rate": 9.854179609691761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239681, "epoch": 0.38531900297278754, "step": 5055}, {"loss": 0.20413472652435302, "token_acc": 0.9066198224852071, "grad_norm": 0.1592966765165329, "learning_rate": 9.853892413271626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23973, "epoch": 0.3857001295830475, "step": 5060}, {"loss": 0.185267174243927, "token_acc": 0.9276177090653549, "grad_norm": 1.2667183876037598, "learning_rate": 9.853604938503285e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239764, "epoch": 0.3860812561933074, "step": 5065}, {"loss": 0.29414184093475343, "token_acc": 0.891542614101096, "grad_norm": 1.1256556510925293, "learning_rate": 9.853317185403224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239813, "epoch": 0.3864623828035674, "step": 5070}, {"loss": 0.1848887324333191, "token_acc": 0.9254627313656828, "grad_norm": 1.1578857898712158, "learning_rate": 9.853029153987944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239897, "epoch": 0.3868435094138273, "step": 5075}, {"loss": 0.24428200721740723, "token_acc": 0.9094471658502449, "grad_norm": 1.2722505331039429, "learning_rate": 9.852740844273965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239933, "epoch": 0.3872246360240872, "step": 5080}, {"loss": 0.19916834831237792, "token_acc": 0.9225108225108225, "grad_norm": 0.6826249361038208, "learning_rate": 9.852452256277816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239971, "epoch": 0.38760576263434715, "step": 5085}, {"loss": 0.20142030715942383, "token_acc": 0.9220360824742269, "grad_norm": 1.3301763534545898, "learning_rate": 9.85216339001605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240064, "epoch": 0.38798688924460706, "step": 5090}, {"loss": 0.24690508842468262, "token_acc": 0.9008833922261484, "grad_norm": 1.4179213047027588, "learning_rate": 9.851874245505228e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240117, "epoch": 0.38836801585486697, "step": 5095}, {"loss": 0.20048537254333496, "token_acc": 0.9238725693007861, "grad_norm": 1.3954585790634155, "learning_rate": 9.851584822761934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240131, "epoch": 0.38874914246512693, "step": 5100}, {"loss": 0.12991485595703126, "token_acc": 0.943502824858757, "grad_norm": 0.7777506709098816, "learning_rate": 9.851295121802767e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240198, "epoch": 0.38913026907538684, "step": 5105}, {"loss": 0.18277162313461304, "token_acc": 0.9193882840850182, "grad_norm": 0.8535301685333252, "learning_rate": 9.851005142644336e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24027, "epoch": 0.3895113956856468, "step": 5110}, {"loss": 0.14999103546142578, "token_acc": 0.9343832020997376, "grad_norm": 1.0179109573364258, "learning_rate": 9.850714885303272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240356, "epoch": 0.3898925222959067, "step": 5115}, {"loss": 0.1818784475326538, "token_acc": 0.9316655694535879, "grad_norm": 0.9158710241317749, "learning_rate": 9.850424349796217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240384, "epoch": 0.3902736489061666, "step": 5120}, {"loss": 0.16328256130218505, "token_acc": 0.9364666981577704, "grad_norm": 0.7674322724342346, "learning_rate": 9.850133536139836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240439, "epoch": 0.3906547755164266, "step": 5125}, {"loss": 0.18238660097122192, "token_acc": 0.932292765239401, "grad_norm": 0.95793217420578, "learning_rate": 9.849842444350805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240482, "epoch": 0.3910359021266865, "step": 5130}, {"loss": 0.14913604259490967, "token_acc": 0.9365645046329294, "grad_norm": 0.8844788670539856, "learning_rate": 9.849551074445816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240549, "epoch": 0.3914170287369464, "step": 5135}, {"loss": 0.22845752239227296, "token_acc": 0.9165394402035624, "grad_norm": 0.8037666082382202, "learning_rate": 9.849259426441574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240598, "epoch": 0.39179815534720636, "step": 5140}, {"loss": 0.28097584247589114, "token_acc": 0.9069906096288568, "grad_norm": 0.8414119482040405, "learning_rate": 9.84896750035481e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240623, "epoch": 0.39217928195746626, "step": 5145}, {"loss": 0.15029506683349608, "token_acc": 0.9345902270103886, "grad_norm": 1.1328070163726807, "learning_rate": 9.848675296202263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240641, "epoch": 0.39256040856772617, "step": 5150}, {"loss": 0.2713578224182129, "token_acc": 0.8682385575589459, "grad_norm": 0.819054126739502, "learning_rate": 9.848382814000685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240719, "epoch": 0.39294153517798613, "step": 5155}, {"loss": 0.1613088369369507, "token_acc": 0.9259491030454735, "grad_norm": 0.8173410296440125, "learning_rate": 9.848090053766854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240772, "epoch": 0.39332266178824604, "step": 5160}, {"loss": 0.1606640100479126, "token_acc": 0.9453361246801582, "grad_norm": 1.2266457080841064, "learning_rate": 9.847797015517557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240825, "epoch": 0.393703788398506, "step": 5165}, {"loss": 0.2361292362213135, "token_acc": 0.9101425325346003, "grad_norm": 0.7925116419792175, "learning_rate": 9.847503699269596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240874, "epoch": 0.3940849150087659, "step": 5170}, {"loss": 0.20423665046691894, "token_acc": 0.9258560258829873, "grad_norm": 0.9408239722251892, "learning_rate": 9.847210105039795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240942, "epoch": 0.3944660416190258, "step": 5175}, {"loss": 0.1816067337989807, "token_acc": 0.9263588544710696, "grad_norm": 1.3070120811462402, "learning_rate": 9.846916232844986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240999, "epoch": 0.3948471682292858, "step": 5180}, {"loss": 0.15843185186386108, "token_acc": 0.9379239162488942, "grad_norm": 0.7797096967697144, "learning_rate": 9.846622082702023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241042, "epoch": 0.3952282948395457, "step": 5185}, {"loss": 0.20733649730682374, "token_acc": 0.918095508006235, "grad_norm": 0.8089981079101562, "learning_rate": 9.846327654627778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241083, "epoch": 0.3956094214498056, "step": 5190}, {"loss": 0.19331855773925782, "token_acc": 0.906701030927835, "grad_norm": 1.2698543071746826, "learning_rate": 9.84603294863913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241151, "epoch": 0.39599054806006556, "step": 5195}, {"loss": 0.2619925975799561, "token_acc": 0.892271662763466, "grad_norm": 0.7953601479530334, "learning_rate": 9.845737964752979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241226, "epoch": 0.39637167467032547, "step": 5200}, {"eval_loss": 0.14741991460323334, "eval_token_acc": 0.9263673875067767, "eval_runtime": 178.1932, "eval_samples_per_second": 2.974, "eval_steps_per_second": 2.974, "epoch": 0.39637167467032547, "step": 5200}, {"loss": 0.21658389568328856, "token_acc": 0.9258857766460531, "grad_norm": 1.3512409925460815, "learning_rate": 9.845442702986246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239303, "epoch": 0.39675280128058543, "step": 5205}, {"loss": 0.2163167953491211, "token_acc": 0.9094025465230167, "grad_norm": 2.059621572494507, "learning_rate": 9.845147163355857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239388, "epoch": 0.39713392789084534, "step": 5210}, {"loss": 0.14883772134780884, "token_acc": 0.9389353747552074, "grad_norm": 0.6279622316360474, "learning_rate": 9.844851345878763e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239422, "epoch": 0.39751505450110525, "step": 5215}, {"loss": 0.20449295043945312, "token_acc": 0.917702948162638, "grad_norm": 0.8725217580795288, "learning_rate": 9.844555250571927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239444, "epoch": 0.3978961811113652, "step": 5220}, {"loss": 0.18624258041381836, "token_acc": 0.9261171156638167, "grad_norm": 0.9944246411323547, "learning_rate": 9.844258877452331e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239481, "epoch": 0.3982773077216251, "step": 5225}, {"loss": 0.19931304454803467, "token_acc": 0.9164865395952053, "grad_norm": 0.8348492980003357, "learning_rate": 9.843962226536964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239532, "epoch": 0.398658434331885, "step": 5230}, {"loss": 0.22849133014678955, "token_acc": 0.9147507104107466, "grad_norm": 0.9587819576263428, "learning_rate": 9.843665297842845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239556, "epoch": 0.399039560942145, "step": 5235}, {"loss": 0.1740816831588745, "token_acc": 0.920144371757275, "grad_norm": 0.7294626832008362, "learning_rate": 9.843368091386999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239611, "epoch": 0.3994206875524049, "step": 5240}, {"loss": 0.1999659538269043, "token_acc": 0.9246531139077122, "grad_norm": 1.3237510919570923, "learning_rate": 9.843070607186469e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239651, "epoch": 0.39980181416266486, "step": 5245}, {"loss": 0.14377148151397706, "token_acc": 0.9165585819282317, "grad_norm": 0.6153662204742432, "learning_rate": 9.842772845258314e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239701, "epoch": 0.40018294077292477, "step": 5250}, {"loss": 0.17032755613327027, "token_acc": 0.9356333250599818, "grad_norm": 0.8737653493881226, "learning_rate": 9.842474805619608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239704, "epoch": 0.4005640673831847, "step": 5255}, {"loss": 0.17543500661849976, "token_acc": 0.9301225542894002, "grad_norm": 1.7577463388442993, "learning_rate": 9.842176488287444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239755, "epoch": 0.40094519399344464, "step": 5260}, {"loss": 0.21139540672302246, "token_acc": 0.9142472601422803, "grad_norm": 0.9472769498825073, "learning_rate": 9.84187789327893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23981, "epoch": 0.40132632060370454, "step": 5265}, {"loss": 0.21232914924621582, "token_acc": 0.9140083217753121, "grad_norm": 0.9857455492019653, "learning_rate": 9.841579020611187e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239853, "epoch": 0.40170744721396445, "step": 5270}, {"loss": 0.17319568395614623, "token_acc": 0.9370416493704165, "grad_norm": 0.5359882116317749, "learning_rate": 9.841279870301356e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23989, "epoch": 0.4020885738242244, "step": 5275}, {"loss": 0.15964758396148682, "token_acc": 0.930802415875755, "grad_norm": 0.645533561706543, "learning_rate": 9.84098044236659e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239937, "epoch": 0.4024697004344843, "step": 5280}, {"loss": 0.2068192481994629, "token_acc": 0.9106409851594569, "grad_norm": 0.8209419846534729, "learning_rate": 9.840680736824061e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240003, "epoch": 0.4028508270447443, "step": 5285}, {"loss": 0.1989890456199646, "token_acc": 0.9144602851323829, "grad_norm": 0.9682230353355408, "learning_rate": 9.840380753690955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240038, "epoch": 0.4032319536550042, "step": 5290}, {"loss": 0.1998154640197754, "token_acc": 0.9291177970423253, "grad_norm": 1.123693823814392, "learning_rate": 9.840080492984475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240035, "epoch": 0.4036130802652641, "step": 5295}, {"loss": 0.1598773717880249, "token_acc": 0.9208994708994709, "grad_norm": 0.9300686717033386, "learning_rate": 9.839779954721839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240094, "epoch": 0.40399420687552406, "step": 5300}, {"loss": 0.09797217845916747, "token_acc": 0.9442874444893016, "grad_norm": 0.9222313165664673, "learning_rate": 9.839479138920282e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240181, "epoch": 0.40437533348578397, "step": 5305}, {"loss": 0.24593062400817872, "token_acc": 0.8996802557953637, "grad_norm": 2.0927202701568604, "learning_rate": 9.839178045597053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24023, "epoch": 0.4047564600960439, "step": 5310}, {"loss": 0.20978541374206544, "token_acc": 0.908028956893715, "grad_norm": 2.071713447570801, "learning_rate": 9.838876674769422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240282, "epoch": 0.40513758670630384, "step": 5315}, {"loss": 0.2163994789123535, "token_acc": 0.9239093676022996, "grad_norm": 1.0447150468826294, "learning_rate": 9.838575026454668e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240346, "epoch": 0.40551871331656375, "step": 5320}, {"loss": 0.1837661623954773, "token_acc": 0.9215513442044954, "grad_norm": 1.0375614166259766, "learning_rate": 9.83827310067009e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240404, "epoch": 0.4058998399268237, "step": 5325}, {"loss": 0.13580844402313233, "token_acc": 0.948006379585327, "grad_norm": 2.1557810306549072, "learning_rate": 9.837970897433002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240477, "epoch": 0.4062809665370836, "step": 5330}, {"loss": 0.16056121587753297, "token_acc": 0.9431243680485338, "grad_norm": 0.8253194093704224, "learning_rate": 9.837668416760733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240536, "epoch": 0.40666209314734353, "step": 5335}, {"loss": 0.14908971786499023, "token_acc": 0.9344520188778186, "grad_norm": 0.6279621124267578, "learning_rate": 9.837365658670631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240551, "epoch": 0.4070432197576035, "step": 5340}, {"loss": 0.1973907470703125, "token_acc": 0.9024808862537057, "grad_norm": 0.7085779309272766, "learning_rate": 9.837062623180056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240603, "epoch": 0.4074243463678634, "step": 5345}, {"loss": 0.19592317342758178, "token_acc": 0.9265925809985913, "grad_norm": 1.2273069620132446, "learning_rate": 9.836759310306387e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240636, "epoch": 0.4078054729781233, "step": 5350}, {"loss": 0.20247371196746827, "token_acc": 0.9269434269434269, "grad_norm": 1.9406726360321045, "learning_rate": 9.836455720067015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240675, "epoch": 0.40818659958838327, "step": 5355}, {"loss": 0.1576331615447998, "token_acc": 0.9397466621020198, "grad_norm": 0.7291033864021301, "learning_rate": 9.836151852479354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240745, "epoch": 0.4085677261986432, "step": 5360}, {"loss": 0.261029052734375, "token_acc": 0.9036259541984732, "grad_norm": 0.8367064595222473, "learning_rate": 9.835847707560825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240776, "epoch": 0.40894885280890314, "step": 5365}, {"loss": 0.17764976024627685, "token_acc": 0.9421512966088691, "grad_norm": 1.0701203346252441, "learning_rate": 9.835543285328871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240789, "epoch": 0.40932997941916305, "step": 5370}, {"loss": 0.19765472412109375, "token_acc": 0.9074401008827239, "grad_norm": 1.3458871841430664, "learning_rate": 9.83523858580095e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240851, "epoch": 0.40971110602942296, "step": 5375}, {"loss": 0.17113955020904542, "token_acc": 0.946779303062302, "grad_norm": 1.6801986694335938, "learning_rate": 9.834933608994535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240901, "epoch": 0.4100922326396829, "step": 5380}, {"loss": 0.190246057510376, "token_acc": 0.9225031081641111, "grad_norm": 1.5063880681991577, "learning_rate": 9.834628354927112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240972, "epoch": 0.4104733592499428, "step": 5385}, {"loss": 0.20709993839263915, "token_acc": 0.9025718257645968, "grad_norm": 1.1311261653900146, "learning_rate": 9.83432282361619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241002, "epoch": 0.41085448586020273, "step": 5390}, {"loss": 0.25129971504211424, "token_acc": 0.8971907633475511, "grad_norm": 0.6697658896446228, "learning_rate": 9.834017015079288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241035, "epoch": 0.4112356124704627, "step": 5395}, {"loss": 0.2303314685821533, "token_acc": 0.916406858924396, "grad_norm": 0.9794591069221497, "learning_rate": 9.833710929333941e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241071, "epoch": 0.4116167390807226, "step": 5400}, {"eval_loss": 0.14790448546409607, "eval_token_acc": 0.9280163845551472, "eval_runtime": 176.1839, "eval_samples_per_second": 3.008, "eval_steps_per_second": 3.008, "epoch": 0.4116167390807226, "step": 5400}, {"loss": 0.17798929214477538, "token_acc": 0.9279552900924932, "grad_norm": 0.657495379447937, "learning_rate": 9.833404566397706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239241, "epoch": 0.41199786569098257, "step": 5405}, {"loss": 0.2844879627227783, "token_acc": 0.8903926234384295, "grad_norm": 1.5333033800125122, "learning_rate": 9.833097926288148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239272, "epoch": 0.4123789923012425, "step": 5410}, {"loss": 0.2016896963119507, "token_acc": 0.9292307692307692, "grad_norm": 0.8072861433029175, "learning_rate": 9.832791009022852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239325, "epoch": 0.4127601189115024, "step": 5415}, {"loss": 0.214288592338562, "token_acc": 0.9241358213520955, "grad_norm": 1.2160632610321045, "learning_rate": 9.832483814619417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239392, "epoch": 0.41314124552176235, "step": 5420}, {"loss": 0.18633885383605958, "token_acc": 0.9387064676616915, "grad_norm": 1.2003717422485352, "learning_rate": 9.832176343095463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239445, "epoch": 0.41352237213202225, "step": 5425}, {"loss": 0.1506732940673828, "token_acc": 0.9436459046315309, "grad_norm": 0.943347692489624, "learning_rate": 9.831868594468619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239495, "epoch": 0.41390349874228216, "step": 5430}, {"loss": 0.19785492420196532, "token_acc": 0.9235331497564075, "grad_norm": 1.0078617334365845, "learning_rate": 9.831560568756534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239549, "epoch": 0.4142846253525421, "step": 5435}, {"loss": 0.20800106525421141, "token_acc": 0.9152360515021459, "grad_norm": 1.5747328996658325, "learning_rate": 9.831252265976871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239611, "epoch": 0.41466575196280203, "step": 5440}, {"loss": 0.1543560266494751, "token_acc": 0.9343582656762826, "grad_norm": 0.6138991117477417, "learning_rate": 9.83094368614731e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239643, "epoch": 0.415046878573062, "step": 5445}, {"loss": 0.16219027042388917, "token_acc": 0.940232156087923, "grad_norm": 1.5423082113265991, "learning_rate": 9.830634829285547e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239695, "epoch": 0.4154280051833219, "step": 5450}, {"loss": 0.1920068621635437, "token_acc": 0.927784112504751, "grad_norm": 1.222476601600647, "learning_rate": 9.830325695409294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239767, "epoch": 0.4158091317935818, "step": 5455}, {"loss": 0.22992796897888185, "token_acc": 0.9054682955206516, "grad_norm": 0.9314525127410889, "learning_rate": 9.830016284536278e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239832, "epoch": 0.4161902584038418, "step": 5460}, {"loss": 0.28290157318115233, "token_acc": 0.8916195625460801, "grad_norm": 1.1477999687194824, "learning_rate": 9.829706596684243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239882, "epoch": 0.4165713850141017, "step": 5465}, {"loss": 0.22822000980377197, "token_acc": 0.9029600244125725, "grad_norm": 1.4484931230545044, "learning_rate": 9.829396631870945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239948, "epoch": 0.4169525116243616, "step": 5470}, {"loss": 0.1859412431716919, "token_acc": 0.9237463738085371, "grad_norm": 1.0545072555541992, "learning_rate": 9.829086390114162e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240027, "epoch": 0.41733363823462155, "step": 5475}, {"loss": 0.19536244869232178, "token_acc": 0.9314069673237915, "grad_norm": 1.4397956132888794, "learning_rate": 9.828775871431685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240041, "epoch": 0.41771476484488146, "step": 5480}, {"loss": 0.1251181960105896, "token_acc": 0.9505766062602965, "grad_norm": 1.3345972299575806, "learning_rate": 9.82846507584132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240097, "epoch": 0.4180958914551414, "step": 5485}, {"loss": 0.2102029800415039, "token_acc": 0.9150293002412961, "grad_norm": 1.1314537525177002, "learning_rate": 9.828154003360889e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240136, "epoch": 0.41847701806540133, "step": 5490}, {"loss": 0.19914332628250123, "token_acc": 0.9112611905135857, "grad_norm": 0.7623291015625, "learning_rate": 9.827842654008232e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240173, "epoch": 0.41885814467566124, "step": 5495}, {"loss": 0.2347170114517212, "token_acc": 0.9161451814768461, "grad_norm": 1.0895283222198486, "learning_rate": 9.827531027801203e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24023, "epoch": 0.4192392712859212, "step": 5500}, {"loss": 0.25099241733551025, "token_acc": 0.9105042016806723, "grad_norm": 1.3167550563812256, "learning_rate": 9.827219124757669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240273, "epoch": 0.4196203978961811, "step": 5505}, {"loss": 0.18462662696838378, "token_acc": 0.9113368103211639, "grad_norm": 0.9127209782600403, "learning_rate": 9.826906944895522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240343, "epoch": 0.420001524506441, "step": 5510}, {"loss": 0.2526489973068237, "token_acc": 0.8872702046479362, "grad_norm": 1.505408525466919, "learning_rate": 9.82659448823266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24041, "epoch": 0.420382651116701, "step": 5515}, {"loss": 0.1522266983985901, "token_acc": 0.9354995150339476, "grad_norm": 0.45108914375305176, "learning_rate": 9.826281754787005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240452, "epoch": 0.4207637777269609, "step": 5520}, {"loss": 0.23550994396209718, "token_acc": 0.9097222222222222, "grad_norm": 0.9531474113464355, "learning_rate": 9.825968744576486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240517, "epoch": 0.42114490433722085, "step": 5525}, {"loss": 0.24609601497650146, "token_acc": 0.9194769442532691, "grad_norm": 0.9390043020248413, "learning_rate": 9.825655457619054e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240566, "epoch": 0.42152603094748076, "step": 5530}, {"loss": 0.1472208619117737, "token_acc": 0.9293662312530238, "grad_norm": 2.0566720962524414, "learning_rate": 9.825341893932676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240639, "epoch": 0.42190715755774066, "step": 5535}, {"loss": 0.20836026668548585, "token_acc": 0.9198329023274319, "grad_norm": 0.6809375882148743, "learning_rate": 9.825028053535333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240644, "epoch": 0.4222882841680006, "step": 5540}, {"loss": 0.24791197776794432, "token_acc": 0.9143182928815768, "grad_norm": 0.895395815372467, "learning_rate": 9.824713936445022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240682, "epoch": 0.42266941077826053, "step": 5545}, {"loss": 0.14024617671966552, "token_acc": 0.9470338983050848, "grad_norm": 0.607596218585968, "learning_rate": 9.824399542679756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240705, "epoch": 0.42305053738852044, "step": 5550}, {"loss": 0.18848674297332763, "token_acc": 0.9279661016949152, "grad_norm": 1.3289097547531128, "learning_rate": 9.824084872257564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240743, "epoch": 0.4234316639987804, "step": 5555}, {"loss": 0.20795786380767822, "token_acc": 0.9223394055608821, "grad_norm": 1.2601559162139893, "learning_rate": 9.823769925196491e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240816, "epoch": 0.4238127906090403, "step": 5560}, {"loss": 0.17151944637298583, "token_acc": 0.9276847290640394, "grad_norm": 0.9429551959037781, "learning_rate": 9.823454701514598e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240858, "epoch": 0.4241939172193003, "step": 5565}, {"loss": 0.1971184253692627, "token_acc": 0.9214466712739, "grad_norm": 2.367288589477539, "learning_rate": 9.823139201229962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240914, "epoch": 0.4245750438295602, "step": 5570}, {"loss": 0.24548025131225587, "token_acc": 0.9088960342979635, "grad_norm": 1.402206301689148, "learning_rate": 9.822823424360674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240977, "epoch": 0.4249561704398201, "step": 5575}, {"loss": 0.21088643074035646, "token_acc": 0.920458212326557, "grad_norm": 1.0822885036468506, "learning_rate": 9.822507370924844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241013, "epoch": 0.42533729705008005, "step": 5580}, {"loss": 0.1941753387451172, "token_acc": 0.9225445834442374, "grad_norm": 1.0587328672409058, "learning_rate": 9.822191040940595e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241086, "epoch": 0.42571842366033996, "step": 5585}, {"loss": 0.2454383373260498, "token_acc": 0.9032258064516129, "grad_norm": 0.8872730135917664, "learning_rate": 9.821874434426067e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24115, "epoch": 0.42609955027059987, "step": 5590}, {"loss": 0.14410037994384767, "token_acc": 0.9159460394327222, "grad_norm": 1.2904049158096313, "learning_rate": 9.821557551399418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241227, "epoch": 0.42648067688085983, "step": 5595}, {"loss": 0.2021566390991211, "token_acc": 0.898493455174117, "grad_norm": 1.4907950162887573, "learning_rate": 9.821240391878816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241281, "epoch": 0.42686180349111974, "step": 5600}, {"eval_loss": 0.14358288049697876, "eval_token_acc": 0.9279410878862719, "eval_runtime": 173.6481, "eval_samples_per_second": 3.052, "eval_steps_per_second": 3.052, "epoch": 0.42686180349111974, "step": 5600}, {"loss": 0.20213518142700196, "token_acc": 0.9275284486762657, "grad_norm": 1.2165998220443726, "learning_rate": 9.820922955882453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239537, "epoch": 0.4272429301013797, "step": 5605}, {"loss": 0.1432071328163147, "token_acc": 0.9221386460662736, "grad_norm": 1.302382230758667, "learning_rate": 9.82060524342853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239585, "epoch": 0.4276240567116396, "step": 5610}, {"loss": 0.19002441167831421, "token_acc": 0.9255610290093049, "grad_norm": 1.8272764682769775, "learning_rate": 9.820287254535265e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239659, "epoch": 0.4280051833218995, "step": 5615}, {"loss": 0.2552043437957764, "token_acc": 0.8996229971724788, "grad_norm": 1.4285753965377808, "learning_rate": 9.819968989220895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239703, "epoch": 0.4283863099321595, "step": 5620}, {"loss": 0.18307424783706666, "token_acc": 0.9272574245521221, "grad_norm": 0.7161190509796143, "learning_rate": 9.819650447503672e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239715, "epoch": 0.4287674365424194, "step": 5625}, {"loss": 0.2075108528137207, "token_acc": 0.92487597448618, "grad_norm": 1.7430254220962524, "learning_rate": 9.81933162940186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239771, "epoch": 0.4291485631526793, "step": 5630}, {"loss": 0.2114635229110718, "token_acc": 0.9172521467603435, "grad_norm": 0.792046308517456, "learning_rate": 9.819012534933747e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23982, "epoch": 0.42952968976293926, "step": 5635}, {"loss": 0.22358734607696534, "token_acc": 0.9021915584415584, "grad_norm": 1.4989656209945679, "learning_rate": 9.818693164117624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239895, "epoch": 0.42991081637319917, "step": 5640}, {"loss": 0.18430403470993043, "token_acc": 0.928936264712414, "grad_norm": 1.0632662773132324, "learning_rate": 9.818373516971813e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239947, "epoch": 0.43029194298345913, "step": 5645}, {"loss": 0.2075711488723755, "token_acc": 0.9209650582362728, "grad_norm": 0.8415993452072144, "learning_rate": 9.818053593514637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240017, "epoch": 0.43067306959371904, "step": 5650}, {"loss": 0.13644307851791382, "token_acc": 0.9398326898326899, "grad_norm": 0.8282695412635803, "learning_rate": 9.81773339376445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240081, "epoch": 0.43105419620397895, "step": 5655}, {"loss": 0.18360655307769774, "token_acc": 0.8999142734676382, "grad_norm": 0.8056726455688477, "learning_rate": 9.817412917739607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240135, "epoch": 0.4314353228142389, "step": 5660}, {"loss": 0.18366410732269287, "token_acc": 0.9255405956752346, "grad_norm": 1.007015585899353, "learning_rate": 9.81709216545849e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240188, "epoch": 0.4318164494244988, "step": 5665}, {"loss": 0.20480496883392335, "token_acc": 0.9271661783172875, "grad_norm": 0.9485337734222412, "learning_rate": 9.81677113693949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240242, "epoch": 0.4321975760347587, "step": 5670}, {"loss": 0.2174469232559204, "token_acc": 0.914601331256196, "grad_norm": 1.1508936882019043, "learning_rate": 9.81644983220102e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240287, "epoch": 0.4325787026450187, "step": 5675}, {"loss": 0.160527503490448, "token_acc": 0.9397488119484046, "grad_norm": 2.330214023590088, "learning_rate": 9.816128251261502e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240313, "epoch": 0.4329598292552786, "step": 5680}, {"loss": 0.16370599269866942, "token_acc": 0.9375946682823387, "grad_norm": 0.8409305214881897, "learning_rate": 9.815806394139378e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240342, "epoch": 0.43334095586553856, "step": 5685}, {"loss": 0.15654292106628417, "token_acc": 0.933003204194582, "grad_norm": 1.1967177391052246, "learning_rate": 9.815484260853107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240403, "epoch": 0.43372208247579846, "step": 5690}, {"loss": 0.1910780429840088, "token_acc": 0.9326254119370194, "grad_norm": 1.5668656826019287, "learning_rate": 9.815161851421158e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240469, "epoch": 0.4341032090860584, "step": 5695}, {"loss": 0.13768833875656128, "token_acc": 0.9392446633825944, "grad_norm": 1.0367659330368042, "learning_rate": 9.814839165862023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240519, "epoch": 0.43448433569631834, "step": 5700}, {"loss": 0.15689183473587037, "token_acc": 0.941594317284925, "grad_norm": 1.1778161525726318, "learning_rate": 9.814516204194207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24055, "epoch": 0.43486546230657824, "step": 5705}, {"loss": 0.1788067936897278, "token_acc": 0.9265949269792467, "grad_norm": 1.0071607828140259, "learning_rate": 9.814192966436225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240592, "epoch": 0.43524658891683815, "step": 5710}, {"loss": 0.2364574432373047, "token_acc": 0.9165201199958622, "grad_norm": 2.2545182704925537, "learning_rate": 9.813869452606619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240605, "epoch": 0.4356277155270981, "step": 5715}, {"loss": 0.16898825168609619, "token_acc": 0.9426534910092338, "grad_norm": 1.589725375175476, "learning_rate": 9.813545662723939e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240637, "epoch": 0.436008842137358, "step": 5720}, {"loss": 0.17856762409210206, "token_acc": 0.9348637015781922, "grad_norm": 1.1484736204147339, "learning_rate": 9.813221596806754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240701, "epoch": 0.436389968747618, "step": 5725}, {"loss": 0.13222430944442748, "token_acc": 0.9312141740489839, "grad_norm": 1.6593124866485596, "learning_rate": 9.812897254873646e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240763, "epoch": 0.4367710953578779, "step": 5730}, {"loss": 0.19443143606185914, "token_acc": 0.9239925182792043, "grad_norm": 0.7942419052124023, "learning_rate": 9.812572636943213e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240817, "epoch": 0.4371522219681378, "step": 5735}, {"loss": 0.20177702903747557, "token_acc": 0.9247989910137159, "grad_norm": 0.8438810110092163, "learning_rate": 9.812247743034072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240857, "epoch": 0.43753334857839776, "step": 5740}, {"loss": 0.20316269397735595, "token_acc": 0.9099661722612542, "grad_norm": 0.7885280251502991, "learning_rate": 9.811922573164858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240913, "epoch": 0.43791447518865767, "step": 5745}, {"loss": 0.21400582790374756, "token_acc": 0.9121644017235665, "grad_norm": 1.4747692346572876, "learning_rate": 9.811597127354212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24098, "epoch": 0.4382956017989176, "step": 5750}, {"loss": 0.2548990249633789, "token_acc": 0.8939986953685584, "grad_norm": 1.2477864027023315, "learning_rate": 9.811271405620801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241048, "epoch": 0.43867672840917754, "step": 5755}, {"loss": 0.18732240200042724, "token_acc": 0.92830626450116, "grad_norm": 1.4822957515716553, "learning_rate": 9.810945407983301e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24111, "epoch": 0.43905785501943745, "step": 5760}, {"loss": 0.16111267805099488, "token_acc": 0.9260869565217391, "grad_norm": 0.2816905975341797, "learning_rate": 9.810619134460406e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241155, "epoch": 0.4394389816296974, "step": 5765}, {"loss": 0.16373000144958497, "token_acc": 0.9322115384615385, "grad_norm": 1.3071860074996948, "learning_rate": 9.810292585070829e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241194, "epoch": 0.4398201082399573, "step": 5770}, {"loss": 0.24101948738098145, "token_acc": 0.9156074182121275, "grad_norm": 1.3119615316390991, "learning_rate": 9.809965759833295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241237, "epoch": 0.4402012348502172, "step": 5775}, {"loss": 0.23722944259643555, "token_acc": 0.891213389121339, "grad_norm": 0.7399266362190247, "learning_rate": 9.809638658766545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241298, "epoch": 0.4405823614604772, "step": 5780}, {"loss": 0.18381640911102295, "token_acc": 0.9190140845070423, "grad_norm": 0.7628763914108276, "learning_rate": 9.809311281889337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241351, "epoch": 0.4409634880707371, "step": 5785}, {"loss": 0.1581476092338562, "token_acc": 0.933290050316507, "grad_norm": 0.7859430313110352, "learning_rate": 9.808983629220446e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241379, "epoch": 0.441344614680997, "step": 5790}, {"loss": 0.2195117712020874, "token_acc": 0.9146567717996289, "grad_norm": 1.3257243633270264, "learning_rate": 9.80865570077866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241383, "epoch": 0.44172574129125697, "step": 5795}, {"loss": 0.1879459023475647, "token_acc": 0.9262930257704091, "grad_norm": 1.1205910444259644, "learning_rate": 9.808327496582785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241442, "epoch": 0.4421068679015169, "step": 5800}, {"eval_loss": 0.14410848915576935, "eval_token_acc": 0.9296126739353051, "eval_runtime": 175.7521, "eval_samples_per_second": 3.016, "eval_steps_per_second": 3.016, "epoch": 0.4421068679015169, "step": 5800}, {"loss": 0.15974504947662355, "token_acc": 0.9297647803082586, "grad_norm": 0.7860932946205139, "learning_rate": 9.80799901665164e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239724, "epoch": 0.44248799451177684, "step": 5805}, {"loss": 0.1702812910079956, "token_acc": 0.9422572178477691, "grad_norm": 1.0670915842056274, "learning_rate": 9.807670261004064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239764, "epoch": 0.44286912112203675, "step": 5810}, {"loss": 0.2053752899169922, "token_acc": 0.9192162255070471, "grad_norm": 1.1350347995758057, "learning_rate": 9.807341229658909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239833, "epoch": 0.44325024773229665, "step": 5815}, {"loss": 0.1516520142555237, "token_acc": 0.9405, "grad_norm": 0.7824772000312805, "learning_rate": 9.807011922635043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239908, "epoch": 0.4436313743425566, "step": 5820}, {"loss": 0.1715189814567566, "token_acc": 0.9367866549604916, "grad_norm": 0.7652502655982971, "learning_rate": 9.80668233995135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239949, "epoch": 0.4440125009528165, "step": 5825}, {"loss": 0.16164605617523192, "token_acc": 0.9404517453798767, "grad_norm": 1.0123487710952759, "learning_rate": 9.806352481626731e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240006, "epoch": 0.44439362756307643, "step": 5830}, {"loss": 0.20975229740142823, "token_acc": 0.9284684164984136, "grad_norm": 0.8436840772628784, "learning_rate": 9.806022347680102e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240068, "epoch": 0.4447747541733364, "step": 5835}, {"loss": 0.1857348084449768, "token_acc": 0.9213706340009932, "grad_norm": 0.815699577331543, "learning_rate": 9.805691938130393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24011, "epoch": 0.4451558807835963, "step": 5840}, {"loss": 0.3212902545928955, "token_acc": 0.8871435476075399, "grad_norm": 1.0349758863449097, "learning_rate": 9.805361252996553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240169, "epoch": 0.44553700739385627, "step": 5845}, {"loss": 0.21832432746887206, "token_acc": 0.9196081062944571, "grad_norm": 1.031275749206543, "learning_rate": 9.805030292297545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24018, "epoch": 0.4459181340041162, "step": 5850}, {"loss": 0.17147910594940186, "token_acc": 0.9186902133922001, "grad_norm": 0.8122202157974243, "learning_rate": 9.804699056052346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240242, "epoch": 0.4462992606143761, "step": 5855}, {"loss": 0.2476818323135376, "token_acc": 0.903143585386576, "grad_norm": 0.9089215993881226, "learning_rate": 9.804367544279955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240301, "epoch": 0.44668038722463604, "step": 5860}, {"loss": 0.12944949865341188, "token_acc": 0.9380781574476118, "grad_norm": 1.6330487728118896, "learning_rate": 9.804035756999379e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240334, "epoch": 0.44706151383489595, "step": 5865}, {"loss": 0.1967276453971863, "token_acc": 0.9038013964313422, "grad_norm": 0.898857593536377, "learning_rate": 9.803703694229647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240406, "epoch": 0.44744264044515586, "step": 5870}, {"loss": 0.19658491611480713, "token_acc": 0.924646265218822, "grad_norm": 0.8442309498786926, "learning_rate": 9.803371355989799e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24044, "epoch": 0.4478237670554158, "step": 5875}, {"loss": 0.17091988325119017, "token_acc": 0.9299492385786802, "grad_norm": 0.9960586428642273, "learning_rate": 9.803038742298895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240506, "epoch": 0.44820489366567573, "step": 5880}, {"loss": 0.2259000062942505, "token_acc": 0.9284649776453056, "grad_norm": 1.6009372472763062, "learning_rate": 9.802705853176006e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240546, "epoch": 0.4485860202759357, "step": 5885}, {"loss": 0.13849483728408812, "token_acc": 0.9373254189944135, "grad_norm": 0.6210229396820068, "learning_rate": 9.802372688640226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240596, "epoch": 0.4489671468861956, "step": 5890}, {"loss": 0.2212167501449585, "token_acc": 0.9153702551337897, "grad_norm": 0.9559767842292786, "learning_rate": 9.802039248710658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240631, "epoch": 0.4493482734964555, "step": 5895}, {"loss": 0.19691673517227173, "token_acc": 0.9273869346733669, "grad_norm": 1.0159063339233398, "learning_rate": 9.801705533406421e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240681, "epoch": 0.44972940010671547, "step": 5900}, {"loss": 0.20128841400146485, "token_acc": 0.9102515243902439, "grad_norm": 1.3927607536315918, "learning_rate": 9.801371542746656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240716, "epoch": 0.4501105267169754, "step": 5905}, {"loss": 0.19798550605773926, "token_acc": 0.9239709443099273, "grad_norm": 0.8727665543556213, "learning_rate": 9.801037276750513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240774, "epoch": 0.4504916533272353, "step": 5910}, {"loss": 0.19158585071563722, "token_acc": 0.9345447440406409, "grad_norm": 0.8969955444335938, "learning_rate": 9.800702735437163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240826, "epoch": 0.45087277993749525, "step": 5915}, {"loss": 0.19772069454193114, "token_acc": 0.914179104477612, "grad_norm": 1.0912129878997803, "learning_rate": 9.800367918825788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240883, "epoch": 0.45125390654775516, "step": 5920}, {"loss": 0.13649771213531495, "token_acc": 0.9254468085106383, "grad_norm": 1.689038634300232, "learning_rate": 9.80003282693559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240927, "epoch": 0.4516350331580151, "step": 5925}, {"loss": 0.15688211917877198, "token_acc": 0.9460495283018868, "grad_norm": 2.212923765182495, "learning_rate": 9.799697459785784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240976, "epoch": 0.452016159768275, "step": 5930}, {"loss": 0.17155764102935792, "token_acc": 0.9236372180451128, "grad_norm": 0.4153003990650177, "learning_rate": 9.799361817395603e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241025, "epoch": 0.45239728637853494, "step": 5935}, {"loss": 0.21812257766723633, "token_acc": 0.9091167282022152, "grad_norm": 0.7915443778038025, "learning_rate": 9.799025899784291e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241084, "epoch": 0.4527784129887949, "step": 5940}, {"loss": 0.1444568157196045, "token_acc": 0.9345335515548282, "grad_norm": 1.0526578426361084, "learning_rate": 9.798689706971116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241105, "epoch": 0.4531595395990548, "step": 5945}, {"loss": 0.2149744987487793, "token_acc": 0.9049147937762411, "grad_norm": 0.9020674824714661, "learning_rate": 9.798353238975354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24117, "epoch": 0.4535406662093147, "step": 5950}, {"loss": 0.19787540435791015, "token_acc": 0.9326708578381667, "grad_norm": 1.3054205179214478, "learning_rate": 9.798016495816301e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24121, "epoch": 0.4539217928195747, "step": 5955}, {"loss": 0.23945987224578857, "token_acc": 0.9138098318240621, "grad_norm": 1.297041416168213, "learning_rate": 9.797679477513268e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241242, "epoch": 0.4543029194298346, "step": 5960}, {"loss": 0.2548996925354004, "token_acc": 0.9067090115125049, "grad_norm": 1.0065598487854004, "learning_rate": 9.79734218408558e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241292, "epoch": 0.4546840460400945, "step": 5965}, {"loss": 0.23904087543487548, "token_acc": 0.9077245718280321, "grad_norm": 1.2521307468414307, "learning_rate": 9.797004615552581e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241304, "epoch": 0.45506517265035445, "step": 5970}, {"loss": 0.18243277072906494, "token_acc": 0.9320049813200498, "grad_norm": 1.3853578567504883, "learning_rate": 9.796666771933627e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241345, "epoch": 0.45544629926061436, "step": 5975}, {"loss": 0.1856495499610901, "token_acc": 0.919170381856949, "grad_norm": 0.6620686650276184, "learning_rate": 9.796328653248095e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241397, "epoch": 0.4558274258708743, "step": 5980}, {"loss": 0.19147990942001342, "token_acc": 0.9288125191776618, "grad_norm": 1.2593777179718018, "learning_rate": 9.79599025951537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241422, "epoch": 0.45620855248113423, "step": 5985}, {"loss": 0.2085340738296509, "token_acc": 0.91320293398533, "grad_norm": 1.281211495399475, "learning_rate": 9.795651590754862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241494, "epoch": 0.45658967909139414, "step": 5990}, {"loss": 0.1084937572479248, "token_acc": 0.9557425018288223, "grad_norm": 1.3750882148742676, "learning_rate": 9.795312646985988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241534, "epoch": 0.4569708057016541, "step": 5995}, {"loss": 0.18103621006011963, "token_acc": 0.9323658634003461, "grad_norm": 0.5986596345901489, "learning_rate": 9.794973428228186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241551, "epoch": 0.457351932311914, "step": 6000}, {"eval_loss": 0.13991156220436096, "eval_token_acc": 0.9302602252876333, "eval_runtime": 175.2782, "eval_samples_per_second": 3.024, "eval_steps_per_second": 3.024, "epoch": 0.457351932311914, "step": 6000}, {"loss": 0.193447482585907, "token_acc": 0.9300073248148449, "grad_norm": 1.8880329132080078, "learning_rate": 9.794633934500912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239922, "epoch": 0.4577330589221739, "step": 6005}, {"loss": 0.20707921981811522, "token_acc": 0.9063872930043934, "grad_norm": 1.0271570682525635, "learning_rate": 9.79429416582363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239982, "epoch": 0.4581141855324339, "step": 6010}, {"loss": 0.19072439670562744, "token_acc": 0.9238711453744494, "grad_norm": 1.417992115020752, "learning_rate": 9.793954122215828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240018, "epoch": 0.4584953121426938, "step": 6015}, {"loss": 0.23551995754241944, "token_acc": 0.9222369291859696, "grad_norm": 0.9639965295791626, "learning_rate": 9.793613803697e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240037, "epoch": 0.45887643875295375, "step": 6020}, {"loss": 0.17370550632476806, "token_acc": 0.9396623304732908, "grad_norm": 1.2461316585540771, "learning_rate": 9.793273210286668e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240091, "epoch": 0.45925756536321366, "step": 6025}, {"loss": 0.22397143840789796, "token_acc": 0.9127338963404538, "grad_norm": 0.9793689846992493, "learning_rate": 9.79293234200436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240127, "epoch": 0.45963869197347357, "step": 6030}, {"loss": 0.18809986114501953, "token_acc": 0.9366605214643139, "grad_norm": 0.8239403963088989, "learning_rate": 9.792591198869624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240142, "epoch": 0.46001981858373353, "step": 6035}, {"loss": 0.15295557975769042, "token_acc": 0.9329516069449575, "grad_norm": 1.0634331703186035, "learning_rate": 9.792249780902023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240171, "epoch": 0.46040094519399344, "step": 6040}, {"loss": 0.13063251972198486, "token_acc": 0.9381800197823936, "grad_norm": 1.485556960105896, "learning_rate": 9.791908088121136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240217, "epoch": 0.46078207180425335, "step": 6045}, {"loss": 0.28245253562927247, "token_acc": 0.8954781319495922, "grad_norm": 2.4607880115509033, "learning_rate": 9.791566120546558e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240273, "epoch": 0.4611631984145133, "step": 6050}, {"loss": 0.18415912389755248, "token_acc": 0.9296092184368737, "grad_norm": 1.2964967489242554, "learning_rate": 9.791223878197898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240329, "epoch": 0.4615443250247732, "step": 6055}, {"loss": 0.17172136306762695, "token_acc": 0.9167776298268975, "grad_norm": 0.771730363368988, "learning_rate": 9.790881361094783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240388, "epoch": 0.4619254516350332, "step": 6060}, {"loss": 0.14651261568069457, "token_acc": 0.944647201946472, "grad_norm": 1.3884042501449585, "learning_rate": 9.790538569256855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240446, "epoch": 0.4623065782452931, "step": 6065}, {"loss": 0.15576455593109131, "token_acc": 0.9360902255639098, "grad_norm": 1.105020523071289, "learning_rate": 9.79019550270377e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240518, "epoch": 0.462687704855553, "step": 6070}, {"loss": 0.13167004585266112, "token_acc": 0.9384745048461862, "grad_norm": 0.15740063786506653, "learning_rate": 9.789852161455201e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240573, "epoch": 0.46306883146581296, "step": 6075}, {"loss": 0.16045811176300048, "token_acc": 0.9302813017098731, "grad_norm": 0.2486758530139923, "learning_rate": 9.78950854553084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240588, "epoch": 0.46344995807607287, "step": 6080}, {"loss": 0.13247040510177613, "token_acc": 0.941397445529677, "grad_norm": 1.312091588973999, "learning_rate": 9.789164654950389e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240664, "epoch": 0.4638310846863328, "step": 6085}, {"loss": 0.20113954544067383, "token_acc": 0.9264722830471361, "grad_norm": 1.0914182662963867, "learning_rate": 9.788820489733569e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240659, "epoch": 0.46421221129659274, "step": 6090}, {"loss": 0.1981325626373291, "token_acc": 0.9212381244253754, "grad_norm": 0.9428834915161133, "learning_rate": 9.788476049900118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240686, "epoch": 0.46459333790685264, "step": 6095}, {"loss": 0.1840927243232727, "token_acc": 0.9277456647398844, "grad_norm": 1.2574355602264404, "learning_rate": 9.788131335469786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240714, "epoch": 0.4649744645171126, "step": 6100}, {"loss": 0.22618136405944825, "token_acc": 0.8960548074651548, "grad_norm": 1.0052565336227417, "learning_rate": 9.787786346462341e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240772, "epoch": 0.4653555911273725, "step": 6105}, {"loss": 0.20226945877075195, "token_acc": 0.9337738399159032, "grad_norm": 0.7051888108253479, "learning_rate": 9.787441082897569e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240799, "epoch": 0.4657367177376324, "step": 6110}, {"loss": 0.15390095710754395, "token_acc": 0.9313614811469858, "grad_norm": 0.5594191551208496, "learning_rate": 9.787095544795264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240861, "epoch": 0.4661178443478924, "step": 6115}, {"loss": 0.2082515001296997, "token_acc": 0.918763479511143, "grad_norm": 1.0632768869400024, "learning_rate": 9.786749732175248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240888, "epoch": 0.4664989709581523, "step": 6120}, {"loss": 0.21178140640258789, "token_acc": 0.9279760632613806, "grad_norm": 0.570037305355072, "learning_rate": 9.786403645057346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240936, "epoch": 0.4668800975684122, "step": 6125}, {"loss": 0.17590250968933105, "token_acc": 0.9260831122900088, "grad_norm": 0.5749973058700562, "learning_rate": 9.786057283461407e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240981, "epoch": 0.46726122417867216, "step": 6130}, {"loss": 0.17096209526062012, "token_acc": 0.9377641183250096, "grad_norm": 1.78145432472229, "learning_rate": 9.785710647407293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241046, "epoch": 0.46764235078893207, "step": 6135}, {"loss": 0.18834007978439332, "token_acc": 0.9413496376811594, "grad_norm": 1.1055325269699097, "learning_rate": 9.78536373691488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241098, "epoch": 0.46802347739919203, "step": 6140}, {"loss": 0.20599629878997802, "token_acc": 0.9043166898746767, "grad_norm": 0.19333411753177643, "learning_rate": 9.785016552004067e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241143, "epoch": 0.46840460400945194, "step": 6145}, {"loss": 0.1009904384613037, "token_acc": 0.9367192299815688, "grad_norm": 0.502638041973114, "learning_rate": 9.784669092694758e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241174, "epoch": 0.46878573061971185, "step": 6150}, {"loss": 0.19954068660736085, "token_acc": 0.9176623376623376, "grad_norm": 1.298183798789978, "learning_rate": 9.78432135900688e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241226, "epoch": 0.4691668572299718, "step": 6155}, {"loss": 0.18137484788894653, "token_acc": 0.9456163007605108, "grad_norm": 1.2767728567123413, "learning_rate": 9.783973350960375e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241246, "epoch": 0.4695479838402317, "step": 6160}, {"loss": 0.1530519485473633, "token_acc": 0.945615404631798, "grad_norm": 0.7384737730026245, "learning_rate": 9.783625068575197e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2413, "epoch": 0.4699291104504916, "step": 6165}, {"loss": 0.20192952156066896, "token_acc": 0.9290009250693803, "grad_norm": 1.1244175434112549, "learning_rate": 9.783276511871323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241346, "epoch": 0.4703102370607516, "step": 6170}, {"loss": 0.16360985040664672, "token_acc": 0.9380905832518736, "grad_norm": 0.7620112895965576, "learning_rate": 9.782927680868734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241377, "epoch": 0.4706913636710115, "step": 6175}, {"loss": 0.17476404905319215, "token_acc": 0.9248736273313578, "grad_norm": 1.8818175792694092, "learning_rate": 9.782578575587441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241401, "epoch": 0.47107249028127146, "step": 6180}, {"loss": 0.1421543002128601, "token_acc": 0.9367930805056554, "grad_norm": 0.5214102864265442, "learning_rate": 9.78222919604746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241457, "epoch": 0.47145361689153137, "step": 6185}, {"loss": 0.16018153429031373, "token_acc": 0.9360016677089847, "grad_norm": 1.2178155183792114, "learning_rate": 9.781879542268826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241499, "epoch": 0.4718347435017913, "step": 6190}, {"loss": 0.18035542964935303, "token_acc": 0.9304424389170152, "grad_norm": 1.4756392240524292, "learning_rate": 9.781529614271591e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241546, "epoch": 0.47221587011205124, "step": 6195}, {"loss": 0.2081521987915039, "token_acc": 0.9164727178691492, "grad_norm": 0.8919601440429688, "learning_rate": 9.781179412075822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241592, "epoch": 0.47259699672231115, "step": 6200}, {"eval_loss": 0.1436389684677124, "eval_token_acc": 0.9298686826094814, "eval_runtime": 177.2465, "eval_samples_per_second": 2.99, "eval_steps_per_second": 2.99, "epoch": 0.47259699672231115, "step": 6200}, {"loss": 0.1946765422821045, "token_acc": 0.9297743407888459, "grad_norm": 0.9285817742347717, "learning_rate": 9.780828935701602e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239965, "epoch": 0.47297812333257105, "step": 6205}, {"loss": 0.2110511302947998, "token_acc": 0.9335609617299758, "grad_norm": 0.5768506526947021, "learning_rate": 9.780478185169027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239989, "epoch": 0.473359249942831, "step": 6210}, {"loss": 0.18445327281951904, "token_acc": 0.9310850439882697, "grad_norm": 1.3330050706863403, "learning_rate": 9.780127160498214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240016, "epoch": 0.4737403765530909, "step": 6215}, {"loss": 0.21979308128356934, "token_acc": 0.9230769230769231, "grad_norm": 0.8476679921150208, "learning_rate": 9.779775861709288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240051, "epoch": 0.4741215031633509, "step": 6220}, {"loss": 0.16875656843185424, "token_acc": 0.9388928828181164, "grad_norm": 0.828378438949585, "learning_rate": 9.7794242888224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240108, "epoch": 0.4745026297736108, "step": 6225}, {"loss": 0.17264634370803833, "token_acc": 0.9228723404255319, "grad_norm": 1.2499819993972778, "learning_rate": 9.779072441857706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240169, "epoch": 0.4748837563838707, "step": 6230}, {"loss": 0.1622241497039795, "token_acc": 0.9402938901778809, "grad_norm": 0.8028970956802368, "learning_rate": 9.778720320835386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2402, "epoch": 0.47526488299413067, "step": 6235}, {"loss": 0.18411366939544677, "token_acc": 0.9138078902229846, "grad_norm": 0.8611127138137817, "learning_rate": 9.778367925775632e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240265, "epoch": 0.4756460096043906, "step": 6240}, {"loss": 0.1830517292022705, "token_acc": 0.9132610508757297, "grad_norm": 1.0704749822616577, "learning_rate": 9.778015256698651e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240314, "epoch": 0.4760271362146505, "step": 6245}, {"loss": 0.12964816093444825, "token_acc": 0.9480249480249481, "grad_norm": 1.0482726097106934, "learning_rate": 9.77766231362467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240318, "epoch": 0.47640826282491044, "step": 6250}, {"loss": 0.20174243450164794, "token_acc": 0.9307603353570396, "grad_norm": 0.9440543055534363, "learning_rate": 9.777309096573923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240351, "epoch": 0.47678938943517035, "step": 6255}, {"loss": 0.19633069038391113, "token_acc": 0.9244060475161987, "grad_norm": 0.863926887512207, "learning_rate": 9.776955605566671e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240371, "epoch": 0.4771705160454303, "step": 6260}, {"loss": 0.23889293670654296, "token_acc": 0.900495867768595, "grad_norm": 0.986570417881012, "learning_rate": 9.776601840623182e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240432, "epoch": 0.4775516426556902, "step": 6265}, {"loss": 0.1475817084312439, "token_acc": 0.9521544487968663, "grad_norm": 0.7743133902549744, "learning_rate": 9.776247801763744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240493, "epoch": 0.47793276926595013, "step": 6270}, {"loss": 0.12543011903762818, "token_acc": 0.9501424501424501, "grad_norm": 0.9538258910179138, "learning_rate": 9.775893489008658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240541, "epoch": 0.4783138958762101, "step": 6275}, {"loss": 0.13363256454467773, "token_acc": 0.9299855142443264, "grad_norm": 0.6504844427108765, "learning_rate": 9.775538902378245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240597, "epoch": 0.47869502248647, "step": 6280}, {"loss": 0.18660924434661866, "token_acc": 0.929216220088838, "grad_norm": 0.8694522380828857, "learning_rate": 9.775184041892836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240639, "epoch": 0.4790761490967299, "step": 6285}, {"loss": 0.16778392791748048, "token_acc": 0.9315789473684211, "grad_norm": 0.43452000617980957, "learning_rate": 9.774828907572782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240689, "epoch": 0.47945727570698987, "step": 6290}, {"loss": 0.17738786935806275, "token_acc": 0.9327010760532555, "grad_norm": 0.9831333756446838, "learning_rate": 9.774473499438448e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240724, "epoch": 0.4798384023172498, "step": 6295}, {"loss": 0.17861173152923585, "token_acc": 0.9323705040966532, "grad_norm": 1.3676713705062866, "learning_rate": 9.774117817510214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240743, "epoch": 0.48021952892750974, "step": 6300}, {"loss": 0.24651014804840088, "token_acc": 0.9055238095238095, "grad_norm": 0.8645610809326172, "learning_rate": 9.77376186180848e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240785, "epoch": 0.48060065553776965, "step": 6305}, {"loss": 0.15430068969726562, "token_acc": 0.9443252114631991, "grad_norm": 0.525933563709259, "learning_rate": 9.773405632353654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240803, "epoch": 0.48098178214802956, "step": 6310}, {"loss": 0.22492051124572754, "token_acc": 0.9024506305020223, "grad_norm": 1.2553365230560303, "learning_rate": 9.773049129166168e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240853, "epoch": 0.4813629087582895, "step": 6315}, {"loss": 0.22755539417266846, "token_acc": 0.9074550128534704, "grad_norm": 1.5549840927124023, "learning_rate": 9.772692352266464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240884, "epoch": 0.48174403536854943, "step": 6320}, {"loss": 0.18742153644561768, "token_acc": 0.933064173395665, "grad_norm": 0.7906176447868347, "learning_rate": 9.772335301675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240935, "epoch": 0.48212516197880934, "step": 6325}, {"loss": 0.18241484165191652, "token_acc": 0.9310298826040555, "grad_norm": 0.809965968132019, "learning_rate": 9.771977977412254e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240962, "epoch": 0.4825062885890693, "step": 6330}, {"loss": 0.13738546371459961, "token_acc": 0.9460628785693683, "grad_norm": 1.0171654224395752, "learning_rate": 9.771620379498716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241019, "epoch": 0.4828874151993292, "step": 6335}, {"loss": 0.19574857950210572, "token_acc": 0.9178541492036881, "grad_norm": 0.8749512434005737, "learning_rate": 9.77126250795489e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241055, "epoch": 0.48326854180958917, "step": 6340}, {"loss": 0.16193156242370604, "token_acc": 0.9309173272933182, "grad_norm": 0.9702167510986328, "learning_rate": 9.770904362801304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241106, "epoch": 0.4836496684198491, "step": 6345}, {"loss": 0.18963894844055176, "token_acc": 0.9279203477773104, "grad_norm": 0.942905843257904, "learning_rate": 9.77054594405849e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241133, "epoch": 0.484030795030109, "step": 6350}, {"loss": 0.196355938911438, "token_acc": 0.921037210665104, "grad_norm": 0.6703991293907166, "learning_rate": 9.770187251747005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241174, "epoch": 0.48441192164036895, "step": 6355}, {"loss": 0.18587944507598878, "token_acc": 0.9198664440734557, "grad_norm": 0.9493531584739685, "learning_rate": 9.769828285887417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241234, "epoch": 0.48479304825062886, "step": 6360}, {"loss": 0.17140390872955322, "token_acc": 0.9224291911201837, "grad_norm": 0.8998671770095825, "learning_rate": 9.769469046500313e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24128, "epoch": 0.48517417486088876, "step": 6365}, {"loss": 0.16919420957565307, "token_acc": 0.9428067523305619, "grad_norm": 0.641680121421814, "learning_rate": 9.76910953360629e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241335, "epoch": 0.4855553014711487, "step": 6370}, {"loss": 0.19004164934158324, "token_acc": 0.924864446165763, "grad_norm": 2.2604432106018066, "learning_rate": 9.768749747225968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241391, "epoch": 0.48593642808140863, "step": 6375}, {"loss": 0.11925365924835205, "token_acc": 0.9522058823529411, "grad_norm": 0.9189158082008362, "learning_rate": 9.768389687379978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241458, "epoch": 0.4863175546916686, "step": 6380}, {"loss": 0.21883459091186525, "token_acc": 0.8939354161197165, "grad_norm": 1.0211783647537231, "learning_rate": 9.768029354088966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241508, "epoch": 0.4866986813019285, "step": 6385}, {"loss": 0.1395933747291565, "token_acc": 0.9345101048861602, "grad_norm": 0.6961852312088013, "learning_rate": 9.767668747373597e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241515, "epoch": 0.4870798079121884, "step": 6390}, {"loss": 0.15481575727462768, "token_acc": 0.9504249291784702, "grad_norm": 1.1393874883651733, "learning_rate": 9.767307867254551e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241542, "epoch": 0.4874609345224484, "step": 6395}, {"loss": 0.1861614465713501, "token_acc": 0.9349048050770625, "grad_norm": 0.7874759435653687, "learning_rate": 9.766946713752523e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241567, "epoch": 0.4878420611327083, "step": 6400}, {"eval_loss": 0.1394554227590561, "eval_token_acc": 0.9307421239684356, "eval_runtime": 195.3227, "eval_samples_per_second": 2.713, "eval_steps_per_second": 2.713, "epoch": 0.4878420611327083, "step": 6400}, {"loss": 0.2062145948410034, "token_acc": 0.9301010902444726, "grad_norm": 1.203920602798462, "learning_rate": 9.76658528688822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239814, "epoch": 0.4882231877429682, "step": 6405}, {"loss": 0.17991364002227783, "token_acc": 0.9276005921141165, "grad_norm": 0.9845380783081055, "learning_rate": 9.766223586682371e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239833, "epoch": 0.48860431435322815, "step": 6410}, {"loss": 0.14771295785903932, "token_acc": 0.9436025321312105, "grad_norm": 1.248170256614685, "learning_rate": 9.765861613155718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239864, "epoch": 0.48898544096348806, "step": 6415}, {"loss": 0.23156981468200682, "token_acc": 0.907040841894262, "grad_norm": 1.397081732749939, "learning_rate": 9.765499366329018e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239917, "epoch": 0.489366567573748, "step": 6420}, {"loss": 0.2054084300994873, "token_acc": 0.9163768574138477, "grad_norm": 0.7324181795120239, "learning_rate": 9.765136846223043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239952, "epoch": 0.48974769418400793, "step": 6425}, {"loss": 0.21540656089782714, "token_acc": 0.9053576285014958, "grad_norm": 0.7780849933624268, "learning_rate": 9.764774052858583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240011, "epoch": 0.49012882079426784, "step": 6430}, {"loss": 0.1772850513458252, "token_acc": 0.9204599904168663, "grad_norm": 0.8740113377571106, "learning_rate": 9.764410986256443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240062, "epoch": 0.4905099474045278, "step": 6435}, {"loss": 0.21341395378112793, "token_acc": 0.9203208556149732, "grad_norm": 0.44009310007095337, "learning_rate": 9.764047646437442e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240089, "epoch": 0.4908910740147877, "step": 6440}, {"loss": 0.15246518850326538, "token_acc": 0.933291770573566, "grad_norm": 1.2725169658660889, "learning_rate": 9.763684033422416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240149, "epoch": 0.4912722006250476, "step": 6445}, {"loss": 0.2149585723876953, "token_acc": 0.9195455243359435, "grad_norm": 0.807914137840271, "learning_rate": 9.763320147232217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240178, "epoch": 0.4916533272353076, "step": 6450}, {"loss": 0.1282161593437195, "token_acc": 0.9499354005167958, "grad_norm": 1.5816762447357178, "learning_rate": 9.762955987887713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240233, "epoch": 0.4920344538455675, "step": 6455}, {"loss": 0.18068366050720214, "token_acc": 0.9322374429223744, "grad_norm": 1.6350860595703125, "learning_rate": 9.762591555409786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240277, "epoch": 0.49241558045582745, "step": 6460}, {"loss": 0.24361398220062255, "token_acc": 0.911071978868589, "grad_norm": 0.6775110960006714, "learning_rate": 9.762226849819333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240286, "epoch": 0.49279670706608736, "step": 6465}, {"loss": 0.15374698638916015, "token_acc": 0.9357287449392713, "grad_norm": 0.8510713577270508, "learning_rate": 9.76186187113727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240325, "epoch": 0.49317783367634727, "step": 6470}, {"loss": 0.1845821738243103, "token_acc": 0.9324884231050451, "grad_norm": 0.6601843237876892, "learning_rate": 9.761496619384527e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240376, "epoch": 0.49355896028660723, "step": 6475}, {"loss": 0.215891695022583, "token_acc": 0.9156400083524744, "grad_norm": 0.8834421634674072, "learning_rate": 9.76113109458205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24043, "epoch": 0.49394008689686714, "step": 6480}, {"loss": 0.15068576335906983, "token_acc": 0.9489429023443118, "grad_norm": 1.073808193206787, "learning_rate": 9.760765296750796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240462, "epoch": 0.49432121350712704, "step": 6485}, {"loss": 0.17301468849182128, "token_acc": 0.9283176270662753, "grad_norm": 0.5935428142547607, "learning_rate": 9.760399225911748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2405, "epoch": 0.494702340117387, "step": 6490}, {"loss": 0.11099461317062378, "token_acc": 0.9421613394216134, "grad_norm": 1.0851857662200928, "learning_rate": 9.760032882085892e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240561, "epoch": 0.4950834667276469, "step": 6495}, {"loss": 0.21786072254180908, "token_acc": 0.9078469104126576, "grad_norm": 1.2804749011993408, "learning_rate": 9.759666265294242e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240601, "epoch": 0.4954645933379069, "step": 6500}, {"loss": 0.20640697479248046, "token_acc": 0.938498003992016, "grad_norm": 0.6460931301116943, "learning_rate": 9.759299375557819e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240594, "epoch": 0.4958457199481668, "step": 6505}, {"loss": 0.1988211154937744, "token_acc": 0.9185185185185185, "grad_norm": 1.8107999563217163, "learning_rate": 9.758932212897663e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240649, "epoch": 0.4962268465584267, "step": 6510}, {"loss": 0.20852484703063964, "token_acc": 0.9229998747965444, "grad_norm": 0.5852643251419067, "learning_rate": 9.758564777334826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240678, "epoch": 0.49660797316868666, "step": 6515}, {"loss": 0.14101855754852294, "token_acc": 0.9397394136807817, "grad_norm": 1.001548171043396, "learning_rate": 9.758197068890385e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240718, "epoch": 0.49698909977894656, "step": 6520}, {"loss": 0.1366589307785034, "token_acc": 0.9455106237148732, "grad_norm": 0.6867068409919739, "learning_rate": 9.757829087585421e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240782, "epoch": 0.49737022638920647, "step": 6525}, {"loss": 0.15103321075439452, "token_acc": 0.9488117001828154, "grad_norm": 0.8611955642700195, "learning_rate": 9.757460833441039e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240844, "epoch": 0.49775135299946643, "step": 6530}, {"loss": 0.1536560297012329, "token_acc": 0.9383786316776007, "grad_norm": 1.3610928058624268, "learning_rate": 9.757092306478353e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240887, "epoch": 0.49813247960972634, "step": 6535}, {"loss": 0.16389427185058594, "token_acc": 0.9367864693446089, "grad_norm": 1.139328956604004, "learning_rate": 9.756723506718502e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240927, "epoch": 0.4985136062199863, "step": 6540}, {"loss": 0.1960911989212036, "token_acc": 0.9129049389272438, "grad_norm": 1.0638970136642456, "learning_rate": 9.75635443418263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240961, "epoch": 0.4988947328302462, "step": 6545}, {"loss": 0.19907000064849853, "token_acc": 0.9223195825539037, "grad_norm": 0.7460038065910339, "learning_rate": 9.755985088891904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240978, "epoch": 0.4992758594405061, "step": 6550}, {"loss": 0.2410585403442383, "token_acc": 0.8963782696177063, "grad_norm": 1.9872097969055176, "learning_rate": 9.755615470867503e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241038, "epoch": 0.4996569860507661, "step": 6555}, {"loss": 0.17727997303009033, "token_acc": 0.9186585800927578, "grad_norm": 1.1022579669952393, "learning_rate": 9.755245580130623e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241094, "epoch": 0.500038112661026, "step": 6560}, {"loss": 0.1432894229888916, "token_acc": 0.9332871652816251, "grad_norm": 0.7179242372512817, "learning_rate": 9.754875416702476e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241136, "epoch": 0.500419239271286, "step": 6565}, {"loss": 0.16202276945114136, "token_acc": 0.9189082278481012, "grad_norm": 0.7568638920783997, "learning_rate": 9.75450498060429e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241171, "epoch": 0.5008003658815459, "step": 6570}, {"loss": 0.22362132072448732, "token_acc": 0.9005658852061439, "grad_norm": 1.9364062547683716, "learning_rate": 9.754134271857308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241235, "epoch": 0.5011814924918058, "step": 6575}, {"loss": 0.1431664228439331, "token_acc": 0.9497340881797907, "grad_norm": 0.8721165657043457, "learning_rate": 9.753763290482787e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241272, "epoch": 0.5015626191020657, "step": 6580}, {"loss": 0.19342904090881347, "token_acc": 0.925073457394711, "grad_norm": 0.7225767970085144, "learning_rate": 9.753392036502e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241291, "epoch": 0.5019437457123256, "step": 6585}, {"loss": 0.22300024032592775, "token_acc": 0.9205658324265505, "grad_norm": 0.8878169655799866, "learning_rate": 9.753020509936239e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241335, "epoch": 0.5023248723225856, "step": 6590}, {"loss": 0.1109616756439209, "token_acc": 0.9531960417223857, "grad_norm": 0.12067373842000961, "learning_rate": 9.752648710806809e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241388, "epoch": 0.5027059989328455, "step": 6595}, {"loss": 0.21343884468078614, "token_acc": 0.9299876084262702, "grad_norm": 1.0187158584594727, "learning_rate": 9.752276639135029e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241455, "epoch": 0.5030871255431054, "step": 6600}, {"eval_loss": 0.14037811756134033, "eval_token_acc": 0.9300795132823324, "eval_runtime": 176.6244, "eval_samples_per_second": 3.001, "eval_steps_per_second": 3.001, "epoch": 0.5030871255431054, "step": 6600}, {"loss": 0.19893765449523926, "token_acc": 0.929830121236688, "grad_norm": 1.2730140686035156, "learning_rate": 9.751904294942238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239958, "epoch": 0.5034682521533653, "step": 6605}, {"loss": 0.1650695323944092, "token_acc": 0.9110152075626798, "grad_norm": 0.8214978575706482, "learning_rate": 9.751531678249786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240002, "epoch": 0.5038493787636252, "step": 6610}, {"loss": 0.089615398645401, "token_acc": 0.9601930036188179, "grad_norm": 0.631286084651947, "learning_rate": 9.751158789079045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240073, "epoch": 0.5042305053738853, "step": 6615}, {"loss": 0.21457579135894775, "token_acc": 0.9062258313998454, "grad_norm": 0.39522644877433777, "learning_rate": 9.750785627451393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240113, "epoch": 0.5046116319841452, "step": 6620}, {"loss": 0.14984385967254638, "token_acc": 0.9485205677171037, "grad_norm": 1.2108502388000488, "learning_rate": 9.750412193388232e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240155, "epoch": 0.5049927585944051, "step": 6625}, {"loss": 0.2204139471054077, "token_acc": 0.9115543030565793, "grad_norm": 1.0687733888626099, "learning_rate": 9.750038486910977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240204, "epoch": 0.505373885204665, "step": 6630}, {"loss": 0.21006531715393068, "token_acc": 0.9204886841578209, "grad_norm": 1.0686695575714111, "learning_rate": 9.749664508041056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240253, "epoch": 0.5057550118149249, "step": 6635}, {"loss": 0.20622293949127196, "token_acc": 0.8971048513302035, "grad_norm": 1.0463881492614746, "learning_rate": 9.749290256799917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240314, "epoch": 0.5061361384251849, "step": 6640}, {"loss": 0.19636025428771972, "token_acc": 0.9223097112860892, "grad_norm": 0.8689031004905701, "learning_rate": 9.748915733209023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240362, "epoch": 0.5065172650354448, "step": 6645}, {"loss": 0.16106393337249755, "token_acc": 0.9433404940923737, "grad_norm": 2.0423810482025146, "learning_rate": 9.748540937289849e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240409, "epoch": 0.5068983916457047, "step": 6650}, {"loss": 0.21754240989685059, "token_acc": 0.9207818930041153, "grad_norm": 0.8366822600364685, "learning_rate": 9.748165869063887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240411, "epoch": 0.5072795182559646, "step": 6655}, {"loss": 0.2030207872390747, "token_acc": 0.9142857142857143, "grad_norm": 1.6380388736724854, "learning_rate": 9.747790528552648e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240476, "epoch": 0.5076606448662245, "step": 6660}, {"loss": 0.20045702457427977, "token_acc": 0.9154210718191761, "grad_norm": 0.9587275981903076, "learning_rate": 9.747414915777653e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240541, "epoch": 0.5080417714764844, "step": 6665}, {"loss": 0.16659259796142578, "token_acc": 0.9385146363287741, "grad_norm": 1.0902820825576782, "learning_rate": 9.747039030760443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240577, "epoch": 0.5084228980867445, "step": 6670}, {"loss": 0.21079261302948, "token_acc": 0.9303400462198745, "grad_norm": 1.103403091430664, "learning_rate": 9.746662873522574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240634, "epoch": 0.5088040246970044, "step": 6675}, {"loss": 0.17114672660827637, "token_acc": 0.9077736890524379, "grad_norm": 0.8276931643486023, "learning_rate": 9.746286444085617e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240677, "epoch": 0.5091851513072643, "step": 6680}, {"loss": 0.17284415960311889, "token_acc": 0.9377659130724952, "grad_norm": 0.6306222677230835, "learning_rate": 9.745909742471157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240671, "epoch": 0.5095662779175242, "step": 6685}, {"loss": 0.1917936086654663, "token_acc": 0.9203187250996016, "grad_norm": 0.7365657687187195, "learning_rate": 9.745532768700799e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240709, "epoch": 0.5099474045277841, "step": 6690}, {"loss": 0.21131303310394287, "token_acc": 0.9250952179432924, "grad_norm": 0.6565676927566528, "learning_rate": 9.745155522796157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240736, "epoch": 0.5103285311380441, "step": 6695}, {"loss": 0.1512755870819092, "token_acc": 0.9411373461922181, "grad_norm": 0.828711748123169, "learning_rate": 9.744778004778867e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240787, "epoch": 0.510709657748304, "step": 6700}, {"loss": 0.20275349617004396, "token_acc": 0.9256722899615835, "grad_norm": 0.8197252154350281, "learning_rate": 9.744400214670576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240822, "epoch": 0.5110907843585639, "step": 6705}, {"loss": 0.1810696840286255, "token_acc": 0.9432742054693274, "grad_norm": 1.40071439743042, "learning_rate": 9.744022152492949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240847, "epoch": 0.5114719109688238, "step": 6710}, {"loss": 0.26820394992828367, "token_acc": 0.8901453957996769, "grad_norm": 0.7259822487831116, "learning_rate": 9.743643818267669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240904, "epoch": 0.5118530375790837, "step": 6715}, {"loss": 0.22229306697845458, "token_acc": 0.911701671667381, "grad_norm": 1.1993129253387451, "learning_rate": 9.743265212016426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240952, "epoch": 0.5122341641893438, "step": 6720}, {"loss": 0.21621415615081788, "token_acc": 0.9207245354034345, "grad_norm": 1.1718672513961792, "learning_rate": 9.742886333760937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241005, "epoch": 0.5126152907996037, "step": 6725}, {"loss": 0.17542717456817628, "token_acc": 0.9281108192022928, "grad_norm": 0.8755703568458557, "learning_rate": 9.742507183522925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241048, "epoch": 0.5129964174098636, "step": 6730}, {"loss": 0.22634415626525878, "token_acc": 0.9194991055456172, "grad_norm": 0.8469975590705872, "learning_rate": 9.742127761324133e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241092, "epoch": 0.5133775440201235, "step": 6735}, {"loss": 0.24060122966766356, "token_acc": 0.9208387516254877, "grad_norm": 0.8017536401748657, "learning_rate": 9.741748067186323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241121, "epoch": 0.5137586706303834, "step": 6740}, {"loss": 0.208384370803833, "token_acc": 0.9120828538550058, "grad_norm": 1.1938374042510986, "learning_rate": 9.741368101131263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241179, "epoch": 0.5141397972406433, "step": 6745}, {"loss": 0.20161654949188232, "token_acc": 0.9201331114808652, "grad_norm": 1.8300169706344604, "learning_rate": 9.740987863180746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241222, "epoch": 0.5145209238509033, "step": 6750}, {"loss": 0.16628828048706054, "token_acc": 0.9244198424526293, "grad_norm": 0.8090299367904663, "learning_rate": 9.740607353356576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241261, "epoch": 0.5149020504611632, "step": 6755}, {"loss": 0.1339216113090515, "token_acc": 0.9383309306423194, "grad_norm": 0.7446261048316956, "learning_rate": 9.740226571680574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241273, "epoch": 0.5152831770714231, "step": 6760}, {"loss": 0.1555694341659546, "token_acc": 0.9504221304113526, "grad_norm": 0.736966609954834, "learning_rate": 9.739845518174575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2413, "epoch": 0.515664303681683, "step": 6765}, {"loss": 0.1545361638069153, "token_acc": 0.9354149986655992, "grad_norm": 2.817692756652832, "learning_rate": 9.739464192860432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241348, "epoch": 0.5160454302919429, "step": 6770}, {"loss": 0.16989350318908691, "token_acc": 0.9358925143953934, "grad_norm": 0.7395541667938232, "learning_rate": 9.73908259576001e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241375, "epoch": 0.516426556902203, "step": 6775}, {"loss": 0.15133534669876098, "token_acc": 0.9377740655669242, "grad_norm": 0.9538095593452454, "learning_rate": 9.738700726895194e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241419, "epoch": 0.5168076835124629, "step": 6780}, {"loss": 0.16896359920501708, "token_acc": 0.9381267738883633, "grad_norm": 0.6673028469085693, "learning_rate": 9.73831858628788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241418, "epoch": 0.5171888101227228, "step": 6785}, {"loss": 0.18470910787582398, "token_acc": 0.9275396085740913, "grad_norm": 1.8202033042907715, "learning_rate": 9.737936173959985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241465, "epoch": 0.5175699367329827, "step": 6790}, {"loss": 0.22680885791778566, "token_acc": 0.9053914480479239, "grad_norm": 1.574926495552063, "learning_rate": 9.737553489933436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241502, "epoch": 0.5179510633432426, "step": 6795}, {"loss": 0.20320556163787842, "token_acc": 0.9252225519287833, "grad_norm": 1.0017858743667603, "learning_rate": 9.73717053423018e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241546, "epoch": 0.5183321899535026, "step": 6800}, {"eval_loss": 0.13594388961791992, "eval_token_acc": 0.9329558460333714, "eval_runtime": 177.7803, "eval_samples_per_second": 2.981, "eval_steps_per_second": 2.981, "epoch": 0.5183321899535026, "step": 6800}, {"loss": 0.1233770489692688, "token_acc": 0.9333250322278214, "grad_norm": 1.628959059715271, "learning_rate": 9.736787306872177e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240079, "epoch": 0.5187133165637625, "step": 6805}, {"loss": 0.12556332349777222, "token_acc": 0.9502405498281787, "grad_norm": 1.333674430847168, "learning_rate": 9.736403807881404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240099, "epoch": 0.5190944431740224, "step": 6810}, {"loss": 0.206437087059021, "token_acc": 0.9377194321477637, "grad_norm": 1.6312485933303833, "learning_rate": 9.736020037279852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240132, "epoch": 0.5194755697842823, "step": 6815}, {"loss": 0.1499392032623291, "token_acc": 0.9305753685211603, "grad_norm": 0.8180206418037415, "learning_rate": 9.735635995089528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24017, "epoch": 0.5198566963945422, "step": 6820}, {"loss": 0.19402761459350587, "token_acc": 0.9319799630899025, "grad_norm": 1.1971153020858765, "learning_rate": 9.735251681332456e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240224, "epoch": 0.5202378230048021, "step": 6825}, {"loss": 0.16840741634368897, "token_acc": 0.9409850613814524, "grad_norm": 1.278516173362732, "learning_rate": 9.734867096030674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240249, "epoch": 0.5206189496150622, "step": 6830}, {"loss": 0.21811699867248535, "token_acc": 0.9201240791004265, "grad_norm": 1.0187299251556396, "learning_rate": 9.734482239206238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240289, "epoch": 0.5210000762253221, "step": 6835}, {"loss": 0.18455482721328736, "token_acc": 0.9256270447110142, "grad_norm": 0.8793230652809143, "learning_rate": 9.734097110881215e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240331, "epoch": 0.521381202835582, "step": 6840}, {"loss": 0.24943172931671143, "token_acc": 0.9002849002849003, "grad_norm": 1.0267198085784912, "learning_rate": 9.733711711077691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240386, "epoch": 0.5217623294458419, "step": 6845}, {"loss": 0.17839913368225097, "token_acc": 0.9378519710378117, "grad_norm": 1.106573224067688, "learning_rate": 9.733326039817768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24042, "epoch": 0.5221434560561018, "step": 6850}, {"loss": 0.17860398292541504, "token_acc": 0.9328914664457332, "grad_norm": 1.0248230695724487, "learning_rate": 9.732940097123561e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24046, "epoch": 0.5225245826663618, "step": 6855}, {"loss": 0.20544672012329102, "token_acc": 0.9195219123505977, "grad_norm": 1.3686844110488892, "learning_rate": 9.732553883017206e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24051, "epoch": 0.5229057092766217, "step": 6860}, {"loss": 0.1440887928009033, "token_acc": 0.9329224075416969, "grad_norm": 1.2865279912948608, "learning_rate": 9.732167397520845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240568, "epoch": 0.5232868358868816, "step": 6865}, {"loss": 0.1782839775085449, "token_acc": 0.9406906906906907, "grad_norm": 1.1384451389312744, "learning_rate": 9.731780640656644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240628, "epoch": 0.5236679624971415, "step": 6870}, {"loss": 0.14369645118713378, "token_acc": 0.9343909126517822, "grad_norm": 0.6938775777816772, "learning_rate": 9.731393612446781e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240676, "epoch": 0.5240490891074014, "step": 6875}, {"loss": 0.19155839681625367, "token_acc": 0.9281499479347449, "grad_norm": 0.773326575756073, "learning_rate": 9.731006312913453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240709, "epoch": 0.5244302157176614, "step": 6880}, {"loss": 0.16096376180648803, "token_acc": 0.9411320754716981, "grad_norm": 1.0415959358215332, "learning_rate": 9.730618742078865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240755, "epoch": 0.5248113423279214, "step": 6885}, {"loss": 0.19486793279647827, "token_acc": 0.9188342967244701, "grad_norm": 1.0389882326126099, "learning_rate": 9.730230899965247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240797, "epoch": 0.5251924689381813, "step": 6890}, {"loss": 0.2795358419418335, "token_acc": 0.9125775521714607, "grad_norm": 1.70291006565094, "learning_rate": 9.729842786594836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240827, "epoch": 0.5255735955484412, "step": 6895}, {"loss": 0.19661734104156495, "token_acc": 0.9329531442663379, "grad_norm": 1.003394365310669, "learning_rate": 9.72945440198989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240853, "epoch": 0.5259547221587011, "step": 6900}, {"loss": 0.21375226974487305, "token_acc": 0.9206519792226402, "grad_norm": 0.7300508618354797, "learning_rate": 9.729065746172684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240887, "epoch": 0.526335848768961, "step": 6905}, {"loss": 0.19867029190063476, "token_acc": 0.9305614183199662, "grad_norm": 1.0847630500793457, "learning_rate": 9.728676819165501e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240939, "epoch": 0.526716975379221, "step": 6910}, {"loss": 0.17728137969970703, "token_acc": 0.9229534510433387, "grad_norm": 0.3016345202922821, "learning_rate": 9.728287620990646e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240977, "epoch": 0.5270981019894809, "step": 6915}, {"loss": 0.23979830741882324, "token_acc": 0.9059357768407396, "grad_norm": 0.7678334712982178, "learning_rate": 9.727898151670438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241031, "epoch": 0.5274792285997408, "step": 6920}, {"loss": 0.20578312873840332, "token_acc": 0.9212280347404564, "grad_norm": 0.8401669263839722, "learning_rate": 9.727508411227211e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241075, "epoch": 0.5278603552100007, "step": 6925}, {"loss": 0.14745962619781494, "token_acc": 0.9318264014466546, "grad_norm": 0.540363609790802, "learning_rate": 9.727118399683318e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241108, "epoch": 0.5282414818202606, "step": 6930}, {"loss": 0.15799858570098876, "token_acc": 0.904862579281184, "grad_norm": 1.309598445892334, "learning_rate": 9.726728117061117e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241169, "epoch": 0.5286226084305207, "step": 6935}, {"loss": 0.1521458864212036, "token_acc": 0.9382347452883001, "grad_norm": 0.7275777459144592, "learning_rate": 9.726337563382994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241207, "epoch": 0.5290037350407806, "step": 6940}, {"loss": 0.24810147285461426, "token_acc": 0.8955717118307998, "grad_norm": 0.8559795618057251, "learning_rate": 9.725946738671346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241261, "epoch": 0.5293848616510405, "step": 6945}, {"loss": 0.18241209983825685, "token_acc": 0.9366937884500893, "grad_norm": 0.7258918285369873, "learning_rate": 9.725555642948584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241299, "epoch": 0.5297659882613004, "step": 6950}, {"loss": 0.23742976188659667, "token_acc": 0.920378399684667, "grad_norm": 0.8279014825820923, "learning_rate": 9.725164276237134e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241312, "epoch": 0.5301471148715603, "step": 6955}, {"loss": 0.16767842769622804, "token_acc": 0.9406689874375662, "grad_norm": 0.8959754705429077, "learning_rate": 9.72477263855944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241335, "epoch": 0.5305282414818202, "step": 6960}, {"loss": 0.15441770553588868, "token_acc": 0.9496499730748519, "grad_norm": 1.2941001653671265, "learning_rate": 9.724380729937961e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241385, "epoch": 0.5309093680920802, "step": 6965}, {"loss": 0.21450495719909668, "token_acc": 0.9226545714967773, "grad_norm": 0.8814386129379272, "learning_rate": 9.723988550395172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241422, "epoch": 0.5312904947023401, "step": 6970}, {"loss": 0.20270662307739257, "token_acc": 0.9156048320370677, "grad_norm": 1.1711746454238892, "learning_rate": 9.723596099953562e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241458, "epoch": 0.5316716213126, "step": 6975}, {"loss": 0.1703126311302185, "token_acc": 0.9409652971679298, "grad_norm": 0.0902424231171608, "learning_rate": 9.723203378635634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241515, "epoch": 0.53205274792286, "step": 6980}, {"loss": 0.17908949851989747, "token_acc": 0.9327755337564916, "grad_norm": 1.8017958402633667, "learning_rate": 9.722810386463911e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241566, "epoch": 0.5324338745331199, "step": 6985}, {"loss": 0.1333256959915161, "token_acc": 0.9565330896749772, "grad_norm": 0.5711160898208618, "learning_rate": 9.72241712346093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241558, "epoch": 0.5328150011433799, "step": 6990}, {"loss": 0.1545030117034912, "token_acc": 0.9428347689898199, "grad_norm": 1.4494740962982178, "learning_rate": 9.722023589649241e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241616, "epoch": 0.5331961277536398, "step": 6995}, {"loss": 0.186778724193573, "token_acc": 0.9283048211508553, "grad_norm": 0.95125812292099, "learning_rate": 9.721629785051412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241646, "epoch": 0.5335772543638997, "step": 7000}, {"eval_loss": 0.13523255288600922, "eval_token_acc": 0.9342584784049154, "eval_runtime": 178.7585, "eval_samples_per_second": 2.965, "eval_steps_per_second": 2.965, "epoch": 0.5335772543638997, "step": 7000}, {"loss": 0.2177253007888794, "token_acc": 0.9337681273927441, "grad_norm": 0.9552993774414062, "learning_rate": 9.721235709690024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240185, "epoch": 0.5339583809741596, "step": 7005}, {"loss": 0.1499803900718689, "token_acc": 0.9291635267520724, "grad_norm": 1.4895660877227783, "learning_rate": 9.720841363587679e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240221, "epoch": 0.5343395075844195, "step": 7010}, {"loss": 0.1713352918624878, "token_acc": 0.9412935323383085, "grad_norm": 0.9676122665405273, "learning_rate": 9.720446746766989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240243, "epoch": 0.5347206341946795, "step": 7015}, {"loss": 0.1898650646209717, "token_acc": 0.9213943950786057, "grad_norm": 1.143479347229004, "learning_rate": 9.720051859250584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240297, "epoch": 0.5351017608049394, "step": 7020}, {"loss": 0.1349409341812134, "token_acc": 0.9419542083198968, "grad_norm": 0.2252119481563568, "learning_rate": 9.719656701061108e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240349, "epoch": 0.5354828874151993, "step": 7025}, {"loss": 0.1890088438987732, "token_acc": 0.9361417991987374, "grad_norm": 0.7449554204940796, "learning_rate": 9.719261272221223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240358, "epoch": 0.5358640140254592, "step": 7030}, {"loss": 0.17039281129837036, "token_acc": 0.9373773066352572, "grad_norm": 0.7858633995056152, "learning_rate": 9.718865572753604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24039, "epoch": 0.5362451406357192, "step": 7035}, {"loss": 0.18226996660232545, "token_acc": 0.9276232616940582, "grad_norm": 0.9247518181800842, "learning_rate": 9.718469602680941e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24044, "epoch": 0.5366262672459791, "step": 7040}, {"loss": 0.14166916608810426, "token_acc": 0.9400544959128065, "grad_norm": 0.7346091270446777, "learning_rate": 9.718073362025943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240478, "epoch": 0.5370073938562391, "step": 7045}, {"loss": 0.17694406509399413, "token_acc": 0.9281859692818597, "grad_norm": 0.6862905621528625, "learning_rate": 9.717676850811334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240518, "epoch": 0.537388520466499, "step": 7050}, {"loss": 0.17104512453079224, "token_acc": 0.9354445797807551, "grad_norm": 1.0654163360595703, "learning_rate": 9.717280069059848e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240575, "epoch": 0.5377696470767589, "step": 7055}, {"loss": 0.18441424369812012, "token_acc": 0.932460577209164, "grad_norm": 1.9396964311599731, "learning_rate": 9.716883016794242e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240626, "epoch": 0.5381507736870188, "step": 7060}, {"loss": 0.1816539764404297, "token_acc": 0.9558945908460471, "grad_norm": 0.522526204586029, "learning_rate": 9.716485694037285e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24065, "epoch": 0.5385319002972787, "step": 7065}, {"loss": 0.20994975566864013, "token_acc": 0.9214801444043321, "grad_norm": 2.046234369277954, "learning_rate": 9.71608810081176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240705, "epoch": 0.5389130269075387, "step": 7070}, {"loss": 0.15250284671783448, "token_acc": 0.9342105263157895, "grad_norm": 0.6658031940460205, "learning_rate": 9.715690237140468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240742, "epoch": 0.5392941535177986, "step": 7075}, {"loss": 0.23550853729248047, "token_acc": 0.9036144578313253, "grad_norm": 1.0810900926589966, "learning_rate": 9.715292103046223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24079, "epoch": 0.5396752801280585, "step": 7080}, {"loss": 0.1596773624420166, "token_acc": 0.9355742296918768, "grad_norm": 1.0171676874160767, "learning_rate": 9.714893698551859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240846, "epoch": 0.5400564067383185, "step": 7085}, {"loss": 0.18215417861938477, "token_acc": 0.9417241379310345, "grad_norm": 0.9134028553962708, "learning_rate": 9.714495023680221e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240901, "epoch": 0.5404375333485784, "step": 7090}, {"loss": 0.15136098861694336, "token_acc": 0.935319582378406, "grad_norm": 0.8627896904945374, "learning_rate": 9.714096078454171e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240953, "epoch": 0.5408186599588384, "step": 7095}, {"loss": 0.1281415343284607, "token_acc": 0.9440231628291741, "grad_norm": 1.037477970123291, "learning_rate": 9.713696862896587e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240959, "epoch": 0.5411997865690983, "step": 7100}, {"loss": 0.16154402494430542, "token_acc": 0.9390651085141903, "grad_norm": 0.7001175284385681, "learning_rate": 9.713297377030361e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240981, "epoch": 0.5415809131793582, "step": 7105}, {"loss": 0.1571489930152893, "token_acc": 0.9354906054279749, "grad_norm": 1.0888545513153076, "learning_rate": 9.712897620878404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241023, "epoch": 0.5419620397896181, "step": 7110}, {"loss": 0.1785590648651123, "token_acc": 0.9262114537444934, "grad_norm": 1.9328068494796753, "learning_rate": 9.712497594463639e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241061, "epoch": 0.542343166399878, "step": 7115}, {"loss": 0.12409394979476929, "token_acc": 0.9401599174619552, "grad_norm": 1.490885615348816, "learning_rate": 9.712097297809006e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241112, "epoch": 0.5427242930101379, "step": 7120}, {"loss": 0.23386116027832032, "token_acc": 0.8962097059865392, "grad_norm": 0.722251832485199, "learning_rate": 9.711696730937459e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241163, "epoch": 0.5431054196203979, "step": 7125}, {"loss": 0.16658614873886107, "token_acc": 0.9522868435911914, "grad_norm": 0.5960565805435181, "learning_rate": 9.711295893871969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2412, "epoch": 0.5434865462306578, "step": 7130}, {"loss": 0.16592382192611693, "token_acc": 0.9273404750815091, "grad_norm": 1.311477780342102, "learning_rate": 9.710894786635522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241249, "epoch": 0.5438676728409177, "step": 7135}, {"loss": 0.14395551681518554, "token_acc": 0.9367462466158011, "grad_norm": 0.5246511101722717, "learning_rate": 9.710493409251122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24129, "epoch": 0.5442487994511777, "step": 7140}, {"loss": 0.17862125635147094, "token_acc": 0.9372332015810276, "grad_norm": 1.039299726486206, "learning_rate": 9.710091761741784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241308, "epoch": 0.5446299260614376, "step": 7145}, {"loss": 0.14991508722305297, "token_acc": 0.9357773615199357, "grad_norm": 0.694965660572052, "learning_rate": 9.709689844130541e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241355, "epoch": 0.5450110526716976, "step": 7150}, {"loss": 0.20826640129089355, "token_acc": 0.9243818805269807, "grad_norm": 1.1957526206970215, "learning_rate": 9.70928765644044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241386, "epoch": 0.5453921792819575, "step": 7155}, {"loss": 0.162802255153656, "token_acc": 0.9230311446141638, "grad_norm": 0.6676205396652222, "learning_rate": 9.708885198694547e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241426, "epoch": 0.5457733058922174, "step": 7160}, {"loss": 0.15277191400527954, "token_acc": 0.9469608073222249, "grad_norm": 1.0624045133590698, "learning_rate": 9.70848247091594e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24147, "epoch": 0.5461544325024773, "step": 7165}, {"loss": 0.18649954795837403, "token_acc": 0.925827226293582, "grad_norm": 0.5598741173744202, "learning_rate": 9.708079473127711e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24151, "epoch": 0.5465355591127372, "step": 7170}, {"loss": 0.2174985885620117, "token_acc": 0.9007666098807495, "grad_norm": 1.1659364700317383, "learning_rate": 9.707676205352975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241567, "epoch": 0.5469166857229972, "step": 7175}, {"loss": 0.16082971096038817, "token_acc": 0.9322686439469556, "grad_norm": 0.7786362767219543, "learning_rate": 9.707272667614853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241595, "epoch": 0.5472978123332571, "step": 7180}, {"loss": 0.2307065725326538, "token_acc": 0.9102621057307864, "grad_norm": 1.5186296701431274, "learning_rate": 9.706868859936489e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241647, "epoch": 0.547678938943517, "step": 7185}, {"loss": 0.23250169754028321, "token_acc": 0.9338828166995162, "grad_norm": 1.5418174266815186, "learning_rate": 9.706464782341039e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241674, "epoch": 0.548060065553777, "step": 7190}, {"loss": 0.20433480739593507, "token_acc": 0.9261044176706827, "grad_norm": 0.9822309017181396, "learning_rate": 9.706060434851673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241707, "epoch": 0.5484411921640369, "step": 7195}, {"loss": 0.1459787130355835, "token_acc": 0.945746214852199, "grad_norm": 0.6674410104751587, "learning_rate": 9.70565581749158e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241742, "epoch": 0.5488223187742968, "step": 7200}, {"eval_loss": 0.13749712705612183, "eval_token_acc": 0.9328127823625083, "eval_runtime": 174.503, "eval_samples_per_second": 3.037, "eval_steps_per_second": 3.037, "epoch": 0.5488223187742968, "step": 7200}, {"loss": 0.238517427444458, "token_acc": 0.9324229589601285, "grad_norm": 0.7893772721290588, "learning_rate": 9.705250930283963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240384, "epoch": 0.5492034453845568, "step": 7205}, {"loss": 0.1969143867492676, "token_acc": 0.9305645684620376, "grad_norm": 0.9873624444007874, "learning_rate": 9.704845773252041e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240434, "epoch": 0.5495845719948167, "step": 7210}, {"loss": 0.206299090385437, "token_acc": 0.9169646404449742, "grad_norm": 1.5839787721633911, "learning_rate": 9.704440346419046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24049, "epoch": 0.5499656986050766, "step": 7215}, {"loss": 0.17557740211486816, "token_acc": 0.923785839672323, "grad_norm": 1.184552550315857, "learning_rate": 9.70403464980823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24052, "epoch": 0.5503468252153365, "step": 7220}, {"loss": 0.17515619993209838, "token_acc": 0.9381915299504006, "grad_norm": 2.0773868560791016, "learning_rate": 9.703628683442853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240576, "epoch": 0.5507279518255964, "step": 7225}, {"loss": 0.1855842351913452, "token_acc": 0.9129206267659903, "grad_norm": 0.9168033003807068, "learning_rate": 9.703222447346201e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240631, "epoch": 0.5511090784358564, "step": 7230}, {"loss": 0.17217323780059815, "token_acc": 0.9426104621635348, "grad_norm": 0.9931985139846802, "learning_rate": 9.702815941541566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240676, "epoch": 0.5514902050461163, "step": 7235}, {"loss": 0.23195300102233887, "token_acc": 0.9067441860465116, "grad_norm": 1.077362060546875, "learning_rate": 9.702409166052262e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240722, "epoch": 0.5518713316563763, "step": 7240}, {"loss": 0.1731897473335266, "token_acc": 0.9357282502443792, "grad_norm": 1.0164830684661865, "learning_rate": 9.702002120901613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24076, "epoch": 0.5522524582666362, "step": 7245}, {"loss": 0.18579742908477784, "token_acc": 0.9308318264014467, "grad_norm": 0.7468012571334839, "learning_rate": 9.701594806112963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240789, "epoch": 0.5526335848768961, "step": 7250}, {"loss": 0.08958526253700257, "token_acc": 0.9609094535301157, "grad_norm": 0.8685094118118286, "learning_rate": 9.70118722170967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240841, "epoch": 0.5530147114871561, "step": 7255}, {"loss": 0.1861223816871643, "token_acc": 0.9358874120406567, "grad_norm": 1.1702519655227661, "learning_rate": 9.700779367715102e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240839, "epoch": 0.553395838097416, "step": 7260}, {"loss": 0.19272793531417848, "token_acc": 0.9331482272533106, "grad_norm": 0.7052550315856934, "learning_rate": 9.700371244152656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24088, "epoch": 0.5537769647076759, "step": 7265}, {"loss": 0.2241297721862793, "token_acc": 0.9172885572139303, "grad_norm": 1.1246980428695679, "learning_rate": 9.69996285104573e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240918, "epoch": 0.5541580913179358, "step": 7270}, {"loss": 0.16886777877807618, "token_acc": 0.9282231324361225, "grad_norm": 1.7306162118911743, "learning_rate": 9.699554188417744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240963, "epoch": 0.5545392179281957, "step": 7275}, {"loss": 0.16877036094665526, "token_acc": 0.9227323628219485, "grad_norm": 1.2219594717025757, "learning_rate": 9.699145256292135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241009, "epoch": 0.5549203445384556, "step": 7280}, {"loss": 0.19342910051345824, "token_acc": 0.9231961425865335, "grad_norm": 1.4795225858688354, "learning_rate": 9.69873605469235e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241041, "epoch": 0.5553014711487156, "step": 7285}, {"loss": 0.1637222647666931, "token_acc": 0.9376037172253567, "grad_norm": 1.164156198501587, "learning_rate": 9.69832658364186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241099, "epoch": 0.5556825977589755, "step": 7290}, {"loss": 0.12819610834121703, "token_acc": 0.9502521008403362, "grad_norm": 0.31161683797836304, "learning_rate": 9.697916843164143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241134, "epoch": 0.5560637243692355, "step": 7295}, {"loss": 0.13326963186264038, "token_acc": 0.9349466562581317, "grad_norm": 1.4558924436569214, "learning_rate": 9.697506833282694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241188, "epoch": 0.5564448509794954, "step": 7300}, {"loss": 0.2098093032836914, "token_acc": 0.9286191685603529, "grad_norm": 0.6215888261795044, "learning_rate": 9.69709655402103e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24122, "epoch": 0.5568259775897553, "step": 7305}, {"loss": 0.14716250896453859, "token_acc": 0.9255510204081633, "grad_norm": 0.5341887474060059, "learning_rate": 9.696686005402673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241263, "epoch": 0.5572071042000153, "step": 7310}, {"loss": 0.15772172212600707, "token_acc": 0.9388797116684187, "grad_norm": 0.6500809192657471, "learning_rate": 9.696275187451172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241279, "epoch": 0.5575882308102752, "step": 7315}, {"loss": 0.18280308246612548, "token_acc": 0.9396951623591783, "grad_norm": 0.9627507328987122, "learning_rate": 9.69586410019008e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241326, "epoch": 0.5579693574205351, "step": 7320}, {"loss": 0.1852535605430603, "token_acc": 0.9211590296495957, "grad_norm": 1.1206635236740112, "learning_rate": 9.695452743642973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241365, "epoch": 0.558350484030795, "step": 7325}, {"loss": 0.1526786208152771, "token_acc": 0.9300808395972202, "grad_norm": 0.5266935229301453, "learning_rate": 9.695041117833442e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241395, "epoch": 0.5587316106410549, "step": 7330}, {"loss": 0.19264662265777588, "token_acc": 0.9275487321028117, "grad_norm": 0.7123040556907654, "learning_rate": 9.69462922278509e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241438, "epoch": 0.5591127372513149, "step": 7335}, {"loss": 0.11813973188400269, "token_acc": 0.9491145483075544, "grad_norm": 0.8570783138275146, "learning_rate": 9.694217058521538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241486, "epoch": 0.5594938638615748, "step": 7340}, {"loss": 0.1413159489631653, "token_acc": 0.9392980437284235, "grad_norm": 0.7099019289016724, "learning_rate": 9.693804625066421e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241523, "epoch": 0.5598749904718348, "step": 7345}, {"loss": 0.1669630765914917, "token_acc": 0.9374866652442927, "grad_norm": 1.0060694217681885, "learning_rate": 9.693391922443392e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241555, "epoch": 0.5602561170820947, "step": 7350}, {"loss": 0.20133748054504394, "token_acc": 0.9160950709842081, "grad_norm": 0.9519914388656616, "learning_rate": 9.692978950676115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241586, "epoch": 0.5606372436923546, "step": 7355}, {"loss": 0.1258029341697693, "token_acc": 0.9387691346454233, "grad_norm": 0.13615615665912628, "learning_rate": 9.692565709788274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24163, "epoch": 0.5610183703026145, "step": 7360}, {"loss": 0.09808213710784912, "token_acc": 0.9624105011933174, "grad_norm": 0.7518936991691589, "learning_rate": 9.692152199803566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241677, "epoch": 0.5613994969128745, "step": 7365}, {"loss": 0.20080718994140626, "token_acc": 0.9180409795102449, "grad_norm": 0.9012131690979004, "learning_rate": 9.691738420745702e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241722, "epoch": 0.5617806235231344, "step": 7370}, {"loss": 0.19270722866058348, "token_acc": 0.9286151960784313, "grad_norm": 1.7895857095718384, "learning_rate": 9.691324372638413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24177, "epoch": 0.5621617501333943, "step": 7375}, {"loss": 0.1613546133041382, "token_acc": 0.9454022988505747, "grad_norm": 1.196455478668213, "learning_rate": 9.690910055505443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241822, "epoch": 0.5625428767436542, "step": 7380}, {"loss": 0.1532915472984314, "token_acc": 0.9504734158776402, "grad_norm": 0.9167526960372925, "learning_rate": 9.690495469370546e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241839, "epoch": 0.5629240033539141, "step": 7385}, {"loss": 0.11016379594802857, "token_acc": 0.9448979591836735, "grad_norm": 1.4132252931594849, "learning_rate": 9.690080614257504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241887, "epoch": 0.5633051299641741, "step": 7390}, {"loss": 0.13651907444000244, "token_acc": 0.9302367612506778, "grad_norm": 0.5560929179191589, "learning_rate": 9.689665490190101e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241927, "epoch": 0.563686256574434, "step": 7395}, {"loss": 0.16572701930999756, "token_acc": 0.927118949073241, "grad_norm": 0.9663979411125183, "learning_rate": 9.689250097192146e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241967, "epoch": 0.564067383184694, "step": 7400}, {"eval_loss": 0.13419906795024872, "eval_token_acc": 0.9346123727486296, "eval_runtime": 200.2745, "eval_samples_per_second": 2.646, "eval_steps_per_second": 2.646, "epoch": 0.564067383184694, "step": 7400}, {"loss": 0.09302259087562562, "token_acc": 0.93522943509144, "grad_norm": 0.14313562214374542, "learning_rate": 9.68883443528746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240432, "epoch": 0.5644485097949539, "step": 7405}, {"loss": 0.24929468631744384, "token_acc": 0.9085324232081912, "grad_norm": 0.6787572503089905, "learning_rate": 9.688418504499875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240466, "epoch": 0.5648296364052138, "step": 7410}, {"loss": 0.15870609283447265, "token_acc": 0.938478439989014, "grad_norm": 1.024576187133789, "learning_rate": 9.688002304853248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240512, "epoch": 0.5652107630154738, "step": 7415}, {"loss": 0.13587572574615478, "token_acc": 0.9355492501013376, "grad_norm": 1.241624116897583, "learning_rate": 9.687585836371444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240541, "epoch": 0.5655918896257337, "step": 7420}, {"loss": 0.15884044170379638, "token_acc": 0.9453755431409062, "grad_norm": 0.8461443781852722, "learning_rate": 9.687169099078343e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240575, "epoch": 0.5659730162359936, "step": 7425}, {"loss": 0.16462674140930175, "token_acc": 0.9199684604770353, "grad_norm": 1.0135505199432373, "learning_rate": 9.686752092997847e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240606, "epoch": 0.5663541428462535, "step": 7430}, {"loss": 0.13394465446472167, "token_acc": 0.9478917326459215, "grad_norm": 0.6886172890663147, "learning_rate": 9.686334818153868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240638, "epoch": 0.5667352694565134, "step": 7435}, {"loss": 0.16913990974426268, "token_acc": 0.9388122375524895, "grad_norm": 1.5112619400024414, "learning_rate": 9.685917274570334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240652, "epoch": 0.5671163960667733, "step": 7440}, {"loss": 0.16341168880462648, "token_acc": 0.927, "grad_norm": 1.155969262123108, "learning_rate": 9.685499462271189e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240694, "epoch": 0.5674975226770334, "step": 7445}, {"loss": 0.16689846515655518, "token_acc": 0.9266435986159169, "grad_norm": 1.5673954486846924, "learning_rate": 9.685081381280394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240739, "epoch": 0.5678786492872933, "step": 7450}, {"loss": 0.2130706787109375, "token_acc": 0.924688862886927, "grad_norm": 0.8962209224700928, "learning_rate": 9.684663031621924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240745, "epoch": 0.5682597758975532, "step": 7455}, {"loss": 0.12676362991333007, "token_acc": 0.9426710097719869, "grad_norm": 0.9303638339042664, "learning_rate": 9.684244413319765e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240759, "epoch": 0.5686409025078131, "step": 7460}, {"loss": 0.17388373613357544, "token_acc": 0.9382443007825791, "grad_norm": 0.6107320189476013, "learning_rate": 9.683825526397929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240797, "epoch": 0.569022029118073, "step": 7465}, {"loss": 0.16611562967300414, "token_acc": 0.9354144241119483, "grad_norm": 0.5643892884254456, "learning_rate": 9.683406370880436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240831, "epoch": 0.569403155728333, "step": 7470}, {"loss": 0.18226802349090576, "token_acc": 0.9326303456356181, "grad_norm": 1.325543999671936, "learning_rate": 9.68298694679132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240855, "epoch": 0.5697842823385929, "step": 7475}, {"loss": 0.20334067344665527, "token_acc": 0.9232035106966539, "grad_norm": 1.0153743028640747, "learning_rate": 9.682567254154633e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240909, "epoch": 0.5701654089488528, "step": 7480}, {"loss": 0.1760540246963501, "token_acc": 0.9269853709508882, "grad_norm": 0.853122353553772, "learning_rate": 9.682147292994446e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240926, "epoch": 0.5705465355591127, "step": 7485}, {"loss": 0.2216787099838257, "token_acc": 0.9181818181818182, "grad_norm": 1.0168591737747192, "learning_rate": 9.681727063334838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240964, "epoch": 0.5709276621693726, "step": 7490}, {"loss": 0.19910807609558107, "token_acc": 0.9251219922598014, "grad_norm": 0.9210538864135742, "learning_rate": 9.68130656519991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240993, "epoch": 0.5713087887796326, "step": 7495}, {"loss": 0.14987853765487671, "token_acc": 0.9377981301278382, "grad_norm": 0.8071500062942505, "learning_rate": 9.680885798613773e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241027, "epoch": 0.5716899153898926, "step": 7500}, {"loss": 0.2036132335662842, "token_acc": 0.9153372008701958, "grad_norm": 0.7605462074279785, "learning_rate": 9.680464763600559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241055, "epoch": 0.5720710420001525, "step": 7505}, {"loss": 0.15068873167037963, "token_acc": 0.9403337531486146, "grad_norm": 0.9473944306373596, "learning_rate": 9.680043460184409e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241076, "epoch": 0.5724521686104124, "step": 7510}, {"loss": 0.1542802333831787, "token_acc": 0.9285435376805935, "grad_norm": 1.0704567432403564, "learning_rate": 9.679621888389485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241128, "epoch": 0.5728332952206723, "step": 7515}, {"loss": 0.19009582996368407, "token_acc": 0.9291153009427121, "grad_norm": 1.499940276145935, "learning_rate": 9.679200048239962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241161, "epoch": 0.5732144218309322, "step": 7520}, {"loss": 0.126200532913208, "token_acc": 0.9363147466742145, "grad_norm": 1.206945538520813, "learning_rate": 9.678777939760033e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241205, "epoch": 0.5735955484411922, "step": 7525}, {"loss": 0.19405065774917601, "token_acc": 0.9342120611221276, "grad_norm": 0.7059234380722046, "learning_rate": 9.678355562973898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241216, "epoch": 0.5739766750514521, "step": 7530}, {"loss": 0.2124797821044922, "token_acc": 0.9263420724094882, "grad_norm": 1.00224769115448, "learning_rate": 9.677932917905783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241257, "epoch": 0.574357801661712, "step": 7535}, {"loss": 0.14778281450271608, "token_acc": 0.9440690690690691, "grad_norm": 1.31934654712677, "learning_rate": 9.677510004579922e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241308, "epoch": 0.5747389282719719, "step": 7540}, {"loss": 0.1965206027030945, "token_acc": 0.914251781472684, "grad_norm": 1.319337248802185, "learning_rate": 9.67708682302057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24135, "epoch": 0.5751200548822318, "step": 7545}, {"loss": 0.11911581754684449, "token_acc": 0.9473020675743823, "grad_norm": 0.7344614267349243, "learning_rate": 9.676663373251993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241388, "epoch": 0.5755011814924919, "step": 7550}, {"loss": 0.18304580450057983, "token_acc": 0.9351415094339622, "grad_norm": 1.1485555171966553, "learning_rate": 9.676239655298474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241416, "epoch": 0.5758823081027518, "step": 7555}, {"loss": 0.17165684700012207, "token_acc": 0.9263410728582866, "grad_norm": 1.1993964910507202, "learning_rate": 9.67581566918431e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241448, "epoch": 0.5762634347130117, "step": 7560}, {"loss": 0.17632282972335817, "token_acc": 0.9362594352809617, "grad_norm": 1.4518812894821167, "learning_rate": 9.675391414933816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241491, "epoch": 0.5766445613232716, "step": 7565}, {"loss": 0.14193686246871948, "token_acc": 0.9522497704315886, "grad_norm": 0.6603596210479736, "learning_rate": 9.674966892571322e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241511, "epoch": 0.5770256879335315, "step": 7570}, {"loss": 0.15146863460540771, "token_acc": 0.941064235743057, "grad_norm": 0.8104476928710938, "learning_rate": 9.674542102121172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241543, "epoch": 0.5774068145437915, "step": 7575}, {"loss": 0.11542356014251709, "token_acc": 0.9261727762112278, "grad_norm": 1.0258283615112305, "learning_rate": 9.674117043607723e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241587, "epoch": 0.5777879411540514, "step": 7580}, {"loss": 0.1304369330406189, "token_acc": 0.9425587467362925, "grad_norm": 0.9134455323219299, "learning_rate": 9.673691717055352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241607, "epoch": 0.5781690677643113, "step": 7585}, {"loss": 0.18219377994537353, "token_acc": 0.9176212527418962, "grad_norm": 0.8701491355895996, "learning_rate": 9.673266122488452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241639, "epoch": 0.5785501943745712, "step": 7590}, {"loss": 0.15706671476364137, "token_acc": 0.9355893097481254, "grad_norm": 0.7204287648200989, "learning_rate": 9.672840259931424e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241681, "epoch": 0.5789313209848311, "step": 7595}, {"loss": 0.20680177211761475, "token_acc": 0.9207729468599034, "grad_norm": 2.1629350185394287, "learning_rate": 9.672414129408692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241728, "epoch": 0.579312447595091, "step": 7600}, {"eval_loss": 0.1314232051372528, "eval_token_acc": 0.9345295464128667, "eval_runtime": 174.8925, "eval_samples_per_second": 3.03, "eval_steps_per_second": 3.03, "epoch": 0.579312447595091, "step": 7600}, {"loss": 0.172832715511322, "token_acc": 0.9341598075585439, "grad_norm": 0.8661823272705078, "learning_rate": 9.671987730944694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240418, "epoch": 0.5796935742053511, "step": 7605}, {"loss": 0.15058627128601074, "token_acc": 0.9387894521109441, "grad_norm": 1.6881942749023438, "learning_rate": 9.671561064563879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240442, "epoch": 0.580074700815611, "step": 7610}, {"loss": 0.18901643753051758, "token_acc": 0.9326524098308331, "grad_norm": 2.240844964981079, "learning_rate": 9.671134130290715e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240494, "epoch": 0.5804558274258709, "step": 7615}, {"loss": 0.143050479888916, "token_acc": 0.9468230160894464, "grad_norm": 1.1816797256469727, "learning_rate": 9.670706928149686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240537, "epoch": 0.5808369540361308, "step": 7620}, {"loss": 0.20845270156860352, "token_acc": 0.9161425576519916, "grad_norm": 0.7439324855804443, "learning_rate": 9.67027945816529e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240584, "epoch": 0.5812180806463907, "step": 7625}, {"loss": 0.15073174238204956, "token_acc": 0.9444444444444444, "grad_norm": 0.6814951300621033, "learning_rate": 9.66985172036204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240616, "epoch": 0.5815992072566507, "step": 7630}, {"loss": 0.1744018316268921, "token_acc": 0.9290436315557514, "grad_norm": 0.7176348567008972, "learning_rate": 9.669423714764463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240647, "epoch": 0.5819803338669106, "step": 7635}, {"loss": 0.1665830135345459, "token_acc": 0.9419152276295133, "grad_norm": 1.4978859424591064, "learning_rate": 9.668995441397107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24071, "epoch": 0.5823614604771705, "step": 7640}, {"loss": 0.15068110227584838, "token_acc": 0.9379823967501693, "grad_norm": 0.45738324522972107, "learning_rate": 9.668566900284525e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240745, "epoch": 0.5827425870874304, "step": 7645}, {"loss": 0.15307831764221191, "token_acc": 0.9429140993113447, "grad_norm": 0.819275975227356, "learning_rate": 9.6681380914513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240779, "epoch": 0.5831237136976903, "step": 7650}, {"loss": 0.10569866895675659, "token_acc": 0.9602076124567474, "grad_norm": 0.29432886838912964, "learning_rate": 9.667709014922017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240843, "epoch": 0.5835048403079504, "step": 7655}, {"loss": 0.19539698362350463, "token_acc": 0.9123711340206185, "grad_norm": 1.4956772327423096, "learning_rate": 9.667279670721283e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240892, "epoch": 0.5838859669182103, "step": 7660}, {"loss": 0.14177179336547852, "token_acc": 0.9409473356185728, "grad_norm": 1.064120888710022, "learning_rate": 9.66685005887372e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240926, "epoch": 0.5842670935284702, "step": 7665}, {"loss": 0.13923001289367676, "token_acc": 0.9499565595134666, "grad_norm": 0.9683123230934143, "learning_rate": 9.666420179403962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24095, "epoch": 0.5846482201387301, "step": 7670}, {"loss": 0.18237149715423584, "token_acc": 0.9219535551831458, "grad_norm": 1.5154054164886475, "learning_rate": 9.66599003233666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240996, "epoch": 0.58502934674899, "step": 7675}, {"loss": 0.17306165695190429, "token_acc": 0.948938611589214, "grad_norm": 1.4648553133010864, "learning_rate": 9.665559617696485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241036, "epoch": 0.5854104733592499, "step": 7680}, {"loss": 0.17935343980789184, "token_acc": 0.9170506912442397, "grad_norm": 0.9786561131477356, "learning_rate": 9.665128935508115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24108, "epoch": 0.5857915999695099, "step": 7685}, {"loss": 0.21822142601013184, "token_acc": 0.9170681348933242, "grad_norm": 0.97187340259552, "learning_rate": 9.664697985796249e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241106, "epoch": 0.5861727265797698, "step": 7690}, {"loss": 0.1480696201324463, "token_acc": 0.9462025316455697, "grad_norm": 1.012854814529419, "learning_rate": 9.664266768585601e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241151, "epoch": 0.5865538531900297, "step": 7695}, {"loss": 0.1725999116897583, "token_acc": 0.9398532227185705, "grad_norm": 0.8676527738571167, "learning_rate": 9.663835283900899e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241188, "epoch": 0.5869349798002896, "step": 7700}, {"loss": 0.1398878812789917, "token_acc": 0.9496844902025905, "grad_norm": 0.7988055944442749, "learning_rate": 9.663403531766887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241213, "epoch": 0.5873161064105495, "step": 7705}, {"loss": 0.14847960472106933, "token_acc": 0.9306253770359944, "grad_norm": 1.9096754789352417, "learning_rate": 9.662971512208323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241255, "epoch": 0.5876972330208096, "step": 7710}, {"loss": 0.171694016456604, "token_acc": 0.9302825552825553, "grad_norm": 0.7272353172302246, "learning_rate": 9.66253922524998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241296, "epoch": 0.5880783596310695, "step": 7715}, {"loss": 0.20573174953460693, "token_acc": 0.9235801367826345, "grad_norm": 1.2555022239685059, "learning_rate": 9.66210667091665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241342, "epoch": 0.5884594862413294, "step": 7720}, {"loss": 0.16938560009002684, "token_acc": 0.9296995973985754, "grad_norm": 1.1017787456512451, "learning_rate": 9.661673849233139e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241394, "epoch": 0.5888406128515893, "step": 7725}, {"loss": 0.14452893733978273, "token_acc": 0.9395299145299145, "grad_norm": 0.6680178642272949, "learning_rate": 9.661240760224264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241431, "epoch": 0.5892217394618492, "step": 7730}, {"loss": 0.17860064506530762, "token_acc": 0.9355971896955504, "grad_norm": 0.5053827166557312, "learning_rate": 9.660807403914863e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241468, "epoch": 0.5896028660721091, "step": 7735}, {"loss": 0.19879472255706787, "token_acc": 0.9262396694214876, "grad_norm": 0.874459445476532, "learning_rate": 9.660373780329785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241509, "epoch": 0.5899839926823691, "step": 7740}, {"loss": 0.15277471542358398, "token_acc": 0.9369610466845079, "grad_norm": 1.2819390296936035, "learning_rate": 9.659939889493897e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241554, "epoch": 0.590365119292629, "step": 7745}, {"loss": 0.13909441232681274, "token_acc": 0.9354932021984379, "grad_norm": 0.9887340068817139, "learning_rate": 9.659505731432083e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241599, "epoch": 0.5907462459028889, "step": 7750}, {"loss": 0.1114037275314331, "token_acc": 0.927102238354507, "grad_norm": 0.8788447380065918, "learning_rate": 9.659071306169236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241651, "epoch": 0.5911273725131488, "step": 7755}, {"loss": 0.14730302095413209, "token_acc": 0.9441595441595442, "grad_norm": 1.8797560930252075, "learning_rate": 9.658636613730271e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241687, "epoch": 0.5915084991234087, "step": 7760}, {"loss": 0.14082696437835693, "token_acc": 0.9441519368183527, "grad_norm": 0.9251717925071716, "learning_rate": 9.658201654140116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241722, "epoch": 0.5918896257336688, "step": 7765}, {"loss": 0.23255736827850343, "token_acc": 0.9120903454384411, "grad_norm": 0.8361734747886658, "learning_rate": 9.657766427423713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241756, "epoch": 0.5922707523439287, "step": 7770}, {"loss": 0.1532285213470459, "token_acc": 0.9359342130426468, "grad_norm": 1.2354007959365845, "learning_rate": 9.65733093360602e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241792, "epoch": 0.5926518789541886, "step": 7775}, {"loss": 0.19975624084472657, "token_acc": 0.9169244365885992, "grad_norm": 0.7249266505241394, "learning_rate": 9.656895172712009e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241829, "epoch": 0.5930330055644485, "step": 7780}, {"loss": 0.1816406726837158, "token_acc": 0.9277124712876639, "grad_norm": 0.6983355283737183, "learning_rate": 9.656459144766671e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241853, "epoch": 0.5934141321747084, "step": 7785}, {"loss": 0.12894355058670043, "token_acc": 0.9368944099378882, "grad_norm": 0.7544824481010437, "learning_rate": 9.65602284979501e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241895, "epoch": 0.5937952587849684, "step": 7790}, {"loss": 0.18926039934158326, "token_acc": 0.9182325308279506, "grad_norm": 0.7422509789466858, "learning_rate": 9.655586287822045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241924, "epoch": 0.5941763853952283, "step": 7795}, {"loss": 0.16706838607788085, "token_acc": 0.9291871921182266, "grad_norm": 1.2811518907546997, "learning_rate": 9.655149458872812e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241975, "epoch": 0.5945575120054882, "step": 7800}, {"eval_loss": 0.13117600977420807, "eval_token_acc": 0.9363743148003132, "eval_runtime": 172.1513, "eval_samples_per_second": 3.079, "eval_steps_per_second": 3.079, "epoch": 0.5945575120054882, "step": 7800}, {"loss": 0.23185529708862304, "token_acc": 0.9358196326715197, "grad_norm": 1.3139721155166626, "learning_rate": 9.654712362972359e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240726, "epoch": 0.5949386386157481, "step": 7805}, {"loss": 0.1876257061958313, "token_acc": 0.9300682834942312, "grad_norm": 1.1425786018371582, "learning_rate": 9.654275000145753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240778, "epoch": 0.595319765226008, "step": 7810}, {"loss": 0.16797358989715577, "token_acc": 0.9380551127305853, "grad_norm": 1.4417964220046997, "learning_rate": 9.653837370418074e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240812, "epoch": 0.595700891836268, "step": 7815}, {"loss": 0.19549913406372071, "token_acc": 0.9250446162998215, "grad_norm": 0.6133943796157837, "learning_rate": 9.653399473814417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24087, "epoch": 0.596082018446528, "step": 7820}, {"loss": 0.18271559476852417, "token_acc": 0.9293619025194255, "grad_norm": 1.1524935960769653, "learning_rate": 9.652961310359896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240913, "epoch": 0.5964631450567879, "step": 7825}, {"loss": 0.1810246706008911, "token_acc": 0.9281529448041936, "grad_norm": 1.1153091192245483, "learning_rate": 9.652522880079637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240935, "epoch": 0.5968442716670478, "step": 7830}, {"loss": 0.20587754249572754, "token_acc": 0.925007944073721, "grad_norm": 0.9788456559181213, "learning_rate": 9.652084182998779e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240964, "epoch": 0.5972253982773077, "step": 7835}, {"loss": 0.22603607177734375, "token_acc": 0.9084863837872071, "grad_norm": 1.002518892288208, "learning_rate": 9.651645219142483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241017, "epoch": 0.5976065248875676, "step": 7840}, {"loss": 0.1674239754676819, "token_acc": 0.9442746719396009, "grad_norm": 1.1552704572677612, "learning_rate": 9.651205988535919e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241039, "epoch": 0.5979876514978276, "step": 7845}, {"loss": 0.1773926019668579, "token_acc": 0.9268342115930279, "grad_norm": 0.8209718465805054, "learning_rate": 9.650766491204277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241086, "epoch": 0.5983687781080875, "step": 7850}, {"loss": 0.17339322566986085, "token_acc": 0.9263836646963998, "grad_norm": 1.494126319885254, "learning_rate": 9.650326727172758e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241147, "epoch": 0.5987499047183474, "step": 7855}, {"loss": 0.15323047637939452, "token_acc": 0.9318181818181818, "grad_norm": 1.327548623085022, "learning_rate": 9.649886696466581e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241191, "epoch": 0.5991310313286073, "step": 7860}, {"loss": 0.16441717147827148, "token_acc": 0.9357724509691479, "grad_norm": 0.7013490796089172, "learning_rate": 9.649446399110982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241218, "epoch": 0.5995121579388673, "step": 7865}, {"loss": 0.17687045335769652, "token_acc": 0.9316129032258065, "grad_norm": 1.173106074333191, "learning_rate": 9.649005835131206e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241229, "epoch": 0.5998932845491273, "step": 7870}, {"loss": 0.15458996295928956, "token_acc": 0.9373620777457138, "grad_norm": 0.6432010531425476, "learning_rate": 9.648565004552522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241255, "epoch": 0.6002744111593872, "step": 7875}, {"loss": 0.18623952865600585, "token_acc": 0.9336827252570047, "grad_norm": 1.331567645072937, "learning_rate": 9.648123907400204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241284, "epoch": 0.6006555377696471, "step": 7880}, {"loss": 0.1972717046737671, "token_acc": 0.9313154831199069, "grad_norm": 0.9318958520889282, "learning_rate": 9.64768254369955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241302, "epoch": 0.601036664379907, "step": 7885}, {"loss": 0.13848457336425782, "token_acc": 0.933203125, "grad_norm": 1.2176384925842285, "learning_rate": 9.647240913475871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241357, "epoch": 0.6014177909901669, "step": 7890}, {"loss": 0.25974676609039304, "token_acc": 0.9138576779026217, "grad_norm": 1.1331379413604736, "learning_rate": 9.64679901675449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241383, "epoch": 0.6017989176004268, "step": 7895}, {"loss": 0.1462315559387207, "token_acc": 0.9355575868372943, "grad_norm": 0.4685252904891968, "learning_rate": 9.646356853560752e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241419, "epoch": 0.6021800442106868, "step": 7900}, {"loss": 0.21618452072143554, "token_acc": 0.907625786163522, "grad_norm": 1.5465182065963745, "learning_rate": 9.645914423920008e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241471, "epoch": 0.6025611708209467, "step": 7905}, {"loss": 0.16696090698242189, "token_acc": 0.9385840935371964, "grad_norm": 0.840312123298645, "learning_rate": 9.645471727857633e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24147, "epoch": 0.6029422974312066, "step": 7910}, {"loss": 0.24054486751556398, "token_acc": 0.9050297816015883, "grad_norm": 1.3208403587341309, "learning_rate": 9.645028765399012e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241515, "epoch": 0.6033234240414665, "step": 7915}, {"loss": 0.18515775203704835, "token_acc": 0.9365043240782885, "grad_norm": 0.7623984217643738, "learning_rate": 9.644585536569546e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241541, "epoch": 0.6037045506517265, "step": 7920}, {"loss": 0.13962360620498657, "token_acc": 0.9414389291689905, "grad_norm": 0.9161081314086914, "learning_rate": 9.644142041394653e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241567, "epoch": 0.6040856772619865, "step": 7925}, {"loss": 0.2150402307510376, "token_acc": 0.9262391817466562, "grad_norm": 0.9703963398933411, "learning_rate": 9.643698279899764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24159, "epoch": 0.6044668038722464, "step": 7930}, {"loss": 0.21015410423278807, "token_acc": 0.9268443893366398, "grad_norm": 1.1734962463378906, "learning_rate": 9.643254252110329e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24163, "epoch": 0.6048479304825063, "step": 7935}, {"loss": 0.17848646640777588, "token_acc": 0.9235867446393762, "grad_norm": 1.4418681859970093, "learning_rate": 9.642809958051811e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24168, "epoch": 0.6052290570927662, "step": 7940}, {"loss": 0.12784312963485717, "token_acc": 0.9490161001788909, "grad_norm": 0.8545412421226501, "learning_rate": 9.642365397749688e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241722, "epoch": 0.6056101837030261, "step": 7945}, {"loss": 0.1770368218421936, "token_acc": 0.920125786163522, "grad_norm": 0.8447553515434265, "learning_rate": 9.64192057122945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241766, "epoch": 0.6059913103132861, "step": 7950}, {"loss": 0.1523826837539673, "token_acc": 0.9378681360440814, "grad_norm": 0.86783367395401, "learning_rate": 9.64147547851661e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241788, "epoch": 0.606372436923546, "step": 7955}, {"loss": 0.11448771953582763, "token_acc": 0.9375757575757576, "grad_norm": 0.6750895977020264, "learning_rate": 9.64103011963669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241828, "epoch": 0.6067535635338059, "step": 7960}, {"loss": 0.1699825644493103, "token_acc": 0.9289617486338798, "grad_norm": 0.9182257652282715, "learning_rate": 9.640584494615231e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241871, "epoch": 0.6071346901440658, "step": 7965}, {"loss": 0.1932484745979309, "token_acc": 0.9180645161290323, "grad_norm": 1.0282111167907715, "learning_rate": 9.640138603477783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241906, "epoch": 0.6075158167543258, "step": 7970}, {"loss": 0.1876423716545105, "token_acc": 0.9247138769670958, "grad_norm": 0.7538350224494934, "learning_rate": 9.639692446249922e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241931, "epoch": 0.6078969433645857, "step": 7975}, {"loss": 0.14887337684631347, "token_acc": 0.941722972972973, "grad_norm": 0.5646142959594727, "learning_rate": 9.639246022957229e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241989, "epoch": 0.6082780699748457, "step": 7980}, {"loss": 0.16283581256866456, "token_acc": 0.9440847557386698, "grad_norm": 2.0593976974487305, "learning_rate": 9.638799333625305e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242029, "epoch": 0.6086591965851056, "step": 7985}, {"loss": 0.15430002212524413, "token_acc": 0.9292753623188406, "grad_norm": 0.3530195653438568, "learning_rate": 9.638352378279765e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242078, "epoch": 0.6090403231953655, "step": 7990}, {"loss": 0.22461538314819335, "token_acc": 0.9164294088092447, "grad_norm": 1.5503309965133667, "learning_rate": 9.637905156946243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242105, "epoch": 0.6094214498056254, "step": 7995}, {"loss": 0.1813715934753418, "token_acc": 0.9185963237049415, "grad_norm": 1.5756884813308716, "learning_rate": 9.63745766965038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242141, "epoch": 0.6098025764158853, "step": 8000}, {"eval_loss": 0.13106344640254974, "eval_token_acc": 0.9363366664658755, "eval_runtime": 189.8956, "eval_samples_per_second": 2.791, "eval_steps_per_second": 2.791, "epoch": 0.6098025764158853, "step": 8000}, {"loss": 0.20544662475585937, "token_acc": 0.9358545229522952, "grad_norm": 1.428428292274475, "learning_rate": 9.637009916417843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24077, "epoch": 0.6101837030261453, "step": 8005}, {"loss": 0.12355036735534668, "token_acc": 0.9426017874875869, "grad_norm": 0.12143536657094955, "learning_rate": 9.636561897274303e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240799, "epoch": 0.6105648296364052, "step": 8010}, {"loss": 0.16331074237823487, "token_acc": 0.9207863544376987, "grad_norm": 0.2754247486591339, "learning_rate": 9.636113612245457e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240845, "epoch": 0.6109459562466651, "step": 8015}, {"loss": 0.19358372688293457, "token_acc": 0.9422433527029407, "grad_norm": 0.7716213464736938, "learning_rate": 9.635665061357007e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240863, "epoch": 0.611327082856925, "step": 8020}, {"loss": 0.19928573369979857, "token_acc": 0.9114077669902912, "grad_norm": 1.4119852781295776, "learning_rate": 9.63521624463468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240907, "epoch": 0.611708209467185, "step": 8025}, {"loss": 0.24821348190307618, "token_acc": 0.8982778415614237, "grad_norm": 1.0648599863052368, "learning_rate": 9.63476716210421e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240949, "epoch": 0.612089336077445, "step": 8030}, {"loss": 0.10390888452529908, "token_acc": 0.9552734375, "grad_norm": 0.8465040922164917, "learning_rate": 9.634317813791351e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240969, "epoch": 0.6124704626877049, "step": 8035}, {"loss": 0.1562321424484253, "token_acc": 0.93179694799128, "grad_norm": 1.271389365196228, "learning_rate": 9.633868199721872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241017, "epoch": 0.6128515892979648, "step": 8040}, {"loss": 0.18682260513305665, "token_acc": 0.9414935577175914, "grad_norm": 0.5480735301971436, "learning_rate": 9.633418319921555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241039, "epoch": 0.6132327159082247, "step": 8045}, {"loss": 0.17028530836105346, "token_acc": 0.9411764705882353, "grad_norm": 0.9608625769615173, "learning_rate": 9.6329681744162e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241045, "epoch": 0.6136138425184846, "step": 8050}, {"loss": 0.19159598350524903, "token_acc": 0.9214901477832512, "grad_norm": 1.0030444860458374, "learning_rate": 9.632517763231619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241097, "epoch": 0.6139949691287445, "step": 8055}, {"loss": 0.16223336458206178, "token_acc": 0.93519882179676, "grad_norm": 0.7449002265930176, "learning_rate": 9.632067086393642e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241138, "epoch": 0.6143760957390045, "step": 8060}, {"loss": 0.21803746223449708, "token_acc": 0.9145274212368728, "grad_norm": 1.9718002080917358, "learning_rate": 9.631616143928112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24118, "epoch": 0.6147572223492644, "step": 8065}, {"loss": 0.1557462692260742, "token_acc": 0.9365896719140797, "grad_norm": 1.1464660167694092, "learning_rate": 9.631164935860892e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241192, "epoch": 0.6151383489595244, "step": 8070}, {"loss": 0.16249715089797973, "token_acc": 0.933440440670186, "grad_norm": 0.9512729644775391, "learning_rate": 9.630713462217853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241232, "epoch": 0.6155194755697843, "step": 8075}, {"loss": 0.16679707765579224, "token_acc": 0.9261477045908184, "grad_norm": 0.874847948551178, "learning_rate": 9.630261723024885e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241277, "epoch": 0.6159006021800442, "step": 8080}, {"loss": 0.12746152877807618, "token_acc": 0.9326716738197425, "grad_norm": 0.9450111985206604, "learning_rate": 9.629809718307895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241318, "epoch": 0.6162817287903042, "step": 8085}, {"loss": 0.20208725929260254, "token_acc": 0.9392151481888035, "grad_norm": 1.5321428775787354, "learning_rate": 9.629357448092803e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241323, "epoch": 0.6166628554005641, "step": 8090}, {"loss": 0.2043161153793335, "token_acc": 0.9239969135802469, "grad_norm": 1.7236593961715698, "learning_rate": 9.628904912405544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241352, "epoch": 0.617043982010824, "step": 8095}, {"loss": 0.14441049098968506, "token_acc": 0.9339187705817783, "grad_norm": 0.9077289700508118, "learning_rate": 9.628452111272069e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241388, "epoch": 0.6174251086210839, "step": 8100}, {"loss": 0.14001425504684448, "token_acc": 0.947243627741553, "grad_norm": 0.9347286224365234, "learning_rate": 9.627999044718343e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241383, "epoch": 0.6178062352313438, "step": 8105}, {"loss": 0.18200641870498657, "token_acc": 0.9196542893725992, "grad_norm": 1.159408688545227, "learning_rate": 9.62754571277035e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241434, "epoch": 0.6181873618416038, "step": 8110}, {"loss": 0.1689950108528137, "token_acc": 0.93241323320479, "grad_norm": 0.8021283745765686, "learning_rate": 9.627092115454084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241464, "epoch": 0.6185684884518637, "step": 8115}, {"loss": 0.18900158405303955, "token_acc": 0.9310391001606856, "grad_norm": 0.8328059315681458, "learning_rate": 9.626638252795556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241476, "epoch": 0.6189496150621236, "step": 8120}, {"loss": 0.15584073066711426, "token_acc": 0.9136435331230284, "grad_norm": 0.6116961240768433, "learning_rate": 9.626184124820797e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241512, "epoch": 0.6193307416723836, "step": 8125}, {"loss": 0.19368693828582764, "token_acc": 0.9302884615384616, "grad_norm": 1.0864230394363403, "learning_rate": 9.625729731555845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241539, "epoch": 0.6197118682826435, "step": 8130}, {"loss": 0.1807619094848633, "token_acc": 0.9343296148179331, "grad_norm": 1.4659103155136108, "learning_rate": 9.62527507302676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241575, "epoch": 0.6200929948929034, "step": 8135}, {"loss": 0.1562959671020508, "token_acc": 0.9450072358900145, "grad_norm": 0.9813858866691589, "learning_rate": 9.624820149259612e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241621, "epoch": 0.6204741215031634, "step": 8140}, {"loss": 0.16451846361160277, "token_acc": 0.9341119435874835, "grad_norm": 0.6769987940788269, "learning_rate": 9.624364960280492e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241658, "epoch": 0.6208552481134233, "step": 8145}, {"loss": 0.2132810592651367, "token_acc": 0.9216338880484115, "grad_norm": 1.4193699359893799, "learning_rate": 9.6239095061155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241706, "epoch": 0.6212363747236832, "step": 8150}, {"loss": 0.17738310098648072, "token_acc": 0.9500672172076051, "grad_norm": 2.2731168270111084, "learning_rate": 9.623453786790755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241702, "epoch": 0.6216175013339431, "step": 8155}, {"loss": 0.15275660753250123, "token_acc": 0.9302240176276166, "grad_norm": 0.8574259877204895, "learning_rate": 9.622997802332392e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241754, "epoch": 0.621998627944203, "step": 8160}, {"loss": 0.18044419288635255, "token_acc": 0.911191662890802, "grad_norm": 1.5105760097503662, "learning_rate": 9.622541552766557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241807, "epoch": 0.622379754554463, "step": 8165}, {"loss": 0.12229187488555908, "token_acc": 0.9341389728096676, "grad_norm": 0.9093693494796753, "learning_rate": 9.622085038119417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241851, "epoch": 0.622760881164723, "step": 8170}, {"loss": 0.21604681015014648, "token_acc": 0.9219075052008321, "grad_norm": 0.7494461536407471, "learning_rate": 9.621628258417148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241873, "epoch": 0.6231420077749829, "step": 8175}, {"loss": 0.1693800926208496, "token_acc": 0.9256071906674316, "grad_norm": 1.2331860065460205, "learning_rate": 9.621171213685944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241919, "epoch": 0.6235231343852428, "step": 8180}, {"loss": 0.1824579954147339, "token_acc": 0.9351615152219381, "grad_norm": 0.7395375967025757, "learning_rate": 9.62071390395202e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241964, "epoch": 0.6239042609955027, "step": 8185}, {"loss": 0.21112446784973143, "token_acc": 0.9307549791570171, "grad_norm": 0.9445475339889526, "learning_rate": 9.620256329241591e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24198, "epoch": 0.6242853876057627, "step": 8190}, {"loss": 0.17850127220153808, "token_acc": 0.9275023386342376, "grad_norm": 1.097900629043579, "learning_rate": 9.619798489580905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242014, "epoch": 0.6246665142160226, "step": 8195}, {"loss": 0.14135751724243165, "token_acc": 0.9340305711987128, "grad_norm": 0.8079699873924255, "learning_rate": 9.619340384996214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242057, "epoch": 0.6250476408262825, "step": 8200}, {"eval_loss": 0.1273099184036255, "eval_token_acc": 0.9369465694837661, "eval_runtime": 171.4553, "eval_samples_per_second": 3.091, "eval_steps_per_second": 3.091, "epoch": 0.6250476408262825, "step": 8200}, {"loss": 0.1710277318954468, "token_acc": 0.9372786871258124, "grad_norm": 1.4148907661437988, "learning_rate": 9.618882015513788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240858, "epoch": 0.6254287674365424, "step": 8205}, {"loss": 0.23213915824890136, "token_acc": 0.9021739130434783, "grad_norm": 0.8310389518737793, "learning_rate": 9.618423381159914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240887, "epoch": 0.6258098940468023, "step": 8210}, {"loss": 0.14814151525497438, "token_acc": 0.9305822696275573, "grad_norm": 0.9546253085136414, "learning_rate": 9.617964481960888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240917, "epoch": 0.6261910206570622, "step": 8215}, {"loss": 0.20111682415008544, "token_acc": 0.9201833110559481, "grad_norm": 0.8442847728729248, "learning_rate": 9.617505317943032e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240943, "epoch": 0.6265721472673222, "step": 8220}, {"loss": 0.13059465885162352, "token_acc": 0.9474576271186441, "grad_norm": 0.5700371861457825, "learning_rate": 9.617045889132672e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240978, "epoch": 0.6269532738775822, "step": 8225}, {"loss": 0.18340636491775514, "token_acc": 0.9301075268817204, "grad_norm": 0.7776800394058228, "learning_rate": 9.616586195556157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241028, "epoch": 0.6273344004878421, "step": 8230}, {"loss": 0.1375953435897827, "token_acc": 0.9381225475399939, "grad_norm": 1.103229284286499, "learning_rate": 9.616126237239847e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241068, "epoch": 0.627715527098102, "step": 8235}, {"loss": 0.17645232677459716, "token_acc": 0.9376840039254171, "grad_norm": 1.4373728036880493, "learning_rate": 9.615666014210119e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241074, "epoch": 0.6280966537083619, "step": 8240}, {"loss": 0.2072843551635742, "token_acc": 0.922324398356486, "grad_norm": 0.907810628414154, "learning_rate": 9.615205526493363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241109, "epoch": 0.6284777803186219, "step": 8245}, {"loss": 0.11596149206161499, "token_acc": 0.9546319796954315, "grad_norm": 1.4297528266906738, "learning_rate": 9.614744774115989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241155, "epoch": 0.6288589069288818, "step": 8250}, {"loss": 0.11538888216018676, "token_acc": 0.935546875, "grad_norm": 0.8754181861877441, "learning_rate": 9.614283757104417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241193, "epoch": 0.6292400335391417, "step": 8255}, {"loss": 0.15533294677734374, "token_acc": 0.9368171021377673, "grad_norm": 0.6612743735313416, "learning_rate": 9.613822475485083e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241214, "epoch": 0.6296211601494016, "step": 8260}, {"loss": 0.1915029764175415, "token_acc": 0.9227589208006962, "grad_norm": 1.3262935876846313, "learning_rate": 9.613360929284442e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24125, "epoch": 0.6300022867596615, "step": 8265}, {"loss": 0.1591894030570984, "token_acc": 0.940260403369926, "grad_norm": 1.2241666316986084, "learning_rate": 9.612899118528959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24129, "epoch": 0.6303834133699215, "step": 8270}, {"loss": 0.1767812490463257, "token_acc": 0.9336655986709387, "grad_norm": 1.1499006748199463, "learning_rate": 9.61243704324512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241304, "epoch": 0.6307645399801814, "step": 8275}, {"loss": 0.18676252365112306, "token_acc": 0.9348773217152029, "grad_norm": 1.2670087814331055, "learning_rate": 9.61197470345942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241345, "epoch": 0.6311456665904414, "step": 8280}, {"loss": 0.17513937950134278, "token_acc": 0.926073926073926, "grad_norm": 0.9649338722229004, "learning_rate": 9.611512099198372e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241388, "epoch": 0.6315267932007013, "step": 8285}, {"loss": 0.2051142692565918, "token_acc": 0.923993676273866, "grad_norm": 1.201296091079712, "learning_rate": 9.611049230488506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241392, "epoch": 0.6319079198109612, "step": 8290}, {"loss": 0.17460932731628417, "token_acc": 0.9313154831199069, "grad_norm": 0.8939799666404724, "learning_rate": 9.610586097356365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241411, "epoch": 0.6322890464212211, "step": 8295}, {"loss": 0.1212655782699585, "token_acc": 0.949376652814507, "grad_norm": 0.15668103098869324, "learning_rate": 9.610122699828507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241459, "epoch": 0.6326701730314811, "step": 8300}, {"loss": 0.17887375354766846, "token_acc": 0.9343821155040364, "grad_norm": 0.9086278080940247, "learning_rate": 9.609659037931504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241492, "epoch": 0.633051299641741, "step": 8305}, {"loss": 0.17997028827667236, "token_acc": 0.927650618258353, "grad_norm": 0.7159310579299927, "learning_rate": 9.609195111691949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241537, "epoch": 0.6334324262520009, "step": 8310}, {"loss": 0.12555792331695556, "token_acc": 0.9483708484180702, "grad_norm": 1.4166866540908813, "learning_rate": 9.608730921136442e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241562, "epoch": 0.6338135528622608, "step": 8315}, {"loss": 0.153370463848114, "token_acc": 0.941318522096112, "grad_norm": 1.9215995073318481, "learning_rate": 9.608266466291605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2416, "epoch": 0.6341946794725207, "step": 8320}, {"loss": 0.1777164578437805, "token_acc": 0.9164391043145822, "grad_norm": 0.7461358308792114, "learning_rate": 9.60780174718407e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241641, "epoch": 0.6345758060827807, "step": 8325}, {"loss": 0.15266958475112916, "token_acc": 0.9271899886234357, "grad_norm": 0.8541620969772339, "learning_rate": 9.60733676384049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241678, "epoch": 0.6349569326930407, "step": 8330}, {"loss": 0.13736329078674317, "token_acc": 0.9475948978023667, "grad_norm": 0.5619824528694153, "learning_rate": 9.606871516287524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241707, "epoch": 0.6353380593033006, "step": 8335}, {"loss": 0.1611067533493042, "token_acc": 0.9353582554517134, "grad_norm": 0.7591145038604736, "learning_rate": 9.606406004551856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241723, "epoch": 0.6357191859135605, "step": 8340}, {"loss": 0.20532302856445311, "token_acc": 0.9146280579131303, "grad_norm": 0.8863813877105713, "learning_rate": 9.60594022866018e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241758, "epoch": 0.6361003125238204, "step": 8345}, {"loss": 0.1616098999977112, "token_acc": 0.9428836777339216, "grad_norm": 0.6345336437225342, "learning_rate": 9.605474188639208e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24179, "epoch": 0.6364814391340804, "step": 8350}, {"loss": 0.18547506332397462, "token_acc": 0.9306521019529957, "grad_norm": 0.7842341661453247, "learning_rate": 9.60500788451566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241817, "epoch": 0.6368625657443403, "step": 8355}, {"loss": 0.17235245704650878, "token_acc": 0.9445856634468734, "grad_norm": 1.428398847579956, "learning_rate": 9.604541316316283e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241844, "epoch": 0.6372436923546002, "step": 8360}, {"loss": 0.17958345413208007, "token_acc": 0.9331285444234405, "grad_norm": 0.8446768522262573, "learning_rate": 9.604074484067827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241878, "epoch": 0.6376248189648601, "step": 8365}, {"loss": 0.20288915634155275, "token_acc": 0.9316254111130344, "grad_norm": 1.2249500751495361, "learning_rate": 9.603607387797065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241898, "epoch": 0.63800594557512, "step": 8370}, {"loss": 0.20430231094360352, "token_acc": 0.9308029950942421, "grad_norm": 0.8047518730163574, "learning_rate": 9.603140027530783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241931, "epoch": 0.6383870721853799, "step": 8375}, {"loss": 0.15162469148635865, "token_acc": 0.9390831390831391, "grad_norm": 1.311505675315857, "learning_rate": 9.602672403295782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241947, "epoch": 0.63876819879564, "step": 8380}, {"loss": 0.1750964641571045, "token_acc": 0.9267333809864189, "grad_norm": 0.35626307129859924, "learning_rate": 9.602204515118876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24199, "epoch": 0.6391493254058999, "step": 8385}, {"loss": 0.19403172731399537, "token_acc": 0.9216266173752311, "grad_norm": 1.098136305809021, "learning_rate": 9.6017363630269e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242036, "epoch": 0.6395304520161598, "step": 8390}, {"loss": 0.22104952335357667, "token_acc": 0.9206942590120161, "grad_norm": 1.4040976762771606, "learning_rate": 9.601267947046697e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24208, "epoch": 0.6399115786264197, "step": 8395}, {"loss": 0.15823090076446533, "token_acc": 0.9271961492178099, "grad_norm": 1.5646140575408936, "learning_rate": 9.60079926720513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24213, "epoch": 0.6402927052366796, "step": 8400}, {"eval_loss": 0.12958687543869019, "eval_token_acc": 0.9374435274983435, "eval_runtime": 174.435, "eval_samples_per_second": 3.038, "eval_steps_per_second": 3.038, "epoch": 0.6402927052366796, "step": 8400}, {"loss": 0.142455792427063, "token_acc": 0.9377693401572189, "grad_norm": 0.38185179233551025, "learning_rate": 9.600330323529077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240942, "epoch": 0.6406738318469396, "step": 8405}, {"loss": 0.1553672432899475, "token_acc": 0.9388057246257608, "grad_norm": 1.0085633993148804, "learning_rate": 9.599861116045426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240966, "epoch": 0.6410549584571995, "step": 8410}, {"loss": 0.15746684074401857, "token_acc": 0.9401725431357839, "grad_norm": 0.8816835880279541, "learning_rate": 9.599391644781086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240993, "epoch": 0.6414360850674594, "step": 8415}, {"loss": 0.1980975389480591, "token_acc": 0.9022608695652173, "grad_norm": 0.8446353673934937, "learning_rate": 9.59892190976298e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24104, "epoch": 0.6418172116777193, "step": 8420}, {"loss": 0.1818060278892517, "token_acc": 0.9297912713472486, "grad_norm": 0.7561236023902893, "learning_rate": 9.598451911018044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241086, "epoch": 0.6421983382879792, "step": 8425}, {"loss": 0.17112646102905274, "token_acc": 0.926605504587156, "grad_norm": 1.3481884002685547, "learning_rate": 9.597981648573229e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241115, "epoch": 0.6425794648982392, "step": 8430}, {"loss": 0.16461453437805176, "token_acc": 0.9383355614973262, "grad_norm": 1.0952452421188354, "learning_rate": 9.597511122455505e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241141, "epoch": 0.6429605915084992, "step": 8435}, {"loss": 0.19042859077453614, "token_acc": 0.9300491336953711, "grad_norm": 1.0959644317626953, "learning_rate": 9.597040332691854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241149, "epoch": 0.6433417181187591, "step": 8440}, {"loss": 0.19325727224349976, "token_acc": 0.918869828456105, "grad_norm": 1.0455317497253418, "learning_rate": 9.59656927930927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241184, "epoch": 0.643722844729019, "step": 8445}, {"loss": 0.13968425989151, "token_acc": 0.9417139256458728, "grad_norm": 0.5525988340377808, "learning_rate": 9.596097962334771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241233, "epoch": 0.6441039713392789, "step": 8450}, {"loss": 0.1856292486190796, "token_acc": 0.9213863060016906, "grad_norm": 1.1237283945083618, "learning_rate": 9.595626381795381e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241274, "epoch": 0.6444850979495388, "step": 8455}, {"loss": 0.27615833282470703, "token_acc": 0.9105993904503894, "grad_norm": 0.9030933380126953, "learning_rate": 9.595154537718145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24132, "epoch": 0.6448662245597988, "step": 8460}, {"loss": 0.18834749460220337, "token_acc": 0.9293639053254438, "grad_norm": 1.223082184791565, "learning_rate": 9.59468243013012e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241346, "epoch": 0.6452473511700587, "step": 8465}, {"loss": 0.10805976390838623, "token_acc": 0.9526328444337581, "grad_norm": 0.8325604200363159, "learning_rate": 9.594210059058379e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241379, "epoch": 0.6456284777803186, "step": 8470}, {"loss": 0.19726216793060303, "token_acc": 0.9306829765545361, "grad_norm": 2.5277583599090576, "learning_rate": 9.593737424530013e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241419, "epoch": 0.6460096043905785, "step": 8475}, {"loss": 0.20717239379882812, "token_acc": 0.9232407317781435, "grad_norm": 0.8176725506782532, "learning_rate": 9.593264526572122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241433, "epoch": 0.6463907310008384, "step": 8480}, {"loss": 0.2273397207260132, "token_acc": 0.9210587959709534, "grad_norm": 0.9424812197685242, "learning_rate": 9.592791365211825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241465, "epoch": 0.6467718576110985, "step": 8485}, {"loss": 0.1594170331954956, "token_acc": 0.9413751181953263, "grad_norm": 1.3571972846984863, "learning_rate": 9.592317940476258e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241467, "epoch": 0.6471529842213584, "step": 8490}, {"loss": 0.1853726863861084, "token_acc": 0.9233050009883376, "grad_norm": 0.8461487293243408, "learning_rate": 9.591844252392566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241504, "epoch": 0.6475341108316183, "step": 8495}, {"loss": 0.18645672798156737, "token_acc": 0.9280104712041884, "grad_norm": 0.760529100894928, "learning_rate": 9.591370300987917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241523, "epoch": 0.6479152374418782, "step": 8500}, {"loss": 0.15756999254226683, "token_acc": 0.946322336398053, "grad_norm": 1.5562944412231445, "learning_rate": 9.590896086289486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241537, "epoch": 0.6482963640521381, "step": 8505}, {"loss": 0.23643884658813477, "token_acc": 0.92109375, "grad_norm": 0.937748372554779, "learning_rate": 9.590421608324469e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241563, "epoch": 0.6486774906623981, "step": 8510}, {"loss": 0.20934031009674073, "token_acc": 0.9365773646801531, "grad_norm": 0.9871267676353455, "learning_rate": 9.589946867120076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24158, "epoch": 0.649058617272658, "step": 8515}, {"loss": 0.1735867142677307, "token_acc": 0.9406152327685474, "grad_norm": 1.434014081954956, "learning_rate": 9.58947186270353e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241603, "epoch": 0.6494397438829179, "step": 8520}, {"loss": 0.1511477828025818, "token_acc": 0.9349690803909835, "grad_norm": 0.746117889881134, "learning_rate": 9.58899659510207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24163, "epoch": 0.6498208704931778, "step": 8525}, {"loss": 0.13082759380340575, "token_acc": 0.953125, "grad_norm": 1.4615434408187866, "learning_rate": 9.58852106434295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241657, "epoch": 0.6502019971034377, "step": 8530}, {"loss": 0.18232908248901367, "token_acc": 0.9222222222222223, "grad_norm": 0.811945915222168, "learning_rate": 9.588045270453442e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241693, "epoch": 0.6505831237136976, "step": 8535}, {"loss": 0.15288931131362915, "token_acc": 0.9336523819882532, "grad_norm": 0.814946711063385, "learning_rate": 9.587569213460828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241726, "epoch": 0.6509642503239577, "step": 8540}, {"loss": 0.2379392147064209, "token_acc": 0.8843537414965986, "grad_norm": 0.9621989727020264, "learning_rate": 9.587092893392409e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241771, "epoch": 0.6513453769342176, "step": 8545}, {"loss": 0.16908464431762696, "token_acc": 0.9246058944482523, "grad_norm": 0.9783580899238586, "learning_rate": 9.586616310275498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241811, "epoch": 0.6517265035444775, "step": 8550}, {"loss": 0.14428446292877198, "token_acc": 0.946236559139785, "grad_norm": 0.9110943675041199, "learning_rate": 9.586139464137426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241842, "epoch": 0.6521076301547374, "step": 8555}, {"loss": 0.15822073221206664, "token_acc": 0.9395315053568186, "grad_norm": 1.1597049236297607, "learning_rate": 9.58566235500554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241869, "epoch": 0.6524887567649973, "step": 8560}, {"loss": 0.16016092300415039, "token_acc": 0.9336173233936812, "grad_norm": 0.99576735496521, "learning_rate": 9.585184982907196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241894, "epoch": 0.6528698833752573, "step": 8565}, {"loss": 0.19196685552597045, "token_acc": 0.9252013808975834, "grad_norm": 0.5846201777458191, "learning_rate": 9.584707347869773e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241927, "epoch": 0.6532510099855172, "step": 8570}, {"loss": 0.1647853136062622, "token_acc": 0.9167635433620088, "grad_norm": 0.6323632597923279, "learning_rate": 9.584229449920659e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241959, "epoch": 0.6536321365957771, "step": 8575}, {"loss": 0.15533188581466675, "token_acc": 0.9332344213649851, "grad_norm": 0.9840952754020691, "learning_rate": 9.583751289087257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242011, "epoch": 0.654013263206037, "step": 8580}, {"loss": 0.1474178671836853, "token_acc": 0.9445531637312459, "grad_norm": 1.1417115926742554, "learning_rate": 9.583272865396993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24205, "epoch": 0.6543943898162969, "step": 8585}, {"loss": 0.14976317882537843, "token_acc": 0.9408752327746741, "grad_norm": 0.7346475124359131, "learning_rate": 9.582794178877297e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242065, "epoch": 0.6547755164265568, "step": 8590}, {"loss": 0.16570782661437988, "token_acc": 0.9331460674157304, "grad_norm": 0.7473490238189697, "learning_rate": 9.582315229555623e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242092, "epoch": 0.6551566430368169, "step": 8595}, {"loss": 0.19766793251037598, "token_acc": 0.913049918530588, "grad_norm": 0.9431344270706177, "learning_rate": 9.581836017459433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242123, "epoch": 0.6555377696470768, "step": 8600}, {"eval_loss": 0.12851114571094513, "eval_token_acc": 0.9384073248599482, "eval_runtime": 171.0549, "eval_samples_per_second": 3.098, "eval_steps_per_second": 3.098, "epoch": 0.6555377696470768, "step": 8600}, {"loss": 0.15280789136886597, "token_acc": 0.9384182464454977, "grad_norm": 1.3170934915542603, "learning_rate": 9.581356542616211e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241014, "epoch": 0.6559188962573367, "step": 8605}, {"loss": 0.15156619548797606, "token_acc": 0.9429179566563467, "grad_norm": 1.1195261478424072, "learning_rate": 9.580876805053452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24105, "epoch": 0.6563000228675966, "step": 8610}, {"loss": 0.15759152173995972, "token_acc": 0.9396963123644252, "grad_norm": 1.047929048538208, "learning_rate": 9.580396804798666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24107, "epoch": 0.6566811494778565, "step": 8615}, {"loss": 0.20240907669067382, "token_acc": 0.919089245781663, "grad_norm": 1.3274258375167847, "learning_rate": 9.579916541879378e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241108, "epoch": 0.6570622760881165, "step": 8620}, {"loss": 0.22017102241516112, "token_acc": 0.9193030719853278, "grad_norm": 1.9867382049560547, "learning_rate": 9.579436016323131e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241138, "epoch": 0.6574434026983764, "step": 8625}, {"loss": 0.14391725063323973, "token_acc": 0.9433287950987066, "grad_norm": 1.5564203262329102, "learning_rate": 9.578955228157478e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241165, "epoch": 0.6578245293086363, "step": 8630}, {"loss": 0.22846317291259766, "token_acc": 0.926254997778765, "grad_norm": 0.45271944999694824, "learning_rate": 9.578474177409992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24118, "epoch": 0.6582056559188962, "step": 8635}, {"loss": 0.13359334468841552, "token_acc": 0.9412148922273024, "grad_norm": 0.39930853247642517, "learning_rate": 9.57799286410826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241226, "epoch": 0.6585867825291561, "step": 8640}, {"loss": 0.15227952003479003, "token_acc": 0.946162998215348, "grad_norm": 1.244123935699463, "learning_rate": 9.577511288279881e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241272, "epoch": 0.6589679091394162, "step": 8645}, {"loss": 0.14404083490371705, "token_acc": 0.94362292051756, "grad_norm": 1.2357984781265259, "learning_rate": 9.577029449952471e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241276, "epoch": 0.6593490357496761, "step": 8650}, {"loss": 0.2556620597839355, "token_acc": 0.9197975770587333, "grad_norm": 0.6363328695297241, "learning_rate": 9.576547349153664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241307, "epoch": 0.659730162359936, "step": 8655}, {"loss": 0.12260277271270752, "token_acc": 0.9377148902406771, "grad_norm": 0.6645667552947998, "learning_rate": 9.576064985911101e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24134, "epoch": 0.6601112889701959, "step": 8660}, {"loss": 0.12180485725402831, "token_acc": 0.954295154185022, "grad_norm": 0.7569519281387329, "learning_rate": 9.575582360252451e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241358, "epoch": 0.6604924155804558, "step": 8665}, {"loss": 0.17168790102005005, "token_acc": 0.9368475991649269, "grad_norm": 1.0172390937805176, "learning_rate": 9.575099472205383e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241378, "epoch": 0.6608735421907157, "step": 8670}, {"loss": 0.15445761680603026, "token_acc": 0.9321253954558527, "grad_norm": 1.1671638488769531, "learning_rate": 9.574616321797592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241416, "epoch": 0.6612546688009757, "step": 8675}, {"loss": 0.18331100940704345, "token_acc": 0.9309290953545232, "grad_norm": 1.1544653177261353, "learning_rate": 9.574132909056783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241457, "epoch": 0.6616357954112356, "step": 8680}, {"loss": 0.13530209064483642, "token_acc": 0.9339246119733925, "grad_norm": 0.5532286167144775, "learning_rate": 9.573649234010679e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241506, "epoch": 0.6620169220214955, "step": 8685}, {"loss": 0.1668811559677124, "token_acc": 0.9258397932816538, "grad_norm": 1.3802263736724854, "learning_rate": 9.573165296687016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241545, "epoch": 0.6623980486317554, "step": 8690}, {"loss": 0.1721900224685669, "token_acc": 0.943401287553648, "grad_norm": 1.3633880615234375, "learning_rate": 9.572681097113544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241558, "epoch": 0.6627791752420154, "step": 8695}, {"loss": 0.27863690853118894, "token_acc": 0.8944376776289078, "grad_norm": 1.5130645036697388, "learning_rate": 9.572196635318032e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2416, "epoch": 0.6631603018522754, "step": 8700}, {"loss": 0.12863738536834718, "token_acc": 0.958993165527588, "grad_norm": 0.8275206685066223, "learning_rate": 9.571711911328261e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241613, "epoch": 0.6635414284625353, "step": 8705}, {"loss": 0.13788354396820068, "token_acc": 0.9416506717850288, "grad_norm": 1.5509916543960571, "learning_rate": 9.571226925172027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241662, "epoch": 0.6639225550727952, "step": 8710}, {"loss": 0.17092932462692262, "token_acc": 0.9350145489815713, "grad_norm": 0.9834699630737305, "learning_rate": 9.57074167687714e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241699, "epoch": 0.6643036816830551, "step": 8715}, {"loss": 0.1065927267074585, "token_acc": 0.9558321132259638, "grad_norm": 1.0568833351135254, "learning_rate": 9.570256166471432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24173, "epoch": 0.664684808293315, "step": 8720}, {"loss": 0.16662125587463378, "token_acc": 0.9376803231390652, "grad_norm": 1.631014347076416, "learning_rate": 9.569770393982738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241754, "epoch": 0.665065934903575, "step": 8725}, {"loss": 0.1329158902168274, "token_acc": 0.9490716180371352, "grad_norm": 0.6505218744277954, "learning_rate": 9.569284359438921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241786, "epoch": 0.6654470615138349, "step": 8730}, {"loss": 0.10045559406280517, "token_acc": 0.950937950937951, "grad_norm": 0.8702318072319031, "learning_rate": 9.568798062867849e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241819, "epoch": 0.6658281881240948, "step": 8735}, {"loss": 0.15316239595413209, "token_acc": 0.9529939535790911, "grad_norm": 0.7056555151939392, "learning_rate": 9.568311504297409e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241848, "epoch": 0.6662093147343547, "step": 8740}, {"loss": 0.164631450176239, "token_acc": 0.938570205479452, "grad_norm": 1.7238225936889648, "learning_rate": 9.567824683755505e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241876, "epoch": 0.6665904413446146, "step": 8745}, {"loss": 0.1579514503479004, "token_acc": 0.9435760579489134, "grad_norm": 1.4183790683746338, "learning_rate": 9.567337601270053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241904, "epoch": 0.6669715679548746, "step": 8750}, {"loss": 0.21323838233947753, "token_acc": 0.9202320522117476, "grad_norm": 1.1541823148727417, "learning_rate": 9.566850256868984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241947, "epoch": 0.6673526945651346, "step": 8755}, {"loss": 0.15494590997695923, "token_acc": 0.9462190352020861, "grad_norm": 0.6535806655883789, "learning_rate": 9.566362650580245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24199, "epoch": 0.6677338211753945, "step": 8760}, {"loss": 0.19834680557250978, "token_acc": 0.9168311944718658, "grad_norm": 1.1694241762161255, "learning_rate": 9.565874782431798e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242028, "epoch": 0.6681149477856544, "step": 8765}, {"loss": 0.17736284732818602, "token_acc": 0.9304359007329305, "grad_norm": 0.9871301054954529, "learning_rate": 9.565386652451622e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242047, "epoch": 0.6684960743959143, "step": 8770}, {"loss": 0.15914329290390014, "token_acc": 0.9309958970533383, "grad_norm": 1.199397325515747, "learning_rate": 9.564898260667707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24209, "epoch": 0.6688772010061742, "step": 8775}, {"loss": 0.164863920211792, "token_acc": 0.942070512021926, "grad_norm": 0.4279326796531677, "learning_rate": 9.56440960710806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242101, "epoch": 0.6692583276164342, "step": 8780}, {"loss": 0.21215009689331055, "token_acc": 0.8963181148748159, "grad_norm": 0.5897040367126465, "learning_rate": 9.563920691800706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242147, "epoch": 0.6696394542266941, "step": 8785}, {"loss": 0.11364173889160156, "token_acc": 0.9449855947317877, "grad_norm": 0.5419905781745911, "learning_rate": 9.563431514773675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242175, "epoch": 0.670020580836954, "step": 8790}, {"loss": 0.203667950630188, "token_acc": 0.9189620758483034, "grad_norm": 2.000537395477295, "learning_rate": 9.562942076055026e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242221, "epoch": 0.670401707447214, "step": 8795}, {"loss": 0.22212111949920654, "token_acc": 0.9124151140518892, "grad_norm": 1.3072203397750854, "learning_rate": 9.562452375672823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242253, "epoch": 0.6707828340574739, "step": 8800}, {"eval_loss": 0.13469699025154114, "eval_token_acc": 0.937142340822842, "eval_runtime": 175.1444, "eval_samples_per_second": 3.026, "eval_steps_per_second": 3.026, "epoch": 0.6707828340574739, "step": 8800}, {"loss": 0.1705387830734253, "token_acc": 0.9369145241777803, "grad_norm": 2.536484956741333, "learning_rate": 9.56196241365515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241124, "epoch": 0.6711639606677339, "step": 8805}, {"loss": 0.17152541875839233, "token_acc": 0.9259558427571352, "grad_norm": 1.401249647140503, "learning_rate": 9.561472190030102e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241163, "epoch": 0.6715450872779938, "step": 8810}, {"loss": 0.141107439994812, "token_acc": 0.9467579387716296, "grad_norm": 0.8801302313804626, "learning_rate": 9.560981704825791e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24119, "epoch": 0.6719262138882537, "step": 8815}, {"loss": 0.17345608472824098, "token_acc": 0.9444444444444444, "grad_norm": 0.912456750869751, "learning_rate": 9.560490958070346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241228, "epoch": 0.6723073404985136, "step": 8820}, {"loss": 0.22027831077575682, "token_acc": 0.9044585987261147, "grad_norm": 1.5818183422088623, "learning_rate": 9.559999949791907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241268, "epoch": 0.6726884671087735, "step": 8825}, {"loss": 0.1497356653213501, "token_acc": 0.9286152587441194, "grad_norm": 0.6276481747627258, "learning_rate": 9.559508680018632e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241297, "epoch": 0.6730695937190334, "step": 8830}, {"loss": 0.21606216430664063, "token_acc": 0.918335635359116, "grad_norm": 1.1506242752075195, "learning_rate": 9.559017148778693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241327, "epoch": 0.6734507203292934, "step": 8835}, {"loss": 0.13313487768173218, "token_acc": 0.9542372881355933, "grad_norm": 0.6084758043289185, "learning_rate": 9.558525356100276e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241367, "epoch": 0.6738318469395533, "step": 8840}, {"loss": 0.21463360786437988, "token_acc": 0.9329668005920914, "grad_norm": 1.8422175645828247, "learning_rate": 9.558033302011584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241399, "epoch": 0.6742129735498132, "step": 8845}, {"loss": 0.22564201354980468, "token_acc": 0.9087281795511222, "grad_norm": 0.6583683490753174, "learning_rate": 9.557540986540836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241438, "epoch": 0.6745941001600732, "step": 8850}, {"loss": 0.16976985931396485, "token_acc": 0.9276350288411117, "grad_norm": 0.7961545586585999, "learning_rate": 9.55704840971626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241473, "epoch": 0.6749752267703331, "step": 8855}, {"loss": 0.16795276403427123, "token_acc": 0.9380205306992059, "grad_norm": 1.2208166122436523, "learning_rate": 9.556555571566105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241502, "epoch": 0.6753563533805931, "step": 8860}, {"loss": 0.16901130676269532, "token_acc": 0.9376804211241297, "grad_norm": 0.6625256538391113, "learning_rate": 9.556062472118635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241518, "epoch": 0.675737479990853, "step": 8865}, {"loss": 0.18368821144104003, "token_acc": 0.9378407851690295, "grad_norm": 1.3168303966522217, "learning_rate": 9.555569111402123e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24153, "epoch": 0.6761186066011129, "step": 8870}, {"loss": 0.19685887098312377, "token_acc": 0.9314310051107325, "grad_norm": 1.4147961139678955, "learning_rate": 9.555075489444865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241569, "epoch": 0.6764997332113728, "step": 8875}, {"loss": 0.126328444480896, "token_acc": 0.9509788060184436, "grad_norm": 0.6231678128242493, "learning_rate": 9.554581606275164e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241586, "epoch": 0.6768808598216327, "step": 8880}, {"loss": 0.20332281589508056, "token_acc": 0.9291544740489758, "grad_norm": 1.1861693859100342, "learning_rate": 9.554087461921344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241612, "epoch": 0.6772619864318927, "step": 8885}, {"loss": 0.16985955238342285, "token_acc": 0.9355909694555112, "grad_norm": 1.1347607374191284, "learning_rate": 9.553593056411741e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241656, "epoch": 0.6776431130421526, "step": 8890}, {"loss": 0.178075110912323, "token_acc": 0.9278499278499278, "grad_norm": 1.5179601907730103, "learning_rate": 9.553098389774708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241694, "epoch": 0.6780242396524125, "step": 8895}, {"loss": 0.1451705813407898, "token_acc": 0.9355423672931091, "grad_norm": 1.1453924179077148, "learning_rate": 9.552603462038611e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241717, "epoch": 0.6784053662626724, "step": 8900}, {"loss": 0.14203604459762573, "token_acc": 0.9513624377380604, "grad_norm": 1.2617045640945435, "learning_rate": 9.552108273231832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241758, "epoch": 0.6787864928729324, "step": 8905}, {"loss": 0.15114080905914307, "token_acc": 0.9223436410137177, "grad_norm": 1.0436880588531494, "learning_rate": 9.551612823382769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241798, "epoch": 0.6791676194831923, "step": 8910}, {"loss": 0.13928529024124145, "token_acc": 0.9386036403151318, "grad_norm": 0.3451308608055115, "learning_rate": 9.551117112519832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241843, "epoch": 0.6795487460934523, "step": 8915}, {"loss": 0.1583176851272583, "token_acc": 0.9367149758454106, "grad_norm": 0.6288059949874878, "learning_rate": 9.55062114067145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241877, "epoch": 0.6799298727037122, "step": 8920}, {"loss": 0.14547147750854492, "token_acc": 0.9392673074244323, "grad_norm": 0.8597826361656189, "learning_rate": 9.55012490786606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241892, "epoch": 0.6803109993139721, "step": 8925}, {"loss": 0.10918498039245605, "token_acc": 0.9560311929649908, "grad_norm": 0.6857344508171082, "learning_rate": 9.549628414132124e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241916, "epoch": 0.680692125924232, "step": 8930}, {"loss": 0.1594465970993042, "token_acc": 0.9315220404768506, "grad_norm": 1.0298407077789307, "learning_rate": 9.549131659498109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241957, "epoch": 0.6810732525344919, "step": 8935}, {"loss": 0.19863269329071045, "token_acc": 0.9338138925294889, "grad_norm": 1.1644285917282104, "learning_rate": 9.548634643992507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241983, "epoch": 0.6814543791447519, "step": 8940}, {"loss": 0.13427571058273316, "token_acc": 0.959456056408965, "grad_norm": 0.5354268550872803, "learning_rate": 9.548137367643814e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242017, "epoch": 0.6818355057550118, "step": 8945}, {"loss": 0.11590391397476196, "token_acc": 0.9361313868613139, "grad_norm": 4.319709300994873, "learning_rate": 9.54763983048055e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242061, "epoch": 0.6822166323652717, "step": 8950}, {"loss": 0.22108159065246583, "token_acc": 0.9218507859198584, "grad_norm": 0.9975879788398743, "learning_rate": 9.547142032531245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242092, "epoch": 0.6825977589755317, "step": 8955}, {"loss": 0.2179497718811035, "token_acc": 0.9248660655951915, "grad_norm": 1.5780223608016968, "learning_rate": 9.546643973824444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242106, "epoch": 0.6829788855857916, "step": 8960}, {"loss": 0.18097102642059326, "token_acc": 0.9299655568312285, "grad_norm": 1.0401691198349, "learning_rate": 9.546145654388714e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242144, "epoch": 0.6833600121960516, "step": 8965}, {"loss": 0.21135964393615722, "token_acc": 0.9091251175917215, "grad_norm": 0.8187171816825867, "learning_rate": 9.545647074252625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242176, "epoch": 0.6837411388063115, "step": 8970}, {"loss": 0.18899887800216675, "token_acc": 0.932745909009171, "grad_norm": 0.7409788966178894, "learning_rate": 9.545148233444771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242198, "epoch": 0.6841222654165714, "step": 8975}, {"loss": 0.14227595329284667, "token_acc": 0.9453159041394336, "grad_norm": 1.0722646713256836, "learning_rate": 9.544649131993757e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242229, "epoch": 0.6845033920268313, "step": 8980}, {"loss": 0.15148912668228148, "token_acc": 0.943134229667181, "grad_norm": 0.6809432506561279, "learning_rate": 9.544149769928205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242264, "epoch": 0.6848845186370912, "step": 8985}, {"loss": 0.15777790546417236, "token_acc": 0.9369369369369369, "grad_norm": 0.8471017479896545, "learning_rate": 9.543650147276753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242278, "epoch": 0.6852656452473511, "step": 8990}, {"loss": 0.18837494850158693, "token_acc": 0.9266227657572906, "grad_norm": 1.049741268157959, "learning_rate": 9.54315026406805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242324, "epoch": 0.6856467718576111, "step": 8995}, {"loss": 0.16907622814178466, "token_acc": 0.9318869828456104, "grad_norm": 0.9582337737083435, "learning_rate": 9.542650120330761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242353, "epoch": 0.686027898467871, "step": 9000}, {"eval_loss": 0.12857121229171753, "eval_token_acc": 0.9386181555327993, "eval_runtime": 175.5949, "eval_samples_per_second": 3.018, "eval_steps_per_second": 3.018, "epoch": 0.686027898467871, "step": 9000}, {"loss": 0.16513874530792236, "token_acc": 0.938493368308272, "grad_norm": 0.5060502886772156, "learning_rate": 9.542149716093568e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241252, "epoch": 0.686409025078131, "step": 9005}, {"loss": 0.18938639163970947, "token_acc": 0.9269157349331879, "grad_norm": 1.1009718179702759, "learning_rate": 9.541649051385167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241293, "epoch": 0.6867901516883909, "step": 9010}, {"loss": 0.11380200386047364, "token_acc": 0.9514489069649212, "grad_norm": 0.732887327671051, "learning_rate": 9.541148126234269e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241334, "epoch": 0.6871712782986508, "step": 9015}, {"loss": 0.14297108650207518, "token_acc": 0.9321570576540755, "grad_norm": 0.22346508502960205, "learning_rate": 9.5406469406696e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241371, "epoch": 0.6875524049089108, "step": 9020}, {"loss": 0.1342632293701172, "token_acc": 0.9445718654434251, "grad_norm": 1.7149039506912231, "learning_rate": 9.5401454947199e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241416, "epoch": 0.6879335315191707, "step": 9025}, {"loss": 0.20138678550720215, "token_acc": 0.9299401197604791, "grad_norm": 0.9419713020324707, "learning_rate": 9.539643788413923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241428, "epoch": 0.6883146581294306, "step": 9030}, {"loss": 0.1344299793243408, "token_acc": 0.9403168743270266, "grad_norm": 0.6921876072883606, "learning_rate": 9.539141821780444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241458, "epoch": 0.6886957847396905, "step": 9035}, {"loss": 0.1378612756729126, "token_acc": 0.9367967440746947, "grad_norm": 0.8287458419799805, "learning_rate": 9.538639594848244e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241498, "epoch": 0.6890769113499504, "step": 9040}, {"loss": 0.1407497763633728, "token_acc": 0.9246487867177522, "grad_norm": 0.5757372975349426, "learning_rate": 9.538137107646125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241536, "epoch": 0.6894580379602104, "step": 9045}, {"loss": 0.16111423969268798, "token_acc": 0.9290633608815427, "grad_norm": 0.7121516466140747, "learning_rate": 9.537634360202903e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241592, "epoch": 0.6898391645704703, "step": 9050}, {"loss": 0.17431943416595458, "token_acc": 0.9391008174386921, "grad_norm": 0.5916762351989746, "learning_rate": 9.537131352547409e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241602, "epoch": 0.6902202911807302, "step": 9055}, {"loss": 0.2074373960494995, "token_acc": 0.9168180167090447, "grad_norm": 1.150350570678711, "learning_rate": 9.536628084708483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241646, "epoch": 0.6906014177909902, "step": 9060}, {"loss": 0.1914812445640564, "token_acc": 0.9369243091710052, "grad_norm": 0.9240394830703735, "learning_rate": 9.536124556714992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241668, "epoch": 0.6909825444012501, "step": 9065}, {"loss": 0.1695890784263611, "token_acc": 0.9394941634241245, "grad_norm": 0.9513451457023621, "learning_rate": 9.535620768595807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2417, "epoch": 0.69136367101151, "step": 9070}, {"loss": 0.1434258460998535, "token_acc": 0.9369349005424955, "grad_norm": 1.1648385524749756, "learning_rate": 9.535116720379819e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241738, "epoch": 0.69174479762177, "step": 9075}, {"loss": 0.17801239490509033, "token_acc": 0.9343617962071338, "grad_norm": 0.8391145467758179, "learning_rate": 9.534612412095931e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241742, "epoch": 0.6921259242320299, "step": 9080}, {"loss": 0.1734191060066223, "token_acc": 0.9314606741573034, "grad_norm": 0.9537278413772583, "learning_rate": 9.534107843773066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241783, "epoch": 0.6925070508422898, "step": 9085}, {"loss": 0.16781280040740967, "token_acc": 0.9270752521334368, "grad_norm": 0.7163766026496887, "learning_rate": 9.533603015440158e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241831, "epoch": 0.6928881774525497, "step": 9090}, {"loss": 0.21151726245880126, "token_acc": 0.926256254078747, "grad_norm": 1.8151538372039795, "learning_rate": 9.533097927126153e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241864, "epoch": 0.6932693040628096, "step": 9095}, {"loss": 0.12327859401702881, "token_acc": 0.9404814004376367, "grad_norm": 0.7945890426635742, "learning_rate": 9.53259257886002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241915, "epoch": 0.6936504306730696, "step": 9100}, {"loss": 0.21699943542480468, "token_acc": 0.9195285215366705, "grad_norm": 1.2090681791305542, "learning_rate": 9.532086970670736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241928, "epoch": 0.6940315572833295, "step": 9105}, {"loss": 0.1805219054222107, "token_acc": 0.9303778637310325, "grad_norm": 0.818718433380127, "learning_rate": 9.531581102587294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241969, "epoch": 0.6944126838935895, "step": 9110}, {"loss": 0.12614606618881224, "token_acc": 0.9405272838749233, "grad_norm": 0.670319139957428, "learning_rate": 9.531074974638708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241991, "epoch": 0.6947938105038494, "step": 9115}, {"loss": 0.15102009773254393, "token_acc": 0.9331191002209279, "grad_norm": 0.38572072982788086, "learning_rate": 9.530568586853996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242016, "epoch": 0.6951749371141093, "step": 9120}, {"loss": 0.15617527961730956, "token_acc": 0.9230597181838515, "grad_norm": 0.7704436182975769, "learning_rate": 9.5300619392622e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242055, "epoch": 0.6955560637243693, "step": 9125}, {"loss": 0.2003537654876709, "token_acc": 0.9003436426116839, "grad_norm": 0.34445956349372864, "learning_rate": 9.529555031892376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242098, "epoch": 0.6959371903346292, "step": 9130}, {"loss": 0.178894305229187, "token_acc": 0.9200308562612497, "grad_norm": 1.1476998329162598, "learning_rate": 9.52904786477359e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242136, "epoch": 0.6963183169448891, "step": 9135}, {"loss": 0.13092939853668212, "token_acc": 0.9360399183488319, "grad_norm": 0.6060994267463684, "learning_rate": 9.528540437934925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242173, "epoch": 0.696699443555149, "step": 9140}, {"loss": 0.1916312336921692, "token_acc": 0.9309944911568571, "grad_norm": 1.7710938453674316, "learning_rate": 9.528032751405483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242213, "epoch": 0.6970805701654089, "step": 9145}, {"loss": 0.1354650378227234, "token_acc": 0.9455841699403463, "grad_norm": 0.5953335762023926, "learning_rate": 9.527524805214374e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242239, "epoch": 0.6974616967756688, "step": 9150}, {"loss": 0.1727538824081421, "token_acc": 0.9399711861693613, "grad_norm": 0.8541198968887329, "learning_rate": 9.527016599390727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242265, "epoch": 0.6978428233859288, "step": 9155}, {"loss": 0.147752046585083, "token_acc": 0.9479127491538172, "grad_norm": 1.7090308666229248, "learning_rate": 9.526508133963688e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242294, "epoch": 0.6982239499961888, "step": 9160}, {"loss": 0.16596381664276122, "token_acc": 0.9392314566577301, "grad_norm": 1.2373900413513184, "learning_rate": 9.52599940896241e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242318, "epoch": 0.6986050766064487, "step": 9165}, {"loss": 0.18876746892929078, "token_acc": 0.935822200024972, "grad_norm": 0.767850399017334, "learning_rate": 9.525490424416072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242327, "epoch": 0.6989862032167086, "step": 9170}, {"loss": 0.27291035652160645, "token_acc": 0.9012487676634899, "grad_norm": 0.9806342720985413, "learning_rate": 9.524981180353859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242347, "epoch": 0.6993673298269685, "step": 9175}, {"loss": 0.13511433601379394, "token_acc": 0.9422304603027495, "grad_norm": 1.3313506841659546, "learning_rate": 9.524471676804971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242389, "epoch": 0.6997484564372285, "step": 9180}, {"loss": 0.13694289922714234, "token_acc": 0.9469122426868906, "grad_norm": 0.5960055589675903, "learning_rate": 9.52396191379863e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24242, "epoch": 0.7001295830474884, "step": 9185}, {"loss": 0.1686814546585083, "token_acc": 0.9456869009584664, "grad_norm": 0.5328623652458191, "learning_rate": 9.523451891364068e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24246, "epoch": 0.7005107096577483, "step": 9190}, {"loss": 0.19919424057006835, "token_acc": 0.9125506072874494, "grad_norm": 0.9396845698356628, "learning_rate": 9.52294160953053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242497, "epoch": 0.7008918362680082, "step": 9195}, {"loss": 0.15298905372619628, "token_acc": 0.9370526076582206, "grad_norm": 0.6883851289749146, "learning_rate": 9.52243106832728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242501, "epoch": 0.7012729628782681, "step": 9200}, {"eval_loss": 0.13086062669754028, "eval_token_acc": 0.9381739051864345, "eval_runtime": 185.3798, "eval_samples_per_second": 2.859, "eval_steps_per_second": 2.859, "epoch": 0.7012729628782681, "step": 9200}, {"loss": 0.1146062970161438, "token_acc": 0.9388045506875371, "grad_norm": 0.9017201662063599, "learning_rate": 9.521920267783595e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241322, "epoch": 0.7016540894885281, "step": 9205}, {"loss": 0.17072107791900634, "token_acc": 0.9385238358181484, "grad_norm": 0.9677888751029968, "learning_rate": 9.521409207928768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241354, "epoch": 0.702035216098788, "step": 9210}, {"loss": 0.17181146144866943, "token_acc": 0.9460006224712108, "grad_norm": 0.6450486183166504, "learning_rate": 9.520897888792104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241376, "epoch": 0.702416342709048, "step": 9215}, {"loss": 0.1502668857574463, "token_acc": 0.9331018095412174, "grad_norm": 1.513820767402649, "learning_rate": 9.520386310402925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241407, "epoch": 0.7027974693193079, "step": 9220}, {"loss": 0.13592061996459961, "token_acc": 0.9400906735751295, "grad_norm": 0.9984436631202698, "learning_rate": 9.519874472790569e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241426, "epoch": 0.7031785959295678, "step": 9225}, {"loss": 0.20855324268341063, "token_acc": 0.9197015455675964, "grad_norm": 1.0146212577819824, "learning_rate": 9.519362375984386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241445, "epoch": 0.7035597225398277, "step": 9230}, {"loss": 0.14185711145401, "token_acc": 0.9375239555385205, "grad_norm": 0.7764794826507568, "learning_rate": 9.518850020013744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241488, "epoch": 0.7039408491500877, "step": 9235}, {"loss": 0.14879271984100342, "token_acc": 0.9346200660754651, "grad_norm": 1.4391552209854126, "learning_rate": 9.518337404908022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24151, "epoch": 0.7043219757603476, "step": 9240}, {"loss": 0.131601881980896, "token_acc": 0.9465505062396986, "grad_norm": 0.967044472694397, "learning_rate": 9.517824530696619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241534, "epoch": 0.7047031023706075, "step": 9245}, {"loss": 0.10536360740661621, "token_acc": 0.9493827160493827, "grad_norm": 0.6186357736587524, "learning_rate": 9.517311397408945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241563, "epoch": 0.7050842289808674, "step": 9250}, {"loss": 0.22609519958496094, "token_acc": 0.9139840775354794, "grad_norm": 0.4821854531764984, "learning_rate": 9.516798005074423e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241589, "epoch": 0.7054653555911273, "step": 9255}, {"loss": 0.123163902759552, "token_acc": 0.9469420818144998, "grad_norm": 0.4596918523311615, "learning_rate": 9.516284353722498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241613, "epoch": 0.7058464822013873, "step": 9260}, {"loss": 0.12428357601165771, "token_acc": 0.9425622849994788, "grad_norm": 0.7561137080192566, "learning_rate": 9.515770443382622e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241625, "epoch": 0.7062276088116473, "step": 9265}, {"loss": 0.1576755166053772, "token_acc": 0.9382673942701227, "grad_norm": 0.995267391204834, "learning_rate": 9.515256274084268e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241662, "epoch": 0.7066087354219072, "step": 9270}, {"loss": 0.2116389274597168, "token_acc": 0.9186567164179105, "grad_norm": 0.7541844248771667, "learning_rate": 9.514741845856918e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241683, "epoch": 0.7069898620321671, "step": 9275}, {"loss": 0.07625975012779236, "token_acc": 0.9641943734015346, "grad_norm": 0.6140597462654114, "learning_rate": 9.514227158730076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241731, "epoch": 0.707370988642427, "step": 9280}, {"loss": 0.15799405574798583, "token_acc": 0.9294072511030117, "grad_norm": 2.147630214691162, "learning_rate": 9.513712212733255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241763, "epoch": 0.707752115252687, "step": 9285}, {"loss": 0.18859422206878662, "token_acc": 0.9298525308888003, "grad_norm": 0.9567639827728271, "learning_rate": 9.513197007895984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241787, "epoch": 0.7081332418629469, "step": 9290}, {"loss": 0.2021576166152954, "token_acc": 0.9238696808510638, "grad_norm": 1.3304308652877808, "learning_rate": 9.512681544247809e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241825, "epoch": 0.7085143684732068, "step": 9295}, {"loss": 0.2955919742584229, "token_acc": 0.8938511326860842, "grad_norm": 1.1353472471237183, "learning_rate": 9.512165821818288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241865, "epoch": 0.7088954950834667, "step": 9300}, {"loss": 0.13640637397766114, "token_acc": 0.9401926001013685, "grad_norm": 1.061025857925415, "learning_rate": 9.511649840636997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241902, "epoch": 0.7092766216937266, "step": 9305}, {"loss": 0.14563467502593994, "token_acc": 0.9430226943505553, "grad_norm": 1.5271340608596802, "learning_rate": 9.511133600733524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241952, "epoch": 0.7096577483039865, "step": 9310}, {"loss": 0.13970211744308472, "token_acc": 0.9331290052939537, "grad_norm": 0.812310516834259, "learning_rate": 9.510617102137474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241991, "epoch": 0.7100388749142466, "step": 9315}, {"loss": 0.14172837734222413, "token_acc": 0.941320293398533, "grad_norm": 1.0962315797805786, "learning_rate": 9.510100344878463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242004, "epoch": 0.7104200015245065, "step": 9320}, {"loss": 0.1299859404563904, "token_acc": 0.9495633576902512, "grad_norm": 0.9021138548851013, "learning_rate": 9.509583328986126e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242026, "epoch": 0.7108011281347664, "step": 9325}, {"loss": 0.1417333483695984, "token_acc": 0.9496973491964099, "grad_norm": 0.9577571153640747, "learning_rate": 9.509066054490115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242052, "epoch": 0.7111822547450263, "step": 9330}, {"loss": 0.13561688661575316, "token_acc": 0.9363571598195203, "grad_norm": 1.4673559665679932, "learning_rate": 9.508548521420089e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242091, "epoch": 0.7115633813552862, "step": 9335}, {"loss": 0.20392985343933107, "token_acc": 0.9213788932567282, "grad_norm": 1.1084150075912476, "learning_rate": 9.508030729805728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242129, "epoch": 0.7119445079655462, "step": 9340}, {"loss": 0.252334451675415, "token_acc": 0.8906018381262971, "grad_norm": 0.8382878303527832, "learning_rate": 9.507512679676724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242166, "epoch": 0.7123256345758061, "step": 9345}, {"loss": 0.1874903917312622, "token_acc": 0.9323593073593074, "grad_norm": 1.254881739616394, "learning_rate": 9.506994371062787e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242215, "epoch": 0.712706761186066, "step": 9350}, {"loss": 0.19393815994262695, "token_acc": 0.9255390086685931, "grad_norm": 1.7376272678375244, "learning_rate": 9.506475803993635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242249, "epoch": 0.7130878877963259, "step": 9355}, {"loss": 0.13960931301116944, "token_acc": 0.939868804664723, "grad_norm": 0.9269551634788513, "learning_rate": 9.50595697849901e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242295, "epoch": 0.7134690144065858, "step": 9360}, {"loss": 0.15177395343780517, "token_acc": 0.9414946619217082, "grad_norm": 0.7581728100776672, "learning_rate": 9.505437894608662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242303, "epoch": 0.7138501410168459, "step": 9365}, {"loss": 0.14161267280578613, "token_acc": 0.9457682826622843, "grad_norm": 1.1978108882904053, "learning_rate": 9.504918552352359e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242333, "epoch": 0.7142312676271058, "step": 9370}, {"loss": 0.152770471572876, "token_acc": 0.9309632079371641, "grad_norm": 1.2492308616638184, "learning_rate": 9.50439895175988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242363, "epoch": 0.7146123942373657, "step": 9375}, {"loss": 0.13427114486694336, "token_acc": 0.9409550693954364, "grad_norm": 0.9446655511856079, "learning_rate": 9.503879092861028e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242393, "epoch": 0.7149935208476256, "step": 9380}, {"loss": 0.16234104633331298, "token_acc": 0.9401289009497965, "grad_norm": 0.9060647487640381, "learning_rate": 9.503358975685607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242418, "epoch": 0.7153746474578855, "step": 9385}, {"loss": 0.22716121673583983, "token_acc": 0.9105678712420285, "grad_norm": 1.012534499168396, "learning_rate": 9.502838600263449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242433, "epoch": 0.7157557740681454, "step": 9390}, {"loss": 0.16765108108520507, "token_acc": 0.9295953547450554, "grad_norm": 2.1363651752471924, "learning_rate": 9.502317966624393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242458, "epoch": 0.7161369006784054, "step": 9395}, {"loss": 0.1417910099029541, "token_acc": 0.947547974413646, "grad_norm": 0.9273198246955872, "learning_rate": 9.501797074798295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242469, "epoch": 0.7165180272886653, "step": 9400}, {"eval_loss": 0.12554779648780823, "eval_token_acc": 0.9396798385639419, "eval_runtime": 173.7211, "eval_samples_per_second": 3.051, "eval_steps_per_second": 3.051, "epoch": 0.7165180272886653, "step": 9400}, {"loss": 0.16858606338500975, "token_acc": 0.93959511398561, "grad_norm": 0.9080906510353088, "learning_rate": 9.501275924815025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241409, "epoch": 0.7168991538989252, "step": 9405}, {"loss": 0.1373058080673218, "token_acc": 0.9470670568774653, "grad_norm": 0.6607199311256409, "learning_rate": 9.50075451670447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241424, "epoch": 0.7172802805091851, "step": 9410}, {"loss": 0.20568475723266602, "token_acc": 0.9378869170449855, "grad_norm": 0.7100223302841187, "learning_rate": 9.500232850496528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24145, "epoch": 0.717661407119445, "step": 9415}, {"loss": 0.11031844615936279, "token_acc": 0.9440449438202247, "grad_norm": 1.002092957496643, "learning_rate": 9.499710926221116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241478, "epoch": 0.7180425337297051, "step": 9420}, {"loss": 0.154939603805542, "token_acc": 0.936569895096365, "grad_norm": 0.7908276915550232, "learning_rate": 9.499188743908164e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241508, "epoch": 0.718423660339965, "step": 9425}, {"loss": 0.16566227674484252, "token_acc": 0.9372707263389581, "grad_norm": 0.7121626138687134, "learning_rate": 9.498666303587616e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241552, "epoch": 0.7188047869502249, "step": 9430}, {"loss": 0.23364462852478027, "token_acc": 0.9195697919102175, "grad_norm": 0.6913105249404907, "learning_rate": 9.498143605289433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241581, "epoch": 0.7191859135604848, "step": 9435}, {"loss": 0.1495967388153076, "token_acc": 0.936176935229068, "grad_norm": 0.8680779933929443, "learning_rate": 9.497620649043587e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241621, "epoch": 0.7195670401707447, "step": 9440}, {"loss": 0.1381125569343567, "token_acc": 0.9335423197492163, "grad_norm": 1.2803620100021362, "learning_rate": 9.497097434880069e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241657, "epoch": 0.7199481667810046, "step": 9445}, {"loss": 0.16256260871887207, "token_acc": 0.9412811387900356, "grad_norm": 0.8265624642372131, "learning_rate": 9.496573962828881e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241689, "epoch": 0.7203292933912646, "step": 9450}, {"loss": 0.20339486598968506, "token_acc": 0.8913672036348617, "grad_norm": 0.7400648593902588, "learning_rate": 9.496050232920044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241734, "epoch": 0.7207104200015245, "step": 9455}, {"loss": 0.15558651685714722, "token_acc": 0.9371092313350496, "grad_norm": 0.9505528211593628, "learning_rate": 9.49552624518359e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241777, "epoch": 0.7210915466117844, "step": 9460}, {"loss": 0.1974816679954529, "token_acc": 0.9179174484052532, "grad_norm": 1.6561814546585083, "learning_rate": 9.495001999649569e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24181, "epoch": 0.7214726732220443, "step": 9465}, {"loss": 0.15923697948455812, "token_acc": 0.9396566094349058, "grad_norm": 0.7471816539764404, "learning_rate": 9.49447749634804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241831, "epoch": 0.7218537998323042, "step": 9470}, {"loss": 0.1591506004333496, "token_acc": 0.9229904440697021, "grad_norm": 1.4712625741958618, "learning_rate": 9.493952735309085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241872, "epoch": 0.7222349264425643, "step": 9475}, {"loss": 0.21880991458892823, "token_acc": 0.9199611147116008, "grad_norm": 1.2755671739578247, "learning_rate": 9.493427716562796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241911, "epoch": 0.7226160530528242, "step": 9480}, {"loss": 0.1862488269805908, "token_acc": 0.927975196756499, "grad_norm": 0.5972647666931152, "learning_rate": 9.492902440139277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241949, "epoch": 0.7229971796630841, "step": 9485}, {"loss": 0.1362619400024414, "token_acc": 0.955973972033781, "grad_norm": 0.6670304536819458, "learning_rate": 9.492376906068654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241959, "epoch": 0.723378306273344, "step": 9490}, {"loss": 0.15555206537246705, "token_acc": 0.9410029498525073, "grad_norm": 1.2728389501571655, "learning_rate": 9.491851114381063e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24198, "epoch": 0.7237594328836039, "step": 9495}, {"loss": 0.19695690870285035, "token_acc": 0.9226334387204761, "grad_norm": 1.068898320198059, "learning_rate": 9.491325065106656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241999, "epoch": 0.7241405594938639, "step": 9500}, {"loss": 0.14586708545684815, "token_acc": 0.939119170984456, "grad_norm": 0.8497505187988281, "learning_rate": 9.490798758275598e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242019, "epoch": 0.7245216861041238, "step": 9505}, {"loss": 0.17108550071716308, "token_acc": 0.9277486910994764, "grad_norm": 1.040644645690918, "learning_rate": 9.49027219391807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242059, "epoch": 0.7249028127143837, "step": 9510}, {"loss": 0.13256853818893433, "token_acc": 0.9459363957597173, "grad_norm": 0.6566997766494751, "learning_rate": 9.48974537206427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242062, "epoch": 0.7252839393246436, "step": 9515}, {"loss": 0.1183309555053711, "token_acc": 0.9384344766930519, "grad_norm": 0.9990972876548767, "learning_rate": 9.489218292744408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242106, "epoch": 0.7256650659349035, "step": 9520}, {"loss": 0.1532878279685974, "token_acc": 0.9389814597512322, "grad_norm": 1.0642836093902588, "learning_rate": 9.488690955988711e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24214, "epoch": 0.7260461925451634, "step": 9525}, {"loss": 0.1754160761833191, "token_acc": 0.9368943512172063, "grad_norm": 1.2906914949417114, "learning_rate": 9.488163361827416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242176, "epoch": 0.7264273191554235, "step": 9530}, {"loss": 0.157304847240448, "token_acc": 0.931729055258467, "grad_norm": 1.346134066581726, "learning_rate": 9.48763551029078e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2422, "epoch": 0.7268084457656834, "step": 9535}, {"loss": 0.159693706035614, "token_acc": 0.9316239316239316, "grad_norm": 1.4403769969940186, "learning_rate": 9.487107401409072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242241, "epoch": 0.7271895723759433, "step": 9540}, {"loss": 0.1705371379852295, "token_acc": 0.9354916646532979, "grad_norm": 1.439956545829773, "learning_rate": 9.486579035212577e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242273, "epoch": 0.7275706989862032, "step": 9545}, {"loss": 0.1458192825317383, "token_acc": 0.938885560215698, "grad_norm": 1.6187372207641602, "learning_rate": 9.486050411731596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2423, "epoch": 0.7279518255964631, "step": 9550}, {"loss": 0.14240323305130004, "token_acc": 0.939350388042541, "grad_norm": 1.4867513179779053, "learning_rate": 9.485521530996442e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242336, "epoch": 0.7283329522067231, "step": 9555}, {"loss": 0.1394789695739746, "token_acc": 0.9460321074803598, "grad_norm": 0.6910136342048645, "learning_rate": 9.484992393037441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242341, "epoch": 0.728714078816983, "step": 9560}, {"loss": 0.21459486484527587, "token_acc": 0.9230769230769231, "grad_norm": 0.9604949951171875, "learning_rate": 9.484462997884942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242374, "epoch": 0.7290952054272429, "step": 9565}, {"loss": 0.18734811544418334, "token_acc": 0.9286615024319942, "grad_norm": 0.7432778477668762, "learning_rate": 9.4839333455693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242404, "epoch": 0.7294763320375028, "step": 9570}, {"loss": 0.17016313076019288, "token_acc": 0.9339912635495874, "grad_norm": 0.8178945183753967, "learning_rate": 9.483403436120887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242425, "epoch": 0.7298574586477627, "step": 9575}, {"loss": 0.15654901266098023, "token_acc": 0.9259342638451148, "grad_norm": 1.0594521760940552, "learning_rate": 9.482873269570094e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242456, "epoch": 0.7302385852580228, "step": 9580}, {"loss": 0.26044521331787107, "token_acc": 0.9078838174273859, "grad_norm": 0.8725131750106812, "learning_rate": 9.48234284594732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242493, "epoch": 0.7306197118682827, "step": 9585}, {"loss": 0.12553904056549073, "token_acc": 0.9537725823591924, "grad_norm": 2.1509768962860107, "learning_rate": 9.481812165282987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24251, "epoch": 0.7310008384785426, "step": 9590}, {"loss": 0.1360520601272583, "token_acc": 0.9492507492507493, "grad_norm": 0.8540927171707153, "learning_rate": 9.481281227607523e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242534, "epoch": 0.7313819650888025, "step": 9595}, {"loss": 0.14591158628463746, "token_acc": 0.9419551934826884, "grad_norm": 0.9505517482757568, "learning_rate": 9.480750032951377e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242573, "epoch": 0.7317630916990624, "step": 9600}, {"eval_loss": 0.12556853890419006, "eval_token_acc": 0.9394313595566532, "eval_runtime": 177.3511, "eval_samples_per_second": 2.988, "eval_steps_per_second": 2.988, "epoch": 0.7317630916990624, "step": 9600}, {"loss": 0.15734323263168334, "token_acc": 0.9391855740170347, "grad_norm": 0.610419750213623, "learning_rate": 9.480218581345011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241509, "epoch": 0.7321442183093223, "step": 9605}, {"loss": 0.15857715606689454, "token_acc": 0.9423385801477674, "grad_norm": 1.129184365272522, "learning_rate": 9.479686872818899e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241539, "epoch": 0.7325253449195823, "step": 9610}, {"loss": 0.11634982824325561, "token_acc": 0.9361420243773185, "grad_norm": 0.4709247648715973, "learning_rate": 9.479154907403531e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241577, "epoch": 0.7329064715298422, "step": 9615}, {"loss": 0.18759751319885254, "token_acc": 0.9207955958089149, "grad_norm": 0.9982877373695374, "learning_rate": 9.478622685129418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241605, "epoch": 0.7332875981401021, "step": 9620}, {"loss": 0.18188464641571045, "token_acc": 0.928188196450681, "grad_norm": 0.7970172762870789, "learning_rate": 9.478090206027074e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241626, "epoch": 0.733668724750362, "step": 9625}, {"loss": 0.21206355094909668, "token_acc": 0.9088504088504088, "grad_norm": 1.150672197341919, "learning_rate": 9.47755747012704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241659, "epoch": 0.734049851360622, "step": 9630}, {"loss": 0.1261660099029541, "token_acc": 0.9429967426710097, "grad_norm": 0.8234087824821472, "learning_rate": 9.477024477459864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241687, "epoch": 0.734430977970882, "step": 9635}, {"loss": 0.16825098991394044, "token_acc": 0.9292631578947368, "grad_norm": 1.4177038669586182, "learning_rate": 9.476491228056109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241732, "epoch": 0.7348121045811419, "step": 9640}, {"loss": 0.1483863115310669, "token_acc": 0.9455744914788345, "grad_norm": 0.5649355053901672, "learning_rate": 9.475957721946356e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241763, "epoch": 0.7351932311914018, "step": 9645}, {"loss": 0.14149978160858154, "token_acc": 0.95, "grad_norm": 0.5706619024276733, "learning_rate": 9.475423959161198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241762, "epoch": 0.7355743578016617, "step": 9650}, {"loss": 0.2085973024368286, "token_acc": 0.9146562905317769, "grad_norm": 0.8660262227058411, "learning_rate": 9.474889939731245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241775, "epoch": 0.7359554844119216, "step": 9655}, {"loss": 0.08104597330093384, "token_acc": 0.9566523605150214, "grad_norm": 0.5611258745193481, "learning_rate": 9.47435566368712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241786, "epoch": 0.7363366110221816, "step": 9660}, {"loss": 0.19141640663146972, "token_acc": 0.9127230411171451, "grad_norm": 1.653222918510437, "learning_rate": 9.473821131059462e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241826, "epoch": 0.7367177376324415, "step": 9665}, {"loss": 0.20618739128112792, "token_acc": 0.9296497584541062, "grad_norm": 1.4369605779647827, "learning_rate": 9.473286341878921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241862, "epoch": 0.7370988642427014, "step": 9670}, {"loss": 0.14784332513809204, "token_acc": 0.9454705364995603, "grad_norm": 0.692276656627655, "learning_rate": 9.472751296176168e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241896, "epoch": 0.7374799908529613, "step": 9675}, {"loss": 0.15219603776931762, "token_acc": 0.9408060453400504, "grad_norm": 0.7921292185783386, "learning_rate": 9.472215993981885e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241937, "epoch": 0.7378611174632212, "step": 9680}, {"loss": 0.12949321269989014, "token_acc": 0.9418074550817913, "grad_norm": 0.8768872022628784, "learning_rate": 9.471680435326767e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241972, "epoch": 0.7382422440734812, "step": 9685}, {"loss": 0.1659456968307495, "token_acc": 0.9275167785234899, "grad_norm": 1.658180594444275, "learning_rate": 9.471144620241528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242015, "epoch": 0.7386233706837412, "step": 9690}, {"loss": 0.14761550426483155, "token_acc": 0.9227184466019418, "grad_norm": 1.8701764345169067, "learning_rate": 9.470608548756894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242055, "epoch": 0.7390044972940011, "step": 9695}, {"loss": 0.13869086503982545, "token_acc": 0.9386724386724387, "grad_norm": 1.4696731567382812, "learning_rate": 9.470072220903605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242099, "epoch": 0.739385623904261, "step": 9700}, {"loss": 0.13499306440353392, "token_acc": 0.9539641943734015, "grad_norm": 0.8274171948432922, "learning_rate": 9.469535636712419e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242129, "epoch": 0.7397667505145209, "step": 9705}, {"loss": 0.1871713638305664, "token_acc": 0.9339862169024302, "grad_norm": 0.9982659816741943, "learning_rate": 9.468998796214105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242157, "epoch": 0.7401478771247808, "step": 9710}, {"loss": 0.14164385795593262, "token_acc": 0.9490610835311893, "grad_norm": 1.2357797622680664, "learning_rate": 9.468461699439448e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242185, "epoch": 0.7405290037350408, "step": 9715}, {"loss": 0.16590912342071534, "token_acc": 0.9344993141289437, "grad_norm": 0.7687814235687256, "learning_rate": 9.46792434641925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242206, "epoch": 0.7409101303453007, "step": 9720}, {"loss": 0.13399699926376343, "token_acc": 0.9455845771144279, "grad_norm": 1.006686806678772, "learning_rate": 9.467386737184323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24224, "epoch": 0.7412912569555606, "step": 9725}, {"loss": 0.15944788455963135, "token_acc": 0.938961906883493, "grad_norm": 0.8445634245872498, "learning_rate": 9.466848871765498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242268, "epoch": 0.7416723835658205, "step": 9730}, {"loss": 0.10543488264083863, "token_acc": 0.9571428571428572, "grad_norm": 0.7931368947029114, "learning_rate": 9.466310750193618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242298, "epoch": 0.7420535101760805, "step": 9735}, {"loss": 0.18347625732421874, "token_acc": 0.9367333763718528, "grad_norm": 0.8846327662467957, "learning_rate": 9.465772372499545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242332, "epoch": 0.7424346367863405, "step": 9740}, {"loss": 0.090405935049057, "token_acc": 0.9663705583756346, "grad_norm": 2.4335834980010986, "learning_rate": 9.46523373871415e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242366, "epoch": 0.7428157633966004, "step": 9745}, {"loss": 0.17692941427230835, "token_acc": 0.9279426816786079, "grad_norm": 0.9144492149353027, "learning_rate": 9.464694848868321e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242399, "epoch": 0.7431968900068603, "step": 9750}, {"loss": 0.20904991626739503, "token_acc": 0.9430740037950665, "grad_norm": 1.8017278909683228, "learning_rate": 9.464155702992959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24243, "epoch": 0.7435780166171202, "step": 9755}, {"loss": 0.16922208070755004, "token_acc": 0.9392718822618126, "grad_norm": 0.7906907796859741, "learning_rate": 9.463616301118987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24246, "epoch": 0.7439591432273801, "step": 9760}, {"loss": 0.14137485027313232, "token_acc": 0.9473282442748091, "grad_norm": 0.6670966148376465, "learning_rate": 9.46307664327733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242492, "epoch": 0.74434026983764, "step": 9765}, {"loss": 0.184731125831604, "token_acc": 0.9306559571619812, "grad_norm": 0.7380162477493286, "learning_rate": 9.462536729498942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242528, "epoch": 0.7447213964479, "step": 9770}, {"loss": 0.15084266662597656, "token_acc": 0.941376550620248, "grad_norm": 0.907791793346405, "learning_rate": 9.46199655981478e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242549, "epoch": 0.7451025230581599, "step": 9775}, {"loss": 0.12521952390670776, "token_acc": 0.9502164502164502, "grad_norm": 0.8116359114646912, "learning_rate": 9.461456134255821e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2426, "epoch": 0.7454836496684198, "step": 9780}, {"loss": 0.0974208652973175, "token_acc": 0.9567546380977267, "grad_norm": 0.7579566240310669, "learning_rate": 9.460915452853057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242607, "epoch": 0.7458647762786798, "step": 9785}, {"loss": 0.1450915217399597, "token_acc": 0.9392077607113986, "grad_norm": 0.7426918148994446, "learning_rate": 9.460374515637493e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242624, "epoch": 0.7462459028889397, "step": 9790}, {"loss": 0.15610674619674683, "token_acc": 0.934260429835651, "grad_norm": 1.4536398649215698, "learning_rate": 9.459833322640149e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242658, "epoch": 0.7466270294991997, "step": 9795}, {"loss": 0.20035262107849122, "token_acc": 0.923921568627451, "grad_norm": 0.5939784646034241, "learning_rate": 9.45929187389206e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242692, "epoch": 0.7470081561094596, "step": 9800}, {"eval_loss": 0.12852832674980164, "eval_token_acc": 0.9392506475513523, "eval_runtime": 179.5577, "eval_samples_per_second": 2.952, "eval_steps_per_second": 2.952, "epoch": 0.7470081561094596, "step": 9800}, {"loss": 0.22302870750427245, "token_acc": 0.9384932119071867, "grad_norm": 0.7172967791557312, "learning_rate": 9.458750169424277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241652, "epoch": 0.7473892827197195, "step": 9805}, {"loss": 0.21264286041259767, "token_acc": 0.917193789534215, "grad_norm": 0.45996665954589844, "learning_rate": 9.458208209267861e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241689, "epoch": 0.7477704093299794, "step": 9810}, {"loss": 0.19275894165039062, "token_acc": 0.9345279117849759, "grad_norm": 0.668114185333252, "learning_rate": 9.457665993453894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24172, "epoch": 0.7481515359402393, "step": 9815}, {"loss": 0.1603376030921936, "token_acc": 0.9278818852924475, "grad_norm": 0.9888028502464294, "learning_rate": 9.457123522013468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241746, "epoch": 0.7485326625504993, "step": 9820}, {"loss": 0.14284130334854125, "token_acc": 0.9365288385567553, "grad_norm": 1.2633556127548218, "learning_rate": 9.456580794977692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241781, "epoch": 0.7489137891607592, "step": 9825}, {"loss": 0.17930821180343628, "token_acc": 0.9209093061804404, "grad_norm": 0.7736327052116394, "learning_rate": 9.456037812377687e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24182, "epoch": 0.7492949157710191, "step": 9830}, {"loss": 0.17710413932800292, "token_acc": 0.9232730644413537, "grad_norm": 1.0758336782455444, "learning_rate": 9.455494574244593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241857, "epoch": 0.749676042381279, "step": 9835}, {"loss": 0.13782687187194825, "token_acc": 0.9334828101644245, "grad_norm": 0.6678187847137451, "learning_rate": 9.454951080609562e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241895, "epoch": 0.750057168991539, "step": 9840}, {"loss": 0.19369581937789918, "token_acc": 0.9381207028265852, "grad_norm": 0.8791162371635437, "learning_rate": 9.454407331503759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24192, "epoch": 0.7504382956017989, "step": 9845}, {"loss": 0.1585877776145935, "token_acc": 0.926711668273867, "grad_norm": 0.604066014289856, "learning_rate": 9.453863326958367e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241938, "epoch": 0.7508194222120589, "step": 9850}, {"loss": 0.16560683250427247, "token_acc": 0.9277280858676208, "grad_norm": 1.0204887390136719, "learning_rate": 9.453319067004582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241978, "epoch": 0.7512005488223188, "step": 9855}, {"loss": 0.1613044857978821, "token_acc": 0.9371957156767283, "grad_norm": 1.352710485458374, "learning_rate": 9.452774551673614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242004, "epoch": 0.7515816754325787, "step": 9860}, {"loss": 0.16148719787597657, "token_acc": 0.9467756584922797, "grad_norm": 0.7990666627883911, "learning_rate": 9.452229780996687e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242029, "epoch": 0.7519628020428386, "step": 9865}, {"loss": 0.16029212474822999, "token_acc": 0.9414125200642055, "grad_norm": 0.7430155873298645, "learning_rate": 9.451684755005046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24207, "epoch": 0.7523439286530985, "step": 9870}, {"loss": 0.17550100088119508, "token_acc": 0.9378847995621836, "grad_norm": 0.7618395686149597, "learning_rate": 9.45113947372994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242085, "epoch": 0.7527250552633585, "step": 9875}, {"loss": 0.17197105884552003, "token_acc": 0.9398074989225687, "grad_norm": 1.0987098217010498, "learning_rate": 9.450593937202643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242098, "epoch": 0.7531061818736184, "step": 9880}, {"loss": 0.17654073238372803, "token_acc": 0.9377442769402569, "grad_norm": 0.6541916131973267, "learning_rate": 9.450048145454436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242097, "epoch": 0.7534873084838783, "step": 9885}, {"loss": 0.1931756854057312, "token_acc": 0.9284565916398714, "grad_norm": 0.7859042286872864, "learning_rate": 9.449502098516618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242121, "epoch": 0.7538684350941383, "step": 9890}, {"loss": 0.154740309715271, "token_acc": 0.9390700160342063, "grad_norm": 0.8613477945327759, "learning_rate": 9.448955796420504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24216, "epoch": 0.7542495617043982, "step": 9895}, {"loss": 0.16298364400863646, "token_acc": 0.9443956687152473, "grad_norm": 0.7947913408279419, "learning_rate": 9.448409239197421e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242187, "epoch": 0.7546306883146582, "step": 9900}, {"loss": 0.15721626281738282, "token_acc": 0.9324531777709548, "grad_norm": 0.8859321475028992, "learning_rate": 9.447862426878711e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242223, "epoch": 0.7550118149249181, "step": 9905}, {"loss": 0.12190951108932495, "token_acc": 0.9421052631578948, "grad_norm": 0.8989928960800171, "learning_rate": 9.447315359495731e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242267, "epoch": 0.755392941535178, "step": 9910}, {"loss": 0.1995999813079834, "token_acc": 0.9245331286774111, "grad_norm": 1.4257994890213013, "learning_rate": 9.446768037079853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2423, "epoch": 0.7557740681454379, "step": 9915}, {"loss": 0.12771419286727906, "token_acc": 0.9552346570397112, "grad_norm": 0.7679669857025146, "learning_rate": 9.446220459662465e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24232, "epoch": 0.7561551947556978, "step": 9920}, {"loss": 0.20506398677825927, "token_acc": 0.9420320855614973, "grad_norm": 0.6501082181930542, "learning_rate": 9.445672627274964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242323, "epoch": 0.7565363213659577, "step": 9925}, {"loss": 0.1855010986328125, "token_acc": 0.922675026123302, "grad_norm": 0.6196282505989075, "learning_rate": 9.445124539948771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242354, "epoch": 0.7569174479762177, "step": 9930}, {"loss": 0.1592625617980957, "token_acc": 0.9370283018867924, "grad_norm": 0.5875713229179382, "learning_rate": 9.444576197715311e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242381, "epoch": 0.7572985745864776, "step": 9935}, {"loss": 0.21202497482299804, "token_acc": 0.9194528875379939, "grad_norm": 1.2036080360412598, "learning_rate": 9.444027600606033e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242421, "epoch": 0.7576797011967376, "step": 9940}, {"loss": 0.1458479046821594, "token_acc": 0.9455326460481099, "grad_norm": 0.7774091362953186, "learning_rate": 9.443478748652394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242434, "epoch": 0.7580608278069975, "step": 9945}, {"loss": 0.17077217102050782, "token_acc": 0.926, "grad_norm": 0.445627361536026, "learning_rate": 9.442929641885871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242455, "epoch": 0.7584419544172574, "step": 9950}, {"loss": 0.15312187671661376, "token_acc": 0.938275251033668, "grad_norm": 1.2411736249923706, "learning_rate": 9.44238028033795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242479, "epoch": 0.7588230810275174, "step": 9955}, {"loss": 0.143123996257782, "token_acc": 0.94595221526328, "grad_norm": 0.42862576246261597, "learning_rate": 9.441830664040135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242503, "epoch": 0.7592042076377773, "step": 9960}, {"loss": 0.23034977912902832, "token_acc": 0.9096669080376538, "grad_norm": 0.834311306476593, "learning_rate": 9.441280793023944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242521, "epoch": 0.7595853342480372, "step": 9965}, {"loss": 0.14444001913070678, "token_acc": 0.9546213808463252, "grad_norm": 0.6895515322685242, "learning_rate": 9.440730667320908e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242551, "epoch": 0.7599664608582971, "step": 9970}, {"loss": 0.13719649314880372, "token_acc": 0.9459751485683414, "grad_norm": 0.6669225096702576, "learning_rate": 9.440180286962577e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242595, "epoch": 0.760347587468557, "step": 9975}, {"loss": 0.14297524690628052, "token_acc": 0.9300312575138254, "grad_norm": 0.5618553161621094, "learning_rate": 9.439629651980511e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242624, "epoch": 0.760728714078817, "step": 9980}, {"loss": 0.09632376432418824, "token_acc": 0.9547675872258211, "grad_norm": 0.9065801501274109, "learning_rate": 9.439078762406288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242631, "epoch": 0.7611098406890769, "step": 9985}, {"loss": 0.16396851539611818, "token_acc": 0.9366391184573003, "grad_norm": 1.6461727619171143, "learning_rate": 9.438527618271496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242667, "epoch": 0.7614909672993369, "step": 9990}, {"loss": 0.11436672210693359, "token_acc": 0.956983024691358, "grad_norm": 0.6022230982780457, "learning_rate": 9.437976219607744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242692, "epoch": 0.7618720939095968, "step": 9995}, {"loss": 0.2112905502319336, "token_acc": 0.9170635572343571, "grad_norm": 0.9264677166938782, "learning_rate": 9.43742456644665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242716, "epoch": 0.7622532205198567, "step": 10000}, {"eval_loss": 0.1262308955192566, "eval_token_acc": 0.9408619962652852, "eval_runtime": 183.2008, "eval_samples_per_second": 2.893, "eval_steps_per_second": 2.893, "epoch": 0.7622532205198567, "step": 10000}, {"loss": 0.1687753438949585, "token_acc": 0.9406503587832187, "grad_norm": 1.1761114597320557, "learning_rate": 9.436872658819849e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241671, "epoch": 0.7626343471301166, "step": 10005}, {"loss": 0.138466215133667, "token_acc": 0.9492884017667267, "grad_norm": 0.5939816236495972, "learning_rate": 9.43632049675899e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241686, "epoch": 0.7630154737403766, "step": 10010}, {"loss": 0.17694741487503052, "token_acc": 0.9313267600761114, "grad_norm": 0.9326996803283691, "learning_rate": 9.435768080295739e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241704, "epoch": 0.7633966003506365, "step": 10015}, {"loss": 0.1318502187728882, "token_acc": 0.9435715866342111, "grad_norm": 0.3736574649810791, "learning_rate": 9.435215409461773e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241736, "epoch": 0.7637777269608964, "step": 10020}, {"loss": 0.12952210903167724, "token_acc": 0.9394979618107702, "grad_norm": 0.6198335289955139, "learning_rate": 9.434662484288785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241762, "epoch": 0.7641588535711563, "step": 10025}, {"loss": 0.11471017599105834, "token_acc": 0.9524940617577197, "grad_norm": 0.9166069626808167, "learning_rate": 9.434109304808483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241803, "epoch": 0.7645399801814162, "step": 10030}, {"loss": 0.14897937774658204, "token_acc": 0.9416666666666667, "grad_norm": 1.0876930952072144, "learning_rate": 9.433555871052588e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241846, "epoch": 0.7649211067916762, "step": 10035}, {"loss": 0.1854841709136963, "token_acc": 0.933953488372093, "grad_norm": 0.9251031875610352, "learning_rate": 9.433002183052839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24188, "epoch": 0.7653022334019361, "step": 10040}, {"loss": 0.1282339334487915, "token_acc": 0.9512546870493221, "grad_norm": 0.48083794116973877, "learning_rate": 9.432448240840985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241915, "epoch": 0.7656833600121961, "step": 10045}, {"loss": 0.15743547677993774, "token_acc": 0.9435823250920569, "grad_norm": 0.7858202457427979, "learning_rate": 9.431894044448795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241917, "epoch": 0.766064486622456, "step": 10050}, {"loss": 0.1939536452293396, "token_acc": 0.9142771804062126, "grad_norm": 1.7340123653411865, "learning_rate": 9.431339593908049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241948, "epoch": 0.7664456132327159, "step": 10055}, {"loss": 0.18309401273727416, "token_acc": 0.923827392120075, "grad_norm": 1.1218425035476685, "learning_rate": 9.430784889250539e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241968, "epoch": 0.7668267398429759, "step": 10060}, {"loss": 0.13447102308273315, "token_acc": 0.9452200035341933, "grad_norm": 0.9787033200263977, "learning_rate": 9.430229930508078e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241985, "epoch": 0.7672078664532358, "step": 10065}, {"loss": 0.22339208126068116, "token_acc": 0.9107969778211065, "grad_norm": 0.9535993933677673, "learning_rate": 9.429674717712489e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242013, "epoch": 0.7675889930634957, "step": 10070}, {"loss": 0.26694793701171876, "token_acc": 0.9048640915593705, "grad_norm": 0.8389396667480469, "learning_rate": 9.42911925089561e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242035, "epoch": 0.7679701196737556, "step": 10075}, {"loss": 0.15905604362487794, "token_acc": 0.9247585155058464, "grad_norm": 1.7508668899536133, "learning_rate": 9.428563530089298e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24208, "epoch": 0.7683512462840155, "step": 10080}, {"loss": 0.20968191623687743, "token_acc": 0.9096121416526138, "grad_norm": 0.8412601351737976, "learning_rate": 9.428007555325418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242117, "epoch": 0.7687323728942754, "step": 10085}, {"loss": 0.1205409288406372, "token_acc": 0.9366883116883117, "grad_norm": 1.2597651481628418, "learning_rate": 9.427451326635852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242153, "epoch": 0.7691134995045354, "step": 10090}, {"loss": 0.20515937805175782, "token_acc": 0.9411388355726168, "grad_norm": 0.7471310496330261, "learning_rate": 9.426894844052498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242175, "epoch": 0.7694946261147954, "step": 10095}, {"loss": 0.16183044910430908, "token_acc": 0.9368882888963888, "grad_norm": 0.9959738254547119, "learning_rate": 9.42633810760727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24221, "epoch": 0.7698757527250553, "step": 10100}, {"loss": 0.13832993507385255, "token_acc": 0.9506083166878518, "grad_norm": 0.7294350862503052, "learning_rate": 9.425781117332091e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242231, "epoch": 0.7702568793353152, "step": 10105}, {"loss": 0.1605436086654663, "token_acc": 0.9165739710789766, "grad_norm": 0.5784624218940735, "learning_rate": 9.425223873258904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242273, "epoch": 0.7706380059455751, "step": 10110}, {"loss": 0.16338441371917725, "token_acc": 0.931640625, "grad_norm": 1.3615195751190186, "learning_rate": 9.424666375419662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242302, "epoch": 0.7710191325558351, "step": 10115}, {"loss": 0.1505724549293518, "token_acc": 0.943804373383494, "grad_norm": 0.9296935200691223, "learning_rate": 9.424108623846337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242329, "epoch": 0.771400259166095, "step": 10120}, {"loss": 0.11956144571304321, "token_acc": 0.9571642349420127, "grad_norm": 1.312263011932373, "learning_rate": 9.423550618570912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242346, "epoch": 0.7717813857763549, "step": 10125}, {"loss": 0.17109134197235107, "token_acc": 0.9216392704345868, "grad_norm": 1.4668742418289185, "learning_rate": 9.422992359625387e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24237, "epoch": 0.7721625123866148, "step": 10130}, {"loss": 0.19327943325042723, "token_acc": 0.9259970142887609, "grad_norm": 0.7158969640731812, "learning_rate": 9.422433847041776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242392, "epoch": 0.7725436389968747, "step": 10135}, {"loss": 0.14741979837417601, "token_acc": 0.9338940728085162, "grad_norm": 0.7863249778747559, "learning_rate": 9.421875080852107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242402, "epoch": 0.7729247656071347, "step": 10140}, {"loss": 0.16271607875823973, "token_acc": 0.9319860085503303, "grad_norm": 1.155783772468567, "learning_rate": 9.421316061088421e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242444, "epoch": 0.7733058922173947, "step": 10145}, {"loss": 0.14023783206939697, "token_acc": 0.9371219580813054, "grad_norm": 0.6933473944664001, "learning_rate": 9.420756787782777e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242453, "epoch": 0.7736870188276546, "step": 10150}, {"loss": 0.14766404628753663, "token_acc": 0.9424184261036468, "grad_norm": 0.8344619870185852, "learning_rate": 9.420197260967246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24249, "epoch": 0.7740681454379145, "step": 10155}, {"loss": 0.18667682409286498, "token_acc": 0.9236373448461953, "grad_norm": 0.69620680809021, "learning_rate": 9.419637480673916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242499, "epoch": 0.7744492720481744, "step": 10160}, {"loss": 0.1722819685935974, "token_acc": 0.9291825095057035, "grad_norm": 0.2953942120075226, "learning_rate": 9.419077446934883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242537, "epoch": 0.7748303986584343, "step": 10165}, {"loss": 0.19174317121505738, "token_acc": 0.9420699399505476, "grad_norm": 1.504596471786499, "learning_rate": 9.418517159782267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242556, "epoch": 0.7752115252686943, "step": 10170}, {"loss": 0.19660117626190185, "token_acc": 0.9263157894736842, "grad_norm": 1.0394821166992188, "learning_rate": 9.417956619248196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242584, "epoch": 0.7755926518789542, "step": 10175}, {"loss": 0.13537335395812988, "token_acc": 0.9436798644929071, "grad_norm": 1.115530014038086, "learning_rate": 9.417395825364814e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242616, "epoch": 0.7759737784892141, "step": 10180}, {"loss": 0.1846461772918701, "token_acc": 0.9064327485380117, "grad_norm": 0.7701281309127808, "learning_rate": 9.416834778164281e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242657, "epoch": 0.776354905099474, "step": 10185}, {"loss": 0.17863857746124268, "token_acc": 0.9416715599921707, "grad_norm": 0.5644527673721313, "learning_rate": 9.416273477678771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24268, "epoch": 0.7767360317097339, "step": 10190}, {"loss": 0.14011191129684447, "token_acc": 0.9488123734118947, "grad_norm": 0.9774928092956543, "learning_rate": 9.415711923940471e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242701, "epoch": 0.777117158319994, "step": 10195}, {"loss": 0.2169797658920288, "token_acc": 0.9156010230179028, "grad_norm": 0.8542625904083252, "learning_rate": 9.415150116981583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242732, "epoch": 0.7774982849302539, "step": 10200}, {"eval_loss": 0.12458353489637375, "eval_token_acc": 0.9413137762785374, "eval_runtime": 183.8235, "eval_samples_per_second": 2.883, "eval_steps_per_second": 2.883, "epoch": 0.7774982849302539, "step": 10200}, {"loss": 0.14743691682815552, "token_acc": 0.9412254645429016, "grad_norm": 1.0876400470733643, "learning_rate": 9.414588056834323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241713, "epoch": 0.7778794115405138, "step": 10205}, {"loss": 0.1404191732406616, "token_acc": 0.9502509595512253, "grad_norm": 0.6664872169494629, "learning_rate": 9.414025743530927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241721, "epoch": 0.7782605381507737, "step": 10210}, {"loss": 0.10142707824707031, "token_acc": 0.9546182594767753, "grad_norm": 0.3842448592185974, "learning_rate": 9.413463177103637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241752, "epoch": 0.7786416647610336, "step": 10215}, {"loss": 0.16325678825378417, "token_acc": 0.9423426400132165, "grad_norm": 1.743982195854187, "learning_rate": 9.412900357584716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241773, "epoch": 0.7790227913712936, "step": 10220}, {"loss": 0.18970932960510253, "token_acc": 0.928341384863124, "grad_norm": 1.8774921894073486, "learning_rate": 9.412337285006435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241809, "epoch": 0.7794039179815535, "step": 10225}, {"loss": 0.1505889415740967, "token_acc": 0.9360119047619048, "grad_norm": 1.1602296829223633, "learning_rate": 9.411773959401089e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241852, "epoch": 0.7797850445918134, "step": 10230}, {"loss": 0.10819762945175171, "token_acc": 0.960728389644581, "grad_norm": 0.97850501537323, "learning_rate": 9.411210380800978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241879, "epoch": 0.7801661712020733, "step": 10235}, {"loss": 0.19633734226226807, "token_acc": 0.9292671961636445, "grad_norm": 1.051405668258667, "learning_rate": 9.410646549238422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241887, "epoch": 0.7805472978123332, "step": 10240}, {"loss": 0.17310070991516113, "token_acc": 0.9418483904465212, "grad_norm": 1.4533792734146118, "learning_rate": 9.410082464745755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241907, "epoch": 0.7809284244225931, "step": 10245}, {"loss": 0.18299177885055543, "token_acc": 0.9159636599610642, "grad_norm": 0.7465944290161133, "learning_rate": 9.409518127355324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24195, "epoch": 0.7813095510328532, "step": 10250}, {"loss": 0.15438640117645264, "token_acc": 0.9422308344435025, "grad_norm": 1.000803828239441, "learning_rate": 9.408953537099492e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241958, "epoch": 0.7816906776431131, "step": 10255}, {"loss": 0.1917045831680298, "token_acc": 0.9287201348270051, "grad_norm": 0.6200625896453857, "learning_rate": 9.408388694010633e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241968, "epoch": 0.782071804253373, "step": 10260}, {"loss": 0.13135336637496947, "token_acc": 0.9460400348128808, "grad_norm": 1.1774468421936035, "learning_rate": 9.407823598121142e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241998, "epoch": 0.7824529308636329, "step": 10265}, {"loss": 0.1914328455924988, "token_acc": 0.935064935064935, "grad_norm": 1.0562764406204224, "learning_rate": 9.40725824946342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242024, "epoch": 0.7828340574738928, "step": 10270}, {"loss": 0.14099621772766113, "token_acc": 0.9373246024321796, "grad_norm": 0.8816249370574951, "learning_rate": 9.40669264806989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242042, "epoch": 0.7832151840841528, "step": 10275}, {"loss": 0.15888605117797852, "token_acc": 0.9431659693165969, "grad_norm": 0.800359845161438, "learning_rate": 9.406126793972987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242056, "epoch": 0.7835963106944127, "step": 10280}, {"loss": 0.106557297706604, "token_acc": 0.9477256317689531, "grad_norm": 0.9142786264419556, "learning_rate": 9.405560687205159e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242079, "epoch": 0.7839774373046726, "step": 10285}, {"loss": 0.20827360153198243, "token_acc": 0.9161576901721266, "grad_norm": 0.6874719262123108, "learning_rate": 9.404994327798871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242119, "epoch": 0.7843585639149325, "step": 10290}, {"loss": 0.1490943670272827, "token_acc": 0.935052298710776, "grad_norm": 1.3623566627502441, "learning_rate": 9.404427715786599e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242151, "epoch": 0.7847396905251924, "step": 10295}, {"loss": 0.19132256507873535, "token_acc": 0.9326138457488813, "grad_norm": 1.812449336051941, "learning_rate": 9.403860851200837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242183, "epoch": 0.7851208171354523, "step": 10300}, {"loss": 0.11235989332199096, "token_acc": 0.9493142516398331, "grad_norm": 1.300950288772583, "learning_rate": 9.40329373407409e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242216, "epoch": 0.7855019437457124, "step": 10305}, {"loss": 0.1981670618057251, "token_acc": 0.9197353914002205, "grad_norm": 0.9311965703964233, "learning_rate": 9.402726364438883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242245, "epoch": 0.7858830703559723, "step": 10310}, {"loss": 0.09531230926513672, "token_acc": 0.9487391484084332, "grad_norm": 0.9519211649894714, "learning_rate": 9.402158742327749e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242272, "epoch": 0.7862641969662322, "step": 10315}, {"loss": 0.21883184909820558, "token_acc": 0.9143610013175231, "grad_norm": 1.2270889282226562, "learning_rate": 9.40159086777324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242299, "epoch": 0.7866453235764921, "step": 10320}, {"loss": 0.1618422031402588, "token_acc": 0.9213759213759214, "grad_norm": 0.8737512826919556, "learning_rate": 9.401022740807921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242326, "epoch": 0.787026450186752, "step": 10325}, {"loss": 0.15270328521728516, "token_acc": 0.9269406392694064, "grad_norm": 0.8279870748519897, "learning_rate": 9.40045436146437e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242368, "epoch": 0.787407576797012, "step": 10330}, {"loss": 0.16004294157028198, "token_acc": 0.9399704079475798, "grad_norm": 0.7508084177970886, "learning_rate": 9.399885729775184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242393, "epoch": 0.7877887034072719, "step": 10335}, {"loss": 0.12106168270111084, "token_acc": 0.9498332828129736, "grad_norm": 0.593233048915863, "learning_rate": 9.399316845772968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2424, "epoch": 0.7881698300175318, "step": 10340}, {"loss": 0.1334306478500366, "token_acc": 0.9488910318225651, "grad_norm": 0.3860870897769928, "learning_rate": 9.398747709490345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24242, "epoch": 0.7885509566277917, "step": 10345}, {"loss": 0.1790782928466797, "token_acc": 0.9308157970596713, "grad_norm": 0.6042333245277405, "learning_rate": 9.398178320959955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242435, "epoch": 0.7889320832380516, "step": 10350}, {"loss": 0.15976942777633668, "token_acc": 0.9345063538611925, "grad_norm": 1.5253959894180298, "learning_rate": 9.397608680214447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242476, "epoch": 0.7893132098483117, "step": 10355}, {"loss": 0.10646889209747315, "token_acc": 0.9462827675118178, "grad_norm": 0.7172838449478149, "learning_rate": 9.397038787286491e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242501, "epoch": 0.7896943364585716, "step": 10360}, {"loss": 0.17067475318908693, "token_acc": 0.9375408052230686, "grad_norm": 0.7561727166175842, "learning_rate": 9.396468642208764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242529, "epoch": 0.7900754630688315, "step": 10365}, {"loss": 0.13535504341125487, "token_acc": 0.9462098642833499, "grad_norm": 0.6545218825340271, "learning_rate": 9.395898245013962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242548, "epoch": 0.7904565896790914, "step": 10370}, {"loss": 0.18405344486236572, "token_acc": 0.9301258075484529, "grad_norm": 0.8547434210777283, "learning_rate": 9.395327595734796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242564, "epoch": 0.7908377162893513, "step": 10375}, {"loss": 0.19842528104782103, "token_acc": 0.9240918127598048, "grad_norm": 1.0439496040344238, "learning_rate": 9.394756694403988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242591, "epoch": 0.7912188428996112, "step": 10380}, {"loss": 0.15426919460296631, "token_acc": 0.9409044193216856, "grad_norm": 0.7558311820030212, "learning_rate": 9.394185541054279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24261, "epoch": 0.7915999695098712, "step": 10385}, {"loss": 0.118315589427948, "token_acc": 0.9550040905372239, "grad_norm": 0.5151486396789551, "learning_rate": 9.393614135718421e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242623, "epoch": 0.7919810961201311, "step": 10390}, {"loss": 0.1966944694519043, "token_acc": 0.9262371615312792, "grad_norm": 0.815010666847229, "learning_rate": 9.39304247842918e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242646, "epoch": 0.792362222730391, "step": 10395}, {"loss": 0.12950125932693482, "token_acc": 0.9354932866316404, "grad_norm": 0.9891412258148193, "learning_rate": 9.392470569219338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242675, "epoch": 0.7927433493406509, "step": 10400}, {"eval_loss": 0.12092699855566025, "eval_token_acc": 0.9420065056321908, "eval_runtime": 184.3402, "eval_samples_per_second": 2.875, "eval_steps_per_second": 2.875, "epoch": 0.7927433493406509, "step": 10400}, {"loss": 0.16607811450958251, "token_acc": 0.9418785602096136, "grad_norm": 1.0076584815979004, "learning_rate": 9.391898408121695e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241653, "epoch": 0.7931244759509108, "step": 10405}, {"loss": 0.15128093957901, "token_acc": 0.9373852062113875, "grad_norm": 1.0159857273101807, "learning_rate": 9.391325995169058e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241667, "epoch": 0.7935056025611709, "step": 10410}, {"loss": 0.1382489800453186, "token_acc": 0.9444291609353508, "grad_norm": 0.8562823534011841, "learning_rate": 9.390753330394253e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241694, "epoch": 0.7938867291714308, "step": 10415}, {"loss": 0.1549461603164673, "token_acc": 0.9338081273565144, "grad_norm": 1.2479914426803589, "learning_rate": 9.39018041383012e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241715, "epoch": 0.7942678557816907, "step": 10420}, {"loss": 0.1448938250541687, "token_acc": 0.9453944532260382, "grad_norm": 0.7958732843399048, "learning_rate": 9.389607245509516e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241734, "epoch": 0.7946489823919506, "step": 10425}, {"loss": 0.18153517246246337, "token_acc": 0.9298689353874454, "grad_norm": 0.8930846452713013, "learning_rate": 9.389033825465303e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241748, "epoch": 0.7950301090022105, "step": 10430}, {"loss": 0.24058408737182618, "token_acc": 0.9321077919364946, "grad_norm": 1.8274303674697876, "learning_rate": 9.388460153730369e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241774, "epoch": 0.7954112356124705, "step": 10435}, {"loss": 0.16767632961273193, "token_acc": 0.9351514190581893, "grad_norm": 0.594234824180603, "learning_rate": 9.387886230337611e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241783, "epoch": 0.7957923622227304, "step": 10440}, {"loss": 0.14289262294769287, "token_acc": 0.9447799827437446, "grad_norm": 1.3462164402008057, "learning_rate": 9.38731205531994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241809, "epoch": 0.7961734888329903, "step": 10445}, {"loss": 0.17768731117248535, "token_acc": 0.9278120713305898, "grad_norm": 1.0372138023376465, "learning_rate": 9.386737628710281e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241831, "epoch": 0.7965546154432502, "step": 10450}, {"loss": 0.1944607377052307, "token_acc": 0.9256756756756757, "grad_norm": 0.7743672728538513, "learning_rate": 9.386162950541577e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241855, "epoch": 0.7969357420535101, "step": 10455}, {"loss": 0.11160448789596558, "token_acc": 0.9432037981360999, "grad_norm": 1.0271313190460205, "learning_rate": 9.38558802084678e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241879, "epoch": 0.79731686866377, "step": 10460}, {"loss": 0.11425718069076538, "token_acc": 0.9446195407474111, "grad_norm": 0.9333913326263428, "learning_rate": 9.385012839658864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241921, "epoch": 0.7976979952740301, "step": 10465}, {"loss": 0.18089321851730347, "token_acc": 0.9326700601573346, "grad_norm": 1.1622281074523926, "learning_rate": 9.38443740701081e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241948, "epoch": 0.79807912188429, "step": 10470}, {"loss": 0.17532868385314943, "token_acc": 0.9421241050119332, "grad_norm": 1.3617419004440308, "learning_rate": 9.383861722935616e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241974, "epoch": 0.7984602484945499, "step": 10475}, {"loss": 0.15992238521575927, "token_acc": 0.9494184473897755, "grad_norm": 0.8373824954032898, "learning_rate": 9.383285787466297e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242007, "epoch": 0.7988413751048098, "step": 10480}, {"loss": 0.22324609756469727, "token_acc": 0.9242424242424242, "grad_norm": 1.1844931840896606, "learning_rate": 9.382709600635878e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242041, "epoch": 0.7992225017150697, "step": 10485}, {"loss": 0.16789034605026246, "token_acc": 0.9397575145238697, "grad_norm": 0.7478426098823547, "learning_rate": 9.382133162477402e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242045, "epoch": 0.7996036283253297, "step": 10490}, {"loss": 0.11218827962875366, "token_acc": 0.9556271690629649, "grad_norm": 0.80352783203125, "learning_rate": 9.381556473023925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242071, "epoch": 0.7999847549355896, "step": 10495}, {"loss": 0.16499152183532714, "token_acc": 0.9276613234689683, "grad_norm": 1.0331326723098755, "learning_rate": 9.380979532308518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242113, "epoch": 0.8003658815458495, "step": 10500}, {"loss": 0.142061448097229, "token_acc": 0.9434942991281019, "grad_norm": 0.7992278933525085, "learning_rate": 9.380402340364264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242132, "epoch": 0.8007470081561094, "step": 10505}, {"loss": 0.1863141655921936, "token_acc": 0.9429121231558691, "grad_norm": 0.6687667965888977, "learning_rate": 9.379824897224263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242162, "epoch": 0.8011281347663693, "step": 10510}, {"loss": 0.09256382584571839, "token_acc": 0.9460737937559129, "grad_norm": 0.7543011903762817, "learning_rate": 9.37924720292163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242191, "epoch": 0.8015092613766294, "step": 10515}, {"loss": 0.17069848775863647, "token_acc": 0.932698693823334, "grad_norm": 1.3944259881973267, "learning_rate": 9.378669257489492e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242215, "epoch": 0.8018903879868893, "step": 10520}, {"loss": 0.17842953205108641, "token_acc": 0.9389687235841082, "grad_norm": 1.0913804769515991, "learning_rate": 9.378091060960992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242239, "epoch": 0.8022715145971492, "step": 10525}, {"loss": 0.21049418449401855, "token_acc": 0.9280407556782, "grad_norm": 0.9133718013763428, "learning_rate": 9.377512613369285e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242265, "epoch": 0.8026526412074091, "step": 10530}, {"loss": 0.10623915195465088, "token_acc": 0.9437446074201898, "grad_norm": 0.5866994261741638, "learning_rate": 9.376933914747545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24229, "epoch": 0.803033767817669, "step": 10535}, {"loss": 0.1679425835609436, "token_acc": 0.934043229497775, "grad_norm": 0.6079117059707642, "learning_rate": 9.376354965128955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242306, "epoch": 0.8034148944279289, "step": 10540}, {"loss": 0.18345099687576294, "token_acc": 0.9359964687706908, "grad_norm": 0.7343176603317261, "learning_rate": 9.375775764546717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24233, "epoch": 0.8037960210381889, "step": 10545}, {"loss": 0.10703575611114502, "token_acc": 0.9565476190476191, "grad_norm": 1.0620198249816895, "learning_rate": 9.375196313034046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242358, "epoch": 0.8041771476484488, "step": 10550}, {"loss": 0.223058819770813, "token_acc": 0.9052220776807285, "grad_norm": 0.5823842883110046, "learning_rate": 9.37461661062417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242382, "epoch": 0.8045582742587087, "step": 10555}, {"loss": 0.1315876841545105, "token_acc": 0.9481831864115244, "grad_norm": 0.7113386988639832, "learning_rate": 9.37403665735033e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242409, "epoch": 0.8049394008689686, "step": 10560}, {"loss": 0.13366265296936036, "token_acc": 0.9394628392781015, "grad_norm": 0.7072805166244507, "learning_rate": 9.373456453245788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242421, "epoch": 0.8053205274792286, "step": 10565}, {"loss": 0.14011650085449218, "token_acc": 0.9456345998383185, "grad_norm": 0.7184557914733887, "learning_rate": 9.372875998343813e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242444, "epoch": 0.8057016540894886, "step": 10570}, {"loss": 0.15648391246795654, "token_acc": 0.9432184798038457, "grad_norm": 0.625906229019165, "learning_rate": 9.372295292677691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242455, "epoch": 0.8060827806997485, "step": 10575}, {"loss": 0.1931705355644226, "token_acc": 0.9335837121960862, "grad_norm": 0.9008362889289856, "learning_rate": 9.371714336280725e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242484, "epoch": 0.8064639073100084, "step": 10580}, {"loss": 0.12494570016860962, "token_acc": 0.9561527581329562, "grad_norm": 0.6111207604408264, "learning_rate": 9.37113312918623e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242513, "epoch": 0.8068450339202683, "step": 10585}, {"loss": 0.1675773024559021, "token_acc": 0.9278099299421261, "grad_norm": 1.5386730432510376, "learning_rate": 9.370551671427531e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242548, "epoch": 0.8072261605305282, "step": 10590}, {"loss": 0.19613367319107056, "token_acc": 0.9243567753001716, "grad_norm": 1.3422820568084717, "learning_rate": 9.369969963037979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24257, "epoch": 0.8076072871407882, "step": 10595}, {"loss": 0.19347106218338012, "token_acc": 0.9232650565576276, "grad_norm": 1.5174806118011475, "learning_rate": 9.369388004050927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242602, "epoch": 0.8079884137510481, "step": 10600}, {"eval_loss": 0.12085248529911041, "eval_token_acc": 0.9426615866514065, "eval_runtime": 171.0115, "eval_samples_per_second": 3.099, "eval_steps_per_second": 3.099, "epoch": 0.8079884137510481, "step": 10600}, {"loss": 0.14942909479141236, "token_acc": 0.9424856378546682, "grad_norm": 0.043467190116643906, "learning_rate": 9.368805794499752e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241687, "epoch": 0.808369540361308, "step": 10605}, {"loss": 0.1801743984222412, "token_acc": 0.9298065047344586, "grad_norm": 1.0262973308563232, "learning_rate": 9.368223334417835e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241716, "epoch": 0.8087506669715679, "step": 10610}, {"loss": 0.16760859489440919, "token_acc": 0.9317312943746586, "grad_norm": 0.6798327565193176, "learning_rate": 9.367640623838583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241739, "epoch": 0.8091317935818279, "step": 10615}, {"loss": 0.12464847564697265, "token_acc": 0.9539902961351848, "grad_norm": 0.9560171365737915, "learning_rate": 9.367057662795409e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241759, "epoch": 0.8095129201920878, "step": 10620}, {"loss": 0.1704413652420044, "token_acc": 0.9299867899603699, "grad_norm": 0.7493095397949219, "learning_rate": 9.366474451321742e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241792, "epoch": 0.8098940468023478, "step": 10625}, {"loss": 0.1004481315612793, "token_acc": 0.9483333333333334, "grad_norm": 0.2562902867794037, "learning_rate": 9.36589098945103e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241832, "epoch": 0.8102751734126077, "step": 10630}, {"loss": 0.1732357144355774, "token_acc": 0.9440728618186993, "grad_norm": 0.7692529559135437, "learning_rate": 9.36530727721673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24185, "epoch": 0.8106563000228676, "step": 10635}, {"loss": 0.12741477489471437, "token_acc": 0.956182852327786, "grad_norm": 0.5044536590576172, "learning_rate": 9.364723314652314e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241878, "epoch": 0.8110374266331275, "step": 10640}, {"loss": 0.08211479187011719, "token_acc": 0.9654657147600864, "grad_norm": 0.5408362746238708, "learning_rate": 9.364139101791272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241902, "epoch": 0.8114185532433874, "step": 10645}, {"loss": 0.15744494199752807, "token_acc": 0.9397119843788138, "grad_norm": 0.8718941807746887, "learning_rate": 9.363554638667105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241928, "epoch": 0.8117996798536474, "step": 10650}, {"loss": 0.1561747670173645, "token_acc": 0.94109396914446, "grad_norm": 1.4677070379257202, "learning_rate": 9.362969925313327e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241951, "epoch": 0.8121808064639073, "step": 10655}, {"loss": 0.1979602098464966, "token_acc": 0.9414160401002506, "grad_norm": 0.6571265459060669, "learning_rate": 9.36238496176347e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241961, "epoch": 0.8125619330741672, "step": 10660}, {"loss": 0.20541536808013916, "token_acc": 0.9379113646336112, "grad_norm": 0.5700443983078003, "learning_rate": 9.361799748051081e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241991, "epoch": 0.8129430596844271, "step": 10665}, {"loss": 0.2366016149520874, "token_acc": 0.9178272980501393, "grad_norm": 1.1202160120010376, "learning_rate": 9.361214284209718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242023, "epoch": 0.8133241862946871, "step": 10670}, {"loss": 0.1412135124206543, "token_acc": 0.9446710861805201, "grad_norm": 1.1226907968521118, "learning_rate": 9.360628570272954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24203, "epoch": 0.8137053129049471, "step": 10675}, {"loss": 0.1893878698348999, "token_acc": 0.9265283230510376, "grad_norm": 0.5565034747123718, "learning_rate": 9.360042606274377e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242049, "epoch": 0.814086439515207, "step": 10680}, {"loss": 0.15379323959350585, "token_acc": 0.9375972831470214, "grad_norm": 0.659194827079773, "learning_rate": 9.35945639224759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242075, "epoch": 0.8144675661254669, "step": 10685}, {"loss": 0.17218339443206787, "token_acc": 0.9250866435617169, "grad_norm": 0.844777524471283, "learning_rate": 9.358869928226209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242104, "epoch": 0.8148486927357268, "step": 10690}, {"loss": 0.21194872856140137, "token_acc": 0.9179634385858891, "grad_norm": 1.6068127155303955, "learning_rate": 9.358283214243864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242127, "epoch": 0.8152298193459867, "step": 10695}, {"loss": 0.12281076908111573, "token_acc": 0.956857855361596, "grad_norm": 0.4072405993938446, "learning_rate": 9.357696250334203e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242153, "epoch": 0.8156109459562466, "step": 10700}, {"loss": 0.1384498119354248, "token_acc": 0.941256459069894, "grad_norm": 0.914492666721344, "learning_rate": 9.357109036530884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242185, "epoch": 0.8159920725665066, "step": 10705}, {"loss": 0.17320170402526855, "token_acc": 0.940314822912112, "grad_norm": 1.2518452405929565, "learning_rate": 9.35652157286758e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242211, "epoch": 0.8163731991767665, "step": 10710}, {"loss": 0.14413715600967408, "token_acc": 0.9459947801646256, "grad_norm": 1.0537068843841553, "learning_rate": 9.355933859377982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242237, "epoch": 0.8167543257870264, "step": 10715}, {"loss": 0.21037988662719725, "token_acc": 0.9163165266106442, "grad_norm": 0.7839221954345703, "learning_rate": 9.35534589609579e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242273, "epoch": 0.8171354523972864, "step": 10720}, {"loss": 0.1699491858482361, "token_acc": 0.9361063464837049, "grad_norm": 0.854105532169342, "learning_rate": 9.354757683054724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242311, "epoch": 0.8175165790075463, "step": 10725}, {"loss": 0.2090435266494751, "token_acc": 0.9203793559770622, "grad_norm": 2.2000865936279297, "learning_rate": 9.354169220288512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242343, "epoch": 0.8178977056178063, "step": 10730}, {"loss": 0.12065560817718506, "token_acc": 0.9558610709117221, "grad_norm": 0.8004125952720642, "learning_rate": 9.353580507830901e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242376, "epoch": 0.8182788322280662, "step": 10735}, {"loss": 0.11057955026626587, "token_acc": 0.9427128678391085, "grad_norm": 0.5542896389961243, "learning_rate": 9.352991545715651e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2424, "epoch": 0.8186599588383261, "step": 10740}, {"loss": 0.1631695508956909, "token_acc": 0.928045789043336, "grad_norm": 1.5005683898925781, "learning_rate": 9.352402333976538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242431, "epoch": 0.819041085448586, "step": 10745}, {"loss": 0.2064713716506958, "token_acc": 0.9433690032463629, "grad_norm": 0.5973544120788574, "learning_rate": 9.351812872647346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242443, "epoch": 0.8194222120588459, "step": 10750}, {"loss": 0.10870914459228516, "token_acc": 0.961281239000352, "grad_norm": 0.619206964969635, "learning_rate": 9.351223161761882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24247, "epoch": 0.8198033386691059, "step": 10755}, {"loss": 0.16726174354553222, "token_acc": 0.94290089695909, "grad_norm": 0.8150497078895569, "learning_rate": 9.350633201353962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2425, "epoch": 0.8201844652793658, "step": 10760}, {"loss": 0.1738325834274292, "token_acc": 0.941146965390403, "grad_norm": 0.8767359256744385, "learning_rate": 9.350042991457418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242518, "epoch": 0.8205655918896257, "step": 10765}, {"loss": 0.14928394556045532, "token_acc": 0.9452443723382681, "grad_norm": 1.003379464149475, "learning_rate": 9.349452532106094e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242539, "epoch": 0.8209467184998857, "step": 10770}, {"loss": 0.15184190273284912, "token_acc": 0.9346062052505967, "grad_norm": 1.2883267402648926, "learning_rate": 9.34886182333385e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242579, "epoch": 0.8213278451101456, "step": 10775}, {"loss": 0.1487217664718628, "token_acc": 0.9212839910038847, "grad_norm": 0.7896623015403748, "learning_rate": 9.348270865174563e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242608, "epoch": 0.8217089717204055, "step": 10780}, {"loss": 0.12904688119888305, "token_acc": 0.9443590531816785, "grad_norm": 0.9509725570678711, "learning_rate": 9.34767965766212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24264, "epoch": 0.8220900983306655, "step": 10785}, {"loss": 0.1547078251838684, "token_acc": 0.9389872717210846, "grad_norm": 0.7725791335105896, "learning_rate": 9.347088200830425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242651, "epoch": 0.8224712249409254, "step": 10790}, {"loss": 0.2095318078994751, "token_acc": 0.9283374283374284, "grad_norm": 1.2725965976715088, "learning_rate": 9.346496494713395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24269, "epoch": 0.8228523515511853, "step": 10795}, {"loss": 0.2154148578643799, "token_acc": 0.8855297157622739, "grad_norm": 0.2965717911720276, "learning_rate": 9.345904539344959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242729, "epoch": 0.8232334781614452, "step": 10800}, {"eval_loss": 0.1232714131474495, "eval_token_acc": 0.9415321366182761, "eval_runtime": 175.9421, "eval_samples_per_second": 3.012, "eval_steps_per_second": 3.012, "epoch": 0.8232334781614452, "step": 10800}, {"loss": 0.1863587021827698, "token_acc": 0.9411258128316098, "grad_norm": 1.59852933883667, "learning_rate": 9.345312334759066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2418, "epoch": 0.8236146047717051, "step": 10805}, {"loss": 0.18324304819107057, "token_acc": 0.927762982689747, "grad_norm": 1.1068203449249268, "learning_rate": 9.344719880989677e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241818, "epoch": 0.8239957313819651, "step": 10810}, {"loss": 0.1280696988105774, "token_acc": 0.953957267529341, "grad_norm": 1.3394430875778198, "learning_rate": 9.344127178070763e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241851, "epoch": 0.824376857992225, "step": 10815}, {"loss": 0.15793397426605224, "token_acc": 0.9437191760951552, "grad_norm": 0.6359961628913879, "learning_rate": 9.343534226036316e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241889, "epoch": 0.824757984602485, "step": 10820}, {"loss": 0.18080484867095947, "token_acc": 0.9264344262295082, "grad_norm": 0.7840981483459473, "learning_rate": 9.342941024920336e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241916, "epoch": 0.8251391112127449, "step": 10825}, {"loss": 0.18395013809204103, "token_acc": 0.932446264073695, "grad_norm": 0.9391659498214722, "learning_rate": 9.342347574756843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241943, "epoch": 0.8255202378230048, "step": 10830}, {"loss": 0.140896737575531, "token_acc": 0.9492269118261596, "grad_norm": 1.2795003652572632, "learning_rate": 9.341753875579868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241972, "epoch": 0.8259013644332648, "step": 10835}, {"loss": 0.1302001953125, "token_acc": 0.9501428200467411, "grad_norm": 0.8375188708305359, "learning_rate": 9.341159927423456e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242001, "epoch": 0.8262824910435247, "step": 10840}, {"loss": 0.10393034219741822, "token_acc": 0.9438269750675878, "grad_norm": 0.8336392045021057, "learning_rate": 9.340565730321666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242032, "epoch": 0.8266636176537846, "step": 10845}, {"loss": 0.15688031911849976, "token_acc": 0.9422382671480144, "grad_norm": 0.4330224096775055, "learning_rate": 9.339971284308577e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24205, "epoch": 0.8270447442640445, "step": 10850}, {"loss": 0.13391684293746947, "token_acc": 0.9441272430668842, "grad_norm": 1.1242941617965698, "learning_rate": 9.339376589418272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242073, "epoch": 0.8274258708743044, "step": 10855}, {"loss": 0.1904120683670044, "token_acc": 0.9265569917743831, "grad_norm": 1.247464895248413, "learning_rate": 9.338781645684857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242092, "epoch": 0.8278069974845643, "step": 10860}, {"loss": 0.13738722801208497, "token_acc": 0.9484736535096248, "grad_norm": 0.7699156403541565, "learning_rate": 9.338186453142451e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242121, "epoch": 0.8281881240948243, "step": 10865}, {"loss": 0.15506752729415893, "token_acc": 0.9436805922792173, "grad_norm": 0.6154953837394714, "learning_rate": 9.337591011825182e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24215, "epoch": 0.8285692507050842, "step": 10870}, {"loss": 0.2513906002044678, "token_acc": 0.9157112526539278, "grad_norm": 1.6067928075790405, "learning_rate": 9.336995321767198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242182, "epoch": 0.8289503773153442, "step": 10875}, {"loss": 0.17181236743927003, "token_acc": 0.9340547162106982, "grad_norm": 0.7470421195030212, "learning_rate": 9.336399383002658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242206, "epoch": 0.8293315039256041, "step": 10880}, {"loss": 0.12316359281539917, "token_acc": 0.9395770392749244, "grad_norm": 0.4758884310722351, "learning_rate": 9.335803195565738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242235, "epoch": 0.829712630535864, "step": 10885}, {"loss": 0.1133565902709961, "token_acc": 0.9647279549718574, "grad_norm": 0.813215434551239, "learning_rate": 9.335206759490624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242247, "epoch": 0.830093757146124, "step": 10890}, {"loss": 0.18620024919509887, "token_acc": 0.9290338645418327, "grad_norm": 1.5027799606323242, "learning_rate": 9.334610074811521e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242274, "epoch": 0.8304748837563839, "step": 10895}, {"loss": 0.10942530632019043, "token_acc": 0.9429797670141018, "grad_norm": 0.6732718348503113, "learning_rate": 9.334013141562644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242318, "epoch": 0.8308560103666438, "step": 10900}, {"loss": 0.18650107383728026, "token_acc": 0.9215631149845376, "grad_norm": 0.94988614320755, "learning_rate": 9.333415959778227e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242352, "epoch": 0.8312371369769037, "step": 10905}, {"loss": 0.1263636827468872, "token_acc": 0.9475862068965517, "grad_norm": 1.9878137111663818, "learning_rate": 9.332818529492513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242391, "epoch": 0.8316182635871636, "step": 10910}, {"loss": 0.10581499338150024, "token_acc": 0.9491422498861394, "grad_norm": 0.6483054757118225, "learning_rate": 9.332220850739764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242402, "epoch": 0.8319993901974236, "step": 10915}, {"loss": 0.16082143783569336, "token_acc": 0.9372021306419961, "grad_norm": 0.5818637609481812, "learning_rate": 9.331622923554253e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242437, "epoch": 0.8323805168076835, "step": 10920}, {"loss": 0.17940677404403688, "token_acc": 0.9414634146341463, "grad_norm": 1.0212641954421997, "learning_rate": 9.331024747970268e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24246, "epoch": 0.8327616434179435, "step": 10925}, {"loss": 0.1410413861274719, "token_acc": 0.9478662560492741, "grad_norm": 0.8136066198348999, "learning_rate": 9.330426324022112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242464, "epoch": 0.8331427700282034, "step": 10930}, {"loss": 0.16079072952270507, "token_acc": 0.931185944363104, "grad_norm": 0.8897073268890381, "learning_rate": 9.329827651744102e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242494, "epoch": 0.8335238966384633, "step": 10935}, {"loss": 0.1738677978515625, "token_acc": 0.9365698086463501, "grad_norm": 0.7524811029434204, "learning_rate": 9.329228731170569e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24252, "epoch": 0.8339050232487232, "step": 10940}, {"loss": 0.1272106647491455, "token_acc": 0.9457055932600047, "grad_norm": 1.0789000988006592, "learning_rate": 9.32862956233586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24255, "epoch": 0.8342861498589832, "step": 10945}, {"loss": 0.15169304609298706, "token_acc": 0.9420600858369099, "grad_norm": 0.8413866758346558, "learning_rate": 9.328030145274332e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24256, "epoch": 0.8346672764692431, "step": 10950}, {"loss": 0.1927301526069641, "token_acc": 0.9270280515542078, "grad_norm": 0.6152269840240479, "learning_rate": 9.327430480020358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24258, "epoch": 0.835048403079503, "step": 10955}, {"loss": 0.11245507001876831, "token_acc": 0.9571799796633149, "grad_norm": 0.6123437881469727, "learning_rate": 9.32683056660833e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242581, "epoch": 0.8354295296897629, "step": 10960}, {"loss": 0.13175561428070068, "token_acc": 0.947170823277018, "grad_norm": 0.6743918657302856, "learning_rate": 9.326230405072647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242597, "epoch": 0.8358106563000228, "step": 10965}, {"loss": 0.15788116455078124, "token_acc": 0.9425328769591065, "grad_norm": 1.2469751834869385, "learning_rate": 9.325629995447726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242617, "epoch": 0.8361917829102828, "step": 10970}, {"loss": 0.1453192114830017, "token_acc": 0.9438905930470347, "grad_norm": 0.7009623646736145, "learning_rate": 9.325029337767998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242628, "epoch": 0.8365729095205428, "step": 10975}, {"loss": 0.14223899841308593, "token_acc": 0.9413012729844413, "grad_norm": 0.679578423500061, "learning_rate": 9.324428432067909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242648, "epoch": 0.8369540361308027, "step": 10980}, {"loss": 0.10234172344207763, "token_acc": 0.9468223086900129, "grad_norm": 0.9320142865180969, "learning_rate": 9.323827278381916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242676, "epoch": 0.8373351627410626, "step": 10985}, {"loss": 0.1213609218597412, "token_acc": 0.9358541525995948, "grad_norm": 0.8450809121131897, "learning_rate": 9.323225876744495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242701, "epoch": 0.8377162893513225, "step": 10990}, {"loss": 0.1317624568939209, "token_acc": 0.9393063583815029, "grad_norm": 0.285533607006073, "learning_rate": 9.322624227190132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242736, "epoch": 0.8380974159615825, "step": 10995}, {"loss": 0.11941642761230468, "token_acc": 0.9437032693153496, "grad_norm": 1.151003360748291, "learning_rate": 9.322022329753329e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242762, "epoch": 0.8384785425718424, "step": 11000}, {"eval_loss": 0.1190381720662117, "eval_token_acc": 0.9435877356785736, "eval_runtime": 177.629, "eval_samples_per_second": 2.984, "eval_steps_per_second": 2.984, "epoch": 0.8384785425718424, "step": 11000}, {"loss": 0.14373393058776857, "token_acc": 0.9434516769527413, "grad_norm": 0.6702337861061096, "learning_rate": 9.321420184468602e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241831, "epoch": 0.8388596691821023, "step": 11005}, {"loss": 0.14332401752471924, "token_acc": 0.9203367875647669, "grad_norm": 0.8021074533462524, "learning_rate": 9.32081779137048e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241866, "epoch": 0.8392407957923622, "step": 11010}, {"loss": 0.1467615008354187, "token_acc": 0.944191814799504, "grad_norm": 0.7249941825866699, "learning_rate": 9.32021515049351e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241877, "epoch": 0.8396219224026221, "step": 11015}, {"loss": 0.18843120336532593, "token_acc": 0.9276773296244785, "grad_norm": 2.5019538402557373, "learning_rate": 9.319612261872249e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241908, "epoch": 0.840003049012882, "step": 11020}, {"loss": 0.14675939083099365, "token_acc": 0.9391450831754053, "grad_norm": 1.3736668825149536, "learning_rate": 9.31900912554127e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241931, "epoch": 0.840384175623142, "step": 11025}, {"loss": 0.19592134952545165, "token_acc": 0.928843710292249, "grad_norm": 0.7341601252555847, "learning_rate": 9.318405741535161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241953, "epoch": 0.840765302233402, "step": 11030}, {"loss": 0.19210788011550903, "token_acc": 0.940833915676683, "grad_norm": 1.715691328048706, "learning_rate": 9.317802109888522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241978, "epoch": 0.8411464288436619, "step": 11035}, {"loss": 0.1412208318710327, "token_acc": 0.9424826522744796, "grad_norm": 0.8008217215538025, "learning_rate": 9.317198230635969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241992, "epoch": 0.8415275554539218, "step": 11040}, {"loss": 0.16083933115005494, "token_acc": 0.9404580152671755, "grad_norm": 0.6606429815292358, "learning_rate": 9.316594103812131e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242015, "epoch": 0.8419086820641817, "step": 11045}, {"loss": 0.1473959803581238, "token_acc": 0.9558823529411765, "grad_norm": 1.5820889472961426, "learning_rate": 9.315989729451653e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242041, "epoch": 0.8422898086744417, "step": 11050}, {"loss": 0.1614848017692566, "token_acc": 0.9441920830629461, "grad_norm": 1.3957444429397583, "learning_rate": 9.315385107589194e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24206, "epoch": 0.8426709352847016, "step": 11055}, {"loss": 0.12625062465667725, "token_acc": 0.9507148231753197, "grad_norm": 1.3653455972671509, "learning_rate": 9.314780238259424e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242097, "epoch": 0.8430520618949615, "step": 11060}, {"loss": 0.12409739494323731, "token_acc": 0.9437889216650278, "grad_norm": 1.0424755811691284, "learning_rate": 9.314175121497031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242118, "epoch": 0.8434331885052214, "step": 11065}, {"loss": 0.1016870379447937, "token_acc": 0.9661753590325018, "grad_norm": 1.4346057176589966, "learning_rate": 9.313569757336713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242146, "epoch": 0.8438143151154813, "step": 11070}, {"loss": 0.11996313333511352, "token_acc": 0.9489986027014439, "grad_norm": 0.9965929985046387, "learning_rate": 9.312964145813189e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242174, "epoch": 0.8441954417257412, "step": 11075}, {"loss": 0.15396604537963868, "token_acc": 0.9349593495934959, "grad_norm": 1.5527921915054321, "learning_rate": 9.312358286961185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242217, "epoch": 0.8445765683360013, "step": 11080}, {"loss": 0.17043306827545165, "token_acc": 0.9431724137931035, "grad_norm": 1.03357994556427, "learning_rate": 9.311752180815445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242243, "epoch": 0.8449576949462612, "step": 11085}, {"loss": 0.16430689096450807, "token_acc": 0.9359543436905516, "grad_norm": 2.1101996898651123, "learning_rate": 9.311145827410727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242273, "epoch": 0.8453388215565211, "step": 11090}, {"loss": 0.16110520362854003, "token_acc": 0.9399122807017544, "grad_norm": 1.087923288345337, "learning_rate": 9.3105392267818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242297, "epoch": 0.845719948166781, "step": 11095}, {"loss": 0.1971418857574463, "token_acc": 0.9263971654050571, "grad_norm": 1.9518238306045532, "learning_rate": 9.309932378963455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242323, "epoch": 0.8461010747770409, "step": 11100}, {"loss": 0.16797823905944825, "token_acc": 0.9340553549939832, "grad_norm": 1.4333595037460327, "learning_rate": 9.309325283990487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242346, "epoch": 0.8464822013873009, "step": 11105}, {"loss": 0.20840809345245362, "token_acc": 0.9083108605050257, "grad_norm": 0.9693551063537598, "learning_rate": 9.30871794189771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242374, "epoch": 0.8468633279975608, "step": 11110}, {"loss": 0.11118177175521851, "token_acc": 0.9452237808951236, "grad_norm": 0.3867141008377075, "learning_rate": 9.308110352719955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2424, "epoch": 0.8472444546078207, "step": 11115}, {"loss": 0.12820684909820557, "token_acc": 0.9504270330486446, "grad_norm": 0.9719766974449158, "learning_rate": 9.307502516492064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24242, "epoch": 0.8476255812180806, "step": 11120}, {"loss": 0.13506240844726564, "token_acc": 0.9508806747705284, "grad_norm": 0.8631400465965271, "learning_rate": 9.306894433248893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242446, "epoch": 0.8480067078283405, "step": 11125}, {"loss": 0.1773344874382019, "token_acc": 0.9230026550808593, "grad_norm": 0.8466391563415527, "learning_rate": 9.306286103025313e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242477, "epoch": 0.8483878344386006, "step": 11130}, {"loss": 0.13892335891723634, "token_acc": 0.9491755577109602, "grad_norm": 0.7910301089286804, "learning_rate": 9.305677525856207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242498, "epoch": 0.8487689610488605, "step": 11135}, {"loss": 0.18649892807006835, "token_acc": 0.9230769230769231, "grad_norm": 1.0928938388824463, "learning_rate": 9.305068701776477e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242525, "epoch": 0.8491500876591204, "step": 11140}, {"loss": 0.17914717197418212, "token_acc": 0.9472784269022514, "grad_norm": 1.3737156391143799, "learning_rate": 9.304459630821034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242554, "epoch": 0.8495312142693803, "step": 11145}, {"loss": 0.13918216228485109, "token_acc": 0.9482758620689655, "grad_norm": 0.7425313591957092, "learning_rate": 9.303850313024806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242587, "epoch": 0.8499123408796402, "step": 11150}, {"loss": 0.1892155408859253, "token_acc": 0.9357945425361156, "grad_norm": 1.1064648628234863, "learning_rate": 9.303240748422736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242612, "epoch": 0.8502934674899001, "step": 11155}, {"loss": 0.11232266426086426, "token_acc": 0.9399386234107847, "grad_norm": 0.3445730209350586, "learning_rate": 9.302630937049778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24264, "epoch": 0.8506745941001601, "step": 11160}, {"loss": 0.1918261766433716, "token_acc": 0.9457999302892994, "grad_norm": 1.1421757936477661, "learning_rate": 9.302020878940902e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242663, "epoch": 0.85105572071042, "step": 11165}, {"loss": 0.13044490814208984, "token_acc": 0.9522141255605381, "grad_norm": 1.0139286518096924, "learning_rate": 9.301410574131093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242671, "epoch": 0.8514368473206799, "step": 11170}, {"loss": 0.16573522090911866, "token_acc": 0.9249779346866726, "grad_norm": 0.6924458146095276, "learning_rate": 9.300800022655349e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242706, "epoch": 0.8518179739309398, "step": 11175}, {"loss": 0.1435001850128174, "token_acc": 0.9444871597724127, "grad_norm": 0.5491956472396851, "learning_rate": 9.30018922454868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242716, "epoch": 0.8521991005411997, "step": 11180}, {"loss": 0.15703366994857787, "token_acc": 0.947107438016529, "grad_norm": 0.8935181498527527, "learning_rate": 9.299578179846117e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242746, "epoch": 0.8525802271514598, "step": 11185}, {"loss": 0.158802592754364, "token_acc": 0.932872655478776, "grad_norm": 0.9166231155395508, "learning_rate": 9.298966888582696e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242777, "epoch": 0.8529613537617197, "step": 11190}, {"loss": 0.13850829601287842, "token_acc": 0.9463955637707948, "grad_norm": 1.9896697998046875, "learning_rate": 9.298355350793475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242812, "epoch": 0.8533424803719796, "step": 11195}, {"loss": 0.18870625495910645, "token_acc": 0.9302450127192395, "grad_norm": 0.6727337837219238, "learning_rate": 9.297743566513521e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24282, "epoch": 0.8537236069822395, "step": 11200}, {"eval_loss": 0.11900965869426727, "eval_token_acc": 0.9437082103487742, "eval_runtime": 184.8537, "eval_samples_per_second": 2.867, "eval_steps_per_second": 2.867, "epoch": 0.8537236069822395, "step": 11200}, {"loss": 0.1828467845916748, "token_acc": 0.9436407943174159, "grad_norm": 1.0817548036575317, "learning_rate": 9.297131535777917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241887, "epoch": 0.8541047335924994, "step": 11205}, {"loss": 0.16453466415405274, "token_acc": 0.9491260923845194, "grad_norm": 1.351295828819275, "learning_rate": 9.296519258621759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241926, "epoch": 0.8544858602027594, "step": 11210}, {"loss": 0.14493274688720703, "token_acc": 0.9507299270072993, "grad_norm": 0.6206011176109314, "learning_rate": 9.295906735080161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241933, "epoch": 0.8548669868130193, "step": 11215}, {"loss": 0.1310397982597351, "token_acc": 0.9457283822383796, "grad_norm": 0.6712293028831482, "learning_rate": 9.295293965188248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241956, "epoch": 0.8552481134232792, "step": 11220}, {"loss": 0.15444633960723878, "token_acc": 0.9420856975151634, "grad_norm": 1.9602712392807007, "learning_rate": 9.29468094898116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241978, "epoch": 0.8556292400335391, "step": 11225}, {"loss": 0.15099868774414063, "token_acc": 0.9428631667720851, "grad_norm": 0.801242470741272, "learning_rate": 9.294067686494047e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242002, "epoch": 0.856010366643799, "step": 11230}, {"loss": 0.12697191238403321, "token_acc": 0.9519450800915332, "grad_norm": 1.2892011404037476, "learning_rate": 9.29345417776208e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242004, "epoch": 0.8563914932540589, "step": 11235}, {"loss": 0.14466590881347657, "token_acc": 0.9419919737322145, "grad_norm": 0.4490237832069397, "learning_rate": 9.292840422820439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242027, "epoch": 0.856772619864319, "step": 11240}, {"loss": 0.140582275390625, "token_acc": 0.9461852861035422, "grad_norm": 0.8701170086860657, "learning_rate": 9.292226421704323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242045, "epoch": 0.8571537464745789, "step": 11245}, {"loss": 0.2405301570892334, "token_acc": 0.9181735159817351, "grad_norm": 0.5863073468208313, "learning_rate": 9.291612174448937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242061, "epoch": 0.8575348730848388, "step": 11250}, {"loss": 0.12870147228240966, "token_acc": 0.9487666034155597, "grad_norm": 0.5197257995605469, "learning_rate": 9.290997681089511e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242083, "epoch": 0.8579159996950987, "step": 11255}, {"loss": 0.12530384063720704, "token_acc": 0.9542597765363129, "grad_norm": 0.7126216292381287, "learning_rate": 9.290382941661278e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242082, "epoch": 0.8582971263053586, "step": 11260}, {"loss": 0.1642824411392212, "token_acc": 0.9333768778576094, "grad_norm": 1.0275896787643433, "learning_rate": 9.289767956199495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242115, "epoch": 0.8586782529156186, "step": 11265}, {"loss": 0.14040806293487548, "token_acc": 0.9352856109906001, "grad_norm": 1.2328941822052002, "learning_rate": 9.289152724739428e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242129, "epoch": 0.8590593795258785, "step": 11270}, {"loss": 0.14184410572052003, "token_acc": 0.9451833213515457, "grad_norm": 0.732254683971405, "learning_rate": 9.288537247316353e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242141, "epoch": 0.8594405061361384, "step": 11275}, {"loss": 0.23989293575286866, "token_acc": 0.9231980405878236, "grad_norm": 1.1022695302963257, "learning_rate": 9.28792152396557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242159, "epoch": 0.8598216327463983, "step": 11280}, {"loss": 0.15799055099487305, "token_acc": 0.9252317198764161, "grad_norm": 0.6675364375114441, "learning_rate": 9.287305554722385e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242185, "epoch": 0.8602027593566582, "step": 11285}, {"loss": 0.13705127239227294, "token_acc": 0.9482699554642001, "grad_norm": 1.327260136604309, "learning_rate": 9.286689339622123e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242206, "epoch": 0.8605838859669183, "step": 11290}, {"loss": 0.1902400493621826, "token_acc": 0.9357437422077299, "grad_norm": 1.1228729486465454, "learning_rate": 9.286072878700121e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242214, "epoch": 0.8609650125771782, "step": 11295}, {"loss": 0.15102235078811646, "token_acc": 0.9455394190871369, "grad_norm": 0.845726728439331, "learning_rate": 9.285456171991727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242252, "epoch": 0.8613461391874381, "step": 11300}, {"loss": 0.12301328182220458, "token_acc": 0.9505386875612145, "grad_norm": 0.9008126258850098, "learning_rate": 9.284839219532311e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242279, "epoch": 0.861727265797698, "step": 11305}, {"loss": 0.1429712176322937, "token_acc": 0.9409408115792194, "grad_norm": 0.8441014885902405, "learning_rate": 9.284222021357248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242287, "epoch": 0.8621083924079579, "step": 11310}, {"loss": 0.13432111740112304, "token_acc": 0.9461340758192333, "grad_norm": 0.8268718719482422, "learning_rate": 9.283604577501933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242279, "epoch": 0.8624895190182178, "step": 11315}, {"loss": 0.1309664487838745, "token_acc": 0.9443148688046648, "grad_norm": 1.0975680351257324, "learning_rate": 9.282986888001774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242308, "epoch": 0.8628706456284778, "step": 11320}, {"loss": 0.20588057041168212, "token_acc": 0.9230307876849261, "grad_norm": 1.169417142868042, "learning_rate": 9.282368952892193e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242331, "epoch": 0.8632517722387377, "step": 11325}, {"loss": 0.15845749378204346, "token_acc": 0.9447421918314545, "grad_norm": 0.6297056674957275, "learning_rate": 9.281750772208626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242349, "epoch": 0.8636328988489976, "step": 11330}, {"loss": 0.20952963829040527, "token_acc": 0.908467603702434, "grad_norm": 1.0419367551803589, "learning_rate": 9.28113234598652e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242366, "epoch": 0.8640140254592575, "step": 11335}, {"loss": 0.12869423627853394, "token_acc": 0.9522039979497694, "grad_norm": 0.6862680315971375, "learning_rate": 9.280513674261342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242369, "epoch": 0.8643951520695174, "step": 11340}, {"loss": 0.12949740886688232, "token_acc": 0.9511424856028237, "grad_norm": 0.12061133980751038, "learning_rate": 9.27989475706857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242393, "epoch": 0.8647762786797775, "step": 11345}, {"loss": 0.15031658411026, "token_acc": 0.946282527881041, "grad_norm": 1.2768725156784058, "learning_rate": 9.279275594443693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242412, "epoch": 0.8651574052900374, "step": 11350}, {"loss": 0.1757448434829712, "token_acc": 0.9324688663499807, "grad_norm": 1.0683151483535767, "learning_rate": 9.278656186422218e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24243, "epoch": 0.8655385319002973, "step": 11355}, {"loss": 0.09582918882369995, "token_acc": 0.943115234375, "grad_norm": 0.5343469381332397, "learning_rate": 9.278036533039669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242456, "epoch": 0.8659196585105572, "step": 11360}, {"loss": 0.12343356609344483, "token_acc": 0.9520399305555556, "grad_norm": 0.5921213030815125, "learning_rate": 9.277416634331577e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242483, "epoch": 0.8663007851208171, "step": 11365}, {"loss": 0.1946183919906616, "token_acc": 0.9113680154142582, "grad_norm": 1.1680989265441895, "learning_rate": 9.276796490333489e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242512, "epoch": 0.8666819117310771, "step": 11370}, {"loss": 0.19429900646209716, "token_acc": 0.9037304452466908, "grad_norm": 1.3305295705795288, "learning_rate": 9.27617610108097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242551, "epoch": 0.867063038341337, "step": 11375}, {"loss": 0.20306687355041503, "token_acc": 0.9079531691562374, "grad_norm": 1.0473742485046387, "learning_rate": 9.275555466609593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242587, "epoch": 0.8674441649515969, "step": 11380}, {"loss": 0.1528411865234375, "token_acc": 0.9403420942845223, "grad_norm": 1.1064177751541138, "learning_rate": 9.274934586954953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242623, "epoch": 0.8678252915618568, "step": 11385}, {"loss": 0.10176662206649781, "token_acc": 0.9483264826776278, "grad_norm": 0.717984139919281, "learning_rate": 9.274313462152654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242638, "epoch": 0.8682064181721167, "step": 11390}, {"loss": 0.11504189968109131, "token_acc": 0.9562218094985407, "grad_norm": 0.8964281678199768, "learning_rate": 9.273692092238311e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242665, "epoch": 0.8685875447823767, "step": 11395}, {"loss": 0.11975104808807373, "token_acc": 0.952100960848989, "grad_norm": 1.0431890487670898, "learning_rate": 9.273070477247561e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242678, "epoch": 0.8689686713926367, "step": 11400}, {"eval_loss": 0.12047483772039413, "eval_token_acc": 0.9433919643394976, "eval_runtime": 172.761, "eval_samples_per_second": 3.068, "eval_steps_per_second": 3.068, "epoch": 0.8689686713926367, "step": 11400}, {"loss": 0.29540698528289794, "token_acc": 0.9424642134999599, "grad_norm": 1.627865195274353, "learning_rate": 9.272448617216046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24182, "epoch": 0.8693497980028966, "step": 11405}, {"loss": 0.13939646482467652, "token_acc": 0.9306818181818182, "grad_norm": 0.05468102917075157, "learning_rate": 9.271826512179431e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241849, "epoch": 0.8697309246131565, "step": 11410}, {"loss": 0.14522193670272826, "token_acc": 0.9382584628486268, "grad_norm": 2.2837295532226562, "learning_rate": 9.27120416217339e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241875, "epoch": 0.8701120512234164, "step": 11415}, {"loss": 0.14301533699035646, "token_acc": 0.950741673663588, "grad_norm": 0.6580895781517029, "learning_rate": 9.27058156723361e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241903, "epoch": 0.8704931778336763, "step": 11420}, {"loss": 0.14156968593597413, "token_acc": 0.9326463010673537, "grad_norm": 1.1832242012023926, "learning_rate": 9.269958727395793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241936, "epoch": 0.8708743044439363, "step": 11425}, {"loss": 0.13483787775039674, "token_acc": 0.9416964133945266, "grad_norm": 0.5878319144248962, "learning_rate": 9.269335642695661e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241957, "epoch": 0.8712554310541962, "step": 11430}, {"loss": 0.14003828763961793, "token_acc": 0.9422492401215805, "grad_norm": 0.5540229678153992, "learning_rate": 9.268712313168942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241976, "epoch": 0.8716365576644561, "step": 11435}, {"loss": 0.1087761402130127, "token_acc": 0.9511930585683297, "grad_norm": 0.4587554633617401, "learning_rate": 9.26808873885138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24199, "epoch": 0.872017684274716, "step": 11440}, {"loss": 0.15411088466644288, "token_acc": 0.9380774032459426, "grad_norm": 2.100513458251953, "learning_rate": 9.267464919778734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242018, "epoch": 0.872398810884976, "step": 11445}, {"loss": 0.1339137077331543, "token_acc": 0.9405251951738822, "grad_norm": 0.518129289150238, "learning_rate": 9.266840855986781e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242027, "epoch": 0.872779937495236, "step": 11450}, {"loss": 0.10791488885879516, "token_acc": 0.9474346868114574, "grad_norm": 1.5014537572860718, "learning_rate": 9.266216547511304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242058, "epoch": 0.8731610641054959, "step": 11455}, {"loss": 0.13979020118713378, "token_acc": 0.9464082098061574, "grad_norm": 0.5119888186454773, "learning_rate": 9.265591994388105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242088, "epoch": 0.8735421907157558, "step": 11460}, {"loss": 0.154273521900177, "token_acc": 0.9279484262419416, "grad_norm": 0.31261828541755676, "learning_rate": 9.264967196653e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242109, "epoch": 0.8739233173260157, "step": 11465}, {"loss": 0.2128819465637207, "token_acc": 0.9272114240380801, "grad_norm": 0.9616721868515015, "learning_rate": 9.26434215434182e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242135, "epoch": 0.8743044439362756, "step": 11470}, {"loss": 0.1638340950012207, "token_acc": 0.9379679144385027, "grad_norm": 1.499384880065918, "learning_rate": 9.263716867490404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242148, "epoch": 0.8746855705465355, "step": 11475}, {"loss": 0.10661208629608154, "token_acc": 0.9521540599563232, "grad_norm": 0.6719818115234375, "learning_rate": 9.263091336134612e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242168, "epoch": 0.8750666971567955, "step": 11480}, {"loss": 0.1181525468826294, "token_acc": 0.9514869888475836, "grad_norm": 0.7274910807609558, "learning_rate": 9.262465560310318e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242191, "epoch": 0.8754478237670554, "step": 11485}, {"loss": 0.19358291625976562, "token_acc": 0.9183716515503059, "grad_norm": 0.5980207920074463, "learning_rate": 9.261839540053402e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242213, "epoch": 0.8758289503773153, "step": 11490}, {"loss": 0.16730958223342896, "token_acc": 0.9281686687913704, "grad_norm": 0.7800714373588562, "learning_rate": 9.261213275399766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242244, "epoch": 0.8762100769875752, "step": 11495}, {"loss": 0.10308022499084472, "token_acc": 0.9508144362823379, "grad_norm": 0.8332794308662415, "learning_rate": 9.260586766385323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242279, "epoch": 0.8765912035978352, "step": 11500}, {"loss": 0.12815870046615602, "token_acc": 0.9502756215547306, "grad_norm": 0.7437598705291748, "learning_rate": 9.259960013046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242281, "epoch": 0.8769723302080952, "step": 11505}, {"loss": 0.11342629194259643, "token_acc": 0.9587782468338714, "grad_norm": 0.8914576768875122, "learning_rate": 9.259333015417739e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24231, "epoch": 0.8773534568183551, "step": 11510}, {"loss": 0.18521571159362793, "token_acc": 0.9212152420185376, "grad_norm": 1.3738980293273926, "learning_rate": 9.258705773536496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242338, "epoch": 0.877734583428615, "step": 11515}, {"loss": 0.16222747564315795, "token_acc": 0.9304314030314808, "grad_norm": 1.36734139919281, "learning_rate": 9.258078287438241e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242369, "epoch": 0.8781157100388749, "step": 11520}, {"loss": 0.1493427038192749, "token_acc": 0.9365537130497477, "grad_norm": 1.6461329460144043, "learning_rate": 9.257450557158954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242404, "epoch": 0.8784968366491348, "step": 11525}, {"loss": 0.11434768438339234, "token_acc": 0.9500564334085779, "grad_norm": 0.5578780770301819, "learning_rate": 9.256822582734635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242434, "epoch": 0.8788779632593948, "step": 11530}, {"loss": 0.12437794208526612, "token_acc": 0.9473365617433414, "grad_norm": 0.6220436692237854, "learning_rate": 9.256194364201296e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242464, "epoch": 0.8792590898696547, "step": 11535}, {"loss": 0.17805936336517333, "token_acc": 0.9376747245518829, "grad_norm": 0.9617224931716919, "learning_rate": 9.25556590159496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242486, "epoch": 0.8796402164799146, "step": 11540}, {"loss": 0.12242883443832397, "token_acc": 0.9524969549330086, "grad_norm": 0.7395830154418945, "learning_rate": 9.254937194951669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242497, "epoch": 0.8800213430901745, "step": 11545}, {"loss": 0.13247370719909668, "token_acc": 0.959231217239371, "grad_norm": 0.8783916234970093, "learning_rate": 9.254308244307473e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242517, "epoch": 0.8804024697004345, "step": 11550}, {"loss": 0.14341195821762084, "token_acc": 0.945671223273747, "grad_norm": 0.6463296413421631, "learning_rate": 9.253679049698444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242536, "epoch": 0.8807835963106944, "step": 11555}, {"loss": 0.12439312934875488, "token_acc": 0.9443637118538509, "grad_norm": 0.7633922696113586, "learning_rate": 9.25304961116066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242562, "epoch": 0.8811647229209544, "step": 11560}, {"loss": 0.18157944679260254, "token_acc": 0.9330065359477124, "grad_norm": 1.352342128753662, "learning_rate": 9.252419928730217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242598, "epoch": 0.8815458495312143, "step": 11565}, {"loss": 0.10114047527313233, "token_acc": 0.9517374517374517, "grad_norm": 0.8785626888275146, "learning_rate": 9.251790002443226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242627, "epoch": 0.8819269761414742, "step": 11570}, {"loss": 0.21737995147705078, "token_acc": 0.9309249702262803, "grad_norm": 1.6296240091323853, "learning_rate": 9.251159832335807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242661, "epoch": 0.8823081027517341, "step": 11575}, {"loss": 0.17732958793640136, "token_acc": 0.9247654452115419, "grad_norm": 1.0468300580978394, "learning_rate": 9.2505294184441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242683, "epoch": 0.882689229361994, "step": 11580}, {"loss": 0.09798108339309693, "token_acc": 0.9511450381679389, "grad_norm": 0.7905191779136658, "learning_rate": 9.249898760804257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24272, "epoch": 0.883070355972254, "step": 11585}, {"loss": 0.19752393960952758, "token_acc": 0.9200764209520776, "grad_norm": 0.8342950940132141, "learning_rate": 9.249267859452441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242737, "epoch": 0.8834514825825139, "step": 11590}, {"loss": 0.1638488531112671, "token_acc": 0.9442482341069627, "grad_norm": 1.3242619037628174, "learning_rate": 9.248636714424833e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242765, "epoch": 0.8838326091927738, "step": 11595}, {"loss": 0.12706501483917237, "token_acc": 0.9495395241749808, "grad_norm": 0.9804904460906982, "learning_rate": 9.248005325757626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242785, "epoch": 0.8842137358030338, "step": 11600}, {"eval_loss": 0.11803941428661346, "eval_token_acc": 0.9434145533401602, "eval_runtime": 178.586, "eval_samples_per_second": 2.968, "eval_steps_per_second": 2.968, "epoch": 0.8842137358030338, "step": 11600}, {"loss": 0.17875895500183106, "token_acc": 0.9427135309656589, "grad_norm": 0.7456228137016296, "learning_rate": 9.247373693487024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24191, "epoch": 0.8845948624132937, "step": 11605}, {"loss": 0.135236394405365, "token_acc": 0.9504378283712784, "grad_norm": 1.19225013256073, "learning_rate": 9.246741817649253e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241929, "epoch": 0.8849759890235537, "step": 11610}, {"loss": 0.16903975009918212, "token_acc": 0.9280866192630899, "grad_norm": 0.9328842163085938, "learning_rate": 9.246109698280546e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241952, "epoch": 0.8853571156338136, "step": 11615}, {"loss": 0.15201431512832642, "token_acc": 0.9369127516778524, "grad_norm": 1.2180582284927368, "learning_rate": 9.245477335417152e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24198, "epoch": 0.8857382422440735, "step": 11620}, {"loss": 0.14544885158538817, "token_acc": 0.9476904252064852, "grad_norm": 0.6162218451499939, "learning_rate": 9.244844729095335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24199, "epoch": 0.8861193688543334, "step": 11625}, {"loss": 0.13743438720703124, "token_acc": 0.9500828010409273, "grad_norm": 0.7765874266624451, "learning_rate": 9.24421187935137e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242012, "epoch": 0.8865004954645933, "step": 11630}, {"loss": 0.150018048286438, "token_acc": 0.920039980009995, "grad_norm": 0.828283429145813, "learning_rate": 9.24357878622155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242045, "epoch": 0.8868816220748532, "step": 11635}, {"loss": 0.20054380893707274, "token_acc": 0.9174092934436665, "grad_norm": 1.2223256826400757, "learning_rate": 9.242945449742177e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242061, "epoch": 0.8872627486851132, "step": 11640}, {"loss": 0.1429295301437378, "token_acc": 0.9400479616306955, "grad_norm": 0.6012343764305115, "learning_rate": 9.242311869949575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242084, "epoch": 0.8876438752953731, "step": 11645}, {"loss": 0.15435534715652466, "token_acc": 0.9411280362289007, "grad_norm": 0.967304527759552, "learning_rate": 9.241678046880073e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242096, "epoch": 0.888025001905633, "step": 11650}, {"loss": 0.11826033592224121, "token_acc": 0.9591666666666666, "grad_norm": 0.3374031186103821, "learning_rate": 9.241043980570019e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242128, "epoch": 0.888406128515893, "step": 11655}, {"loss": 0.16891655921936036, "token_acc": 0.9296121097445601, "grad_norm": 1.6713097095489502, "learning_rate": 9.240409671055774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242154, "epoch": 0.8887872551261529, "step": 11660}, {"loss": 0.14773941040039062, "token_acc": 0.9318497913769124, "grad_norm": 0.9264869689941406, "learning_rate": 9.239775118373711e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242175, "epoch": 0.8891683817364129, "step": 11665}, {"loss": 0.15114855766296387, "token_acc": 0.9447102013572144, "grad_norm": 0.7910012602806091, "learning_rate": 9.23914032256022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24218, "epoch": 0.8895495083466728, "step": 11670}, {"loss": 0.15131815671920776, "token_acc": 0.946266829865361, "grad_norm": 0.6481488943099976, "learning_rate": 9.238505283651705e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242182, "epoch": 0.8899306349569327, "step": 11675}, {"loss": 0.18101712465286254, "token_acc": 0.938740713676775, "grad_norm": 0.5785846710205078, "learning_rate": 9.23787000168458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242192, "epoch": 0.8903117615671926, "step": 11680}, {"loss": 0.15444326400756836, "token_acc": 0.928311057108141, "grad_norm": 1.0119166374206543, "learning_rate": 9.237234476695277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242225, "epoch": 0.8906928881774525, "step": 11685}, {"loss": 0.11219713687896729, "token_acc": 0.9575577066269546, "grad_norm": 0.7281562685966492, "learning_rate": 9.236598708720238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242256, "epoch": 0.8910740147877125, "step": 11690}, {"loss": 0.16654957532882692, "token_acc": 0.9535723497549652, "grad_norm": 1.1952383518218994, "learning_rate": 9.235962697795926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242282, "epoch": 0.8914551413979724, "step": 11695}, {"loss": 0.15942226648330687, "token_acc": 0.9299330242143226, "grad_norm": 0.6787243485450745, "learning_rate": 9.23532644395881e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242306, "epoch": 0.8918362680082323, "step": 11700}, {"loss": 0.1333617687225342, "token_acc": 0.9478201634877385, "grad_norm": 0.7359351515769958, "learning_rate": 9.234689947245377e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24231, "epoch": 0.8922173946184923, "step": 11705}, {"loss": 0.2199159622192383, "token_acc": 0.9093511450381679, "grad_norm": 0.865392804145813, "learning_rate": 9.234053207692125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242344, "epoch": 0.8925985212287522, "step": 11710}, {"loss": 0.11937528848648071, "token_acc": 0.9435110786462138, "grad_norm": 0.7505701780319214, "learning_rate": 9.233416225335572e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242366, "epoch": 0.8929796478390121, "step": 11715}, {"loss": 0.12721607685089112, "token_acc": 0.9677700348432056, "grad_norm": 0.49155566096305847, "learning_rate": 9.232779000212242e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242391, "epoch": 0.8933607744492721, "step": 11720}, {"loss": 0.10543086528778076, "token_acc": 0.961091841351229, "grad_norm": 0.19501294195652008, "learning_rate": 9.23214153235868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242404, "epoch": 0.893741901059532, "step": 11725}, {"loss": 0.11526789665222167, "token_acc": 0.9522190103723857, "grad_norm": 0.839466392993927, "learning_rate": 9.23150382181144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242418, "epoch": 0.8941230276697919, "step": 11730}, {"loss": 0.14696993827819824, "token_acc": 0.9401141946620635, "grad_norm": 0.5504568219184875, "learning_rate": 9.230865868607092e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242424, "epoch": 0.8945041542800518, "step": 11735}, {"loss": 0.14533056020736695, "token_acc": 0.9474373363262252, "grad_norm": 1.1373040676116943, "learning_rate": 9.230227672782221e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242439, "epoch": 0.8948852808903117, "step": 11740}, {"loss": 0.15756341218948364, "token_acc": 0.9163332120771189, "grad_norm": 1.3203582763671875, "learning_rate": 9.229589234373423e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242475, "epoch": 0.8952664075005717, "step": 11745}, {"loss": 0.17532361745834352, "token_acc": 0.9339250493096647, "grad_norm": 1.3900340795516968, "learning_rate": 9.228950553417311e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242503, "epoch": 0.8956475341108316, "step": 11750}, {"loss": 0.1425628423690796, "token_acc": 0.9324255319148936, "grad_norm": 0.9940233826637268, "learning_rate": 9.22831162995051e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242524, "epoch": 0.8960286607210916, "step": 11755}, {"loss": 0.14655332565307616, "token_acc": 0.9474337748344371, "grad_norm": 0.858811616897583, "learning_rate": 9.227672464009658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242545, "epoch": 0.8964097873313515, "step": 11760}, {"loss": 0.1415562868118286, "token_acc": 0.9446992176962503, "grad_norm": 0.8200286030769348, "learning_rate": 9.227033055631409e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242558, "epoch": 0.8967909139416114, "step": 11765}, {"loss": 0.14444782733917236, "token_acc": 0.9365798414496036, "grad_norm": 1.2545667886734009, "learning_rate": 9.22639340485243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242586, "epoch": 0.8971720405518714, "step": 11770}, {"loss": 0.14715808629989624, "token_acc": 0.9423682140047207, "grad_norm": 1.0853227376937866, "learning_rate": 9.225753511709401e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242611, "epoch": 0.8975531671621313, "step": 11775}, {"loss": 0.17790710926055908, "token_acc": 0.9352867657269823, "grad_norm": 0.9125546216964722, "learning_rate": 9.22511337623902e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242618, "epoch": 0.8979342937723912, "step": 11780}, {"loss": 0.14402978420257567, "token_acc": 0.953808572063069, "grad_norm": 0.8053238391876221, "learning_rate": 9.224472998477993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242636, "epoch": 0.8983154203826511, "step": 11785}, {"loss": 0.14119811058044435, "token_acc": 0.9331240946402704, "grad_norm": 1.1952511072158813, "learning_rate": 9.223832378463042e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242664, "epoch": 0.898696546992911, "step": 11790}, {"loss": 0.15266720056533814, "token_acc": 0.9465305626443067, "grad_norm": 1.422877311706543, "learning_rate": 9.223191516230907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242674, "epoch": 0.8990776736031709, "step": 11795}, {"loss": 0.1222700834274292, "token_acc": 0.9519366197183099, "grad_norm": 1.2361427545547485, "learning_rate": 9.222550411818336e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242695, "epoch": 0.8994588002134309, "step": 11800}, {"eval_loss": 0.11847015470266342, "eval_token_acc": 0.9444611770375279, "eval_runtime": 178.1484, "eval_samples_per_second": 2.975, "eval_steps_per_second": 2.975, "epoch": 0.8994588002134309, "step": 11800}, {"loss": 0.18087037801742553, "token_acc": 0.9434511706268518, "grad_norm": 1.0086513757705688, "learning_rate": 9.221909065262093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241829, "epoch": 0.8998399268236908, "step": 11805}, {"loss": 0.14509079456329346, "token_acc": 0.9386200716845878, "grad_norm": 0.6679299473762512, "learning_rate": 9.221267476598959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241864, "epoch": 0.9002210534339508, "step": 11810}, {"loss": 0.18981798887252807, "token_acc": 0.9249644381223329, "grad_norm": 0.5772103667259216, "learning_rate": 9.220625645865724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241897, "epoch": 0.9006021800442107, "step": 11815}, {"loss": 0.10760596990585328, "token_acc": 0.9529329118370214, "grad_norm": 0.9887216687202454, "learning_rate": 9.219983573099194e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241931, "epoch": 0.9009833066544706, "step": 11820}, {"loss": 0.16150444746017456, "token_acc": 0.9263207770670457, "grad_norm": 1.367976427078247, "learning_rate": 9.219341258336187e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241956, "epoch": 0.9013644332647306, "step": 11825}, {"loss": 0.17334593534469606, "token_acc": 0.9500411184210527, "grad_norm": 1.2807461023330688, "learning_rate": 9.218698701613542e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241976, "epoch": 0.9017455598749905, "step": 11830}, {"loss": 0.16150217056274413, "token_acc": 0.9371771027071709, "grad_norm": 1.0547317266464233, "learning_rate": 9.218055902968101e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242, "epoch": 0.9021266864852504, "step": 11835}, {"loss": 0.1572587490081787, "token_acc": 0.9306865540688748, "grad_norm": 1.1199029684066772, "learning_rate": 9.217412862436729e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242022, "epoch": 0.9025078130955103, "step": 11840}, {"loss": 0.15320951938629152, "token_acc": 0.9401131719585036, "grad_norm": 0.5875632762908936, "learning_rate": 9.216769580056301e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242045, "epoch": 0.9028889397057702, "step": 11845}, {"loss": 0.1438019871711731, "token_acc": 0.9581428915082992, "grad_norm": 0.4891464412212372, "learning_rate": 9.216126055863707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242072, "epoch": 0.9032700663160302, "step": 11850}, {"loss": 0.17016725540161132, "token_acc": 0.9211845102505695, "grad_norm": 0.7824639678001404, "learning_rate": 9.215482289895847e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242111, "epoch": 0.9036511929262901, "step": 11855}, {"loss": 0.15830509662628173, "token_acc": 0.9486000270526174, "grad_norm": 0.7167559862136841, "learning_rate": 9.214838282189642e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242111, "epoch": 0.90403231953655, "step": 11860}, {"loss": 0.19446541070938111, "token_acc": 0.933820968303727, "grad_norm": 0.43831273913383484, "learning_rate": 9.214194032782019e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242143, "epoch": 0.90441344614681, "step": 11865}, {"loss": 0.14148727655410767, "token_acc": 0.9492692916317602, "grad_norm": 0.7044629454612732, "learning_rate": 9.213549541709924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242131, "epoch": 0.9047945727570699, "step": 11870}, {"loss": 0.1030422568321228, "token_acc": 0.9562241551404534, "grad_norm": 0.7193948030471802, "learning_rate": 9.212904809010317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242138, "epoch": 0.9051756993673298, "step": 11875}, {"loss": 0.12540862560272217, "token_acc": 0.9421841541755889, "grad_norm": 1.2893426418304443, "learning_rate": 9.21225983472017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242166, "epoch": 0.9055568259775898, "step": 11880}, {"loss": 0.15760860443115235, "token_acc": 0.9387096774193548, "grad_norm": 1.9233492612838745, "learning_rate": 9.211614618876468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242196, "epoch": 0.9059379525878497, "step": 11885}, {"loss": 0.13520212173461915, "token_acc": 0.949454200284765, "grad_norm": 0.6106871962547302, "learning_rate": 9.210969161516212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242222, "epoch": 0.9063190791981096, "step": 11890}, {"loss": 0.13717477321624755, "token_acc": 0.935416040853109, "grad_norm": 1.1322214603424072, "learning_rate": 9.210323462676415e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242251, "epoch": 0.9067002058083695, "step": 11895}, {"loss": 0.15325380563735963, "token_acc": 0.9436504695794202, "grad_norm": 3.6114487648010254, "learning_rate": 9.209677522394106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242285, "epoch": 0.9070813324186294, "step": 11900}, {"loss": 0.1379368543624878, "token_acc": 0.9398841139546112, "grad_norm": 0.8233906030654907, "learning_rate": 9.209031340706329e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242312, "epoch": 0.9074624590288894, "step": 11905}, {"loss": 0.1842959403991699, "token_acc": 0.9273004575495679, "grad_norm": 0.9061114192008972, "learning_rate": 9.208384917650135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242342, "epoch": 0.9078435856391494, "step": 11910}, {"loss": 0.13917871713638305, "token_acc": 0.9427231960864247, "grad_norm": 1.4810551404953003, "learning_rate": 9.207738253262594e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242368, "epoch": 0.9082247122494093, "step": 11915}, {"loss": 0.12181053161621094, "token_acc": 0.9508238276299112, "grad_norm": 0.5086352229118347, "learning_rate": 9.207091347580791e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242392, "epoch": 0.9086058388596692, "step": 11920}, {"loss": 0.16192402839660644, "token_acc": 0.9349429912810194, "grad_norm": 0.9137089848518372, "learning_rate": 9.206444200641823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24242, "epoch": 0.9089869654699291, "step": 11925}, {"loss": 0.18976017236709594, "token_acc": 0.937398900032352, "grad_norm": 0.5920147895812988, "learning_rate": 9.205796812482802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242439, "epoch": 0.909368092080189, "step": 11930}, {"loss": 0.19894405603408813, "token_acc": 0.9274106175514626, "grad_norm": 1.4929907321929932, "learning_rate": 9.205149183140849e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242467, "epoch": 0.909749218690449, "step": 11935}, {"loss": 0.17703309059143066, "token_acc": 0.9204326923076923, "grad_norm": 0.6337088346481323, "learning_rate": 9.204501312653105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242495, "epoch": 0.9101303453007089, "step": 11940}, {"loss": 0.10702053308486939, "token_acc": 0.9467270194986073, "grad_norm": 0.8873234987258911, "learning_rate": 9.203853201056722e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242528, "epoch": 0.9105114719109688, "step": 11945}, {"loss": 0.16947510242462158, "token_acc": 0.9409078328259064, "grad_norm": 1.1136358976364136, "learning_rate": 9.203204848388867e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242537, "epoch": 0.9108925985212287, "step": 11950}, {"loss": 0.13364312648773194, "token_acc": 0.946081319976429, "grad_norm": 0.2798648476600647, "learning_rate": 9.202556254686719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242567, "epoch": 0.9112737251314886, "step": 11955}, {"loss": 0.20252470970153807, "token_acc": 0.9322588180331698, "grad_norm": 1.156320571899414, "learning_rate": 9.201907419987471e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242572, "epoch": 0.9116548517417487, "step": 11960}, {"loss": 0.1324612021446228, "token_acc": 0.938949938949939, "grad_norm": 1.3011653423309326, "learning_rate": 9.201258344328332e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242595, "epoch": 0.9120359783520086, "step": 11965}, {"loss": 0.16521816253662108, "token_acc": 0.9456469456469456, "grad_norm": 0.8753924369812012, "learning_rate": 9.200609027746524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242619, "epoch": 0.9124171049622685, "step": 11970}, {"loss": 0.14216171503067015, "token_acc": 0.9473977177845812, "grad_norm": 1.6770938634872437, "learning_rate": 9.19995947027928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242649, "epoch": 0.9127982315725284, "step": 11975}, {"loss": 0.11614675521850586, "token_acc": 0.9495674581262654, "grad_norm": 0.8921284079551697, "learning_rate": 9.199309671963852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242668, "epoch": 0.9131793581827883, "step": 11980}, {"loss": 0.075668466091156, "token_acc": 0.959643605870021, "grad_norm": 0.9243173003196716, "learning_rate": 9.198659632837501e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242695, "epoch": 0.9135604847930483, "step": 11985}, {"loss": 0.19226405620574952, "token_acc": 0.9277880884089759, "grad_norm": 1.1301816701889038, "learning_rate": 9.198009352937504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242717, "epoch": 0.9139416114033082, "step": 11990}, {"loss": 0.12943798303604126, "token_acc": 0.9490366687383468, "grad_norm": 0.7278009057044983, "learning_rate": 9.197358832301153e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242755, "epoch": 0.9143227380135681, "step": 11995}, {"loss": 0.12744930982589722, "token_acc": 0.943364457370274, "grad_norm": 0.3542937636375427, "learning_rate": 9.19670807096575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24277, "epoch": 0.914703864623828, "step": 12000}, {"eval_loss": 0.11662054061889648, "eval_token_acc": 0.9444009397024276, "eval_runtime": 175.8834, "eval_samples_per_second": 3.013, "eval_steps_per_second": 3.013, "epoch": 0.914703864623828, "step": 12000}, {"loss": 0.16453678607940675, "token_acc": 0.9444388799061342, "grad_norm": 1.172133207321167, "learning_rate": 9.196057068968613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241925, "epoch": 0.9150849912340879, "step": 12005}, {"loss": 0.13364335298538207, "token_acc": 0.9535227459352932, "grad_norm": 0.588714063167572, "learning_rate": 9.195405826347077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241944, "epoch": 0.9154661178443478, "step": 12010}, {"loss": 0.1653128981590271, "token_acc": 0.9463912133891214, "grad_norm": 1.0444954633712769, "learning_rate": 9.194754343138486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24197, "epoch": 0.9158472444546079, "step": 12015}, {"loss": 0.1403631091117859, "token_acc": 0.9442064463484292, "grad_norm": 0.8094541430473328, "learning_rate": 9.194102619380198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241981, "epoch": 0.9162283710648678, "step": 12020}, {"loss": 0.14506103992462158, "token_acc": 0.9461538461538461, "grad_norm": 1.0604108572006226, "learning_rate": 9.193450655109589e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241983, "epoch": 0.9166094976751277, "step": 12025}, {"loss": 0.17972655296325685, "token_acc": 0.9269921695071396, "grad_norm": 1.016266942024231, "learning_rate": 9.192798450364044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24201, "epoch": 0.9169906242853876, "step": 12030}, {"loss": 0.16812283992767335, "token_acc": 0.9339080459770115, "grad_norm": 1.5686322450637817, "learning_rate": 9.192146005180967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242035, "epoch": 0.9173717508956475, "step": 12035}, {"loss": 0.13720533847808838, "token_acc": 0.9281705948372615, "grad_norm": 0.5908207297325134, "learning_rate": 9.191493319597769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242074, "epoch": 0.9177528775059075, "step": 12040}, {"loss": 0.18171563148498535, "token_acc": 0.9337491337491337, "grad_norm": 0.6789950728416443, "learning_rate": 9.190840393651878e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24209, "epoch": 0.9181340041161674, "step": 12045}, {"loss": 0.10858960151672363, "token_acc": 0.9612636329447161, "grad_norm": 0.45283934473991394, "learning_rate": 9.190187227380741e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242121, "epoch": 0.9185151307264273, "step": 12050}, {"loss": 0.14404940605163574, "token_acc": 0.9592130518234165, "grad_norm": 1.2656975984573364, "learning_rate": 9.18953382082181e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242146, "epoch": 0.9188962573366872, "step": 12055}, {"loss": 0.19252575635910035, "token_acc": 0.9238694905552376, "grad_norm": 1.6916420459747314, "learning_rate": 9.188880174012557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242173, "epoch": 0.9192773839469471, "step": 12060}, {"loss": 0.20890052318573, "token_acc": 0.9302971396834213, "grad_norm": 0.5286811590194702, "learning_rate": 9.188226286990465e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242193, "epoch": 0.9196585105572072, "step": 12065}, {"loss": 0.18122923374176025, "token_acc": 0.9187755102040817, "grad_norm": 0.5750043988227844, "learning_rate": 9.18757215979303e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24222, "epoch": 0.9200396371674671, "step": 12070}, {"loss": 0.10699106454849243, "token_acc": 0.9535802469135802, "grad_norm": 0.4938739538192749, "learning_rate": 9.186917792457766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242249, "epoch": 0.920420763777727, "step": 12075}, {"loss": 0.1499289631843567, "token_acc": 0.9258737316798196, "grad_norm": 0.4918135702610016, "learning_rate": 9.186263185022195e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24228, "epoch": 0.9208018903879869, "step": 12080}, {"loss": 0.10095444917678834, "token_acc": 0.9533930469105815, "grad_norm": 0.8623130917549133, "learning_rate": 9.185608337523858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242293, "epoch": 0.9211830169982468, "step": 12085}, {"loss": 0.10906807184219361, "token_acc": 0.9564817652467055, "grad_norm": 0.4240442216396332, "learning_rate": 9.184953250000306e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242309, "epoch": 0.9215641436085067, "step": 12090}, {"loss": 0.1341407537460327, "token_acc": 0.9400577756379394, "grad_norm": 0.7125605344772339, "learning_rate": 9.184297922489104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242338, "epoch": 0.9219452702187667, "step": 12095}, {"loss": 0.1077890157699585, "token_acc": 0.9543482751497624, "grad_norm": 0.5970594882965088, "learning_rate": 9.183642355027837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24236, "epoch": 0.9223263968290266, "step": 12100}, {"loss": 0.11380608081817627, "token_acc": 0.9502672554032071, "grad_norm": 0.7044920921325684, "learning_rate": 9.182986547654093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242391, "epoch": 0.9227075234392865, "step": 12105}, {"loss": 0.15849599838256836, "token_acc": 0.942582378730024, "grad_norm": 1.2874997854232788, "learning_rate": 9.182330500405483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242408, "epoch": 0.9230886500495464, "step": 12110}, {"loss": 0.1166802167892456, "token_acc": 0.9410282258064516, "grad_norm": 0.9350869059562683, "learning_rate": 9.181674213319625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242441, "epoch": 0.9234697766598063, "step": 12115}, {"loss": 0.14451483488082886, "token_acc": 0.9372252902062437, "grad_norm": 0.5365926623344421, "learning_rate": 9.181017686434159e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242452, "epoch": 0.9238509032700664, "step": 12120}, {"loss": 0.1282801151275635, "token_acc": 0.9342583415923357, "grad_norm": 1.0447312593460083, "learning_rate": 9.18036091978673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242485, "epoch": 0.9242320298803263, "step": 12125}, {"loss": 0.10404415130615234, "token_acc": 0.9616138516824567, "grad_norm": 0.7450137734413147, "learning_rate": 9.179703913415001e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242501, "epoch": 0.9246131564905862, "step": 12130}, {"loss": 0.1529651403427124, "token_acc": 0.9367204137511409, "grad_norm": 1.4281253814697266, "learning_rate": 9.179046667356649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242529, "epoch": 0.9249942831008461, "step": 12135}, {"loss": 0.13391484022140504, "token_acc": 0.942960615663196, "grad_norm": 0.7040519118309021, "learning_rate": 9.178389181649364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242528, "epoch": 0.925375409711106, "step": 12140}, {"loss": 0.14983537197113037, "token_acc": 0.9513040607461208, "grad_norm": 0.8738211989402771, "learning_rate": 9.177731456330849e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242541, "epoch": 0.925756536321366, "step": 12145}, {"loss": 0.12810500860214233, "token_acc": 0.9293655984303466, "grad_norm": 0.19297455251216888, "learning_rate": 9.177073491438823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24258, "epoch": 0.9261376629316259, "step": 12150}, {"loss": 0.12594324350357056, "token_acc": 0.9547442799461642, "grad_norm": 0.18724516034126282, "learning_rate": 9.176415287011015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242602, "epoch": 0.9265187895418858, "step": 12155}, {"loss": 0.17756813764572144, "token_acc": 0.9319654427645788, "grad_norm": 0.749176025390625, "learning_rate": 9.175756843085173e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242622, "epoch": 0.9268999161521457, "step": 12160}, {"loss": 0.1512345552444458, "token_acc": 0.9407054750054101, "grad_norm": 1.18508780002594, "learning_rate": 9.175098159699052e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242647, "epoch": 0.9272810427624056, "step": 12165}, {"loss": 0.177998948097229, "token_acc": 0.930623867460523, "grad_norm": 1.6245020627975464, "learning_rate": 9.174439236890426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242671, "epoch": 0.9276621693726655, "step": 12170}, {"loss": 0.16304129362106323, "token_acc": 0.928555678059537, "grad_norm": 0.6511953473091125, "learning_rate": 9.173780074697084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242696, "epoch": 0.9280432959829256, "step": 12175}, {"loss": 0.10091533660888671, "token_acc": 0.9547600913937547, "grad_norm": 0.6800899505615234, "learning_rate": 9.173120673156822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242709, "epoch": 0.9284244225931855, "step": 12180}, {"loss": 0.11389726400375366, "token_acc": 0.9554455445544554, "grad_norm": 0.5256918668746948, "learning_rate": 9.172461032307455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242732, "epoch": 0.9288055492034454, "step": 12185}, {"loss": 0.1606438159942627, "token_acc": 0.9496970809619975, "grad_norm": 0.5612916946411133, "learning_rate": 9.171801152186811e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242756, "epoch": 0.9291866758137053, "step": 12190}, {"loss": 0.13194029331207274, "token_acc": 0.9495949594959496, "grad_norm": 0.5194783806800842, "learning_rate": 9.17114103283273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242778, "epoch": 0.9295678024239652, "step": 12195}, {"loss": 0.127402400970459, "token_acc": 0.9557522123893806, "grad_norm": 0.8489723205566406, "learning_rate": 9.170480674283066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242799, "epoch": 0.9299489290342252, "step": 12200}, {"eval_loss": 0.11756382882595062, "eval_token_acc": 0.9446644780434914, "eval_runtime": 174.1205, "eval_samples_per_second": 3.044, "eval_steps_per_second": 3.044, "epoch": 0.9299489290342252, "step": 12200}, {"loss": 0.1644328236579895, "token_acc": 0.9443151427538851, "grad_norm": 0.6613253951072693, "learning_rate": 9.16982007657569e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241981, "epoch": 0.9303300556444851, "step": 12205}, {"loss": 0.20351755619049072, "token_acc": 0.9399624765478424, "grad_norm": 0.9121660590171814, "learning_rate": 9.169159239748484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241994, "epoch": 0.930711182254745, "step": 12210}, {"loss": 0.15243160724639893, "token_acc": 0.936177533115431, "grad_norm": 0.623970627784729, "learning_rate": 9.168498163839341e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242016, "epoch": 0.9310923088650049, "step": 12215}, {"loss": 0.14186103343963624, "token_acc": 0.9375605033881897, "grad_norm": 1.2924596071243286, "learning_rate": 9.167836848886174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242051, "epoch": 0.9314734354752648, "step": 12220}, {"loss": 0.21459746360778809, "token_acc": 0.9415136120880553, "grad_norm": 0.9273470044136047, "learning_rate": 9.167175294926904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242062, "epoch": 0.9318545620855249, "step": 12225}, {"loss": 0.21885323524475098, "token_acc": 0.9166825185466997, "grad_norm": 0.9148798584938049, "learning_rate": 9.166513501999468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242087, "epoch": 0.9322356886957848, "step": 12230}, {"loss": 0.13861508369445802, "token_acc": 0.9403431993550616, "grad_norm": 0.7379205822944641, "learning_rate": 9.16585147014182e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242091, "epoch": 0.9326168153060447, "step": 12235}, {"loss": 0.1408682346343994, "token_acc": 0.9510413849066811, "grad_norm": 2.0146560668945312, "learning_rate": 9.16518919939192e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242116, "epoch": 0.9329979419163046, "step": 12240}, {"loss": 0.13957394361495973, "token_acc": 0.9570980615735462, "grad_norm": 1.3773797750473022, "learning_rate": 9.164526689787749e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242116, "epoch": 0.9333790685265645, "step": 12245}, {"loss": 0.16790409088134767, "token_acc": 0.9417133706965573, "grad_norm": 0.7364859580993652, "learning_rate": 9.163863941367298e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242136, "epoch": 0.9337601951368244, "step": 12250}, {"loss": 0.1943003296852112, "token_acc": 0.9168556311413454, "grad_norm": 0.8190340399742126, "learning_rate": 9.163200954168573e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242167, "epoch": 0.9341413217470844, "step": 12255}, {"loss": 0.15196917057037354, "token_acc": 0.9480213567839196, "grad_norm": 0.8544818758964539, "learning_rate": 9.162537728229592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242189, "epoch": 0.9345224483573443, "step": 12260}, {"loss": 0.19429467916488646, "token_acc": 0.9252637423653526, "grad_norm": 0.9462592005729675, "learning_rate": 9.16187426358839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242194, "epoch": 0.9349035749676042, "step": 12265}, {"loss": 0.16618529558181763, "token_acc": 0.9366056873754754, "grad_norm": 0.6628739237785339, "learning_rate": 9.161210560283011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242211, "epoch": 0.9352847015778641, "step": 12270}, {"loss": 0.16949933767318726, "token_acc": 0.9192233009708738, "grad_norm": 1.2484318017959595, "learning_rate": 9.160546618351517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242241, "epoch": 0.935665828188124, "step": 12275}, {"loss": 0.0866227388381958, "token_acc": 0.9572776949826131, "grad_norm": 0.7353682518005371, "learning_rate": 9.159882437831984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24227, "epoch": 0.9360469547983841, "step": 12280}, {"loss": 0.12940901517868042, "token_acc": 0.9474446513552659, "grad_norm": 1.710636854171753, "learning_rate": 9.159218018762495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242291, "epoch": 0.936428081408644, "step": 12285}, {"loss": 0.10844582319259644, "token_acc": 0.9587426326129665, "grad_norm": 0.6022464036941528, "learning_rate": 9.158553361181154e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242305, "epoch": 0.9368092080189039, "step": 12290}, {"loss": 0.12513418197631837, "token_acc": 0.9524375743162902, "grad_norm": 0.8708229064941406, "learning_rate": 9.157888465126077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242315, "epoch": 0.9371903346291638, "step": 12295}, {"loss": 0.09572759866714478, "token_acc": 0.9571687110396139, "grad_norm": 0.6610813140869141, "learning_rate": 9.157223330635391e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242335, "epoch": 0.9375714612394237, "step": 12300}, {"loss": 0.1792851209640503, "token_acc": 0.9365604329524955, "grad_norm": 1.1380579471588135, "learning_rate": 9.156557957747238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242363, "epoch": 0.9379525878496837, "step": 12305}, {"loss": 0.157357656955719, "token_acc": 0.9449644327967054, "grad_norm": 0.7449556589126587, "learning_rate": 9.155892346499776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242382, "epoch": 0.9383337144599436, "step": 12310}, {"loss": 0.11645959615707398, "token_acc": 0.9476993865030675, "grad_norm": 0.5486127138137817, "learning_rate": 9.155226496931173e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242397, "epoch": 0.9387148410702035, "step": 12315}, {"loss": 0.1562546968460083, "token_acc": 0.9329189632930691, "grad_norm": 0.41119739413261414, "learning_rate": 9.154560409079614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242404, "epoch": 0.9390959676804634, "step": 12320}, {"loss": 0.17147165536880493, "token_acc": 0.9292970337261276, "grad_norm": 0.8167228102684021, "learning_rate": 9.153894082983295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242422, "epoch": 0.9394770942907233, "step": 12325}, {"loss": 0.20161380767822265, "token_acc": 0.9389014606048138, "grad_norm": 1.3649063110351562, "learning_rate": 9.153227518680426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242445, "epoch": 0.9398582209009833, "step": 12330}, {"loss": 0.1568316102027893, "token_acc": 0.944613227389577, "grad_norm": 0.6043210625648499, "learning_rate": 9.15256071620923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242466, "epoch": 0.9402393475112433, "step": 12335}, {"loss": 0.10245785713195801, "token_acc": 0.9493368123505109, "grad_norm": 0.9746297001838684, "learning_rate": 9.15189367560795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242492, "epoch": 0.9406204741215032, "step": 12340}, {"loss": 0.13858909606933595, "token_acc": 0.931513297246411, "grad_norm": 0.9292162656784058, "learning_rate": 9.151226396914834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242518, "epoch": 0.9410016007317631, "step": 12345}, {"loss": 0.1288095474243164, "token_acc": 0.9481005885500268, "grad_norm": 0.5452598929405212, "learning_rate": 9.150558880168148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242529, "epoch": 0.941382727342023, "step": 12350}, {"loss": 0.148617160320282, "token_acc": 0.9491894507621582, "grad_norm": 1.2067897319793701, "learning_rate": 9.149891125406172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242555, "epoch": 0.9417638539522829, "step": 12355}, {"loss": 0.1334935188293457, "token_acc": 0.955533790401567, "grad_norm": 1.083177089691162, "learning_rate": 9.149223132667197e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242578, "epoch": 0.9421449805625429, "step": 12360}, {"loss": 0.10021820068359374, "token_acc": 0.9611163374098464, "grad_norm": 0.6250692009925842, "learning_rate": 9.14855490198953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24261, "epoch": 0.9425261071728028, "step": 12365}, {"loss": 0.12314031124114991, "token_acc": 0.9439769707705934, "grad_norm": 0.5646321177482605, "learning_rate": 9.147886433411492e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242634, "epoch": 0.9429072337830627, "step": 12370}, {"loss": 0.11838376522064209, "token_acc": 0.9513023782559457, "grad_norm": 0.7545549273490906, "learning_rate": 9.147217726971416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242664, "epoch": 0.9432883603933226, "step": 12375}, {"loss": 0.17386358976364136, "token_acc": 0.9273821183713447, "grad_norm": 0.8307051062583923, "learning_rate": 9.146548782707647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242678, "epoch": 0.9436694870035826, "step": 12380}, {"loss": 0.1268669605255127, "token_acc": 0.9478021978021978, "grad_norm": 0.8261755704879761, "learning_rate": 9.145879600658548e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24269, "epoch": 0.9440506136138426, "step": 12385}, {"loss": 0.16295242309570312, "token_acc": 0.9307644110275689, "grad_norm": 2.044796943664551, "learning_rate": 9.145210180862493e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242711, "epoch": 0.9444317402241025, "step": 12390}, {"loss": 0.11911549568176269, "token_acc": 0.9535874439461883, "grad_norm": 0.8609843254089355, "learning_rate": 9.144540523357872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242737, "epoch": 0.9448128668343624, "step": 12395}, {"loss": 0.10483273267745971, "token_acc": 0.9568657874321179, "grad_norm": 2.5846669673919678, "learning_rate": 9.143870628183083e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242751, "epoch": 0.9451939934446223, "step": 12400}, {"eval_loss": 0.1134624108672142, "eval_token_acc": 0.9463059454249744, "eval_runtime": 161.8205, "eval_samples_per_second": 3.275, "eval_steps_per_second": 3.275, "epoch": 0.9451939934446223, "step": 12400}, {"loss": 0.19119592905044555, "token_acc": 0.9461599075049156, "grad_norm": 2.0358991622924805, "learning_rate": 9.143200495376545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242021, "epoch": 0.9455751200548822, "step": 12405}, {"loss": 0.1471969962120056, "token_acc": 0.9510655090765588, "grad_norm": 0.33811354637145996, "learning_rate": 9.142530124976683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242061, "epoch": 0.9459562466651421, "step": 12410}, {"loss": 0.14927375316619873, "token_acc": 0.9455623147714866, "grad_norm": 0.9500938653945923, "learning_rate": 9.141859517021945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242078, "epoch": 0.9463373732754021, "step": 12415}, {"loss": 0.19367703199386596, "token_acc": 0.915057915057915, "grad_norm": 0.8465932607650757, "learning_rate": 9.141188671550782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242099, "epoch": 0.946718499885662, "step": 12420}, {"loss": 0.12113461494445801, "token_acc": 0.9513055751587862, "grad_norm": 1.0269887447357178, "learning_rate": 9.140517588601667e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242139, "epoch": 0.9470996264959219, "step": 12425}, {"loss": 0.1467184066772461, "token_acc": 0.9373636646930508, "grad_norm": 1.2539961338043213, "learning_rate": 9.139846268213083e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24217, "epoch": 0.9474807531061818, "step": 12430}, {"loss": 0.17355780601501464, "token_acc": 0.9239543726235742, "grad_norm": 1.065714716911316, "learning_rate": 9.139174710423525e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242198, "epoch": 0.9478618797164418, "step": 12435}, {"loss": 0.13309202194213868, "token_acc": 0.9573585531773685, "grad_norm": 1.2264153957366943, "learning_rate": 9.138502915271508e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242221, "epoch": 0.9482430063267018, "step": 12440}, {"loss": 0.19082493782043458, "token_acc": 0.9269570011025359, "grad_norm": 0.8538663387298584, "learning_rate": 9.137830882795552e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242236, "epoch": 0.9486241329369617, "step": 12445}, {"loss": 0.17732337713241578, "token_acc": 0.9360730593607306, "grad_norm": 1.2173811197280884, "learning_rate": 9.137158613034198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242254, "epoch": 0.9490052595472216, "step": 12450}, {"loss": 0.13959741592407227, "token_acc": 0.9447998537744471, "grad_norm": 0.605402946472168, "learning_rate": 9.136486106025996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242282, "epoch": 0.9493863861574815, "step": 12455}, {"loss": 0.13818759918212892, "token_acc": 0.9445552453131233, "grad_norm": 0.7813966274261475, "learning_rate": 9.13581336180951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242307, "epoch": 0.9497675127677414, "step": 12460}, {"loss": 0.1973399519920349, "token_acc": 0.9247193484481621, "grad_norm": 0.8371070623397827, "learning_rate": 9.135140380423324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242332, "epoch": 0.9501486393780014, "step": 12465}, {"loss": 0.1688783884048462, "token_acc": 0.9245591710598073, "grad_norm": 0.9141432046890259, "learning_rate": 9.134467161906024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242358, "epoch": 0.9505297659882613, "step": 12470}, {"loss": 0.14325401782989503, "token_acc": 0.9196601941747573, "grad_norm": 1.034576654434204, "learning_rate": 9.133793706296217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242391, "epoch": 0.9509108925985212, "step": 12475}, {"loss": 0.14475760459899903, "token_acc": 0.9478218465539662, "grad_norm": 0.9074895977973938, "learning_rate": 9.133120013632526e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242411, "epoch": 0.9512920192087811, "step": 12480}, {"loss": 0.17250173091888427, "token_acc": 0.9295634920634921, "grad_norm": 1.2916032075881958, "learning_rate": 9.132446083953582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242442, "epoch": 0.951673145819041, "step": 12485}, {"loss": 0.1321173667907715, "token_acc": 0.9514209375759047, "grad_norm": 0.4414958357810974, "learning_rate": 9.131771917298032e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242468, "epoch": 0.952054272429301, "step": 12490}, {"loss": 0.15776137113571168, "token_acc": 0.936750651607298, "grad_norm": 0.7453198432922363, "learning_rate": 9.131097513704536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24249, "epoch": 0.952435399039561, "step": 12495}, {"loss": 0.17042393684387208, "token_acc": 0.9350923482849605, "grad_norm": 0.9814322590827942, "learning_rate": 9.130422873211768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242521, "epoch": 0.9528165256498209, "step": 12500}, {"loss": 0.12569780349731446, "token_acc": 0.9492543957266859, "grad_norm": 0.9558305144309998, "learning_rate": 9.129747995858418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242543, "epoch": 0.9531976522600808, "step": 12505}, {"loss": 0.16030017137527466, "token_acc": 0.9379007144165598, "grad_norm": 0.7548251748085022, "learning_rate": 9.129072881683181e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242564, "epoch": 0.9535787788703407, "step": 12510}, {"loss": 0.11236531734466552, "token_acc": 0.9453681710213777, "grad_norm": 1.0573387145996094, "learning_rate": 9.128397530724778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242601, "epoch": 0.9539599054806006, "step": 12515}, {"loss": 0.11807132959365844, "token_acc": 0.9395418700713482, "grad_norm": 0.846492350101471, "learning_rate": 9.127721943021934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242633, "epoch": 0.9543410320908606, "step": 12520}, {"loss": 0.12895534038543702, "token_acc": 0.9441970911249629, "grad_norm": 1.4017573595046997, "learning_rate": 9.127046118613392e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242666, "epoch": 0.9547221587011205, "step": 12525}, {"loss": 0.12625349760055543, "token_acc": 0.945712523133868, "grad_norm": 0.6587196588516235, "learning_rate": 9.126370057537906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242691, "epoch": 0.9551032853113804, "step": 12530}, {"loss": 0.18841396570205687, "token_acc": 0.9406636670416197, "grad_norm": 1.005194902420044, "learning_rate": 9.125693759834247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242697, "epoch": 0.9554844119216404, "step": 12535}, {"loss": 0.1545950651168823, "token_acc": 0.9371418338108882, "grad_norm": 0.6691261529922485, "learning_rate": 9.125017225541196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242721, "epoch": 0.9558655385319003, "step": 12540}, {"loss": 0.15577960014343262, "token_acc": 0.9561944904410657, "grad_norm": 1.5457665920257568, "learning_rate": 9.124340454697549e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242736, "epoch": 0.9562466651421603, "step": 12545}, {"loss": 0.05284888744354248, "token_acc": 0.96533203125, "grad_norm": 4.163644313812256, "learning_rate": 9.123663447342117e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242772, "epoch": 0.9566277917524202, "step": 12550}, {"loss": 0.11360034942626954, "token_acc": 0.9516150650046911, "grad_norm": 0.9373558163642883, "learning_rate": 9.122986203513722e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242776, "epoch": 0.9570089183626801, "step": 12555}, {"loss": 0.12866644859313964, "token_acc": 0.9610027855153204, "grad_norm": 1.166609525680542, "learning_rate": 9.1223087232512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242796, "epoch": 0.95739004497294, "step": 12560}, {"loss": 0.14236094951629638, "token_acc": 0.9532984293193717, "grad_norm": 1.1007999181747437, "learning_rate": 9.121631006593406e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242815, "epoch": 0.9577711715831999, "step": 12565}, {"loss": 0.1653854489326477, "token_acc": 0.9299290780141845, "grad_norm": 1.0412156581878662, "learning_rate": 9.120953053579198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242845, "epoch": 0.9581522981934598, "step": 12570}, {"loss": 0.16031842231750487, "token_acc": 0.9420631182289213, "grad_norm": 1.0808460712432861, "learning_rate": 9.120274864247455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242869, "epoch": 0.9585334248037198, "step": 12575}, {"loss": 0.17578827142715453, "token_acc": 0.9136325148179509, "grad_norm": 2.9490091800689697, "learning_rate": 9.11959643863707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242904, "epoch": 0.9589145514139797, "step": 12580}, {"loss": 0.12529417276382446, "token_acc": 0.949454200284765, "grad_norm": 0.4628011882305145, "learning_rate": 9.118917776786949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24292, "epoch": 0.9592956780242397, "step": 12585}, {"loss": 0.19715020656585694, "token_acc": 0.9165322580645161, "grad_norm": 0.6801323294639587, "learning_rate": 9.118238878736004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242939, "epoch": 0.9596768046344996, "step": 12590}, {"loss": 0.16272096633911132, "token_acc": 0.935361216730038, "grad_norm": 0.5149279236793518, "learning_rate": 9.117559744523172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242968, "epoch": 0.9600579312447595, "step": 12595}, {"loss": 0.09934694766998291, "token_acc": 0.9559386973180076, "grad_norm": 0.7931864857673645, "learning_rate": 9.116880374187395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242998, "epoch": 0.9604390578550195, "step": 12600}, {"eval_loss": 0.11736884713172913, "eval_token_acc": 0.945108728389856, "eval_runtime": 160.8089, "eval_samples_per_second": 3.296, "eval_steps_per_second": 3.296, "epoch": 0.9604390578550195, "step": 12600}, {"loss": 0.19204888343811036, "token_acc": 0.9445288359651138, "grad_norm": 0.4606764018535614, "learning_rate": 9.116200767767636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242283, "epoch": 0.9608201844652794, "step": 12605}, {"loss": 0.15200179815292358, "token_acc": 0.9323843416370107, "grad_norm": 1.0171664953231812, "learning_rate": 9.115520925302862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242317, "epoch": 0.9612013110755393, "step": 12610}, {"loss": 0.1556476831436157, "token_acc": 0.9403681290973273, "grad_norm": 0.8562371134757996, "learning_rate": 9.114840846832063e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242327, "epoch": 0.9615824376857992, "step": 12615}, {"loss": 0.1564452528953552, "token_acc": 0.9382213170400543, "grad_norm": 0.7140572667121887, "learning_rate": 9.114160532394235e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242344, "epoch": 0.9619635642960591, "step": 12620}, {"loss": 0.10607349872589111, "token_acc": 0.9530367717945186, "grad_norm": 0.536054253578186, "learning_rate": 9.113479982028392e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242356, "epoch": 0.9623446909063191, "step": 12625}, {"loss": 0.12701845169067383, "token_acc": 0.9432058584214809, "grad_norm": 1.4696619510650635, "learning_rate": 9.112799195773562e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242377, "epoch": 0.962725817516579, "step": 12630}, {"loss": 0.09789316654205323, "token_acc": 0.9566787003610109, "grad_norm": 1.049810767173767, "learning_rate": 9.112118173668784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242411, "epoch": 0.963106944126839, "step": 12635}, {"loss": 0.24358758926391602, "token_acc": 0.9136690647482014, "grad_norm": 2.4460391998291016, "learning_rate": 9.111436915753112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242438, "epoch": 0.9634880707370989, "step": 12640}, {"loss": 0.1291264057159424, "token_acc": 0.9537767756482526, "grad_norm": 1.1424875259399414, "learning_rate": 9.110755422065611e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242458, "epoch": 0.9638691973473588, "step": 12645}, {"loss": 0.22132444381713867, "token_acc": 0.9265114662960389, "grad_norm": 0.5858159065246582, "learning_rate": 9.110073692645363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24248, "epoch": 0.9642503239576187, "step": 12650}, {"loss": 0.1623238205909729, "token_acc": 0.9408872041798996, "grad_norm": 0.9348229169845581, "learning_rate": 9.109391727531463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242476, "epoch": 0.9646314505678787, "step": 12655}, {"loss": 0.21986565589904786, "token_acc": 0.9324947589098532, "grad_norm": 1.4766432046890259, "learning_rate": 9.108709526763016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2425, "epoch": 0.9650125771781386, "step": 12660}, {"loss": 0.18708276748657227, "token_acc": 0.9366827253957329, "grad_norm": 1.383824348449707, "learning_rate": 9.108027090379145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242518, "epoch": 0.9653937037883985, "step": 12665}, {"loss": 0.09474117755889892, "token_acc": 0.9607694637988489, "grad_norm": 1.3704112768173218, "learning_rate": 9.107344418418984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242525, "epoch": 0.9657748303986584, "step": 12670}, {"loss": 0.14071383476257324, "token_acc": 0.9421878358048571, "grad_norm": 1.1993939876556396, "learning_rate": 9.10666151092168e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242548, "epoch": 0.9661559570089183, "step": 12675}, {"loss": 0.1502423882484436, "token_acc": 0.9358552631578947, "grad_norm": 0.9820361137390137, "learning_rate": 9.105978367926396e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242567, "epoch": 0.9665370836191783, "step": 12680}, {"loss": 0.09964171051979065, "token_acc": 0.9600261054005548, "grad_norm": 0.6660642027854919, "learning_rate": 9.105294989472308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242586, "epoch": 0.9669182102294382, "step": 12685}, {"loss": 0.1763326644897461, "token_acc": 0.9477501480165779, "grad_norm": 1.3371837139129639, "learning_rate": 9.104611375598602e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242596, "epoch": 0.9672993368396982, "step": 12690}, {"loss": 0.14857335090637208, "token_acc": 0.9402325581395349, "grad_norm": 0.8384644389152527, "learning_rate": 9.103927526344482e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242619, "epoch": 0.9676804634499581, "step": 12695}, {"loss": 0.21381356716156005, "token_acc": 0.9041146216017634, "grad_norm": 0.9216745495796204, "learning_rate": 9.103243441749162e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242653, "epoch": 0.968061590060218, "step": 12700}, {"loss": 0.10878422260284423, "token_acc": 0.9571082670356278, "grad_norm": 1.0271165370941162, "learning_rate": 9.102559121851873e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242664, "epoch": 0.968442716670478, "step": 12705}, {"loss": 0.15361542701721193, "token_acc": 0.9438943894389439, "grad_norm": 0.9268117547035217, "learning_rate": 9.101874566691855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24269, "epoch": 0.9688238432807379, "step": 12710}, {"loss": 0.1676180362701416, "token_acc": 0.9165558510638298, "grad_norm": 0.15602844953536987, "learning_rate": 9.101189776308368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242723, "epoch": 0.9692049698909978, "step": 12715}, {"loss": 0.137641441822052, "token_acc": 0.9568965517241379, "grad_norm": 0.8222043514251709, "learning_rate": 9.100504750740677e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24274, "epoch": 0.9695860965012577, "step": 12720}, {"loss": 0.12060710191726684, "token_acc": 0.9425182481751825, "grad_norm": 0.40221932530403137, "learning_rate": 9.099819490028067e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242776, "epoch": 0.9699672231115176, "step": 12725}, {"loss": 0.1688591480255127, "token_acc": 0.9474062107341591, "grad_norm": 1.5900017023086548, "learning_rate": 9.099133994209837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242795, "epoch": 0.9703483497217775, "step": 12730}, {"loss": 0.12622933387756347, "token_acc": 0.9477977161500816, "grad_norm": 0.674226701259613, "learning_rate": 9.098448263325294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242802, "epoch": 0.9707294763320375, "step": 12735}, {"loss": 0.12346469163894654, "token_acc": 0.9631317315658657, "grad_norm": 0.5303128957748413, "learning_rate": 9.097762297413761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242821, "epoch": 0.9711106029422975, "step": 12740}, {"loss": 0.11265636682510376, "token_acc": 0.9571862540345548, "grad_norm": 0.5571014285087585, "learning_rate": 9.097076096514576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242822, "epoch": 0.9714917295525574, "step": 12745}, {"loss": 0.14302513599395753, "token_acc": 0.941367022999676, "grad_norm": 1.0209358930587769, "learning_rate": 9.096389660667091e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242852, "epoch": 0.9718728561628173, "step": 12750}, {"loss": 0.1385814905166626, "token_acc": 0.9496085409252669, "grad_norm": 0.6059298515319824, "learning_rate": 9.095702989910669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242867, "epoch": 0.9722539827730772, "step": 12755}, {"loss": 0.16359013319015503, "token_acc": 0.9422512234910277, "grad_norm": 0.9591848850250244, "learning_rate": 9.095016084284686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242882, "epoch": 0.9726351093833372, "step": 12760}, {"loss": 0.12806707620620728, "token_acc": 0.9471705992900397, "grad_norm": 0.9698325395584106, "learning_rate": 9.094328943828534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242905, "epoch": 0.9730162359935971, "step": 12765}, {"loss": 0.13033506870269776, "token_acc": 0.9460882192775458, "grad_norm": 1.2850149869918823, "learning_rate": 9.093641568581617e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242931, "epoch": 0.973397362603857, "step": 12770}, {"loss": 0.14732524156570434, "token_acc": 0.9439182915506036, "grad_norm": 1.2702388763427734, "learning_rate": 9.092953958583352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242954, "epoch": 0.9737784892141169, "step": 12775}, {"loss": 0.09388877749443054, "token_acc": 0.9460161662817552, "grad_norm": 1.1373991966247559, "learning_rate": 9.092266113873171e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242985, "epoch": 0.9741596158243768, "step": 12780}, {"loss": 0.13880642652511596, "token_acc": 0.9407204742362061, "grad_norm": 0.868877112865448, "learning_rate": 9.09157803449052e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243012, "epoch": 0.9745407424346367, "step": 12785}, {"loss": 0.1460828423500061, "token_acc": 0.9382174911292006, "grad_norm": 1.4632521867752075, "learning_rate": 9.090889720474856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243039, "epoch": 0.9749218690448967, "step": 12790}, {"loss": 0.14504342079162597, "token_acc": 0.9451922041563476, "grad_norm": 1.0088013410568237, "learning_rate": 9.09020117186565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243046, "epoch": 0.9753029956551567, "step": 12795}, {"loss": 0.13781250715255738, "token_acc": 0.9433322022395657, "grad_norm": 1.6049000024795532, "learning_rate": 9.089512388702388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243067, "epoch": 0.9756841222654166, "step": 12800}, {"eval_loss": 0.11753977090120316, "eval_token_acc": 0.9456358050719836, "eval_runtime": 157.412, "eval_samples_per_second": 3.367, "eval_steps_per_second": 3.367, "epoch": 0.9756841222654166, "step": 12800}, {"loss": 0.20663738250732422, "token_acc": 0.9450270873520912, "grad_norm": 1.3490016460418701, "learning_rate": 9.088823371024568e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242376, "epoch": 0.9760652488756765, "step": 12805}, {"loss": 0.13109879493713378, "token_acc": 0.9411356138218441, "grad_norm": 0.8341593146324158, "learning_rate": 9.088134118871702e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242396, "epoch": 0.9764463754859364, "step": 12810}, {"loss": 0.13605031967163086, "token_acc": 0.9483695652173914, "grad_norm": 0.6089208722114563, "learning_rate": 9.087444632283315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24242, "epoch": 0.9768275020961964, "step": 12815}, {"loss": 0.18811968564987183, "token_acc": 0.9230628988149499, "grad_norm": 1.1056259870529175, "learning_rate": 9.086754911298946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242446, "epoch": 0.9772086287064563, "step": 12820}, {"loss": 0.15532393455505372, "token_acc": 0.9351137487636004, "grad_norm": 1.0476961135864258, "learning_rate": 9.08606495595815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242469, "epoch": 0.9775897553167162, "step": 12825}, {"loss": 0.15314501523971558, "token_acc": 0.9534286762009534, "grad_norm": 1.5626649856567383, "learning_rate": 9.085374766300489e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242488, "epoch": 0.9779708819269761, "step": 12830}, {"loss": 0.1483892560005188, "token_acc": 0.9460101867572156, "grad_norm": 0.9460096955299377, "learning_rate": 9.084684342365544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242509, "epoch": 0.978352008537236, "step": 12835}, {"loss": 0.15346908569335938, "token_acc": 0.9366768897708821, "grad_norm": 0.9304004907608032, "learning_rate": 9.083993684192907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242529, "epoch": 0.978733135147496, "step": 12840}, {"loss": 0.1419435977935791, "token_acc": 0.9553813687066627, "grad_norm": 0.9307335615158081, "learning_rate": 9.083302791822184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242558, "epoch": 0.979114261757756, "step": 12845}, {"loss": 0.23424105644226073, "token_acc": 0.9054652880354506, "grad_norm": 1.736047387123108, "learning_rate": 9.082611665292995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24259, "epoch": 0.9794953883680159, "step": 12850}, {"loss": 0.14928051233291625, "token_acc": 0.9533396494552345, "grad_norm": 0.5830547213554382, "learning_rate": 9.081920304644973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242616, "epoch": 0.9798765149782758, "step": 12855}, {"loss": 0.12877252101898193, "token_acc": 0.9378228049264998, "grad_norm": 2.2217087745666504, "learning_rate": 9.081228709917764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242641, "epoch": 0.9802576415885357, "step": 12860}, {"loss": 0.17830157279968262, "token_acc": 0.9321659299557974, "grad_norm": 0.4636951684951782, "learning_rate": 9.080536881151027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24266, "epoch": 0.9806387681987956, "step": 12865}, {"loss": 0.138388991355896, "token_acc": 0.9357820481634639, "grad_norm": 1.1657698154449463, "learning_rate": 9.079844818384436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242689, "epoch": 0.9810198948090556, "step": 12870}, {"loss": 0.15551928281784058, "token_acc": 0.9359165424739195, "grad_norm": 0.8685896992683411, "learning_rate": 9.079152521657676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242717, "epoch": 0.9814010214193155, "step": 12875}, {"loss": 0.12114787101745605, "token_acc": 0.9606299212598425, "grad_norm": 0.7978358268737793, "learning_rate": 9.07845999101045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242748, "epoch": 0.9817821480295754, "step": 12880}, {"loss": 0.14338310956954955, "token_acc": 0.9326814591951862, "grad_norm": 0.8418326377868652, "learning_rate": 9.077767226482472e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24278, "epoch": 0.9821632746398353, "step": 12885}, {"loss": 0.17863924503326417, "token_acc": 0.929047131147541, "grad_norm": 0.8159209489822388, "learning_rate": 9.077074228113463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242805, "epoch": 0.9825444012500952, "step": 12890}, {"loss": 0.17117899656295776, "token_acc": 0.9308768154922001, "grad_norm": 0.5453921556472778, "learning_rate": 9.076380995943169e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242829, "epoch": 0.9829255278603553, "step": 12895}, {"loss": 0.14029661417007447, "token_acc": 0.9508733624454149, "grad_norm": 1.0200836658477783, "learning_rate": 9.07568753001134e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242857, "epoch": 0.9833066544706152, "step": 12900}, {"loss": 0.11890754699707032, "token_acc": 0.951346893897746, "grad_norm": 0.9157674908638, "learning_rate": 9.074993830357748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242862, "epoch": 0.9836877810808751, "step": 12905}, {"loss": 0.12556229829788207, "token_acc": 0.939961759082218, "grad_norm": 0.8744694590568542, "learning_rate": 9.074299897022167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242896, "epoch": 0.984068907691135, "step": 12910}, {"loss": 0.14889154434204102, "token_acc": 0.9409794225554314, "grad_norm": 0.8613981008529663, "learning_rate": 9.073605730044394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242915, "epoch": 0.9844500343013949, "step": 12915}, {"loss": 0.11992695331573486, "token_acc": 0.9549038935436176, "grad_norm": 1.2100050449371338, "learning_rate": 9.072911329464238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242941, "epoch": 0.9848311609116549, "step": 12920}, {"loss": 0.1055149793624878, "token_acc": 0.9600169240533107, "grad_norm": 0.44918274879455566, "learning_rate": 9.072216695321517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242962, "epoch": 0.9852122875219148, "step": 12925}, {"loss": 0.12806191444396972, "token_acc": 0.9515228831127411, "grad_norm": 1.1258149147033691, "learning_rate": 9.071521827656066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242973, "epoch": 0.9855934141321747, "step": 12930}, {"loss": 0.1328412413597107, "token_acc": 0.9544626593806922, "grad_norm": 0.8813290596008301, "learning_rate": 9.070826726507732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243007, "epoch": 0.9859745407424346, "step": 12935}, {"loss": 0.17557835578918457, "token_acc": 0.930705079605762, "grad_norm": 0.7307548522949219, "learning_rate": 9.070131391916376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243025, "epoch": 0.9863556673526945, "step": 12940}, {"loss": 0.13195364475250243, "token_acc": 0.954388389771942, "grad_norm": 1.7199678421020508, "learning_rate": 9.069435823921874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243055, "epoch": 0.9867367939629544, "step": 12945}, {"loss": 0.16090396642684937, "token_acc": 0.9381992541289291, "grad_norm": 1.5133916139602661, "learning_rate": 9.06874002256411e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243081, "epoch": 0.9871179205732145, "step": 12950}, {"loss": 0.19202930927276612, "token_acc": 0.9103042479908151, "grad_norm": 1.088442087173462, "learning_rate": 9.068043987882989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243098, "epoch": 0.9874990471834744, "step": 12955}, {"loss": 0.1846510052680969, "token_acc": 0.9356280733124721, "grad_norm": 1.1103661060333252, "learning_rate": 9.067347719918422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243112, "epoch": 0.9878801737937343, "step": 12960}, {"loss": 0.14351265430450438, "token_acc": 0.9527410207939508, "grad_norm": 0.6558491587638855, "learning_rate": 9.066651218710337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243139, "epoch": 0.9882613004039942, "step": 12965}, {"loss": 0.1753328800201416, "token_acc": 0.9383424862705941, "grad_norm": 1.186589241027832, "learning_rate": 9.065954484298678e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243163, "epoch": 0.9886424270142541, "step": 12970}, {"loss": 0.15498749017715455, "token_acc": 0.9519569268999792, "grad_norm": 0.7713607549667358, "learning_rate": 9.065257516723398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243183, "epoch": 0.9890235536245141, "step": 12975}, {"loss": 0.13800753355026246, "token_acc": 0.952803294266709, "grad_norm": 0.5007254481315613, "learning_rate": 9.064560316024462e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243193, "epoch": 0.989404680234774, "step": 12980}, {"loss": 0.14775224924087524, "token_acc": 0.946290395994538, "grad_norm": 1.283984899520874, "learning_rate": 9.063862882241856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243216, "epoch": 0.9897858068450339, "step": 12985}, {"loss": 0.11097780466079712, "token_acc": 0.9526174218911649, "grad_norm": 0.7066991925239563, "learning_rate": 9.06316521541557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243235, "epoch": 0.9901669334552938, "step": 12990}, {"loss": 0.20944910049438475, "token_acc": 0.9191530317613089, "grad_norm": 0.9233891367912292, "learning_rate": 9.062467315585616e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24327, "epoch": 0.9905480600655537, "step": 12995}, {"loss": 0.15398424863815308, "token_acc": 0.940550510783201, "grad_norm": 0.7900567054748535, "learning_rate": 9.061769182792015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243281, "epoch": 0.9909291866758138, "step": 13000}, {"eval_loss": 0.11379073560237885, "eval_token_acc": 0.9462758267574243, "eval_runtime": 159.7392, "eval_samples_per_second": 3.318, "eval_steps_per_second": 3.318, "epoch": 0.9909291866758138, "step": 13000}, {"loss": 0.149062442779541, "token_acc": 0.9460534493474207, "grad_norm": 1.4866052865982056, "learning_rate": 9.0610708170748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24258, "epoch": 0.9913103132860737, "step": 13005}, {"loss": 0.1529853105545044, "token_acc": 0.9418627644848725, "grad_norm": 0.9612509608268738, "learning_rate": 9.060372218474016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242603, "epoch": 0.9916914398963336, "step": 13010}, {"loss": 0.14684865474700928, "token_acc": 0.9452863295581433, "grad_norm": 0.7497698664665222, "learning_rate": 9.05967338702973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242616, "epoch": 0.9920725665065935, "step": 13015}, {"loss": 0.14794299602508545, "token_acc": 0.9421052631578948, "grad_norm": 1.25754976272583, "learning_rate": 9.058974322782015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242644, "epoch": 0.9924536931168534, "step": 13020}, {"loss": 0.2108780860900879, "token_acc": 0.9378743557598551, "grad_norm": 0.6167917847633362, "learning_rate": 9.058275025770956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242658, "epoch": 0.9928348197271133, "step": 13025}, {"loss": 0.1810707449913025, "token_acc": 0.9348845285639868, "grad_norm": 0.8814374208450317, "learning_rate": 9.057575496036661e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242675, "epoch": 0.9932159463373733, "step": 13030}, {"loss": 0.14560816287994385, "token_acc": 0.9625057155921354, "grad_norm": 0.5326366424560547, "learning_rate": 9.056875733619238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242696, "epoch": 0.9935970729476332, "step": 13035}, {"loss": 0.1773803114891052, "token_acc": 0.9274994227661049, "grad_norm": 0.6444352269172668, "learning_rate": 9.056175738558818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242722, "epoch": 0.9939781995578931, "step": 13040}, {"loss": 0.1321724534034729, "token_acc": 0.942737896494157, "grad_norm": 0.7549293637275696, "learning_rate": 9.055475510895543e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242737, "epoch": 0.994359326168153, "step": 13045}, {"loss": 0.14355943202972413, "token_acc": 0.9419802867383512, "grad_norm": 1.5126726627349854, "learning_rate": 9.054775050669566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242761, "epoch": 0.9947404527784129, "step": 13050}, {"loss": 0.18673934936523437, "token_acc": 0.9169354838709678, "grad_norm": 1.109665036201477, "learning_rate": 9.054074357921057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242793, "epoch": 0.995121579388673, "step": 13055}, {"loss": 0.10564805269241333, "token_acc": 0.9574468085106383, "grad_norm": 0.3576335906982422, "learning_rate": 9.053373432690197e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242818, "epoch": 0.9955027059989329, "step": 13060}, {"loss": 0.1497722625732422, "token_acc": 0.9382538770821367, "grad_norm": 0.9800400733947754, "learning_rate": 9.052672275017181e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242849, "epoch": 0.9958838326091928, "step": 13065}, {"loss": 0.12221091985702515, "token_acc": 0.9496090356211989, "grad_norm": 0.7127009034156799, "learning_rate": 9.051970884942216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24287, "epoch": 0.9962649592194527, "step": 13070}, {"loss": 0.16754279136657715, "token_acc": 0.9357743983463753, "grad_norm": 0.7085050344467163, "learning_rate": 9.051269262505524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242886, "epoch": 0.9966460858297126, "step": 13075}, {"loss": 0.10579663515090942, "token_acc": 0.9545211342964152, "grad_norm": 0.4136047065258026, "learning_rate": 9.05056740774734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242922, "epoch": 0.9970272124399726, "step": 13080}, {"loss": 0.14258871078491211, "token_acc": 0.9512245745122457, "grad_norm": 0.8508806228637695, "learning_rate": 9.049865320707914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242944, "epoch": 0.9974083390502325, "step": 13085}, {"loss": 0.10106058120727539, "token_acc": 0.9586235720256339, "grad_norm": 0.6361384391784668, "learning_rate": 9.049163001427503e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242961, "epoch": 0.9977894656604924, "step": 13090}, {"loss": 0.14365031719207763, "token_acc": 0.9433814916048419, "grad_norm": 0.6288278102874756, "learning_rate": 9.048460449946386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24298, "epoch": 0.9981705922707523, "step": 13095}, {"loss": 0.08960820436477661, "token_acc": 0.9526737967914438, "grad_norm": 0.7413514852523804, "learning_rate": 9.047757666304848e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242991, "epoch": 0.9985517188810122, "step": 13100}, {"loss": 0.15240256786346434, "token_acc": 0.9412811387900356, "grad_norm": 0.9728160500526428, "learning_rate": 9.047054650543193e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243008, "epoch": 0.9989328454912721, "step": 13105}, {"loss": 0.16470314264297486, "token_acc": 0.9415539766215907, "grad_norm": 0.6683516502380371, "learning_rate": 9.046351402701734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243033, "epoch": 0.9993139721015322, "step": 13110}, {"loss": 0.14240710735321044, "token_acc": 0.9549052869663557, "grad_norm": 0.5164461731910706, "learning_rate": 9.0456479228208e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243039, "epoch": 0.9996950987117921, "step": 13115}, {"loss": 0.18563666343688964, "token_acc": 0.9323958896700919, "grad_norm": 0.6638708114624023, "learning_rate": 9.044944210940729e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24307, "epoch": 1.000076225322052, "step": 13120}, {"loss": 0.10783932209014893, "token_acc": 0.9501797637390857, "grad_norm": 0.8887478113174438, "learning_rate": 9.044240267101882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243096, "epoch": 1.000457351932312, "step": 13125}, {"loss": 0.15447317361831664, "token_acc": 0.9359906213364596, "grad_norm": 0.8701349496841431, "learning_rate": 9.043536091344621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243124, "epoch": 1.000838478542572, "step": 13130}, {"loss": 0.15913857221603395, "token_acc": 0.9464746019711903, "grad_norm": 0.7305511832237244, "learning_rate": 9.04283168370933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24314, "epoch": 1.0012196051528317, "step": 13135}, {"loss": 0.13561135530471802, "token_acc": 0.9492924528301887, "grad_norm": 0.8776249885559082, "learning_rate": 9.042127044236403e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243158, "epoch": 1.0016007317630917, "step": 13140}, {"loss": 0.1536510705947876, "token_acc": 0.9460507757404796, "grad_norm": 1.4002827405929565, "learning_rate": 9.041422172966247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243191, "epoch": 1.0019818583733515, "step": 13145}, {"loss": 0.11698276996612549, "token_acc": 0.9457159069415547, "grad_norm": 1.39417564868927, "learning_rate": 9.040717069939286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24321, "epoch": 1.0023629849836115, "step": 13150}, {"loss": 0.16960211992263793, "token_acc": 0.9252684637300022, "grad_norm": 0.3120267391204834, "learning_rate": 9.04001173519595e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243237, "epoch": 1.0027441115938716, "step": 13155}, {"loss": 0.12895805835723878, "token_acc": 0.9584788513775708, "grad_norm": 0.5013481378555298, "learning_rate": 9.03930616877669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243259, "epoch": 1.0031252382041314, "step": 13160}, {"loss": 0.17277244329452515, "token_acc": 0.9431674665319525, "grad_norm": 1.1895321607589722, "learning_rate": 9.038600370721966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243284, "epoch": 1.0035063648143914, "step": 13165}, {"loss": 0.12657909393310546, "token_acc": 0.949971081550029, "grad_norm": 0.8038957118988037, "learning_rate": 9.03789434107225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243311, "epoch": 1.0038874914246512, "step": 13170}, {"loss": 0.10776898860931397, "token_acc": 0.9546599496221663, "grad_norm": 0.27494892477989197, "learning_rate": 9.037188079868035e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243339, "epoch": 1.0042686180349112, "step": 13175}, {"loss": 0.14088907241821289, "token_acc": 0.9186949766960124, "grad_norm": 1.2263998985290527, "learning_rate": 9.036481587149816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243374, "epoch": 1.0046497446451712, "step": 13180}, {"loss": 0.11438615322113037, "token_acc": 0.9485744737543299, "grad_norm": 59.28468322753906, "learning_rate": 9.035774862958111e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2434, "epoch": 1.005030871255431, "step": 13185}, {"loss": 0.17062005996704102, "token_acc": 0.9296903910201061, "grad_norm": 0.6580718159675598, "learning_rate": 9.035067907333446e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243402, "epoch": 1.005411997865691, "step": 13190}, {"loss": 0.16813061237335206, "token_acc": 0.9432911392405063, "grad_norm": 1.9844533205032349, "learning_rate": 9.03436072031636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243429, "epoch": 1.0057931244759508, "step": 13195}, {"loss": 0.08492686748504638, "token_acc": 0.9628831814415907, "grad_norm": 0.4521082639694214, "learning_rate": 9.03365330194741e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243442, "epoch": 1.0061742510862108, "step": 13200}, {"eval_loss": 0.1140500158071518, "eval_token_acc": 0.9459595807481477, "eval_runtime": 161.2966, "eval_samples_per_second": 3.286, "eval_steps_per_second": 3.286, "epoch": 1.0061742510862108, "step": 13200}, {"loss": 0.12711071968078613, "token_acc": 0.9461722317859125, "grad_norm": 0.5249303579330444, "learning_rate": 9.03294565226716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242723, "epoch": 1.0065553776964709, "step": 13205}, {"loss": 0.1343394160270691, "token_acc": 0.9535687824154112, "grad_norm": 0.7792975902557373, "learning_rate": 9.032237771316193e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242752, "epoch": 1.0069365043067307, "step": 13210}, {"loss": 0.1373907208442688, "token_acc": 0.9434825870646766, "grad_norm": 0.5957159399986267, "learning_rate": 9.031529659135101e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242772, "epoch": 1.0073176309169907, "step": 13215}, {"loss": 0.13840944766998292, "token_acc": 0.9344709897610921, "grad_norm": 1.5517845153808594, "learning_rate": 9.030821315764493e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242804, "epoch": 1.0076987575272505, "step": 13220}, {"loss": 0.1246480941772461, "token_acc": 0.9604140439222268, "grad_norm": 0.5660856366157532, "learning_rate": 9.030112741244987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242822, "epoch": 1.0080798841375105, "step": 13225}, {"loss": 0.10962262153625488, "token_acc": 0.9449580735325737, "grad_norm": 1.0082930326461792, "learning_rate": 9.029403935617218e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242846, "epoch": 1.0084610107477705, "step": 13230}, {"loss": 0.17590911388397218, "token_acc": 0.9146230699364214, "grad_norm": 1.0502551794052124, "learning_rate": 9.02869489892183e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242881, "epoch": 1.0088421373580303, "step": 13235}, {"loss": 0.1284429430961609, "token_acc": 0.9492310933220982, "grad_norm": 0.9352285861968994, "learning_rate": 9.027985631199487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2429, "epoch": 1.0092232639682903, "step": 13240}, {"loss": 0.1310176134109497, "token_acc": 0.9491150442477876, "grad_norm": 0.5141494870185852, "learning_rate": 9.02727613249086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242918, "epoch": 1.0096043905785501, "step": 13245}, {"loss": 0.11778910160064697, "token_acc": 0.9528529332976159, "grad_norm": 1.0539319515228271, "learning_rate": 9.026566402836634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242942, "epoch": 1.0099855171888101, "step": 13250}, {"loss": 0.19528688192367555, "token_acc": 0.9256484149855908, "grad_norm": 1.0462214946746826, "learning_rate": 9.025856442277512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242964, "epoch": 1.0103666437990702, "step": 13255}, {"loss": 0.13569742441177368, "token_acc": 0.9524520786656709, "grad_norm": 1.0990525484085083, "learning_rate": 9.025146250854204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242974, "epoch": 1.01074777040933, "step": 13260}, {"loss": 0.1402994155883789, "token_acc": 0.9566722618548049, "grad_norm": 0.7722269296646118, "learning_rate": 9.024435828607439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242973, "epoch": 1.01112889701959, "step": 13265}, {"loss": 0.11814293861389161, "token_acc": 0.946689232071081, "grad_norm": 1.4359697103500366, "learning_rate": 9.023725175577955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242992, "epoch": 1.0115100236298498, "step": 13270}, {"loss": 0.12027857303619385, "token_acc": 0.9551998389207692, "grad_norm": 0.5311808586120605, "learning_rate": 9.023014291806503e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242988, "epoch": 1.0118911502401098, "step": 13275}, {"loss": 0.1370632290840149, "token_acc": 0.9468209443665264, "grad_norm": 0.6212030649185181, "learning_rate": 9.022303177333851e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242999, "epoch": 1.0122722768503698, "step": 13280}, {"loss": 0.09242379665374756, "token_acc": 0.9550517104216388, "grad_norm": 0.5942872762680054, "learning_rate": 9.021591832200778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243014, "epoch": 1.0126534034606296, "step": 13285}, {"loss": 0.12993178367614747, "token_acc": 0.956109496864964, "grad_norm": 0.5524414777755737, "learning_rate": 9.020880256448075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243027, "epoch": 1.0130345300708896, "step": 13290}, {"loss": 0.11526881456375122, "token_acc": 0.9517369727047147, "grad_norm": 0.5235651731491089, "learning_rate": 9.020168450116549e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243039, "epoch": 1.0134156566811494, "step": 13295}, {"loss": 0.12882033586502076, "token_acc": 0.9535859269282815, "grad_norm": 0.8513157963752747, "learning_rate": 9.019456413247019e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243052, "epoch": 1.0137967832914094, "step": 13300}, {"loss": 0.15540637969970703, "token_acc": 0.9312883435582822, "grad_norm": 1.1090227365493774, "learning_rate": 9.018744145880316e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243078, "epoch": 1.0141779099016692, "step": 13305}, {"loss": 0.11464146375656128, "token_acc": 0.9619089316987741, "grad_norm": 0.7994403839111328, "learning_rate": 9.018031648057283e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243105, "epoch": 1.0145590365119292, "step": 13310}, {"loss": 0.1328161120414734, "token_acc": 0.9442259563818377, "grad_norm": 1.1008329391479492, "learning_rate": 9.017318919818784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243136, "epoch": 1.0149401631221893, "step": 13315}, {"loss": 0.13819352388381959, "token_acc": 0.9490605427974947, "grad_norm": 1.126471996307373, "learning_rate": 9.016605961205686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243167, "epoch": 1.015321289732449, "step": 13320}, {"loss": 0.14500752687454224, "token_acc": 0.9495431068732618, "grad_norm": 0.3152206242084503, "learning_rate": 9.015892772258876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243197, "epoch": 1.015702416342709, "step": 13325}, {"loss": 0.18771822452545167, "token_acc": 0.932094943240454, "grad_norm": 1.2332167625427246, "learning_rate": 9.015179353019252e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243216, "epoch": 1.0160835429529689, "step": 13330}, {"loss": 0.18234039545059205, "token_acc": 0.9225554106910039, "grad_norm": 1.695331335067749, "learning_rate": 9.014465703527724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243242, "epoch": 1.016464669563229, "step": 13335}, {"loss": 0.09690825939178467, "token_acc": 0.9511137688742712, "grad_norm": 0.54533451795578, "learning_rate": 9.013751823825218e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243261, "epoch": 1.016845796173489, "step": 13340}, {"loss": 0.09796565771102905, "token_acc": 0.9516716319099636, "grad_norm": 0.8418424129486084, "learning_rate": 9.01303771395267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24329, "epoch": 1.0172269227837487, "step": 13345}, {"loss": 0.1392220973968506, "token_acc": 0.9399915182357931, "grad_norm": 1.126841425895691, "learning_rate": 9.012323373951032e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243313, "epoch": 1.0176080493940087, "step": 13350}, {"loss": 0.12688040733337402, "token_acc": 0.9531675440188782, "grad_norm": 0.894351601600647, "learning_rate": 9.011608803861268e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243332, "epoch": 1.0179891760042685, "step": 13355}, {"loss": 0.11399437189102173, "token_acc": 0.9510022271714922, "grad_norm": 1.2176145315170288, "learning_rate": 9.010894003724357e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243359, "epoch": 1.0183703026145285, "step": 13360}, {"loss": 0.15052452087402343, "token_acc": 0.9456114028507127, "grad_norm": 0.8465023636817932, "learning_rate": 9.010178973581287e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243394, "epoch": 1.0187514292247886, "step": 13365}, {"loss": 0.129919695854187, "token_acc": 0.940236275191105, "grad_norm": 0.8254810571670532, "learning_rate": 9.00946371347306e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243425, "epoch": 1.0191325558350484, "step": 13370}, {"loss": 0.15339882373809816, "token_acc": 0.9417758369723436, "grad_norm": 0.6567272543907166, "learning_rate": 9.008748223440697e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243439, "epoch": 1.0195136824453084, "step": 13375}, {"loss": 0.1255262851715088, "token_acc": 0.9579896907216495, "grad_norm": 0.8173088431358337, "learning_rate": 9.008032503525227e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243466, "epoch": 1.0198948090555682, "step": 13380}, {"loss": 0.17698462009429933, "token_acc": 0.9510851602952517, "grad_norm": 1.875491976737976, "learning_rate": 9.007316553767691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243471, "epoch": 1.0202759356658282, "step": 13385}, {"loss": 0.14281053543090821, "token_acc": 0.9430399025281755, "grad_norm": 0.7572685480117798, "learning_rate": 9.006600374209149e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243499, "epoch": 1.0206570622760882, "step": 13390}, {"loss": 0.15240601301193238, "token_acc": 0.9403085177733065, "grad_norm": 1.0179612636566162, "learning_rate": 9.005883964890666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243517, "epoch": 1.021038188886348, "step": 13395}, {"loss": 0.15707879066467284, "token_acc": 0.9370748299319728, "grad_norm": 1.1154353618621826, "learning_rate": 9.005167325853328e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243541, "epoch": 1.021419315496608, "step": 13400}, {"eval_loss": 0.11693435907363892, "eval_token_acc": 0.9461252334196735, "eval_runtime": 160.762, "eval_samples_per_second": 3.297, "eval_steps_per_second": 3.297, "epoch": 1.021419315496608, "step": 13400}, {"loss": 0.12977230548858643, "token_acc": 0.9463530195896603, "grad_norm": 0.7211269736289978, "learning_rate": 9.004450457138231e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242851, "epoch": 1.0218004421068678, "step": 13405}, {"loss": 0.11355311870574951, "token_acc": 0.9634649381261049, "grad_norm": 1.0241775512695312, "learning_rate": 9.003733358786483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24288, "epoch": 1.0221815687171278, "step": 13410}, {"loss": 0.14380919933319092, "token_acc": 0.9430281534027932, "grad_norm": 0.6859497427940369, "learning_rate": 9.003016030839205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2429, "epoch": 1.0225626953273879, "step": 13415}, {"loss": 0.14033219814300538, "token_acc": 0.9255184088023699, "grad_norm": 1.180594801902771, "learning_rate": 9.002298473337535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242933, "epoch": 1.0229438219376477, "step": 13420}, {"loss": 0.1468792200088501, "token_acc": 0.9432612029306526, "grad_norm": 1.17043137550354, "learning_rate": 9.00158068632262e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242947, "epoch": 1.0233249485479077, "step": 13425}, {"loss": 0.15820050239562988, "token_acc": 0.9271895152902018, "grad_norm": 0.9427582025527954, "learning_rate": 9.000862669835624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242968, "epoch": 1.0237060751581675, "step": 13430}, {"loss": 0.135398006439209, "token_acc": 0.9559393156875403, "grad_norm": 1.3545323610305786, "learning_rate": 9.000144423917718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242987, "epoch": 1.0240872017684275, "step": 13435}, {"loss": 0.18731287717819214, "token_acc": 0.9419390428906358, "grad_norm": 0.6405087113380432, "learning_rate": 8.999425948610093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242996, "epoch": 1.0244683283786875, "step": 13440}, {"loss": 0.13950384855270387, "token_acc": 0.9544454225352113, "grad_norm": 0.754671573638916, "learning_rate": 8.998707243953949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243003, "epoch": 1.0248494549889473, "step": 13445}, {"loss": 0.15849127769470214, "token_acc": 0.9339890296954795, "grad_norm": 0.8181285262107849, "learning_rate": 8.997988309990501e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243023, "epoch": 1.0252305815992073, "step": 13450}, {"loss": 0.13048157691955567, "token_acc": 0.9372661870503597, "grad_norm": 0.8961131572723389, "learning_rate": 8.997269146760976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243048, "epoch": 1.0256117082094671, "step": 13455}, {"loss": 0.133545184135437, "token_acc": 0.9448340345956054, "grad_norm": 1.0455275774002075, "learning_rate": 8.996549754306615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243085, "epoch": 1.0259928348197271, "step": 13460}, {"loss": 0.12568373680114747, "token_acc": 0.948565482384421, "grad_norm": 0.566551923751831, "learning_rate": 8.995830132668674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243104, "epoch": 1.026373961429987, "step": 13465}, {"loss": 0.1739397406578064, "token_acc": 0.9298029556650246, "grad_norm": 1.247444987297058, "learning_rate": 8.995110281888416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243127, "epoch": 1.026755088040247, "step": 13470}, {"loss": 0.10171937942504883, "token_acc": 0.95, "grad_norm": 0.8384561538696289, "learning_rate": 8.994390202007124e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243157, "epoch": 1.027136214650507, "step": 13475}, {"loss": 0.09824130535125733, "token_acc": 0.9593291958272812, "grad_norm": 0.4667125344276428, "learning_rate": 8.993669893066088e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243173, "epoch": 1.0275173412607668, "step": 13480}, {"loss": 0.14350948333740235, "token_acc": 0.9425333068204415, "grad_norm": 0.8166374564170837, "learning_rate": 8.992949355106619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243197, "epoch": 1.0278984678710268, "step": 13485}, {"loss": 0.1368964672088623, "token_acc": 0.9545454545454546, "grad_norm": 1.6082546710968018, "learning_rate": 8.992228588170032e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243222, "epoch": 1.0282795944812866, "step": 13490}, {"loss": 0.14596915245056152, "token_acc": 0.9421871841520113, "grad_norm": 0.9413194060325623, "learning_rate": 8.991507592297663e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243247, "epoch": 1.0286607210915466, "step": 13495}, {"loss": 0.109859037399292, "token_acc": 0.9625079974408189, "grad_norm": 0.6232536435127258, "learning_rate": 8.990786367530856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243249, "epoch": 1.0290418477018066, "step": 13500}, {"loss": 0.14309734106063843, "token_acc": 0.9467871485943775, "grad_norm": 0.7154970169067383, "learning_rate": 8.99006491391097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243268, "epoch": 1.0294229743120664, "step": 13505}, {"loss": 0.1301755428314209, "token_acc": 0.9507859281437125, "grad_norm": 1.215544581413269, "learning_rate": 8.989343231479377e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243283, "epoch": 1.0298041009223264, "step": 13510}, {"loss": 0.12737114429473878, "token_acc": 0.947353027200936, "grad_norm": 1.1776058673858643, "learning_rate": 8.988621320277463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243315, "epoch": 1.0301852275325862, "step": 13515}, {"loss": 0.16982563734054565, "token_acc": 0.93134684147795, "grad_norm": 3.1133933067321777, "learning_rate": 8.987899180346625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243345, "epoch": 1.0305663541428463, "step": 13520}, {"loss": 0.11491932868957519, "token_acc": 0.9483721826237719, "grad_norm": 1.10660982131958, "learning_rate": 8.987176811728277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243367, "epoch": 1.0309474807531063, "step": 13525}, {"loss": 0.14321138858795165, "token_acc": 0.9523390526470157, "grad_norm": 0.7260339260101318, "learning_rate": 8.986454214463842e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243385, "epoch": 1.031328607363366, "step": 13530}, {"loss": 0.09017077684402466, "token_acc": 0.9629013079667063, "grad_norm": 0.5288922786712646, "learning_rate": 8.985731388594755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243413, "epoch": 1.031709733973626, "step": 13535}, {"loss": 0.15156651735305787, "token_acc": 0.9346608587429994, "grad_norm": 2.512619972229004, "learning_rate": 8.98500833416247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243439, "epoch": 1.0320908605838859, "step": 13540}, {"loss": 0.14731051921844482, "token_acc": 0.9429579535430755, "grad_norm": 1.079639196395874, "learning_rate": 8.984285051208449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24347, "epoch": 1.032471987194146, "step": 13545}, {"loss": 0.14867217540740968, "token_acc": 0.945613338626439, "grad_norm": 0.7776508331298828, "learning_rate": 8.98356153977417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243481, "epoch": 1.032853113804406, "step": 13550}, {"loss": 0.12658956050872802, "token_acc": 0.9404239068168799, "grad_norm": 0.8485033512115479, "learning_rate": 8.982837799901124e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243503, "epoch": 1.0332342404146657, "step": 13555}, {"loss": 0.20261495113372802, "token_acc": 0.9464012251148545, "grad_norm": 2.018871545791626, "learning_rate": 8.982113831630812e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243528, "epoch": 1.0336153670249257, "step": 13560}, {"loss": 0.1104088306427002, "token_acc": 0.9462447579107892, "grad_norm": 1.4046076536178589, "learning_rate": 8.981389635004749e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243559, "epoch": 1.0339964936351855, "step": 13565}, {"loss": 0.07407600283622742, "token_acc": 0.9617224880382775, "grad_norm": 0.9755273461341858, "learning_rate": 8.98066521006447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243582, "epoch": 1.0343776202454456, "step": 13570}, {"loss": 0.11751409769058227, "token_acc": 0.9573117338003503, "grad_norm": 0.8309898376464844, "learning_rate": 8.97994055685151e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243602, "epoch": 1.0347587468557056, "step": 13575}, {"loss": 0.14962058067321776, "token_acc": 0.939297124600639, "grad_norm": 1.7204824686050415, "learning_rate": 8.97921567540743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243624, "epoch": 1.0351398734659654, "step": 13580}, {"loss": 0.14077852964401244, "token_acc": 0.9554995801847187, "grad_norm": 1.1543312072753906, "learning_rate": 8.978490565773798e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243646, "epoch": 1.0355210000762254, "step": 13585}, {"loss": 0.12712208032608033, "token_acc": 0.9386213408876298, "grad_norm": 0.7658385038375854, "learning_rate": 8.977765227992192e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243676, "epoch": 1.0359021266864852, "step": 13590}, {"loss": 0.2031987190246582, "token_acc": 0.9162072767364939, "grad_norm": 0.8528062701225281, "learning_rate": 8.977039662104211e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243712, "epoch": 1.0362832532967452, "step": 13595}, {"loss": 0.16884269714355468, "token_acc": 0.9259622456484432, "grad_norm": 1.5451500415802002, "learning_rate": 8.97631386815146e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243736, "epoch": 1.036664379907005, "step": 13600}, {"eval_loss": 0.1134137436747551, "eval_token_acc": 0.9462833564243118, "eval_runtime": 158.0854, "eval_samples_per_second": 3.353, "eval_steps_per_second": 3.353, "epoch": 1.036664379907005, "step": 13600}, {"loss": 0.11757107973098754, "token_acc": 0.9465571295866233, "grad_norm": 0.8775653839111328, "learning_rate": 8.975587846175563e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243069, "epoch": 1.037045506517265, "step": 13605}, {"loss": 0.12389830350875855, "token_acc": 0.9472337703869523, "grad_norm": 0.8536204695701599, "learning_rate": 8.97486159621815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243099, "epoch": 1.037426633127525, "step": 13610}, {"loss": 0.12852122783660888, "token_acc": 0.9492719586660404, "grad_norm": 1.0681958198547363, "learning_rate": 8.97413511832087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243111, "epoch": 1.0378077597377848, "step": 13615}, {"loss": 0.13967133760452272, "token_acc": 0.9421415153412649, "grad_norm": 0.701020359992981, "learning_rate": 8.973408412525385e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243125, "epoch": 1.0381888863480448, "step": 13620}, {"loss": 0.13783787488937377, "token_acc": 0.9483410331793364, "grad_norm": 0.5792496204376221, "learning_rate": 8.972681478873365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243159, "epoch": 1.0385700129583046, "step": 13625}, {"loss": 0.1697959303855896, "token_acc": 0.9397717666948436, "grad_norm": 1.1490252017974854, "learning_rate": 8.971954317406498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243184, "epoch": 1.0389511395685647, "step": 13630}, {"loss": 0.13800439834594727, "token_acc": 0.9437381660806059, "grad_norm": 0.9637802839279175, "learning_rate": 8.971226928166484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243213, "epoch": 1.0393322661788247, "step": 13635}, {"loss": 0.15870745182037355, "token_acc": 0.9407481797639969, "grad_norm": 1.467260718345642, "learning_rate": 8.970499311195034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243242, "epoch": 1.0397133927890845, "step": 13640}, {"loss": 0.13408082723617554, "token_acc": 0.9406494960806271, "grad_norm": 0.8862055540084839, "learning_rate": 8.969771466533871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243258, "epoch": 1.0400945193993445, "step": 13645}, {"loss": 0.10010493993759155, "token_acc": 0.9520036223681232, "grad_norm": 0.9647778272628784, "learning_rate": 8.96904339422474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243281, "epoch": 1.0404756460096043, "step": 13650}, {"loss": 0.12826627492904663, "token_acc": 0.937682312383983, "grad_norm": 1.5681296586990356, "learning_rate": 8.968315094309387e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243306, "epoch": 1.0408567726198643, "step": 13655}, {"loss": 0.12088322639465332, "token_acc": 0.9491942092324501, "grad_norm": 0.8008802533149719, "learning_rate": 8.96758656682958e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24333, "epoch": 1.0412378992301243, "step": 13660}, {"loss": 0.12159066200256348, "token_acc": 0.95357095883204, "grad_norm": 0.9233777523040771, "learning_rate": 8.966857811827094e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24334, "epoch": 1.0416190258403841, "step": 13665}, {"loss": 0.17538166046142578, "token_acc": 0.9310431293881645, "grad_norm": 1.7468844652175903, "learning_rate": 8.966128829343721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243365, "epoch": 1.0420001524506441, "step": 13670}, {"loss": 0.07961732149124146, "token_acc": 0.9574803149606299, "grad_norm": 0.9375073909759521, "learning_rate": 8.965399619421267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24339, "epoch": 1.042381279060904, "step": 13675}, {"loss": 0.11720694303512573, "token_acc": 0.9463044851547694, "grad_norm": 1.428511619567871, "learning_rate": 8.964670182101544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243418, "epoch": 1.042762405671164, "step": 13680}, {"loss": 0.1352558970451355, "token_acc": 0.9495377074746575, "grad_norm": 0.8822304606437683, "learning_rate": 8.963940517426385e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243417, "epoch": 1.043143532281424, "step": 13685}, {"loss": 0.15498522520065308, "token_acc": 0.9524733268671193, "grad_norm": 1.4004019498825073, "learning_rate": 8.963210625437632e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243441, "epoch": 1.0435246588916838, "step": 13690}, {"loss": 0.14953227043151857, "token_acc": 0.9458939264328486, "grad_norm": 0.7472198605537415, "learning_rate": 8.96248050617714e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24346, "epoch": 1.0439057855019438, "step": 13695}, {"loss": 0.12039797306060791, "token_acc": 0.9536068651112899, "grad_norm": 1.3499114513397217, "learning_rate": 8.961750159686782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243485, "epoch": 1.0442869121122036, "step": 13700}, {"loss": 0.14435898065567015, "token_acc": 0.9399815327793167, "grad_norm": 0.9894657135009766, "learning_rate": 8.961019586008435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243504, "epoch": 1.0446680387224636, "step": 13705}, {"loss": 0.11741418838500976, "token_acc": 0.9460138104205901, "grad_norm": 0.6942718625068665, "learning_rate": 8.960288785183997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24353, "epoch": 1.0450491653327236, "step": 13710}, {"loss": 0.21252524852752686, "token_acc": 0.9420043127908296, "grad_norm": 0.8321689367294312, "learning_rate": 8.959557757255375e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243549, "epoch": 1.0454302919429834, "step": 13715}, {"loss": 0.1004792332649231, "token_acc": 0.9627896613190731, "grad_norm": 1.1780673265457153, "learning_rate": 8.95882650226449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243571, "epoch": 1.0458114185532434, "step": 13720}, {"loss": 0.092930269241333, "token_acc": 0.9592657782247925, "grad_norm": 1.1518492698669434, "learning_rate": 8.958095020253277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243595, "epoch": 1.0461925451635032, "step": 13725}, {"loss": 0.13908870220184327, "token_acc": 0.9449851042701093, "grad_norm": 0.7837052345275879, "learning_rate": 8.957363311263682e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24362, "epoch": 1.0465736717737633, "step": 13730}, {"loss": 0.1276944398880005, "token_acc": 0.9389770723104056, "grad_norm": 1.083979606628418, "learning_rate": 8.956631375337665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24365, "epoch": 1.0469547983840233, "step": 13735}, {"loss": 0.09670544862747192, "token_acc": 0.9632058287795993, "grad_norm": 0.7969292998313904, "learning_rate": 8.9558992125172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243671, "epoch": 1.047335924994283, "step": 13740}, {"loss": 0.13300952911376954, "token_acc": 0.944616853664359, "grad_norm": 0.7863472700119019, "learning_rate": 8.955166822844274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243696, "epoch": 1.047717051604543, "step": 13745}, {"loss": 0.10193939208984375, "token_acc": 0.9538761368557818, "grad_norm": 1.2049895524978638, "learning_rate": 8.954434206360884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243723, "epoch": 1.048098178214803, "step": 13750}, {"loss": 0.17364826202392578, "token_acc": 0.9324018902814876, "grad_norm": 1.3849700689315796, "learning_rate": 8.953701363109042e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243749, "epoch": 1.048479304825063, "step": 13755}, {"loss": 0.11265556812286377, "token_acc": 0.9510081358330386, "grad_norm": 0.8267444968223572, "learning_rate": 8.952968293130774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243765, "epoch": 1.048860431435323, "step": 13760}, {"loss": 0.16342424154281615, "token_acc": 0.9317387798978769, "grad_norm": 0.925733745098114, "learning_rate": 8.95223499646812e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243793, "epoch": 1.0492415580455827, "step": 13765}, {"loss": 0.1494942545890808, "token_acc": 0.9489919844547, "grad_norm": 0.797872006893158, "learning_rate": 8.951501473163129e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243822, "epoch": 1.0496226846558427, "step": 13770}, {"loss": 0.16833198070526123, "token_acc": 0.9272308198880475, "grad_norm": 1.821158528327942, "learning_rate": 8.950767723257867e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243851, "epoch": 1.0500038112661025, "step": 13775}, {"loss": 0.13624104261398315, "token_acc": 0.9484106305367379, "grad_norm": 0.7974928021430969, "learning_rate": 8.950033746794409e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243858, "epoch": 1.0503849378763626, "step": 13780}, {"loss": 0.1357928156852722, "token_acc": 0.9439864722046079, "grad_norm": 0.9187918901443481, "learning_rate": 8.949299543814844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243882, "epoch": 1.0507660644866224, "step": 13785}, {"loss": 0.1301784634590149, "token_acc": 0.9540005575689992, "grad_norm": 0.7949797511100769, "learning_rate": 8.94856511436128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243908, "epoch": 1.0511471910968824, "step": 13790}, {"loss": 0.10907024145126343, "token_acc": 0.9495798319327731, "grad_norm": 0.05753763020038605, "learning_rate": 8.94783045847583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24393, "epoch": 1.0515283177071424, "step": 13795}, {"loss": 0.12767888307571412, "token_acc": 0.9526031434184676, "grad_norm": 0.9887524843215942, "learning_rate": 8.947095576200621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243952, "epoch": 1.0519094443174022, "step": 13800}, {"eval_loss": 0.11490591615438461, "eval_token_acc": 0.9462381784229865, "eval_runtime": 160.0928, "eval_samples_per_second": 3.311, "eval_steps_per_second": 3.311, "epoch": 1.0519094443174022, "step": 13800}, {"loss": 0.14066786766052247, "token_acc": 0.9462167150013182, "grad_norm": 1.1243432760238647, "learning_rate": 8.946360467577799e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24329, "epoch": 1.0522905709276622, "step": 13805}, {"loss": 0.12184176445007325, "token_acc": 0.9519650655021834, "grad_norm": 1.9596192836761475, "learning_rate": 8.945625132649518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243325, "epoch": 1.052671697537922, "step": 13810}, {"loss": 0.1344318151473999, "token_acc": 0.9370733155238943, "grad_norm": 0.831046998500824, "learning_rate": 8.944889571457944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243346, "epoch": 1.053052824148182, "step": 13815}, {"loss": 0.13695544004440308, "token_acc": 0.9485861182519281, "grad_norm": 0.572076678276062, "learning_rate": 8.944153784045262e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243376, "epoch": 1.053433950758442, "step": 13820}, {"loss": 0.15187511444091797, "token_acc": 0.9423661800486618, "grad_norm": 0.5379874110221863, "learning_rate": 8.943417770453662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243388, "epoch": 1.0538150773687018, "step": 13825}, {"loss": 0.19357091188430786, "token_acc": 0.932656023222061, "grad_norm": 1.014495611190796, "learning_rate": 8.942681530725352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243416, "epoch": 1.0541962039789619, "step": 13830}, {"loss": 0.15310170650482177, "token_acc": 0.9466460799451021, "grad_norm": 0.47639355063438416, "learning_rate": 8.941945064902553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243432, "epoch": 1.0545773305892217, "step": 13835}, {"loss": 0.13954622745513917, "token_acc": 0.9377431906614786, "grad_norm": 0.8637543320655823, "learning_rate": 8.941208373027498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243458, "epoch": 1.0549584571994817, "step": 13840}, {"loss": 0.14207327365875244, "token_acc": 0.9513824168996583, "grad_norm": 0.7267767190933228, "learning_rate": 8.940471455142432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243474, "epoch": 1.0553395838097417, "step": 13845}, {"loss": 0.15841224193572997, "token_acc": 0.9506980802792321, "grad_norm": 0.7471698522567749, "learning_rate": 8.939734311289614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243486, "epoch": 1.0557207104200015, "step": 13850}, {"loss": 0.08919198513031006, "token_acc": 0.9586956521739131, "grad_norm": 1.390010952949524, "learning_rate": 8.938996941511316e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243514, "epoch": 1.0561018370302615, "step": 13855}, {"loss": 0.13083903789520263, "token_acc": 0.9539399412960036, "grad_norm": 1.0175960063934326, "learning_rate": 8.938259345849822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243533, "epoch": 1.0564829636405213, "step": 13860}, {"loss": 0.15616945028305054, "token_acc": 0.941733160141028, "grad_norm": 0.5142428278923035, "learning_rate": 8.937521524347432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243546, "epoch": 1.0568640902507813, "step": 13865}, {"loss": 0.11118948459625244, "token_acc": 0.9517506404782238, "grad_norm": 1.099473237991333, "learning_rate": 8.936783477046453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243567, "epoch": 1.0572452168610413, "step": 13870}, {"loss": 0.1440316319465637, "token_acc": 0.9414990859232175, "grad_norm": 0.9400036334991455, "learning_rate": 8.93604520398921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243591, "epoch": 1.0576263434713011, "step": 13875}, {"loss": 0.11485897302627564, "token_acc": 0.9565094871313169, "grad_norm": 0.4430847465991974, "learning_rate": 8.935306705218041e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243604, "epoch": 1.0580074700815612, "step": 13880}, {"loss": 0.15391680002212524, "token_acc": 0.9308956725930896, "grad_norm": 0.7600257396697998, "learning_rate": 8.934567980775294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243622, "epoch": 1.058388596691821, "step": 13885}, {"loss": 0.11927628517150879, "token_acc": 0.9592225609756098, "grad_norm": 1.4620006084442139, "learning_rate": 8.933829030703334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243652, "epoch": 1.058769723302081, "step": 13890}, {"loss": 0.15493178367614746, "token_acc": 0.9485917882592467, "grad_norm": 0.852737307548523, "learning_rate": 8.933089855044533e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243662, "epoch": 1.059150849912341, "step": 13895}, {"loss": 0.1438792824745178, "token_acc": 0.9544666088464874, "grad_norm": 0.7927077412605286, "learning_rate": 8.932350453841281e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243684, "epoch": 1.0595319765226008, "step": 13900}, {"loss": 0.13518056869506836, "token_acc": 0.9502220144893667, "grad_norm": 1.4425526857376099, "learning_rate": 8.931610827135978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24371, "epoch": 1.0599131031328608, "step": 13905}, {"loss": 0.1633934736251831, "token_acc": 0.9278074866310161, "grad_norm": 0.9809650182723999, "learning_rate": 8.93087097497104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243727, "epoch": 1.0602942297431206, "step": 13910}, {"loss": 0.12379004955291747, "token_acc": 0.9547186729432863, "grad_norm": 0.5744962692260742, "learning_rate": 8.93013089738889e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24375, "epoch": 1.0606753563533806, "step": 13915}, {"loss": 0.13455127477645873, "token_acc": 0.9553587565515995, "grad_norm": 0.33915218710899353, "learning_rate": 8.929390594431974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243768, "epoch": 1.0610564829636404, "step": 13920}, {"loss": 0.09828578233718872, "token_acc": 0.9656078860898138, "grad_norm": 0.7223771810531616, "learning_rate": 8.928650066142742e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243787, "epoch": 1.0614376095739004, "step": 13925}, {"loss": 0.14081578254699706, "token_acc": 0.9445037353255069, "grad_norm": 1.0227817296981812, "learning_rate": 8.92790931256366e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243811, "epoch": 1.0618187361841604, "step": 13930}, {"loss": 0.11488572359085084, "token_acc": 0.9477968004490598, "grad_norm": 1.1046584844589233, "learning_rate": 8.927168333737205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243836, "epoch": 1.0621998627944202, "step": 13935}, {"loss": 0.13014965057373046, "token_acc": 0.9396619807297425, "grad_norm": 0.7464026212692261, "learning_rate": 8.926427129705872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243852, "epoch": 1.0625809894046803, "step": 13940}, {"loss": 0.11515038013458252, "token_acc": 0.9568113450795015, "grad_norm": 1.3379030227661133, "learning_rate": 8.925685700512161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243877, "epoch": 1.06296211601494, "step": 13945}, {"loss": 0.2573657512664795, "token_acc": 0.8844953173777316, "grad_norm": 1.869718313217163, "learning_rate": 8.924944046198596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243908, "epoch": 1.0633432426252, "step": 13950}, {"loss": 0.14185887575149536, "token_acc": 0.9480432972522898, "grad_norm": 0.8353025317192078, "learning_rate": 8.924202166807702e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243926, "epoch": 1.06372436923546, "step": 13955}, {"loss": 0.18336135149002075, "token_acc": 0.9223648850403106, "grad_norm": 1.9787334203720093, "learning_rate": 8.923460062382026e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243954, "epoch": 1.06410549584572, "step": 13960}, {"loss": 0.20720796585083007, "token_acc": 0.9230355220667384, "grad_norm": 0.9908289909362793, "learning_rate": 8.922717732964121e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243977, "epoch": 1.06448662245598, "step": 13965}, {"loss": 0.20223214626312255, "token_acc": 0.9097416744475568, "grad_norm": 1.0205495357513428, "learning_rate": 8.921975178596558e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243994, "epoch": 1.0648677490662397, "step": 13970}, {"loss": 0.14606393575668336, "token_acc": 0.9411417322834645, "grad_norm": 0.74333256483078, "learning_rate": 8.921232399321919e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244013, "epoch": 1.0652488756764997, "step": 13975}, {"loss": 0.1726184606552124, "token_acc": 0.9316843345111896, "grad_norm": 1.5916481018066406, "learning_rate": 8.920489395182798e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244044, "epoch": 1.0656300022867597, "step": 13980}, {"loss": 0.1451572895050049, "token_acc": 0.945054945054945, "grad_norm": 0.7216887474060059, "learning_rate": 8.919746166221802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244066, "epoch": 1.0660111288970195, "step": 13985}, {"loss": 0.1438741445541382, "token_acc": 0.9410542716177617, "grad_norm": 0.9098125100135803, "learning_rate": 8.919002712481557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244093, "epoch": 1.0663922555072796, "step": 13990}, {"loss": 0.12207678556442261, "token_acc": 0.9657553551296505, "grad_norm": 1.905616283416748, "learning_rate": 8.918259034004691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244103, "epoch": 1.0667733821175394, "step": 13995}, {"loss": 0.08823396563529969, "token_acc": 0.9643886372993001, "grad_norm": 0.7123406529426575, "learning_rate": 8.917515130833851e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244126, "epoch": 1.0671545087277994, "step": 14000}, {"eval_loss": 0.11337019503116608, "eval_token_acc": 0.9467652551051141, "eval_runtime": 161.096, "eval_samples_per_second": 3.29, "eval_steps_per_second": 3.29, "epoch": 1.0671545087277994, "step": 14000}, {"loss": 0.17265145778656005, "token_acc": 0.9463833503129093, "grad_norm": 0.6830775737762451, "learning_rate": 8.916771003011699e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243459, "epoch": 1.0675356353380594, "step": 14005}, {"loss": 0.12832536697387695, "token_acc": 0.9569700827498409, "grad_norm": 0.462451696395874, "learning_rate": 8.916026650580906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243468, "epoch": 1.0679167619483192, "step": 14010}, {"loss": 0.12904551029205322, "token_acc": 0.9385325558794947, "grad_norm": 1.1834667921066284, "learning_rate": 8.915282073584157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243495, "epoch": 1.0682978885585792, "step": 14015}, {"loss": 0.11929768323898315, "token_acc": 0.9573584905660377, "grad_norm": 1.362908959388733, "learning_rate": 8.91453727206415e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243525, "epoch": 1.068679015168839, "step": 14020}, {"loss": 0.156122624874115, "token_acc": 0.9432242022378782, "grad_norm": 0.9988250136375427, "learning_rate": 8.913792246063596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243551, "epoch": 1.069060141779099, "step": 14025}, {"loss": 0.17082748413085938, "token_acc": 0.9485873089393237, "grad_norm": 1.387105107307434, "learning_rate": 8.91304699562522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243561, "epoch": 1.069441268389359, "step": 14030}, {"loss": 0.1387547731399536, "token_acc": 0.9413847364280095, "grad_norm": 1.707722783088684, "learning_rate": 8.912301520791757e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243593, "epoch": 1.0698223949996188, "step": 14035}, {"loss": 0.12211596965789795, "token_acc": 0.952988792029888, "grad_norm": 0.7509340047836304, "learning_rate": 8.911555821605957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243616, "epoch": 1.0702035216098789, "step": 14040}, {"loss": 0.08998556733131409, "token_acc": 0.964412306819793, "grad_norm": 0.7022151947021484, "learning_rate": 8.910809898110582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243626, "epoch": 1.0705846482201387, "step": 14045}, {"loss": 0.19588856697082518, "token_acc": 0.9306442251886244, "grad_norm": 0.962763249874115, "learning_rate": 8.910063750348408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24365, "epoch": 1.0709657748303987, "step": 14050}, {"loss": 0.1199905276298523, "token_acc": 0.9503513942416686, "grad_norm": 0.9701728224754333, "learning_rate": 8.909317378362223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243674, "epoch": 1.0713469014406587, "step": 14055}, {"loss": 0.1108126163482666, "token_acc": 0.9580820265379976, "grad_norm": 0.4670375883579254, "learning_rate": 8.908570782194829e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243685, "epoch": 1.0717280280509185, "step": 14060}, {"loss": 0.11033324003219605, "token_acc": 0.9592572062084257, "grad_norm": 0.8073314428329468, "learning_rate": 8.907823961889037e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243709, "epoch": 1.0721091546611785, "step": 14065}, {"loss": 0.13623740673065185, "token_acc": 0.9529576746557878, "grad_norm": 0.7255701422691345, "learning_rate": 8.907076917487676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243716, "epoch": 1.0724902812714383, "step": 14070}, {"loss": 0.134912109375, "token_acc": 0.9330181245074862, "grad_norm": 1.1095976829528809, "learning_rate": 8.906329649033585e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243744, "epoch": 1.0728714078816983, "step": 14075}, {"loss": 0.145004940032959, "token_acc": 0.9442388354305453, "grad_norm": 1.7091161012649536, "learning_rate": 8.905582156569615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24377, "epoch": 1.0732525344919583, "step": 14080}, {"loss": 0.12184611558914185, "token_acc": 0.9559861799609434, "grad_norm": 1.3228789567947388, "learning_rate": 8.904834440138633e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243784, "epoch": 1.0736336611022181, "step": 14085}, {"loss": 0.14568943977355958, "token_acc": 0.9472259810554804, "grad_norm": 0.9856445789337158, "learning_rate": 8.904086499783517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243802, "epoch": 1.0740147877124782, "step": 14090}, {"loss": 0.089752459526062, "token_acc": 0.9629165173772841, "grad_norm": 0.36612966656684875, "learning_rate": 8.903338335547157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243828, "epoch": 1.074395914322738, "step": 14095}, {"loss": 0.13899683952331543, "token_acc": 0.9489256780556534, "grad_norm": 0.8229888677597046, "learning_rate": 8.902589947472457e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243858, "epoch": 1.074777040932998, "step": 14100}, {"loss": 0.08099815249443054, "token_acc": 0.9730568256041803, "grad_norm": 0.5527825951576233, "learning_rate": 8.901841335602334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243871, "epoch": 1.0751581675432578, "step": 14105}, {"loss": 0.14886187314987182, "token_acc": 0.9340937896070975, "grad_norm": 1.2650723457336426, "learning_rate": 8.901092499979718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243881, "epoch": 1.0755392941535178, "step": 14110}, {"loss": 0.17556400299072267, "token_acc": 0.9383792909397861, "grad_norm": 1.1389076709747314, "learning_rate": 8.90034344064755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243906, "epoch": 1.0759204207637778, "step": 14115}, {"loss": 0.16824105978012086, "token_acc": 0.9340369393139841, "grad_norm": 1.5875388383865356, "learning_rate": 8.899594157648784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243917, "epoch": 1.0763015473740376, "step": 14120}, {"loss": 0.12246975898742676, "token_acc": 0.9405383688228204, "grad_norm": 1.0428729057312012, "learning_rate": 8.89884465102639e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243947, "epoch": 1.0766826739842976, "step": 14125}, {"loss": 0.1099663257598877, "token_acc": 0.9516752577319587, "grad_norm": 1.0009219646453857, "learning_rate": 8.898094920823349e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243972, "epoch": 1.0770638005945574, "step": 14130}, {"loss": 0.12390153408050537, "token_acc": 0.9482558139534883, "grad_norm": 1.3694859743118286, "learning_rate": 8.897344967082652e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243989, "epoch": 1.0774449272048174, "step": 14135}, {"loss": 0.13058322668075562, "token_acc": 0.9525389497980381, "grad_norm": 1.509225606918335, "learning_rate": 8.89659478984731e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244004, "epoch": 1.0778260538150775, "step": 14140}, {"loss": 0.10018734931945801, "token_acc": 0.9524241051200725, "grad_norm": 0.6984720826148987, "learning_rate": 8.895844389160338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244016, "epoch": 1.0782071804253373, "step": 14145}, {"loss": 0.10984331369400024, "token_acc": 0.956457345971564, "grad_norm": 0.47876617312431335, "learning_rate": 8.895093765064767e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244041, "epoch": 1.0785883070355973, "step": 14150}, {"loss": 0.17121741771697999, "token_acc": 0.9340433482810164, "grad_norm": 1.0510331392288208, "learning_rate": 8.894342917603646e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244065, "epoch": 1.078969433645857, "step": 14155}, {"loss": 0.11933771371841431, "token_acc": 0.9552810161823561, "grad_norm": 0.6981080174446106, "learning_rate": 8.893591846820031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244081, "epoch": 1.079350560256117, "step": 14160}, {"loss": 0.0819251537322998, "token_acc": 0.9652358992550549, "grad_norm": 1.4020987749099731, "learning_rate": 8.892840552756991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244098, "epoch": 1.079731686866377, "step": 14165}, {"loss": 0.10373153686523437, "token_acc": 0.9556891249650545, "grad_norm": 0.5612790584564209, "learning_rate": 8.89208903545761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244103, "epoch": 1.080112813476637, "step": 14170}, {"loss": 0.14267386198043824, "token_acc": 0.9438502673796791, "grad_norm": 1.0501195192337036, "learning_rate": 8.891337294964985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244127, "epoch": 1.080493940086897, "step": 14175}, {"loss": 0.14275239706039428, "token_acc": 0.9444655281467426, "grad_norm": 0.9344440698623657, "learning_rate": 8.890585331322224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24413, "epoch": 1.0808750666971567, "step": 14180}, {"loss": 0.12619506120681762, "token_acc": 0.9417791104447776, "grad_norm": 1.2886723279953003, "learning_rate": 8.889833144572449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244155, "epoch": 1.0812561933074167, "step": 14185}, {"loss": 0.1693003296852112, "token_acc": 0.9369737177851493, "grad_norm": 0.8645256161689758, "learning_rate": 8.889080734758795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244162, "epoch": 1.0816373199176768, "step": 14190}, {"loss": 0.1439509153366089, "token_acc": 0.9446881091617934, "grad_norm": 0.654602587223053, "learning_rate": 8.888328101924407e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244181, "epoch": 1.0820184465279366, "step": 14195}, {"loss": 0.20056264400482177, "token_acc": 0.9385435168738899, "grad_norm": 0.6642621755599976, "learning_rate": 8.887575246112447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244183, "epoch": 1.0823995731381966, "step": 14200}, {"eval_loss": 0.11249065399169922, "eval_token_acc": 0.9476386964640684, "eval_runtime": 161.3497, "eval_samples_per_second": 3.285, "eval_steps_per_second": 3.285, "epoch": 1.0823995731381966, "step": 14200}, {"loss": 0.14480102062225342, "token_acc": 0.9473828142322872, "grad_norm": 0.8324598670005798, "learning_rate": 8.886822167366086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243537, "epoch": 1.0827806997484564, "step": 14205}, {"loss": 0.1487090229988098, "token_acc": 0.9468797236018138, "grad_norm": 0.8573809266090393, "learning_rate": 8.886068865728513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243561, "epoch": 1.0831618263587164, "step": 14210}, {"loss": 0.1498643636703491, "token_acc": 0.9458754483208347, "grad_norm": 0.9249890446662903, "learning_rate": 8.885315341242923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243586, "epoch": 1.0835429529689762, "step": 14215}, {"loss": 0.12732200622558593, "token_acc": 0.9499175597691674, "grad_norm": 1.3766473531723022, "learning_rate": 8.884561593952528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243608, "epoch": 1.0839240795792362, "step": 14220}, {"loss": 0.1911759376525879, "token_acc": 0.931395105626438, "grad_norm": 1.398710012435913, "learning_rate": 8.883807623900552e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243631, "epoch": 1.0843052061894962, "step": 14225}, {"loss": 0.16268826723098756, "token_acc": 0.9468698517298187, "grad_norm": 1.1975528001785278, "learning_rate": 8.883053431130233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24365, "epoch": 1.084686332799756, "step": 14230}, {"loss": 0.06861156821250916, "token_acc": 0.9583945178658835, "grad_norm": 0.9337657690048218, "learning_rate": 8.882299015684818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243682, "epoch": 1.085067459410016, "step": 14235}, {"loss": 0.12826788425445557, "token_acc": 0.9514312529328953, "grad_norm": 0.857903778553009, "learning_rate": 8.881544377607571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243704, "epoch": 1.0854485860202758, "step": 14240}, {"loss": 0.14227854013442992, "token_acc": 0.9469325153374233, "grad_norm": 0.7988215088844299, "learning_rate": 8.880789516941766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243729, "epoch": 1.0858297126305358, "step": 14245}, {"loss": 0.15314873456954955, "token_acc": 0.9539914163090129, "grad_norm": 0.8608855605125427, "learning_rate": 8.880034433730694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243748, "epoch": 1.0862108392407959, "step": 14250}, {"loss": 0.154669451713562, "token_acc": 0.9459850494333253, "grad_norm": 1.296857476234436, "learning_rate": 8.879279128017647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243771, "epoch": 1.0865919658510557, "step": 14255}, {"loss": 0.12981812953948973, "token_acc": 0.9557449789817842, "grad_norm": 1.24712073802948, "learning_rate": 8.878523599845949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243779, "epoch": 1.0869730924613157, "step": 14260}, {"loss": 0.11611336469650269, "token_acc": 0.957934131736527, "grad_norm": 0.8143262267112732, "learning_rate": 8.87776784925892e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243791, "epoch": 1.0873542190715755, "step": 14265}, {"loss": 0.126455557346344, "token_acc": 0.9401843939734652, "grad_norm": 0.7102507948875427, "learning_rate": 8.877011876299899e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243817, "epoch": 1.0877353456818355, "step": 14270}, {"loss": 0.11931931972503662, "token_acc": 0.9574883948204251, "grad_norm": 0.7546711564064026, "learning_rate": 8.87625568101224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243845, "epoch": 1.0881164722920955, "step": 14275}, {"loss": 0.10101989507675171, "token_acc": 0.9583673469387755, "grad_norm": 0.9797837734222412, "learning_rate": 8.875499263439304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243873, "epoch": 1.0884975989023553, "step": 14280}, {"loss": 0.11701341867446899, "token_acc": 0.9603614705278292, "grad_norm": 1.045759916305542, "learning_rate": 8.87474262362447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243896, "epoch": 1.0888787255126153, "step": 14285}, {"loss": 0.11453988552093505, "token_acc": 0.9497159090909091, "grad_norm": 0.932837963104248, "learning_rate": 8.873985761611128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243904, "epoch": 1.0892598521228751, "step": 14290}, {"loss": 0.1746220827102661, "token_acc": 0.9386949924127466, "grad_norm": 1.546210527420044, "learning_rate": 8.873228677442681e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243932, "epoch": 1.0896409787331351, "step": 14295}, {"loss": 0.15134212970733643, "token_acc": 0.9432355723746452, "grad_norm": 0.7339175939559937, "learning_rate": 8.872471371162543e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243952, "epoch": 1.0900221053433952, "step": 14300}, {"loss": 0.17620112895965576, "token_acc": 0.9315367807720321, "grad_norm": 1.3828098773956299, "learning_rate": 8.871713842814141e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243974, "epoch": 1.090403231953655, "step": 14305}, {"loss": 0.12643036842346192, "token_acc": 0.9470553242117787, "grad_norm": 0.9878448247909546, "learning_rate": 8.870956092440918e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243985, "epoch": 1.090784358563915, "step": 14310}, {"loss": 0.13811444044113158, "token_acc": 0.9505213657738704, "grad_norm": 1.2611618041992188, "learning_rate": 8.870198120086327e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24401, "epoch": 1.0911654851741748, "step": 14315}, {"loss": 0.1470876455307007, "token_acc": 0.9518434913468774, "grad_norm": 0.4351796805858612, "learning_rate": 8.869439925793832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244032, "epoch": 1.0915466117844348, "step": 14320}, {"loss": 0.14730892181396485, "token_acc": 0.9492015418502202, "grad_norm": 1.020097017288208, "learning_rate": 8.868681509606916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244038, "epoch": 1.0919277383946948, "step": 14325}, {"loss": 0.13442734479904175, "token_acc": 0.9462404000714413, "grad_norm": 0.9121341705322266, "learning_rate": 8.867922871569066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244054, "epoch": 1.0923088650049546, "step": 14330}, {"loss": 0.12837202548980714, "token_acc": 0.9576423936553713, "grad_norm": 0.8346598744392395, "learning_rate": 8.86716401172379e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244071, "epoch": 1.0926899916152146, "step": 14335}, {"loss": 0.11385934352874756, "token_acc": 0.9402852049910874, "grad_norm": 0.650312602519989, "learning_rate": 8.866404930114603e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2441, "epoch": 1.0930711182254744, "step": 14340}, {"loss": 0.13434340953826904, "token_acc": 0.9593002499107461, "grad_norm": 0.1723540723323822, "learning_rate": 8.865645626785036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244129, "epoch": 1.0934522448357344, "step": 14345}, {"loss": 0.15625797510147094, "token_acc": 0.9267592149353758, "grad_norm": 0.35588544607162476, "learning_rate": 8.864886101778631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244163, "epoch": 1.0938333714459945, "step": 14350}, {"loss": 0.15003788471221924, "token_acc": 0.929266368656324, "grad_norm": 0.8230992555618286, "learning_rate": 8.864126355138945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244192, "epoch": 1.0942144980562543, "step": 14355}, {"loss": 0.1376652479171753, "token_acc": 0.9524089306698003, "grad_norm": 0.288656622171402, "learning_rate": 8.863366386909541e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244222, "epoch": 1.0945956246665143, "step": 14360}, {"loss": 0.1131251573562622, "token_acc": 0.9500157183275699, "grad_norm": 1.3268550634384155, "learning_rate": 8.862606197134005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244251, "epoch": 1.094976751276774, "step": 14365}, {"loss": 0.12927931547164917, "token_acc": 0.9487179487179487, "grad_norm": 1.29462730884552, "learning_rate": 8.861845785855928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244269, "epoch": 1.095357877887034, "step": 14370}, {"loss": 0.1220848798751831, "token_acc": 0.9476529160739687, "grad_norm": 1.998456597328186, "learning_rate": 8.861085153118916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244291, "epoch": 1.0957390044972941, "step": 14375}, {"loss": 0.1355413317680359, "token_acc": 0.9463929284288566, "grad_norm": 1.5576528310775757, "learning_rate": 8.86032429896659e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24432, "epoch": 1.096120131107554, "step": 14380}, {"loss": 0.11906529664993286, "token_acc": 0.9495086411385971, "grad_norm": 0.8468164801597595, "learning_rate": 8.859563223442576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244339, "epoch": 1.096501257717814, "step": 14385}, {"loss": 0.15391225814819337, "token_acc": 0.9381824290273811, "grad_norm": 1.1479028463363647, "learning_rate": 8.858801926590524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244358, "epoch": 1.0968823843280737, "step": 14390}, {"loss": 0.09148204326629639, "token_acc": 0.9595903165735568, "grad_norm": 0.31084245443344116, "learning_rate": 8.858040408454088e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244374, "epoch": 1.0972635109383337, "step": 14395}, {"loss": 0.1814399003982544, "token_acc": 0.9332304980167475, "grad_norm": 1.3860517740249634, "learning_rate": 8.857278669076938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244395, "epoch": 1.0976446375485938, "step": 14400}, {"eval_loss": 0.11170077323913574, "eval_token_acc": 0.9485874344918981, "eval_runtime": 159.4039, "eval_samples_per_second": 3.325, "eval_steps_per_second": 3.325, "epoch": 1.0976446375485938, "step": 14400}, {"loss": 0.11858257055282592, "token_acc": 0.9485876539567815, "grad_norm": 1.3578943014144897, "learning_rate": 8.856516708502757e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243764, "epoch": 1.0980257641588536, "step": 14405}, {"loss": 0.14838911294937135, "token_acc": 0.9460500963391136, "grad_norm": 1.1676934957504272, "learning_rate": 8.855754526775239e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243778, "epoch": 1.0984068907691136, "step": 14410}, {"loss": 0.15635422468185425, "token_acc": 0.9448609431680773, "grad_norm": 1.561812162399292, "learning_rate": 8.85499212393809e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243802, "epoch": 1.0987880173793734, "step": 14415}, {"loss": 0.19608778953552247, "token_acc": 0.9379789272030651, "grad_norm": 0.9555893540382385, "learning_rate": 8.854229500035034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243828, "epoch": 1.0991691439896334, "step": 14420}, {"loss": 0.1451410174369812, "token_acc": 0.9410217881292261, "grad_norm": 0.6626488566398621, "learning_rate": 8.853466655109801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243851, "epoch": 1.0995502705998932, "step": 14425}, {"loss": 0.09144092202186585, "token_acc": 0.9621478873239436, "grad_norm": 1.8461352586746216, "learning_rate": 8.852703589206139e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243883, "epoch": 1.0999313972101532, "step": 14430}, {"loss": 0.16422631740570068, "token_acc": 0.9375793866811831, "grad_norm": 1.0859041213989258, "learning_rate": 8.851940302367804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243903, "epoch": 1.1003125238204132, "step": 14435}, {"loss": 0.1650601863861084, "token_acc": 0.9379354021532615, "grad_norm": 0.4465910494327545, "learning_rate": 8.851176794638567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243921, "epoch": 1.100693650430673, "step": 14440}, {"loss": 0.16799304485321045, "token_acc": 0.9427995971802619, "grad_norm": 0.8427920937538147, "learning_rate": 8.850413066062212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24394, "epoch": 1.101074777040933, "step": 14445}, {"loss": 0.11650708913803101, "token_acc": 0.945708801754867, "grad_norm": 0.7271862626075745, "learning_rate": 8.849649116682539e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24397, "epoch": 1.1014559036511928, "step": 14450}, {"loss": 0.15535416603088378, "token_acc": 0.9346011131725418, "grad_norm": 1.1876842975616455, "learning_rate": 8.848884946543352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243986, "epoch": 1.1018370302614529, "step": 14455}, {"loss": 0.15821361541748047, "token_acc": 0.9363226319978775, "grad_norm": 0.8193598985671997, "learning_rate": 8.848120555688473e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244012, "epoch": 1.1022181568717129, "step": 14460}, {"loss": 0.14682830572128297, "token_acc": 0.942713567839196, "grad_norm": 1.228663682937622, "learning_rate": 8.84735594416174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244022, "epoch": 1.1025992834819727, "step": 14465}, {"loss": 0.1353921413421631, "token_acc": 0.9526889447838064, "grad_norm": 0.7804664373397827, "learning_rate": 8.846591112006995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244028, "epoch": 1.1029804100922327, "step": 14470}, {"loss": 0.11843812465667725, "token_acc": 0.9421278254091972, "grad_norm": 0.843709409236908, "learning_rate": 8.8458260592681e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244045, "epoch": 1.1033615367024925, "step": 14475}, {"loss": 0.16073298454284668, "token_acc": 0.9398885350318471, "grad_norm": 0.9855577349662781, "learning_rate": 8.84506078598893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244073, "epoch": 1.1037426633127525, "step": 14480}, {"loss": 0.17864352464675903, "token_acc": 0.9403085177733065, "grad_norm": 1.7700817584991455, "learning_rate": 8.844295292213365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244087, "epoch": 1.1041237899230125, "step": 14485}, {"loss": 0.1596297264099121, "token_acc": 0.9412376495059802, "grad_norm": 1.1716434955596924, "learning_rate": 8.843529577985306e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244112, "epoch": 1.1045049165332723, "step": 14490}, {"loss": 0.11899219751358033, "token_acc": 0.9475170628383149, "grad_norm": 1.1746630668640137, "learning_rate": 8.842763643348661e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244134, "epoch": 1.1048860431435323, "step": 14495}, {"loss": 0.10175942182540894, "token_acc": 0.9626955475330926, "grad_norm": 0.4147237241268158, "learning_rate": 8.841997488347354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244153, "epoch": 1.1052671697537921, "step": 14500}, {"loss": 0.16685280799865723, "token_acc": 0.9174904942965779, "grad_norm": 1.2778043746948242, "learning_rate": 8.841231113025321e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244179, "epoch": 1.1056482963640522, "step": 14505}, {"loss": 0.11966350078582763, "token_acc": 0.9421281891723708, "grad_norm": 2.0955970287323, "learning_rate": 8.840464517426508e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244201, "epoch": 1.106029422974312, "step": 14510}, {"loss": 0.1479501485824585, "token_acc": 0.9454851104707013, "grad_norm": 0.8662545680999756, "learning_rate": 8.839697701594876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24423, "epoch": 1.106410549584572, "step": 14515}, {"loss": 0.10350685119628907, "token_acc": 0.9562851442046073, "grad_norm": 1.3616070747375488, "learning_rate": 8.838930665574401e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244248, "epoch": 1.106791676194832, "step": 14520}, {"loss": 0.16952912807464598, "token_acc": 0.9378808395396073, "grad_norm": 1.029227375984192, "learning_rate": 8.838163409409066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244262, "epoch": 1.1071728028050918, "step": 14525}, {"loss": 0.1009417176246643, "token_acc": 0.9537203047960556, "grad_norm": 1.2725201845169067, "learning_rate": 8.837395933142871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244271, "epoch": 1.1075539294153518, "step": 14530}, {"loss": 0.154563307762146, "token_acc": 0.9261033185083818, "grad_norm": 0.46861401200294495, "learning_rate": 8.836628236819827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244298, "epoch": 1.1079350560256116, "step": 14535}, {"loss": 0.12474924325942993, "token_acc": 0.9482368165642187, "grad_norm": 0.7519727945327759, "learning_rate": 8.835860320483959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244325, "epoch": 1.1083161826358716, "step": 14540}, {"loss": 0.1126839280128479, "token_acc": 0.9551388559221458, "grad_norm": 0.7186149954795837, "learning_rate": 8.835092184179301e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244345, "epoch": 1.1086973092461316, "step": 14545}, {"loss": 0.09922429919242859, "token_acc": 0.9562792772696854, "grad_norm": 0.8930983543395996, "learning_rate": 8.834323827949901e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244369, "epoch": 1.1090784358563914, "step": 14550}, {"loss": 0.13515920639038087, "token_acc": 0.9598923283983849, "grad_norm": 1.49032461643219, "learning_rate": 8.833555251839826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244393, "epoch": 1.1094595624666514, "step": 14555}, {"loss": 0.11715936660766602, "token_acc": 0.9502708025603152, "grad_norm": 1.0114067792892456, "learning_rate": 8.832786455893147e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244416, "epoch": 1.1098406890769112, "step": 14560}, {"loss": 0.15945316553115846, "token_acc": 0.9519461797212878, "grad_norm": 0.7081486582756042, "learning_rate": 8.83201744015395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244424, "epoch": 1.1102218156871713, "step": 14565}, {"loss": 0.11560359001159667, "token_acc": 0.9564336372847011, "grad_norm": 0.766555905342102, "learning_rate": 8.831248204666336e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244446, "epoch": 1.1106029422974313, "step": 14570}, {"loss": 0.12432987689971924, "token_acc": 0.9549266247379455, "grad_norm": 0.784356415271759, "learning_rate": 8.830478749474417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244469, "epoch": 1.110984068907691, "step": 14575}, {"loss": 0.13628878593444824, "token_acc": 0.9379025598678777, "grad_norm": 0.9182413816452026, "learning_rate": 8.829709074622317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244489, "epoch": 1.111365195517951, "step": 14580}, {"loss": 0.16028662919998168, "token_acc": 0.9489946051986268, "grad_norm": 1.1239757537841797, "learning_rate": 8.828939180154173e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24451, "epoch": 1.111746322128211, "step": 14585}, {"loss": 0.14382741451263428, "token_acc": 0.9437080079898311, "grad_norm": 1.4984540939331055, "learning_rate": 8.828169066114136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244531, "epoch": 1.112127448738471, "step": 14590}, {"loss": 0.10743606090545654, "token_acc": 0.950766221062928, "grad_norm": 0.5357720255851746, "learning_rate": 8.827398732546368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244554, "epoch": 1.112508575348731, "step": 14595}, {"loss": 0.12864969968795775, "token_acc": 0.956228046473926, "grad_norm": 1.0382788181304932, "learning_rate": 8.826628179495044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244561, "epoch": 1.1128897019589907, "step": 14600}, {"eval_loss": 0.11288680881261826, "eval_token_acc": 0.9474805734594302, "eval_runtime": 160.3547, "eval_samples_per_second": 3.305, "eval_steps_per_second": 3.305, "epoch": 1.1128897019589907, "step": 14600}, {"loss": 0.1493336796760559, "token_acc": 0.9473271616815969, "grad_norm": 1.510717511177063, "learning_rate": 8.82585740700435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24391, "epoch": 1.1132708285692507, "step": 14605}, {"loss": 0.17118076086044312, "token_acc": 0.9390541199414919, "grad_norm": 1.6160142421722412, "learning_rate": 8.825086415118491e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243933, "epoch": 1.1136519551795105, "step": 14610}, {"loss": 0.10271905660629273, "token_acc": 0.9553903345724907, "grad_norm": 0.5297818779945374, "learning_rate": 8.824315203881675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243954, "epoch": 1.1140330817897706, "step": 14615}, {"loss": 0.13967974185943605, "token_acc": 0.9389948531637905, "grad_norm": 1.4766556024551392, "learning_rate": 8.823543773338128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243975, "epoch": 1.1144142084000306, "step": 14620}, {"loss": 0.1507936716079712, "token_acc": 0.9484667802385008, "grad_norm": 0.777630627155304, "learning_rate": 8.82277212353209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243993, "epoch": 1.1147953350102904, "step": 14625}, {"loss": 0.11755968332290649, "token_acc": 0.9454516024603431, "grad_norm": 0.004666919820010662, "learning_rate": 8.82200025450781e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24401, "epoch": 1.1151764616205504, "step": 14630}, {"loss": 0.12462644577026367, "token_acc": 0.9519892884468248, "grad_norm": 0.9860005378723145, "learning_rate": 8.821228166309553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244031, "epoch": 1.1155575882308102, "step": 14635}, {"loss": 0.09451914429664612, "token_acc": 0.9662309368191722, "grad_norm": 0.4192967712879181, "learning_rate": 8.820455858981593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244035, "epoch": 1.1159387148410702, "step": 14640}, {"loss": 0.15708003044128419, "token_acc": 0.9207547169811321, "grad_norm": 1.1363403797149658, "learning_rate": 8.819683332568219e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244067, "epoch": 1.1163198414513302, "step": 14645}, {"loss": 0.16134674549102784, "token_acc": 0.9447743467933492, "grad_norm": 2.042970895767212, "learning_rate": 8.818910587113729e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244085, "epoch": 1.11670096806159, "step": 14650}, {"loss": 0.19086229801177979, "token_acc": 0.9212491513917176, "grad_norm": 0.9141850471496582, "learning_rate": 8.81813762266244e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24411, "epoch": 1.11708209467185, "step": 14655}, {"loss": 0.13876715898513795, "token_acc": 0.9421093148575828, "grad_norm": 0.6576411128044128, "learning_rate": 8.817364439258677e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244127, "epoch": 1.1174632212821098, "step": 14660}, {"loss": 0.1559647798538208, "token_acc": 0.9381529460927706, "grad_norm": 1.1344268321990967, "learning_rate": 8.816591036946778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244149, "epoch": 1.1178443478923699, "step": 14665}, {"loss": 0.1437970995903015, "token_acc": 0.9390669628689305, "grad_norm": 0.9037122130393982, "learning_rate": 8.815817415771095e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244175, "epoch": 1.1182254745026299, "step": 14670}, {"loss": 0.1492432951927185, "token_acc": 0.9349730458221024, "grad_norm": 0.7030108571052551, "learning_rate": 8.81504357577599e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244201, "epoch": 1.1186066011128897, "step": 14675}, {"loss": 0.10723373889923096, "token_acc": 0.9609246009906439, "grad_norm": 0.698906660079956, "learning_rate": 8.81426951700584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244235, "epoch": 1.1189877277231497, "step": 14680}, {"loss": 0.14099397659301757, "token_acc": 0.946651369568335, "grad_norm": 0.6497915387153625, "learning_rate": 8.813495239505032e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244247, "epoch": 1.1193688543334095, "step": 14685}, {"loss": 0.1007909893989563, "token_acc": 0.9580510682647212, "grad_norm": 0.1224902793765068, "learning_rate": 8.81272074331797e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244268, "epoch": 1.1197499809436695, "step": 14690}, {"loss": 0.1308163046836853, "token_acc": 0.9434656849855377, "grad_norm": 1.0913958549499512, "learning_rate": 8.811946028489067e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244295, "epoch": 1.1201311075539295, "step": 14695}, {"loss": 0.11786898374557495, "token_acc": 0.9368826788725608, "grad_norm": 0.18087823688983917, "learning_rate": 8.81117109506275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244316, "epoch": 1.1205122341641893, "step": 14700}, {"loss": 0.10318766832351685, "token_acc": 0.9507096774193549, "grad_norm": 0.7965733408927917, "learning_rate": 8.810395943083455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24434, "epoch": 1.1208933607744493, "step": 14705}, {"loss": 0.15136798620223998, "token_acc": 0.9311154598825832, "grad_norm": 3.6499099731445312, "learning_rate": 8.809620572595635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244369, "epoch": 1.1212744873847091, "step": 14710}, {"loss": 0.130560040473938, "token_acc": 0.947881413293624, "grad_norm": 1.2160944938659668, "learning_rate": 8.808844983643754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244376, "epoch": 1.1216556139949692, "step": 14715}, {"loss": 0.1337457060813904, "token_acc": 0.9474412171507607, "grad_norm": 0.8200365304946899, "learning_rate": 8.808069176272289e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244388, "epoch": 1.122036740605229, "step": 14720}, {"loss": 0.11512157917022706, "token_acc": 0.9521149241819633, "grad_norm": 0.7821569442749023, "learning_rate": 8.807293150525728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244405, "epoch": 1.122417867215489, "step": 14725}, {"loss": 0.15147820711135865, "token_acc": 0.9409395973154362, "grad_norm": 1.949230670928955, "learning_rate": 8.806516906448574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244424, "epoch": 1.122798993825749, "step": 14730}, {"loss": 0.12038544416427613, "token_acc": 0.9583847102342786, "grad_norm": 1.1075332164764404, "learning_rate": 8.805740444085338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244435, "epoch": 1.1231801204360088, "step": 14735}, {"loss": 0.21417253017425536, "token_acc": 0.9138143314454568, "grad_norm": 1.2451515197753906, "learning_rate": 8.80496376348055e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244458, "epoch": 1.1235612470462688, "step": 14740}, {"loss": 0.08756917715072632, "token_acc": 0.9668599834299917, "grad_norm": 0.6266849637031555, "learning_rate": 8.804186864678745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244488, "epoch": 1.1239423736565286, "step": 14745}, {"loss": 0.17536920309066772, "token_acc": 0.9457782573509577, "grad_norm": 0.596644401550293, "learning_rate": 8.803409747724479e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244513, "epoch": 1.1243235002667886, "step": 14750}, {"loss": 0.08749451637268066, "token_acc": 0.9687286007760785, "grad_norm": 0.5178549289703369, "learning_rate": 8.802632412662312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244535, "epoch": 1.1247046268770486, "step": 14755}, {"loss": 0.17378873825073243, "token_acc": 0.9253525971792226, "grad_norm": 1.3540711402893066, "learning_rate": 8.801854859536824e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244562, "epoch": 1.1250857534873084, "step": 14760}, {"loss": 0.20466501712799073, "token_acc": 0.931148262208535, "grad_norm": 0.8283711671829224, "learning_rate": 8.801077088392604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244586, "epoch": 1.1254668800975685, "step": 14765}, {"loss": 0.12286052703857422, "token_acc": 0.9592271629492826, "grad_norm": 0.44806790351867676, "learning_rate": 8.80029909927425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244598, "epoch": 1.1258480067078283, "step": 14770}, {"loss": 0.13751307725906373, "token_acc": 0.9510426110607434, "grad_norm": 1.2301825284957886, "learning_rate": 8.799520892226378e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244609, "epoch": 1.1262291333180883, "step": 14775}, {"loss": 0.12390105724334717, "token_acc": 0.9479095270733379, "grad_norm": 0.7519361972808838, "learning_rate": 8.798742467293615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244643, "epoch": 1.1266102599283483, "step": 14780}, {"loss": 0.15460102558135985, "token_acc": 0.9421759386133187, "grad_norm": 0.9533618092536926, "learning_rate": 8.797963824520601e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244669, "epoch": 1.126991386538608, "step": 14785}, {"loss": 0.15204998254776, "token_acc": 0.9477621244233886, "grad_norm": 0.4909072518348694, "learning_rate": 8.797184963951986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244686, "epoch": 1.127372513148868, "step": 14790}, {"loss": 0.10481984615325927, "token_acc": 0.9579094354677837, "grad_norm": 0.38940319418907166, "learning_rate": 8.796405885632433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244707, "epoch": 1.127753639759128, "step": 14795}, {"loss": 0.11775988340377808, "token_acc": 0.9579124579124579, "grad_norm": 0.9325776696205139, "learning_rate": 8.79562658960662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244716, "epoch": 1.128134766369388, "step": 14800}, {"eval_loss": 0.11246661841869354, "eval_token_acc": 0.9481507138124209, "eval_runtime": 156.9299, "eval_samples_per_second": 3.377, "eval_steps_per_second": 3.377, "epoch": 1.128134766369388, "step": 14800}, {"loss": 0.1429687261581421, "token_acc": 0.9480018019177553, "grad_norm": 0.5858659148216248, "learning_rate": 8.794847075919238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244098, "epoch": 1.1285158929796477, "step": 14805}, {"loss": 0.10204832553863526, "token_acc": 0.9516283524904214, "grad_norm": 0.7057172060012817, "learning_rate": 8.794067344614984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244118, "epoch": 1.1288970195899077, "step": 14810}, {"loss": 0.12823518514633178, "token_acc": 0.9502997485979501, "grad_norm": 0.8164618015289307, "learning_rate": 8.793287395738576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24413, "epoch": 1.1292781462001678, "step": 14815}, {"loss": 0.1512230634689331, "token_acc": 0.947203196347032, "grad_norm": 0.7177162766456604, "learning_rate": 8.792507229334738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244161, "epoch": 1.1296592728104276, "step": 14820}, {"loss": 0.1054340124130249, "token_acc": 0.9445681211041852, "grad_norm": 0.7411829233169556, "learning_rate": 8.791726845448212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244182, "epoch": 1.1300403994206876, "step": 14825}, {"loss": 0.14504587650299072, "token_acc": 0.9354909249945331, "grad_norm": 2.1831984519958496, "learning_rate": 8.790946244123746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24421, "epoch": 1.1304215260309474, "step": 14830}, {"loss": 0.12789541482925415, "token_acc": 0.94520890668001, "grad_norm": 0.8571719527244568, "learning_rate": 8.790165425406104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244234, "epoch": 1.1308026526412074, "step": 14835}, {"loss": 0.10111509561538697, "token_acc": 0.9646038172353962, "grad_norm": 1.4965510368347168, "learning_rate": 8.789384389340063e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244245, "epoch": 1.1311837792514674, "step": 14840}, {"loss": 0.12717626094818116, "token_acc": 0.9432637571157495, "grad_norm": 1.0690295696258545, "learning_rate": 8.788603135970413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244267, "epoch": 1.1315649058617272, "step": 14845}, {"loss": 0.13925180435180665, "token_acc": 0.9537860707311782, "grad_norm": 1.2258834838867188, "learning_rate": 8.787821665341956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244287, "epoch": 1.1319460324719872, "step": 14850}, {"loss": 0.13183165788650514, "token_acc": 0.9423138897840799, "grad_norm": 0.9318856000900269, "learning_rate": 8.787039977499502e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244314, "epoch": 1.132327159082247, "step": 14855}, {"loss": 0.20236563682556152, "token_acc": 0.9181002243829469, "grad_norm": 2.22027850151062, "learning_rate": 8.786258072487881e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24434, "epoch": 1.132708285692507, "step": 14860}, {"loss": 0.1679174780845642, "token_acc": 0.9429183018194791, "grad_norm": 1.4645618200302124, "learning_rate": 8.785475950351927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244354, "epoch": 1.133089412302767, "step": 14865}, {"loss": 0.11979987621307372, "token_acc": 0.9418321142459074, "grad_norm": 0.7779101729393005, "learning_rate": 8.784693611136496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244376, "epoch": 1.1334705389130268, "step": 14870}, {"loss": 0.16935352087020875, "token_acc": 0.938872864433104, "grad_norm": 0.8253455758094788, "learning_rate": 8.78391105488645e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244375, "epoch": 1.1338516655232869, "step": 14875}, {"loss": 0.10881816148757935, "token_acc": 0.962984552608569, "grad_norm": 1.2045767307281494, "learning_rate": 8.783128281646664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244402, "epoch": 1.1342327921335467, "step": 14880}, {"loss": 0.07671124935150146, "token_acc": 0.9571341090018372, "grad_norm": 0.5174950361251831, "learning_rate": 8.782345291462027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244419, "epoch": 1.1346139187438067, "step": 14885}, {"loss": 0.15886917114257812, "token_acc": 0.9354309165526675, "grad_norm": 0.9042118191719055, "learning_rate": 8.781562084377439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244445, "epoch": 1.1349950453540667, "step": 14890}, {"loss": 0.15011091232299806, "token_acc": 0.9439552760307477, "grad_norm": 0.768493115901947, "learning_rate": 8.780778660437815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244461, "epoch": 1.1353761719643265, "step": 14895}, {"loss": 0.11822941303253173, "token_acc": 0.9606418407508326, "grad_norm": 1.073806881904602, "learning_rate": 8.779995019688079e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244487, "epoch": 1.1357572985745865, "step": 14900}, {"loss": 0.1279631733894348, "token_acc": 0.9527766518038103, "grad_norm": 0.48068055510520935, "learning_rate": 8.77921116217317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244504, "epoch": 1.1361384251848463, "step": 14905}, {"loss": 0.16808602809906006, "token_acc": 0.9380841121495327, "grad_norm": 1.0315064191818237, "learning_rate": 8.77842708793804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244524, "epoch": 1.1365195517951063, "step": 14910}, {"loss": 0.14136891365051268, "token_acc": 0.947906976744186, "grad_norm": 0.5866919755935669, "learning_rate": 8.777642797027648e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244544, "epoch": 1.1369006784053663, "step": 14915}, {"loss": 0.09477418065071105, "token_acc": 0.9581163685759565, "grad_norm": 1.1678366661071777, "learning_rate": 8.776858289486975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24457, "epoch": 1.1372818050156261, "step": 14920}, {"loss": 0.18082426786422728, "token_acc": 0.944112295295035, "grad_norm": 1.369999885559082, "learning_rate": 8.776073565361002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244587, "epoch": 1.1376629316258862, "step": 14925}, {"loss": 0.15698699951171874, "token_acc": 0.9462188337111065, "grad_norm": 0.7855144143104553, "learning_rate": 8.775288624694738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244609, "epoch": 1.138044058236146, "step": 14930}, {"loss": 0.15934780836105347, "token_acc": 0.9347480106100796, "grad_norm": 0.9337587356567383, "learning_rate": 8.774503467533187e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244631, "epoch": 1.138425184846406, "step": 14935}, {"loss": 0.14023571014404296, "token_acc": 0.9555067837190743, "grad_norm": 0.44149667024612427, "learning_rate": 8.77371809392138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244654, "epoch": 1.138806311456666, "step": 14940}, {"loss": 0.1243199348449707, "token_acc": 0.9517913325890591, "grad_norm": 0.9286788105964661, "learning_rate": 8.772932503904352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244647, "epoch": 1.1391874380669258, "step": 14945}, {"loss": 0.128795325756073, "token_acc": 0.9396535313154388, "grad_norm": 0.8473654985427856, "learning_rate": 8.772146697527153e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244666, "epoch": 1.1395685646771858, "step": 14950}, {"loss": 0.13803331851959227, "token_acc": 0.947929479294793, "grad_norm": 0.8285189867019653, "learning_rate": 8.771360674834846e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244687, "epoch": 1.1399496912874456, "step": 14955}, {"loss": 0.13609519004821777, "token_acc": 0.9460149553164326, "grad_norm": 0.8456258177757263, "learning_rate": 8.770574435872505e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244707, "epoch": 1.1403308178977056, "step": 14960}, {"loss": 0.15916311740875244, "token_acc": 0.9456541628545289, "grad_norm": 1.3935569524765015, "learning_rate": 8.769787980685218e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244725, "epoch": 1.1407119445079656, "step": 14965}, {"loss": 0.11329989433288574, "token_acc": 0.9592274678111588, "grad_norm": 0.732819139957428, "learning_rate": 8.769001309318085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244748, "epoch": 1.1410930711182254, "step": 14970}, {"loss": 0.10292205810546876, "token_acc": 0.9599937733499377, "grad_norm": 0.5422601699829102, "learning_rate": 8.768214421816217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244756, "epoch": 1.1414741977284855, "step": 14975}, {"loss": 0.08533362746238708, "token_acc": 0.9642041127189642, "grad_norm": 0.6721330881118774, "learning_rate": 8.767427318224737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244783, "epoch": 1.1418553243387453, "step": 14980}, {"loss": 0.1099397897720337, "token_acc": 0.944663167104112, "grad_norm": 0.6754940748214722, "learning_rate": 8.766639998588785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244803, "epoch": 1.1422364509490053, "step": 14985}, {"loss": 0.12096083164215088, "token_acc": 0.9602803738317757, "grad_norm": 0.7263115644454956, "learning_rate": 8.765852462953508e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244827, "epoch": 1.1426175775592653, "step": 14990}, {"loss": 0.1614994525909424, "token_acc": 0.936611601997695, "grad_norm": 0.7146492600440979, "learning_rate": 8.765064711364068e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244854, "epoch": 1.142998704169525, "step": 14995}, {"loss": 0.13319382667541504, "token_acc": 0.9509239624356256, "grad_norm": 1.0148382186889648, "learning_rate": 8.764276743865638e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244879, "epoch": 1.1433798307797851, "step": 15000}, {"eval_loss": 0.11213986575603485, "eval_token_acc": 0.9479925908077826, "eval_runtime": 158.4148, "eval_samples_per_second": 3.346, "eval_steps_per_second": 3.346, "epoch": 1.1433798307797851, "step": 15000}, {"loss": 0.09414032697677613, "token_acc": 0.9486597194218647, "grad_norm": 0.8521045446395874, "learning_rate": 8.763488560503408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24424, "epoch": 1.143760957390045, "step": 15005}, {"loss": 0.16544830799102783, "token_acc": 0.9204401948403391, "grad_norm": 1.1516413688659668, "learning_rate": 8.76270016132257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244258, "epoch": 1.144142084000305, "step": 15010}, {"loss": 0.14657498598098756, "token_acc": 0.9407274360125729, "grad_norm": 1.593096375465393, "learning_rate": 8.76191154636834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244269, "epoch": 1.144523210610565, "step": 15015}, {"loss": 0.1265580654144287, "token_acc": 0.9478336789261159, "grad_norm": 0.6142476797103882, "learning_rate": 8.761122715685942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24428, "epoch": 1.1449043372208247, "step": 15020}, {"loss": 0.19002195596694946, "token_acc": 0.9304451510333863, "grad_norm": 0.8141835331916809, "learning_rate": 8.760333669320608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244296, "epoch": 1.1452854638310848, "step": 15025}, {"loss": 0.11336742639541626, "token_acc": 0.9532277710109622, "grad_norm": 0.08428604900836945, "learning_rate": 8.759544407317589e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24432, "epoch": 1.1456665904413446, "step": 15030}, {"loss": 0.14064549207687377, "token_acc": 0.9470761961015948, "grad_norm": 0.7287114858627319, "learning_rate": 8.758754929722145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244324, "epoch": 1.1460477170516046, "step": 15035}, {"loss": 0.14259891510009765, "token_acc": 0.9471435353695205, "grad_norm": 0.986757218837738, "learning_rate": 8.757965236579548e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24434, "epoch": 1.1464288436618646, "step": 15040}, {"loss": 0.14767595529556274, "token_acc": 0.9495128432240921, "grad_norm": 0.5509956479072571, "learning_rate": 8.757175327935083e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244364, "epoch": 1.1468099702721244, "step": 15045}, {"loss": 0.09168213605880737, "token_acc": 0.9661255272913205, "grad_norm": 0.46354901790618896, "learning_rate": 8.75638520383405e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244369, "epoch": 1.1471910968823844, "step": 15050}, {"loss": 0.11930320262908936, "token_acc": 0.9463586530931871, "grad_norm": 0.7158856391906738, "learning_rate": 8.755594864321757e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244387, "epoch": 1.1475722234926442, "step": 15055}, {"loss": 0.14333151578903197, "token_acc": 0.9496208713532965, "grad_norm": 0.8513442873954773, "learning_rate": 8.754804309443526e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244397, "epoch": 1.1479533501029042, "step": 15060}, {"loss": 0.09215972423553467, "token_acc": 0.9577002053388091, "grad_norm": 0.854579508304596, "learning_rate": 8.754013539244692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244426, "epoch": 1.148334476713164, "step": 15065}, {"loss": 0.17512450218200684, "token_acc": 0.9483050847457627, "grad_norm": 0.7479031682014465, "learning_rate": 8.753222553770603e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244449, "epoch": 1.148715603323424, "step": 15070}, {"loss": 0.16083064079284667, "token_acc": 0.9357914812460267, "grad_norm": 0.7710641026496887, "learning_rate": 8.752431353066616e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244471, "epoch": 1.149096729933684, "step": 15075}, {"loss": 0.11266645193099975, "token_acc": 0.950712297363681, "grad_norm": 0.8333407640457153, "learning_rate": 8.751639937178107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244493, "epoch": 1.1494778565439439, "step": 15080}, {"loss": 0.11827307939529419, "token_acc": 0.9544825677919203, "grad_norm": 0.7921438813209534, "learning_rate": 8.750848306150455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24451, "epoch": 1.1498589831542039, "step": 15085}, {"loss": 0.13288892507553102, "token_acc": 0.9458377239199157, "grad_norm": 0.6485952734947205, "learning_rate": 8.750056460029059e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244528, "epoch": 1.1502401097644637, "step": 15090}, {"loss": 0.14683165550231933, "token_acc": 0.9210357372137813, "grad_norm": 0.05959833040833473, "learning_rate": 8.74926439885933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244554, "epoch": 1.1506212363747237, "step": 15095}, {"loss": 0.11480458974838256, "token_acc": 0.9485192837465565, "grad_norm": 0.9276690483093262, "learning_rate": 8.748472122686683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244574, "epoch": 1.1510023629849837, "step": 15100}, {"loss": 0.11390597820281982, "token_acc": 0.9557759867741269, "grad_norm": 0.9079185128211975, "learning_rate": 8.747679631556557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244594, "epoch": 1.1513834895952435, "step": 15105}, {"loss": 0.10988938808441162, "token_acc": 0.9588994565217391, "grad_norm": 0.943495512008667, "learning_rate": 8.746886925514395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244618, "epoch": 1.1517646162055035, "step": 15110}, {"loss": 0.1330575466156006, "token_acc": 0.9495996231747527, "grad_norm": 0.3423910140991211, "learning_rate": 8.746094004605653e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244636, "epoch": 1.1521457428157633, "step": 15115}, {"loss": 0.13739627599716187, "token_acc": 0.9459366391184573, "grad_norm": 0.5606217384338379, "learning_rate": 8.745300868875808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244661, "epoch": 1.1525268694260233, "step": 15120}, {"loss": 0.14448046684265137, "token_acc": 0.9424819678194932, "grad_norm": 1.1202778816223145, "learning_rate": 8.744507518370337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24468, "epoch": 1.1529079960362831, "step": 15125}, {"loss": 0.12370638847351074, "token_acc": 0.947866563227308, "grad_norm": 0.3090142607688904, "learning_rate": 8.743713953134736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244692, "epoch": 1.1532891226465432, "step": 15130}, {"loss": 0.14784564971923828, "token_acc": 0.9356408869659275, "grad_norm": 1.1007739305496216, "learning_rate": 8.742920173214513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244707, "epoch": 1.1536702492568032, "step": 15135}, {"loss": 0.13279253244400024, "token_acc": 0.9485232067510548, "grad_norm": 0.931355893611908, "learning_rate": 8.742126178655186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244731, "epoch": 1.154051375867063, "step": 15140}, {"loss": 0.0913454532623291, "token_acc": 0.9690667598741699, "grad_norm": 0.638060450553894, "learning_rate": 8.74133196950229e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244744, "epoch": 1.154432502477323, "step": 15145}, {"loss": 0.1265228271484375, "token_acc": 0.9510316768381285, "grad_norm": 1.0747016668319702, "learning_rate": 8.740537545801366e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244753, "epoch": 1.1548136290875828, "step": 15150}, {"loss": 0.14105077981948852, "token_acc": 0.9411920529801324, "grad_norm": 0.7324453592300415, "learning_rate": 8.739742907597973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24478, "epoch": 1.1551947556978428, "step": 15155}, {"loss": 0.16334066390991211, "token_acc": 0.9300542957521558, "grad_norm": 0.951191246509552, "learning_rate": 8.73894805493768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244797, "epoch": 1.1555758823081028, "step": 15160}, {"loss": 0.19450894594192505, "token_acc": 0.9512043704991309, "grad_norm": 0.9150108098983765, "learning_rate": 8.738152987866064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244802, "epoch": 1.1559570089183626, "step": 15165}, {"loss": 0.13020154237747192, "token_acc": 0.9495562130177515, "grad_norm": 0.9924925565719604, "learning_rate": 8.737357706428724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244815, "epoch": 1.1563381355286226, "step": 15170}, {"loss": 0.09521171450614929, "token_acc": 0.9650856389986825, "grad_norm": 0.32507431507110596, "learning_rate": 8.736562210671261e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24483, "epoch": 1.1567192621388824, "step": 15175}, {"loss": 0.09836294651031494, "token_acc": 0.9591194968553459, "grad_norm": 0.7084077000617981, "learning_rate": 8.735766500639295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244851, "epoch": 1.1571003887491424, "step": 15180}, {"loss": 0.13604525327682496, "token_acc": 0.9397697077059345, "grad_norm": 2.0652875900268555, "learning_rate": 8.734970576378458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244875, "epoch": 1.1574815153594025, "step": 15185}, {"loss": 0.15464385747909545, "token_acc": 0.9380637402285027, "grad_norm": 0.7420374751091003, "learning_rate": 8.734174437934389e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244888, "epoch": 1.1578626419696623, "step": 15190}, {"loss": 0.1267142653465271, "token_acc": 0.9540229885057471, "grad_norm": 0.6496666669845581, "learning_rate": 8.733378085352745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244905, "epoch": 1.1582437685799223, "step": 15195}, {"loss": 0.1230698823928833, "token_acc": 0.9495798319327731, "grad_norm": 1.033959150314331, "learning_rate": 8.732581518679194e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244913, "epoch": 1.158624895190182, "step": 15200}, {"eval_loss": 0.11309267580509186, "eval_token_acc": 0.9473375097885669, "eval_runtime": 160.6576, "eval_samples_per_second": 3.299, "eval_steps_per_second": 3.299, "epoch": 1.158624895190182, "step": 15200}, {"loss": 0.13024368286132812, "token_acc": 0.9475545463092199, "grad_norm": 0.8508667349815369, "learning_rate": 8.731784737959414e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244304, "epoch": 1.159006021800442, "step": 15205}, {"loss": 0.15528591871261596, "token_acc": 0.9366013071895425, "grad_norm": 1.598263144493103, "learning_rate": 8.730987743239096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244332, "epoch": 1.1593871484107021, "step": 15210}, {"loss": 0.20747644901275636, "token_acc": 0.9297395517867959, "grad_norm": 0.9266265630722046, "learning_rate": 8.730190534563945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244357, "epoch": 1.159768275020962, "step": 15215}, {"loss": 0.14198944568634034, "token_acc": 0.9463578780680918, "grad_norm": 1.4843882322311401, "learning_rate": 8.729393111979678e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244376, "epoch": 1.160149401631222, "step": 15220}, {"loss": 0.1432621717453003, "token_acc": 0.9423778264040846, "grad_norm": 0.7738968133926392, "learning_rate": 8.728595475532022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244403, "epoch": 1.1605305282414817, "step": 15225}, {"loss": 0.17608290910720825, "token_acc": 0.9275902211874273, "grad_norm": 1.2536051273345947, "learning_rate": 8.727797625266716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244423, "epoch": 1.1609116548517417, "step": 15230}, {"loss": 0.10799274444580079, "token_acc": 0.945540484997945, "grad_norm": 0.40909719467163086, "learning_rate": 8.726999561229518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244442, "epoch": 1.1612927814620018, "step": 15235}, {"loss": 0.09496196508407592, "token_acc": 0.9598517603458925, "grad_norm": 1.249367117881775, "learning_rate": 8.72620128346619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244465, "epoch": 1.1616739080722616, "step": 15240}, {"loss": 0.11940066814422608, "token_acc": 0.9581162742237966, "grad_norm": 1.3569941520690918, "learning_rate": 8.725402792022511e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244485, "epoch": 1.1620550346825216, "step": 15245}, {"loss": 0.12390017509460449, "token_acc": 0.9535608308605341, "grad_norm": 0.5919360518455505, "learning_rate": 8.724604086944267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244499, "epoch": 1.1624361612927814, "step": 15250}, {"loss": 0.18417187929153442, "token_acc": 0.9081885856079405, "grad_norm": 1.2694308757781982, "learning_rate": 8.723805168277267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244529, "epoch": 1.1628172879030414, "step": 15255}, {"loss": 0.11598962545394897, "token_acc": 0.9540425531914893, "grad_norm": 0.7929002046585083, "learning_rate": 8.723006036067317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244526, "epoch": 1.1631984145133014, "step": 15260}, {"loss": 0.10466889142990113, "token_acc": 0.9516775691074066, "grad_norm": 0.5900220274925232, "learning_rate": 8.72220669036025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244554, "epoch": 1.1635795411235612, "step": 15265}, {"loss": 0.14594424962997438, "token_acc": 0.9458087753765554, "grad_norm": 0.9482578039169312, "learning_rate": 8.721407131201902e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244565, "epoch": 1.1639606677338212, "step": 15270}, {"loss": 0.11488378047943115, "token_acc": 0.9558648786284162, "grad_norm": 0.6127783060073853, "learning_rate": 8.720607358638124e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244579, "epoch": 1.164341794344081, "step": 15275}, {"loss": 0.11078819036483764, "token_acc": 0.9608974358974359, "grad_norm": 1.4611761569976807, "learning_rate": 8.719807372714781e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244596, "epoch": 1.164722920954341, "step": 15280}, {"loss": 0.11859327554702759, "token_acc": 0.9539664804469273, "grad_norm": 1.1277974843978882, "learning_rate": 8.719007173477746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244613, "epoch": 1.165104047564601, "step": 15285}, {"loss": 0.11753822565078735, "token_acc": 0.9544832975190467, "grad_norm": 1.4730879068374634, "learning_rate": 8.718206760972907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24463, "epoch": 1.1654851741748609, "step": 15290}, {"loss": 0.1130339503288269, "token_acc": 0.9598645215918713, "grad_norm": 0.702673614025116, "learning_rate": 8.717406135246166e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244649, "epoch": 1.1658663007851209, "step": 15295}, {"loss": 0.126303768157959, "token_acc": 0.9548931680295436, "grad_norm": 1.0372339487075806, "learning_rate": 8.716605296343435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244655, "epoch": 1.1662474273953807, "step": 15300}, {"loss": 0.11490498781204224, "token_acc": 0.952856159669649, "grad_norm": 0.928277850151062, "learning_rate": 8.715804244310637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244683, "epoch": 1.1666285540056407, "step": 15305}, {"loss": 0.16258968114852906, "token_acc": 0.9337374293979886, "grad_norm": 0.9137842059135437, "learning_rate": 8.715002979193708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244692, "epoch": 1.1670096806159007, "step": 15310}, {"loss": 0.11977760791778565, "token_acc": 0.959858762311838, "grad_norm": 0.8712362051010132, "learning_rate": 8.714201501038599e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244714, "epoch": 1.1673908072261605, "step": 15315}, {"loss": 0.16022827625274658, "token_acc": 0.929299572509043, "grad_norm": 1.237574815750122, "learning_rate": 8.713399809891269e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244743, "epoch": 1.1677719338364205, "step": 15320}, {"loss": 0.08282302618026734, "token_acc": 0.958389781304432, "grad_norm": 1.0529792308807373, "learning_rate": 8.712597905797692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244757, "epoch": 1.1681530604466803, "step": 15325}, {"loss": 0.15539878606796265, "token_acc": 0.9464586201621539, "grad_norm": 0.7802228927612305, "learning_rate": 8.711795788803856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24477, "epoch": 1.1685341870569403, "step": 15330}, {"loss": 0.174909508228302, "token_acc": 0.9337270341207349, "grad_norm": 1.3973380327224731, "learning_rate": 8.710993458955753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244796, "epoch": 1.1689153136672004, "step": 15335}, {"loss": 0.18078778982162474, "token_acc": 0.9438982070561018, "grad_norm": 1.040671467781067, "learning_rate": 8.710190916299399e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244818, "epoch": 1.1692964402774602, "step": 15340}, {"loss": 0.1686447024345398, "token_acc": 0.9266383359427421, "grad_norm": 0.6526258587837219, "learning_rate": 8.709388160880812e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244841, "epoch": 1.1696775668877202, "step": 15345}, {"loss": 0.13500214815139772, "token_acc": 0.9651893360502632, "grad_norm": 0.37981587648391724, "learning_rate": 8.708585192746026e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244856, "epoch": 1.17005869349798, "step": 15350}, {"loss": 0.14339447021484375, "token_acc": 0.9490328523180841, "grad_norm": 0.9267290234565735, "learning_rate": 8.707782011941092e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244873, "epoch": 1.17043982010824, "step": 15355}, {"loss": 0.1625092625617981, "token_acc": 0.9221967963386728, "grad_norm": 0.11955124139785767, "learning_rate": 8.706978618512066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2449, "epoch": 1.1708209467184998, "step": 15360}, {"loss": 0.119148850440979, "token_acc": 0.9392541330257593, "grad_norm": 0.7671645283699036, "learning_rate": 8.706175012505015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244921, "epoch": 1.1712020733287598, "step": 15365}, {"loss": 0.18182966709136963, "token_acc": 0.9235611510791367, "grad_norm": 1.2860488891601562, "learning_rate": 8.705371193966028e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244949, "epoch": 1.1715831999390198, "step": 15370}, {"loss": 0.09445739984512329, "token_acc": 0.9545975693648245, "grad_norm": 0.7328260540962219, "learning_rate": 8.7045671629412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244969, "epoch": 1.1719643265492796, "step": 15375}, {"loss": 0.14686689376831055, "token_acc": 0.9421179973943793, "grad_norm": 0.7912675142288208, "learning_rate": 8.703762919476634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244985, "epoch": 1.1723454531595396, "step": 15380}, {"loss": 0.1516942024230957, "token_acc": 0.947676740780189, "grad_norm": 0.6493186354637146, "learning_rate": 8.702958463618454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244992, "epoch": 1.1727265797697994, "step": 15385}, {"loss": 0.11498950719833374, "token_acc": 0.9540777146367685, "grad_norm": 0.8062649965286255, "learning_rate": 8.702153795412788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245002, "epoch": 1.1731077063800595, "step": 15390}, {"loss": 0.17094634771347045, "token_acc": 0.9330016583747927, "grad_norm": 1.2523550987243652, "learning_rate": 8.701348914905782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24503, "epoch": 1.1734888329903195, "step": 15395}, {"loss": 0.15060425996780397, "token_acc": 0.9394589244473771, "grad_norm": 0.8629603385925293, "learning_rate": 8.700543822143593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245048, "epoch": 1.1738699596005793, "step": 15400}, {"eval_loss": 0.10974685102701187, "eval_token_acc": 0.9486928498283236, "eval_runtime": 158.7485, "eval_samples_per_second": 3.339, "eval_steps_per_second": 3.339, "epoch": 1.1738699596005793, "step": 15400}, {"loss": 0.10440998077392578, "token_acc": 0.9491162602331569, "grad_norm": 0.7294900417327881, "learning_rate": 8.699738517172388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244452, "epoch": 1.1742510862108393, "step": 15405}, {"loss": 0.17267327308654784, "token_acc": 0.9383508362504862, "grad_norm": 1.291364073753357, "learning_rate": 8.69893300003835e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244469, "epoch": 1.174632212821099, "step": 15410}, {"loss": 0.14803647994995117, "token_acc": 0.9389959754289345, "grad_norm": 1.5825797319412231, "learning_rate": 8.698127270787667e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244488, "epoch": 1.175013339431359, "step": 15415}, {"loss": 0.10160845518112183, "token_acc": 0.9662921348314607, "grad_norm": 0.6356317400932312, "learning_rate": 8.697321329466547e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244514, "epoch": 1.175394466041619, "step": 15420}, {"loss": 0.11745184659957886, "token_acc": 0.9491120218579235, "grad_norm": 0.9681187272071838, "learning_rate": 8.696515176121205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244542, "epoch": 1.175775592651879, "step": 15425}, {"loss": 0.11490235328674317, "token_acc": 0.9540871723282147, "grad_norm": 0.2702987790107727, "learning_rate": 8.695708810797873e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244562, "epoch": 1.176156719262139, "step": 15430}, {"loss": 0.15282104015350342, "token_acc": 0.9415437003405221, "grad_norm": 0.7735621929168701, "learning_rate": 8.694902233542792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244589, "epoch": 1.1765378458723987, "step": 15435}, {"loss": 0.16595627069473268, "token_acc": 0.9413680781758957, "grad_norm": 1.4513568878173828, "learning_rate": 8.694095444402214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244617, "epoch": 1.1769189724826588, "step": 15440}, {"loss": 0.1316475510597229, "token_acc": 0.94806654676259, "grad_norm": 0.8187140226364136, "learning_rate": 8.693288443422405e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244639, "epoch": 1.1773000990929186, "step": 15445}, {"loss": 0.10914645195007325, "token_acc": 0.9579524680073126, "grad_norm": 1.0944315195083618, "learning_rate": 8.692481230649641e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244643, "epoch": 1.1776812257031786, "step": 15450}, {"loss": 0.1696930170059204, "token_acc": 0.9374301675977653, "grad_norm": 0.9753233194351196, "learning_rate": 8.691673806130214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244664, "epoch": 1.1780623523134386, "step": 15455}, {"loss": 0.10209591388702392, "token_acc": 0.9627343392775491, "grad_norm": 0.18618640303611755, "learning_rate": 8.690866169910427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244685, "epoch": 1.1784434789236984, "step": 15460}, {"loss": 0.14055452346801758, "token_acc": 0.9433962264150944, "grad_norm": 0.9901086091995239, "learning_rate": 8.690058322036593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244713, "epoch": 1.1788246055339584, "step": 15465}, {"loss": 0.08217062950134277, "token_acc": 0.9719222462203023, "grad_norm": 0.8790974617004395, "learning_rate": 8.689250262555037e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244723, "epoch": 1.1792057321442182, "step": 15470}, {"loss": 0.15218801498413087, "token_acc": 0.9405996873667756, "grad_norm": 1.0042043924331665, "learning_rate": 8.688441991512099e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244734, "epoch": 1.1795868587544782, "step": 15475}, {"loss": 0.16309088468551636, "token_acc": 0.9416348357524829, "grad_norm": 0.760420560836792, "learning_rate": 8.687633508954129e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244744, "epoch": 1.1799679853647382, "step": 15480}, {"loss": 0.09084450006484986, "token_acc": 0.9633348547086567, "grad_norm": 1.5859681367874146, "learning_rate": 8.686824814927491e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244757, "epoch": 1.180349111974998, "step": 15485}, {"loss": 0.1329216480255127, "token_acc": 0.910874897792314, "grad_norm": 1.3473327159881592, "learning_rate": 8.686015909478558e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244788, "epoch": 1.180730238585258, "step": 15490}, {"loss": 0.12665894031524658, "token_acc": 0.9519827998088868, "grad_norm": 0.6216985583305359, "learning_rate": 8.685206792653719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244806, "epoch": 1.1811113651955178, "step": 15495}, {"loss": 0.13310775756835938, "token_acc": 0.9427670668121741, "grad_norm": 0.4470501244068146, "learning_rate": 8.68439746449937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244816, "epoch": 1.1814924918057779, "step": 15500}, {"loss": 0.1751970410346985, "token_acc": 0.9482320765774566, "grad_norm": 0.9363273978233337, "learning_rate": 8.683587925061924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244834, "epoch": 1.1818736184160379, "step": 15505}, {"loss": 0.16682401895523072, "token_acc": 0.935353922885095, "grad_norm": 1.8551082611083984, "learning_rate": 8.682778174387807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244851, "epoch": 1.1822547450262977, "step": 15510}, {"loss": 0.10499422550201416, "token_acc": 0.944206008583691, "grad_norm": 0.3091897666454315, "learning_rate": 8.681968212523451e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244879, "epoch": 1.1826358716365577, "step": 15515}, {"loss": 0.12954739332199097, "token_acc": 0.9450662739322533, "grad_norm": 0.461551696062088, "learning_rate": 8.681158039515302e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244899, "epoch": 1.1830169982468175, "step": 15520}, {"loss": 0.12848298549652098, "token_acc": 0.9444444444444444, "grad_norm": 1.3881033658981323, "learning_rate": 8.680347655409824e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244923, "epoch": 1.1833981248570775, "step": 15525}, {"loss": 0.11738846302032471, "token_acc": 0.9513602638087386, "grad_norm": 0.9536482691764832, "learning_rate": 8.679537060253486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244948, "epoch": 1.1837792514673375, "step": 15530}, {"loss": 0.1280520439147949, "token_acc": 0.9523954372623574, "grad_norm": 0.8938249349594116, "learning_rate": 8.678726254092774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244964, "epoch": 1.1841603780775973, "step": 15535}, {"loss": 0.14952415227890015, "token_acc": 0.94377990430622, "grad_norm": 0.6342135071754456, "learning_rate": 8.677915236974181e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244978, "epoch": 1.1845415046878573, "step": 15540}, {"loss": 0.1523041844367981, "token_acc": 0.9512006196746708, "grad_norm": 0.5193489789962769, "learning_rate": 8.67710400894422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244988, "epoch": 1.1849226312981171, "step": 15545}, {"loss": 0.12025766372680664, "token_acc": 0.9612437048390629, "grad_norm": 2.058776378631592, "learning_rate": 8.676292570049405e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245004, "epoch": 1.1853037579083772, "step": 15550}, {"loss": 0.1556059718132019, "token_acc": 0.9553868937430581, "grad_norm": 0.9953367710113525, "learning_rate": 8.675480920336271e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245013, "epoch": 1.1856848845186372, "step": 15555}, {"loss": 0.1146467924118042, "token_acc": 0.9623529411764706, "grad_norm": 0.5508955717086792, "learning_rate": 8.674669059851364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245021, "epoch": 1.186066011128897, "step": 15560}, {"loss": 0.13746432065963746, "token_acc": 0.9497860199714693, "grad_norm": 1.2285789251327515, "learning_rate": 8.673856988641237e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245046, "epoch": 1.186447137739157, "step": 15565}, {"loss": 0.144450044631958, "token_acc": 0.934375801076647, "grad_norm": 1.784615159034729, "learning_rate": 8.673044706752463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24507, "epoch": 1.1868282643494168, "step": 15570}, {"loss": 0.1562058448791504, "token_acc": 0.9469313348187158, "grad_norm": 0.773529052734375, "learning_rate": 8.672232214231619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245088, "epoch": 1.1872093909596768, "step": 15575}, {"loss": 0.17003366947174073, "token_acc": 0.9444320712694878, "grad_norm": 1.6124267578125, "learning_rate": 8.6714195111253e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245097, "epoch": 1.1875905175699368, "step": 15580}, {"loss": 0.15675766468048097, "token_acc": 0.9383770591824283, "grad_norm": 1.343233346939087, "learning_rate": 8.670606597480108e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245112, "epoch": 1.1879716441801966, "step": 15585}, {"loss": 0.11131103038787842, "token_acc": 0.9613807982740021, "grad_norm": 0.5944880247116089, "learning_rate": 8.66979347334266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245132, "epoch": 1.1883527707904566, "step": 15590}, {"loss": 0.11792598962783814, "token_acc": 0.9487422876127195, "grad_norm": 0.7507705092430115, "learning_rate": 8.668980138759589e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245155, "epoch": 1.1887338974007164, "step": 15595}, {"loss": 0.10193474292755127, "token_acc": 0.9587339743589743, "grad_norm": 0.496099591255188, "learning_rate": 8.668166593777531e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245171, "epoch": 1.1891150240109765, "step": 15600}, {"eval_loss": 0.10949927568435669, "eval_token_acc": 0.9488283838322993, "eval_runtime": 157.95, "eval_samples_per_second": 3.355, "eval_steps_per_second": 3.355, "epoch": 1.1891150240109765, "step": 15600}, {"loss": 0.09314851760864258, "token_acc": 0.9500335486035394, "grad_norm": 0.6254851222038269, "learning_rate": 8.667352838443144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24456, "epoch": 1.1894961506212365, "step": 15605}, {"loss": 0.15930067300796508, "token_acc": 0.9387334820662433, "grad_norm": 0.8940487504005432, "learning_rate": 8.666538872803087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244576, "epoch": 1.1898772772314963, "step": 15610}, {"loss": 0.15432335138320924, "token_acc": 0.9517241379310345, "grad_norm": 0.5735794305801392, "learning_rate": 8.665724696904043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24458, "epoch": 1.1902584038417563, "step": 15615}, {"loss": 0.20740699768066406, "token_acc": 0.9142491467576792, "grad_norm": 1.8929848670959473, "learning_rate": 8.664910310792697e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244607, "epoch": 1.190639530452016, "step": 15620}, {"loss": 0.15379525423049928, "token_acc": 0.9409730228268388, "grad_norm": 1.5022095441818237, "learning_rate": 8.664095714515754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244624, "epoch": 1.1910206570622761, "step": 15625}, {"loss": 0.060064852237701416, "token_acc": 0.9789750328515112, "grad_norm": 0.5857786536216736, "learning_rate": 8.663280908119923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244656, "epoch": 1.1914017836725361, "step": 15630}, {"loss": 0.07783631086349488, "token_acc": 0.9616971125515615, "grad_norm": 0.08278290927410126, "learning_rate": 8.662465891651932e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24468, "epoch": 1.191782910282796, "step": 15635}, {"loss": 0.10311132669448853, "token_acc": 0.9491159982751186, "grad_norm": 1.2153772115707397, "learning_rate": 8.66165066515852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24471, "epoch": 1.192164036893056, "step": 15640}, {"loss": 0.12466132640838623, "token_acc": 0.9400272603362109, "grad_norm": 0.2157495617866516, "learning_rate": 8.660835228686432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244729, "epoch": 1.1925451635033157, "step": 15645}, {"loss": 0.11552400588989258, "token_acc": 0.951071761416589, "grad_norm": 1.6295340061187744, "learning_rate": 8.660019582282432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244759, "epoch": 1.1929262901135758, "step": 15650}, {"loss": 0.11986469030380249, "token_acc": 0.9437346437346438, "grad_norm": 0.034936126321554184, "learning_rate": 8.659203725993296e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244785, "epoch": 1.1933074167238358, "step": 15655}, {"loss": 0.16565303802490233, "token_acc": 0.9371381306865177, "grad_norm": 0.8410263061523438, "learning_rate": 8.658387659865805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244806, "epoch": 1.1936885433340956, "step": 15660}, {"loss": 0.102394700050354, "token_acc": 0.955153791969946, "grad_norm": 0.6600218415260315, "learning_rate": 8.65757138394676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244832, "epoch": 1.1940696699443556, "step": 15665}, {"loss": 0.17225127220153807, "token_acc": 0.9307740717432348, "grad_norm": 1.1341533660888672, "learning_rate": 8.656754898282968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244857, "epoch": 1.1944507965546154, "step": 15670}, {"loss": 0.1484083652496338, "token_acc": 0.9420289855072463, "grad_norm": 0.8788964748382568, "learning_rate": 8.655938202921253e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244884, "epoch": 1.1948319231648754, "step": 15675}, {"loss": 0.136228609085083, "token_acc": 0.9515794924909373, "grad_norm": 1.010901689529419, "learning_rate": 8.655121297908447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244904, "epoch": 1.1952130497751352, "step": 15680}, {"loss": 0.15194953680038453, "token_acc": 0.9472767968167123, "grad_norm": 1.6960610151290894, "learning_rate": 8.654304183291398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244929, "epoch": 1.1955941763853952, "step": 15685}, {"loss": 0.15752742290496827, "token_acc": 0.9389458621512043, "grad_norm": 0.7076501250267029, "learning_rate": 8.653486859116959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24495, "epoch": 1.1959753029956552, "step": 15690}, {"loss": 0.1388368248939514, "token_acc": 0.9372411596049698, "grad_norm": 0.7482985258102417, "learning_rate": 8.652669325432006e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244978, "epoch": 1.196356429605915, "step": 15695}, {"loss": 0.09900745153427123, "token_acc": 0.963320058687906, "grad_norm": 0.6396218538284302, "learning_rate": 8.651851582283417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244993, "epoch": 1.196737556216175, "step": 15700}, {"loss": 0.13875975608825683, "token_acc": 0.9521077024939307, "grad_norm": 0.9170348644256592, "learning_rate": 8.651033629718085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245013, "epoch": 1.1971186828264349, "step": 15705}, {"loss": 0.17269353866577147, "token_acc": 0.9453781512605042, "grad_norm": 0.7421585321426392, "learning_rate": 8.650215467782919e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245029, "epoch": 1.1974998094366949, "step": 15710}, {"loss": 0.17152791023254393, "token_acc": 0.941958041958042, "grad_norm": 1.0272371768951416, "learning_rate": 8.649397096524832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245044, "epoch": 1.197880936046955, "step": 15715}, {"loss": 0.1595659613609314, "token_acc": 0.9454849498327759, "grad_norm": 0.9068253636360168, "learning_rate": 8.64857851599076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245068, "epoch": 1.1982620626572147, "step": 15720}, {"loss": 0.12419443130493164, "token_acc": 0.9462897526501767, "grad_norm": 0.7580740451812744, "learning_rate": 8.64775972622764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245094, "epoch": 1.1986431892674747, "step": 15725}, {"loss": 0.16741663217544556, "token_acc": 0.9327195467422096, "grad_norm": 0.9802871346473694, "learning_rate": 8.646940727282427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245121, "epoch": 1.1990243158777345, "step": 15730}, {"loss": 0.18072489500045777, "token_acc": 0.9344744584113399, "grad_norm": 0.9984568357467651, "learning_rate": 8.646121519202088e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245135, "epoch": 1.1994054424879945, "step": 15735}, {"loss": 0.11003752946853637, "token_acc": 0.955937794533459, "grad_norm": 1.0426232814788818, "learning_rate": 8.6453021020336e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245155, "epoch": 1.1997865690982543, "step": 15740}, {"loss": 0.1158212423324585, "token_acc": 0.9469244288224956, "grad_norm": 1.4015369415283203, "learning_rate": 8.644482475823954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245183, "epoch": 1.2001676957085143, "step": 15745}, {"loss": 0.15168803930282593, "token_acc": 0.9420875420875421, "grad_norm": 0.26828399300575256, "learning_rate": 8.643662640620148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245209, "epoch": 1.2005488223187744, "step": 15750}, {"loss": 0.1827712893486023, "token_acc": 0.9277647560196036, "grad_norm": 0.9683685302734375, "learning_rate": 8.642842596469199e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245229, "epoch": 1.2009299489290342, "step": 15755}, {"loss": 0.16164228916168213, "token_acc": 0.9485131690739167, "grad_norm": 1.439871072769165, "learning_rate": 8.642022343418133e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245242, "epoch": 1.2013110755392942, "step": 15760}, {"loss": 0.14125605821609497, "token_acc": 0.9570159123785906, "grad_norm": 0.9930106401443481, "learning_rate": 8.641201881513985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24526, "epoch": 1.201692202149554, "step": 15765}, {"loss": 0.17500603199005127, "token_acc": 0.9268236908300937, "grad_norm": 0.9577664136886597, "learning_rate": 8.640381210803808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245279, "epoch": 1.202073328759814, "step": 15770}, {"loss": 0.10504404306411744, "token_acc": 0.9545849002024877, "grad_norm": 0.6015380024909973, "learning_rate": 8.639560331334662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245302, "epoch": 1.202454455370074, "step": 15775}, {"loss": 0.14085274934768677, "token_acc": 0.949814126394052, "grad_norm": 0.6197881102561951, "learning_rate": 8.63873924315362e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245306, "epoch": 1.2028355819803338, "step": 15780}, {"loss": 0.12354809045791626, "token_acc": 0.9501192004401247, "grad_norm": 0.49084654450416565, "learning_rate": 8.637917946307768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245318, "epoch": 1.2032167085905938, "step": 15785}, {"loss": 0.08869106769561767, "token_acc": 0.9635974304068522, "grad_norm": 0.7021044492721558, "learning_rate": 8.637096440844202e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245336, "epoch": 1.2035978352008536, "step": 15790}, {"loss": 0.10839877128601075, "token_acc": 0.955249569707401, "grad_norm": 0.8917171359062195, "learning_rate": 8.636274726810037e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245359, "epoch": 1.2039789618111136, "step": 15795}, {"loss": 0.19416491985321044, "token_acc": 0.9450234103609727, "grad_norm": 0.47438985109329224, "learning_rate": 8.635452804252388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245368, "epoch": 1.2043600884213737, "step": 15800}, {"eval_loss": 0.10888304561376572, "eval_token_acc": 0.9494608758508524, "eval_runtime": 160.7788, "eval_samples_per_second": 3.296, "eval_steps_per_second": 3.296, "epoch": 1.2043600884213737, "step": 15800}, {"loss": 0.13567349910736085, "token_acc": 0.949237296696636, "grad_norm": 0.7827815413475037, "learning_rate": 8.634630673218393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244767, "epoch": 1.2047412150316335, "step": 15805}, {"loss": 0.12117927074432373, "token_acc": 0.9606437454279444, "grad_norm": 0.4082328677177429, "learning_rate": 8.633808333755193e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244782, "epoch": 1.2051223416418935, "step": 15810}, {"loss": 0.1369357943534851, "token_acc": 0.9481884057971014, "grad_norm": 0.6525883674621582, "learning_rate": 8.63298578590995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244797, "epoch": 1.2055034682521533, "step": 15815}, {"loss": 0.12826080322265626, "token_acc": 0.9504482477587612, "grad_norm": 1.0739715099334717, "learning_rate": 8.632163029729831e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244808, "epoch": 1.2058845948624133, "step": 15820}, {"loss": 0.13622546195983887, "token_acc": 0.9423772609819121, "grad_norm": 1.1617728471755981, "learning_rate": 8.631340065262018e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244831, "epoch": 1.2062657214726733, "step": 15825}, {"loss": 0.13062527179718017, "token_acc": 0.9404553415061296, "grad_norm": 1.6007927656173706, "learning_rate": 8.630516892553703e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244858, "epoch": 1.206646848082933, "step": 15830}, {"loss": 0.13574250936508178, "token_acc": 0.9477265697494587, "grad_norm": 0.9140941500663757, "learning_rate": 8.629693511652092e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244873, "epoch": 1.2070279746931931, "step": 15835}, {"loss": 0.10227218866348267, "token_acc": 0.9476772616136919, "grad_norm": 0.3883593678474426, "learning_rate": 8.628869922604403e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244896, "epoch": 1.207409101303453, "step": 15840}, {"loss": 0.10925573110580444, "token_acc": 0.9474954737477369, "grad_norm": 0.05199310556054115, "learning_rate": 8.628046125457862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244923, "epoch": 1.207790227913713, "step": 15845}, {"loss": 0.2327803373336792, "token_acc": 0.9088380716934487, "grad_norm": 1.6014018058776855, "learning_rate": 8.627222120259714e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244946, "epoch": 1.208171354523973, "step": 15850}, {"loss": 0.09664825797080993, "token_acc": 0.9623081406644647, "grad_norm": 0.7493191957473755, "learning_rate": 8.626397907057209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244966, "epoch": 1.2085524811342327, "step": 15855}, {"loss": 0.18731815814971925, "token_acc": 0.9222021910969352, "grad_norm": 1.074459195137024, "learning_rate": 8.625573485897613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244981, "epoch": 1.2089336077444928, "step": 15860}, {"loss": 0.14536923170089722, "token_acc": 0.9411764705882353, "grad_norm": 0.8230160474777222, "learning_rate": 8.624748856828201e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245002, "epoch": 1.2093147343547526, "step": 15865}, {"loss": 0.17896480560302735, "token_acc": 0.9228855721393034, "grad_norm": 1.1192909479141235, "learning_rate": 8.623924019896263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245026, "epoch": 1.2096958609650126, "step": 15870}, {"loss": 0.19663692712783815, "token_acc": 0.9253466050479915, "grad_norm": 0.6741317510604858, "learning_rate": 8.6230989751491e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245035, "epoch": 1.2100769875752726, "step": 15875}, {"loss": 0.10869425535202026, "token_acc": 0.9517799352750809, "grad_norm": 0.47300955653190613, "learning_rate": 8.622273722634024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245062, "epoch": 1.2104581141855324, "step": 15880}, {"loss": 0.12261606454849243, "token_acc": 0.9543232915666934, "grad_norm": 0.706558108329773, "learning_rate": 8.62144826239836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245055, "epoch": 1.2108392407957924, "step": 15885}, {"loss": 0.14339258670806884, "token_acc": 0.9480640357408786, "grad_norm": 0.9239067435264587, "learning_rate": 8.620622594489443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245075, "epoch": 1.2112203674060522, "step": 15890}, {"loss": 0.12770410776138305, "token_acc": 0.9358757062146893, "grad_norm": 0.8928197622299194, "learning_rate": 8.619796718954623e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245101, "epoch": 1.2116014940163122, "step": 15895}, {"loss": 0.1283632755279541, "token_acc": 0.9529355835512241, "grad_norm": 0.9507559537887573, "learning_rate": 8.618970635841258e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245122, "epoch": 1.2119826206265722, "step": 15900}, {"loss": 0.15555522441864014, "token_acc": 0.9422502489213409, "grad_norm": 1.3958762884140015, "learning_rate": 8.618144345196721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24514, "epoch": 1.212363747236832, "step": 15905}, {"loss": 0.10153658390045166, "token_acc": 0.9442115446630119, "grad_norm": 0.10395362973213196, "learning_rate": 8.617317847068397e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245166, "epoch": 1.212744873847092, "step": 15910}, {"loss": 0.1260540723800659, "token_acc": 0.9536866744691523, "grad_norm": 0.49249958992004395, "learning_rate": 8.61649114150368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245184, "epoch": 1.2131260004573519, "step": 15915}, {"loss": 0.1368972420692444, "token_acc": 0.9256489221293445, "grad_norm": 0.14692093431949615, "learning_rate": 8.615664228549979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245213, "epoch": 1.2135071270676119, "step": 15920}, {"loss": 0.10539435148239136, "token_acc": 0.9557762960947067, "grad_norm": 0.6109350919723511, "learning_rate": 8.614837108254713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245225, "epoch": 1.213888253677872, "step": 15925}, {"loss": 0.1267549991607666, "token_acc": 0.9577239030254459, "grad_norm": 0.719002902507782, "learning_rate": 8.614009780665314e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245228, "epoch": 1.2142693802881317, "step": 15930}, {"loss": 0.1612454891204834, "token_acc": 0.9325890940317733, "grad_norm": 0.9963420033454895, "learning_rate": 8.613182245829226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245256, "epoch": 1.2146505068983917, "step": 15935}, {"loss": 0.1581188678741455, "token_acc": 0.932569558101473, "grad_norm": 1.1787956953048706, "learning_rate": 8.612354503793902e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245283, "epoch": 1.2150316335086515, "step": 15940}, {"loss": 0.15772944688796997, "token_acc": 0.9376448771441818, "grad_norm": 0.7018942832946777, "learning_rate": 8.61152655460681e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245306, "epoch": 1.2154127601189115, "step": 15945}, {"loss": 0.1264857292175293, "token_acc": 0.945141065830721, "grad_norm": 0.4029046297073364, "learning_rate": 8.610698398315431e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245328, "epoch": 1.2157938867291715, "step": 15950}, {"loss": 0.1959424376487732, "token_acc": 0.9392953929539295, "grad_norm": 1.4024724960327148, "learning_rate": 8.609870034967253e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245344, "epoch": 1.2161750133394313, "step": 15955}, {"loss": 0.14989123344421387, "token_acc": 0.9505383580080754, "grad_norm": 0.48563823103904724, "learning_rate": 8.609041464609782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245368, "epoch": 1.2165561399496914, "step": 15960}, {"loss": 0.19434041976928712, "token_acc": 0.935859230878388, "grad_norm": 1.5315569639205933, "learning_rate": 8.608212687290531e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245382, "epoch": 1.2169372665599512, "step": 15965}, {"loss": 0.13692327737808227, "token_acc": 0.9494543365881677, "grad_norm": 2.983673572540283, "learning_rate": 8.607383703057026e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245404, "epoch": 1.2173183931702112, "step": 15970}, {"loss": 0.1288262963294983, "token_acc": 0.9515175404020496, "grad_norm": 0.6809452176094055, "learning_rate": 8.606554511956805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245424, "epoch": 1.2176995197804712, "step": 15975}, {"loss": 0.14783220291137694, "token_acc": 0.937702922077922, "grad_norm": 1.2504374980926514, "learning_rate": 8.605725114037422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245442, "epoch": 1.218080646390731, "step": 15980}, {"loss": 0.102177894115448, "token_acc": 0.9572903629536921, "grad_norm": 0.8203782439231873, "learning_rate": 8.604895509346433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245454, "epoch": 1.218461773000991, "step": 15985}, {"loss": 0.1759890079498291, "token_acc": 0.9277742682670036, "grad_norm": 0.7793991565704346, "learning_rate": 8.604065697931418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245477, "epoch": 1.2188428996112508, "step": 15990}, {"loss": 0.18720703125, "token_acc": 0.933494431603278, "grad_norm": 0.5459764003753662, "learning_rate": 8.603235679839959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245485, "epoch": 1.2192240262215108, "step": 15995}, {"loss": 0.13662257194519042, "token_acc": 0.954750346740638, "grad_norm": 1.2532260417938232, "learning_rate": 8.602405455119656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2455, "epoch": 1.2196051528317706, "step": 16000}, {"eval_loss": 0.10765693336725235, "eval_token_acc": 0.9499804228660924, "eval_runtime": 161.6495, "eval_samples_per_second": 3.279, "eval_steps_per_second": 3.279, "epoch": 1.2196051528317706, "step": 16000}, {"loss": 0.1702946901321411, "token_acc": 0.9496507164137791, "grad_norm": 0.6384474039077759, "learning_rate": 8.601575023818115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244911, "epoch": 1.2199862794420306, "step": 16005}, {"loss": 0.1425405979156494, "token_acc": 0.9548547717842324, "grad_norm": 0.9726187586784363, "learning_rate": 8.60074438598296e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244926, "epoch": 1.2203674060522907, "step": 16010}, {"loss": 0.12409054040908814, "token_acc": 0.934047619047619, "grad_norm": 0.7182465195655823, "learning_rate": 8.599913541661825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244952, "epoch": 1.2207485326625505, "step": 16015}, {"loss": 0.13901689052581787, "token_acc": 0.9472693032015066, "grad_norm": 0.9416847229003906, "learning_rate": 8.599082490902354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244971, "epoch": 1.2211296592728105, "step": 16020}, {"loss": 0.10334191322326661, "token_acc": 0.9538539553752535, "grad_norm": 0.16284970939159393, "learning_rate": 8.598251233752203e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245, "epoch": 1.2215107858830703, "step": 16025}, {"loss": 0.13739452362060547, "token_acc": 0.9483311660164716, "grad_norm": 0.8743412494659424, "learning_rate": 8.597419770259044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24499, "epoch": 1.2218919124933303, "step": 16030}, {"loss": 0.11962087154388427, "token_acc": 0.9538190512142947, "grad_norm": 0.47932201623916626, "learning_rate": 8.596588100470553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244997, "epoch": 1.2222730391035903, "step": 16035}, {"loss": 0.11554520130157471, "token_acc": 0.9540955631399317, "grad_norm": 0.6411938071250916, "learning_rate": 8.595756224434425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245012, "epoch": 1.22265416571385, "step": 16040}, {"loss": 0.2054734468460083, "token_acc": 0.9259470236399886, "grad_norm": 0.708158552646637, "learning_rate": 8.594924142198364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245023, "epoch": 1.2230352923241101, "step": 16045}, {"loss": 0.12679922580718994, "token_acc": 0.9533145275035261, "grad_norm": 0.6682152152061462, "learning_rate": 8.594091853810087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245031, "epoch": 1.22341641893437, "step": 16050}, {"loss": 0.1569245457649231, "token_acc": 0.9481351981351981, "grad_norm": 0.6523780822753906, "learning_rate": 8.59325935931732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245051, "epoch": 1.22379754554463, "step": 16055}, {"loss": 0.10363597869873047, "token_acc": 0.9558843308675185, "grad_norm": 0.8597134947776794, "learning_rate": 8.592426658767803e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245061, "epoch": 1.2241786721548897, "step": 16060}, {"loss": 0.12690383195877075, "token_acc": 0.9537845057880677, "grad_norm": 0.5574375987052917, "learning_rate": 8.591593752209288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245054, "epoch": 1.2245597987651498, "step": 16065}, {"loss": 0.18539944887161255, "token_acc": 0.9324473975636767, "grad_norm": 0.6397616267204285, "learning_rate": 8.590760639689539e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245071, "epoch": 1.2249409253754098, "step": 16070}, {"loss": 0.15264731645584106, "token_acc": 0.9356622998544396, "grad_norm": 0.5023388266563416, "learning_rate": 8.58992732125633e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245094, "epoch": 1.2253220519856696, "step": 16075}, {"loss": 0.14215537309646606, "token_acc": 0.9486088379705401, "grad_norm": 0.7483315467834473, "learning_rate": 8.58909379695745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245104, "epoch": 1.2257031785959296, "step": 16080}, {"loss": 0.13580310344696045, "token_acc": 0.9340746624305004, "grad_norm": 0.9191861152648926, "learning_rate": 8.588260066840694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245125, "epoch": 1.2260843052061894, "step": 16085}, {"loss": 0.13323121070861815, "token_acc": 0.947333480858597, "grad_norm": 1.4546343088150024, "learning_rate": 8.587426130953876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245144, "epoch": 1.2264654318164494, "step": 16090}, {"loss": 0.1484699845314026, "token_acc": 0.9420977169956987, "grad_norm": 1.099069356918335, "learning_rate": 8.586591989344816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245154, "epoch": 1.2268465584267094, "step": 16095}, {"loss": 0.15352662801742553, "token_acc": 0.9432672590567327, "grad_norm": 0.8957284092903137, "learning_rate": 8.58575764206135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245176, "epoch": 1.2272276850369692, "step": 16100}, {"loss": 0.11999895572662353, "token_acc": 0.9593679458239278, "grad_norm": 1.0219942331314087, "learning_rate": 8.584923089151324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245202, "epoch": 1.2276088116472292, "step": 16105}, {"loss": 0.13033831119537354, "token_acc": 0.9480986639260021, "grad_norm": 1.288794755935669, "learning_rate": 8.584088330662593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245222, "epoch": 1.227989938257489, "step": 16110}, {"loss": 0.1975583553314209, "token_acc": 0.9361491175887369, "grad_norm": 1.104875922203064, "learning_rate": 8.583253366643029e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245238, "epoch": 1.228371064867749, "step": 16115}, {"loss": 0.14043872356414794, "token_acc": 0.9478307637145931, "grad_norm": 0.8471193313598633, "learning_rate": 8.582418197140513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245255, "epoch": 1.228752191478009, "step": 16120}, {"loss": 0.09041902422904968, "token_acc": 0.9600461006530926, "grad_norm": 0.23152922093868256, "learning_rate": 8.581582822202939e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245272, "epoch": 1.2291333180882689, "step": 16125}, {"loss": 0.1333345890045166, "token_acc": 0.9382566585956417, "grad_norm": 0.9142738580703735, "learning_rate": 8.580747241878209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245294, "epoch": 1.2295144446985289, "step": 16130}, {"loss": 0.13622759580612182, "token_acc": 0.9469596094096759, "grad_norm": 1.1701644659042358, "learning_rate": 8.579911456214243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245311, "epoch": 1.2298955713087887, "step": 16135}, {"loss": 0.1396502137184143, "token_acc": 0.9413292920545573, "grad_norm": 1.0073952674865723, "learning_rate": 8.579075465258966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245329, "epoch": 1.2302766979190487, "step": 16140}, {"loss": 0.1352464437484741, "token_acc": 0.9448759709346028, "grad_norm": 0.7338088154792786, "learning_rate": 8.578239269060322e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245351, "epoch": 1.2306578245293087, "step": 16145}, {"loss": 0.14350303411483764, "token_acc": 0.9498313040927094, "grad_norm": 0.56617271900177, "learning_rate": 8.57740286766626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245359, "epoch": 1.2310389511395685, "step": 16150}, {"loss": 0.13511101007461548, "token_acc": 0.9497809762202754, "grad_norm": 0.7738737463951111, "learning_rate": 8.576566261124744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245369, "epoch": 1.2314200777498285, "step": 16155}, {"loss": 0.09294385313987732, "token_acc": 0.9539319248826291, "grad_norm": 0.7543452978134155, "learning_rate": 8.57572944948375e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245391, "epoch": 1.2318012043600883, "step": 16160}, {"loss": 0.10364333391189576, "token_acc": 0.9556797020484171, "grad_norm": 1.1241014003753662, "learning_rate": 8.574892432791268e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245408, "epoch": 1.2321823309703483, "step": 16165}, {"loss": 0.15829126834869384, "token_acc": 0.9444979532867807, "grad_norm": 0.6214132905006409, "learning_rate": 8.574055211095292e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24541, "epoch": 1.2325634575806084, "step": 16170}, {"loss": 0.14953093528747557, "token_acc": 0.9428657344760186, "grad_norm": 0.860433042049408, "learning_rate": 8.573217784443837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245418, "epoch": 1.2329445841908682, "step": 16175}, {"loss": 0.12000889778137207, "token_acc": 0.9553333333333334, "grad_norm": 1.0455974340438843, "learning_rate": 8.572380152884923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245437, "epoch": 1.2333257108011282, "step": 16180}, {"loss": 0.15520564317703248, "token_acc": 0.9447749809305873, "grad_norm": 0.9940935969352722, "learning_rate": 8.571542316466583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245448, "epoch": 1.233706837411388, "step": 16185}, {"loss": 0.12008627653121948, "token_acc": 0.9549254816430389, "grad_norm": 0.6602475047111511, "learning_rate": 8.570704275236869e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245456, "epoch": 1.234087964021648, "step": 16190}, {"loss": 0.19270925521850585, "token_acc": 0.919500346981263, "grad_norm": 0.43843433260917664, "learning_rate": 8.569866029243831e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245481, "epoch": 1.234469090631908, "step": 16195}, {"loss": 0.1280996561050415, "token_acc": 0.9569446946496127, "grad_norm": 1.0461527109146118, "learning_rate": 8.569027578535545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245498, "epoch": 1.2348502172421678, "step": 16200}, {"eval_loss": 0.1076628789305687, "eval_token_acc": 0.9496189988554906, "eval_runtime": 161.5295, "eval_samples_per_second": 3.281, "eval_steps_per_second": 3.281, "epoch": 1.2348502172421678, "step": 16200}, {"loss": 0.12476699352264405, "token_acc": 0.9497708187667295, "grad_norm": 1.022774577140808, "learning_rate": 8.568188923160089e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244904, "epoch": 1.2352313438524278, "step": 16205}, {"loss": 0.1749922513961792, "token_acc": 0.9320887445887446, "grad_norm": 1.008844256401062, "learning_rate": 8.567350063165557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244928, "epoch": 1.2356124704626876, "step": 16210}, {"loss": 0.19828248023986816, "token_acc": 0.9346955681347507, "grad_norm": 0.8388006687164307, "learning_rate": 8.566510998600055e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244937, "epoch": 1.2359935970729476, "step": 16215}, {"loss": 0.1534719228744507, "token_acc": 0.9482410028305701, "grad_norm": 1.3474334478378296, "learning_rate": 8.565671729511695e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244954, "epoch": 1.2363747236832077, "step": 16220}, {"loss": 0.13751211166381835, "token_acc": 0.9480043442845506, "grad_norm": 0.9822812080383301, "learning_rate": 8.56483225594861e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244975, "epoch": 1.2367558502934675, "step": 16225}, {"loss": 0.10468108654022217, "token_acc": 0.9591907115760432, "grad_norm": 1.3502331972122192, "learning_rate": 8.563992577958937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24498, "epoch": 1.2371369769037275, "step": 16230}, {"loss": 0.16945064067840576, "token_acc": 0.9434931506849316, "grad_norm": 0.734050452709198, "learning_rate": 8.563152695590828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244993, "epoch": 1.2375181035139873, "step": 16235}, {"loss": 0.14653047323226928, "token_acc": 0.9507986309184255, "grad_norm": 1.1526421308517456, "learning_rate": 8.562312608892447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245005, "epoch": 1.2378992301242473, "step": 16240}, {"loss": 0.1089218258857727, "token_acc": 0.953121373868647, "grad_norm": 0.9251593947410583, "learning_rate": 8.561472317911971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245029, "epoch": 1.2382803567345073, "step": 16245}, {"loss": 0.14373908042907715, "token_acc": 0.9377880184331797, "grad_norm": 0.8780396580696106, "learning_rate": 8.560631822697582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245053, "epoch": 1.2386614833447671, "step": 16250}, {"loss": 0.11026408672332763, "token_acc": 0.956318480642805, "grad_norm": 0.6174344420433044, "learning_rate": 8.559791123297483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245058, "epoch": 1.2390426099550271, "step": 16255}, {"loss": 0.17896136045455932, "token_acc": 0.943562110039705, "grad_norm": 2.2393927574157715, "learning_rate": 8.558950219759882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245078, "epoch": 1.239423736565287, "step": 16260}, {"loss": 0.11942565441131592, "token_acc": 0.945926800472255, "grad_norm": 0.8893852829933167, "learning_rate": 8.558109112133004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245101, "epoch": 1.239804863175547, "step": 16265}, {"loss": 0.1296193242073059, "token_acc": 0.9412670479542455, "grad_norm": 0.9451327323913574, "learning_rate": 8.557267800465077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24512, "epoch": 1.240185989785807, "step": 16270}, {"loss": 0.1145636796951294, "token_acc": 0.9564516129032258, "grad_norm": 0.6511697173118591, "learning_rate": 8.556426284804351e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245147, "epoch": 1.2405671163960668, "step": 16275}, {"loss": 0.06572734713554382, "token_acc": 0.9666913397483345, "grad_norm": 1.461281180381775, "learning_rate": 8.555584565199079e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245172, "epoch": 1.2409482430063268, "step": 16280}, {"loss": 0.09961251020431519, "token_acc": 0.9528130671506352, "grad_norm": 0.6185061931610107, "learning_rate": 8.554742641697535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245185, "epoch": 1.2413293696165866, "step": 16285}, {"loss": 0.11793203353881836, "token_acc": 0.9545622460288142, "grad_norm": 0.9334349036216736, "learning_rate": 8.553900514347994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24521, "epoch": 1.2417104962268466, "step": 16290}, {"loss": 0.09529297351837158, "token_acc": 0.9651732269181934, "grad_norm": 0.9299949407577515, "learning_rate": 8.553058183198753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245222, "epoch": 1.2420916228371064, "step": 16295}, {"loss": 0.16186554431915284, "token_acc": 0.9357547764014277, "grad_norm": 1.369661808013916, "learning_rate": 8.552215648298113e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245239, "epoch": 1.2424727494473664, "step": 16300}, {"loss": 0.11763108968734741, "token_acc": 0.9580162686958803, "grad_norm": 1.834374189376831, "learning_rate": 8.551372909694389e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245261, "epoch": 1.2428538760576264, "step": 16305}, {"loss": 0.11769866943359375, "token_acc": 0.9575956596230726, "grad_norm": 1.0423831939697266, "learning_rate": 8.550529967435909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245272, "epoch": 1.2432350026678862, "step": 16310}, {"loss": 0.1259806513786316, "token_acc": 0.9440507273405446, "grad_norm": 0.640189528465271, "learning_rate": 8.549686821571012e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245298, "epoch": 1.2436161292781462, "step": 16315}, {"loss": 0.18629682064056396, "token_acc": 0.9366583541147132, "grad_norm": 0.9018551707267761, "learning_rate": 8.548843472148049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245306, "epoch": 1.243997255888406, "step": 16320}, {"loss": 0.1318651556968689, "token_acc": 0.9460930640913081, "grad_norm": 0.812984824180603, "learning_rate": 8.54799991921538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245319, "epoch": 1.244378382498666, "step": 16325}, {"loss": 0.11338679790496826, "token_acc": 0.9498855253116255, "grad_norm": 0.4474635720252991, "learning_rate": 8.547156162821382e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245327, "epoch": 1.244759509108926, "step": 16330}, {"loss": 0.1202282190322876, "token_acc": 0.9558554437328454, "grad_norm": 0.9136907458305359, "learning_rate": 8.546312203014438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245347, "epoch": 1.2451406357191859, "step": 16335}, {"loss": 0.1217921495437622, "token_acc": 0.9565377532228361, "grad_norm": 0.6102603077888489, "learning_rate": 8.545468039842945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245355, "epoch": 1.245521762329446, "step": 16340}, {"loss": 0.08639991283416748, "token_acc": 0.9613460663938154, "grad_norm": 0.8213858008384705, "learning_rate": 8.544623673355314e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245367, "epoch": 1.2459028889397057, "step": 16345}, {"loss": 0.16746288537979126, "token_acc": 0.9406820365033621, "grad_norm": 0.6500285863876343, "learning_rate": 8.543779103599964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245387, "epoch": 1.2462840155499657, "step": 16350}, {"loss": 0.12734637260437012, "token_acc": 0.9531165311653117, "grad_norm": 0.950935423374176, "learning_rate": 8.54293433062533e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245401, "epoch": 1.2466651421602255, "step": 16355}, {"loss": 0.1124348759651184, "token_acc": 0.9591836734693877, "grad_norm": 0.7351865768432617, "learning_rate": 8.54208935447985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24543, "epoch": 1.2470462687704855, "step": 16360}, {"loss": 0.15277912616729736, "token_acc": 0.9322274881516588, "grad_norm": 1.1125338077545166, "learning_rate": 8.541244175211984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245455, "epoch": 1.2474273953807455, "step": 16365}, {"loss": 0.2022336959838867, "token_acc": 0.9228992203291944, "grad_norm": 1.076313853263855, "learning_rate": 8.540398792870199e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245477, "epoch": 1.2478085219910053, "step": 16370}, {"loss": 0.10317001342773438, "token_acc": 0.9590984974958264, "grad_norm": 1.180124282836914, "learning_rate": 8.539553207502971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245501, "epoch": 1.2481896486012654, "step": 16375}, {"loss": 0.13459961414337157, "token_acc": 0.9444880037635252, "grad_norm": 1.0889081954956055, "learning_rate": 8.538707419158793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245513, "epoch": 1.2485707752115252, "step": 16380}, {"loss": 0.15145862102508545, "token_acc": 0.9526451089162495, "grad_norm": 0.9878136515617371, "learning_rate": 8.537861427886167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245528, "epoch": 1.2489519018217852, "step": 16385}, {"loss": 0.06706008911132813, "token_acc": 0.9724349157733537, "grad_norm": 0.6209480166435242, "learning_rate": 8.537015233733606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245549, "epoch": 1.2493330284320452, "step": 16390}, {"loss": 0.10744179487228393, "token_acc": 0.9530596731280881, "grad_norm": 0.9216794371604919, "learning_rate": 8.536168836749632e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245564, "epoch": 1.249714155042305, "step": 16395}, {"loss": 0.10428780317306519, "token_acc": 0.9600868856910127, "grad_norm": 0.5902736186981201, "learning_rate": 8.535322236982788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245575, "epoch": 1.250095281652565, "step": 16400}, {"eval_loss": 0.10671170800924301, "eval_token_acc": 0.9503343172098067, "eval_runtime": 160.9739, "eval_samples_per_second": 3.292, "eval_steps_per_second": 3.292, "epoch": 1.250095281652565, "step": 16400}, {"loss": 0.09915532469749451, "token_acc": 0.9505668706010914, "grad_norm": 0.8466094732284546, "learning_rate": 8.534475434481617e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245, "epoch": 1.2504764082628248, "step": 16405}, {"loss": 0.1627612829208374, "token_acc": 0.9393644617380026, "grad_norm": 0.8198062777519226, "learning_rate": 8.533628429294685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245022, "epoch": 1.2508575348730848, "step": 16410}, {"loss": 0.14997178316116333, "token_acc": 0.9427037686240141, "grad_norm": 0.989240288734436, "learning_rate": 8.532781221470559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245034, "epoch": 1.2512386614833448, "step": 16415}, {"loss": 0.11156213283538818, "token_acc": 0.9604992657856094, "grad_norm": 0.9298478364944458, "learning_rate": 8.531933811057825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245047, "epoch": 1.2516197880936046, "step": 16420}, {"loss": 0.12091947793960571, "token_acc": 0.9555222388805598, "grad_norm": 1.0287277698516846, "learning_rate": 8.531086198105074e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245057, "epoch": 1.2520009147038647, "step": 16425}, {"loss": 0.11415219306945801, "token_acc": 0.9507007419620775, "grad_norm": 0.6381069421768188, "learning_rate": 8.530238382660917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245064, "epoch": 1.2523820413141245, "step": 16430}, {"loss": 0.10267646312713623, "token_acc": 0.9621434284190883, "grad_norm": 0.4479133188724518, "learning_rate": 8.529390364773974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245087, "epoch": 1.2527631679243845, "step": 16435}, {"loss": 0.0666852593421936, "token_acc": 0.9640237513098149, "grad_norm": 0.6177681684494019, "learning_rate": 8.52854214449287e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245113, "epoch": 1.2531442945346445, "step": 16440}, {"loss": 0.08779544234275818, "token_acc": 0.9554937413073713, "grad_norm": 0.5901747345924377, "learning_rate": 8.527693721866247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245139, "epoch": 1.2535254211449043, "step": 16445}, {"loss": 0.10611989498138427, "token_acc": 0.9622106754841757, "grad_norm": 0.8009762167930603, "learning_rate": 8.526845096942761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245137, "epoch": 1.2539065477551643, "step": 16450}, {"loss": 0.14922208786010743, "token_acc": 0.936909059652742, "grad_norm": 0.8432754874229431, "learning_rate": 8.525996269771077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245151, "epoch": 1.254287674365424, "step": 16455}, {"loss": 0.12019532918930054, "token_acc": 0.9485928095005693, "grad_norm": 0.42287787795066833, "learning_rate": 8.525147240399866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245162, "epoch": 1.2546688009756841, "step": 16460}, {"loss": 0.12271336317062378, "token_acc": 0.9433326728749752, "grad_norm": 0.5572043657302856, "learning_rate": 8.524298008877822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245184, "epoch": 1.2550499275859441, "step": 16465}, {"loss": 0.11233663558959961, "token_acc": 0.9510349750178444, "grad_norm": 0.8416683673858643, "learning_rate": 8.523448575253641e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245195, "epoch": 1.255431054196204, "step": 16470}, {"loss": 0.17379262447357177, "token_acc": 0.9307965711896299, "grad_norm": 0.8764181733131409, "learning_rate": 8.522598939576036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245215, "epoch": 1.255812180806464, "step": 16475}, {"loss": 0.17483339309692383, "token_acc": 0.9297376628141626, "grad_norm": 1.2228213548660278, "learning_rate": 8.521749101893727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245231, "epoch": 1.2561933074167237, "step": 16480}, {"loss": 0.1262011408805847, "token_acc": 0.9547311095983663, "grad_norm": 0.8729822635650635, "learning_rate": 8.52089906225545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245244, "epoch": 1.2565744340269838, "step": 16485}, {"loss": 0.09612629413604737, "token_acc": 0.9645352669742914, "grad_norm": 0.7889236211776733, "learning_rate": 8.520048820709951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245255, "epoch": 1.2569555606372438, "step": 16490}, {"loss": 0.12849689722061158, "token_acc": 0.93839019542895, "grad_norm": 1.8017657995224, "learning_rate": 8.519198377305989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24528, "epoch": 1.2573366872475036, "step": 16495}, {"loss": 0.12587478160858154, "token_acc": 0.95273492286115, "grad_norm": 0.678687572479248, "learning_rate": 8.518347732092329e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245293, "epoch": 1.2577178138577636, "step": 16500}, {"loss": 0.06280009150505066, "token_acc": 0.9671020803096275, "grad_norm": 0.0745910257101059, "learning_rate": 8.517496885117756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245319, "epoch": 1.2580989404680234, "step": 16505}, {"loss": 0.11339030265808106, "token_acc": 0.9502164502164502, "grad_norm": 1.2563490867614746, "learning_rate": 8.516645836431057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245345, "epoch": 1.2584800670782834, "step": 16510}, {"loss": 0.13147248029708863, "token_acc": 0.9391153512575889, "grad_norm": 0.46298980712890625, "learning_rate": 8.515794586081041e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245364, "epoch": 1.2588611936885434, "step": 16515}, {"loss": 0.13074697256088258, "token_acc": 0.9517058041648205, "grad_norm": 0.6436245441436768, "learning_rate": 8.51494313411652e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245385, "epoch": 1.2592423202988032, "step": 16520}, {"loss": 0.14128496646881103, "token_acc": 0.9370854652264544, "grad_norm": 0.33527952432632446, "learning_rate": 8.51409148058632e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245406, "epoch": 1.2596234469090632, "step": 16525}, {"loss": 0.14635547399520873, "token_acc": 0.9517494356659142, "grad_norm": 1.056339144706726, "learning_rate": 8.513239625539282e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24543, "epoch": 1.260004573519323, "step": 16530}, {"loss": 0.09188920855522156, "token_acc": 0.9640861931364725, "grad_norm": 0.8895571827888489, "learning_rate": 8.512387569024255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245462, "epoch": 1.260385700129583, "step": 16535}, {"loss": 0.11151890754699707, "token_acc": 0.9422891333719359, "grad_norm": 0.8117167949676514, "learning_rate": 8.5115353110901e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245479, "epoch": 1.260766826739843, "step": 16540}, {"loss": 0.09429635405540467, "token_acc": 0.9603361344537815, "grad_norm": 1.9728516340255737, "learning_rate": 8.510682851785692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245492, "epoch": 1.2611479533501029, "step": 16545}, {"loss": 0.17679688930511475, "token_acc": 0.9270623742454729, "grad_norm": 0.8058775663375854, "learning_rate": 8.509830191159912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245507, "epoch": 1.261529079960363, "step": 16550}, {"loss": 0.1269286870956421, "token_acc": 0.9547930283224401, "grad_norm": 1.322827935218811, "learning_rate": 8.508977329261658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245532, "epoch": 1.2619102065706227, "step": 16555}, {"loss": 0.11586322784423828, "token_acc": 0.9531333214983135, "grad_norm": 0.6617803573608398, "learning_rate": 8.50812426613984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245548, "epoch": 1.2622913331808827, "step": 16560}, {"loss": 0.12028144598007202, "token_acc": 0.9575171712032562, "grad_norm": 0.5419811010360718, "learning_rate": 8.507271001843374e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245552, "epoch": 1.2626724597911427, "step": 16565}, {"loss": 0.13043017387390138, "token_acc": 0.9504040122596824, "grad_norm": 1.1417500972747803, "learning_rate": 8.506417536421192e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245574, "epoch": 1.2630535864014025, "step": 16570}, {"loss": 0.1401545524597168, "token_acc": 0.9485524938960586, "grad_norm": 0.4405645728111267, "learning_rate": 8.505563869922235e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24559, "epoch": 1.2634347130116625, "step": 16575}, {"loss": 0.12750451564788817, "token_acc": 0.9525946704067321, "grad_norm": 0.7274104952812195, "learning_rate": 8.504710002395459e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245613, "epoch": 1.2638158396219223, "step": 16580}, {"loss": 0.18542473316192626, "token_acc": 0.928035043804756, "grad_norm": 1.7580556869506836, "learning_rate": 8.503855933889829e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245638, "epoch": 1.2641969662321824, "step": 16585}, {"loss": 0.10515034198760986, "token_acc": 0.9576151455213338, "grad_norm": 0.22889874875545502, "learning_rate": 8.503001664454317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24566, "epoch": 1.2645780928424424, "step": 16590}, {"loss": 0.12585874795913696, "token_acc": 0.9414176918570591, "grad_norm": 0.9161299467086792, "learning_rate": 8.502147194137919e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245685, "epoch": 1.2649592194527022, "step": 16595}, {"loss": 0.1326700210571289, "token_acc": 0.970125786163522, "grad_norm": 0.5459222197532654, "learning_rate": 8.50129252298963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245708, "epoch": 1.2653403460629622, "step": 16600}, {"eval_loss": 0.10843290388584137, "eval_token_acc": 0.9502063128727185, "eval_runtime": 164.2228, "eval_samples_per_second": 3.227, "eval_steps_per_second": 3.227, "epoch": 1.2653403460629622, "step": 16600}, {"loss": 0.09482347965240479, "token_acc": 0.9504958407497548, "grad_norm": 0.6280312538146973, "learning_rate": 8.500437651058463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245132, "epoch": 1.265721472673222, "step": 16605}, {"loss": 0.12856109142303468, "token_acc": 0.9546107440390692, "grad_norm": 0.7071524858474731, "learning_rate": 8.499582578393442e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245156, "epoch": 1.266102599283482, "step": 16610}, {"loss": 0.13119884729385375, "token_acc": 0.9456521739130435, "grad_norm": 1.6478323936462402, "learning_rate": 8.498727305043599e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245179, "epoch": 1.266483725893742, "step": 16615}, {"loss": 0.128168523311615, "token_acc": 0.9482184055370417, "grad_norm": 0.7057093381881714, "learning_rate": 8.497871831057983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245202, "epoch": 1.2668648525040018, "step": 16620}, {"loss": 0.1395874261856079, "token_acc": 0.9476098077262304, "grad_norm": 1.0310853719711304, "learning_rate": 8.497016156485646e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245216, "epoch": 1.2672459791142616, "step": 16625}, {"loss": 0.14560294151306152, "token_acc": 0.939164276935682, "grad_norm": 0.5219086408615112, "learning_rate": 8.496160281375664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24524, "epoch": 1.2676271057245216, "step": 16630}, {"loss": 0.15865329504013062, "token_acc": 0.9334075723830735, "grad_norm": 0.7037075161933899, "learning_rate": 8.495304205777112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245261, "epoch": 1.2680082323347817, "step": 16635}, {"loss": 0.12828024625778198, "token_acc": 0.9384018953262977, "grad_norm": 1.0574370622634888, "learning_rate": 8.494447929739084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245282, "epoch": 1.2683893589450417, "step": 16640}, {"loss": 0.12425237894058228, "token_acc": 0.9527962085308057, "grad_norm": 0.6939772367477417, "learning_rate": 8.493591453310685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245298, "epoch": 1.2687704855553015, "step": 16645}, {"loss": 0.17778323888778685, "token_acc": 0.9351767075627174, "grad_norm": 0.6951548457145691, "learning_rate": 8.492734776541027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24531, "epoch": 1.2691516121655613, "step": 16650}, {"loss": 0.13065205812454223, "token_acc": 0.9449127031908489, "grad_norm": 1.303305983543396, "learning_rate": 8.49187789947924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245334, "epoch": 1.2695327387758213, "step": 16655}, {"loss": 0.09996622800827026, "token_acc": 0.9535962877030162, "grad_norm": 0.6236063241958618, "learning_rate": 8.491020822174456e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245353, "epoch": 1.2699138653860813, "step": 16660}, {"loss": 0.09706242680549622, "token_acc": 0.962457337883959, "grad_norm": 0.8411254286766052, "learning_rate": 8.490163544675832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245379, "epoch": 1.270294991996341, "step": 16665}, {"loss": 0.1211594820022583, "token_acc": 0.956490727532097, "grad_norm": 0.651681661605835, "learning_rate": 8.489306067032521e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245389, "epoch": 1.2706761186066011, "step": 16670}, {"loss": 0.11309378147125244, "token_acc": 0.9561920808761584, "grad_norm": 0.9033162593841553, "learning_rate": 8.488448389293701e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245405, "epoch": 1.271057245216861, "step": 16675}, {"loss": 0.08474704027175903, "token_acc": 0.9651908396946565, "grad_norm": 0.6026763319969177, "learning_rate": 8.487590511508556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245418, "epoch": 1.271438371827121, "step": 16680}, {"loss": 0.07867011427879333, "token_acc": 0.9666203059805285, "grad_norm": 0.33365529775619507, "learning_rate": 8.486732433726279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245446, "epoch": 1.271819498437381, "step": 16685}, {"loss": 0.1455127477645874, "token_acc": 0.9283065512978986, "grad_norm": 2.1607868671417236, "learning_rate": 8.485874155996077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245471, "epoch": 1.2722006250476408, "step": 16690}, {"loss": 0.10835864543914794, "token_acc": 0.9634146341463414, "grad_norm": 1.3021788597106934, "learning_rate": 8.485015678367167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245492, "epoch": 1.2725817516579008, "step": 16695}, {"loss": 0.15383527278900147, "token_acc": 0.9433748584371461, "grad_norm": 0.9539653658866882, "learning_rate": 8.484157000888782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245504, "epoch": 1.2729628782681606, "step": 16700}, {"loss": 0.13168885707855224, "token_acc": 0.9292035398230089, "grad_norm": 1.088435173034668, "learning_rate": 8.483298123610161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245528, "epoch": 1.2733440048784206, "step": 16705}, {"loss": 0.10965490341186523, "token_acc": 0.9517208413001912, "grad_norm": 0.7620453238487244, "learning_rate": 8.482439046580558e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245555, "epoch": 1.2737251314886806, "step": 16710}, {"loss": 0.17378017902374268, "token_acc": 0.9357118815213733, "grad_norm": 1.4650856256484985, "learning_rate": 8.481579769849235e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24558, "epoch": 1.2741062580989404, "step": 16715}, {"loss": 0.086276775598526, "token_acc": 0.9664804469273743, "grad_norm": 2.788140058517456, "learning_rate": 8.480720293465469e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245603, "epoch": 1.2744873847092004, "step": 16720}, {"loss": 0.13692901134490967, "token_acc": 0.9334056399132321, "grad_norm": 0.9689181447029114, "learning_rate": 8.479860617478548e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245624, "epoch": 1.2748685113194602, "step": 16725}, {"loss": 0.13685139417648315, "token_acc": 0.9551272831871135, "grad_norm": 0.5657161474227905, "learning_rate": 8.479000741937769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245635, "epoch": 1.2752496379297202, "step": 16730}, {"loss": 0.08421671986579896, "token_acc": 0.9641909814323607, "grad_norm": 0.6459820866584778, "learning_rate": 8.478140666892439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245653, "epoch": 1.2756307645399803, "step": 16735}, {"loss": 0.13019053936004638, "token_acc": 0.9478367597422522, "grad_norm": 0.5140261650085449, "learning_rate": 8.477280392391884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245661, "epoch": 1.27601189115024, "step": 16740}, {"loss": 0.18440454006195067, "token_acc": 0.9302653204977694, "grad_norm": 0.9778750538825989, "learning_rate": 8.476419918485435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24568, "epoch": 1.2763930177605, "step": 16745}, {"loss": 0.14349088668823243, "token_acc": 0.9518221976808393, "grad_norm": 1.3635205030441284, "learning_rate": 8.475559245222438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24569, "epoch": 1.2767741443707599, "step": 16750}, {"loss": 0.10252753496170045, "token_acc": 0.9529956161714564, "grad_norm": 0.5575041770935059, "learning_rate": 8.474698372652245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245711, "epoch": 1.2771552709810199, "step": 16755}, {"loss": 0.12319101095199585, "token_acc": 0.9392131799460304, "grad_norm": 0.8783716559410095, "learning_rate": 8.473837300824224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245725, "epoch": 1.27753639759128, "step": 16760}, {"loss": 0.10819822549819946, "token_acc": 0.9613003095975232, "grad_norm": 0.6588578820228577, "learning_rate": 8.472976029787756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245741, "epoch": 1.2779175242015397, "step": 16765}, {"loss": 0.10308420658111572, "token_acc": 0.959489993544222, "grad_norm": 0.6164048910140991, "learning_rate": 8.472114559592229e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245751, "epoch": 1.2782986508117997, "step": 16770}, {"loss": 0.08818424344062806, "token_acc": 0.963302752293578, "grad_norm": 1.179402232170105, "learning_rate": 8.471252890287045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245774, "epoch": 1.2786797774220595, "step": 16775}, {"loss": 0.13655853271484375, "token_acc": 0.9432897862232779, "grad_norm": 0.7468491792678833, "learning_rate": 8.470391021921615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245797, "epoch": 1.2790609040323195, "step": 16780}, {"loss": 0.119598126411438, "token_acc": 0.9605747327843, "grad_norm": 0.7331514358520508, "learning_rate": 8.469528954545365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245811, "epoch": 1.2794420306425796, "step": 16785}, {"loss": 0.254576301574707, "token_acc": 0.913382416630576, "grad_norm": 1.1030611991882324, "learning_rate": 8.468666688207732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245828, "epoch": 1.2798231572528393, "step": 16790}, {"loss": 0.08735076785087585, "token_acc": 0.9728183118741058, "grad_norm": 0.3509121835231781, "learning_rate": 8.467804222958157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24585, "epoch": 1.2802042838630994, "step": 16795}, {"loss": 0.08531662225723266, "token_acc": 0.9599097535577924, "grad_norm": 0.624954104423523, "learning_rate": 8.466941558846105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245865, "epoch": 1.2805854104733592, "step": 16800}, {"eval_loss": 0.11012812703847885, "eval_token_acc": 0.9500105415336425, "eval_runtime": 160.0252, "eval_samples_per_second": 3.312, "eval_steps_per_second": 3.312, "epoch": 1.2805854104733592, "step": 16800}, {"loss": 0.2117542505264282, "token_acc": 0.9490462714542982, "grad_norm": 1.1083186864852905, "learning_rate": 8.466078695921042e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245313, "epoch": 1.2809665370836192, "step": 16805}, {"loss": 0.13501791954040526, "token_acc": 0.9495321368308023, "grad_norm": 1.05453360080719, "learning_rate": 8.465215634232453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245322, "epoch": 1.2813476636938792, "step": 16810}, {"loss": 0.10566951036453247, "token_acc": 0.9539170506912442, "grad_norm": 0.6642823815345764, "learning_rate": 8.464352373829826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245341, "epoch": 1.281728790304139, "step": 16815}, {"loss": 0.0880319595336914, "token_acc": 0.9553307392996109, "grad_norm": 1.0369282960891724, "learning_rate": 8.463488914762668e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245349, "epoch": 1.282109916914399, "step": 16820}, {"loss": 0.14360315799713136, "token_acc": 0.9445843828715366, "grad_norm": 1.9384706020355225, "learning_rate": 8.462625257080491e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24537, "epoch": 1.2824910435246588, "step": 16825}, {"loss": 0.11990576982498169, "token_acc": 0.9652777777777778, "grad_norm": 0.633171558380127, "learning_rate": 8.461761400832826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245385, "epoch": 1.2828721701349188, "step": 16830}, {"loss": 0.18707531690597534, "token_acc": 0.9380812530592266, "grad_norm": 0.4971645176410675, "learning_rate": 8.460897346069209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245404, "epoch": 1.2832532967451789, "step": 16835}, {"loss": 0.13146095275878905, "token_acc": 0.953405017921147, "grad_norm": 0.9122052788734436, "learning_rate": 8.460033092839189e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245425, "epoch": 1.2836344233554386, "step": 16840}, {"loss": 0.12091307640075684, "token_acc": 0.9475249628213299, "grad_norm": 1.0855666399002075, "learning_rate": 8.459168641192328e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245443, "epoch": 1.2840155499656987, "step": 16845}, {"loss": 0.11455096006393432, "token_acc": 0.9545115585384042, "grad_norm": 0.23356075584888458, "learning_rate": 8.458303991178198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245461, "epoch": 1.2843966765759585, "step": 16850}, {"loss": 0.15824854373931885, "token_acc": 0.9372628383506197, "grad_norm": 1.3910518884658813, "learning_rate": 8.457439142846381e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245482, "epoch": 1.2847778031862185, "step": 16855}, {"loss": 0.1476808786392212, "token_acc": 0.9506670022652907, "grad_norm": 0.6380828619003296, "learning_rate": 8.456574096246477e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245504, "epoch": 1.2851589297964785, "step": 16860}, {"loss": 0.1284482717514038, "token_acc": 0.9490946361462248, "grad_norm": 0.5515353679656982, "learning_rate": 8.455708851428086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245518, "epoch": 1.2855400564067383, "step": 16865}, {"loss": 0.14678490161895752, "token_acc": 0.9423900968100302, "grad_norm": 0.8030123710632324, "learning_rate": 8.454843408440832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245528, "epoch": 1.2859211830169983, "step": 16870}, {"loss": 0.11741855144500732, "token_acc": 0.9606645492303933, "grad_norm": 1.040271282196045, "learning_rate": 8.453977767334338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245528, "epoch": 1.2863023096272581, "step": 16875}, {"loss": 0.09133844375610352, "token_acc": 0.964770523594053, "grad_norm": 0.8346788883209229, "learning_rate": 8.453111928158248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24554, "epoch": 1.2866834362375181, "step": 16880}, {"loss": 0.0947684407234192, "token_acc": 0.9433465085638999, "grad_norm": 0.3464534282684326, "learning_rate": 8.452245890962214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245565, "epoch": 1.2870645628477781, "step": 16885}, {"loss": 0.15775563716888427, "token_acc": 0.937419906023067, "grad_norm": 0.7286012768745422, "learning_rate": 8.451379655795898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245586, "epoch": 1.287445689458038, "step": 16890}, {"loss": 0.14544072151184081, "token_acc": 0.9542450432130147, "grad_norm": 1.0279159545898438, "learning_rate": 8.450513222708976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245613, "epoch": 1.287826816068298, "step": 16895}, {"loss": 0.11688371896743774, "token_acc": 0.956463719766472, "grad_norm": 0.7253280878067017, "learning_rate": 8.449646591751133e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245628, "epoch": 1.2882079426785578, "step": 16900}, {"loss": 0.07185850143432618, "token_acc": 0.9642621653699064, "grad_norm": 0.8149957656860352, "learning_rate": 8.448779762972066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245639, "epoch": 1.2885890692888178, "step": 16905}, {"loss": 0.13652395009994506, "token_acc": 0.9506204102304381, "grad_norm": 0.8636221289634705, "learning_rate": 8.447912736421481e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245651, "epoch": 1.2889701958990778, "step": 16910}, {"loss": 0.0927212417125702, "token_acc": 0.9682692307692308, "grad_norm": 0.786990225315094, "learning_rate": 8.447045512149104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245674, "epoch": 1.2893513225093376, "step": 16915}, {"loss": 0.13560017347335815, "token_acc": 0.9399727148703957, "grad_norm": 0.9049322009086609, "learning_rate": 8.446178090204664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2457, "epoch": 1.2897324491195976, "step": 16920}, {"loss": 0.18702114820480348, "token_acc": 0.9335153364380921, "grad_norm": 0.8390566110610962, "learning_rate": 8.445310470637901e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245712, "epoch": 1.2901135757298574, "step": 16925}, {"loss": 0.12953122854232788, "token_acc": 0.9558526348515467, "grad_norm": 0.9412629008293152, "learning_rate": 8.44444265349857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245718, "epoch": 1.2904947023401174, "step": 16930}, {"loss": 0.14410165548324586, "token_acc": 0.9607949904710046, "grad_norm": 1.0262689590454102, "learning_rate": 8.443574638836438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245737, "epoch": 1.2908758289503774, "step": 16935}, {"loss": 0.11238853931427002, "token_acc": 0.9424932458510228, "grad_norm": 0.8348223567008972, "learning_rate": 8.442706426701281e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245762, "epoch": 1.2912569555606372, "step": 16940}, {"loss": 0.1375640630722046, "token_acc": 0.9357326478149101, "grad_norm": 1.5163309574127197, "learning_rate": 8.441838017142886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245772, "epoch": 1.291638082170897, "step": 16945}, {"loss": 0.14319937229156493, "token_acc": 0.9387650525236997, "grad_norm": 1.3778321743011475, "learning_rate": 8.440969410211053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245794, "epoch": 1.292019208781157, "step": 16950}, {"loss": 0.16279075145721436, "token_acc": 0.931673582295989, "grad_norm": 0.8878343105316162, "learning_rate": 8.440100605955593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245816, "epoch": 1.292400335391417, "step": 16955}, {"loss": 0.17660362720489503, "token_acc": 0.9334148898986369, "grad_norm": 1.2844645977020264, "learning_rate": 8.439231604426326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245834, "epoch": 1.292781462001677, "step": 16960}, {"loss": 0.1585702896118164, "token_acc": 0.9337474120082816, "grad_norm": 0.5441691279411316, "learning_rate": 8.438362405673086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245851, "epoch": 1.293162588611937, "step": 16965}, {"loss": 0.1298724889755249, "token_acc": 0.9465054314408691, "grad_norm": 0.9319804906845093, "learning_rate": 8.43749300974572e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245873, "epoch": 1.2935437152221967, "step": 16970}, {"loss": 0.13857544660568238, "token_acc": 0.94664120422377, "grad_norm": 0.8321642875671387, "learning_rate": 8.43662341669408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245876, "epoch": 1.2939248418324567, "step": 16975}, {"loss": 0.09951622486114502, "token_acc": 0.9547935619314206, "grad_norm": 0.6314399242401123, "learning_rate": 8.435753626568037e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24589, "epoch": 1.2943059684427167, "step": 16980}, {"loss": 0.15711526870727538, "token_acc": 0.9351305812973884, "grad_norm": 0.905633807182312, "learning_rate": 8.434883639417466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245913, "epoch": 1.2946870950529765, "step": 16985}, {"loss": 0.15649032592773438, "token_acc": 0.9438172043010753, "grad_norm": 1.139641523361206, "learning_rate": 8.434013455292258e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245914, "epoch": 1.2950682216632365, "step": 16990}, {"loss": 0.1116984486579895, "token_acc": 0.9445331205107741, "grad_norm": 0.8122710585594177, "learning_rate": 8.433143074242314e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245941, "epoch": 1.2954493482734963, "step": 16995}, {"loss": 0.11734380722045898, "token_acc": 0.9552238805970149, "grad_norm": 0.5538355708122253, "learning_rate": 8.432272496317545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245945, "epoch": 1.2958304748837564, "step": 17000}, {"eval_loss": 0.10688108205795288, "eval_token_acc": 0.9504322028793446, "eval_runtime": 160.107, "eval_samples_per_second": 3.31, "eval_steps_per_second": 3.31, "epoch": 1.2958304748837564, "step": 17000}, {"loss": 0.1707775354385376, "token_acc": 0.9498527450951663, "grad_norm": 1.0664434432983398, "learning_rate": 8.431401721567879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245398, "epoch": 1.2962116014940164, "step": 17005}, {"loss": 0.12271435260772705, "token_acc": 0.9568221070811744, "grad_norm": 1.1330010890960693, "learning_rate": 8.430530750043247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245401, "epoch": 1.2965927281042762, "step": 17010}, {"loss": 0.08081393241882324, "token_acc": 0.9625036054225555, "grad_norm": 0.7640411257743835, "learning_rate": 8.429659581793596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245408, "epoch": 1.2969738547145362, "step": 17015}, {"loss": 0.10103360414505005, "token_acc": 0.9570154095701541, "grad_norm": 1.002199649810791, "learning_rate": 8.428788216868882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245431, "epoch": 1.297354981324796, "step": 17020}, {"loss": 0.1190273642539978, "token_acc": 0.9565954560868091, "grad_norm": 0.0024337118957191706, "learning_rate": 8.427916655319076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245454, "epoch": 1.297736107935056, "step": 17025}, {"loss": 0.10979140996932983, "token_acc": 0.957001239157373, "grad_norm": 0.6473399996757507, "learning_rate": 8.427044897194158e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245459, "epoch": 1.298117234545316, "step": 17030}, {"loss": 0.13432486057281495, "token_acc": 0.9487134296792387, "grad_norm": 1.0952626466751099, "learning_rate": 8.426172942544119e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245475, "epoch": 1.2984983611555758, "step": 17035}, {"loss": 0.14489022493362427, "token_acc": 0.9495308501563833, "grad_norm": 0.527126133441925, "learning_rate": 8.425300791418962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245491, "epoch": 1.2988794877658358, "step": 17040}, {"loss": 0.133234703540802, "token_acc": 0.9385635996538795, "grad_norm": 0.8874191045761108, "learning_rate": 8.424428443868697e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245511, "epoch": 1.2992606143760956, "step": 17045}, {"loss": 0.16623787879943847, "token_acc": 0.9336905559276625, "grad_norm": 1.0849732160568237, "learning_rate": 8.423555899943354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245523, "epoch": 1.2996417409863557, "step": 17050}, {"loss": 0.11043118238449097, "token_acc": 0.9491763760546404, "grad_norm": 0.21279145777225494, "learning_rate": 8.422683159692968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245538, "epoch": 1.3000228675966157, "step": 17055}, {"loss": 0.14525763988494872, "token_acc": 0.9443312966734555, "grad_norm": 0.3098379075527191, "learning_rate": 8.421810223167583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245561, "epoch": 1.3004039942068755, "step": 17060}, {"loss": 0.1777060627937317, "token_acc": 0.9284403669724771, "grad_norm": 0.5146898627281189, "learning_rate": 8.420937090417264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24558, "epoch": 1.3007851208171355, "step": 17065}, {"loss": 0.10023574829101563, "token_acc": 0.9596385542168675, "grad_norm": 0.7406203150749207, "learning_rate": 8.420063761492077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245579, "epoch": 1.3011662474273953, "step": 17070}, {"loss": 0.15357439517974852, "token_acc": 0.9366591928251121, "grad_norm": 0.6222447752952576, "learning_rate": 8.419190236442103e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245608, "epoch": 1.3015473740376553, "step": 17075}, {"loss": 0.07205913066864014, "token_acc": 0.9748115147361206, "grad_norm": 0.3130849003791809, "learning_rate": 8.418316515317437e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245616, "epoch": 1.3019285006479153, "step": 17080}, {"loss": 0.13468055725097655, "token_acc": 0.9517464163133454, "grad_norm": 2.3052546977996826, "learning_rate": 8.417442598168181e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245634, "epoch": 1.3023096272581751, "step": 17085}, {"loss": 0.12488923072814942, "token_acc": 0.9546796575140242, "grad_norm": 0.7789310216903687, "learning_rate": 8.416568485044452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24564, "epoch": 1.3026907538684351, "step": 17090}, {"loss": 0.1148412585258484, "token_acc": 0.9512767066180302, "grad_norm": 0.6070392727851868, "learning_rate": 8.415694175996375e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245661, "epoch": 1.303071880478695, "step": 17095}, {"loss": 0.14373077154159547, "token_acc": 0.9395525940028557, "grad_norm": 1.0394083261489868, "learning_rate": 8.414819671074088e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245688, "epoch": 1.303453007088955, "step": 17100}, {"loss": 0.11865272521972656, "token_acc": 0.9585785916721169, "grad_norm": 0.9584836959838867, "learning_rate": 8.413944970327739e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245706, "epoch": 1.303834133699215, "step": 17105}, {"loss": 0.1674983024597168, "token_acc": 0.9380607814761216, "grad_norm": 1.0724223852157593, "learning_rate": 8.41307007380749e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245729, "epoch": 1.3042152603094748, "step": 17110}, {"loss": 0.1283259630203247, "token_acc": 0.959330609067912, "grad_norm": 0.41320744156837463, "learning_rate": 8.412194981563508e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245747, "epoch": 1.3045963869197348, "step": 17115}, {"loss": 0.15799010992050172, "token_acc": 0.9441251596424011, "grad_norm": 1.0701948404312134, "learning_rate": 8.41131969364598e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245771, "epoch": 1.3049775135299946, "step": 17120}, {"loss": 0.12450881004333496, "token_acc": 0.9534198113207547, "grad_norm": 0.7024646997451782, "learning_rate": 8.410444210105098e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245791, "epoch": 1.3053586401402546, "step": 17125}, {"loss": 0.15855600833892822, "token_acc": 0.9352139612718144, "grad_norm": 0.701589822769165, "learning_rate": 8.409568530991068e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245811, "epoch": 1.3057397667505146, "step": 17130}, {"loss": 0.11438111066818238, "token_acc": 0.9487975174553918, "grad_norm": 0.7844749093055725, "learning_rate": 8.408692656354103e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245828, "epoch": 1.3061208933607744, "step": 17135}, {"loss": 0.17005476951599122, "token_acc": 0.9437150498419645, "grad_norm": 1.646537184715271, "learning_rate": 8.407816586244432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245833, "epoch": 1.3065020199710344, "step": 17140}, {"loss": 0.09763526916503906, "token_acc": 0.961284645842499, "grad_norm": 0.5122559070587158, "learning_rate": 8.406940320712296e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245843, "epoch": 1.3068831465812942, "step": 17145}, {"loss": 0.16987732648849488, "token_acc": 0.9350282485875706, "grad_norm": 1.6116046905517578, "learning_rate": 8.406063859807942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245862, "epoch": 1.3072642731915542, "step": 17150}, {"loss": 0.10864295959472656, "token_acc": 0.9460154241645244, "grad_norm": 0.8747091889381409, "learning_rate": 8.405187203581633e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245881, "epoch": 1.3076453998018143, "step": 17155}, {"loss": 0.09954867959022522, "token_acc": 0.9625352112676057, "grad_norm": 0.6038386225700378, "learning_rate": 8.404310352083637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245903, "epoch": 1.308026526412074, "step": 17160}, {"loss": 0.13169536590576172, "token_acc": 0.9560789306174411, "grad_norm": 0.5138129591941833, "learning_rate": 8.403433305364243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245915, "epoch": 1.308407653022334, "step": 17165}, {"loss": 0.16813015937805176, "token_acc": 0.9326923076923077, "grad_norm": 0.9502174258232117, "learning_rate": 8.402556063473741e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245934, "epoch": 1.3087887796325939, "step": 17170}, {"loss": 0.13977776765823363, "token_acc": 0.9451974071891573, "grad_norm": 1.1338709592819214, "learning_rate": 8.401678626462439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245956, "epoch": 1.309169906242854, "step": 17175}, {"loss": 0.1482320547103882, "token_acc": 0.9427917620137299, "grad_norm": 1.739615559577942, "learning_rate": 8.400800994380655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24598, "epoch": 1.309551032853114, "step": 17180}, {"loss": 0.12828866243362427, "token_acc": 0.9539267015706806, "grad_norm": 0.5803881883621216, "learning_rate": 8.399923167278714e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245991, "epoch": 1.3099321594633737, "step": 17185}, {"loss": 0.11253666877746582, "token_acc": 0.9557808759329672, "grad_norm": 0.6725849509239197, "learning_rate": 8.399045145206956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246003, "epoch": 1.3103132860736337, "step": 17190}, {"loss": 0.16044634580612183, "token_acc": 0.9514348785871964, "grad_norm": 0.7948446869850159, "learning_rate": 8.398166928215735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246015, "epoch": 1.3106944126838935, "step": 17195}, {"loss": 0.10310243368148804, "token_acc": 0.9596569869421165, "grad_norm": 0.7779802083969116, "learning_rate": 8.397288516355408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246029, "epoch": 1.3110755392941535, "step": 17200}, {"eval_loss": 0.10746937990188599, "eval_token_acc": 0.9510722245647852, "eval_runtime": 159.9136, "eval_samples_per_second": 3.314, "eval_steps_per_second": 3.314, "epoch": 1.3110755392941535, "step": 17200}, {"loss": 0.20731382369995116, "token_acc": 0.9505328687437127, "grad_norm": 1.4999827146530151, "learning_rate": 8.396409909676351e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245484, "epoch": 1.3114566659044136, "step": 17205}, {"loss": 0.17043153047561646, "token_acc": 0.9463869463869464, "grad_norm": 1.0059967041015625, "learning_rate": 8.395531108228946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2455, "epoch": 1.3118377925146734, "step": 17210}, {"loss": 0.13085744380950928, "token_acc": 0.9538401861908457, "grad_norm": 0.72733074426651, "learning_rate": 8.39465211206359e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245524, "epoch": 1.3122189191249334, "step": 17215}, {"loss": 0.10882532596588135, "token_acc": 0.9548611111111112, "grad_norm": 0.7875025868415833, "learning_rate": 8.393772921230689e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245546, "epoch": 1.3126000457351932, "step": 17220}, {"loss": 0.13828046321868898, "token_acc": 0.9523579201934703, "grad_norm": 0.8773347735404968, "learning_rate": 8.392893535780659e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245551, "epoch": 1.3129811723454532, "step": 17225}, {"loss": 0.1355830192565918, "token_acc": 0.9423344140805928, "grad_norm": 1.0035037994384766, "learning_rate": 8.39201395576393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245558, "epoch": 1.3133622989557132, "step": 17230}, {"loss": 0.119659161567688, "token_acc": 0.9561262707330123, "grad_norm": 0.5424474477767944, "learning_rate": 8.391134181230942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245576, "epoch": 1.313743425565973, "step": 17235}, {"loss": 0.17380475997924805, "token_acc": 0.9346645647223681, "grad_norm": 1.3532859086990356, "learning_rate": 8.390254212232145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245591, "epoch": 1.3141245521762328, "step": 17240}, {"loss": 0.13181604146957399, "token_acc": 0.942057942057942, "grad_norm": 1.08351469039917, "learning_rate": 8.389374048818001e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24561, "epoch": 1.3145056787864928, "step": 17245}, {"loss": 0.12745643854141236, "token_acc": 0.9507944643772425, "grad_norm": 1.3166043758392334, "learning_rate": 8.388493691038985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245624, "epoch": 1.3148868053967528, "step": 17250}, {"loss": 0.1515251636505127, "token_acc": 0.946551724137931, "grad_norm": 1.2673962116241455, "learning_rate": 8.387613138945579e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24565, "epoch": 1.3152679320070129, "step": 17255}, {"loss": 0.09816930294036866, "token_acc": 0.9580152671755725, "grad_norm": 0.6673775911331177, "learning_rate": 8.386732392588281e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245669, "epoch": 1.3156490586172727, "step": 17260}, {"loss": 0.1531757593154907, "token_acc": 0.9429559204840103, "grad_norm": 0.8394562005996704, "learning_rate": 8.385851452017597e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245681, "epoch": 1.3160301852275325, "step": 17265}, {"loss": 0.1264307141304016, "token_acc": 0.9439882697947214, "grad_norm": 0.6488535404205322, "learning_rate": 8.384970317284042e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245703, "epoch": 1.3164113118377925, "step": 17270}, {"loss": 0.11835004091262817, "token_acc": 0.9543332194510876, "grad_norm": 0.4511919617652893, "learning_rate": 8.38408898843815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245706, "epoch": 1.3167924384480525, "step": 17275}, {"loss": 0.110160231590271, "token_acc": 0.9602985548673971, "grad_norm": 0.6283314228057861, "learning_rate": 8.383207465530458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24572, "epoch": 1.3171735650583123, "step": 17280}, {"loss": 0.17345643043518066, "token_acc": 0.9336140698538519, "grad_norm": 0.7329379320144653, "learning_rate": 8.382325748611518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245739, "epoch": 1.3175546916685723, "step": 17285}, {"loss": 0.11887201070785522, "token_acc": 0.9526420737786641, "grad_norm": 0.946789562702179, "learning_rate": 8.381443837731892e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245765, "epoch": 1.317935818278832, "step": 17290}, {"loss": 0.12729693651199342, "token_acc": 0.9606316725978647, "grad_norm": 0.7587791085243225, "learning_rate": 8.380561732942154e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245787, "epoch": 1.3183169448890921, "step": 17295}, {"loss": 0.1721964955329895, "token_acc": 0.9388324367403865, "grad_norm": 2.0177884101867676, "learning_rate": 8.379679434292889e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245805, "epoch": 1.3186980714993521, "step": 17300}, {"loss": 0.12923588752746581, "token_acc": 0.9524725803348085, "grad_norm": 0.7249957323074341, "learning_rate": 8.37879694183469e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245822, "epoch": 1.319079198109612, "step": 17305}, {"loss": 0.13777538537979125, "token_acc": 0.9516968561315844, "grad_norm": 1.7513567209243774, "learning_rate": 8.377914255618166e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245838, "epoch": 1.319460324719872, "step": 17310}, {"loss": 0.1403293490409851, "token_acc": 0.9451219512195121, "grad_norm": 1.5102633237838745, "learning_rate": 8.377031375693938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245856, "epoch": 1.3198414513301318, "step": 17315}, {"loss": 0.16069526672363282, "token_acc": 0.9356376638855781, "grad_norm": 1.8501505851745605, "learning_rate": 8.37614830211263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245878, "epoch": 1.3202225779403918, "step": 17320}, {"loss": 0.14554964303970336, "token_acc": 0.9428632570083458, "grad_norm": 1.1055574417114258, "learning_rate": 8.375265034924884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245895, "epoch": 1.3206037045506518, "step": 17325}, {"loss": 0.10255119800567628, "token_acc": 0.952840639341668, "grad_norm": 0.7933129668235779, "learning_rate": 8.374381574181351e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245909, "epoch": 1.3209848311609116, "step": 17330}, {"loss": 0.1416211485862732, "token_acc": 0.9552209233207847, "grad_norm": 1.4013934135437012, "learning_rate": 8.373497919932694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245928, "epoch": 1.3213659577711716, "step": 17335}, {"loss": 0.11370632648468018, "token_acc": 0.9513126491646778, "grad_norm": 0.9369850754737854, "learning_rate": 8.372614072229585e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245943, "epoch": 1.3217470843814314, "step": 17340}, {"loss": 0.14144572019577026, "token_acc": 0.9459159617251421, "grad_norm": 0.5698795914649963, "learning_rate": 8.371730031122712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245953, "epoch": 1.3221282109916914, "step": 17345}, {"loss": 0.12035472393035888, "token_acc": 0.9514237855946399, "grad_norm": 1.8146551847457886, "learning_rate": 8.370845796662768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245972, "epoch": 1.3225093376019514, "step": 17350}, {"loss": 0.20954666137695313, "token_acc": 0.9348387096774193, "grad_norm": 1.5464584827423096, "learning_rate": 8.36996136890046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245985, "epoch": 1.3228904642122112, "step": 17355}, {"loss": 0.10908982753753663, "token_acc": 0.9477425552353507, "grad_norm": 0.8469153046607971, "learning_rate": 8.369076747886507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246004, "epoch": 1.3232715908224713, "step": 17360}, {"loss": 0.13885202407836914, "token_acc": 0.9425490196078431, "grad_norm": 1.2215858697891235, "learning_rate": 8.368191933671635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246021, "epoch": 1.323652717432731, "step": 17365}, {"loss": 0.16453665494918823, "token_acc": 0.9351984696317551, "grad_norm": 1.1979280710220337, "learning_rate": 8.367306926306586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246038, "epoch": 1.324033844042991, "step": 17370}, {"loss": 0.18164433240890504, "token_acc": 0.9315191387559809, "grad_norm": 0.8311096429824829, "learning_rate": 8.366421725842112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24606, "epoch": 1.324414970653251, "step": 17375}, {"loss": 0.10397469997406006, "token_acc": 0.9628552971576227, "grad_norm": 0.6123730540275574, "learning_rate": 8.365536332328973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246081, "epoch": 1.3247960972635109, "step": 17380}, {"loss": 0.25822536945343016, "token_acc": 0.9069562665101262, "grad_norm": 0.9071429371833801, "learning_rate": 8.364650745817946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246103, "epoch": 1.325177223873771, "step": 17385}, {"loss": 0.14134405851364135, "token_acc": 0.9507219802887921, "grad_norm": 1.339561104774475, "learning_rate": 8.36376496635981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246119, "epoch": 1.3255583504840307, "step": 17390}, {"loss": 0.11098490953445435, "token_acc": 0.9503765205638154, "grad_norm": 1.0709000825881958, "learning_rate": 8.362878994005364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246133, "epoch": 1.3259394770942907, "step": 17395}, {"loss": 0.100138258934021, "token_acc": 0.9585445869370712, "grad_norm": 0.6154966354370117, "learning_rate": 8.361992828805415e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246154, "epoch": 1.3263206037045507, "step": 17400}, {"eval_loss": 0.10663587599992752, "eval_token_acc": 0.9507108005541834, "eval_runtime": 161.5073, "eval_samples_per_second": 3.282, "eval_steps_per_second": 3.282, "epoch": 1.3263206037045507, "step": 17400}, {"loss": 0.08831592202186585, "token_acc": 0.9508884519519629, "grad_norm": 1.4776822328567505, "learning_rate": 8.361106470810775e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245611, "epoch": 1.3267017303148105, "step": 17405}, {"loss": 0.11316902637481689, "token_acc": 0.952078640180217, "grad_norm": 0.7651785016059875, "learning_rate": 8.360219920072279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245625, "epoch": 1.3270828569250706, "step": 17410}, {"loss": 0.09311432838439941, "token_acc": 0.9520977865873802, "grad_norm": 0.572742223739624, "learning_rate": 8.359333176640762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245649, "epoch": 1.3274639835353303, "step": 17415}, {"loss": 0.08502548933029175, "token_acc": 0.9636486031639179, "grad_norm": 1.5521225929260254, "learning_rate": 8.358446240567079e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245673, "epoch": 1.3278451101455904, "step": 17420}, {"loss": 0.11562271118164062, "token_acc": 0.952529994783516, "grad_norm": 1.3262386322021484, "learning_rate": 8.357559111902086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2457, "epoch": 1.3282262367558504, "step": 17425}, {"loss": 0.13940199613571166, "token_acc": 0.9548914575697772, "grad_norm": 1.201525092124939, "learning_rate": 8.356671790696661e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245714, "epoch": 1.3286073633661102, "step": 17430}, {"loss": 0.12636091709136962, "token_acc": 0.950075075075075, "grad_norm": 0.8851081132888794, "learning_rate": 8.355784277001687e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245721, "epoch": 1.3289884899763702, "step": 17435}, {"loss": 0.09881922602653503, "token_acc": 0.9639733444398167, "grad_norm": 0.5397643446922302, "learning_rate": 8.354896570868056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245735, "epoch": 1.32936961658663, "step": 17440}, {"loss": 0.12209821939468384, "token_acc": 0.9447128287707998, "grad_norm": 0.8318448066711426, "learning_rate": 8.354008672346676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245756, "epoch": 1.32975074319689, "step": 17445}, {"loss": 0.08436434268951416, "token_acc": 0.9566274827725983, "grad_norm": 0.16590054333209991, "learning_rate": 8.353120581488462e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245781, "epoch": 1.33013186980715, "step": 17450}, {"loss": 0.11898227930068969, "token_acc": 0.9610238510762071, "grad_norm": 0.8471395969390869, "learning_rate": 8.352232298344342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245799, "epoch": 1.3305129964174098, "step": 17455}, {"loss": 0.13603322505950927, "token_acc": 0.9490608992601024, "grad_norm": 0.8134551644325256, "learning_rate": 8.351343822965258e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245818, "epoch": 1.3308941230276699, "step": 17460}, {"loss": 0.13956949710845948, "token_acc": 0.9462264150943396, "grad_norm": 1.4180384874343872, "learning_rate": 8.350455155402158e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245844, "epoch": 1.3312752496379296, "step": 17465}, {"loss": 0.1203418493270874, "token_acc": 0.9619418639496554, "grad_norm": 0.6852266192436218, "learning_rate": 8.349566295706002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245865, "epoch": 1.3316563762481897, "step": 17470}, {"loss": 0.10267441272735596, "token_acc": 0.9558166862514689, "grad_norm": 1.3381239175796509, "learning_rate": 8.348677243927763e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245885, "epoch": 1.3320375028584497, "step": 17475}, {"loss": 0.10902951955795288, "token_acc": 0.9621871116634121, "grad_norm": 0.6857523322105408, "learning_rate": 8.347788000118424e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245897, "epoch": 1.3324186294687095, "step": 17480}, {"loss": 0.1461030960083008, "token_acc": 0.9417204676321759, "grad_norm": 0.5820972323417664, "learning_rate": 8.346898564328977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24591, "epoch": 1.3327997560789695, "step": 17485}, {"loss": 0.17387588024139405, "token_acc": 0.9303262182843335, "grad_norm": 0.5850436091423035, "learning_rate": 8.346008936610432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245935, "epoch": 1.3331808826892293, "step": 17490}, {"loss": 0.15591977834701537, "token_acc": 0.9333731700029877, "grad_norm": 1.5295518636703491, "learning_rate": 8.3451191170138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245958, "epoch": 1.3335620092994893, "step": 17495}, {"loss": 0.11218595504760742, "token_acc": 0.9491292392300642, "grad_norm": 0.6870015859603882, "learning_rate": 8.344229105590109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245983, "epoch": 1.3339431359097493, "step": 17500}, {"loss": 0.09720314741134643, "token_acc": 0.9629339598016183, "grad_norm": 0.9706870317459106, "learning_rate": 8.3433389023904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245981, "epoch": 1.3343242625200091, "step": 17505}, {"loss": 0.12113804817199707, "token_acc": 0.9536003080477474, "grad_norm": 0.7524513602256775, "learning_rate": 8.342448507465719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245995, "epoch": 1.3347053891302691, "step": 17510}, {"loss": 0.11712092161178589, "token_acc": 0.9570375696566601, "grad_norm": 0.9725679159164429, "learning_rate": 8.341557920867127e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246009, "epoch": 1.335086515740529, "step": 17515}, {"loss": 0.12351453304290771, "token_acc": 0.9550861361771944, "grad_norm": 0.901344895362854, "learning_rate": 8.340667142645695e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246026, "epoch": 1.335467642350789, "step": 17520}, {"loss": 0.13640780448913575, "token_acc": 0.9488248673237301, "grad_norm": 0.759326159954071, "learning_rate": 8.339776172852505e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246042, "epoch": 1.335848768961049, "step": 17525}, {"loss": 0.09537164568901062, "token_acc": 0.960991615020051, "grad_norm": 0.8271862268447876, "learning_rate": 8.33888501153865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246064, "epoch": 1.3362298955713088, "step": 17530}, {"loss": 0.0796302616596222, "token_acc": 0.9762633996937213, "grad_norm": 0.16925379633903503, "learning_rate": 8.337993658755232e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246088, "epoch": 1.3366110221815688, "step": 17535}, {"loss": 0.10761260986328125, "token_acc": 0.9479039479039479, "grad_norm": 0.8744942545890808, "learning_rate": 8.33710211455337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246112, "epoch": 1.3369921487918286, "step": 17540}, {"loss": 0.13142119646072387, "token_acc": 0.9443316903450275, "grad_norm": 1.3832414150238037, "learning_rate": 8.336210378984188e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246132, "epoch": 1.3373732754020886, "step": 17545}, {"loss": 0.18262282609939576, "token_acc": 0.9328323156411461, "grad_norm": 0.9809344410896301, "learning_rate": 8.335318452098822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246147, "epoch": 1.3377544020123486, "step": 17550}, {"loss": 0.09845225811004639, "token_acc": 0.9580756013745705, "grad_norm": 0.8487640619277954, "learning_rate": 8.33442633394842e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246176, "epoch": 1.3381355286226084, "step": 17555}, {"loss": 0.19865424633026124, "token_acc": 0.9179010795882501, "grad_norm": 1.0003710985183716, "learning_rate": 8.333534024584142e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246195, "epoch": 1.3385166552328682, "step": 17560}, {"loss": 0.1393133282661438, "token_acc": 0.953009828009828, "grad_norm": 0.8688986301422119, "learning_rate": 8.332641524057159e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24621, "epoch": 1.3388977818431282, "step": 17565}, {"loss": 0.06464812159538269, "token_acc": 0.9683530198350792, "grad_norm": 0.7204969525337219, "learning_rate": 8.331748832418647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246229, "epoch": 1.3392789084533883, "step": 17570}, {"loss": 0.18624211549758912, "token_acc": 0.9295379537953795, "grad_norm": 1.3241522312164307, "learning_rate": 8.330855949719802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246241, "epoch": 1.3396600350636483, "step": 17575}, {"loss": 0.11213642358779907, "token_acc": 0.9536570622607294, "grad_norm": 0.7863385677337646, "learning_rate": 8.329962876011825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246253, "epoch": 1.340041161673908, "step": 17580}, {"loss": 0.12429332733154297, "token_acc": 0.9559293523969723, "grad_norm": 1.5388987064361572, "learning_rate": 8.32906961134593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246269, "epoch": 1.3404222882841679, "step": 17585}, {"loss": 0.15549924373626708, "token_acc": 0.9484193011647255, "grad_norm": 0.8988392949104309, "learning_rate": 8.328176155773342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24629, "epoch": 1.340803414894428, "step": 17590}, {"loss": 0.1806449770927429, "token_acc": 0.9409682899207248, "grad_norm": 0.6303218007087708, "learning_rate": 8.327282509345295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246293, "epoch": 1.341184541504688, "step": 17595}, {"loss": 0.12485001087188721, "token_acc": 0.9519755511896966, "grad_norm": 0.6814365386962891, "learning_rate": 8.326388672113038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246314, "epoch": 1.3415656681149477, "step": 17600}, {"eval_loss": 0.10737795382738113, "eval_token_acc": 0.950831275224384, "eval_runtime": 162.55, "eval_samples_per_second": 3.261, "eval_steps_per_second": 3.261, "epoch": 1.3415656681149477, "step": 17600}, {"loss": 0.13773317337036134, "token_acc": 0.9505811008351063, "grad_norm": 0.5256803035736084, "learning_rate": 8.325494644127825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245772, "epoch": 1.3419467947252077, "step": 17605}, {"loss": 0.11007115840911866, "token_acc": 0.9596682387380062, "grad_norm": 0.686322808265686, "learning_rate": 8.324600425440928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245783, "epoch": 1.3423279213354675, "step": 17610}, {"loss": 0.10439928770065307, "token_acc": 0.9555349698934692, "grad_norm": 0.8901757001876831, "learning_rate": 8.323706016103626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245808, "epoch": 1.3427090479457275, "step": 17615}, {"loss": 0.2230586051940918, "token_acc": 0.9224288204532248, "grad_norm": 1.0986119508743286, "learning_rate": 8.322811416167204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245831, "epoch": 1.3430901745559876, "step": 17620}, {"loss": 0.09669690132141114, "token_acc": 0.9584639498432602, "grad_norm": 0.8188419938087463, "learning_rate": 8.32191662568297e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245842, "epoch": 1.3434713011662474, "step": 17625}, {"loss": 0.0972038447856903, "token_acc": 0.9629570998891879, "grad_norm": 0.5431106090545654, "learning_rate": 8.321021644702232e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245854, "epoch": 1.3438524277765074, "step": 17630}, {"loss": 0.09916614890098571, "token_acc": 0.9548566538296962, "grad_norm": 0.45160844922065735, "learning_rate": 8.320126473276315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245868, "epoch": 1.3442335543867672, "step": 17635}, {"loss": 0.1558426022529602, "token_acc": 0.936279926335175, "grad_norm": 0.9227285981178284, "learning_rate": 8.319231111456552e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24589, "epoch": 1.3446146809970272, "step": 17640}, {"loss": 0.14146947860717773, "token_acc": 0.9474508439185662, "grad_norm": 0.7520461082458496, "learning_rate": 8.318335559294286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245901, "epoch": 1.3449958076072872, "step": 17645}, {"loss": 0.1133010983467102, "token_acc": 0.9504541701073493, "grad_norm": 1.0533876419067383, "learning_rate": 8.317439816840877e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24592, "epoch": 1.345376934217547, "step": 17650}, {"loss": 0.11152706146240235, "token_acc": 0.9616939026533122, "grad_norm": 0.630739152431488, "learning_rate": 8.316543884147688e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245934, "epoch": 1.345758060827807, "step": 17655}, {"loss": 0.09312688112258911, "token_acc": 0.9671734623358673, "grad_norm": 0.47246092557907104, "learning_rate": 8.315647761266097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245948, "epoch": 1.3461391874380668, "step": 17660}, {"loss": 0.1276992678642273, "token_acc": 0.9541191095038988, "grad_norm": 1.2111607789993286, "learning_rate": 8.314751448247496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245958, "epoch": 1.3465203140483268, "step": 17665}, {"loss": 0.11056758165359497, "token_acc": 0.9531531531531532, "grad_norm": 0.7736193537712097, "learning_rate": 8.313854945143277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245975, "epoch": 1.3469014406585869, "step": 17670}, {"loss": 0.15911266803741456, "token_acc": 0.94194428209624, "grad_norm": 1.0006659030914307, "learning_rate": 8.312958252004859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24599, "epoch": 1.3472825672688467, "step": 17675}, {"loss": 0.14367567300796508, "token_acc": 0.9501241721854304, "grad_norm": 0.8486997485160828, "learning_rate": 8.31206136888366e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246001, "epoch": 1.3476636938791067, "step": 17680}, {"loss": 0.10201640129089355, "token_acc": 0.9566160520607375, "grad_norm": 0.7927463054656982, "learning_rate": 8.311164295831109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246019, "epoch": 1.3480448204893665, "step": 17685}, {"loss": 0.13350664377212523, "token_acc": 0.9575549450549451, "grad_norm": 0.692664384841919, "learning_rate": 8.310267032898652e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24602, "epoch": 1.3484259470996265, "step": 17690}, {"loss": 0.16792951822280883, "token_acc": 0.9514369140925157, "grad_norm": 0.5226743817329407, "learning_rate": 8.309369580137742e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246025, "epoch": 1.3488070737098865, "step": 17695}, {"loss": 0.10804102420806885, "token_acc": 0.9477372847416901, "grad_norm": 0.3264235258102417, "learning_rate": 8.308471937599845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246042, "epoch": 1.3491882003201463, "step": 17700}, {"loss": 0.1523658275604248, "token_acc": 0.9404255319148936, "grad_norm": 1.317716121673584, "learning_rate": 8.307574105336434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246056, "epoch": 1.3495693269304063, "step": 17705}, {"loss": 0.17230364084243774, "token_acc": 0.9354215833512122, "grad_norm": 1.0504631996154785, "learning_rate": 8.306676083398999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246072, "epoch": 1.3499504535406661, "step": 17710}, {"loss": 0.11566168069839478, "token_acc": 0.9517754318618042, "grad_norm": 0.541141927242279, "learning_rate": 8.305777871839034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246086, "epoch": 1.3503315801509261, "step": 17715}, {"loss": 0.1641600251197815, "token_acc": 0.945438282647585, "grad_norm": 0.8101071715354919, "learning_rate": 8.304879470708049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246106, "epoch": 1.3507127067611862, "step": 17720}, {"loss": 0.11383298635482789, "token_acc": 0.9464173145618827, "grad_norm": 0.6932691931724548, "learning_rate": 8.303980880057563e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246124, "epoch": 1.351093833371446, "step": 17725}, {"loss": 0.12572647333145143, "token_acc": 0.949474224160041, "grad_norm": 0.7255609035491943, "learning_rate": 8.303082099939105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246144, "epoch": 1.351474959981706, "step": 17730}, {"loss": 0.11141109466552734, "token_acc": 0.951878585970757, "grad_norm": 0.6205984354019165, "learning_rate": 8.302183130404217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246161, "epoch": 1.3518560865919658, "step": 17735}, {"loss": 0.11060664653778077, "token_acc": 0.9546429665951578, "grad_norm": 0.9445013403892517, "learning_rate": 8.301283971504453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246173, "epoch": 1.3522372132022258, "step": 17740}, {"loss": 0.09569424390792847, "token_acc": 0.9633093525179857, "grad_norm": 0.9685593247413635, "learning_rate": 8.30038462329137e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246191, "epoch": 1.3526183398124858, "step": 17745}, {"loss": 0.1558597207069397, "token_acc": 0.9312452253628725, "grad_norm": 1.2590841054916382, "learning_rate": 8.299485085816546e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246215, "epoch": 1.3529994664227456, "step": 17750}, {"loss": 0.10891849994659424, "token_acc": 0.937113891968953, "grad_norm": 1.1839690208435059, "learning_rate": 8.298585359131564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24623, "epoch": 1.3533805930330056, "step": 17755}, {"loss": 0.055293101072311404, "token_acc": 0.9725339139172667, "grad_norm": 0.3947868347167969, "learning_rate": 8.297685443288017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246244, "epoch": 1.3537617196432654, "step": 17760}, {"loss": 0.14944162368774414, "token_acc": 0.9431429965836994, "grad_norm": 0.8137479424476624, "learning_rate": 8.296785338337515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246261, "epoch": 1.3541428462535254, "step": 17765}, {"loss": 0.0863140881061554, "token_acc": 0.965359477124183, "grad_norm": 0.2736319899559021, "learning_rate": 8.295885044331672e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246286, "epoch": 1.3545239728637855, "step": 17770}, {"loss": 0.11396056413650513, "token_acc": 0.954119850187266, "grad_norm": 0.6915073990821838, "learning_rate": 8.294984561322116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246301, "epoch": 1.3549050994740452, "step": 17775}, {"loss": 0.14401098489761352, "token_acc": 0.9491455347298787, "grad_norm": 1.5455626249313354, "learning_rate": 8.294083889360488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246308, "epoch": 1.3552862260843053, "step": 17780}, {"loss": 0.09390276074409484, "token_acc": 0.9537037037037037, "grad_norm": 1.0948069095611572, "learning_rate": 8.293183028498433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246332, "epoch": 1.355667352694565, "step": 17785}, {"loss": 0.1454519271850586, "token_acc": 0.9407496977025392, "grad_norm": 1.4408879280090332, "learning_rate": 8.292281978787615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24635, "epoch": 1.356048479304825, "step": 17790}, {"loss": 0.16239447593688966, "token_acc": 0.9379905808477237, "grad_norm": 0.5982159972190857, "learning_rate": 8.291380740279704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246363, "epoch": 1.356429605915085, "step": 17795}, {"loss": 0.16269701719284058, "token_acc": 0.9382474981693922, "grad_norm": 1.441665530204773, "learning_rate": 8.290479313026381e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24638, "epoch": 1.356810732525345, "step": 17800}, {"eval_loss": 0.10667567700147629, "eval_token_acc": 0.9513357629058491, "eval_runtime": 163.39, "eval_samples_per_second": 3.244, "eval_steps_per_second": 3.244, "epoch": 1.356810732525345, "step": 17800}, {"loss": 0.09886575341224671, "token_acc": 0.9514716703458426, "grad_norm": 2.677741765975952, "learning_rate": 8.289577697079337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245844, "epoch": 1.357191859135605, "step": 17805}, {"loss": 0.08565916419029236, "token_acc": 0.9609429978888107, "grad_norm": 1.5536164045333862, "learning_rate": 8.288675892490279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245866, "epoch": 1.3575729857458647, "step": 17810}, {"loss": 0.14625492095947265, "token_acc": 0.9401625215464171, "grad_norm": 1.26435124874115, "learning_rate": 8.28777389931092e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245885, "epoch": 1.3579541123561247, "step": 17815}, {"loss": 0.1096879243850708, "token_acc": 0.9471436198611852, "grad_norm": 0.07300937920808792, "learning_rate": 8.286871717592986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245906, "epoch": 1.3583352389663848, "step": 17820}, {"loss": 0.1105151891708374, "token_acc": 0.9541213063763608, "grad_norm": 0.9479355216026306, "learning_rate": 8.285969347388209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245929, "epoch": 1.3587163655766445, "step": 17825}, {"loss": 0.10193665027618408, "token_acc": 0.9640866873065016, "grad_norm": 0.4941056966781616, "learning_rate": 8.285066788748342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245934, "epoch": 1.3590974921869046, "step": 17830}, {"loss": 0.1355947732925415, "token_acc": 0.9485470541189016, "grad_norm": 0.8482246994972229, "learning_rate": 8.284164041725138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245951, "epoch": 1.3594786187971644, "step": 17835}, {"loss": 0.13523796796798707, "token_acc": 0.9439274080967892, "grad_norm": 1.2586345672607422, "learning_rate": 8.283261106370367e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245969, "epoch": 1.3598597454074244, "step": 17840}, {"loss": 0.14252423048019408, "token_acc": 0.9496782709123907, "grad_norm": 1.098524570465088, "learning_rate": 8.282357982735807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245988, "epoch": 1.3602408720176844, "step": 17845}, {"loss": 0.14382587671279906, "token_acc": 0.945500387897595, "grad_norm": 1.2601457834243774, "learning_rate": 8.281454670873248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246005, "epoch": 1.3606219986279442, "step": 17850}, {"loss": 0.12325994968414307, "token_acc": 0.9524447421299397, "grad_norm": 1.0263535976409912, "learning_rate": 8.280551170834494e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246022, "epoch": 1.3610031252382042, "step": 17855}, {"loss": 0.1428394317626953, "token_acc": 0.9557175884759025, "grad_norm": 0.5292584300041199, "learning_rate": 8.279647482671352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246034, "epoch": 1.361384251848464, "step": 17860}, {"loss": 0.08865985870361329, "token_acc": 0.9612541422380831, "grad_norm": 0.9273515343666077, "learning_rate": 8.278743606435648e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246052, "epoch": 1.361765378458724, "step": 17865}, {"loss": 0.1267813563346863, "token_acc": 0.9525403103133556, "grad_norm": 1.4182050228118896, "learning_rate": 8.27783954217921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246064, "epoch": 1.362146505068984, "step": 17870}, {"loss": 0.15808428525924684, "token_acc": 0.945475910693302, "grad_norm": 1.503830075263977, "learning_rate": 8.276935289953888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246082, "epoch": 1.3625276316792438, "step": 17875}, {"loss": 0.11728420257568359, "token_acc": 0.9543408360128617, "grad_norm": 1.2763851881027222, "learning_rate": 8.276030849811533e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246093, "epoch": 1.3629087582895036, "step": 17880}, {"loss": 0.13222057819366456, "token_acc": 0.9549034749034749, "grad_norm": 0.7728233933448792, "learning_rate": 8.275126221804012e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246109, "epoch": 1.3632898848997637, "step": 17885}, {"loss": 0.12971363067626954, "token_acc": 0.9503348214285714, "grad_norm": 1.3834729194641113, "learning_rate": 8.2742214059832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246126, "epoch": 1.3636710115100237, "step": 17890}, {"loss": 0.13942209482192994, "token_acc": 0.9443159031312663, "grad_norm": 0.8098664283752441, "learning_rate": 8.273316402400985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24614, "epoch": 1.3640521381202835, "step": 17895}, {"loss": 0.16162443161010742, "token_acc": 0.9360972913211719, "grad_norm": 0.8736711740493774, "learning_rate": 8.272411211109264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246139, "epoch": 1.3644332647305435, "step": 17900}, {"loss": 0.16058338880538942, "token_acc": 0.9446550416982562, "grad_norm": 1.2855279445648193, "learning_rate": 8.271505832159947e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246163, "epoch": 1.3648143913408033, "step": 17905}, {"loss": 0.094147789478302, "token_acc": 0.9564208354822074, "grad_norm": 1.1717934608459473, "learning_rate": 8.270600265604951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246181, "epoch": 1.3651955179510633, "step": 17910}, {"loss": 0.1140640377998352, "token_acc": 0.9580354367423065, "grad_norm": 0.9194140434265137, "learning_rate": 8.269694511496208e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246202, "epoch": 1.3655766445613233, "step": 17915}, {"loss": 0.16119309663772582, "token_acc": 0.9275291828793775, "grad_norm": 0.8268420696258545, "learning_rate": 8.268788569885657e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246229, "epoch": 1.3659577711715831, "step": 17920}, {"loss": 0.15487890243530272, "token_acc": 0.9382558879694463, "grad_norm": 0.9691854119300842, "learning_rate": 8.267882440825252e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246241, "epoch": 1.3663388977818431, "step": 17925}, {"loss": 0.07472390532493592, "token_acc": 0.9679556032939491, "grad_norm": 0.6109914779663086, "learning_rate": 8.266976124366952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246253, "epoch": 1.366720024392103, "step": 17930}, {"loss": 0.11703864336013795, "token_acc": 0.9456373551465576, "grad_norm": 0.49206143617630005, "learning_rate": 8.266069620562733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246267, "epoch": 1.367101151002363, "step": 17935}, {"loss": 0.13197627067565917, "token_acc": 0.9541984732824428, "grad_norm": 0.8435714840888977, "learning_rate": 8.265162929464578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246289, "epoch": 1.367482277612623, "step": 17940}, {"loss": 0.13275246620178222, "token_acc": 0.9594985535197685, "grad_norm": 0.974494218826294, "learning_rate": 8.26425605112448e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24631, "epoch": 1.3678634042228828, "step": 17945}, {"loss": 0.10422978401184083, "token_acc": 0.9617696561673479, "grad_norm": 0.5084572434425354, "learning_rate": 8.263348985594447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246331, "epoch": 1.3682445308331428, "step": 17950}, {"loss": 0.10666424036026001, "token_acc": 0.9582011569322635, "grad_norm": 0.8850142955780029, "learning_rate": 8.262441732926491e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246348, "epoch": 1.3686256574434026, "step": 17955}, {"loss": 0.124328875541687, "token_acc": 0.9590654952076677, "grad_norm": 1.0291752815246582, "learning_rate": 8.261534293172644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246365, "epoch": 1.3690067840536626, "step": 17960}, {"loss": 0.1829899549484253, "token_acc": 0.9363027382771183, "grad_norm": 1.0088142156600952, "learning_rate": 8.26062666638494e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246372, "epoch": 1.3693879106639226, "step": 17965}, {"loss": 0.11073747873306275, "token_acc": 0.9655437624980773, "grad_norm": 0.7081704139709473, "learning_rate": 8.259718852615428e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246378, "epoch": 1.3697690372741824, "step": 17970}, {"loss": 0.09961427450180053, "token_acc": 0.9684716779479872, "grad_norm": 0.8046636581420898, "learning_rate": 8.258810851916165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246392, "epoch": 1.3701501638844424, "step": 17975}, {"loss": 0.13557759523391724, "token_acc": 0.935324746505892, "grad_norm": 0.7290323972702026, "learning_rate": 8.257902664339223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246412, "epoch": 1.3705312904947022, "step": 17980}, {"loss": 0.1504672646522522, "token_acc": 0.9508417508417508, "grad_norm": 0.8848634958267212, "learning_rate": 8.256994289936684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246427, "epoch": 1.3709124171049623, "step": 17985}, {"loss": 0.14887114763259887, "token_acc": 0.9364406779661016, "grad_norm": 1.135188102722168, "learning_rate": 8.256085728760634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246454, "epoch": 1.3712935437152223, "step": 17990}, {"loss": 0.1219519853591919, "token_acc": 0.9428571428571428, "grad_norm": 0.3642294406890869, "learning_rate": 8.255176980863179e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24648, "epoch": 1.371674670325482, "step": 17995}, {"loss": 0.11976799964904786, "token_acc": 0.9487672670047211, "grad_norm": 1.0374178886413574, "learning_rate": 8.254268046296429e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246496, "epoch": 1.372055796935742, "step": 18000}, {"eval_loss": 0.10556968301534653, "eval_token_acc": 0.9516218902475755, "eval_runtime": 160.9041, "eval_samples_per_second": 3.294, "eval_steps_per_second": 3.294, "epoch": 1.372055796935742, "step": 18000}, {"loss": 0.1344006896018982, "token_acc": 0.9509125098393633, "grad_norm": 0.8936917185783386, "learning_rate": 8.253358925112508e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245969, "epoch": 1.3724369235460019, "step": 18005}, {"loss": 0.10691550970077515, "token_acc": 0.9641922436354985, "grad_norm": 0.45324191451072693, "learning_rate": 8.252449617363551e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245974, "epoch": 1.372818050156262, "step": 18010}, {"loss": 0.12843425273895265, "token_acc": 0.9534513274336284, "grad_norm": 1.3490302562713623, "learning_rate": 8.251540123101702e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245983, "epoch": 1.373199176766522, "step": 18015}, {"loss": 0.17647043466567994, "token_acc": 0.9448818897637795, "grad_norm": 0.6886975765228271, "learning_rate": 8.250630442379115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246, "epoch": 1.3735803033767817, "step": 18020}, {"loss": 0.11848915815353393, "token_acc": 0.955500797216988, "grad_norm": 0.8229357600212097, "learning_rate": 8.249720575247957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246003, "epoch": 1.3739614299870417, "step": 18025}, {"loss": 0.09479608535766601, "token_acc": 0.9614359617494905, "grad_norm": 0.6941283941268921, "learning_rate": 8.248810521760407e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246016, "epoch": 1.3743425565973015, "step": 18030}, {"loss": 0.15749361515045165, "token_acc": 0.9438816855753647, "grad_norm": 1.2863913774490356, "learning_rate": 8.247900281968645e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246033, "epoch": 1.3747236832075616, "step": 18035}, {"loss": 0.12265716791152954, "token_acc": 0.9550858652575958, "grad_norm": 0.5278708338737488, "learning_rate": 8.246989855924878e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246048, "epoch": 1.3751048098178216, "step": 18040}, {"loss": 0.16010622978210448, "token_acc": 0.9347092677118476, "grad_norm": 1.5825202465057373, "learning_rate": 8.246079243681309e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246064, "epoch": 1.3754859364280814, "step": 18045}, {"loss": 0.20658977031707765, "token_acc": 0.9391498881431767, "grad_norm": 1.084681510925293, "learning_rate": 8.245168445290158e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246087, "epoch": 1.3758670630383414, "step": 18050}, {"loss": 0.1630723237991333, "token_acc": 0.9244808055380742, "grad_norm": 1.1032503843307495, "learning_rate": 8.244257460803659e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246114, "epoch": 1.3762481896486012, "step": 18055}, {"loss": 0.2012692928314209, "token_acc": 0.9333964049195838, "grad_norm": 1.422139286994934, "learning_rate": 8.243346290274047e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246132, "epoch": 1.3766293162588612, "step": 18060}, {"loss": 0.09678897261619568, "token_acc": 0.954467564259486, "grad_norm": 1.087647557258606, "learning_rate": 8.242434933753578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246147, "epoch": 1.3770104428691212, "step": 18065}, {"loss": 0.12846691608428956, "token_acc": 0.9601556708673091, "grad_norm": 0.6008079648017883, "learning_rate": 8.241523391294513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246156, "epoch": 1.377391569479381, "step": 18070}, {"loss": 0.10868494510650635, "token_acc": 0.9469147005444646, "grad_norm": 1.2556928396224976, "learning_rate": 8.240611662949122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246182, "epoch": 1.377772696089641, "step": 18075}, {"loss": 0.13121745586395264, "token_acc": 0.9460830108100894, "grad_norm": 0.8896218538284302, "learning_rate": 8.239699748769691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246192, "epoch": 1.3781538226999008, "step": 18080}, {"loss": 0.10223814249038696, "token_acc": 0.9565772669220945, "grad_norm": 0.4368506371974945, "learning_rate": 8.238787648808512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246204, "epoch": 1.3785349493101609, "step": 18085}, {"loss": 0.12547726631164552, "token_acc": 0.956474428726877, "grad_norm": 0.7719905972480774, "learning_rate": 8.237875363117895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246213, "epoch": 1.3789160759204209, "step": 18090}, {"loss": 0.12150166034698487, "token_acc": 0.9447890818858561, "grad_norm": 0.803806722164154, "learning_rate": 8.236962891750149e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246237, "epoch": 1.3792972025306807, "step": 18095}, {"loss": 0.1570334553718567, "token_acc": 0.9244069159630076, "grad_norm": 1.0717142820358276, "learning_rate": 8.236050234757602e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246259, "epoch": 1.3796783291409407, "step": 18100}, {"loss": 0.09883411526679993, "token_acc": 0.951958224543081, "grad_norm": 0.4425473213195801, "learning_rate": 8.235137392192592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24628, "epoch": 1.3800594557512005, "step": 18105}, {"loss": 0.11676779985427857, "token_acc": 0.9512258064516129, "grad_norm": 0.954807698726654, "learning_rate": 8.234224364107466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246299, "epoch": 1.3804405823614605, "step": 18110}, {"loss": 0.11575464010238648, "token_acc": 0.9480493228219122, "grad_norm": 0.6995159387588501, "learning_rate": 8.233311150554582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246315, "epoch": 1.3808217089717205, "step": 18115}, {"loss": 0.1280052900314331, "token_acc": 0.9448345035105316, "grad_norm": 0.4467090666294098, "learning_rate": 8.232397751586304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246338, "epoch": 1.3812028355819803, "step": 18120}, {"loss": 0.12066982984542847, "token_acc": 0.9557305110996386, "grad_norm": 1.6978009939193726, "learning_rate": 8.231484167255019e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246343, "epoch": 1.3815839621922403, "step": 18125}, {"loss": 0.12117900848388671, "token_acc": 0.9601789709172259, "grad_norm": 0.8319315314292908, "learning_rate": 8.230570397613111e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246351, "epoch": 1.3819650888025001, "step": 18130}, {"loss": 0.18607721328735352, "token_acc": 0.924357034795764, "grad_norm": 1.2421098947525024, "learning_rate": 8.229656442712983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246364, "epoch": 1.3823462154127601, "step": 18135}, {"loss": 0.08876882791519165, "token_acc": 0.9598711914788209, "grad_norm": 0.45954227447509766, "learning_rate": 8.228742302607045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246386, "epoch": 1.3827273420230202, "step": 18140}, {"loss": 0.16405327320098878, "token_acc": 0.9367260390161154, "grad_norm": 0.7441730499267578, "learning_rate": 8.22782797734772e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246402, "epoch": 1.38310846863328, "step": 18145}, {"loss": 0.09578163623809814, "token_acc": 0.9578059071729957, "grad_norm": 0.8882571458816528, "learning_rate": 8.226913466987438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24642, "epoch": 1.38348959524354, "step": 18150}, {"loss": 0.10532549619674683, "token_acc": 0.9447200566973778, "grad_norm": 0.23473678529262543, "learning_rate": 8.225998771578645e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246444, "epoch": 1.3838707218537998, "step": 18155}, {"loss": 0.19637296199798585, "token_acc": 0.9246612466124661, "grad_norm": 0.8115023374557495, "learning_rate": 8.225083891173792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246451, "epoch": 1.3842518484640598, "step": 18160}, {"loss": 0.11275131702423095, "token_acc": 0.9499618029029794, "grad_norm": 1.1889185905456543, "learning_rate": 8.224168825825345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246475, "epoch": 1.3846329750743198, "step": 18165}, {"loss": 0.11512763500213623, "token_acc": 0.9564375605033882, "grad_norm": 0.8904452323913574, "learning_rate": 8.223253575585776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246472, "epoch": 1.3850141016845796, "step": 18170}, {"loss": 0.11917814016342163, "token_acc": 0.9551599819738621, "grad_norm": 0.558654248714447, "learning_rate": 8.222338140507575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246477, "epoch": 1.3853952282948394, "step": 18175}, {"loss": 0.11732649803161621, "token_acc": 0.9503080898429735, "grad_norm": 0.6444247961044312, "learning_rate": 8.221422520643234e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246489, "epoch": 1.3857763549050994, "step": 18180}, {"loss": 0.11414519548416138, "token_acc": 0.9591812447935261, "grad_norm": 0.9569051861763, "learning_rate": 8.22050671604526e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246498, "epoch": 1.3861574815153594, "step": 18185}, {"loss": 0.14313658475875854, "token_acc": 0.9452187379016648, "grad_norm": 1.148328185081482, "learning_rate": 8.219590726766171e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246513, "epoch": 1.3865386081256195, "step": 18190}, {"loss": 0.15794689655303956, "token_acc": 0.9492404594294183, "grad_norm": 0.9692733883857727, "learning_rate": 8.218674552858494e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246538, "epoch": 1.3869197347358793, "step": 18195}, {"loss": 0.154066002368927, "token_acc": 0.9381902093291578, "grad_norm": 0.6120030879974365, "learning_rate": 8.217758194374769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246552, "epoch": 1.387300861346139, "step": 18200}, {"eval_loss": 0.10513678193092346, "eval_token_acc": 0.952442623938317, "eval_runtime": 162.4132, "eval_samples_per_second": 3.263, "eval_steps_per_second": 3.263, "epoch": 1.387300861346139, "step": 18200}, {"loss": 0.09991744756698609, "token_acc": 0.9530609772609046, "grad_norm": 1.1022573709487915, "learning_rate": 8.216841651367541e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246021, "epoch": 1.387681987956399, "step": 18205}, {"loss": 0.09317960143089295, "token_acc": 0.9648814749780509, "grad_norm": 0.5583586096763611, "learning_rate": 8.215924923889375e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246042, "epoch": 1.388063114566659, "step": 18210}, {"loss": 0.1480857253074646, "token_acc": 0.9445672504676076, "grad_norm": 0.12464092671871185, "learning_rate": 8.215008011992837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246057, "epoch": 1.388444241176919, "step": 18215}, {"loss": 0.11179187297821044, "token_acc": 0.9579610370587374, "grad_norm": 0.6729146242141724, "learning_rate": 8.21409091573051e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246066, "epoch": 1.388825367787179, "step": 18220}, {"loss": 0.0917933464050293, "token_acc": 0.9647311827956989, "grad_norm": 0.5150517821311951, "learning_rate": 8.213173635154985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246079, "epoch": 1.3892064943974387, "step": 18225}, {"loss": 0.10810695886611939, "token_acc": 0.9570655441972339, "grad_norm": 0.6624912023544312, "learning_rate": 8.212256170318861e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246085, "epoch": 1.3895876210076987, "step": 18230}, {"loss": 0.1038819432258606, "token_acc": 0.9689461513049223, "grad_norm": 0.5920590162277222, "learning_rate": 8.211338521274754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246098, "epoch": 1.3899687476179587, "step": 18235}, {"loss": 0.12476167678833008, "token_acc": 0.954566037735849, "grad_norm": 1.125763177871704, "learning_rate": 8.210420688075284e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246112, "epoch": 1.3903498742282185, "step": 18240}, {"loss": 0.0969914972782135, "token_acc": 0.962416578854935, "grad_norm": 0.7007716298103333, "learning_rate": 8.209502670773085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246119, "epoch": 1.3907310008384786, "step": 18245}, {"loss": 0.13488421440124512, "token_acc": 0.9404175463288764, "grad_norm": 0.9235966801643372, "learning_rate": 8.208584469420804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246135, "epoch": 1.3911121274487384, "step": 18250}, {"loss": 0.08261986970901489, "token_acc": 0.9684904416611734, "grad_norm": 0.5928240418434143, "learning_rate": 8.207666084071093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246148, "epoch": 1.3914932540589984, "step": 18255}, {"loss": 0.08748424649238587, "token_acc": 0.9510974201001156, "grad_norm": 1.3564022779464722, "learning_rate": 8.206747514776616e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246171, "epoch": 1.3918743806692584, "step": 18260}, {"loss": 0.1377529978752136, "token_acc": 0.9394889103182257, "grad_norm": 1.1536822319030762, "learning_rate": 8.20582876159005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246192, "epoch": 1.3922555072795182, "step": 18265}, {"loss": 0.1368294596672058, "token_acc": 0.9411939411939412, "grad_norm": 1.7612333297729492, "learning_rate": 8.204909824564082e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246213, "epoch": 1.3926366338897782, "step": 18270}, {"loss": 0.08371630907058716, "token_acc": 0.974389755902361, "grad_norm": 1.1100726127624512, "learning_rate": 8.20399070375141e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246237, "epoch": 1.393017760500038, "step": 18275}, {"loss": 0.1365604043006897, "token_acc": 0.9365411436541143, "grad_norm": 1.144019365310669, "learning_rate": 8.203071399204737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246259, "epoch": 1.393398887110298, "step": 18280}, {"loss": 0.11065781116485596, "token_acc": 0.954520697167756, "grad_norm": 0.8807190656661987, "learning_rate": 8.202151910976785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246281, "epoch": 1.393780013720558, "step": 18285}, {"loss": 0.10109958648681641, "token_acc": 0.9564670357322597, "grad_norm": 0.8500208854675293, "learning_rate": 8.201232239120279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246302, "epoch": 1.3941611403308178, "step": 18290}, {"loss": 0.1048314094543457, "token_acc": 0.9614573076382051, "grad_norm": 0.7054122686386108, "learning_rate": 8.20031238368796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246311, "epoch": 1.3945422669410779, "step": 18295}, {"loss": 0.12618597745895385, "token_acc": 0.9525449674703406, "grad_norm": 1.013264775276184, "learning_rate": 8.199392344732578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246334, "epoch": 1.3949233935513377, "step": 18300}, {"loss": 0.16850589513778685, "token_acc": 0.938801261829653, "grad_norm": 1.185962200164795, "learning_rate": 8.198472122306893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246348, "epoch": 1.3953045201615977, "step": 18305}, {"loss": 0.12407782077789306, "token_acc": 0.9596340150699677, "grad_norm": 0.9958047270774841, "learning_rate": 8.197551716463672e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246368, "epoch": 1.3956856467718577, "step": 18310}, {"loss": 0.14571125507354737, "token_acc": 0.9358014966522253, "grad_norm": 1.0537302494049072, "learning_rate": 8.1966311272557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24639, "epoch": 1.3960667733821175, "step": 18315}, {"loss": 0.1646967887878418, "token_acc": 0.9291666666666667, "grad_norm": 1.4046000242233276, "learning_rate": 8.195710354735766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246411, "epoch": 1.3964478999923775, "step": 18320}, {"loss": 0.16405644416809081, "token_acc": 0.93956795187312, "grad_norm": 0.95902419090271, "learning_rate": 8.194789398956673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246431, "epoch": 1.3968290266026373, "step": 18325}, {"loss": 0.14841848611831665, "token_acc": 0.9386781739722916, "grad_norm": 0.5269853472709656, "learning_rate": 8.193868259971236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246445, "epoch": 1.3972101532128973, "step": 18330}, {"loss": 0.09789665937423705, "token_acc": 0.9562720848056537, "grad_norm": 1.1013139486312866, "learning_rate": 8.192946937832273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24647, "epoch": 1.3975912798231573, "step": 18335}, {"loss": 0.12652567625045777, "token_acc": 0.9533906050082251, "grad_norm": 0.7420839071273804, "learning_rate": 8.19202543259262e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246484, "epoch": 1.3979724064334171, "step": 18340}, {"loss": 0.11934573650360107, "token_acc": 0.9542146755609461, "grad_norm": 1.3114731311798096, "learning_rate": 8.191103744305123e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246507, "epoch": 1.3983535330436772, "step": 18345}, {"loss": 0.09125722646713257, "token_acc": 0.9627312658059364, "grad_norm": 0.7111780643463135, "learning_rate": 8.190181873022634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24651, "epoch": 1.398734659653937, "step": 18350}, {"loss": 0.15024205446243286, "token_acc": 0.945898161244696, "grad_norm": 0.8680695295333862, "learning_rate": 8.18925981879802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246524, "epoch": 1.399115786264197, "step": 18355}, {"loss": 0.12381165027618408, "token_acc": 0.9510852302805717, "grad_norm": 0.7217831015586853, "learning_rate": 8.188337581684153e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246522, "epoch": 1.399496912874457, "step": 18360}, {"loss": 0.1253532886505127, "token_acc": 0.952762547448334, "grad_norm": 0.6787427663803101, "learning_rate": 8.187415161733924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246535, "epoch": 1.3998780394847168, "step": 18365}, {"loss": 0.10359303951263428, "token_acc": 0.9552165354330708, "grad_norm": 0.6483678817749023, "learning_rate": 8.186492559000225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246553, "epoch": 1.4002591660949768, "step": 18370}, {"loss": 0.10218816995620728, "token_acc": 0.9534168834239773, "grad_norm": 1.2542468309402466, "learning_rate": 8.185569773535966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246574, "epoch": 1.4006402927052366, "step": 18375}, {"loss": 0.12504873275756836, "token_acc": 0.9365455502896262, "grad_norm": 1.207767367362976, "learning_rate": 8.184646805394063e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246595, "epoch": 1.4010214193154966, "step": 18380}, {"loss": 0.1507176637649536, "token_acc": 0.9484002509410289, "grad_norm": 1.8677887916564941, "learning_rate": 8.183723654627444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246607, "epoch": 1.4014025459257566, "step": 18385}, {"loss": 0.16029274463653564, "token_acc": 0.9440866510538641, "grad_norm": 0.9721167087554932, "learning_rate": 8.182800321289047e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246617, "epoch": 1.4017836725360164, "step": 18390}, {"loss": 0.10199804306030273, "token_acc": 0.9563287768507013, "grad_norm": 0.16145023703575134, "learning_rate": 8.181876805431823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24663, "epoch": 1.4021647991462765, "step": 18395}, {"loss": 0.14973278045654298, "token_acc": 0.943858168003377, "grad_norm": 1.8744113445281982, "learning_rate": 8.18095310710873e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246646, "epoch": 1.4025459257565362, "step": 18400}, {"eval_loss": 0.10320473462343216, "eval_token_acc": 0.9527061622793808, "eval_runtime": 160.3622, "eval_samples_per_second": 3.305, "eval_steps_per_second": 3.305, "epoch": 1.4025459257565362, "step": 18400}, {"loss": 0.08121050596237182, "token_acc": 0.9529249180376071, "grad_norm": 1.2142605781555176, "learning_rate": 8.180029226372736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246134, "epoch": 1.4029270523667963, "step": 18405}, {"loss": 0.11242272853851318, "token_acc": 0.9478949562317632, "grad_norm": 1.3426215648651123, "learning_rate": 8.179105163276823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246156, "epoch": 1.4033081789770563, "step": 18410}, {"loss": 0.14818623065948486, "token_acc": 0.9284578696343402, "grad_norm": 0.9762861728668213, "learning_rate": 8.178180917873984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246175, "epoch": 1.403689305587316, "step": 18415}, {"loss": 0.16130706071853637, "token_acc": 0.9407176287051482, "grad_norm": 0.7943832278251648, "learning_rate": 8.177256490217216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246188, "epoch": 1.404070432197576, "step": 18420}, {"loss": 0.13296910524368286, "token_acc": 0.9519466853735531, "grad_norm": 0.4993910491466522, "learning_rate": 8.176331880359535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246198, "epoch": 1.404451558807836, "step": 18425}, {"loss": 0.1346402049064636, "token_acc": 0.9527158461768667, "grad_norm": 0.64460289478302, "learning_rate": 8.175407088353957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246212, "epoch": 1.404832685418096, "step": 18430}, {"loss": 0.1428571105003357, "token_acc": 0.9436619718309859, "grad_norm": 1.8868021965026855, "learning_rate": 8.174482114253522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246238, "epoch": 1.405213812028356, "step": 18435}, {"loss": 0.12975727319717406, "token_acc": 0.9552290606200833, "grad_norm": 0.6482090353965759, "learning_rate": 8.173556958111266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246242, "epoch": 1.4055949386386157, "step": 18440}, {"loss": 0.1396550178527832, "token_acc": 0.9524506217995611, "grad_norm": 0.7293150424957275, "learning_rate": 8.172631619980246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246256, "epoch": 1.4059760652488758, "step": 18445}, {"loss": 0.12642989158630372, "token_acc": 0.9482280431432973, "grad_norm": 1.014978289604187, "learning_rate": 8.171706099913527e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246275, "epoch": 1.4063571918591355, "step": 18450}, {"loss": 0.10709239244461059, "token_acc": 0.9652525252525253, "grad_norm": 1.206221580505371, "learning_rate": 8.170780397964182e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246294, "epoch": 1.4067383184693956, "step": 18455}, {"loss": 0.10309563875198365, "token_acc": 0.9595172624503514, "grad_norm": 0.9043061137199402, "learning_rate": 8.169854514185294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246306, "epoch": 1.4071194450796556, "step": 18460}, {"loss": 0.11574127674102783, "token_acc": 0.9554785390562517, "grad_norm": 1.062195897102356, "learning_rate": 8.16892844862996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246328, "epoch": 1.4075005716899154, "step": 18465}, {"loss": 0.14091129302978517, "token_acc": 0.9486703772418058, "grad_norm": 0.7399715781211853, "learning_rate": 8.168002201351283e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246343, "epoch": 1.4078816983001754, "step": 18470}, {"loss": 0.08318618535995484, "token_acc": 0.9507684918347743, "grad_norm": 0.40641507506370544, "learning_rate": 8.167075772402383e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24636, "epoch": 1.4082628249104352, "step": 18475}, {"loss": 0.09168183207511901, "token_acc": 0.9647467036780014, "grad_norm": 0.9433817267417908, "learning_rate": 8.166149161836385e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246363, "epoch": 1.4086439515206952, "step": 18480}, {"loss": 0.17582111358642577, "token_acc": 0.9302117506710409, "grad_norm": 0.9048735499382019, "learning_rate": 8.165222369706426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246388, "epoch": 1.4090250781309552, "step": 18485}, {"loss": 0.07898681759834289, "token_acc": 0.9631639063392348, "grad_norm": 0.6095515489578247, "learning_rate": 8.164295396065651e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246407, "epoch": 1.409406204741215, "step": 18490}, {"loss": 0.11943141222000123, "token_acc": 0.9526553672316385, "grad_norm": 0.7602821588516235, "learning_rate": 8.16336824096722e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246402, "epoch": 1.4097873313514748, "step": 18495}, {"loss": 0.13339110612869262, "token_acc": 0.9504244482173175, "grad_norm": 0.5212048888206482, "learning_rate": 8.1624409044643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246422, "epoch": 1.4101684579617348, "step": 18500}, {"loss": 0.08556466698646545, "token_acc": 0.961061189559264, "grad_norm": 0.791562557220459, "learning_rate": 8.161513386610068e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24644, "epoch": 1.4105495845719949, "step": 18505}, {"loss": 0.17056045532226563, "token_acc": 0.9273207796498183, "grad_norm": 1.1346789598464966, "learning_rate": 8.160585687457715e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24646, "epoch": 1.4109307111822549, "step": 18510}, {"loss": 0.11528911590576171, "token_acc": 0.953519256308101, "grad_norm": 0.7100658416748047, "learning_rate": 8.159657807060441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246478, "epoch": 1.4113118377925147, "step": 18515}, {"loss": 0.10855063199996948, "token_acc": 0.9600835945663532, "grad_norm": 0.9273611307144165, "learning_rate": 8.158729745471454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246496, "epoch": 1.4116929644027745, "step": 18520}, {"loss": 0.12325654029846192, "token_acc": 0.9537140724150802, "grad_norm": 0.6418458223342896, "learning_rate": 8.157801502743975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246518, "epoch": 1.4120740910130345, "step": 18525}, {"loss": 0.10880006551742553, "token_acc": 0.9562413634269922, "grad_norm": 0.8599861264228821, "learning_rate": 8.156873078931233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246531, "epoch": 1.4124552176232945, "step": 18530}, {"loss": 0.12699611186981202, "token_acc": 0.9428571428571428, "grad_norm": 0.7725469470024109, "learning_rate": 8.15594447408647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246557, "epoch": 1.4128363442335543, "step": 18535}, {"loss": 0.13941999673843383, "token_acc": 0.9533449799609496, "grad_norm": 0.5519210696220398, "learning_rate": 8.155015688262934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246563, "epoch": 1.4132174708438143, "step": 18540}, {"loss": 0.1513966679573059, "token_acc": 0.9516941391941391, "grad_norm": 0.29357147216796875, "learning_rate": 8.154086721513894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246579, "epoch": 1.4135985974540741, "step": 18545}, {"loss": 0.12263892889022827, "token_acc": 0.95578231292517, "grad_norm": 1.7423571348190308, "learning_rate": 8.153157573892614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246602, "epoch": 1.4139797240643341, "step": 18550}, {"loss": 0.08305848836898803, "token_acc": 0.9636085626911315, "grad_norm": 0.8322332501411438, "learning_rate": 8.152228245452381e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246623, "epoch": 1.4143608506745942, "step": 18555}, {"loss": 0.16248252391815185, "token_acc": 0.9456869009584664, "grad_norm": 0.8521695733070374, "learning_rate": 8.151298736246486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246631, "epoch": 1.414741977284854, "step": 18560}, {"loss": 0.08836096525192261, "token_acc": 0.9554865424430642, "grad_norm": 1.0960078239440918, "learning_rate": 8.150369046328233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246652, "epoch": 1.415123103895114, "step": 18565}, {"loss": 0.15664026737213135, "token_acc": 0.9309090909090909, "grad_norm": 1.0672720670700073, "learning_rate": 8.149439175750933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246675, "epoch": 1.4155042305053738, "step": 18570}, {"loss": 0.20674436092376708, "token_acc": 0.9268852459016393, "grad_norm": 1.688234567642212, "learning_rate": 8.148509124567913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246696, "epoch": 1.4158853571156338, "step": 18575}, {"loss": 0.16085220575332643, "token_acc": 0.9428197293758184, "grad_norm": 0.5362254977226257, "learning_rate": 8.147578892832504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246707, "epoch": 1.4162664837258938, "step": 18580}, {"loss": 0.14986461400985718, "token_acc": 0.9420970266040689, "grad_norm": 0.518570601940155, "learning_rate": 8.146648480598054e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246719, "epoch": 1.4166476103361536, "step": 18585}, {"loss": 0.12895435094833374, "token_acc": 0.9496243923994697, "grad_norm": 1.705245852470398, "learning_rate": 8.145717887917915e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246744, "epoch": 1.4170287369464136, "step": 18590}, {"loss": 0.09701173305511475, "token_acc": 0.9497716894977168, "grad_norm": 0.6099913716316223, "learning_rate": 8.144787114845453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246766, "epoch": 1.4174098635566734, "step": 18595}, {"loss": 0.09798418283462525, "token_acc": 0.9490534521158129, "grad_norm": 1.1442960500717163, "learning_rate": 8.143856161434043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246789, "epoch": 1.4177909901669334, "step": 18600}, {"eval_loss": 0.10525099188089371, "eval_token_acc": 0.9520059032588398, "eval_runtime": 159.3102, "eval_samples_per_second": 3.327, "eval_steps_per_second": 3.327, "epoch": 1.4177909901669334, "step": 18600}, {"loss": 0.11573319435119629, "token_acc": 0.9514552547239584, "grad_norm": 0.6838528513908386, "learning_rate": 8.142925027737072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246288, "epoch": 1.4181721167771935, "step": 18605}, {"loss": 0.11576131582260132, "token_acc": 0.9599628999845417, "grad_norm": 0.9842451214790344, "learning_rate": 8.141993713807934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246297, "epoch": 1.4185532433874533, "step": 18610}, {"loss": 0.13617385625839235, "token_acc": 0.9514661274014156, "grad_norm": 1.5666344165802002, "learning_rate": 8.141062219700039e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246307, "epoch": 1.4189343699977133, "step": 18615}, {"loss": 0.11497244834899903, "token_acc": 0.951213282247765, "grad_norm": 1.377042293548584, "learning_rate": 8.140130545466802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246326, "epoch": 1.419315496607973, "step": 18620}, {"loss": 0.1697978138923645, "token_acc": 0.940002419257288, "grad_norm": 0.6518558263778687, "learning_rate": 8.13919869116165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246329, "epoch": 1.419696623218233, "step": 18625}, {"loss": 0.1616070032119751, "token_acc": 0.9433686518085495, "grad_norm": 0.6899514198303223, "learning_rate": 8.13826665683802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246353, "epoch": 1.420077749828493, "step": 18630}, {"loss": 0.14253787994384765, "token_acc": 0.9472913616398243, "grad_norm": 1.0554395914077759, "learning_rate": 8.13733444254936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246368, "epoch": 1.420458876438753, "step": 18635}, {"loss": 0.1398906707763672, "token_acc": 0.947289905519642, "grad_norm": 1.558193325996399, "learning_rate": 8.136402048349132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246387, "epoch": 1.420840003049013, "step": 18640}, {"loss": 0.1218982219696045, "token_acc": 0.9547489983502239, "grad_norm": 0.6901738047599792, "learning_rate": 8.135469474290797e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246404, "epoch": 1.4212211296592727, "step": 18645}, {"loss": 0.10346074104309082, "token_acc": 0.956984667802385, "grad_norm": 0.9578468203544617, "learning_rate": 8.13453672042784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246427, "epoch": 1.4216022562695327, "step": 18650}, {"loss": 0.10355440378189087, "token_acc": 0.9595024587792884, "grad_norm": 0.7844031453132629, "learning_rate": 8.13360378681375e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246432, "epoch": 1.4219833828797928, "step": 18655}, {"loss": 0.1594296932220459, "token_acc": 0.9134020618556701, "grad_norm": 1.0240603685379028, "learning_rate": 8.132670673502022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246456, "epoch": 1.4223645094900526, "step": 18660}, {"loss": 0.11618781089782715, "token_acc": 0.952177886079805, "grad_norm": 0.47735917568206787, "learning_rate": 8.131737380546169e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246478, "epoch": 1.4227456361003126, "step": 18665}, {"loss": 0.07237839698791504, "token_acc": 0.9677043933663079, "grad_norm": 0.95379239320755, "learning_rate": 8.130803907999709e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246497, "epoch": 1.4231267627105724, "step": 18670}, {"loss": 0.13588590621948243, "token_acc": 0.9458155501948413, "grad_norm": 0.8878023624420166, "learning_rate": 8.129870255916176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246513, "epoch": 1.4235078893208324, "step": 18675}, {"loss": 0.13079198598861694, "token_acc": 0.9538310412573674, "grad_norm": 1.6210001707077026, "learning_rate": 8.128936424349106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246537, "epoch": 1.4238890159310924, "step": 18680}, {"loss": 0.10710233449935913, "token_acc": 0.9540128512032254, "grad_norm": 0.9744818210601807, "learning_rate": 8.128002413352053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24654, "epoch": 1.4242701425413522, "step": 18685}, {"loss": 0.17551583051681519, "token_acc": 0.9245283018867925, "grad_norm": 1.2290986776351929, "learning_rate": 8.127068222978578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246565, "epoch": 1.4246512691516122, "step": 18690}, {"loss": 0.15813136100769043, "token_acc": 0.9324384787472035, "grad_norm": 0.6828672289848328, "learning_rate": 8.126133853282252e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246584, "epoch": 1.425032395761872, "step": 18695}, {"loss": 0.0733360230922699, "token_acc": 0.9793561931420574, "grad_norm": 0.7722671031951904, "learning_rate": 8.125199304316655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246606, "epoch": 1.425413522372132, "step": 18700}, {"loss": 0.1174615740776062, "token_acc": 0.9620211898940505, "grad_norm": 0.7025227546691895, "learning_rate": 8.12426457613538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246615, "epoch": 1.425794648982392, "step": 18705}, {"loss": 0.15710290670394897, "token_acc": 0.9391683057038493, "grad_norm": 1.0486899614334106, "learning_rate": 8.123329668792032e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246627, "epoch": 1.4261757755926519, "step": 18710}, {"loss": 0.1665947437286377, "token_acc": 0.9432163861285743, "grad_norm": 1.3589959144592285, "learning_rate": 8.122394582340222e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246641, "epoch": 1.4265569022029119, "step": 18715}, {"loss": 0.11129704713821412, "token_acc": 0.9608272506082725, "grad_norm": 0.9270812273025513, "learning_rate": 8.121459316833571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246658, "epoch": 1.4269380288131717, "step": 18720}, {"loss": 0.13685863018035888, "token_acc": 0.9308652988403211, "grad_norm": 0.7994949817657471, "learning_rate": 8.120523872325712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246676, "epoch": 1.4273191554234317, "step": 18725}, {"loss": 0.09754078388214112, "token_acc": 0.9688535453943009, "grad_norm": 1.3021093606948853, "learning_rate": 8.119588248870293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246685, "epoch": 1.4277002820336917, "step": 18730}, {"loss": 0.11728484630584717, "token_acc": 0.9530288909599255, "grad_norm": 1.257550835609436, "learning_rate": 8.118652446520963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2467, "epoch": 1.4280814086439515, "step": 18735}, {"loss": 0.09095391631126404, "token_acc": 0.962937822427369, "grad_norm": 0.2866252660751343, "learning_rate": 8.117716465331386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246711, "epoch": 1.4284625352542115, "step": 18740}, {"loss": 0.11995611190795899, "token_acc": 0.9452054794520548, "grad_norm": 1.6896525621414185, "learning_rate": 8.11678030535524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246733, "epoch": 1.4288436618644713, "step": 18745}, {"loss": 0.1408531427383423, "token_acc": 0.9589912797548904, "grad_norm": 0.953292727470398, "learning_rate": 8.115843966646206e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246753, "epoch": 1.4292247884747313, "step": 18750}, {"loss": 0.13542817831039428, "token_acc": 0.9455965526528414, "grad_norm": 1.224972128868103, "learning_rate": 8.114907449257981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246772, "epoch": 1.4296059150849914, "step": 18755}, {"loss": 0.14549415111541747, "token_acc": 0.9528401386168449, "grad_norm": 1.3824682235717773, "learning_rate": 8.113970753244269e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246784, "epoch": 1.4299870416952511, "step": 18760}, {"loss": 0.1010746717453003, "token_acc": 0.9644444444444444, "grad_norm": 0.7319364547729492, "learning_rate": 8.113033878658782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2468, "epoch": 1.4303681683055112, "step": 18765}, {"loss": 0.12028862237930298, "token_acc": 0.9659367396593674, "grad_norm": 0.8387638926506042, "learning_rate": 8.112096825555251e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246819, "epoch": 1.430749294915771, "step": 18770}, {"loss": 0.11790206432342529, "token_acc": 0.9475982532751092, "grad_norm": 0.8554867506027222, "learning_rate": 8.111159593987407e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246834, "epoch": 1.431130421526031, "step": 18775}, {"loss": 0.16302452087402344, "token_acc": 0.942101226993865, "grad_norm": 1.5390795469284058, "learning_rate": 8.110222184009e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246859, "epoch": 1.431511548136291, "step": 18780}, {"loss": 0.1819934606552124, "token_acc": 0.9290465631929047, "grad_norm": 1.7068110704421997, "learning_rate": 8.109284595673782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246883, "epoch": 1.4318926747465508, "step": 18785}, {"loss": 0.11843564510345458, "token_acc": 0.950561797752809, "grad_norm": 0.9326579570770264, "learning_rate": 8.108346829035522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246897, "epoch": 1.4322738013568106, "step": 18790}, {"loss": 0.14099421501159667, "token_acc": 0.9606472968002943, "grad_norm": 1.2024770975112915, "learning_rate": 8.107408884147998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246906, "epoch": 1.4326549279670706, "step": 18795}, {"loss": 0.11027973890304565, "token_acc": 0.9470515317867895, "grad_norm": 1.2317966222763062, "learning_rate": 8.106470761064992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24692, "epoch": 1.4330360545773306, "step": 18800}, {"eval_loss": 0.10415904968976974, "eval_token_acc": 0.9524275646045419, "eval_runtime": 158.9709, "eval_samples_per_second": 3.334, "eval_steps_per_second": 3.334, "epoch": 1.4330360545773306, "step": 18800}, {"loss": 0.18317933082580568, "token_acc": 0.9517214030786979, "grad_norm": 0.6738716959953308, "learning_rate": 8.105532459840304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246415, "epoch": 1.4334171811875906, "step": 18805}, {"loss": 0.12054901123046875, "token_acc": 0.950733752620545, "grad_norm": 1.1211717128753662, "learning_rate": 8.10459398052774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246429, "epoch": 1.4337983077978504, "step": 18810}, {"loss": 0.12549219131469727, "token_acc": 0.9477434679334917, "grad_norm": 0.7109419703483582, "learning_rate": 8.10365532318112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246443, "epoch": 1.4341794344081102, "step": 18815}, {"loss": 0.12163188457489013, "token_acc": 0.9497509205111544, "grad_norm": 0.6351598501205444, "learning_rate": 8.10271648785427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24646, "epoch": 1.4345605610183703, "step": 18820}, {"loss": 0.12906453609466553, "token_acc": 0.9475908706677938, "grad_norm": 1.36000394821167, "learning_rate": 8.101777474601027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246469, "epoch": 1.4349416876286303, "step": 18825}, {"loss": 0.11569726467132568, "token_acc": 0.9585253456221198, "grad_norm": 0.6743232011795044, "learning_rate": 8.100838283475239e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246479, "epoch": 1.43532281423889, "step": 18830}, {"loss": 0.12249659299850464, "token_acc": 0.951148377688662, "grad_norm": 0.520671010017395, "learning_rate": 8.099898914530767e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246498, "epoch": 1.43570394084915, "step": 18835}, {"loss": 0.11815061569213867, "token_acc": 0.9549814356435643, "grad_norm": 0.9329952001571655, "learning_rate": 8.098959367821478e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246505, "epoch": 1.43608506745941, "step": 18840}, {"loss": 0.10759944915771484, "token_acc": 0.9509683746016181, "grad_norm": 0.5914559364318848, "learning_rate": 8.098019643401246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246522, "epoch": 1.43646619406967, "step": 18845}, {"loss": 0.1287701964378357, "token_acc": 0.9619450317124736, "grad_norm": 0.6574293375015259, "learning_rate": 8.097079741323968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246526, "epoch": 1.43684732067993, "step": 18850}, {"loss": 0.15353147983551024, "token_acc": 0.9493518963034085, "grad_norm": 1.2271397113800049, "learning_rate": 8.096139661643539e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246543, "epoch": 1.4372284472901897, "step": 18855}, {"loss": 0.09196496605873108, "token_acc": 0.9653054958550814, "grad_norm": 0.8273851871490479, "learning_rate": 8.095199404413867e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246555, "epoch": 1.4376095739004497, "step": 18860}, {"loss": 0.12972168922424315, "token_acc": 0.9515151515151515, "grad_norm": 0.31403011083602905, "learning_rate": 8.094258969688872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246569, "epoch": 1.4379907005107095, "step": 18865}, {"loss": 0.15748403072357178, "token_acc": 0.9419542083198968, "grad_norm": 1.547602653503418, "learning_rate": 8.093318357522485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246584, "epoch": 1.4383718271209696, "step": 18870}, {"loss": 0.12394015789031983, "token_acc": 0.9547635366689513, "grad_norm": 0.7255045175552368, "learning_rate": 8.092377567968643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246594, "epoch": 1.4387529537312296, "step": 18875}, {"loss": 0.17961875200271607, "token_acc": 0.9493790496760259, "grad_norm": 0.581085205078125, "learning_rate": 8.091436601081301e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246601, "epoch": 1.4391340803414894, "step": 18880}, {"loss": 0.1227304220199585, "token_acc": 0.9578073664188138, "grad_norm": 0.641188383102417, "learning_rate": 8.090495456914414e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246612, "epoch": 1.4395152069517494, "step": 18885}, {"loss": 0.13889453411102295, "token_acc": 0.9556601922699627, "grad_norm": 1.1288622617721558, "learning_rate": 8.089554135521955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246615, "epoch": 1.4398963335620092, "step": 18890}, {"loss": 0.10831539630889893, "token_acc": 0.9655430711610486, "grad_norm": 0.6036928296089172, "learning_rate": 8.088612636957904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246631, "epoch": 1.4402774601722692, "step": 18895}, {"loss": 0.11340765953063965, "token_acc": 0.9606768350810295, "grad_norm": 0.7085936665534973, "learning_rate": 8.08767096127625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24665, "epoch": 1.4406585867825292, "step": 18900}, {"loss": 0.12060369253158569, "token_acc": 0.9500085895894176, "grad_norm": 0.8926483988761902, "learning_rate": 8.086729108530997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246662, "epoch": 1.441039713392789, "step": 18905}, {"loss": 0.09916902780532837, "token_acc": 0.9575066627183891, "grad_norm": 0.8751965761184692, "learning_rate": 8.085787078776152e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246673, "epoch": 1.441420840003049, "step": 18910}, {"loss": 0.13124603033065796, "token_acc": 0.9583468922876668, "grad_norm": 1.1364500522613525, "learning_rate": 8.084844872065737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246691, "epoch": 1.4418019666133088, "step": 18915}, {"loss": 0.15582749843597413, "token_acc": 0.9307137433561123, "grad_norm": 1.1538490056991577, "learning_rate": 8.083902488453786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246711, "epoch": 1.4421830932235689, "step": 18920}, {"loss": 0.13207271099090576, "token_acc": 0.9500621118012422, "grad_norm": 0.7574672102928162, "learning_rate": 8.082959927994339e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246733, "epoch": 1.4425642198338289, "step": 18925}, {"loss": 0.10468072891235351, "token_acc": 0.9494015233949945, "grad_norm": 0.7052353024482727, "learning_rate": 8.082017190741444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246749, "epoch": 1.4429453464440887, "step": 18930}, {"loss": 0.09797731637954712, "token_acc": 0.9592096876991715, "grad_norm": 0.9169278144836426, "learning_rate": 8.081074276749167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24677, "epoch": 1.4433264730543487, "step": 18935}, {"loss": 0.16652768850326538, "token_acc": 0.941617096276713, "grad_norm": 1.780732274055481, "learning_rate": 8.080131186071577e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246783, "epoch": 1.4437075996646085, "step": 18940}, {"loss": 0.18593850135803222, "token_acc": 0.9136790810998956, "grad_norm": 0.7023558616638184, "learning_rate": 8.079187918762759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246803, "epoch": 1.4440887262748685, "step": 18945}, {"loss": 0.13992748260498047, "token_acc": 0.9525134483398257, "grad_norm": 1.960587978363037, "learning_rate": 8.078244474876802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246814, "epoch": 1.4444698528851285, "step": 18950}, {"loss": 0.15598548650741578, "token_acc": 0.9436513899323816, "grad_norm": 1.0297163724899292, "learning_rate": 8.077300854467809e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246825, "epoch": 1.4448509794953883, "step": 18955}, {"loss": 0.10381536483764649, "token_acc": 0.958816094375395, "grad_norm": 0.6106840968132019, "learning_rate": 8.076357057589892e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24683, "epoch": 1.4452321061056483, "step": 18960}, {"loss": 0.17083433866500855, "token_acc": 0.9308755760368663, "grad_norm": 2.681159734725952, "learning_rate": 8.075413084297176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246849, "epoch": 1.4456132327159081, "step": 18965}, {"loss": 0.14015731811523438, "token_acc": 0.9474245115452931, "grad_norm": 0.6529614925384521, "learning_rate": 8.074468934643788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246861, "epoch": 1.4459943593261682, "step": 18970}, {"loss": 0.13044567108154298, "token_acc": 0.952580560649725, "grad_norm": 0.8163145184516907, "learning_rate": 8.073524608683875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246879, "epoch": 1.4463754859364282, "step": 18975}, {"loss": 0.15981061458587648, "token_acc": 0.9437718590260963, "grad_norm": 0.5419698357582092, "learning_rate": 8.07258010647159e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2469, "epoch": 1.446756612546688, "step": 18980}, {"loss": 0.10654369592666627, "token_acc": 0.9634350888963435, "grad_norm": 1.5064417123794556, "learning_rate": 8.071635428061094e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24692, "epoch": 1.447137739156948, "step": 18985}, {"loss": 0.1434991717338562, "token_acc": 0.9427596664139499, "grad_norm": 1.3496054410934448, "learning_rate": 8.070690573506561e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246943, "epoch": 1.4475188657672078, "step": 18990}, {"loss": 0.12301586866378784, "token_acc": 0.957037037037037, "grad_norm": 0.6815381050109863, "learning_rate": 8.069745542862171e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246962, "epoch": 1.4478999923774678, "step": 18995}, {"loss": 0.07955302000045776, "token_acc": 0.9598242310106717, "grad_norm": 0.6960711479187012, "learning_rate": 8.068800336182121e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246981, "epoch": 1.4482811189877278, "step": 19000}, {"eval_loss": 0.10236881673336029, "eval_token_acc": 0.952864285284019, "eval_runtime": 158.6226, "eval_samples_per_second": 3.341, "eval_steps_per_second": 3.341, "epoch": 1.4482811189877278, "step": 19000}, {"loss": 0.11166160106658936, "token_acc": 0.9531217515359635, "grad_norm": 0.9389320015907288, "learning_rate": 8.067854953520612e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246481, "epoch": 1.4486622455979876, "step": 19005}, {"loss": 0.12198755741119385, "token_acc": 0.9535010940919038, "grad_norm": 1.4802606105804443, "learning_rate": 8.066909394931859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246497, "epoch": 1.4490433722082476, "step": 19010}, {"loss": 0.13377373218536376, "token_acc": 0.9465648854961832, "grad_norm": 1.1712068319320679, "learning_rate": 8.065963660470084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246517, "epoch": 1.4494244988185074, "step": 19015}, {"loss": 0.10509793758392334, "token_acc": 0.9599596716116953, "grad_norm": 0.7430325746536255, "learning_rate": 8.06501775018952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246525, "epoch": 1.4498056254287675, "step": 19020}, {"loss": 0.1798298716545105, "token_acc": 0.9395912461566287, "grad_norm": 1.1666769981384277, "learning_rate": 8.064071664144413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246539, "epoch": 1.4501867520390275, "step": 19025}, {"loss": 0.10532540082931519, "token_acc": 0.9612244897959183, "grad_norm": 1.1944515705108643, "learning_rate": 8.063125402389013e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246564, "epoch": 1.4505678786492873, "step": 19030}, {"loss": 0.09269207715988159, "token_acc": 0.9647340107591154, "grad_norm": 1.3634631633758545, "learning_rate": 8.062178964977586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246589, "epoch": 1.4509490052595473, "step": 19035}, {"loss": 0.12403786182403564, "token_acc": 0.9534836890857833, "grad_norm": 1.131097435951233, "learning_rate": 8.061232351964408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246592, "epoch": 1.451330131869807, "step": 19040}, {"loss": 0.07665469646453857, "token_acc": 0.9620098039215687, "grad_norm": 0.06138041988015175, "learning_rate": 8.060285563403759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246614, "epoch": 1.451711258480067, "step": 19045}, {"loss": 0.1626629948616028, "token_acc": 0.9522924411400248, "grad_norm": 0.4815457761287689, "learning_rate": 8.059338599349935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246626, "epoch": 1.4520923850903271, "step": 19050}, {"loss": 0.16177575588226317, "token_acc": 0.932710793737984, "grad_norm": 1.0686595439910889, "learning_rate": 8.058391459857238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246648, "epoch": 1.452473511700587, "step": 19055}, {"loss": 0.08406713008880615, "token_acc": 0.9643623872906827, "grad_norm": 0.5887235403060913, "learning_rate": 8.057444144979984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246658, "epoch": 1.452854638310847, "step": 19060}, {"loss": 0.12369675636291504, "token_acc": 0.9601706970128022, "grad_norm": 0.807970404624939, "learning_rate": 8.056496654772499e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246678, "epoch": 1.4532357649211067, "step": 19065}, {"loss": 0.11172273159027099, "token_acc": 0.9584256483774274, "grad_norm": 0.6419606804847717, "learning_rate": 8.055548989289112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246682, "epoch": 1.4536168915313668, "step": 19070}, {"loss": 0.16299207210540773, "token_acc": 0.9439598778892281, "grad_norm": 1.1831451654434204, "learning_rate": 8.05460114858417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246697, "epoch": 1.4539980181416268, "step": 19075}, {"loss": 0.13252384662628175, "token_acc": 0.9541477073853692, "grad_norm": 2.044217824935913, "learning_rate": 8.053653132712027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246717, "epoch": 1.4543791447518866, "step": 19080}, {"loss": 0.10227638483047485, "token_acc": 0.9574846206425154, "grad_norm": 1.104249358177185, "learning_rate": 8.05270494172705e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246724, "epoch": 1.4547602713621466, "step": 19085}, {"loss": 0.1559286594390869, "token_acc": 0.951131221719457, "grad_norm": 0.9822995662689209, "learning_rate": 8.051756575683608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246741, "epoch": 1.4551413979724064, "step": 19090}, {"loss": 0.14878170490264891, "token_acc": 0.9453237410071943, "grad_norm": 1.4082252979278564, "learning_rate": 8.050808034636091e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246766, "epoch": 1.4555225245826664, "step": 19095}, {"loss": 0.09336472153663636, "token_acc": 0.9616807926465322, "grad_norm": 0.9668273329734802, "learning_rate": 8.049859318638888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246778, "epoch": 1.4559036511929264, "step": 19100}, {"loss": 0.10755785703659057, "token_acc": 0.9490582191780822, "grad_norm": 0.807685911655426, "learning_rate": 8.048910427746407e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246796, "epoch": 1.4562847778031862, "step": 19105}, {"loss": 0.12040450572967529, "token_acc": 0.9518762532225723, "grad_norm": 0.9314944744110107, "learning_rate": 8.047961362013062e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246807, "epoch": 1.456665904413446, "step": 19110}, {"loss": 0.1359207272529602, "token_acc": 0.960494603374201, "grad_norm": 0.4960266351699829, "learning_rate": 8.047012121493277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246816, "epoch": 1.457047031023706, "step": 19115}, {"loss": 0.16500072479248046, "token_acc": 0.9442728283701964, "grad_norm": 1.0363414287567139, "learning_rate": 8.046062706241488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246817, "epoch": 1.457428157633966, "step": 19120}, {"loss": 0.15310912132263182, "token_acc": 0.9373231773667029, "grad_norm": 0.8802107572555542, "learning_rate": 8.045113116312136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246833, "epoch": 1.457809284244226, "step": 19125}, {"loss": 0.11162164211273193, "token_acc": 0.9593220338983051, "grad_norm": 0.9917898178100586, "learning_rate": 8.044163351759679e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246853, "epoch": 1.4581904108544859, "step": 19130}, {"loss": 0.11770514249801636, "token_acc": 0.9534438775510204, "grad_norm": 0.9474581480026245, "learning_rate": 8.043213412638581e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246875, "epoch": 1.4585715374647457, "step": 19135}, {"loss": 0.09289878606796265, "token_acc": 0.957276901577161, "grad_norm": 0.575875461101532, "learning_rate": 8.042263299003315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246886, "epoch": 1.4589526640750057, "step": 19140}, {"loss": 0.1364153265953064, "token_acc": 0.9473071808510638, "grad_norm": 0.735436737537384, "learning_rate": 8.041313010908367e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246905, "epoch": 1.4593337906852657, "step": 19145}, {"loss": 0.16957075595855714, "token_acc": 0.9326585416236315, "grad_norm": 0.838154137134552, "learning_rate": 8.04036254840823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246918, "epoch": 1.4597149172955255, "step": 19150}, {"loss": 0.10395469665527343, "token_acc": 0.9662110858010631, "grad_norm": 1.3365490436553955, "learning_rate": 8.039411911557411e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24694, "epoch": 1.4600960439057855, "step": 19155}, {"loss": 0.17304645776748656, "token_acc": 0.9246987951807228, "grad_norm": 1.4630630016326904, "learning_rate": 8.038461100410424e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246961, "epoch": 1.4604771705160453, "step": 19160}, {"loss": 0.09160124063491822, "token_acc": 0.9611374407582939, "grad_norm": 1.1528059244155884, "learning_rate": 8.037510115021792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246979, "epoch": 1.4608582971263053, "step": 19165}, {"loss": 0.13365966081619263, "token_acc": 0.9434044405746626, "grad_norm": 1.7567652463912964, "learning_rate": 8.036558955446052e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246996, "epoch": 1.4612394237365653, "step": 19170}, {"loss": 0.07561657428741456, "token_acc": 0.9621442387399834, "grad_norm": 0.7164626717567444, "learning_rate": 8.035607621737746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247013, "epoch": 1.4616205503468251, "step": 19175}, {"loss": 0.1305892586708069, "token_acc": 0.9555845852384063, "grad_norm": 1.136659026145935, "learning_rate": 8.034656113951431e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24702, "epoch": 1.4620016769570852, "step": 19180}, {"loss": 0.17148168087005616, "token_acc": 0.9401983218916857, "grad_norm": 2.721268653869629, "learning_rate": 8.033704432141668e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247034, "epoch": 1.462382803567345, "step": 19185}, {"loss": 0.122471022605896, "token_acc": 0.9504008016032064, "grad_norm": 0.5779721140861511, "learning_rate": 8.032752576363036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247058, "epoch": 1.462763930177605, "step": 19190}, {"loss": 0.13431329727172853, "token_acc": 0.9508443908323281, "grad_norm": 5.59716272354126, "learning_rate": 8.031800546670119e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24708, "epoch": 1.463145056787865, "step": 19195}, {"loss": 0.12604997158050538, "token_acc": 0.950969942442976, "grad_norm": 0.9296948909759521, "learning_rate": 8.030848343117507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247095, "epoch": 1.4635261833981248, "step": 19200}, {"eval_loss": 0.10428343713283539, "eval_token_acc": 0.9523899162701042, "eval_runtime": 157.0812, "eval_samples_per_second": 3.374, "eval_steps_per_second": 3.374, "epoch": 1.4635261833981248, "step": 19200}, {"loss": 0.10673586130142212, "token_acc": 0.952639854231261, "grad_norm": 1.6003395318984985, "learning_rate": 8.029895965759808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246615, "epoch": 1.4639073100083848, "step": 19205}, {"loss": 0.1152036428451538, "token_acc": 0.9425025329280649, "grad_norm": 2.2689566612243652, "learning_rate": 8.028943414651636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246635, "epoch": 1.4642884366186446, "step": 19210}, {"loss": 0.11118817329406738, "token_acc": 0.9524413443246671, "grad_norm": 0.6150451302528381, "learning_rate": 8.027990689847615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24664, "epoch": 1.4646695632289046, "step": 19215}, {"loss": 0.14630751609802245, "token_acc": 0.9491453893226419, "grad_norm": 0.9661538004875183, "learning_rate": 8.027037791402381e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246655, "epoch": 1.4650506898391646, "step": 19220}, {"loss": 0.12909675836563111, "token_acc": 0.953958944281525, "grad_norm": 0.802452027797699, "learning_rate": 8.026084719370574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246662, "epoch": 1.4654318164494244, "step": 19225}, {"loss": 0.1347055435180664, "token_acc": 0.9501705191360363, "grad_norm": 1.3821479082107544, "learning_rate": 8.025131473806855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246674, "epoch": 1.4658129430596845, "step": 19230}, {"loss": 0.12436169385910034, "token_acc": 0.9388783868935098, "grad_norm": 0.643237292766571, "learning_rate": 8.024178054765881e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246695, "epoch": 1.4661940696699443, "step": 19235}, {"loss": 0.11001471281051636, "token_acc": 0.9597222222222223, "grad_norm": 1.0124833583831787, "learning_rate": 8.023224462302331e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246713, "epoch": 1.4665751962802043, "step": 19240}, {"loss": 0.12745610475540162, "token_acc": 0.9467048710601719, "grad_norm": 1.1995809078216553, "learning_rate": 8.022270696470887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246736, "epoch": 1.4669563228904643, "step": 19245}, {"loss": 0.10835487842559814, "token_acc": 0.9595565592280846, "grad_norm": 0.5778623223304749, "learning_rate": 8.021316757326244e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24675, "epoch": 1.467337449500724, "step": 19250}, {"loss": 0.09826849699020386, "token_acc": 0.9500908940670963, "grad_norm": 0.6737306118011475, "learning_rate": 8.020362644923105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246764, "epoch": 1.467718576110984, "step": 19255}, {"loss": 0.1031100869178772, "token_acc": 0.9601205246366536, "grad_norm": 1.2376142740249634, "learning_rate": 8.019408359316185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246773, "epoch": 1.468099702721244, "step": 19260}, {"loss": 0.06892385482788085, "token_acc": 0.9670039595248571, "grad_norm": 0.9293076395988464, "learning_rate": 8.018453900560208e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246799, "epoch": 1.468480829331504, "step": 19265}, {"loss": 0.17390531301498413, "token_acc": 0.9244460588448965, "grad_norm": 1.1473495960235596, "learning_rate": 8.017499268709906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246819, "epoch": 1.468861955941764, "step": 19270}, {"loss": 0.12031754255294799, "token_acc": 0.945064761054042, "grad_norm": 0.7495232224464417, "learning_rate": 8.016544463820024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246842, "epoch": 1.4692430825520237, "step": 19275}, {"loss": 0.16225168704986573, "token_acc": 0.9306384933394579, "grad_norm": 1.3020985126495361, "learning_rate": 8.015589485945315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246866, "epoch": 1.4696242091622838, "step": 19280}, {"loss": 0.09617698192596436, "token_acc": 0.957438934122872, "grad_norm": 0.7558112144470215, "learning_rate": 8.014634335140544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246888, "epoch": 1.4700053357725436, "step": 19285}, {"loss": 0.13217276334762573, "token_acc": 0.9378084896347483, "grad_norm": 1.030594825744629, "learning_rate": 8.013679011460483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246911, "epoch": 1.4703864623828036, "step": 19290}, {"loss": 0.16664459705352783, "token_acc": 0.9466590736522399, "grad_norm": 0.7262478470802307, "learning_rate": 8.012723514959916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246929, "epoch": 1.4707675889930636, "step": 19295}, {"loss": 0.10207643508911132, "token_acc": 0.948976948976949, "grad_norm": 1.2593241930007935, "learning_rate": 8.011767845693636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246949, "epoch": 1.4711487156033234, "step": 19300}, {"loss": 0.15673841238021852, "token_acc": 0.9327036599763873, "grad_norm": 0.9787925481796265, "learning_rate": 8.010812003716448e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246969, "epoch": 1.4715298422135834, "step": 19305}, {"loss": 0.18790249824523925, "token_acc": 0.9062233589087809, "grad_norm": 1.547568440437317, "learning_rate": 8.009855989083162e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246989, "epoch": 1.4719109688238432, "step": 19310}, {"loss": 0.10033726692199707, "token_acc": 0.958904109589041, "grad_norm": 0.8740751147270203, "learning_rate": 8.008899801848602e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247009, "epoch": 1.4722920954341032, "step": 19315}, {"loss": 0.13317534923553467, "token_acc": 0.9479499854608898, "grad_norm": 0.8829959630966187, "learning_rate": 8.007943442067603e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247028, "epoch": 1.4726732220443632, "step": 19320}, {"loss": 0.1168176293373108, "token_acc": 0.9554106635818698, "grad_norm": 2.4803214073181152, "learning_rate": 8.006986909795004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247031, "epoch": 1.473054348654623, "step": 19325}, {"loss": 0.12166771888732911, "token_acc": 0.943013698630137, "grad_norm": 0.4304928481578827, "learning_rate": 8.00603020508566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247051, "epoch": 1.473435475264883, "step": 19330}, {"loss": 0.13487184047698975, "token_acc": 0.9475792988313857, "grad_norm": 1.0527632236480713, "learning_rate": 8.005073327994434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247072, "epoch": 1.4738166018751429, "step": 19335}, {"loss": 0.11813082695007324, "token_acc": 0.951978417266187, "grad_norm": 0.5613982677459717, "learning_rate": 8.004116278576199e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247087, "epoch": 1.4741977284854029, "step": 19340}, {"loss": 0.09012985825538636, "token_acc": 0.9627906976744186, "grad_norm": 0.9535490274429321, "learning_rate": 8.003159056885836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247113, "epoch": 1.4745788550956629, "step": 19345}, {"loss": 0.2295475959777832, "token_acc": 0.9070306464074169, "grad_norm": 0.9837018847465515, "learning_rate": 8.002201662978236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247132, "epoch": 1.4749599817059227, "step": 19350}, {"loss": 0.13050657510757446, "token_acc": 0.9529252519175816, "grad_norm": 0.7316795587539673, "learning_rate": 8.001244096908303e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247144, "epoch": 1.4753411083161827, "step": 19355}, {"loss": 0.12510656118392943, "token_acc": 0.9547977795400476, "grad_norm": 1.4817649126052856, "learning_rate": 8.000286358730949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247166, "epoch": 1.4757222349264425, "step": 19360}, {"loss": 0.11473931074142456, "token_acc": 0.9558096415327565, "grad_norm": 0.9311909675598145, "learning_rate": 7.999328448501095e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247187, "epoch": 1.4761033615367025, "step": 19365}, {"loss": 0.09254549145698547, "token_acc": 0.9553030303030303, "grad_norm": 0.6809597611427307, "learning_rate": 7.998370366273674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247206, "epoch": 1.4764844881469625, "step": 19370}, {"loss": 0.19234459400177, "token_acc": 0.9273927392739274, "grad_norm": 1.0189076662063599, "learning_rate": 7.997412112103626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247223, "epoch": 1.4768656147572223, "step": 19375}, {"loss": 0.12496333122253418, "token_acc": 0.9535562037244784, "grad_norm": 1.0204483270645142, "learning_rate": 7.996453686045904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247237, "epoch": 1.4772467413674824, "step": 19380}, {"loss": 0.1400434970855713, "token_acc": 0.9382544103992572, "grad_norm": 0.7151778340339661, "learning_rate": 7.995495088155468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247249, "epoch": 1.4776278679777421, "step": 19385}, {"loss": 0.14464077949523926, "token_acc": 0.9429640718562874, "grad_norm": 0.6130173206329346, "learning_rate": 7.994536318487288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24726, "epoch": 1.4780089945880022, "step": 19390}, {"loss": 0.11020042896270751, "token_acc": 0.9639193918185109, "grad_norm": 0.7056736350059509, "learning_rate": 7.993577377096347e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247272, "epoch": 1.4783901211982622, "step": 19395}, {"loss": 0.1082154631614685, "token_acc": 0.9552488498536177, "grad_norm": 1.6137927770614624, "learning_rate": 7.992618264037635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247295, "epoch": 1.478771247808522, "step": 19400}, {"eval_loss": 0.10356870293617249, "eval_token_acc": 0.9527212216131559, "eval_runtime": 159.8795, "eval_samples_per_second": 3.315, "eval_steps_per_second": 3.315, "epoch": 1.478771247808522, "step": 19400}, {"loss": 0.1110692024230957, "token_acc": 0.9534910427193385, "grad_norm": 1.0343507528305054, "learning_rate": 7.991658979366154e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246803, "epoch": 1.479152374418782, "step": 19405}, {"loss": 0.16004748344421388, "token_acc": 0.9387583892617449, "grad_norm": 0.8005077242851257, "learning_rate": 7.990699523136914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246823, "epoch": 1.4795335010290418, "step": 19410}, {"loss": 0.13003225326538087, "token_acc": 0.9507793273174734, "grad_norm": 1.129117727279663, "learning_rate": 7.989739895404933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246834, "epoch": 1.4799146276393018, "step": 19415}, {"loss": 0.1324818730354309, "token_acc": 0.9519028718188186, "grad_norm": 0.6003535389900208, "learning_rate": 7.988780096225244e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246844, "epoch": 1.4802957542495618, "step": 19420}, {"loss": 0.1294941186904907, "token_acc": 0.9554375432925422, "grad_norm": 0.59591144323349, "learning_rate": 7.987820125652887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246856, "epoch": 1.4806768808598216, "step": 19425}, {"loss": 0.14869287014007568, "token_acc": 0.949187759727994, "grad_norm": 2.4959707260131836, "learning_rate": 7.98685998374291e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246868, "epoch": 1.4810580074700814, "step": 19430}, {"loss": 0.12696577310562135, "token_acc": 0.9468791500664011, "grad_norm": 0.812667727470398, "learning_rate": 7.985899670550374e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246881, "epoch": 1.4814391340803414, "step": 19435}, {"loss": 0.10233520269393921, "token_acc": 0.9535018889857599, "grad_norm": 0.5335561037063599, "learning_rate": 7.984939186130348e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246902, "epoch": 1.4818202606906015, "step": 19440}, {"loss": 0.08428755402565002, "token_acc": 0.9699627538147303, "grad_norm": 0.6089061498641968, "learning_rate": 7.983978530537912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246908, "epoch": 1.4822013873008615, "step": 19445}, {"loss": 0.10936611890792847, "token_acc": 0.9556562328390994, "grad_norm": 0.8938884735107422, "learning_rate": 7.983017703828154e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24692, "epoch": 1.4825825139111213, "step": 19450}, {"loss": 0.11943564414978028, "token_acc": 0.9487014656724093, "grad_norm": 1.2218573093414307, "learning_rate": 7.982056706056173e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246927, "epoch": 1.482963640521381, "step": 19455}, {"loss": 0.1626746416091919, "token_acc": 0.9345140992775577, "grad_norm": 0.7786802053451538, "learning_rate": 7.98109553727708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246946, "epoch": 1.483344767131641, "step": 19460}, {"loss": 0.14463427066802978, "token_acc": 0.9485726280436608, "grad_norm": 0.197900652885437, "learning_rate": 7.98013419754599e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246959, "epoch": 1.4837258937419011, "step": 19465}, {"loss": 0.1879422187805176, "token_acc": 0.9295370749692748, "grad_norm": 0.8000593185424805, "learning_rate": 7.979172686918035e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246973, "epoch": 1.484107020352161, "step": 19470}, {"loss": 0.11854655742645263, "token_acc": 0.9548678272082527, "grad_norm": 0.037604451179504395, "learning_rate": 7.97821100544835e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246993, "epoch": 1.484488146962421, "step": 19475}, {"loss": 0.1625124216079712, "token_acc": 0.9467198260239217, "grad_norm": 0.9423521757125854, "learning_rate": 7.977249153192086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247012, "epoch": 1.4848692735726807, "step": 19480}, {"loss": 0.10783276557922364, "token_acc": 0.9574660633484163, "grad_norm": 0.6165697574615479, "learning_rate": 7.976287130204398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247022, "epoch": 1.4852504001829407, "step": 19485}, {"loss": 0.10678926706314087, "token_acc": 0.9594909481986019, "grad_norm": 0.767785906791687, "learning_rate": 7.975324936540455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247032, "epoch": 1.4856315267932008, "step": 19490}, {"loss": 0.11128337383270263, "token_acc": 0.9471677559912854, "grad_norm": 0.8805824518203735, "learning_rate": 7.974362572255435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24704, "epoch": 1.4860126534034606, "step": 19495}, {"loss": 0.15685967206954957, "token_acc": 0.9356808731808732, "grad_norm": 1.2872785329818726, "learning_rate": 7.973400037404524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247051, "epoch": 1.4863937800137206, "step": 19500}, {"loss": 0.1419074058532715, "token_acc": 0.9431232659532303, "grad_norm": 0.9299206733703613, "learning_rate": 7.972437332042917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24706, "epoch": 1.4867749066239804, "step": 19505}, {"loss": 0.11269270181655884, "token_acc": 0.9545516769336071, "grad_norm": 1.0724431276321411, "learning_rate": 7.971474456225825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247075, "epoch": 1.4871560332342404, "step": 19510}, {"loss": 0.09447119235992432, "token_acc": 0.9635985439417577, "grad_norm": 0.3817760944366455, "learning_rate": 7.970511410008462e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247085, "epoch": 1.4875371598445004, "step": 19515}, {"loss": 0.11578338146209717, "token_acc": 0.9522998296422487, "grad_norm": 1.4868746995925903, "learning_rate": 7.969548193446053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247099, "epoch": 1.4879182864547602, "step": 19520}, {"loss": 0.12062606811523438, "token_acc": 0.9537524231514816, "grad_norm": 0.6867897510528564, "learning_rate": 7.968584806593838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247118, "epoch": 1.4882994130650202, "step": 19525}, {"loss": 0.11990485191345215, "token_acc": 0.957963620230701, "grad_norm": 0.8785312175750732, "learning_rate": 7.967621249507059e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247115, "epoch": 1.48868053967528, "step": 19530}, {"loss": 0.13346171379089355, "token_acc": 0.9560102301790281, "grad_norm": 1.009458303451538, "learning_rate": 7.966657522240972e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247136, "epoch": 1.48906166628554, "step": 19535}, {"loss": 0.1697704792022705, "token_acc": 0.9331395348837209, "grad_norm": 1.6763949394226074, "learning_rate": 7.965693624850843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247147, "epoch": 1.4894427928958, "step": 19540}, {"loss": 0.1612674593925476, "token_acc": 0.9403169886082219, "grad_norm": 1.018202781677246, "learning_rate": 7.964729557391948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247157, "epoch": 1.4898239195060599, "step": 19545}, {"loss": 0.05081660747528076, "token_acc": 0.9751234333459932, "grad_norm": 0.5618013739585876, "learning_rate": 7.963765319919571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247167, "epoch": 1.4902050461163199, "step": 19550}, {"loss": 0.19733173847198487, "token_acc": 0.9362486828240253, "grad_norm": 0.8601058125495911, "learning_rate": 7.962800912489006e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24718, "epoch": 1.4905861727265797, "step": 19555}, {"loss": 0.10446784496307374, "token_acc": 0.962796664528544, "grad_norm": 1.852170467376709, "learning_rate": 7.961836335155557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247194, "epoch": 1.4909672993368397, "step": 19560}, {"loss": 0.10556679964065552, "token_acc": 0.9559113300492611, "grad_norm": 0.8012587428092957, "learning_rate": 7.96087158797454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247204, "epoch": 1.4913484259470997, "step": 19565}, {"loss": 0.10351088047027587, "token_acc": 0.9665882352941176, "grad_norm": 0.5750257968902588, "learning_rate": 7.959906671001278e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247222, "epoch": 1.4917295525573595, "step": 19570}, {"loss": 0.1303958296775818, "token_acc": 0.9361069836552749, "grad_norm": 0.7876543402671814, "learning_rate": 7.958941584291104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247235, "epoch": 1.4921106791676195, "step": 19575}, {"loss": 0.10810225009918213, "token_acc": 0.9621023513139696, "grad_norm": 0.5471728444099426, "learning_rate": 7.957976327899359e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247249, "epoch": 1.4924918057778793, "step": 19580}, {"loss": 0.14671926498413085, "token_acc": 0.9508825786646201, "grad_norm": 0.9433920979499817, "learning_rate": 7.957010901881401e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247258, "epoch": 1.4928729323881393, "step": 19585}, {"loss": 0.0765055239200592, "token_acc": 0.9686274509803922, "grad_norm": 0.9087037444114685, "learning_rate": 7.956045306292588e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247271, "epoch": 1.4932540589983994, "step": 19590}, {"loss": 0.13198179006576538, "token_acc": 0.9511557512383049, "grad_norm": 0.7251271605491638, "learning_rate": 7.955079541188296e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247272, "epoch": 1.4936351856086592, "step": 19595}, {"loss": 0.14341285228729247, "token_acc": 0.945958757999526, "grad_norm": 0.9423989057540894, "learning_rate": 7.954113606623905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247283, "epoch": 1.4940163122189192, "step": 19600}, {"eval_loss": 0.1026344820857048, "eval_token_acc": 0.9530525269562075, "eval_runtime": 214.9155, "eval_samples_per_second": 2.466, "eval_steps_per_second": 2.466, "epoch": 1.4940163122189192, "step": 19600}, {"loss": 0.1197356939315796, "token_acc": 0.9530506067362813, "grad_norm": 0.5532892346382141, "learning_rate": 7.953147502654808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246631, "epoch": 1.494397438829179, "step": 19605}, {"loss": 0.13328335285186768, "token_acc": 0.9489695780176644, "grad_norm": 0.7363724112510681, "learning_rate": 7.952181229336404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246636, "epoch": 1.494778565439439, "step": 19610}, {"loss": 0.14898955821990967, "token_acc": 0.9245949926362298, "grad_norm": 1.2684293985366821, "learning_rate": 7.951214786724108e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246653, "epoch": 1.495159692049699, "step": 19615}, {"loss": 0.11479883193969727, "token_acc": 0.9569454287739192, "grad_norm": 2.0893633365631104, "learning_rate": 7.950248174873338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246661, "epoch": 1.4955408186599588, "step": 19620}, {"loss": 0.14143116474151612, "token_acc": 0.946818123144443, "grad_norm": 1.064025640487671, "learning_rate": 7.949281393839527e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246669, "epoch": 1.4959219452702188, "step": 19625}, {"loss": 0.10418089628219604, "token_acc": 0.9596990865126276, "grad_norm": 0.9734113812446594, "learning_rate": 7.948314443678114e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246688, "epoch": 1.4963030718804786, "step": 19630}, {"loss": 0.13902422189712524, "token_acc": 0.9387966804979253, "grad_norm": 0.7173066139221191, "learning_rate": 7.94734732444455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246703, "epoch": 1.4966841984907386, "step": 19635}, {"loss": 0.1380342960357666, "token_acc": 0.9442446043165468, "grad_norm": 0.914384663105011, "learning_rate": 7.946380036194295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246722, "epoch": 1.4970653251009987, "step": 19640}, {"loss": 0.12994029521942138, "token_acc": 0.9583333333333334, "grad_norm": 0.9852327704429626, "learning_rate": 7.945412578982815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24673, "epoch": 1.4974464517112585, "step": 19645}, {"loss": 0.06821726560592652, "token_acc": 0.9621044885945548, "grad_norm": 0.6682660579681396, "learning_rate": 7.944444952865595e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246746, "epoch": 1.4978275783215185, "step": 19650}, {"loss": 0.1410351276397705, "token_acc": 0.9431068601583114, "grad_norm": 1.0375949144363403, "learning_rate": 7.943477157898121e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24676, "epoch": 1.4982087049317783, "step": 19655}, {"loss": 0.10949827432632446, "token_acc": 0.9622335495829472, "grad_norm": 0.8390384316444397, "learning_rate": 7.94250919413589e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246774, "epoch": 1.4985898315420383, "step": 19660}, {"loss": 0.15448163747787474, "token_acc": 0.9331372549019608, "grad_norm": 0.6838564276695251, "learning_rate": 7.94154106163441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246783, "epoch": 1.4989709581522983, "step": 19665}, {"loss": 0.12280181646347046, "token_acc": 0.9567415730337079, "grad_norm": 1.2503373622894287, "learning_rate": 7.940572760449203e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246789, "epoch": 1.499352084762558, "step": 19670}, {"loss": 0.14259564876556396, "token_acc": 0.9538258575197889, "grad_norm": 1.2787450551986694, "learning_rate": 7.939604290635792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2468, "epoch": 1.4997332113728181, "step": 19675}, {"loss": 0.14326307773590088, "token_acc": 0.9477780567411499, "grad_norm": 1.0289186239242554, "learning_rate": 7.93863565224972e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246812, "epoch": 1.500114337983078, "step": 19680}, {"loss": 0.1190578818321228, "token_acc": 0.9530888668648827, "grad_norm": 1.0400272607803345, "learning_rate": 7.937666845346528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246816, "epoch": 1.500495464593338, "step": 19685}, {"loss": 0.07677346467971802, "token_acc": 0.9575846833578793, "grad_norm": 0.571942925453186, "learning_rate": 7.936697869981773e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246832, "epoch": 1.500876591203598, "step": 19690}, {"loss": 0.13357781171798705, "token_acc": 0.9488345650938033, "grad_norm": 0.9892421364784241, "learning_rate": 7.935728726211026e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246843, "epoch": 1.5012577178138578, "step": 19695}, {"loss": 0.14054994583129882, "token_acc": 0.9533502968617472, "grad_norm": 1.0298819541931152, "learning_rate": 7.934759414089859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246857, "epoch": 1.5016388444241175, "step": 19700}, {"loss": 0.15960516929626464, "token_acc": 0.9409698770768608, "grad_norm": 0.9911893606185913, "learning_rate": 7.933789933673859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246865, "epoch": 1.5020199710343776, "step": 19705}, {"loss": 0.13781036138534547, "token_acc": 0.9537267080745342, "grad_norm": 0.5609776973724365, "learning_rate": 7.932820285018619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246879, "epoch": 1.5024010976446376, "step": 19710}, {"loss": 0.154878568649292, "token_acc": 0.9413767939674045, "grad_norm": 1.6884427070617676, "learning_rate": 7.931850468179747e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24689, "epoch": 1.5027822242548976, "step": 19715}, {"loss": 0.10867469310760498, "token_acc": 0.9628665625542252, "grad_norm": 0.6800521612167358, "learning_rate": 7.930880483212858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246898, "epoch": 1.5031633508651574, "step": 19720}, {"loss": 0.1524043083190918, "token_acc": 0.9510050251256281, "grad_norm": 1.1414752006530762, "learning_rate": 7.929910330173571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246912, "epoch": 1.5035444774754172, "step": 19725}, {"loss": 0.11313719749450683, "token_acc": 0.9556848701880036, "grad_norm": 0.4729847311973572, "learning_rate": 7.928940009117524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24693, "epoch": 1.5039256040856772, "step": 19730}, {"loss": 0.090743088722229, "token_acc": 0.9662710805746408, "grad_norm": 0.9326164126396179, "learning_rate": 7.92796952010036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246935, "epoch": 1.5043067306959372, "step": 19735}, {"loss": 0.172224760055542, "token_acc": 0.9256668124180149, "grad_norm": 0.6476622223854065, "learning_rate": 7.92699886317773e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246949, "epoch": 1.5046878573061973, "step": 19740}, {"loss": 0.13455065488815307, "token_acc": 0.9432114882506527, "grad_norm": 0.5700234174728394, "learning_rate": 7.9260280384053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246947, "epoch": 1.505068983916457, "step": 19745}, {"loss": 0.166504430770874, "token_acc": 0.9259962049335864, "grad_norm": 1.6151906251907349, "learning_rate": 7.925057045838738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246967, "epoch": 1.5054501105267168, "step": 19750}, {"loss": 0.11083769798278809, "token_acc": 0.9594258373205742, "grad_norm": 0.7164655327796936, "learning_rate": 7.92408588553373e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246977, "epoch": 1.5058312371369769, "step": 19755}, {"loss": 0.1281970262527466, "token_acc": 0.959216528038637, "grad_norm": 0.8635382056236267, "learning_rate": 7.923114557545966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246992, "epoch": 1.5062123637472369, "step": 19760}, {"loss": 0.16386263370513915, "token_acc": 0.9484969053934571, "grad_norm": 1.3610992431640625, "learning_rate": 7.922143061931148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247002, "epoch": 1.506593490357497, "step": 19765}, {"loss": 0.1787477970123291, "token_acc": 0.9304115088658415, "grad_norm": 1.4102039337158203, "learning_rate": 7.921171398744985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247018, "epoch": 1.5069746169677567, "step": 19770}, {"loss": 0.1746086597442627, "token_acc": 0.9540958660918083, "grad_norm": 1.0997235774993896, "learning_rate": 7.920199568043197e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247029, "epoch": 1.5073557435780165, "step": 19775}, {"loss": 0.11254098415374755, "token_acc": 0.9547553093259464, "grad_norm": 1.0602174997329712, "learning_rate": 7.919227569881516e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247045, "epoch": 1.5077368701882765, "step": 19780}, {"loss": 0.12972047328948974, "token_acc": 0.9575185434929198, "grad_norm": 0.6758850812911987, "learning_rate": 7.918255404315681e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247058, "epoch": 1.5081179967985365, "step": 19785}, {"loss": 0.10074751377105713, "token_acc": 0.9550561797752809, "grad_norm": 0.5171512365341187, "learning_rate": 7.917283071401442e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247073, "epoch": 1.5084991234087965, "step": 19790}, {"loss": 0.17800108194351197, "token_acc": 0.9264190609670637, "grad_norm": 0.9484192728996277, "learning_rate": 7.916310571194555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247087, "epoch": 1.5088802500190563, "step": 19795}, {"loss": 0.12665514945983886, "token_acc": 0.9539589841097379, "grad_norm": 1.1067534685134888, "learning_rate": 7.91533790375079e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.247089, "epoch": 1.5092613766293161, "step": 19800}, {"eval_loss": 0.10344883054494858, "eval_token_acc": 0.9526459249442805, "eval_runtime": 221.3235, "eval_samples_per_second": 2.395, "eval_steps_per_second": 2.395, "epoch": 1.5092613766293161, "step": 19800}, {"loss": 0.06470956802368164, "token_acc": 0.9531598838481855, "grad_norm": 1.7629859447479248, "learning_rate": 7.914365069125927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246421, "epoch": 1.5096425032395762, "step": 19805}, {"loss": 0.10130875110626221, "token_acc": 0.9612034837688044, "grad_norm": 0.5553001165390015, "learning_rate": 7.913392067375748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246429, "epoch": 1.5100236298498362, "step": 19810}, {"loss": 0.12129310369491578, "token_acc": 0.9584345479082321, "grad_norm": 0.595329999923706, "learning_rate": 7.912418898556056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246443, "epoch": 1.5104047564600962, "step": 19815}, {"loss": 0.08824927210807801, "token_acc": 0.9641970198675497, "grad_norm": 0.5989564657211304, "learning_rate": 7.911445562722654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246452, "epoch": 1.510785883070356, "step": 19820}, {"loss": 0.1513066291809082, "token_acc": 0.9443944574410653, "grad_norm": 0.6907153129577637, "learning_rate": 7.910472059931362e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246456, "epoch": 1.5111670096806158, "step": 19825}, {"loss": 0.12620601654052735, "token_acc": 0.9533938066937754, "grad_norm": 0.7042458653450012, "learning_rate": 7.909498390238003e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24647, "epoch": 1.5115481362908758, "step": 19830}, {"loss": 0.14071328639984132, "token_acc": 0.9402332361516035, "grad_norm": 1.309507131576538, "learning_rate": 7.908524553698412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246487, "epoch": 1.5119292629011358, "step": 19835}, {"loss": 0.11528303623199462, "token_acc": 0.9587301587301588, "grad_norm": 0.42026466131210327, "learning_rate": 7.907550550368436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246493, "epoch": 1.5123103895113958, "step": 19840}, {"loss": 0.08393782377243042, "token_acc": 0.9676624576532183, "grad_norm": 1.0084787607192993, "learning_rate": 7.906576380303928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246511, "epoch": 1.5126915161216556, "step": 19845}, {"loss": 0.1195113182067871, "token_acc": 0.9364274570982839, "grad_norm": 0.8755314350128174, "learning_rate": 7.905602043560753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246526, "epoch": 1.5130726427319154, "step": 19850}, {"loss": 0.0884668469429016, "token_acc": 0.9564174330267893, "grad_norm": 0.4037114381790161, "learning_rate": 7.904627540194784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246544, "epoch": 1.5134537693421755, "step": 19855}, {"loss": 0.1453533411026001, "token_acc": 0.9477557027225901, "grad_norm": 0.8069786429405212, "learning_rate": 7.903652870261906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246553, "epoch": 1.5138348959524355, "step": 19860}, {"loss": 0.15717616081237792, "token_acc": 0.9295173002990175, "grad_norm": 1.2896838188171387, "learning_rate": 7.90267803381801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24657, "epoch": 1.5142160225626953, "step": 19865}, {"loss": 0.08251654505729675, "token_acc": 0.9635773530472412, "grad_norm": 0.8219897747039795, "learning_rate": 7.901703030918999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246586, "epoch": 1.5145971491729553, "step": 19870}, {"loss": 0.14219316244125366, "token_acc": 0.9346542198514003, "grad_norm": 1.0965030193328857, "learning_rate": 7.900727861620782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246597, "epoch": 1.514978275783215, "step": 19875}, {"loss": 0.14786453247070314, "token_acc": 0.9452887537993921, "grad_norm": 1.559840440750122, "learning_rate": 7.899752525979287e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246617, "epoch": 1.515359402393475, "step": 19880}, {"loss": 0.06071994304656982, "token_acc": 0.966282165039929, "grad_norm": 0.6014488935470581, "learning_rate": 7.898777024050439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246639, "epoch": 1.5157405290037351, "step": 19885}, {"loss": 0.12213494777679443, "token_acc": 0.9601900739176347, "grad_norm": 0.6659355759620667, "learning_rate": 7.897801355890182e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246641, "epoch": 1.516121655613995, "step": 19890}, {"loss": 0.17732417583465576, "token_acc": 0.942842430484037, "grad_norm": 1.918127179145813, "learning_rate": 7.896825521554463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246647, "epoch": 1.516502782224255, "step": 19895}, {"loss": 0.12009958028793336, "token_acc": 0.95625, "grad_norm": 0.7422630786895752, "learning_rate": 7.895849521099245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246652, "epoch": 1.5168839088345147, "step": 19900}, {"loss": 0.1087106704711914, "token_acc": 0.9470391993327774, "grad_norm": 0.893923282623291, "learning_rate": 7.894873354580494e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246671, "epoch": 1.5172650354447748, "step": 19905}, {"loss": 0.1157883882522583, "token_acc": 0.953660797034291, "grad_norm": 0.7962908744812012, "learning_rate": 7.893897022054191e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246677, "epoch": 1.5176461620550348, "step": 19910}, {"loss": 0.13793869018554689, "token_acc": 0.9509782369751594, "grad_norm": 0.8339529037475586, "learning_rate": 7.892920523576322e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246679, "epoch": 1.5180272886652946, "step": 19915}, {"loss": 0.10501706600189209, "token_acc": 0.9563342318059299, "grad_norm": 0.5754239559173584, "learning_rate": 7.891943859202886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246684, "epoch": 1.5184084152755546, "step": 19920}, {"loss": 0.09556471109390259, "token_acc": 0.9557595993322203, "grad_norm": 1.144008994102478, "learning_rate": 7.89096702898989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246702, "epoch": 1.5187895418858144, "step": 19925}, {"loss": 0.12240054607391357, "token_acc": 0.9648703956343793, "grad_norm": 0.7938567399978638, "learning_rate": 7.889990032993351e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246717, "epoch": 1.5191706684960744, "step": 19930}, {"loss": 0.14045388698577882, "token_acc": 0.9472774416594641, "grad_norm": 0.8805842399597168, "learning_rate": 7.889012871269294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246729, "epoch": 1.5195517951063344, "step": 19935}, {"loss": 0.12152795791625977, "token_acc": 0.9595177853847299, "grad_norm": 0.5368992686271667, "learning_rate": 7.888035543873757e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246733, "epoch": 1.5199329217165942, "step": 19940}, {"loss": 0.1380767822265625, "token_acc": 0.9518090605047127, "grad_norm": 0.7631328105926514, "learning_rate": 7.887058050862782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246738, "epoch": 1.520314048326854, "step": 19945}, {"loss": 0.10610029697418213, "token_acc": 0.9418269230769231, "grad_norm": 0.4443354606628418, "learning_rate": 7.886080392292427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246756, "epoch": 1.520695174937114, "step": 19950}, {"loss": 0.16015876531600953, "token_acc": 0.9316123188405797, "grad_norm": 0.8930485844612122, "learning_rate": 7.885102568218754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246767, "epoch": 1.521076301547374, "step": 19955}, {"loss": 0.17236390113830566, "token_acc": 0.9354561101549054, "grad_norm": 1.225701928138733, "learning_rate": 7.884124578697836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246784, "epoch": 1.521457428157634, "step": 19960}, {"loss": 0.12917861938476563, "token_acc": 0.9461122047244095, "grad_norm": 0.6648107171058655, "learning_rate": 7.883146423785759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246797, "epoch": 1.5218385547678939, "step": 19965}, {"loss": 0.13182382583618163, "token_acc": 0.9516650501131587, "grad_norm": 1.532604694366455, "learning_rate": 7.882168103538614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246803, "epoch": 1.5222196813781537, "step": 19970}, {"loss": 0.11065940856933594, "token_acc": 0.9589864719776681, "grad_norm": 0.5979650616645813, "learning_rate": 7.881189618012501e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246817, "epoch": 1.5226008079884137, "step": 19975}, {"loss": 0.07949135899543762, "token_acc": 0.9605445957210336, "grad_norm": 1.0075050592422485, "learning_rate": 7.880210967263535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24683, "epoch": 1.5229819345986737, "step": 19980}, {"loss": 0.12599412202835084, "token_acc": 0.9491468718634996, "grad_norm": 1.3120921850204468, "learning_rate": 7.879232151347837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246834, "epoch": 1.5233630612089337, "step": 19985}, {"loss": 0.14369891881942748, "token_acc": 0.9559837369630546, "grad_norm": 1.3930038213729858, "learning_rate": 7.878253170321534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246845, "epoch": 1.5237441878191935, "step": 19990}, {"loss": 0.09963648915290832, "token_acc": 0.9662921348314607, "grad_norm": 0.6779171824455261, "learning_rate": 7.877274024240772e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246855, "epoch": 1.5241253144294533, "step": 19995}, {"loss": 0.13486528396606445, "token_acc": 0.9574747096290745, "grad_norm": 1.5286799669265747, "learning_rate": 7.876294713161694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246865, "epoch": 1.5245064410397133, "step": 20000}, {"eval_loss": 0.09980521351099014, "eval_token_acc": 0.9535946629721102, "eval_runtime": 218.895, "eval_samples_per_second": 2.421, "eval_steps_per_second": 2.421, "epoch": 1.5245064410397133, "step": 20000}, {"loss": 0.16351816654205323, "token_acc": 0.9534204292584882, "grad_norm": 1.0427583456039429, "learning_rate": 7.875315237140462e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246202, "epoch": 1.5248875676499734, "step": 20005}, {"loss": 0.1350972294807434, "token_acc": 0.9446019067250708, "grad_norm": 0.9279622435569763, "learning_rate": 7.874335596233245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246208, "epoch": 1.5252686942602334, "step": 20010}, {"loss": 0.13941578865051268, "token_acc": 0.9334628460417679, "grad_norm": 1.3505561351776123, "learning_rate": 7.87335579049622e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246226, "epoch": 1.5256498208704932, "step": 20015}, {"loss": 0.12051969766616821, "token_acc": 0.9616204690831557, "grad_norm": 0.6336546540260315, "learning_rate": 7.872375819985575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246238, "epoch": 1.526030947480753, "step": 20020}, {"loss": 0.09127166867256165, "token_acc": 0.9533545057562525, "grad_norm": 0.7159956693649292, "learning_rate": 7.871395684757505e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24625, "epoch": 1.526412074091013, "step": 20025}, {"loss": 0.09657259583473206, "token_acc": 0.9586501901140685, "grad_norm": 0.3750533163547516, "learning_rate": 7.870415384868218e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246265, "epoch": 1.526793200701273, "step": 20030}, {"loss": 0.13254839181900024, "token_acc": 0.955221329687233, "grad_norm": 1.0353111028671265, "learning_rate": 7.869434920373929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246279, "epoch": 1.527174327311533, "step": 20035}, {"loss": 0.13081047534942628, "token_acc": 0.9447674418604651, "grad_norm": 1.0133919715881348, "learning_rate": 7.868454291330864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246284, "epoch": 1.5275554539217928, "step": 20040}, {"loss": 0.1046711802482605, "token_acc": 0.9602190368819455, "grad_norm": 0.5247119069099426, "learning_rate": 7.867473497795255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246288, "epoch": 1.5279365805320526, "step": 20045}, {"loss": 0.11597826480865478, "token_acc": 0.9630872483221476, "grad_norm": 1.0129351615905762, "learning_rate": 7.86649253982335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246302, "epoch": 1.5283177071423126, "step": 20050}, {"loss": 0.0985840380191803, "token_acc": 0.9497655726724715, "grad_norm": 0.47850099205970764, "learning_rate": 7.865511417471398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24631, "epoch": 1.5286988337525727, "step": 20055}, {"loss": 0.132874059677124, "token_acc": 0.9460912302257718, "grad_norm": 0.7165057063102722, "learning_rate": 7.864530130795663e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246318, "epoch": 1.5290799603628327, "step": 20060}, {"loss": 0.11425788402557373, "token_acc": 0.9625085207907293, "grad_norm": 1.003940224647522, "learning_rate": 7.863548679852419e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246329, "epoch": 1.5294610869730925, "step": 20065}, {"loss": 0.11797839403152466, "token_acc": 0.9489768076398363, "grad_norm": 0.9472588300704956, "learning_rate": 7.862567064697948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246343, "epoch": 1.5298422135833523, "step": 20070}, {"loss": 0.10134296417236328, "token_acc": 0.9595070422535211, "grad_norm": 0.7316445112228394, "learning_rate": 7.861585285388538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246343, "epoch": 1.5302233401936123, "step": 20075}, {"loss": 0.11671496629714966, "token_acc": 0.9531203785862171, "grad_norm": 0.8136548399925232, "learning_rate": 7.860603341980491e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246349, "epoch": 1.5306044668038723, "step": 20080}, {"loss": 0.1400763511657715, "token_acc": 0.9529757531227039, "grad_norm": 1.5228571891784668, "learning_rate": 7.859621234530118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246346, "epoch": 1.5309855934141323, "step": 20085}, {"loss": 0.16669340133666993, "token_acc": 0.937200956937799, "grad_norm": 1.6831352710723877, "learning_rate": 7.858638963093739e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24636, "epoch": 1.5313667200243921, "step": 20090}, {"loss": 0.050355559587478636, "token_acc": 0.9795819154107924, "grad_norm": 0.802392303943634, "learning_rate": 7.85765652772768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24638, "epoch": 1.531747846634652, "step": 20095}, {"loss": 0.11495417356491089, "token_acc": 0.9563466494845361, "grad_norm": 1.094305396080017, "learning_rate": 7.856673928488279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246388, "epoch": 1.532128973244912, "step": 20100}, {"loss": 0.14258017539978027, "token_acc": 0.9469838572642311, "grad_norm": 0.7223188281059265, "learning_rate": 7.855691165431886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246396, "epoch": 1.532510099855172, "step": 20105}, {"loss": 0.12313451766967773, "token_acc": 0.949468085106383, "grad_norm": 0.9584779143333435, "learning_rate": 7.854708238614857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246412, "epoch": 1.532891226465432, "step": 20110}, {"loss": 0.11974886655807496, "token_acc": 0.9582420415001933, "grad_norm": 0.697218120098114, "learning_rate": 7.853725148093557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246417, "epoch": 1.5332723530756918, "step": 20115}, {"loss": 0.10541114807128907, "token_acc": 0.9675020655466814, "grad_norm": 1.0408462285995483, "learning_rate": 7.852741893924362e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246428, "epoch": 1.5336534796859516, "step": 20120}, {"loss": 0.09472081065177917, "token_acc": 0.9610284605433377, "grad_norm": 0.6189677119255066, "learning_rate": 7.85175847616366e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246437, "epoch": 1.5340346062962116, "step": 20125}, {"loss": 0.1448038101196289, "token_acc": 0.9532821824381926, "grad_norm": 1.2660642862319946, "learning_rate": 7.850774894867841e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246445, "epoch": 1.5344157329064716, "step": 20130}, {"loss": 0.095840322971344, "token_acc": 0.9655744504355039, "grad_norm": 1.3050897121429443, "learning_rate": 7.849791150093313e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246455, "epoch": 1.5347968595167316, "step": 20135}, {"loss": 0.11860479116439819, "token_acc": 0.9619218826605654, "grad_norm": 1.060912847518921, "learning_rate": 7.848807241896485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246458, "epoch": 1.5351779861269914, "step": 20140}, {"loss": 0.13371775150299073, "token_acc": 0.9391241141195712, "grad_norm": 0.29924488067626953, "learning_rate": 7.847823170333783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246465, "epoch": 1.5355591127372512, "step": 20145}, {"loss": 0.1501001834869385, "token_acc": 0.9536407766990291, "grad_norm": 0.638933002948761, "learning_rate": 7.846838935461637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246476, "epoch": 1.5359402393475112, "step": 20150}, {"loss": 0.12085071802139283, "token_acc": 0.9536002482929857, "grad_norm": 0.9239512085914612, "learning_rate": 7.84585453733649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246482, "epoch": 1.5363213659577712, "step": 20155}, {"loss": 0.08245945572853089, "token_acc": 0.969331158238173, "grad_norm": 0.7460366487503052, "learning_rate": 7.844869976014793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246487, "epoch": 1.5367024925680313, "step": 20160}, {"loss": 0.13522355556488036, "token_acc": 0.9434980124929018, "grad_norm": 0.3189503252506256, "learning_rate": 7.843885251553002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246501, "epoch": 1.537083619178291, "step": 20165}, {"loss": 0.1545405864715576, "token_acc": 0.9442487364068004, "grad_norm": 0.7383835315704346, "learning_rate": 7.84290036400759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246509, "epoch": 1.5374647457885509, "step": 20170}, {"loss": 0.10371520519256591, "token_acc": 0.9559489501852614, "grad_norm": 1.2051562070846558, "learning_rate": 7.841915313435036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246527, "epoch": 1.5378458723988109, "step": 20175}, {"loss": 0.14800443649291992, "token_acc": 0.9489953632148377, "grad_norm": 1.144430160522461, "learning_rate": 7.840930099891824e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246541, "epoch": 1.538226999009071, "step": 20180}, {"loss": 0.10440422296524048, "token_acc": 0.9584139264990329, "grad_norm": 0.6102069616317749, "learning_rate": 7.839944723434458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246538, "epoch": 1.5386081256193307, "step": 20185}, {"loss": 0.10544029474258423, "token_acc": 0.9534090909090909, "grad_norm": 1.077303171157837, "learning_rate": 7.838959184119438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246557, "epoch": 1.5389892522295907, "step": 20190}, {"loss": 0.09800500869750976, "token_acc": 0.9662089391491653, "grad_norm": 0.6479737162590027, "learning_rate": 7.837973482003284e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246563, "epoch": 1.5393703788398505, "step": 20195}, {"loss": 0.10362192392349243, "token_acc": 0.9600333055786844, "grad_norm": 0.894629180431366, "learning_rate": 7.836987617142522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246576, "epoch": 1.5397515054501105, "step": 20200}, {"eval_loss": 0.09949084371328354, "eval_token_acc": 0.953677489307873, "eval_runtime": 220.2188, "eval_samples_per_second": 2.407, "eval_steps_per_second": 2.407, "epoch": 1.5397515054501105, "step": 20200}, {"loss": 0.07862884402275086, "token_acc": 0.9544074693382516, "grad_norm": 0.3351824879646301, "learning_rate": 7.836001589593683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245921, "epoch": 1.5401326320603705, "step": 20205}, {"loss": 0.10955632925033569, "token_acc": 0.9600696770735629, "grad_norm": 1.110632061958313, "learning_rate": 7.835015399413314e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245927, "epoch": 1.5405137586706303, "step": 20210}, {"loss": 0.11455215215682983, "token_acc": 0.9418789808917197, "grad_norm": 0.8664857149124146, "learning_rate": 7.834029046657969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245942, "epoch": 1.5408948852808904, "step": 20215}, {"loss": 0.14046541452407837, "token_acc": 0.9419804741980474, "grad_norm": 0.8753293752670288, "learning_rate": 7.833042531384209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245955, "epoch": 1.5412760118911502, "step": 20220}, {"loss": 0.15805554389953613, "token_acc": 0.9512195121951219, "grad_norm": 0.9860674738883972, "learning_rate": 7.832055853648607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245963, "epoch": 1.5416571385014102, "step": 20225}, {"loss": 0.14654064178466797, "token_acc": 0.9422556971803785, "grad_norm": 1.1086833477020264, "learning_rate": 7.831069013507745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245975, "epoch": 1.5420382651116702, "step": 20230}, {"loss": 0.11448988914489747, "token_acc": 0.9663665704093766, "grad_norm": 1.4926705360412598, "learning_rate": 7.830082011018212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245983, "epoch": 1.54241939172193, "step": 20235}, {"loss": 0.12560720443725587, "token_acc": 0.9578141420207176, "grad_norm": 0.679052472114563, "learning_rate": 7.829094846236608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245986, "epoch": 1.54280051833219, "step": 20240}, {"loss": 0.13093364238739014, "token_acc": 0.9502868068833652, "grad_norm": 0.6988186836242676, "learning_rate": 7.828107519219545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246001, "epoch": 1.5431816449424498, "step": 20245}, {"loss": 0.0833030879497528, "token_acc": 0.9670095778644909, "grad_norm": 0.6624094843864441, "learning_rate": 7.82712003002364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246006, "epoch": 1.5435627715527098, "step": 20250}, {"loss": 0.15886261463165283, "token_acc": 0.9508134695421869, "grad_norm": 1.5297411680221558, "learning_rate": 7.826132378705518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246012, "epoch": 1.5439438981629698, "step": 20255}, {"loss": 0.14241271018981932, "token_acc": 0.9525147928994083, "grad_norm": 1.0863755941390991, "learning_rate": 7.825144565321822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246023, "epoch": 1.5443250247732296, "step": 20260}, {"loss": 0.13128538131713868, "token_acc": 0.9482948294829483, "grad_norm": 0.8025416135787964, "learning_rate": 7.824156589929193e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246024, "epoch": 1.5447061513834894, "step": 20265}, {"loss": 0.14459774494171143, "token_acc": 0.9373315363881402, "grad_norm": 0.7588363289833069, "learning_rate": 7.823168452584291e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246041, "epoch": 1.5450872779937495, "step": 20270}, {"loss": 0.14615097045898437, "token_acc": 0.9418269230769231, "grad_norm": 0.9858483672142029, "learning_rate": 7.822180153343776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246057, "epoch": 1.5454684046040095, "step": 20275}, {"loss": 0.12661248445510864, "token_acc": 0.9445916646591183, "grad_norm": 0.7694418430328369, "learning_rate": 7.82119169226433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246068, "epoch": 1.5458495312142695, "step": 20280}, {"loss": 0.11800553798675537, "token_acc": 0.9579511614055986, "grad_norm": 0.6671009063720703, "learning_rate": 7.820203069402631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246073, "epoch": 1.5462306578245293, "step": 20285}, {"loss": 0.11763629913330079, "token_acc": 0.9555199358845923, "grad_norm": 1.6451328992843628, "learning_rate": 7.819214284815373e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246081, "epoch": 1.546611784434789, "step": 20290}, {"loss": 0.0714452862739563, "token_acc": 0.9728872223824633, "grad_norm": 0.8875593543052673, "learning_rate": 7.818225338559257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246096, "epoch": 1.546992911045049, "step": 20295}, {"loss": 0.09304338097572326, "token_acc": 0.9561042524005487, "grad_norm": 1.113953709602356, "learning_rate": 7.817236230690999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246113, "epoch": 1.5473740376553091, "step": 20300}, {"loss": 0.11942956447601319, "token_acc": 0.9483532934131736, "grad_norm": 0.7504996657371521, "learning_rate": 7.816246961267315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246127, "epoch": 1.5477551642655691, "step": 20305}, {"loss": 0.11602596044540406, "token_acc": 0.951325220870145, "grad_norm": 0.8645687699317932, "learning_rate": 7.815257530344938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246137, "epoch": 1.548136290875829, "step": 20310}, {"loss": 0.12744873762130737, "token_acc": 0.9494235775381182, "grad_norm": 0.58597332239151, "learning_rate": 7.814267937980603e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246147, "epoch": 1.5485174174860887, "step": 20315}, {"loss": 0.13020039796829225, "token_acc": 0.9497214683616626, "grad_norm": 0.5203577280044556, "learning_rate": 7.813278184231065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246149, "epoch": 1.5488985440963488, "step": 20320}, {"loss": 0.1589285612106323, "token_acc": 0.955716222322639, "grad_norm": 1.3316888809204102, "learning_rate": 7.812288269153076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246158, "epoch": 1.5492796707066088, "step": 20325}, {"loss": 0.13084545135498046, "token_acc": 0.9482501861504096, "grad_norm": 0.6558024287223816, "learning_rate": 7.811298192803407e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246171, "epoch": 1.5496607973168688, "step": 20330}, {"loss": 0.14036908149719238, "token_acc": 0.9391684193496198, "grad_norm": 0.772087812423706, "learning_rate": 7.810307955238831e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246181, "epoch": 1.5500419239271286, "step": 20335}, {"loss": 0.1289795994758606, "token_acc": 0.9468509984639016, "grad_norm": 1.0317705869674683, "learning_rate": 7.809317556516135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246197, "epoch": 1.5504230505373884, "step": 20340}, {"loss": 0.1446303367614746, "token_acc": 0.9512534818941504, "grad_norm": 1.314374566078186, "learning_rate": 7.808326996692116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246209, "epoch": 1.5508041771476484, "step": 20345}, {"loss": 0.1161515474319458, "token_acc": 0.9390439525184472, "grad_norm": 0.8148555755615234, "learning_rate": 7.807336275823576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24622, "epoch": 1.5511853037579084, "step": 20350}, {"loss": 0.20508849620819092, "token_acc": 0.9269553975436329, "grad_norm": 0.771094024181366, "learning_rate": 7.806345393967327e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246232, "epoch": 1.5515664303681684, "step": 20355}, {"loss": 0.12329316139221191, "token_acc": 0.959165815954499, "grad_norm": 0.6842091679573059, "learning_rate": 7.805354351180192e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24624, "epoch": 1.5519475569784282, "step": 20360}, {"loss": 0.09223066568374634, "token_acc": 0.9575612671846981, "grad_norm": 0.7424257397651672, "learning_rate": 7.804363147519006e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24625, "epoch": 1.552328683588688, "step": 20365}, {"loss": 0.1305585265159607, "token_acc": 0.9541335563920257, "grad_norm": 0.6114147305488586, "learning_rate": 7.803371783040605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246252, "epoch": 1.552709810198948, "step": 20370}, {"loss": 0.13010406494140625, "token_acc": 0.958300395256917, "grad_norm": 0.86359041929245, "learning_rate": 7.802380257801843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246256, "epoch": 1.553090936809208, "step": 20375}, {"loss": 0.10984261035919189, "token_acc": 0.9614594850734481, "grad_norm": 0.4465113878250122, "learning_rate": 7.801388571859577e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246264, "epoch": 1.553472063419468, "step": 20380}, {"loss": 0.14129831790924072, "token_acc": 0.9375109706863262, "grad_norm": 1.3323390483856201, "learning_rate": 7.800396725270675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246273, "epoch": 1.5538531900297279, "step": 20385}, {"loss": 0.1262844443321228, "token_acc": 0.9443878293783666, "grad_norm": 1.0194460153579712, "learning_rate": 7.79940471809202e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246276, "epoch": 1.5542343166399877, "step": 20390}, {"loss": 0.17530068159103393, "token_acc": 0.9373977086743044, "grad_norm": 1.1700646877288818, "learning_rate": 7.798412550380492e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246284, "epoch": 1.5546154432502477, "step": 20395}, {"loss": 0.11403472423553467, "token_acc": 0.9486501793468001, "grad_norm": 0.6830636262893677, "learning_rate": 7.79742022219299e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246295, "epoch": 1.5549965698605077, "step": 20400}, {"eval_loss": 0.09771151095628738, "eval_token_acc": 0.9539636166495994, "eval_runtime": 221.6361, "eval_samples_per_second": 2.391, "eval_steps_per_second": 2.391, "epoch": 1.5549965698605077, "step": 20400}, {"loss": 0.14692559242248535, "token_acc": 0.9534975894845317, "grad_norm": 1.5672130584716797, "learning_rate": 7.796427733586422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245644, "epoch": 1.5553776964707677, "step": 20405}, {"loss": 0.09436936974525452, "token_acc": 0.9514285714285714, "grad_norm": 0.9636224508285522, "learning_rate": 7.795435084617699e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245658, "epoch": 1.5557588230810275, "step": 20410}, {"loss": 0.10201631784439087, "token_acc": 0.9603230337078652, "grad_norm": 0.9270995259284973, "learning_rate": 7.794442275343748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245664, "epoch": 1.5561399496912873, "step": 20415}, {"loss": 0.09668781757354736, "token_acc": 0.9625256673511293, "grad_norm": 1.011034369468689, "learning_rate": 7.793449305821499e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245677, "epoch": 1.5565210763015473, "step": 20420}, {"loss": 0.09334666728973388, "token_acc": 0.9604768692497084, "grad_norm": 1.719583511352539, "learning_rate": 7.792456176107896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245676, "epoch": 1.5569022029118074, "step": 20425}, {"loss": 0.10918974876403809, "token_acc": 0.9518205731690433, "grad_norm": 0.6798993945121765, "learning_rate": 7.79146288625989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245686, "epoch": 1.5572833295220674, "step": 20430}, {"loss": 0.12821564674377442, "token_acc": 0.9455395244868929, "grad_norm": 0.6507182717323303, "learning_rate": 7.790469436334442e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245685, "epoch": 1.5576644561323272, "step": 20435}, {"loss": 0.10457488298416137, "token_acc": 0.9502840909090909, "grad_norm": 0.7128759622573853, "learning_rate": 7.789475826388519e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245701, "epoch": 1.558045582742587, "step": 20440}, {"loss": 0.0810682713985443, "token_acc": 0.9634680134680135, "grad_norm": 0.23801110684871674, "learning_rate": 7.788482056479104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24571, "epoch": 1.558426709352847, "step": 20445}, {"loss": 0.09499533176422119, "token_acc": 0.9625514403292181, "grad_norm": 0.7529171109199524, "learning_rate": 7.787488126663183e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245718, "epoch": 1.558807835963107, "step": 20450}, {"loss": 0.16096495389938353, "token_acc": 0.950214387803716, "grad_norm": 0.6019001007080078, "learning_rate": 7.786494036997754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245729, "epoch": 1.559188962573367, "step": 20455}, {"loss": 0.13868269920349122, "token_acc": 0.9477531131564699, "grad_norm": 0.7061730623245239, "learning_rate": 7.78549978753982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245744, "epoch": 1.5595700891836268, "step": 20460}, {"loss": 0.13204164505004884, "token_acc": 0.9571034189849225, "grad_norm": 0.707014799118042, "learning_rate": 7.784505378346402e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245735, "epoch": 1.5599512157938866, "step": 20465}, {"loss": 0.13544275760650634, "token_acc": 0.945273631840796, "grad_norm": 0.9085134267807007, "learning_rate": 7.783510809474522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245747, "epoch": 1.5603323424041466, "step": 20470}, {"loss": 0.1424916625022888, "token_acc": 0.9488989271597967, "grad_norm": 2.0543816089630127, "learning_rate": 7.782516080981214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245753, "epoch": 1.5607134690144067, "step": 20475}, {"loss": 0.11884559392929077, "token_acc": 0.9438669438669439, "grad_norm": 1.0858070850372314, "learning_rate": 7.78152119292352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245771, "epoch": 1.5610945956246665, "step": 20480}, {"loss": 0.12399560213088989, "token_acc": 0.9427042342200536, "grad_norm": 0.7581131458282471, "learning_rate": 7.780526145358496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245779, "epoch": 1.5614757222349265, "step": 20485}, {"loss": 0.09838156700134278, "token_acc": 0.9652198107957707, "grad_norm": 1.1300866603851318, "learning_rate": 7.779530938343198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245793, "epoch": 1.5618568488451863, "step": 20490}, {"loss": 0.16609673500061034, "token_acc": 0.9350500715307583, "grad_norm": 0.7925743460655212, "learning_rate": 7.778535571934702e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245808, "epoch": 1.5622379754554463, "step": 20495}, {"loss": 0.14994269609451294, "token_acc": 0.9257748776508973, "grad_norm": 0.7945945858955383, "learning_rate": 7.777540046190083e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245821, "epoch": 1.5626191020657063, "step": 20500}, {"loss": 0.154620897769928, "token_acc": 0.9416574933165592, "grad_norm": 0.822462797164917, "learning_rate": 7.776544361166431e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245822, "epoch": 1.563000228675966, "step": 20505}, {"loss": 0.118274986743927, "token_acc": 0.955232789494628, "grad_norm": 0.7540737390518188, "learning_rate": 7.775548516920847e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245831, "epoch": 1.5633813552862261, "step": 20510}, {"loss": 0.12014776468276978, "token_acc": 0.9550882658359294, "grad_norm": 0.6483361721038818, "learning_rate": 7.774552513510434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245845, "epoch": 1.563762481896486, "step": 20515}, {"loss": 0.11107646226882935, "token_acc": 0.9500192233756247, "grad_norm": 0.5103482604026794, "learning_rate": 7.77355635099231e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245854, "epoch": 1.564143608506746, "step": 20520}, {"loss": 0.09796789884567261, "token_acc": 0.9694431869624265, "grad_norm": 0.6634088158607483, "learning_rate": 7.772560029423601e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245863, "epoch": 1.564524735117006, "step": 20525}, {"loss": 0.12131747007369995, "token_acc": 0.9557938299473289, "grad_norm": 1.8865690231323242, "learning_rate": 7.77156354886144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245874, "epoch": 1.5649058617272658, "step": 20530}, {"loss": 0.0987938940525055, "token_acc": 0.9633286318758815, "grad_norm": 0.4541265368461609, "learning_rate": 7.770566909362972e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24588, "epoch": 1.5652869883375258, "step": 20535}, {"loss": 0.10751773118972778, "token_acc": 0.964881028120626, "grad_norm": 0.8200079798698425, "learning_rate": 7.769570110985348e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245883, "epoch": 1.5656681149477856, "step": 20540}, {"loss": 0.11798399686813354, "token_acc": 0.9525673497582317, "grad_norm": 0.8397249579429626, "learning_rate": 7.76857315378573e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245896, "epoch": 1.5660492415580456, "step": 20545}, {"loss": 0.11577843427658081, "token_acc": 0.9617235345581803, "grad_norm": 0.9297528266906738, "learning_rate": 7.767576037821289e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245908, "epoch": 1.5664303681683056, "step": 20550}, {"loss": 0.18470335006713867, "token_acc": 0.925050641458474, "grad_norm": 1.9333354234695435, "learning_rate": 7.766578763149207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245926, "epoch": 1.5668114947785654, "step": 20555}, {"loss": 0.15248109102249147, "token_acc": 0.9378453038674033, "grad_norm": 1.2132799625396729, "learning_rate": 7.76558132982667e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245938, "epoch": 1.5671926213888252, "step": 20560}, {"loss": 0.11216704845428467, "token_acc": 0.9554089709762533, "grad_norm": 0.7555849552154541, "learning_rate": 7.764583737910878e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245951, "epoch": 1.5675737479990852, "step": 20565}, {"loss": 0.1146240234375, "token_acc": 0.9597523219814241, "grad_norm": 0.7011930346488953, "learning_rate": 7.763585987459039e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245957, "epoch": 1.5679548746093452, "step": 20570}, {"loss": 0.07913058996200562, "token_acc": 0.9615598885793872, "grad_norm": 0.3983931541442871, "learning_rate": 7.762588078528367e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24597, "epoch": 1.5683360012196053, "step": 20575}, {"loss": 0.1341947555541992, "token_acc": 0.9433035714285715, "grad_norm": 1.6100703477859497, "learning_rate": 7.761590011176089e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245986, "epoch": 1.568717127829865, "step": 20580}, {"loss": 0.130311918258667, "token_acc": 0.9407303931351028, "grad_norm": 1.7765450477600098, "learning_rate": 7.760591785459438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245998, "epoch": 1.5690982544401249, "step": 20585}, {"loss": 0.08370200395584107, "token_acc": 0.9521885521885521, "grad_norm": 0.8172553181648254, "learning_rate": 7.759593401435661e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24601, "epoch": 1.5694793810503849, "step": 20590}, {"loss": 0.14865376949310302, "token_acc": 0.9477255032810589, "grad_norm": 1.365710973739624, "learning_rate": 7.758594859162007e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246013, "epoch": 1.5698605076606449, "step": 20595}, {"loss": 0.132806396484375, "token_acc": 0.9496957403651115, "grad_norm": 1.4803544282913208, "learning_rate": 7.75759615869574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.246024, "epoch": 1.570241634270905, "step": 20600}, {"eval_loss": 0.100025475025177, "eval_token_acc": 0.954588579001265, "eval_runtime": 220.3654, "eval_samples_per_second": 2.405, "eval_steps_per_second": 2.405, "epoch": 1.570241634270905, "step": 20600}, {"loss": 0.08317768573760986, "token_acc": 0.9551393916667869, "grad_norm": 0.5783364176750183, "learning_rate": 7.75659730009413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245389, "epoch": 1.5706227608811647, "step": 20605}, {"loss": 0.15190064907073975, "token_acc": 0.9497925311203319, "grad_norm": 1.2214646339416504, "learning_rate": 7.755598283414455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245406, "epoch": 1.5710038874914245, "step": 20610}, {"loss": 0.16756923198699952, "token_acc": 0.9272624220668808, "grad_norm": 0.9062264561653137, "learning_rate": 7.75459910871401e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245418, "epoch": 1.5713850141016845, "step": 20615}, {"loss": 0.10593580007553101, "token_acc": 0.9475497702909648, "grad_norm": 0.12439700216054916, "learning_rate": 7.753599776050087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245438, "epoch": 1.5717661407119445, "step": 20620}, {"loss": 0.15638244152069092, "token_acc": 0.9282670454545454, "grad_norm": 0.8501498103141785, "learning_rate": 7.752600285479994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245447, "epoch": 1.5721472673222046, "step": 20625}, {"loss": 0.12386003732681275, "token_acc": 0.9584285061671997, "grad_norm": 0.6716774106025696, "learning_rate": 7.75160063706105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245458, "epoch": 1.5725283939324644, "step": 20630}, {"loss": 0.13842649459838868, "token_acc": 0.9465688842325825, "grad_norm": 0.9133725166320801, "learning_rate": 7.750600830850578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245471, "epoch": 1.5729095205427241, "step": 20635}, {"loss": 0.12650713920593262, "token_acc": 0.9388573337788172, "grad_norm": 1.2853803634643555, "learning_rate": 7.749600866905913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245489, "epoch": 1.5732906471529842, "step": 20640}, {"loss": 0.11206097602844238, "token_acc": 0.9528985507246377, "grad_norm": 0.9152953624725342, "learning_rate": 7.748600745284396e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245492, "epoch": 1.5736717737632442, "step": 20645}, {"loss": 0.11714316606521606, "token_acc": 0.9478210173444105, "grad_norm": 1.8143556118011475, "learning_rate": 7.747600466043384e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245501, "epoch": 1.5740529003735042, "step": 20650}, {"loss": 0.11515450477600098, "token_acc": 0.9554274735830932, "grad_norm": 0.5015907883644104, "learning_rate": 7.746600029240234e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245512, "epoch": 1.574434026983764, "step": 20655}, {"loss": 0.13441752195358275, "token_acc": 0.9456540373735642, "grad_norm": 0.8459840416908264, "learning_rate": 7.745599434932319e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245516, "epoch": 1.5748151535940238, "step": 20660}, {"loss": 0.1081918478012085, "token_acc": 0.960492413398225, "grad_norm": 1.6829885244369507, "learning_rate": 7.744598683177015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245528, "epoch": 1.5751962802042838, "step": 20665}, {"loss": 0.09591987133026122, "token_acc": 0.9625374027528426, "grad_norm": 0.6918957829475403, "learning_rate": 7.743597774031717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245525, "epoch": 1.5755774068145438, "step": 20670}, {"loss": 0.11996984481811523, "token_acc": 0.9552818315704914, "grad_norm": 0.4692426919937134, "learning_rate": 7.742596707553815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245527, "epoch": 1.5759585334248039, "step": 20675}, {"loss": 0.09089620709419251, "token_acc": 0.9595134955014994, "grad_norm": 0.6507902145385742, "learning_rate": 7.741595483800721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245534, "epoch": 1.5763396600350637, "step": 20680}, {"loss": 0.11457359790802002, "token_acc": 0.9593358999037536, "grad_norm": 0.6726707220077515, "learning_rate": 7.740594102829848e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245546, "epoch": 1.5767207866453234, "step": 20685}, {"loss": 0.09378604292869568, "token_acc": 0.9682210708117444, "grad_norm": 0.7749638557434082, "learning_rate": 7.739592564698621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245548, "epoch": 1.5771019132555835, "step": 20690}, {"loss": 0.07211803793907165, "token_acc": 0.9638326585695006, "grad_norm": 0.5079705715179443, "learning_rate": 7.738590869464474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245562, "epoch": 1.5774830398658435, "step": 20695}, {"loss": 0.10836167335510254, "token_acc": 0.962747175141243, "grad_norm": 1.094911813735962, "learning_rate": 7.73758901718485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245568, "epoch": 1.5778641664761035, "step": 20700}, {"loss": 0.10340862274169922, "token_acc": 0.9541984732824428, "grad_norm": 0.7047770619392395, "learning_rate": 7.736587007917198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245583, "epoch": 1.5782452930863633, "step": 20705}, {"loss": 0.09742294549942017, "token_acc": 0.9578016241299304, "grad_norm": 0.5577402114868164, "learning_rate": 7.735584841718981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245593, "epoch": 1.578626419696623, "step": 20710}, {"loss": 0.1780307412147522, "token_acc": 0.9453531598513011, "grad_norm": 1.1945008039474487, "learning_rate": 7.73458251864767e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245602, "epoch": 1.5790075463068831, "step": 20715}, {"loss": 0.11831210851669312, "token_acc": 0.949410163339383, "grad_norm": 1.10934579372406, "learning_rate": 7.733580038760739e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245615, "epoch": 1.5793886729171431, "step": 20720}, {"loss": 0.0815968632698059, "token_acc": 0.9653708668453976, "grad_norm": 0.9987887144088745, "learning_rate": 7.732577402115679e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245627, "epoch": 1.5797697995274032, "step": 20725}, {"loss": 0.09722353219985962, "token_acc": 0.9539249146757679, "grad_norm": 1.2202340364456177, "learning_rate": 7.731574608769987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245637, "epoch": 1.580150926137663, "step": 20730}, {"loss": 0.1377018451690674, "token_acc": 0.9464581140021056, "grad_norm": 0.8471435308456421, "learning_rate": 7.730571658781165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245644, "epoch": 1.5805320527479227, "step": 20735}, {"loss": 0.13249988555908204, "token_acc": 0.950739667530883, "grad_norm": 0.7374142408370972, "learning_rate": 7.729568552206732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245653, "epoch": 1.5809131793581828, "step": 20740}, {"loss": 0.1009147047996521, "token_acc": 0.9587203302373581, "grad_norm": 0.8034853339195251, "learning_rate": 7.728565289104207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245654, "epoch": 1.5812943059684428, "step": 20745}, {"loss": 0.09572315812110901, "token_acc": 0.9628647214854111, "grad_norm": 0.8192576766014099, "learning_rate": 7.727561869531126e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245673, "epoch": 1.5816754325787028, "step": 20750}, {"loss": 0.14186527729034423, "token_acc": 0.9397826474256191, "grad_norm": 1.0575897693634033, "learning_rate": 7.726558293545029e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245679, "epoch": 1.5820565591889626, "step": 20755}, {"loss": 0.18795114755630493, "token_acc": 0.9336392516766678, "grad_norm": 1.1924842596054077, "learning_rate": 7.725554561203467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24569, "epoch": 1.5824376857992224, "step": 20760}, {"loss": 0.19045872688293458, "token_acc": 0.9321734402609759, "grad_norm": 0.727869987487793, "learning_rate": 7.724550672563999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245694, "epoch": 1.5828188124094824, "step": 20765}, {"loss": 0.09919785261154175, "token_acc": 0.9596015495296071, "grad_norm": 0.2743649482727051, "learning_rate": 7.723546627684193e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245697, "epoch": 1.5831999390197424, "step": 20770}, {"loss": 0.10497939586639404, "token_acc": 0.9531308586426697, "grad_norm": 1.0975489616394043, "learning_rate": 7.722542426621627e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245712, "epoch": 1.5835810656300024, "step": 20775}, {"loss": 0.16957426071166992, "token_acc": 0.9370191447486134, "grad_norm": 1.3196781873703003, "learning_rate": 7.721538069433887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24572, "epoch": 1.5839621922402622, "step": 20780}, {"loss": 0.1129598617553711, "token_acc": 0.9455414674703804, "grad_norm": 0.9964106678962708, "learning_rate": 7.720533556178568e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245733, "epoch": 1.584343318850522, "step": 20785}, {"loss": 0.08703320622444152, "token_acc": 0.9678053204353083, "grad_norm": 0.5133894085884094, "learning_rate": 7.719528886913274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245736, "epoch": 1.584724445460782, "step": 20790}, {"loss": 0.13606297969818115, "token_acc": 0.940584478420747, "grad_norm": 1.0179443359375, "learning_rate": 7.718524061695618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245748, "epoch": 1.585105572071042, "step": 20795}, {"loss": 0.12875640392303467, "token_acc": 0.9453843324751747, "grad_norm": 0.5480346083641052, "learning_rate": 7.717519080583224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245757, "epoch": 1.5854866986813019, "step": 20800}, {"eval_loss": 0.09927195310592651, "eval_token_acc": 0.9543702186615264, "eval_runtime": 221.4724, "eval_samples_per_second": 2.393, "eval_steps_per_second": 2.393, "epoch": 1.5854866986813019, "step": 20800}, {"loss": 0.13165522813796998, "token_acc": 0.9542325446152727, "grad_norm": 1.0272544622421265, "learning_rate": 7.71651394363372e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245124, "epoch": 1.585867825291562, "step": 20805}, {"loss": 0.22343883514404297, "token_acc": 0.9091894822445107, "grad_norm": 1.2003084421157837, "learning_rate": 7.715508650904749e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245137, "epoch": 1.5862489519018217, "step": 20810}, {"loss": 0.16920464038848876, "token_acc": 0.9418020108275329, "grad_norm": 1.2003456354141235, "learning_rate": 7.714503202453958e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245148, "epoch": 1.5866300785120817, "step": 20815}, {"loss": 0.14751338958740234, "token_acc": 0.9439986341130272, "grad_norm": 1.6364136934280396, "learning_rate": 7.713497598339005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245159, "epoch": 1.5870112051223417, "step": 20820}, {"loss": 0.10106512308120727, "token_acc": 0.9555654299044657, "grad_norm": 1.2855488061904907, "learning_rate": 7.712491838617557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245173, "epoch": 1.5873923317326015, "step": 20825}, {"loss": 0.1403339385986328, "token_acc": 0.9502410468319559, "grad_norm": 1.134937047958374, "learning_rate": 7.71148592334729e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245179, "epoch": 1.5877734583428615, "step": 20830}, {"loss": 0.11871968507766724, "token_acc": 0.9539335296592343, "grad_norm": 0.7597388029098511, "learning_rate": 7.710479852585888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245189, "epoch": 1.5881545849531213, "step": 20835}, {"loss": 0.08914567232131958, "token_acc": 0.9583697743571803, "grad_norm": 0.7001367211341858, "learning_rate": 7.709473626391044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245197, "epoch": 1.5885357115633814, "step": 20840}, {"loss": 0.10207723379135132, "token_acc": 0.9629365645046329, "grad_norm": 0.8192274570465088, "learning_rate": 7.70846724482046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24521, "epoch": 1.5889168381736414, "step": 20845}, {"loss": 0.11911356449127197, "token_acc": 0.9532724505327245, "grad_norm": 0.4913978576660156, "learning_rate": 7.707460707931851e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245218, "epoch": 1.5892979647839012, "step": 20850}, {"loss": 0.13822083473205565, "token_acc": 0.950909780136467, "grad_norm": 0.5263283848762512, "learning_rate": 7.706454015782933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245225, "epoch": 1.5896790913941612, "step": 20855}, {"loss": 0.09559541940689087, "token_acc": 0.9586638830897704, "grad_norm": 0.6441394686698914, "learning_rate": 7.705447168431437e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245237, "epoch": 1.590060218004421, "step": 20860}, {"loss": 0.08366692066192627, "token_acc": 0.9692671394799054, "grad_norm": 1.0356595516204834, "learning_rate": 7.7044401659351e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245255, "epoch": 1.590441344614681, "step": 20865}, {"loss": 0.13917274475097657, "token_acc": 0.9461871281773931, "grad_norm": 0.6904747486114502, "learning_rate": 7.703433008351671e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245258, "epoch": 1.590822471224941, "step": 20870}, {"loss": 0.09327720403671265, "token_acc": 0.9665311229277448, "grad_norm": 0.8436818718910217, "learning_rate": 7.702425695738901e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245273, "epoch": 1.5912035978352008, "step": 20875}, {"loss": 0.09700791835784912, "token_acc": 0.9582624826093677, "grad_norm": 0.5542105436325073, "learning_rate": 7.701418228154562e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245276, "epoch": 1.5915847244454606, "step": 20880}, {"loss": 0.14567749500274657, "token_acc": 0.9512195121951219, "grad_norm": 1.124210238456726, "learning_rate": 7.700410605656423e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24529, "epoch": 1.5919658510557206, "step": 20885}, {"loss": 0.12584342956542968, "token_acc": 0.9486511627906977, "grad_norm": 0.9775960445404053, "learning_rate": 7.699402828302267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245298, "epoch": 1.5923469776659807, "step": 20890}, {"loss": 0.09772167801856994, "token_acc": 0.9482407676650189, "grad_norm": 0.47661611437797546, "learning_rate": 7.698394896149885e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245312, "epoch": 1.5927281042762407, "step": 20895}, {"loss": 0.09949523210525513, "token_acc": 0.9535673839184597, "grad_norm": 0.942423939704895, "learning_rate": 7.697386809257076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24532, "epoch": 1.5931092308865005, "step": 20900}, {"loss": 0.12186434268951415, "token_acc": 0.9564701226751088, "grad_norm": 1.0262631177902222, "learning_rate": 7.696378567681655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245329, "epoch": 1.5934903574967603, "step": 20905}, {"loss": 0.1473616600036621, "token_acc": 0.9468249870934434, "grad_norm": 0.9496902823448181, "learning_rate": 7.695370171481433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245339, "epoch": 1.5938714841070203, "step": 20910}, {"loss": 0.13541456460952758, "token_acc": 0.9422147509981088, "grad_norm": 1.1006805896759033, "learning_rate": 7.69436162071424e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245349, "epoch": 1.5942526107172803, "step": 20915}, {"loss": 0.10025631189346314, "token_acc": 0.9350356740518213, "grad_norm": 0.7859416604042053, "learning_rate": 7.693352915437913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245365, "epoch": 1.5946337373275403, "step": 20920}, {"loss": 0.13025113344192504, "token_acc": 0.9537704918032787, "grad_norm": 0.8449248671531677, "learning_rate": 7.692344055710293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245375, "epoch": 1.5950148639378001, "step": 20925}, {"loss": 0.11162058115005494, "token_acc": 0.9654107473749228, "grad_norm": 1.1783325672149658, "learning_rate": 7.691335041589236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245382, "epoch": 1.59539599054806, "step": 20930}, {"loss": 0.1297250747680664, "token_acc": 0.9530685920577617, "grad_norm": 0.6656584143638611, "learning_rate": 7.690325873132604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24538, "epoch": 1.59577711715832, "step": 20935}, {"loss": 0.13031408786773682, "token_acc": 0.9463642908567315, "grad_norm": 1.3154218196868896, "learning_rate": 7.68931655039827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245396, "epoch": 1.59615824376858, "step": 20940}, {"loss": 0.08854464888572693, "token_acc": 0.962640385056154, "grad_norm": 1.0300265550613403, "learning_rate": 7.688307073444108e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245407, "epoch": 1.59653937037884, "step": 20945}, {"loss": 0.12869787216186523, "token_acc": 0.9597253155159614, "grad_norm": 0.4914930760860443, "learning_rate": 7.687297442328011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245418, "epoch": 1.5969204969890998, "step": 20950}, {"loss": 0.11275973320007324, "token_acc": 0.9455723542116631, "grad_norm": 0.8184056282043457, "learning_rate": 7.686287657107878e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245435, "epoch": 1.5973016235993596, "step": 20955}, {"loss": 0.1738657236099243, "token_acc": 0.9275862068965517, "grad_norm": 0.7182145714759827, "learning_rate": 7.685277717841613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245449, "epoch": 1.5976827502096196, "step": 20960}, {"loss": 0.1301661491394043, "token_acc": 0.9602868906893346, "grad_norm": 1.1600788831710815, "learning_rate": 7.684267624587132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245453, "epoch": 1.5980638768198796, "step": 20965}, {"loss": 0.10327138900756835, "token_acc": 0.9644332262505737, "grad_norm": 1.7993288040161133, "learning_rate": 7.68325737740236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245467, "epoch": 1.5984450034301396, "step": 20970}, {"loss": 0.13669487237930297, "token_acc": 0.9361179361179361, "grad_norm": 0.6049738526344299, "learning_rate": 7.682246976345229e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245486, "epoch": 1.5988261300403994, "step": 20975}, {"loss": 0.14166605472564697, "token_acc": 0.9447611558875565, "grad_norm": 0.980158805847168, "learning_rate": 7.681236421473682e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2455, "epoch": 1.5992072566506592, "step": 20980}, {"loss": 0.13606619834899902, "token_acc": 0.9390023261824761, "grad_norm": 1.5580737590789795, "learning_rate": 7.680225712845666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245513, "epoch": 1.5995883832609192, "step": 20985}, {"loss": 0.10841109752655029, "token_acc": 0.9572671775555267, "grad_norm": 0.9977888464927673, "learning_rate": 7.679214850519145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245516, "epoch": 1.5999695098711793, "step": 20990}, {"loss": 0.15654139518737792, "token_acc": 0.9287598944591029, "grad_norm": 1.015363097190857, "learning_rate": 7.678203834552085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245532, "epoch": 1.6003506364814393, "step": 20995}, {"loss": 0.13278648853302003, "token_acc": 0.9505084745762712, "grad_norm": 1.2107189893722534, "learning_rate": 7.677192665002464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245544, "epoch": 1.600731763091699, "step": 21000}, {"eval_loss": 0.10052026808261871, "eval_token_acc": 0.9547316426721282, "eval_runtime": 223.829, "eval_samples_per_second": 2.368, "eval_steps_per_second": 2.368, "epoch": 1.600731763091699, "step": 21000}, {"loss": 0.14723405838012696, "token_acc": 0.9542368947811204, "grad_norm": 1.122336745262146, "learning_rate": 7.676181341928266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244907, "epoch": 1.6011128897019589, "step": 21005}, {"loss": 0.16861164569854736, "token_acc": 0.9438870308435526, "grad_norm": 0.7543533444404602, "learning_rate": 7.675169865387488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244917, "epoch": 1.6014940163122189, "step": 21010}, {"loss": 0.13729619979858398, "token_acc": 0.9435674822415154, "grad_norm": 0.7721652984619141, "learning_rate": 7.674158235438133e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244926, "epoch": 1.601875142922479, "step": 21015}, {"loss": 0.15076131820678712, "token_acc": 0.9414612676056338, "grad_norm": 1.132580280303955, "learning_rate": 7.673146452138212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244936, "epoch": 1.602256269532739, "step": 21020}, {"loss": 0.14036763906478883, "token_acc": 0.9468047126026419, "grad_norm": 0.991367518901825, "learning_rate": 7.672134515545746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24494, "epoch": 1.6026373961429987, "step": 21025}, {"loss": 0.09789620041847229, "token_acc": 0.9601235607975288, "grad_norm": 0.4407329857349396, "learning_rate": 7.671122425718768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244946, "epoch": 1.6030185227532585, "step": 21030}, {"loss": 0.11151365041732789, "token_acc": 0.9493100944081336, "grad_norm": 0.6290179491043091, "learning_rate": 7.670110182715312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24495, "epoch": 1.6033996493635185, "step": 21035}, {"loss": 0.11002825498580933, "token_acc": 0.9534064212999217, "grad_norm": 1.0370190143585205, "learning_rate": 7.66909778659343e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244958, "epoch": 1.6037807759737785, "step": 21040}, {"loss": 0.12406430244445801, "token_acc": 0.9523599470666079, "grad_norm": 0.7112976908683777, "learning_rate": 7.668085237411175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244965, "epoch": 1.6041619025840386, "step": 21045}, {"loss": 0.1274664282798767, "token_acc": 0.9508543244671481, "grad_norm": 0.5956043004989624, "learning_rate": 7.667072535226613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244975, "epoch": 1.6045430291942984, "step": 21050}, {"loss": 0.12154606580734253, "token_acc": 0.9459706959706959, "grad_norm": 0.8544282913208008, "learning_rate": 7.666059680097819e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244977, "epoch": 1.6049241558045582, "step": 21055}, {"loss": 0.11159722805023194, "token_acc": 0.9491415613864593, "grad_norm": 0.5605180263519287, "learning_rate": 7.665046672082874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244987, "epoch": 1.6053052824148182, "step": 21060}, {"loss": 0.11699113845825196, "token_acc": 0.957613586877631, "grad_norm": 0.9872449040412903, "learning_rate": 7.664033511239868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244992, "epoch": 1.6056864090250782, "step": 21065}, {"loss": 0.14478111267089844, "token_acc": 0.9429963459196102, "grad_norm": 0.4923055171966553, "learning_rate": 7.663020197626905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245007, "epoch": 1.6060675356353382, "step": 21070}, {"loss": 0.11040792465209961, "token_acc": 0.9521674140508222, "grad_norm": 1.112716794013977, "learning_rate": 7.662006731302089e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245016, "epoch": 1.606448662245598, "step": 21075}, {"loss": 0.150126051902771, "token_acc": 0.9428783382789317, "grad_norm": 0.5777724385261536, "learning_rate": 7.660993112323542e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245021, "epoch": 1.6068297888558578, "step": 21080}, {"loss": 0.11430567502975464, "token_acc": 0.9476036751924509, "grad_norm": 0.967249870300293, "learning_rate": 7.659979340749388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245036, "epoch": 1.6072109154661178, "step": 21085}, {"loss": 0.15256857872009277, "token_acc": 0.9439760674462877, "grad_norm": 1.223449945449829, "learning_rate": 7.658965416637762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245051, "epoch": 1.6075920420763778, "step": 21090}, {"loss": 0.16777535676956176, "token_acc": 0.9315505057503117, "grad_norm": 1.2616904973983765, "learning_rate": 7.65795134004681e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245049, "epoch": 1.6079731686866379, "step": 21095}, {"loss": 0.15341413021087646, "token_acc": 0.9608837377761681, "grad_norm": 1.0931214094161987, "learning_rate": 7.656937111034683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245055, "epoch": 1.6083542952968977, "step": 21100}, {"loss": 0.09863582253456116, "token_acc": 0.9552074745809288, "grad_norm": 1.544132947921753, "learning_rate": 7.655922729659541e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245071, "epoch": 1.6087354219071575, "step": 21105}, {"loss": 0.12964112758636476, "token_acc": 0.9624034911043975, "grad_norm": 0.9167470335960388, "learning_rate": 7.654908195979556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245084, "epoch": 1.6091165485174175, "step": 21110}, {"loss": 0.1473854660987854, "token_acc": 0.9472944483485594, "grad_norm": 1.9055020809173584, "learning_rate": 7.653893510052908e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245097, "epoch": 1.6094976751276775, "step": 21115}, {"loss": 0.14407827854156494, "token_acc": 0.9469573706475757, "grad_norm": 1.1501610279083252, "learning_rate": 7.65287867193778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245103, "epoch": 1.6098788017379373, "step": 21120}, {"loss": 0.10268464088439941, "token_acc": 0.9654559810501382, "grad_norm": 0.4311082661151886, "learning_rate": 7.651863681692373e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245112, "epoch": 1.6102599283481973, "step": 21125}, {"loss": 0.13145983219146729, "token_acc": 0.9493009277407553, "grad_norm": 0.804528534412384, "learning_rate": 7.650848539374888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245117, "epoch": 1.610641054958457, "step": 21130}, {"loss": 0.13181718587875366, "token_acc": 0.9620296271071003, "grad_norm": 0.5702223181724548, "learning_rate": 7.649833245043541e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245124, "epoch": 1.6110221815687171, "step": 21135}, {"loss": 0.13570324182510377, "token_acc": 0.9595505617977528, "grad_norm": 0.8335277438163757, "learning_rate": 7.648817798756555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245133, "epoch": 1.6114033081789771, "step": 21140}, {"loss": 0.1288021445274353, "token_acc": 0.952629745733194, "grad_norm": 0.7673050761222839, "learning_rate": 7.647802200572161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245147, "epoch": 1.611784434789237, "step": 21145}, {"loss": 0.1488107681274414, "token_acc": 0.9431363838294091, "grad_norm": 1.2397074699401855, "learning_rate": 7.646786450548598e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245165, "epoch": 1.612165561399497, "step": 21150}, {"loss": 0.10398995876312256, "token_acc": 0.9560029054685067, "grad_norm": 0.6371222138404846, "learning_rate": 7.645770548744113e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245159, "epoch": 1.6125466880097568, "step": 21155}, {"loss": 0.14142324924468994, "token_acc": 0.9477182896155228, "grad_norm": 0.7567844986915588, "learning_rate": 7.644754495216966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24517, "epoch": 1.6129278146200168, "step": 21160}, {"loss": 0.13432736396789552, "token_acc": 0.9485326008385138, "grad_norm": 0.5750652551651001, "learning_rate": 7.643738290025421e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245172, "epoch": 1.6133089412302768, "step": 21165}, {"loss": 0.11795873641967773, "token_acc": 0.9554448595544486, "grad_norm": 0.7844276428222656, "learning_rate": 7.642721933227754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245175, "epoch": 1.6136900678405366, "step": 21170}, {"loss": 0.13315727710723876, "token_acc": 0.9443011861784425, "grad_norm": 0.5134640336036682, "learning_rate": 7.64170542488225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245183, "epoch": 1.6140711944507966, "step": 21175}, {"loss": 0.07707971334457397, "token_acc": 0.9681479578731056, "grad_norm": 0.8794071078300476, "learning_rate": 7.640688765047197e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245197, "epoch": 1.6144523210610564, "step": 21180}, {"loss": 0.14568166732788085, "token_acc": 0.9473479696910821, "grad_norm": 1.7058745622634888, "learning_rate": 7.639671953780898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245206, "epoch": 1.6148334476713164, "step": 21185}, {"loss": 0.11351219415664673, "token_acc": 0.9492322932144626, "grad_norm": 0.9609273076057434, "learning_rate": 7.638654991141661e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245217, "epoch": 1.6152145742815764, "step": 21190}, {"loss": 0.1600504159927368, "token_acc": 0.944389471601029, "grad_norm": 1.1888633966445923, "learning_rate": 7.637637877187807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245225, "epoch": 1.6155957008918362, "step": 21195}, {"loss": 0.09423256516456605, "token_acc": 0.9624149659863945, "grad_norm": 0.7389683723449707, "learning_rate": 7.636620611977658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.245232, "epoch": 1.615976827502096, "step": 21200}, {"eval_loss": 0.09900600463151932, "eval_token_acc": 0.9547542316727908, "eval_runtime": 220.2684, "eval_samples_per_second": 2.406, "eval_steps_per_second": 2.406, "epoch": 1.615976827502096, "step": 21200}, {"loss": 0.1286097764968872, "token_acc": 0.954643212055591, "grad_norm": 1.3629077672958374, "learning_rate": 7.635603195569553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244627, "epoch": 1.616357954112356, "step": 21205}, {"loss": 0.11296499967575073, "token_acc": 0.9527116402116402, "grad_norm": 1.0419262647628784, "learning_rate": 7.634585628021838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244632, "epoch": 1.616739080722616, "step": 21210}, {"loss": 0.10281252861022949, "token_acc": 0.9698397737983034, "grad_norm": 0.49775269627571106, "learning_rate": 7.633567909392861e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244642, "epoch": 1.617120207332876, "step": 21215}, {"loss": 0.09547773599624634, "token_acc": 0.9616613418530351, "grad_norm": 0.5361588001251221, "learning_rate": 7.632550039740987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244645, "epoch": 1.6175013339431359, "step": 21220}, {"loss": 0.12309856414794922, "token_acc": 0.9599839131309069, "grad_norm": 0.8589800596237183, "learning_rate": 7.631532019124584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244656, "epoch": 1.6178824605533957, "step": 21225}, {"loss": 0.11287986040115357, "token_acc": 0.9579905992949471, "grad_norm": 0.8987138271331787, "learning_rate": 7.63051384760203e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244658, "epoch": 1.6182635871636557, "step": 21230}, {"loss": 0.09903315901756286, "token_acc": 0.9571865443425076, "grad_norm": 0.5775141716003418, "learning_rate": 7.629495525231717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244667, "epoch": 1.6186447137739157, "step": 21235}, {"loss": 0.095722496509552, "token_acc": 0.9584086799276673, "grad_norm": 0.7958876490592957, "learning_rate": 7.628477052072037e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244684, "epoch": 1.6190258403841757, "step": 21240}, {"loss": 0.07642971277236939, "token_acc": 0.9665877400684031, "grad_norm": 1.7569881677627563, "learning_rate": 7.627458428181394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244701, "epoch": 1.6194069669944355, "step": 21245}, {"loss": 0.12150869369506836, "token_acc": 0.9541530788413581, "grad_norm": 1.4220664501190186, "learning_rate": 7.626439653618205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24471, "epoch": 1.6197880936046953, "step": 21250}, {"loss": 0.14630979299545288, "token_acc": 0.9336047604134043, "grad_norm": 1.1206270456314087, "learning_rate": 7.625420728440888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244727, "epoch": 1.6201692202149554, "step": 21255}, {"loss": 0.11858011484146118, "token_acc": 0.9568916619398752, "grad_norm": 0.7649474740028381, "learning_rate": 7.624401652707877e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24474, "epoch": 1.6205503468252154, "step": 21260}, {"loss": 0.14061179161071777, "token_acc": 0.9502454991816693, "grad_norm": 0.6453062891960144, "learning_rate": 7.62338242647761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244755, "epoch": 1.6209314734354754, "step": 21265}, {"loss": 0.0705721616744995, "token_acc": 0.9676514584891548, "grad_norm": 0.5856008529663086, "learning_rate": 7.622363049808535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244761, "epoch": 1.6213126000457352, "step": 21270}, {"loss": 0.13694562911987304, "token_acc": 0.9542657575253617, "grad_norm": 0.8195800185203552, "learning_rate": 7.621343522759106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24477, "epoch": 1.621693726655995, "step": 21275}, {"loss": 0.1722763419151306, "token_acc": 0.9428515318146111, "grad_norm": 1.1551761627197266, "learning_rate": 7.620323845387793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244781, "epoch": 1.622074853266255, "step": 21280}, {"loss": 0.12748149633407593, "token_acc": 0.9546363409147713, "grad_norm": 0.6181943416595459, "learning_rate": 7.619304017753069e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244779, "epoch": 1.622455979876515, "step": 21285}, {"loss": 0.1301543354988098, "token_acc": 0.9524568393094289, "grad_norm": 0.7684677243232727, "learning_rate": 7.618284039913411e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244777, "epoch": 1.622837106486775, "step": 21290}, {"loss": 0.10601390600204467, "token_acc": 0.9584499461786867, "grad_norm": 0.8061923980712891, "learning_rate": 7.617263911927315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244789, "epoch": 1.6232182330970348, "step": 21295}, {"loss": 0.10014996528625489, "token_acc": 0.9649978786593126, "grad_norm": 0.9281865954399109, "learning_rate": 7.616243633853279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244799, "epoch": 1.6235993597072946, "step": 21300}, {"loss": 0.10963995456695556, "token_acc": 0.9483484814896919, "grad_norm": 0.7492789626121521, "learning_rate": 7.615223205749812e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244811, "epoch": 1.6239804863175547, "step": 21305}, {"loss": 0.1461019515991211, "token_acc": 0.9537982349887524, "grad_norm": 1.1577093601226807, "learning_rate": 7.614202627675428e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244816, "epoch": 1.6243616129278147, "step": 21310}, {"loss": 0.16041842699050904, "token_acc": 0.9365603226989365, "grad_norm": 1.3702080249786377, "learning_rate": 7.613181899688658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244826, "epoch": 1.6247427395380747, "step": 21315}, {"loss": 0.12530640363693238, "token_acc": 0.9555555555555556, "grad_norm": 0.6809081435203552, "learning_rate": 7.612161021848032e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244838, "epoch": 1.6251238661483345, "step": 21320}, {"loss": 0.113567054271698, "token_acc": 0.9479539883085046, "grad_norm": 0.9984610080718994, "learning_rate": 7.611139994212092e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244847, "epoch": 1.6255049927585943, "step": 21325}, {"loss": 0.11254376173019409, "token_acc": 0.9586170212765958, "grad_norm": 3.0776031017303467, "learning_rate": 7.610118816839391e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244844, "epoch": 1.6258861193688543, "step": 21330}, {"loss": 0.10457342863082886, "token_acc": 0.9453386988598256, "grad_norm": 1.1202110052108765, "learning_rate": 7.60909748978849e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244851, "epoch": 1.6262672459791143, "step": 21335}, {"loss": 0.14262826442718507, "token_acc": 0.9418409403144558, "grad_norm": 1.0235071182250977, "learning_rate": 7.608076013117953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244858, "epoch": 1.6266483725893743, "step": 21340}, {"loss": 0.1276843786239624, "token_acc": 0.9607666580910728, "grad_norm": 0.7261878848075867, "learning_rate": 7.60705438688636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244865, "epoch": 1.6270294991996341, "step": 21345}, {"loss": 0.08540889024734497, "token_acc": 0.9670465807730426, "grad_norm": 0.9381394982337952, "learning_rate": 7.606032611152296e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244879, "epoch": 1.627410625809894, "step": 21350}, {"loss": 0.10020071268081665, "token_acc": 0.9513274336283186, "grad_norm": 1.2409436702728271, "learning_rate": 7.605010685974357e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244889, "epoch": 1.627791752420154, "step": 21355}, {"loss": 0.16432666778564453, "token_acc": 0.9372227908563631, "grad_norm": 0.8086562752723694, "learning_rate": 7.603988611411142e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244904, "epoch": 1.628172879030414, "step": 21360}, {"loss": 0.171173095703125, "token_acc": 0.929341105811694, "grad_norm": 1.0228774547576904, "learning_rate": 7.602966387521266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244913, "epoch": 1.628554005640674, "step": 21365}, {"loss": 0.10213818550109863, "token_acc": 0.9609137055837563, "grad_norm": 0.8838344216346741, "learning_rate": 7.601944014363346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244922, "epoch": 1.6289351322509338, "step": 21370}, {"loss": 0.1176137924194336, "token_acc": 0.9523202911737944, "grad_norm": 0.9852144718170166, "learning_rate": 7.600921491996011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244931, "epoch": 1.6293162588611936, "step": 21375}, {"loss": 0.12937740087509156, "token_acc": 0.952491516342204, "grad_norm": 1.081342101097107, "learning_rate": 7.599898820477898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244939, "epoch": 1.6296973854714536, "step": 21380}, {"loss": 0.13756983280181884, "token_acc": 0.9450343535290443, "grad_norm": 1.3874026536941528, "learning_rate": 7.598875999867655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244953, "epoch": 1.6300785120817136, "step": 21385}, {"loss": 0.13523530960083008, "token_acc": 0.9574468085106383, "grad_norm": 0.4755589962005615, "learning_rate": 7.59785303022393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244956, "epoch": 1.6304596386919736, "step": 21390}, {"loss": 0.14328677654266359, "token_acc": 0.9475465313028765, "grad_norm": 0.8706849217414856, "learning_rate": 7.59682991160539e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244968, "epoch": 1.6308407653022334, "step": 21395}, {"loss": 0.12998690605163574, "token_acc": 0.9417013682331945, "grad_norm": 0.7776228785514832, "learning_rate": 7.595806644070707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244982, "epoch": 1.6312218919124932, "step": 21400}, {"eval_loss": 0.10011614114046097, "eval_token_acc": 0.9545434009999397, "eval_runtime": 182.1958, "eval_samples_per_second": 2.909, "eval_steps_per_second": 2.909, "epoch": 1.6312218919124932, "step": 21400}, {"loss": 0.1630992293357849, "token_acc": 0.9542650776453593, "grad_norm": 0.8067070245742798, "learning_rate": 7.594783227678559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244477, "epoch": 1.6316030185227532, "step": 21405}, {"loss": 0.12093262672424317, "token_acc": 0.9493136219640972, "grad_norm": 0.8528085947036743, "learning_rate": 7.593759662487632e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244493, "epoch": 1.6319841451330133, "step": 21410}, {"loss": 0.14022598266601563, "token_acc": 0.9422850412249706, "grad_norm": 1.3266654014587402, "learning_rate": 7.592735948556627e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244509, "epoch": 1.632365271743273, "step": 21415}, {"loss": 0.11454125642776489, "token_acc": 0.9466274752475248, "grad_norm": 0.6950247287750244, "learning_rate": 7.591712085944246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244517, "epoch": 1.632746398353533, "step": 21420}, {"loss": 0.10621529817581177, "token_acc": 0.9522106631989596, "grad_norm": 0.5531617999076843, "learning_rate": 7.590688074709204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244522, "epoch": 1.6331275249637929, "step": 21425}, {"loss": 0.15404900312423705, "token_acc": 0.9402173913043478, "grad_norm": 0.8101058602333069, "learning_rate": 7.589663914910224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244529, "epoch": 1.633508651574053, "step": 21430}, {"loss": 0.1705829381942749, "token_acc": 0.9309806371018113, "grad_norm": 1.553690791130066, "learning_rate": 7.588639606606034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244542, "epoch": 1.633889778184313, "step": 21435}, {"loss": 0.0901265025138855, "token_acc": 0.9694537923893347, "grad_norm": 0.7113982439041138, "learning_rate": 7.587615149855378e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244554, "epoch": 1.6342709047945727, "step": 21440}, {"loss": 0.16844894886016845, "token_acc": 0.9398359161349134, "grad_norm": 0.9756497144699097, "learning_rate": 7.586590544716999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244562, "epoch": 1.6346520314048327, "step": 21445}, {"loss": 0.15703319311141967, "token_acc": 0.9385176184690158, "grad_norm": 1.076591968536377, "learning_rate": 7.585565791249657e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244573, "epoch": 1.6350331580150925, "step": 21450}, {"loss": 0.11745790243148804, "token_acc": 0.9555316863587541, "grad_norm": 0.6599459648132324, "learning_rate": 7.584540889512115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244584, "epoch": 1.6354142846253525, "step": 21455}, {"loss": 0.14805114269256592, "token_acc": 0.9355504587155963, "grad_norm": 0.6298982501029968, "learning_rate": 7.583515839563147e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244594, "epoch": 1.6357954112356126, "step": 21460}, {"loss": 0.07657910585403442, "token_acc": 0.9584728734092431, "grad_norm": 0.8138508796691895, "learning_rate": 7.582490641461533e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244603, "epoch": 1.6361765378458724, "step": 21465}, {"loss": 0.13010581731796264, "token_acc": 0.9565374864179645, "grad_norm": 1.0701544284820557, "learning_rate": 7.581465295266065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244612, "epoch": 1.6365576644561324, "step": 21470}, {"loss": 0.11193017959594727, "token_acc": 0.9555628165332462, "grad_norm": 0.7332397699356079, "learning_rate": 7.580439801035544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244615, "epoch": 1.6369387910663922, "step": 21475}, {"loss": 0.13390134572982787, "token_acc": 0.948900651465798, "grad_norm": 0.8801243901252747, "learning_rate": 7.579414158828774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244624, "epoch": 1.6373199176766522, "step": 21480}, {"loss": 0.1721155524253845, "token_acc": 0.9395017793594306, "grad_norm": 1.5497931241989136, "learning_rate": 7.578388368704571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244632, "epoch": 1.6377010442869122, "step": 21485}, {"loss": 0.08758810758590699, "token_acc": 0.9654958677685951, "grad_norm": 0.5797527432441711, "learning_rate": 7.577362430721761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244636, "epoch": 1.638082170897172, "step": 21490}, {"loss": 0.215606164932251, "token_acc": 0.9304247231862502, "grad_norm": 1.1434603929519653, "learning_rate": 7.576336344939177e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244643, "epoch": 1.6384632975074318, "step": 21495}, {"loss": 0.1450747013092041, "token_acc": 0.9501011463250169, "grad_norm": 0.7495840191841125, "learning_rate": 7.575310111415656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244649, "epoch": 1.6388444241176918, "step": 21500}, {"loss": 0.12653601169586182, "token_acc": 0.9543973941368078, "grad_norm": 0.3513880968093872, "learning_rate": 7.574283730210055e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244659, "epoch": 1.6392255507279518, "step": 21505}, {"loss": 0.10124579668045045, "token_acc": 0.9590661976335145, "grad_norm": 0.6488733887672424, "learning_rate": 7.573257201381228e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244674, "epoch": 1.6396066773382119, "step": 21510}, {"loss": 0.10848412513732911, "token_acc": 0.9616678858814923, "grad_norm": 1.209588646888733, "learning_rate": 7.572230524988039e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244676, "epoch": 1.6399878039484717, "step": 21515}, {"loss": 0.14244494438171387, "token_acc": 0.9506195672276678, "grad_norm": 1.6341767311096191, "learning_rate": 7.571203701089368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244685, "epoch": 1.6403689305587315, "step": 21520}, {"loss": 0.14231444597244264, "token_acc": 0.9588439306358382, "grad_norm": 1.3060890436172485, "learning_rate": 7.570176729744096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244685, "epoch": 1.6407500571689915, "step": 21525}, {"loss": 0.12864036560058595, "token_acc": 0.9534450651769087, "grad_norm": 1.2117254734039307, "learning_rate": 7.569149611011115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2447, "epoch": 1.6411311837792515, "step": 21530}, {"loss": 0.11292275190353393, "token_acc": 0.9655172413793104, "grad_norm": 0.8329848051071167, "learning_rate": 7.568122344949327e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244711, "epoch": 1.6415123103895115, "step": 21535}, {"loss": 0.10160844326019287, "token_acc": 0.9539877300613497, "grad_norm": 0.864229679107666, "learning_rate": 7.56709493161764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244727, "epoch": 1.6418934369997713, "step": 21540}, {"loss": 0.14728922843933107, "token_acc": 0.9496607572773036, "grad_norm": 1.9140585660934448, "learning_rate": 7.566067371074971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24474, "epoch": 1.642274563610031, "step": 21545}, {"loss": 0.145271897315979, "token_acc": 0.9537619699042408, "grad_norm": 1.5366543531417847, "learning_rate": 7.565039663380246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244753, "epoch": 1.6426556902202911, "step": 21550}, {"loss": 0.09180662631988526, "token_acc": 0.9668346610307267, "grad_norm": 0.6745632886886597, "learning_rate": 7.564011808592399e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244763, "epoch": 1.6430368168305511, "step": 21555}, {"loss": 0.09430302381515503, "token_acc": 0.9663710273466372, "grad_norm": 0.6236698031425476, "learning_rate": 7.562983806770377e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244766, "epoch": 1.6434179434408112, "step": 21560}, {"loss": 0.17546656131744384, "token_acc": 0.9476035743298131, "grad_norm": 1.2128705978393555, "learning_rate": 7.561955657973123e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244784, "epoch": 1.643799070051071, "step": 21565}, {"loss": 0.11155133247375489, "token_acc": 0.9590658619784833, "grad_norm": 0.9031055569648743, "learning_rate": 7.560927362259602e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244795, "epoch": 1.6441801966613308, "step": 21570}, {"loss": 0.09753894805908203, "token_acc": 0.9537170263788969, "grad_norm": 1.6655750274658203, "learning_rate": 7.559898919688783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244807, "epoch": 1.6445613232715908, "step": 21575}, {"loss": 0.09476051330566407, "token_acc": 0.9632066276803118, "grad_norm": 1.46859610080719, "learning_rate": 7.558870330319638e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244819, "epoch": 1.6449424498818508, "step": 21580}, {"loss": 0.13042519092559815, "token_acc": 0.952893436838391, "grad_norm": 0.9113039970397949, "learning_rate": 7.557841594211156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244826, "epoch": 1.6453235764921108, "step": 21585}, {"loss": 0.12430645227432251, "token_acc": 0.9559812512736906, "grad_norm": 1.0898996591567993, "learning_rate": 7.556812711422327e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244838, "epoch": 1.6457047031023706, "step": 21590}, {"loss": 0.12870981693267822, "token_acc": 0.9497016197783461, "grad_norm": 0.7254810929298401, "learning_rate": 7.555783682012155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244848, "epoch": 1.6460858297126304, "step": 21595}, {"loss": 0.13001458644866942, "token_acc": 0.9569555302166477, "grad_norm": 0.932910680770874, "learning_rate": 7.554754506039649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244863, "epoch": 1.6464669563228904, "step": 21600}, {"eval_loss": 0.09887096285820007, "eval_token_acc": 0.954588579001265, "eval_runtime": 207.0601, "eval_samples_per_second": 2.56, "eval_steps_per_second": 2.56, "epoch": 1.6464669563228904, "step": 21600}, {"loss": 0.12438379526138306, "token_acc": 0.9543340841386325, "grad_norm": 1.1083868741989136, "learning_rate": 7.553725183563827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244302, "epoch": 1.6468480829331504, "step": 21605}, {"loss": 0.1377341032028198, "token_acc": 0.9521018015441808, "grad_norm": 0.5768564343452454, "learning_rate": 7.552695714643716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244309, "epoch": 1.6472292095434105, "step": 21610}, {"loss": 0.09801957607269288, "token_acc": 0.9567879006121714, "grad_norm": 0.38703370094299316, "learning_rate": 7.551666099338352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244325, "epoch": 1.6476103361536703, "step": 21615}, {"loss": 0.13844904899597169, "token_acc": 0.9550858652575958, "grad_norm": 0.6239352226257324, "learning_rate": 7.55063633770678e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244333, "epoch": 1.64799146276393, "step": 21620}, {"loss": 0.1955648183822632, "token_acc": 0.9281226903178122, "grad_norm": 1.1297690868377686, "learning_rate": 7.549606429808049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244343, "epoch": 1.64837258937419, "step": 21625}, {"loss": 0.12583799362182618, "token_acc": 0.9550173010380623, "grad_norm": 0.5057218670845032, "learning_rate": 7.548576375701222e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24435, "epoch": 1.64875371598445, "step": 21630}, {"loss": 0.1303316593170166, "token_acc": 0.947278589038498, "grad_norm": 0.742306113243103, "learning_rate": 7.547546175445363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244356, "epoch": 1.64913484259471, "step": 21635}, {"loss": 0.12348310947418213, "token_acc": 0.9536571747627024, "grad_norm": 0.7356579899787903, "learning_rate": 7.546515829099557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244363, "epoch": 1.64951596920497, "step": 21640}, {"loss": 0.1148659348487854, "token_acc": 0.9590163934426229, "grad_norm": 1.1050792932510376, "learning_rate": 7.545485336722884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244377, "epoch": 1.6498970958152297, "step": 21645}, {"loss": 0.15727694034576417, "token_acc": 0.94533702677747, "grad_norm": 1.558332920074463, "learning_rate": 7.54445469837444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244383, "epoch": 1.6502782224254897, "step": 21650}, {"loss": 0.12738709449768065, "token_acc": 0.9526274915868496, "grad_norm": 1.296372890472412, "learning_rate": 7.543423914113326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244397, "epoch": 1.6506593490357497, "step": 21655}, {"loss": 0.1318354368209839, "token_acc": 0.9641273679967755, "grad_norm": 1.2693886756896973, "learning_rate": 7.542392983998654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244405, "epoch": 1.6510404756460098, "step": 21660}, {"loss": 0.13069435358047485, "token_acc": 0.9529502506748939, "grad_norm": 0.5409135818481445, "learning_rate": 7.541361908089544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244413, "epoch": 1.6514216022562695, "step": 21665}, {"loss": 0.1214802622795105, "token_acc": 0.9369455006337135, "grad_norm": 1.3257619142532349, "learning_rate": 7.540330686445119e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244427, "epoch": 1.6518027288665293, "step": 21670}, {"loss": 0.10654599666595459, "token_acc": 0.9618723404255319, "grad_norm": 0.9389927983283997, "learning_rate": 7.53929931912452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244432, "epoch": 1.6521838554767894, "step": 21675}, {"loss": 0.11157717704772949, "token_acc": 0.9517730496453901, "grad_norm": 0.710505485534668, "learning_rate": 7.538267806186888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244438, "epoch": 1.6525649820870494, "step": 21680}, {"loss": 0.09394598603248597, "token_acc": 0.9669509594882729, "grad_norm": 0.6849519610404968, "learning_rate": 7.537236147691376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244447, "epoch": 1.6529461086973094, "step": 21685}, {"loss": 0.12443406581878662, "token_acc": 0.9564116985376828, "grad_norm": 0.744071364402771, "learning_rate": 7.536204343697144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244463, "epoch": 1.6533272353075692, "step": 21690}, {"loss": 0.18266754150390624, "token_acc": 0.9325933946940985, "grad_norm": 1.4571157693862915, "learning_rate": 7.535172394263363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244476, "epoch": 1.653708361917829, "step": 21695}, {"loss": 0.1275927186012268, "token_acc": 0.9372801875732708, "grad_norm": 0.6303447484970093, "learning_rate": 7.53414029944921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244491, "epoch": 1.654089488528089, "step": 21700}, {"loss": 0.15408782958984374, "token_acc": 0.9301167911162167, "grad_norm": 1.0497785806655884, "learning_rate": 7.533108059313872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244503, "epoch": 1.654470615138349, "step": 21705}, {"loss": 0.14043618440628053, "token_acc": 0.9475571492604213, "grad_norm": 0.6926878094673157, "learning_rate": 7.532075673916541e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244518, "epoch": 1.654851741748609, "step": 21710}, {"loss": 0.1173696756362915, "token_acc": 0.9551468215553405, "grad_norm": 1.8521127700805664, "learning_rate": 7.531043143316421e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244538, "epoch": 1.6552328683588688, "step": 21715}, {"loss": 0.11866803169250488, "token_acc": 0.9536224617698671, "grad_norm": 1.1897748708724976, "learning_rate": 7.530010467572721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244552, "epoch": 1.6556139949691286, "step": 21720}, {"loss": 0.12303717136383056, "token_acc": 0.9437603993344426, "grad_norm": 1.2291014194488525, "learning_rate": 7.528977646744662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244571, "epoch": 1.6559951215793887, "step": 21725}, {"loss": 0.1278010606765747, "token_acc": 0.9410016977928692, "grad_norm": 0.8321824073791504, "learning_rate": 7.52794468089147e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244587, "epoch": 1.6563762481896487, "step": 21730}, {"loss": 0.10078651905059814, "token_acc": 0.9575535665852997, "grad_norm": 0.8199297785758972, "learning_rate": 7.526911570072382e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244591, "epoch": 1.6567573747999085, "step": 21735}, {"loss": 0.123862886428833, "token_acc": 0.9483216237314598, "grad_norm": 0.8343227505683899, "learning_rate": 7.525878314346643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244603, "epoch": 1.6571385014101685, "step": 21740}, {"loss": 0.15853463411331176, "token_acc": 0.943023854470568, "grad_norm": 0.5537599921226501, "learning_rate": 7.524844913773503e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244617, "epoch": 1.6575196280204283, "step": 21745}, {"loss": 0.1201167106628418, "token_acc": 0.9523184601924759, "grad_norm": 0.8122696876525879, "learning_rate": 7.523811368412223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244626, "epoch": 1.6579007546306883, "step": 21750}, {"loss": 0.10144906044006348, "token_acc": 0.9589983489268025, "grad_norm": 1.562400460243225, "learning_rate": 7.522777678322074e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244642, "epoch": 1.6582818812409483, "step": 21755}, {"loss": 0.16420718431472778, "token_acc": 0.9528225806451613, "grad_norm": 1.2185258865356445, "learning_rate": 7.521743843562335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244652, "epoch": 1.6586630078512081, "step": 21760}, {"loss": 0.10363712310791015, "token_acc": 0.9604093272940781, "grad_norm": 0.5832086205482483, "learning_rate": 7.520709864192286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244665, "epoch": 1.6590441344614681, "step": 21765}, {"loss": 0.15683286190032958, "token_acc": 0.9470213733515234, "grad_norm": 0.8978058099746704, "learning_rate": 7.519675740271223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244678, "epoch": 1.659425261071728, "step": 21770}, {"loss": 0.11647899150848388, "token_acc": 0.9601152226900066, "grad_norm": 0.7217133641242981, "learning_rate": 7.51864147185845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244692, "epoch": 1.659806387681988, "step": 21775}, {"loss": 0.11535542011260987, "token_acc": 0.9439201941224049, "grad_norm": 1.983233094215393, "learning_rate": 7.517607059013278e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24471, "epoch": 1.660187514292248, "step": 21780}, {"loss": 0.1139068365097046, "token_acc": 0.9641756988020537, "grad_norm": 0.7077997326850891, "learning_rate": 7.516572501795023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244714, "epoch": 1.6605686409025078, "step": 21785}, {"loss": 0.12087781429290771, "token_acc": 0.9548387096774194, "grad_norm": 1.2410058975219727, "learning_rate": 7.515537800263013e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244733, "epoch": 1.6609497675127678, "step": 21790}, {"loss": 0.0870409607887268, "token_acc": 0.9525954525954526, "grad_norm": 0.7073180079460144, "learning_rate": 7.514502954476583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244747, "epoch": 1.6613308941230276, "step": 21795}, {"loss": 0.06582088470458984, "token_acc": 0.9633737965676015, "grad_norm": 0.8622203469276428, "learning_rate": 7.51346796449508e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244758, "epoch": 1.6617120207332876, "step": 21800}, {"eval_loss": 0.09743323922157288, "eval_token_acc": 0.9556653213661828, "eval_runtime": 214.5864, "eval_samples_per_second": 2.47, "eval_steps_per_second": 2.47, "epoch": 1.6617120207332876, "step": 21800}, {"loss": 0.1388264298439026, "token_acc": 0.9555004172297422, "grad_norm": 0.9450846314430237, "learning_rate": 7.51243283037785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244184, "epoch": 1.6620931473435476, "step": 21805}, {"loss": 0.15622087717056274, "token_acc": 0.9237192507334687, "grad_norm": 1.2931909561157227, "learning_rate": 7.511397552184257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244198, "epoch": 1.6624742739538074, "step": 21810}, {"loss": 0.10870131254196166, "token_acc": 0.9602771362586605, "grad_norm": 1.2839829921722412, "learning_rate": 7.510362129973669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244207, "epoch": 1.6628554005640672, "step": 21815}, {"loss": 0.12651748657226564, "token_acc": 0.9546433185015071, "grad_norm": 0.7214338779449463, "learning_rate": 7.509326563805464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244211, "epoch": 1.6632365271743272, "step": 21820}, {"loss": 0.11749675273895263, "token_acc": 0.9419400105244694, "grad_norm": 0.8214506506919861, "learning_rate": 7.508290853739024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244224, "epoch": 1.6636176537845873, "step": 21825}, {"loss": 0.14022430181503295, "token_acc": 0.9463383838383839, "grad_norm": 0.7231277823448181, "learning_rate": 7.507254999833744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244239, "epoch": 1.6639987803948473, "step": 21830}, {"loss": 0.09152722358703613, "token_acc": 0.9509632224168126, "grad_norm": 0.4340151846408844, "learning_rate": 7.506219002149024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244254, "epoch": 1.664379907005107, "step": 21835}, {"loss": 0.13155027627944946, "token_acc": 0.9517777777777777, "grad_norm": 1.802154541015625, "learning_rate": 7.505182860744273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244265, "epoch": 1.6647610336153669, "step": 21840}, {"loss": 0.09170042872428893, "token_acc": 0.9651776292648611, "grad_norm": 0.7061432600021362, "learning_rate": 7.504146575678914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244274, "epoch": 1.6651421602256269, "step": 21845}, {"loss": 0.12609469890594482, "token_acc": 0.9466928151185594, "grad_norm": 0.9703760743141174, "learning_rate": 7.503110147012368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244282, "epoch": 1.665523286835887, "step": 21850}, {"loss": 0.11363066434860229, "token_acc": 0.952128939138802, "grad_norm": 0.6366762518882751, "learning_rate": 7.502073574804071e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244294, "epoch": 1.665904413446147, "step": 21855}, {"loss": 0.11495914459228515, "token_acc": 0.9611980939414567, "grad_norm": 0.758083164691925, "learning_rate": 7.501036859113464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244296, "epoch": 1.6662855400564067, "step": 21860}, {"loss": 0.1382339358329773, "token_acc": 0.9483043837882548, "grad_norm": 0.6450614929199219, "learning_rate": 7.500000000000001e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244305, "epoch": 1.6666666666666665, "step": 21865}, {"loss": 0.1344504714012146, "token_acc": 0.9641860465116279, "grad_norm": 0.6210350394248962, "learning_rate": 7.498962997523139e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244313, "epoch": 1.6670477932769265, "step": 21870}, {"loss": 0.11739833354949951, "token_acc": 0.9525641025641025, "grad_norm": 1.373059868812561, "learning_rate": 7.497925851742344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24432, "epoch": 1.6674289198871866, "step": 21875}, {"loss": 0.13731260299682618, "token_acc": 0.9467321496033245, "grad_norm": 1.4337891340255737, "learning_rate": 7.496888562717094e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244336, "epoch": 1.6678100464974466, "step": 21880}, {"loss": 0.12720019817352296, "token_acc": 0.9507766794432116, "grad_norm": 0.6601489186286926, "learning_rate": 7.495851130506874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244344, "epoch": 1.6681911731077064, "step": 21885}, {"loss": 0.11445858478546142, "token_acc": 0.9501607717041801, "grad_norm": 1.2852245569229126, "learning_rate": 7.494813555171174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244356, "epoch": 1.6685722997179662, "step": 21890}, {"loss": 0.1125169038772583, "token_acc": 0.961662817551963, "grad_norm": 1.206202507019043, "learning_rate": 7.493775836769491e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244369, "epoch": 1.6689534263282262, "step": 21895}, {"loss": 0.11994736194610596, "token_acc": 0.9527466036621383, "grad_norm": 0.7558403015136719, "learning_rate": 7.492737975361338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244377, "epoch": 1.6693345529384862, "step": 21900}, {"loss": 0.14391658306121827, "token_acc": 0.9478484565014031, "grad_norm": 0.6452611684799194, "learning_rate": 7.49169997100623e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244375, "epoch": 1.6697156795487462, "step": 21905}, {"loss": 0.16561946868896485, "token_acc": 0.9410161572902472, "grad_norm": 1.3184242248535156, "learning_rate": 7.490661823763691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244382, "epoch": 1.670096806159006, "step": 21910}, {"loss": 0.1015552282333374, "token_acc": 0.962681409813407, "grad_norm": 1.054750680923462, "learning_rate": 7.489623533693255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244398, "epoch": 1.6704779327692658, "step": 21915}, {"loss": 0.07151715755462647, "token_acc": 0.9616893607200554, "grad_norm": 0.628390908241272, "learning_rate": 7.488585100854462e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244411, "epoch": 1.6708590593795258, "step": 21920}, {"loss": 0.1222212553024292, "token_acc": 0.9565650527993624, "grad_norm": 0.993069589138031, "learning_rate": 7.487546525306862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244423, "epoch": 1.6712401859897859, "step": 21925}, {"loss": 0.13150326013565064, "token_acc": 0.9498040397949955, "grad_norm": 0.694136381149292, "learning_rate": 7.486507807110013e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244433, "epoch": 1.6716213126000459, "step": 21930}, {"loss": 0.15290470123291017, "token_acc": 0.9352593108249216, "grad_norm": 1.414908766746521, "learning_rate": 7.485468946323481e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244448, "epoch": 1.6720024392103057, "step": 21935}, {"loss": 0.14979668855667114, "token_acc": 0.9406408094435076, "grad_norm": 1.2081456184387207, "learning_rate": 7.484429943006838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244464, "epoch": 1.6723835658205655, "step": 21940}, {"loss": 0.1436695337295532, "token_acc": 0.9520119970007498, "grad_norm": 0.8129240274429321, "learning_rate": 7.483390797219665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244474, "epoch": 1.6727646924308255, "step": 21945}, {"loss": 0.14666352272033692, "token_acc": 0.954515491100857, "grad_norm": 0.8009470105171204, "learning_rate": 7.482351509021556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244489, "epoch": 1.6731458190410855, "step": 21950}, {"loss": 0.09005358219146728, "token_acc": 0.9607072691552063, "grad_norm": 0.865957498550415, "learning_rate": 7.481312078472107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244502, "epoch": 1.6735269456513455, "step": 21955}, {"loss": 0.07678576111793518, "token_acc": 0.9644424934152765, "grad_norm": 0.8928372263908386, "learning_rate": 7.480272505630926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244514, "epoch": 1.6739080722616053, "step": 21960}, {"loss": 0.10805299282073974, "token_acc": 0.9478131212723658, "grad_norm": 1.0130984783172607, "learning_rate": 7.479232790557624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244531, "epoch": 1.6742891988718651, "step": 21965}, {"loss": 0.09124443531036378, "token_acc": 0.9631200442559469, "grad_norm": 0.8640418648719788, "learning_rate": 7.47819293331183e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244544, "epoch": 1.6746703254821251, "step": 21970}, {"loss": 0.13813778162002563, "token_acc": 0.9439231456657731, "grad_norm": 0.9873640537261963, "learning_rate": 7.477152933953169e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244555, "epoch": 1.6750514520923852, "step": 21975}, {"loss": 0.17924799919128417, "token_acc": 0.9236852510873863, "grad_norm": 2.879181146621704, "learning_rate": 7.476112792541283e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244572, "epoch": 1.6754325787026452, "step": 21980}, {"loss": 0.1089483618736267, "token_acc": 0.95836947094536, "grad_norm": 0.7690970301628113, "learning_rate": 7.47507250913582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244578, "epoch": 1.675813705312905, "step": 21985}, {"loss": 0.1182061791419983, "token_acc": 0.9556701030927836, "grad_norm": 0.8396589756011963, "learning_rate": 7.474032083796434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244583, "epoch": 1.6761948319231648, "step": 21990}, {"loss": 0.13067274093627929, "token_acc": 0.9523026315789473, "grad_norm": 0.7920475006103516, "learning_rate": 7.472991516582788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24459, "epoch": 1.6765759585334248, "step": 21995}, {"loss": 0.10622811317443848, "token_acc": 0.9548540393754243, "grad_norm": 0.6595046520233154, "learning_rate": 7.471950807554556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244601, "epoch": 1.6769570851436848, "step": 22000}, {"eval_loss": 0.09792107343673706, "eval_token_acc": 0.95561261369797, "eval_runtime": 215.4706, "eval_samples_per_second": 2.46, "eval_steps_per_second": 2.46, "epoch": 1.6769570851436848, "step": 22000}, {"loss": 0.11626861095428467, "token_acc": 0.9555086424912278, "grad_norm": 0.8987069129943848, "learning_rate": 7.470909956771415e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244024, "epoch": 1.6773382117539448, "step": 22005}, {"loss": 0.09300388097763061, "token_acc": 0.9652059740686033, "grad_norm": 0.8981941342353821, "learning_rate": 7.469868964293054e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24403, "epoch": 1.6777193383642046, "step": 22010}, {"loss": 0.1261923909187317, "token_acc": 0.9577539398755132, "grad_norm": 1.1720300912857056, "learning_rate": 7.46882783017917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244034, "epoch": 1.6781004649744644, "step": 22015}, {"loss": 0.0931730568408966, "token_acc": 0.9638834257107098, "grad_norm": 0.639354944229126, "learning_rate": 7.467786554489469e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244043, "epoch": 1.6784815915847244, "step": 22020}, {"loss": 0.11817564964294433, "token_acc": 0.9533799533799534, "grad_norm": 0.8716281652450562, "learning_rate": 7.466745137283659e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244053, "epoch": 1.6788627181949844, "step": 22025}, {"loss": 0.122315514087677, "token_acc": 0.9538062691491869, "grad_norm": 0.8675052523612976, "learning_rate": 7.465703578621461e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244066, "epoch": 1.6792438448052445, "step": 22030}, {"loss": 0.16214258670806886, "token_acc": 0.9367179634690062, "grad_norm": 0.0795363038778305, "learning_rate": 7.464661878562608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244073, "epoch": 1.6796249714155043, "step": 22035}, {"loss": 0.09691034555435181, "token_acc": 0.9513205592957017, "grad_norm": 1.2207492589950562, "learning_rate": 7.463620037166834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244092, "epoch": 1.680006098025764, "step": 22040}, {"loss": 0.09470806121826172, "token_acc": 0.961455525606469, "grad_norm": 0.9237349033355713, "learning_rate": 7.462578054493881e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244106, "epoch": 1.680387224636024, "step": 22045}, {"loss": 0.14014571905136108, "token_acc": 0.9586708546867251, "grad_norm": 1.1010830402374268, "learning_rate": 7.461535930603506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244114, "epoch": 1.680768351246284, "step": 22050}, {"loss": 0.1259116768836975, "token_acc": 0.9524044389642417, "grad_norm": 0.662788987159729, "learning_rate": 7.460493665555466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244125, "epoch": 1.681149477856544, "step": 22055}, {"loss": 0.09109730124473572, "token_acc": 0.9641559699685154, "grad_norm": 0.5422541499137878, "learning_rate": 7.459451259409535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24414, "epoch": 1.681530604466804, "step": 22060}, {"loss": 0.1162842869758606, "token_acc": 0.9713954387321222, "grad_norm": 1.3159769773483276, "learning_rate": 7.458408712225486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244154, "epoch": 1.6819117310770637, "step": 22065}, {"loss": 0.12165601253509521, "token_acc": 0.956415620641562, "grad_norm": 2.453864097595215, "learning_rate": 7.457366024063107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24416, "epoch": 1.6822928576873237, "step": 22070}, {"loss": 0.12992022037506104, "token_acc": 0.9413461538461538, "grad_norm": 1.7615344524383545, "learning_rate": 7.456323194982188e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244179, "epoch": 1.6826739842975837, "step": 22075}, {"loss": 0.10277031660079956, "token_acc": 0.9538116591928251, "grad_norm": 1.1103910207748413, "learning_rate": 7.455280225042534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244192, "epoch": 1.6830551109078435, "step": 22080}, {"loss": 0.13763662576675414, "token_acc": 0.946753986332574, "grad_norm": 1.1069875955581665, "learning_rate": 7.454237114303952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244205, "epoch": 1.6834362375181036, "step": 22085}, {"loss": 0.13625700473785402, "token_acc": 0.9449838187702265, "grad_norm": 1.166082739830017, "learning_rate": 7.453193862826262e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244211, "epoch": 1.6838173641283634, "step": 22090}, {"loss": 0.11636195182800294, "token_acc": 0.9438555162936788, "grad_norm": 0.7058888673782349, "learning_rate": 7.452150470669288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244227, "epoch": 1.6841984907386234, "step": 22095}, {"loss": 0.12472261190414428, "token_acc": 0.9321957790749887, "grad_norm": 0.6302140951156616, "learning_rate": 7.451106937892862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244245, "epoch": 1.6845796173488834, "step": 22100}, {"loss": 0.1278509020805359, "token_acc": 0.9501529602303401, "grad_norm": 0.7425611019134521, "learning_rate": 7.45006326455683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244252, "epoch": 1.6849607439591432, "step": 22105}, {"loss": 0.10229157209396363, "token_acc": 0.953646748681898, "grad_norm": 0.5087275505065918, "learning_rate": 7.449019450721039e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244264, "epoch": 1.6853418705694032, "step": 22110}, {"loss": 0.12978110313415528, "token_acc": 0.9477138018628282, "grad_norm": 0.9393994808197021, "learning_rate": 7.447975496445346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244272, "epoch": 1.685722997179663, "step": 22115}, {"loss": 0.1026904821395874, "token_acc": 0.9628865979381444, "grad_norm": 0.9580907225608826, "learning_rate": 7.44693140178962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244288, "epoch": 1.686104123789923, "step": 22120}, {"loss": 0.1538945436477661, "token_acc": 0.9528106786990036, "grad_norm": 1.6943522691726685, "learning_rate": 7.445887166813733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244291, "epoch": 1.686485250400183, "step": 22125}, {"loss": 0.11455568075180053, "token_acc": 0.9568541780447842, "grad_norm": 0.5352094769477844, "learning_rate": 7.444842791577567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244305, "epoch": 1.6868663770104428, "step": 22130}, {"loss": 0.20240287780761718, "token_acc": 0.9296745070087907, "grad_norm": 1.7479264736175537, "learning_rate": 7.443798276141011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244316, "epoch": 1.6872475036207026, "step": 22135}, {"loss": 0.09306294918060302, "token_acc": 0.9613431613431613, "grad_norm": 0.8587324619293213, "learning_rate": 7.442753620563965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244324, "epoch": 1.6876286302309627, "step": 22140}, {"loss": 0.12130887508392334, "token_acc": 0.9505365526492288, "grad_norm": 0.7959678769111633, "learning_rate": 7.441708824906335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244334, "epoch": 1.6880097568412227, "step": 22145}, {"loss": 0.10801413059234619, "token_acc": 0.9649856859722528, "grad_norm": 0.37279853224754333, "learning_rate": 7.440663889228034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244345, "epoch": 1.6883908834514827, "step": 22150}, {"loss": 0.14450722932815552, "token_acc": 0.9488752556237219, "grad_norm": 0.8536563515663147, "learning_rate": 7.439618813588987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244356, "epoch": 1.6887720100617425, "step": 22155}, {"loss": 0.099187570810318, "token_acc": 0.956495022735652, "grad_norm": 0.5939992070198059, "learning_rate": 7.43857359804912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24436, "epoch": 1.6891531366720023, "step": 22160}, {"loss": 0.12114461660385131, "token_acc": 0.9527859746571776, "grad_norm": 0.7151081562042236, "learning_rate": 7.437528242668376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24437, "epoch": 1.6895342632822623, "step": 22165}, {"loss": 0.12722303867340087, "token_acc": 0.9584905660377359, "grad_norm": 1.2903563976287842, "learning_rate": 7.436482747506696e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244379, "epoch": 1.6899153898925223, "step": 22170}, {"loss": 0.11991429328918457, "token_acc": 0.9540487531521434, "grad_norm": 0.6569268107414246, "learning_rate": 7.43543711262404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244385, "epoch": 1.6902965165027823, "step": 22175}, {"loss": 0.07817199230194091, "token_acc": 0.9678270042194093, "grad_norm": 0.8035945892333984, "learning_rate": 7.434391338080367e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2444, "epoch": 1.6906776431130421, "step": 22180}, {"loss": 0.12436277866363525, "token_acc": 0.9518115942028985, "grad_norm": 0.8482024073600769, "learning_rate": 7.433345423935645e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244409, "epoch": 1.691058769723302, "step": 22185}, {"loss": 0.1504884123802185, "token_acc": 0.9470004877255731, "grad_norm": 1.5713300704956055, "learning_rate": 7.432299370249857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244418, "epoch": 1.691439896333562, "step": 22190}, {"loss": 0.11961193084716797, "token_acc": 0.9415041782729805, "grad_norm": 0.15686501562595367, "learning_rate": 7.431253177082987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244432, "epoch": 1.691821022943822, "step": 22195}, {"loss": 0.13513612747192383, "token_acc": 0.9471808165910564, "grad_norm": 1.1346592903137207, "learning_rate": 7.430206844495029e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244446, "epoch": 1.692202149554082, "step": 22200}, {"eval_loss": 0.09610839188098907, "eval_token_acc": 0.955710499367508, "eval_runtime": 211.4938, "eval_samples_per_second": 2.506, "eval_steps_per_second": 2.506, "epoch": 1.692202149554082, "step": 22200}, {"loss": 0.15954294204711914, "token_acc": 0.9551400093534432, "grad_norm": 0.901281476020813, "learning_rate": 7.429160372545988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243894, "epoch": 1.6925832761643418, "step": 22205}, {"loss": 0.10224639177322388, "token_acc": 0.9571903063107393, "grad_norm": 0.8349506855010986, "learning_rate": 7.428113761295871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243892, "epoch": 1.6929644027746016, "step": 22210}, {"loss": 0.11800258159637451, "token_acc": 0.9505441741357235, "grad_norm": 0.31291085481643677, "learning_rate": 7.427067010804697e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243899, "epoch": 1.6933455293848616, "step": 22215}, {"loss": 0.15416754484176637, "token_acc": 0.9528998891762098, "grad_norm": 1.3745156526565552, "learning_rate": 7.426020121132493e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243904, "epoch": 1.6937266559951216, "step": 22220}, {"loss": 0.11397719383239746, "token_acc": 0.9486166007905138, "grad_norm": 1.5538796186447144, "learning_rate": 7.424973092339295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243917, "epoch": 1.6941077826053816, "step": 22225}, {"loss": 0.11091266870498658, "token_acc": 0.9556741227170121, "grad_norm": 0.9324905276298523, "learning_rate": 7.423925924485142e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243927, "epoch": 1.6944889092156414, "step": 22230}, {"loss": 0.09732442498207092, "token_acc": 0.9648780487804878, "grad_norm": 1.007796287536621, "learning_rate": 7.422878617630084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243942, "epoch": 1.6948700358259012, "step": 22235}, {"loss": 0.13282551765441894, "token_acc": 0.9496417197452229, "grad_norm": 0.7965775728225708, "learning_rate": 7.421831171834184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243951, "epoch": 1.6952511624361613, "step": 22240}, {"loss": 0.0819025456905365, "token_acc": 0.9705414012738853, "grad_norm": 0.6971874237060547, "learning_rate": 7.420783587157504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243958, "epoch": 1.6956322890464213, "step": 22245}, {"loss": 0.15140118598937988, "token_acc": 0.9267015706806283, "grad_norm": 0.22044554352760315, "learning_rate": 7.419735863660119e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243975, "epoch": 1.6960134156566813, "step": 22250}, {"loss": 0.12273628711700439, "token_acc": 0.9550765740215542, "grad_norm": 0.818751335144043, "learning_rate": 7.41868800140211e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243975, "epoch": 1.696394542266941, "step": 22255}, {"loss": 0.10792572498321533, "token_acc": 0.9582052858020897, "grad_norm": 0.6140573024749756, "learning_rate": 7.417640000443569e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243994, "epoch": 1.6967756688772009, "step": 22260}, {"loss": 0.13172705173492433, "token_acc": 0.9483933787731256, "grad_norm": 0.8561453223228455, "learning_rate": 7.416591860844593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244002, "epoch": 1.697156795487461, "step": 22265}, {"loss": 0.105859375, "token_acc": 0.9611369639039115, "grad_norm": 0.5916081070899963, "learning_rate": 7.415543582665288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244007, "epoch": 1.697537922097721, "step": 22270}, {"loss": 0.09797279238700866, "token_acc": 0.962390158172232, "grad_norm": 0.6242464780807495, "learning_rate": 7.41449516596577e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244013, "epoch": 1.697919048707981, "step": 22275}, {"loss": 0.1359849214553833, "token_acc": 0.9533471800607126, "grad_norm": 0.4717639684677124, "learning_rate": 7.413446610806156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244021, "epoch": 1.6983001753182407, "step": 22280}, {"loss": 0.16668587923049927, "token_acc": 0.9285110697988845, "grad_norm": 1.0444062948226929, "learning_rate": 7.41239791724658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244031, "epoch": 1.6986813019285005, "step": 22285}, {"loss": 0.11280014514923095, "token_acc": 0.9541971438523162, "grad_norm": 1.4865206480026245, "learning_rate": 7.411349085347177e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244036, "epoch": 1.6990624285387605, "step": 22290}, {"loss": 0.10683449506759643, "token_acc": 0.9624977243764792, "grad_norm": 1.8622158765792847, "learning_rate": 7.410300115168096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244046, "epoch": 1.6994435551490206, "step": 22295}, {"loss": 0.08318931460380555, "token_acc": 0.9667405764966741, "grad_norm": 0.9815818667411804, "learning_rate": 7.409251006769489e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244056, "epoch": 1.6998246817592806, "step": 22300}, {"loss": 0.08081969618797302, "token_acc": 0.9653940611743693, "grad_norm": 0.23504580557346344, "learning_rate": 7.408201760211515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244063, "epoch": 1.7002058083695404, "step": 22305}, {"loss": 0.14219188690185547, "token_acc": 0.9625881631401411, "grad_norm": 1.767377257347107, "learning_rate": 7.407152375554346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244066, "epoch": 1.7005869349798002, "step": 22310}, {"loss": 0.14146239757537843, "token_acc": 0.9434300035803795, "grad_norm": 0.20735037326812744, "learning_rate": 7.406102852858159e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244079, "epoch": 1.7009680615900602, "step": 22315}, {"loss": 0.1335224151611328, "token_acc": 0.9615085536547434, "grad_norm": 1.169028878211975, "learning_rate": 7.40505319218314e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244087, "epoch": 1.7013491882003202, "step": 22320}, {"loss": 0.0711044728755951, "token_acc": 0.9715025906735751, "grad_norm": 0.7683916687965393, "learning_rate": 7.40400339358948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24409, "epoch": 1.7017303148105802, "step": 22325}, {"loss": 0.12271498441696167, "token_acc": 0.9523996852871754, "grad_norm": 0.7115213871002197, "learning_rate": 7.402953457137381e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244106, "epoch": 1.70211144142084, "step": 22330}, {"loss": 0.11673427820205688, "token_acc": 0.9465034965034965, "grad_norm": 1.102571964263916, "learning_rate": 7.401903382887054e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244115, "epoch": 1.7024925680310998, "step": 22335}, {"loss": 0.1211472511291504, "token_acc": 0.9536095908261663, "grad_norm": 0.965969443321228, "learning_rate": 7.400853170898713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244127, "epoch": 1.7028736946413598, "step": 22340}, {"loss": 0.11171510219573974, "token_acc": 0.9608329201784829, "grad_norm": 0.5471957325935364, "learning_rate": 7.399802821232583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24413, "epoch": 1.7032548212516199, "step": 22345}, {"loss": 0.19800195693969727, "token_acc": 0.9483096521313081, "grad_norm": 0.7011304497718811, "learning_rate": 7.3987523339489e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244136, "epoch": 1.7036359478618797, "step": 22350}, {"loss": 0.10736374855041504, "token_acc": 0.956989247311828, "grad_norm": 0.7659358978271484, "learning_rate": 7.3977017091079e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244145, "epoch": 1.7040170744721397, "step": 22355}, {"loss": 0.10072449445724488, "token_acc": 0.9466286799620133, "grad_norm": 1.086513638496399, "learning_rate": 7.396650946769834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244156, "epoch": 1.7043982010823995, "step": 22360}, {"loss": 0.14515092372894287, "token_acc": 0.9467672413793103, "grad_norm": 1.0456907749176025, "learning_rate": 7.39560004699496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244167, "epoch": 1.7047793276926595, "step": 22365}, {"loss": 0.09802674055099488, "token_acc": 0.9653781512605042, "grad_norm": 0.5895593166351318, "learning_rate": 7.394549009843538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24418, "epoch": 1.7051604543029195, "step": 22370}, {"loss": 0.11079618930816651, "token_acc": 0.9591509097395647, "grad_norm": 0.43304556608200073, "learning_rate": 7.393497835375844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244184, "epoch": 1.7055415809131793, "step": 22375}, {"loss": 0.11029367446899414, "token_acc": 0.9527005433045701, "grad_norm": 0.6907081007957458, "learning_rate": 7.392446523652155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244198, "epoch": 1.7059227075234393, "step": 22380}, {"loss": 0.13040144443511964, "token_acc": 0.9475598666262504, "grad_norm": 0.7933582663536072, "learning_rate": 7.391395074732762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244212, "epoch": 1.7063038341336991, "step": 22385}, {"loss": 0.11156731843948364, "token_acc": 0.960822722820764, "grad_norm": 1.1873550415039062, "learning_rate": 7.390343488677958e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244224, "epoch": 1.7066849607439591, "step": 22390}, {"loss": 0.11877338886260987, "token_acc": 0.9545816733067729, "grad_norm": 1.1339590549468994, "learning_rate": 7.389291765548047e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244237, "epoch": 1.7070660873542192, "step": 22395}, {"loss": 0.1170524001121521, "token_acc": 0.9482236298540347, "grad_norm": 1.3135501146316528, "learning_rate": 7.388239905403341e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244251, "epoch": 1.707447213964479, "step": 22400}, {"eval_loss": 0.09982047230005264, "eval_token_acc": 0.9560719233781098, "eval_runtime": 215.3445, "eval_samples_per_second": 2.461, "eval_steps_per_second": 2.461, "epoch": 1.707447213964479, "step": 22400}, {"loss": 0.1549553632736206, "token_acc": 0.9555658327460653, "grad_norm": 0.8551361560821533, "learning_rate": 7.387187908304159e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243693, "epoch": 1.707828340574739, "step": 22405}, {"loss": 0.13076605796813964, "token_acc": 0.9498283098054178, "grad_norm": 0.650139331817627, "learning_rate": 7.386135774310829e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243703, "epoch": 1.7082094671849988, "step": 22410}, {"loss": 0.10523022413253784, "token_acc": 0.9615463284925343, "grad_norm": 1.4320175647735596, "learning_rate": 7.385083503483684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243712, "epoch": 1.7085905937952588, "step": 22415}, {"loss": 0.1581351637840271, "token_acc": 0.9334934417143913, "grad_norm": 1.0035210847854614, "learning_rate": 7.38403109588307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243718, "epoch": 1.7089717204055188, "step": 22420}, {"loss": 0.08971482515335083, "token_acc": 0.9672426205903528, "grad_norm": 0.5308611989021301, "learning_rate": 7.382978551569334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243722, "epoch": 1.7093528470157786, "step": 22425}, {"loss": 0.1550302505493164, "token_acc": 0.9359389895138227, "grad_norm": 0.6965824961662292, "learning_rate": 7.381925870602838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243731, "epoch": 1.7097339736260384, "step": 22430}, {"loss": 0.10501192808151245, "token_acc": 0.9604810996563574, "grad_norm": 0.8184794187545776, "learning_rate": 7.380873053043947e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243747, "epoch": 1.7101151002362984, "step": 22435}, {"loss": 0.10234864950180053, "token_acc": 0.9603639728562615, "grad_norm": 0.9442630410194397, "learning_rate": 7.379820098953036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243752, "epoch": 1.7104962268465584, "step": 22440}, {"loss": 0.13648335933685302, "token_acc": 0.9489330208461824, "grad_norm": 0.7673889398574829, "learning_rate": 7.378767008390483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243758, "epoch": 1.7108773534568185, "step": 22445}, {"loss": 0.09668587446212769, "token_acc": 0.9577647823261858, "grad_norm": 0.955918550491333, "learning_rate": 7.377713781416683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243777, "epoch": 1.7112584800670783, "step": 22450}, {"loss": 0.1915527105331421, "token_acc": 0.9459745762711864, "grad_norm": 1.0928490161895752, "learning_rate": 7.376660418092031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243784, "epoch": 1.711639606677338, "step": 22455}, {"loss": 0.11463272571563721, "token_acc": 0.96133871898442, "grad_norm": 0.7215978503227234, "learning_rate": 7.375606918476931e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243787, "epoch": 1.712020733287598, "step": 22460}, {"loss": 0.10513441562652588, "token_acc": 0.9386642435256701, "grad_norm": 0.9757073521614075, "learning_rate": 7.374553282631803e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243803, "epoch": 1.712401859897858, "step": 22465}, {"loss": 0.12731605768203735, "token_acc": 0.9478054567022538, "grad_norm": 0.3961370587348938, "learning_rate": 7.37349951061706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243807, "epoch": 1.712782986508118, "step": 22470}, {"loss": 0.16317073106765748, "token_acc": 0.9447290793355069, "grad_norm": 1.1209912300109863, "learning_rate": 7.372445602493135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243816, "epoch": 1.713164113118378, "step": 22475}, {"loss": 0.10938284397125245, "token_acc": 0.9523225241016652, "grad_norm": 0.9164186120033264, "learning_rate": 7.371391558320463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243825, "epoch": 1.7135452397286377, "step": 22480}, {"loss": 0.10844937562942505, "token_acc": 0.9636846767050488, "grad_norm": 0.5511829257011414, "learning_rate": 7.370337378159492e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243828, "epoch": 1.7139263663388977, "step": 22485}, {"loss": 0.10638012886047363, "token_acc": 0.9614574898785425, "grad_norm": 0.5276740193367004, "learning_rate": 7.369283062070672e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243835, "epoch": 1.7143074929491577, "step": 22490}, {"loss": 0.12493609189987183, "token_acc": 0.9532785241628233, "grad_norm": 0.5546761751174927, "learning_rate": 7.368228610114462e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243847, "epoch": 1.7146886195594178, "step": 22495}, {"loss": 0.1224939465522766, "token_acc": 0.947860583734769, "grad_norm": 1.475494146347046, "learning_rate": 7.367174022351332e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243859, "epoch": 1.7150697461696776, "step": 22500}, {"loss": 0.13880496025085448, "token_acc": 0.9482412060301507, "grad_norm": 0.7512075304985046, "learning_rate": 7.366119298841758e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243864, "epoch": 1.7154508727799374, "step": 22505}, {"loss": 0.14416224956512452, "token_acc": 0.9470734744707348, "grad_norm": 2.183732271194458, "learning_rate": 7.365064439646219e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24388, "epoch": 1.7158319993901974, "step": 22510}, {"loss": 0.13086936473846436, "token_acc": 0.9456706281833617, "grad_norm": 1.0501822233200073, "learning_rate": 7.364009444825212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243892, "epoch": 1.7162131260004574, "step": 22515}, {"loss": 0.12604081630706787, "token_acc": 0.9485998526160648, "grad_norm": 1.2555909156799316, "learning_rate": 7.362954314439233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243902, "epoch": 1.7165942526107174, "step": 22520}, {"loss": 0.10930535793304444, "token_acc": 0.9562766605728215, "grad_norm": 0.6557461023330688, "learning_rate": 7.36189904854879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243906, "epoch": 1.7169753792209772, "step": 22525}, {"loss": 0.125740122795105, "token_acc": 0.9625580350456792, "grad_norm": 1.1487514972686768, "learning_rate": 7.360843647214397e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243913, "epoch": 1.717356505831237, "step": 22530}, {"loss": 0.13984442949295045, "token_acc": 0.9422590292155509, "grad_norm": 0.6364356279373169, "learning_rate": 7.359788110496576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243925, "epoch": 1.717737632441497, "step": 22535}, {"loss": 0.12949551343917848, "token_acc": 0.950544844928751, "grad_norm": 1.0086814165115356, "learning_rate": 7.358732438455859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243936, "epoch": 1.718118759051757, "step": 22540}, {"loss": 0.08846315145492553, "token_acc": 0.96878612716763, "grad_norm": 0.5343924164772034, "learning_rate": 7.357676631152781e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243937, "epoch": 1.718499885662017, "step": 22545}, {"loss": 0.17456142902374266, "token_acc": 0.9512756570113179, "grad_norm": 1.6344157457351685, "learning_rate": 7.356620688647889e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243943, "epoch": 1.7188810122722769, "step": 22550}, {"loss": 0.11692919731140136, "token_acc": 0.9442128887463931, "grad_norm": 0.452778697013855, "learning_rate": 7.355564611001737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243957, "epoch": 1.7192621388825367, "step": 22555}, {"loss": 0.14423227310180664, "token_acc": 0.9468256525942637, "grad_norm": 0.7473217248916626, "learning_rate": 7.354508398274886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24397, "epoch": 1.7196432654927967, "step": 22560}, {"loss": 0.11053715944290161, "token_acc": 0.9476861167002012, "grad_norm": 0.14946900308132172, "learning_rate": 7.353452050527903e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243979, "epoch": 1.7200243921030567, "step": 22565}, {"loss": 0.09059802293777466, "token_acc": 0.9588945251005773, "grad_norm": 0.6566641926765442, "learning_rate": 7.352395567821368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243989, "epoch": 1.7204055187133167, "step": 22570}, {"loss": 0.12408561706542968, "token_acc": 0.954600241060667, "grad_norm": 0.7004576921463013, "learning_rate": 7.351338950215865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243991, "epoch": 1.7207866453235765, "step": 22575}, {"loss": 0.07770583629608155, "token_acc": 0.9628221377270807, "grad_norm": 0.3545568883419037, "learning_rate": 7.350282197771983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244009, "epoch": 1.7211677719338363, "step": 22580}, {"loss": 0.1329951286315918, "token_acc": 0.949645518996546, "grad_norm": 0.6408150792121887, "learning_rate": 7.349225310550322e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244017, "epoch": 1.7215488985440963, "step": 22585}, {"loss": 0.09994817972183227, "token_acc": 0.9428571428571428, "grad_norm": 0.33633318543434143, "learning_rate": 7.348168288611495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244034, "epoch": 1.7219300251543563, "step": 22590}, {"loss": 0.13830338716506957, "token_acc": 0.9362041467304625, "grad_norm": 0.9432477355003357, "learning_rate": 7.34711113201611e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244049, "epoch": 1.7223111517646164, "step": 22595}, {"loss": 0.13516937494277953, "token_acc": 0.9416904083570751, "grad_norm": 0.8772575855255127, "learning_rate": 7.346053840824796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.244059, "epoch": 1.7226922783748762, "step": 22600}, {"eval_loss": 0.09773040562868118, "eval_token_acc": 0.9564333473887116, "eval_runtime": 214.8438, "eval_samples_per_second": 2.467, "eval_steps_per_second": 2.467, "epoch": 1.7226922783748762, "step": 22600}, {"loss": 0.11407146453857422, "token_acc": 0.9562376807742564, "grad_norm": 1.1286256313323975, "learning_rate": 7.34499641509818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243509, "epoch": 1.723073404985136, "step": 22605}, {"loss": 0.16036680936813355, "token_acc": 0.9532235459004905, "grad_norm": 0.5700121521949768, "learning_rate": 7.343938854896903e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243515, "epoch": 1.723454531595396, "step": 22610}, {"loss": 0.09160689115524293, "token_acc": 0.9585881045025014, "grad_norm": 1.745046615600586, "learning_rate": 7.342881160281606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243531, "epoch": 1.723835658205656, "step": 22615}, {"loss": 0.08871396780014038, "token_acc": 0.9625658731600945, "grad_norm": 0.6543465256690979, "learning_rate": 7.34182333131295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243538, "epoch": 1.724216784815916, "step": 22620}, {"loss": 0.08861007690429687, "token_acc": 0.9605967245013783, "grad_norm": 0.7879281640052795, "learning_rate": 7.340765368051594e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243543, "epoch": 1.7245979114261758, "step": 22625}, {"loss": 0.13329391479492186, "token_acc": 0.9457928802588996, "grad_norm": 1.0128053426742554, "learning_rate": 7.339707270558205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24356, "epoch": 1.7249790380364356, "step": 22630}, {"loss": 0.15672676563262938, "token_acc": 0.9456984667802385, "grad_norm": 0.7527912855148315, "learning_rate": 7.338649038893461e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243571, "epoch": 1.7253601646466956, "step": 22635}, {"loss": 0.15307868719100953, "token_acc": 0.9367588932806324, "grad_norm": 0.8982603549957275, "learning_rate": 7.337590673118049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243584, "epoch": 1.7257412912569556, "step": 22640}, {"loss": 0.13341115713119506, "token_acc": 0.9388532000951701, "grad_norm": 0.6650236248970032, "learning_rate": 7.33653217329266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243594, "epoch": 1.7261224178672157, "step": 22645}, {"loss": 0.10499167442321777, "token_acc": 0.9672565138637313, "grad_norm": 0.9003525376319885, "learning_rate": 7.335473539477992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243595, "epoch": 1.7265035444774754, "step": 22650}, {"loss": 0.11812107563018799, "token_acc": 0.9574383452665075, "grad_norm": 1.134199619293213, "learning_rate": 7.334414771734754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243612, "epoch": 1.7268846710877352, "step": 22655}, {"loss": 0.10398601293563843, "token_acc": 0.963509635096351, "grad_norm": 0.9332714676856995, "learning_rate": 7.333355870123664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243613, "epoch": 1.7272657976979953, "step": 22660}, {"loss": 0.08426344394683838, "token_acc": 0.9603638726445743, "grad_norm": 1.9689130783081055, "learning_rate": 7.332296834705441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243629, "epoch": 1.7276469243082553, "step": 22665}, {"loss": 0.105281662940979, "token_acc": 0.9565525383707202, "grad_norm": 1.2048760652542114, "learning_rate": 7.33123766554082e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24364, "epoch": 1.728028050918515, "step": 22670}, {"loss": 0.13224349021911622, "token_acc": 0.9508141682054726, "grad_norm": 1.0969287157058716, "learning_rate": 7.330178362690536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243646, "epoch": 1.728409177528775, "step": 22675}, {"loss": 0.11445480585098267, "token_acc": 0.9559214020180563, "grad_norm": 0.6675103902816772, "learning_rate": 7.329118926215335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243654, "epoch": 1.728790304139035, "step": 22680}, {"loss": 0.09671254158020019, "token_acc": 0.9566146612524044, "grad_norm": 1.0770151615142822, "learning_rate": 7.328059356175971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243664, "epoch": 1.729171430749295, "step": 22685}, {"loss": 0.0964931607246399, "token_acc": 0.9590513833992095, "grad_norm": 0.6346368789672852, "learning_rate": 7.32699965263321e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24367, "epoch": 1.729552557359555, "step": 22690}, {"loss": 0.13338063955307006, "token_acc": 0.95005291005291, "grad_norm": 1.2033483982086182, "learning_rate": 7.325939815647816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243682, "epoch": 1.7299336839698147, "step": 22695}, {"loss": 0.10261318683624268, "token_acc": 0.9676969092721834, "grad_norm": 0.562324583530426, "learning_rate": 7.324879845280566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243689, "epoch": 1.7303148105800747, "step": 22700}, {"loss": 0.11691510677337646, "token_acc": 0.9555803571428572, "grad_norm": 0.888490617275238, "learning_rate": 7.323819741592248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243702, "epoch": 1.7306959371903345, "step": 22705}, {"loss": 0.10857983827590942, "token_acc": 0.9535832200427268, "grad_norm": 0.8532058000564575, "learning_rate": 7.32275950464365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243713, "epoch": 1.7310770638005946, "step": 22710}, {"loss": 0.08248804807662964, "token_acc": 0.9670908293111014, "grad_norm": 0.8169603943824768, "learning_rate": 7.321699134495575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243723, "epoch": 1.7314581904108546, "step": 22715}, {"loss": 0.11732048988342285, "token_acc": 0.9590747330960854, "grad_norm": 0.683448076248169, "learning_rate": 7.320638631208827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24373, "epoch": 1.7318393170211144, "step": 22720}, {"loss": 0.17483806610107422, "token_acc": 0.9271570014144271, "grad_norm": 0.8265263438224792, "learning_rate": 7.319577994844224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243743, "epoch": 1.7322204436313744, "step": 22725}, {"loss": 0.12077195644378662, "token_acc": 0.9548975727319676, "grad_norm": 0.687034010887146, "learning_rate": 7.318517225462586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243752, "epoch": 1.7326015702416342, "step": 22730}, {"loss": 0.13604586124420165, "token_acc": 0.9445828144458281, "grad_norm": 0.6395902037620544, "learning_rate": 7.317456323124742e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243762, "epoch": 1.7329826968518942, "step": 22735}, {"loss": 0.10479742288589478, "token_acc": 0.9632248939179632, "grad_norm": 0.8575174808502197, "learning_rate": 7.316395287891537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243774, "epoch": 1.7333638234621542, "step": 22740}, {"loss": 0.10418202877044677, "token_acc": 0.9591013824884793, "grad_norm": 1.4003039598464966, "learning_rate": 7.315334119823808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243779, "epoch": 1.733744950072414, "step": 22745}, {"loss": 0.11316345930099488, "token_acc": 0.9491476451892517, "grad_norm": 0.5381571650505066, "learning_rate": 7.314272818982414e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24379, "epoch": 1.7341260766826738, "step": 22750}, {"loss": 0.07108050584793091, "token_acc": 0.974561089215335, "grad_norm": 1.196371078491211, "learning_rate": 7.313211385428211e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243804, "epoch": 1.7345072032929338, "step": 22755}, {"loss": 0.1411288261413574, "token_acc": 0.9570167286245354, "grad_norm": 1.557081937789917, "learning_rate": 7.312149819222072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243812, "epoch": 1.7348883299031939, "step": 22760}, {"loss": 0.11124507188796998, "token_acc": 0.963031045751634, "grad_norm": 0.7887213826179504, "learning_rate": 7.31108812042487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243819, "epoch": 1.7352694565134539, "step": 22765}, {"loss": 0.16476042270660402, "token_acc": 0.9365392195506503, "grad_norm": 0.9597247838973999, "learning_rate": 7.310026289097487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243827, "epoch": 1.7356505831237137, "step": 22770}, {"loss": 0.15317448377609252, "token_acc": 0.9529448426301028, "grad_norm": 0.4580088257789612, "learning_rate": 7.308964325300818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243836, "epoch": 1.7360317097339735, "step": 22775}, {"loss": 0.07210761308670044, "token_acc": 0.9691221879135421, "grad_norm": 0.6057664155960083, "learning_rate": 7.307902229095761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243849, "epoch": 1.7364128363442335, "step": 22780}, {"loss": 0.10301439762115479, "token_acc": 0.9579632918886916, "grad_norm": 0.4495570957660675, "learning_rate": 7.306840000543219e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243863, "epoch": 1.7367939629544935, "step": 22785}, {"loss": 0.14858872890472413, "token_acc": 0.9505547515677761, "grad_norm": 0.9155391454696655, "learning_rate": 7.305777639704109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243874, "epoch": 1.7371750895647535, "step": 22790}, {"loss": 0.1141050934791565, "token_acc": 0.9502099580083984, "grad_norm": 0.7508010268211365, "learning_rate": 7.304715146639351e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243889, "epoch": 1.7375562161750133, "step": 22795}, {"loss": 0.09204410910606384, "token_acc": 0.9593094944512947, "grad_norm": 1.0222442150115967, "learning_rate": 7.303652521409874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243904, "epoch": 1.7379373427852731, "step": 22800}, {"eval_loss": 0.098355732858181, "eval_token_acc": 0.9557255587012831, "eval_runtime": 218.5864, "eval_samples_per_second": 2.425, "eval_steps_per_second": 2.425, "epoch": 1.7379373427852731, "step": 22800}, {"loss": 0.11628261804580689, "token_acc": 0.9559503125292883, "grad_norm": 0.7180343866348267, "learning_rate": 7.302589764076617e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243338, "epoch": 1.7383184693955331, "step": 22805}, {"loss": 0.11225894689559937, "token_acc": 0.9478512795750845, "grad_norm": 0.7704737782478333, "learning_rate": 7.301526874700522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243352, "epoch": 1.7386995960057932, "step": 22810}, {"loss": 0.1656572103500366, "token_acc": 0.9410203479799469, "grad_norm": 0.806197464466095, "learning_rate": 7.30046385334254e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243357, "epoch": 1.7390807226160532, "step": 22815}, {"loss": 0.14788055419921875, "token_acc": 0.9429539678057046, "grad_norm": 1.2615532875061035, "learning_rate": 7.299400700063632e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24337, "epoch": 1.739461849226313, "step": 22820}, {"loss": 0.10777961015701294, "token_acc": 0.9539708265802269, "grad_norm": 1.1928491592407227, "learning_rate": 7.298337414924764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243385, "epoch": 1.7398429758365728, "step": 22825}, {"loss": 0.10058319568634033, "token_acc": 0.965925163944966, "grad_norm": 0.8378008008003235, "learning_rate": 7.29727399798691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243385, "epoch": 1.7402241024468328, "step": 22830}, {"loss": 0.13904275894165039, "token_acc": 0.9481591546970447, "grad_norm": 0.8875649571418762, "learning_rate": 7.296210449311056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243391, "epoch": 1.7406052290570928, "step": 22835}, {"loss": 0.127626633644104, "token_acc": 0.9466917529005958, "grad_norm": 0.8345692157745361, "learning_rate": 7.295146768958186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243398, "epoch": 1.7409863556673528, "step": 22840}, {"loss": 0.16688673496246337, "token_acc": 0.9320235756385069, "grad_norm": 1.2623095512390137, "learning_rate": 7.2940829569893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243413, "epoch": 1.7413674822776126, "step": 22845}, {"loss": 0.10168817043304443, "token_acc": 0.9593926553672316, "grad_norm": 1.1911647319793701, "learning_rate": 7.293019013465403e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243428, "epoch": 1.7417486088878724, "step": 22850}, {"loss": 0.08263660669326782, "token_acc": 0.9608032128514056, "grad_norm": 0.6654606461524963, "learning_rate": 7.291954938447504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243434, "epoch": 1.7421297354981324, "step": 22855}, {"loss": 0.1415271759033203, "token_acc": 0.9386484884410196, "grad_norm": 1.3501689434051514, "learning_rate": 7.290890731996628e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243447, "epoch": 1.7425108621083925, "step": 22860}, {"loss": 0.09292722940444946, "token_acc": 0.9605633802816902, "grad_norm": 1.8662434816360474, "learning_rate": 7.289826394173799e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243453, "epoch": 1.7428919887186525, "step": 22865}, {"loss": 0.12798954248428346, "token_acc": 0.9462607274213323, "grad_norm": 1.0406643152236938, "learning_rate": 7.28876192504005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243464, "epoch": 1.7432731153289123, "step": 22870}, {"loss": 0.1123960018157959, "token_acc": 0.9566514842154861, "grad_norm": 0.9909408092498779, "learning_rate": 7.28769732465643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243467, "epoch": 1.743654241939172, "step": 22875}, {"loss": 0.12252837419509888, "token_acc": 0.9507375053701848, "grad_norm": 0.9126935601234436, "learning_rate": 7.28663259308398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243475, "epoch": 1.744035368549432, "step": 22880}, {"loss": 0.09498708248138428, "token_acc": 0.9610887483227909, "grad_norm": 1.252841591835022, "learning_rate": 7.285567730383766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243484, "epoch": 1.744416495159692, "step": 22885}, {"loss": 0.13110564947128295, "token_acc": 0.9596258000984736, "grad_norm": 0.7043788433074951, "learning_rate": 7.284502736616847e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243493, "epoch": 1.7447976217699521, "step": 22890}, {"loss": 0.0880037784576416, "token_acc": 0.9693769799366421, "grad_norm": 0.6210152506828308, "learning_rate": 7.283437611844298e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243501, "epoch": 1.745178748380212, "step": 22895}, {"loss": 0.11742782592773438, "token_acc": 0.9519945909398242, "grad_norm": 1.2591511011123657, "learning_rate": 7.282372356127198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243512, "epoch": 1.7455598749904717, "step": 22900}, {"loss": 0.15707681179046631, "token_acc": 0.9381036861817466, "grad_norm": 1.084974765777588, "learning_rate": 7.281306969526635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24352, "epoch": 1.7459410016007317, "step": 22905}, {"loss": 0.1408408522605896, "token_acc": 0.9566384472434442, "grad_norm": 0.9754509329795837, "learning_rate": 7.280241452103704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243527, "epoch": 1.7463221282109918, "step": 22910}, {"loss": 0.11025205850601197, "token_acc": 0.9523207513093733, "grad_norm": 1.4260382652282715, "learning_rate": 7.279175803919508e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243534, "epoch": 1.7467032548212518, "step": 22915}, {"loss": 0.10179712772369384, "token_acc": 0.9624716920090586, "grad_norm": 0.8159790635108948, "learning_rate": 7.278110025035157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243546, "epoch": 1.7470843814315116, "step": 22920}, {"loss": 0.16485157012939453, "token_acc": 0.9351598173515981, "grad_norm": 1.6694326400756836, "learning_rate": 7.277044115511764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243559, "epoch": 1.7474655080417714, "step": 22925}, {"loss": 0.17536184787750245, "token_acc": 0.9230359520639148, "grad_norm": 1.1610618829727173, "learning_rate": 7.275978075410461e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243573, "epoch": 1.7478466346520314, "step": 22930}, {"loss": 0.1388644814491272, "token_acc": 0.9512663085188028, "grad_norm": 1.0727465152740479, "learning_rate": 7.274911904792376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243583, "epoch": 1.7482277612622914, "step": 22935}, {"loss": 0.10299206972122192, "token_acc": 0.9579764453961456, "grad_norm": 0.8794253468513489, "learning_rate": 7.273845603718651e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243596, "epoch": 1.7486088878725514, "step": 22940}, {"loss": 0.11765452623367309, "token_acc": 0.9559085751337332, "grad_norm": 0.5958268046379089, "learning_rate": 7.272779172250431e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243599, "epoch": 1.7489900144828112, "step": 22945}, {"loss": 0.15339465141296388, "token_acc": 0.936069827789573, "grad_norm": 1.1148196458816528, "learning_rate": 7.271712610448874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24361, "epoch": 1.749371141093071, "step": 22950}, {"loss": 0.10864996910095215, "token_acc": 0.9565391548167435, "grad_norm": 1.299093246459961, "learning_rate": 7.270645918375141e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24362, "epoch": 1.749752267703331, "step": 22955}, {"loss": 0.12369999885559083, "token_acc": 0.9577613516367476, "grad_norm": 1.5057036876678467, "learning_rate": 7.2695790960904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243632, "epoch": 1.750133394313591, "step": 22960}, {"loss": 0.08364887237548828, "token_acc": 0.9532114707362066, "grad_norm": 0.8272818326950073, "learning_rate": 7.268512143655832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243644, "epoch": 1.750514520923851, "step": 22965}, {"loss": 0.12007169723510742, "token_acc": 0.9567030784508441, "grad_norm": 0.7223031520843506, "learning_rate": 7.267445061132618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243656, "epoch": 1.7508956475341109, "step": 22970}, {"loss": 0.11781548261642456, "token_acc": 0.9577586206896552, "grad_norm": 1.2888460159301758, "learning_rate": 7.266377848581953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243672, "epoch": 1.7512767741443707, "step": 22975}, {"loss": 0.1283315896987915, "token_acc": 0.9473393481863377, "grad_norm": 0.9592128396034241, "learning_rate": 7.265310506065035e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24368, "epoch": 1.7516579007546307, "step": 22980}, {"loss": 0.10888078212738037, "token_acc": 0.9611595301250474, "grad_norm": 0.6162494421005249, "learning_rate": 7.264243033643073e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24369, "epoch": 1.7520390273648907, "step": 22985}, {"loss": 0.11367861032485962, "token_acc": 0.9567632850241546, "grad_norm": 0.7538749575614929, "learning_rate": 7.26317543137728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243699, "epoch": 1.7524201539751505, "step": 22990}, {"loss": 0.14430720806121827, "token_acc": 0.946441672780631, "grad_norm": 0.8800696730613708, "learning_rate": 7.262107699328877e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243712, "epoch": 1.7528012805854105, "step": 22995}, {"loss": 0.10905044078826905, "token_acc": 0.9601913548607551, "grad_norm": 0.6020234227180481, "learning_rate": 7.261039837559096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243723, "epoch": 1.7531824071956703, "step": 23000}, {"eval_loss": 0.09414472430944443, "eval_token_acc": 0.9572616107463405, "eval_runtime": 217.1729, "eval_samples_per_second": 2.44, "eval_steps_per_second": 2.44, "epoch": 1.7531824071956703, "step": 23000}, {"loss": 0.08677439689636231, "token_acc": 0.9580854744125217, "grad_norm": 0.5681965947151184, "learning_rate": 7.259971846129175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243167, "epoch": 1.7535635338059303, "step": 23005}, {"loss": 0.12059934139251709, "token_acc": 0.9505718954248366, "grad_norm": 0.8315051198005676, "learning_rate": 7.258903725100352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243182, "epoch": 1.7539446604161903, "step": 23010}, {"loss": 0.10595240592956542, "token_acc": 0.9564787339268052, "grad_norm": 1.5355359315872192, "learning_rate": 7.257835474533884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243202, "epoch": 1.7543257870264501, "step": 23015}, {"loss": 0.17497695684432985, "token_acc": 0.9359504132231405, "grad_norm": 0.6026448011398315, "learning_rate": 7.25676709449103e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243208, "epoch": 1.7547069136367102, "step": 23020}, {"loss": 0.08585066199302674, "token_acc": 0.9586776859504132, "grad_norm": 0.8504495620727539, "learning_rate": 7.255698585033057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243217, "epoch": 1.75508804024697, "step": 23025}, {"loss": 0.12331409454345703, "token_acc": 0.9616561289006731, "grad_norm": 0.9149502515792847, "learning_rate": 7.254629946221236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243227, "epoch": 1.75546916685723, "step": 23030}, {"loss": 0.1307743787765503, "token_acc": 0.9593856655290103, "grad_norm": 1.2212228775024414, "learning_rate": 7.253561178116851e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243232, "epoch": 1.75585029346749, "step": 23035}, {"loss": 0.11745294332504272, "token_acc": 0.9514149114872723, "grad_norm": 0.5449307560920715, "learning_rate": 7.252492280781191e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243239, "epoch": 1.7562314200777498, "step": 23040}, {"loss": 0.12032512426376343, "token_acc": 0.9535319467865843, "grad_norm": 0.7834076881408691, "learning_rate": 7.25142325427555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243249, "epoch": 1.7566125466880096, "step": 23045}, {"loss": 0.12421555519104004, "token_acc": 0.9611127729584206, "grad_norm": 1.2563124895095825, "learning_rate": 7.250354098661234e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243261, "epoch": 1.7569936732982696, "step": 23050}, {"loss": 0.10142576694488525, "token_acc": 0.9564187588820464, "grad_norm": 0.7794398665428162, "learning_rate": 7.249284813999554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24327, "epoch": 1.7573747999085296, "step": 23055}, {"loss": 0.11984881162643432, "token_acc": 0.9533397251518057, "grad_norm": 1.3774030208587646, "learning_rate": 7.248215400351826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243281, "epoch": 1.7577559265187896, "step": 23060}, {"loss": 0.14329617023468016, "token_acc": 0.9471879286694102, "grad_norm": 1.6078723669052124, "learning_rate": 7.24714585777938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243286, "epoch": 1.7581370531290494, "step": 23065}, {"loss": 0.11465667486190796, "token_acc": 0.9494794856093081, "grad_norm": 1.7443180084228516, "learning_rate": 7.246076186343546e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243302, "epoch": 1.7585181797393092, "step": 23070}, {"loss": 0.10880122184753419, "token_acc": 0.964403427818062, "grad_norm": 0.812034010887146, "learning_rate": 7.245006386105666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243306, "epoch": 1.7588993063495693, "step": 23075}, {"loss": 0.1273535132408142, "token_acc": 0.9467826086956522, "grad_norm": 0.910630464553833, "learning_rate": 7.243936457127088e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243321, "epoch": 1.7592804329598293, "step": 23080}, {"loss": 0.06961270570755004, "token_acc": 0.9705756929637527, "grad_norm": 0.9725729823112488, "learning_rate": 7.242866399469167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243327, "epoch": 1.7596615595700893, "step": 23085}, {"loss": 0.12175641059875489, "token_acc": 0.9611266294227188, "grad_norm": 1.0774139165878296, "learning_rate": 7.241796213193266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243336, "epoch": 1.760042686180349, "step": 23090}, {"loss": 0.127077317237854, "token_acc": 0.9515669515669516, "grad_norm": 1.4455894231796265, "learning_rate": 7.240725898360756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243348, "epoch": 1.7604238127906089, "step": 23095}, {"loss": 0.12384322881698609, "token_acc": 0.9503035754441196, "grad_norm": 0.6113494038581848, "learning_rate": 7.239655455033014e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243358, "epoch": 1.760804939400869, "step": 23100}, {"loss": 0.07339001297950745, "token_acc": 0.9707668090847763, "grad_norm": 0.5890191793441772, "learning_rate": 7.238584883271425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243367, "epoch": 1.761186066011129, "step": 23105}, {"loss": 0.1056405782699585, "token_acc": 0.9543881083282427, "grad_norm": 0.6603773236274719, "learning_rate": 7.23751418313738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24337, "epoch": 1.761567192621389, "step": 23110}, {"loss": 0.09902899861335754, "token_acc": 0.9537933817594835, "grad_norm": 0.9181042313575745, "learning_rate": 7.236443354692281e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24338, "epoch": 1.7619483192316487, "step": 23115}, {"loss": 0.1574738383293152, "token_acc": 0.9408666507062485, "grad_norm": 0.8303046226501465, "learning_rate": 7.235372397997534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243392, "epoch": 1.7623294458419085, "step": 23120}, {"loss": 0.191995108127594, "token_acc": 0.9344384429130191, "grad_norm": 0.9477664232254028, "learning_rate": 7.234301313114553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243403, "epoch": 1.7627105724521686, "step": 23125}, {"loss": 0.10680942535400391, "token_acc": 0.9594699061292103, "grad_norm": 1.047004222869873, "learning_rate": 7.23323010010476e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243406, "epoch": 1.7630916990624286, "step": 23130}, {"loss": 0.059962570667266846, "token_acc": 0.9649621212121212, "grad_norm": 0.9576881527900696, "learning_rate": 7.232158759029585e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243423, "epoch": 1.7634728256726886, "step": 23135}, {"loss": 0.11216645240783692, "token_acc": 0.9584812623274162, "grad_norm": 0.9916583895683289, "learning_rate": 7.231087289950464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243421, "epoch": 1.7638539522829484, "step": 23140}, {"loss": 0.11570451259613038, "token_acc": 0.9514809590973202, "grad_norm": 0.8796592354774475, "learning_rate": 7.230015692928838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243434, "epoch": 1.7642350788932082, "step": 23145}, {"loss": 0.08872859477996826, "token_acc": 0.952753108348135, "grad_norm": 1.0857036113739014, "learning_rate": 7.228943968026161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243449, "epoch": 1.7646162055034682, "step": 23150}, {"loss": 0.11091675758361816, "token_acc": 0.954639786540172, "grad_norm": 0.8274242877960205, "learning_rate": 7.227872115303893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243453, "epoch": 1.7649973321137282, "step": 23155}, {"loss": 0.12477505207061768, "token_acc": 0.9474760520934238, "grad_norm": 0.8879777193069458, "learning_rate": 7.226800134823497e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24345, "epoch": 1.7653784587239882, "step": 23160}, {"loss": 0.12279442548751832, "token_acc": 0.9539078156312625, "grad_norm": 0.6571097373962402, "learning_rate": 7.225728026646445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24346, "epoch": 1.765759585334248, "step": 23165}, {"loss": 0.15820497274398804, "token_acc": 0.9555900621118012, "grad_norm": 0.4126579165458679, "learning_rate": 7.224655790834223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243467, "epoch": 1.7661407119445078, "step": 23170}, {"loss": 0.10529749393463135, "token_acc": 0.9627859832030119, "grad_norm": 0.7036758661270142, "learning_rate": 7.223583427448313e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24347, "epoch": 1.7665218385547679, "step": 23175}, {"loss": 0.08192024230957032, "token_acc": 0.9645124716553288, "grad_norm": 0.5270026922225952, "learning_rate": 7.222510936550211e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243474, "epoch": 1.7669029651650279, "step": 23180}, {"loss": 0.11344774961471557, "token_acc": 0.9497446922870196, "grad_norm": 0.9647880792617798, "learning_rate": 7.221438318201422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243488, "epoch": 1.767284091775288, "step": 23185}, {"loss": 0.13512378931045532, "token_acc": 0.9553140096618358, "grad_norm": 0.6918342709541321, "learning_rate": 7.220365572463454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243492, "epoch": 1.7676652183855477, "step": 23190}, {"loss": 0.1122437596321106, "token_acc": 0.9508689839572193, "grad_norm": 0.819002091884613, "learning_rate": 7.219292699397824e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2435, "epoch": 1.7680463449958075, "step": 23195}, {"loss": 0.08016595840454102, "token_acc": 0.9663516939386956, "grad_norm": 0.7933727502822876, "learning_rate": 7.218219699066058e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243512, "epoch": 1.7684274716060675, "step": 23200}, {"eval_loss": 0.09565918147563934, "eval_token_acc": 0.9568023010662008, "eval_runtime": 219.1798, "eval_samples_per_second": 2.418, "eval_steps_per_second": 2.418, "epoch": 1.7684274716060675, "step": 23200}, {"loss": 0.08698221445083618, "token_acc": 0.9569890885466653, "grad_norm": 0.5952458381652832, "learning_rate": 7.217146571529684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242969, "epoch": 1.7688085982163275, "step": 23205}, {"loss": 0.0924514353275299, "token_acc": 0.9563352826510721, "grad_norm": 0.40517449378967285, "learning_rate": 7.216073316850243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242978, "epoch": 1.7691897248265875, "step": 23210}, {"loss": 0.08079149127006531, "token_acc": 0.9659300184162063, "grad_norm": 0.04934883862733841, "learning_rate": 7.21499993508928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242985, "epoch": 1.7695708514368473, "step": 23215}, {"loss": 0.11921541690826416, "token_acc": 0.9527539161192522, "grad_norm": 0.7241352796554565, "learning_rate": 7.213926426308352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242998, "epoch": 1.7699519780471071, "step": 23220}, {"loss": 0.11828763484954834, "token_acc": 0.9577960140679953, "grad_norm": 0.6519904136657715, "learning_rate": 7.212852790569017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243004, "epoch": 1.7703331046573672, "step": 23225}, {"loss": 0.13674209117889405, "token_acc": 0.9495738636363636, "grad_norm": 1.0055242776870728, "learning_rate": 7.211779027932843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243014, "epoch": 1.7707142312676272, "step": 23230}, {"loss": 0.15468508005142212, "token_acc": 0.9463649046659433, "grad_norm": 0.5549229383468628, "learning_rate": 7.210705138461406e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24302, "epoch": 1.7710953578778872, "step": 23235}, {"loss": 0.13295700550079345, "token_acc": 0.9537456008044244, "grad_norm": 1.5740801095962524, "learning_rate": 7.209631122216288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243026, "epoch": 1.771476484488147, "step": 23240}, {"loss": 0.1277254819869995, "token_acc": 0.9458879106721065, "grad_norm": 1.0270901918411255, "learning_rate": 7.20855697925908e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243038, "epoch": 1.7718576110984068, "step": 23245}, {"loss": 0.09956609010696411, "token_acc": 0.9543349626961667, "grad_norm": 1.0498064756393433, "learning_rate": 7.207482709651376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243044, "epoch": 1.7722387377086668, "step": 23250}, {"loss": 0.1446032404899597, "token_acc": 0.9483130750880382, "grad_norm": 0.7302316427230835, "learning_rate": 7.206408313454784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243038, "epoch": 1.7726198643189268, "step": 23255}, {"loss": 0.13976681232452393, "token_acc": 0.9527917189460476, "grad_norm": 0.7447216510772705, "learning_rate": 7.205333790730913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243043, "epoch": 1.7730009909291868, "step": 23260}, {"loss": 0.12363839149475098, "token_acc": 0.9577739809616793, "grad_norm": 0.5818156003952026, "learning_rate": 7.204259141541385e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243053, "epoch": 1.7733821175394466, "step": 23265}, {"loss": 0.07917478084564208, "token_acc": 0.9676091133681032, "grad_norm": 0.643611490726471, "learning_rate": 7.203184365947823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243064, "epoch": 1.7737632441497064, "step": 23270}, {"loss": 0.10141603946685791, "token_acc": 0.9605380168963984, "grad_norm": 0.7010123133659363, "learning_rate": 7.202109464011861e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243061, "epoch": 1.7741443707599664, "step": 23275}, {"loss": 0.11140587329864501, "token_acc": 0.9628893306825712, "grad_norm": 0.8204020857810974, "learning_rate": 7.201034435795141e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243075, "epoch": 1.7745254973702265, "step": 23280}, {"loss": 0.09179417490959167, "token_acc": 0.9626607319485658, "grad_norm": 0.4217594563961029, "learning_rate": 7.19995928135931e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243083, "epoch": 1.7749066239804863, "step": 23285}, {"loss": 0.10547810792922974, "token_acc": 0.9581646423751687, "grad_norm": 1.4727509021759033, "learning_rate": 7.198884000766023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24309, "epoch": 1.7752877505907463, "step": 23290}, {"loss": 0.10643990039825439, "token_acc": 0.9639119451461566, "grad_norm": 0.7903043627738953, "learning_rate": 7.197808594076944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243104, "epoch": 1.775668877201006, "step": 23295}, {"loss": 0.10060263872146606, "token_acc": 0.9589833920483141, "grad_norm": 0.5719894170761108, "learning_rate": 7.19673306135374e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243103, "epoch": 1.776050003811266, "step": 23300}, {"loss": 0.09506222605705261, "token_acc": 0.956232159847764, "grad_norm": 0.7787784337997437, "learning_rate": 7.19565740265809e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243117, "epoch": 1.7764311304215261, "step": 23305}, {"loss": 0.09597482085227967, "token_acc": 0.963871209284912, "grad_norm": 2.13336443901062, "learning_rate": 7.194581618051677e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243121, "epoch": 1.776812257031786, "step": 23310}, {"loss": 0.13365068435668945, "token_acc": 0.9446043165467626, "grad_norm": 0.5784302353858948, "learning_rate": 7.193505707596191e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243134, "epoch": 1.777193383642046, "step": 23315}, {"loss": 0.12638185024261475, "token_acc": 0.9634727368978295, "grad_norm": 0.1726435273885727, "learning_rate": 7.192429671353333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243144, "epoch": 1.7775745102523057, "step": 23320}, {"loss": 0.10031934976577758, "token_acc": 0.9567063981367311, "grad_norm": 0.6785112023353577, "learning_rate": 7.191353509384806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243144, "epoch": 1.7779556368625657, "step": 23325}, {"loss": 0.1037831425666809, "token_acc": 0.9607260726072607, "grad_norm": 0.8125603795051575, "learning_rate": 7.190277221752326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243156, "epoch": 1.7783367634728258, "step": 23330}, {"loss": 0.08221933841705323, "token_acc": 0.9666725757844353, "grad_norm": 0.5362970232963562, "learning_rate": 7.18920080851761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243162, "epoch": 1.7787178900830856, "step": 23335}, {"loss": 0.08355308175086976, "token_acc": 0.9683014354066986, "grad_norm": 1.1072980165481567, "learning_rate": 7.188124269742388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243169, "epoch": 1.7790990166933456, "step": 23340}, {"loss": 0.05584652423858642, "token_acc": 0.9751499571550986, "grad_norm": 0.11157568544149399, "learning_rate": 7.187047605488392e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24318, "epoch": 1.7794801433036054, "step": 23345}, {"loss": 0.09777764678001404, "token_acc": 0.9572192513368984, "grad_norm": 0.5501653552055359, "learning_rate": 7.185970815817367e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24319, "epoch": 1.7798612699138654, "step": 23350}, {"loss": 0.16942485570907592, "token_acc": 0.92282489989079, "grad_norm": 1.5019243955612183, "learning_rate": 7.184893900791058e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243203, "epoch": 1.7802423965241254, "step": 23355}, {"loss": 0.09031522870063782, "token_acc": 0.9657065893079154, "grad_norm": 1.0951775312423706, "learning_rate": 7.183816860471224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243204, "epoch": 1.7806235231343852, "step": 23360}, {"loss": 0.13735790252685548, "token_acc": 0.9451677516274412, "grad_norm": 1.0967986583709717, "learning_rate": 7.182739694919627e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243206, "epoch": 1.781004649744645, "step": 23365}, {"loss": 0.10652425289154052, "token_acc": 0.9481865284974094, "grad_norm": 0.7094708681106567, "learning_rate": 7.181662404198037e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243222, "epoch": 1.781385776354905, "step": 23370}, {"loss": 0.1577918767929077, "token_acc": 0.9404404404404404, "grad_norm": 1.0670284032821655, "learning_rate": 7.180584988368233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24323, "epoch": 1.781766902965165, "step": 23375}, {"loss": 0.0859815776348114, "token_acc": 0.9677858439201452, "grad_norm": 0.5655043721199036, "learning_rate": 7.179507447491999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24324, "epoch": 1.782148029575425, "step": 23380}, {"loss": 0.12107913494110108, "token_acc": 0.9538490999617005, "grad_norm": 0.7330759763717651, "learning_rate": 7.178429781631126e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243248, "epoch": 1.7825291561856849, "step": 23385}, {"loss": 0.10400419235229492, "token_acc": 0.9640005806357962, "grad_norm": 0.9121013879776001, "learning_rate": 7.177351990847415e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24325, "epoch": 1.7829102827959447, "step": 23390}, {"loss": 0.08179395794868469, "token_acc": 0.9664981036662452, "grad_norm": 2.065025568008423, "learning_rate": 7.176274075202673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243255, "epoch": 1.7832914094062047, "step": 23395}, {"loss": 0.12859307527542113, "token_acc": 0.9399602385685885, "grad_norm": 1.0746972560882568, "learning_rate": 7.17519603475871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243266, "epoch": 1.7836725360164647, "step": 23400}, {"eval_loss": 0.09479209035634995, "eval_token_acc": 0.9573745557496537, "eval_runtime": 217.8913, "eval_samples_per_second": 2.432, "eval_steps_per_second": 2.432, "epoch": 1.7836725360164647, "step": 23400}, {"loss": 0.10693862438201904, "token_acc": 0.9575889166085513, "grad_norm": 0.6006884574890137, "learning_rate": 7.174117869577349e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242724, "epoch": 1.7840536626267247, "step": 23405}, {"loss": 0.1768411159515381, "token_acc": 0.9416859122401847, "grad_norm": 1.5353587865829468, "learning_rate": 7.173039579720417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242736, "epoch": 1.7844347892369845, "step": 23410}, {"loss": 0.07659238576889038, "token_acc": 0.96303180503924, "grad_norm": 0.7948404550552368, "learning_rate": 7.171961165249749e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242748, "epoch": 1.7848159158472443, "step": 23415}, {"loss": 0.09676730632781982, "token_acc": 0.9710192119830674, "grad_norm": 1.3815462589263916, "learning_rate": 7.170882626227187e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242762, "epoch": 1.7851970424575043, "step": 23420}, {"loss": 0.12441442012786866, "token_acc": 0.9499553172475425, "grad_norm": 0.7117595076560974, "learning_rate": 7.16980396271458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24277, "epoch": 1.7855781690677643, "step": 23425}, {"loss": 0.09868787527084351, "token_acc": 0.9523809523809523, "grad_norm": 0.855291485786438, "learning_rate": 7.168725174773788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242787, "epoch": 1.7859592956780244, "step": 23430}, {"loss": 0.08391751050949096, "token_acc": 0.9652442795299938, "grad_norm": 0.6835452914237976, "learning_rate": 7.16764626246667e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242785, "epoch": 1.7863404222882842, "step": 23435}, {"loss": 0.11715716123580933, "token_acc": 0.9398474178403756, "grad_norm": 0.8185908198356628, "learning_rate": 7.166567225855096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242797, "epoch": 1.786721548898544, "step": 23440}, {"loss": 0.13731250762939454, "token_acc": 0.9387893134934054, "grad_norm": 0.7956842184066772, "learning_rate": 7.165488065000949e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242812, "epoch": 1.787102675508804, "step": 23445}, {"loss": 0.18375785350799562, "token_acc": 0.9484726936130824, "grad_norm": 0.7758172750473022, "learning_rate": 7.164408779966109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242823, "epoch": 1.787483802119064, "step": 23450}, {"loss": 0.13761688470840455, "token_acc": 0.9515151515151515, "grad_norm": 0.6243519186973572, "learning_rate": 7.163329370812469e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242837, "epoch": 1.787864928729324, "step": 23455}, {"loss": 0.08399779200553895, "token_acc": 0.9648829431438127, "grad_norm": 0.9324338436126709, "learning_rate": 7.162249837601929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242846, "epoch": 1.7882460553395838, "step": 23460}, {"loss": 0.10786420106887817, "token_acc": 0.9655797101449275, "grad_norm": 0.6019797325134277, "learning_rate": 7.161170180396394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24285, "epoch": 1.7886271819498436, "step": 23465}, {"loss": 0.07087835669517517, "token_acc": 0.9666827619507484, "grad_norm": 0.6338000297546387, "learning_rate": 7.160090399257778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242861, "epoch": 1.7890083085601036, "step": 23470}, {"loss": 0.15308600664138794, "token_acc": 0.9308789027251398, "grad_norm": 0.8183435797691345, "learning_rate": 7.159010494248004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242872, "epoch": 1.7893894351703636, "step": 23475}, {"loss": 0.13148143291473388, "token_acc": 0.9511518771331058, "grad_norm": 0.8098626136779785, "learning_rate": 7.157930465428994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242883, "epoch": 1.7897705617806237, "step": 23480}, {"loss": 0.09728869199752807, "token_acc": 0.9621671635653336, "grad_norm": 0.4449446499347687, "learning_rate": 7.156850312862689e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242878, "epoch": 1.7901516883908835, "step": 23485}, {"loss": 0.09480289816856384, "token_acc": 0.9573067119796091, "grad_norm": 0.7426866292953491, "learning_rate": 7.155770036611026e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242889, "epoch": 1.7905328150011433, "step": 23490}, {"loss": 0.14140409231185913, "token_acc": 0.9329954954954955, "grad_norm": 0.7189920544624329, "learning_rate": 7.154689636735956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242905, "epoch": 1.7909139416114033, "step": 23495}, {"loss": 0.12610199451446533, "token_acc": 0.9439212328767124, "grad_norm": 0.9056515097618103, "learning_rate": 7.153609113299434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24292, "epoch": 1.7912950682216633, "step": 23500}, {"loss": 0.16044986248016357, "token_acc": 0.9368327402135231, "grad_norm": 0.8275067806243896, "learning_rate": 7.152528466363423e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242931, "epoch": 1.7916761948319233, "step": 23505}, {"loss": 0.09610059857368469, "token_acc": 0.9609440854172521, "grad_norm": 0.7123541235923767, "learning_rate": 7.151447695989894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242943, "epoch": 1.792057321442183, "step": 23510}, {"loss": 0.12009236812591553, "token_acc": 0.9565454545454546, "grad_norm": 1.041144847869873, "learning_rate": 7.150366802240823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242948, "epoch": 1.792438448052443, "step": 23515}, {"loss": 0.12980775833129882, "token_acc": 0.9606924643584521, "grad_norm": 0.6407527923583984, "learning_rate": 7.149285785178196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242955, "epoch": 1.792819574662703, "step": 23520}, {"loss": 0.10800182819366455, "token_acc": 0.9553039332538736, "grad_norm": 0.9046735167503357, "learning_rate": 7.148204644864001e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242964, "epoch": 1.793200701272963, "step": 23525}, {"loss": 0.10586364269256592, "token_acc": 0.9621182837263239, "grad_norm": 0.5577616095542908, "learning_rate": 7.14712338136024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242972, "epoch": 1.793581827883223, "step": 23530}, {"loss": 0.08933534622192382, "token_acc": 0.9465596330275229, "grad_norm": 0.677080512046814, "learning_rate": 7.146041994728917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242985, "epoch": 1.7939629544934828, "step": 23535}, {"loss": 0.11652226448059082, "token_acc": 0.9635312430509229, "grad_norm": 1.2392351627349854, "learning_rate": 7.144960485032044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242996, "epoch": 1.7943440811037425, "step": 23540}, {"loss": 0.12025706768035889, "token_acc": 0.9495007132667618, "grad_norm": 0.6711097359657288, "learning_rate": 7.143878852331641e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24301, "epoch": 1.7947252077140026, "step": 23545}, {"loss": 0.08176945447921753, "token_acc": 0.959565865077676, "grad_norm": 0.8127679228782654, "learning_rate": 7.142797096689734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243019, "epoch": 1.7951063343242626, "step": 23550}, {"loss": 0.09789879322052002, "token_acc": 0.9615692554043235, "grad_norm": 0.6724151968955994, "learning_rate": 7.14171521816836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24303, "epoch": 1.7954874609345226, "step": 23555}, {"loss": 0.09813202619552612, "token_acc": 0.9546563643757625, "grad_norm": 0.8345849514007568, "learning_rate": 7.140633216829553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243038, "epoch": 1.7958685875447824, "step": 23560}, {"loss": 0.12336745262145996, "token_acc": 0.9434956395348837, "grad_norm": 1.1370497941970825, "learning_rate": 7.139551092735366e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243048, "epoch": 1.7962497141550422, "step": 23565}, {"loss": 0.10761333703994751, "token_acc": 0.952421959095802, "grad_norm": 0.7021245360374451, "learning_rate": 7.138468845947855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24306, "epoch": 1.7966308407653022, "step": 23570}, {"loss": 0.09179342389106751, "token_acc": 0.9583689415211818, "grad_norm": 0.9117397665977478, "learning_rate": 7.137386476529077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243058, "epoch": 1.7970119673755622, "step": 23575}, {"loss": 0.12694710493087769, "token_acc": 0.9558800190445961, "grad_norm": 1.6145694255828857, "learning_rate": 7.136303984541104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243065, "epoch": 1.7973930939858223, "step": 23580}, {"loss": 0.17786080837249757, "token_acc": 0.9389013452914798, "grad_norm": 1.8263871669769287, "learning_rate": 7.135221370046012e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243076, "epoch": 1.797774220596082, "step": 23585}, {"loss": 0.09682374000549317, "token_acc": 0.9561304836895388, "grad_norm": 1.1587390899658203, "learning_rate": 7.134138633105883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243081, "epoch": 1.7981553472063418, "step": 23590}, {"loss": 0.12832412719726563, "token_acc": 0.9567620286085826, "grad_norm": 0.5998356938362122, "learning_rate": 7.133055773782805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243094, "epoch": 1.7985364738166019, "step": 23595}, {"loss": 0.1097069263458252, "token_acc": 0.9512195121951219, "grad_norm": 0.9308950304985046, "learning_rate": 7.131972792138879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.243105, "epoch": 1.7989176004268619, "step": 23600}, {"eval_loss": 0.09370029717683792, "eval_token_acc": 0.9574649117523041, "eval_runtime": 219.2979, "eval_samples_per_second": 2.417, "eval_steps_per_second": 2.417, "epoch": 1.7989176004268619, "step": 23600}, {"loss": 0.11003422737121582, "token_acc": 0.9572435897435897, "grad_norm": 0.8236498832702637, "learning_rate": 7.130889688236207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24256, "epoch": 1.7992987270371217, "step": 23605}, {"loss": 0.10837595462799073, "token_acc": 0.9561605906783571, "grad_norm": 0.6321241855621338, "learning_rate": 7.129806462136897e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24257, "epoch": 1.7996798536473817, "step": 23610}, {"loss": 0.10675997734069824, "token_acc": 0.9541607898448519, "grad_norm": 1.1868499517440796, "learning_rate": 7.128723113903072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24258, "epoch": 1.8000609802576415, "step": 23615}, {"loss": 0.12343090772628784, "token_acc": 0.9587826503714354, "grad_norm": 0.38341644406318665, "learning_rate": 7.127639643596855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24258, "epoch": 1.8004421068679015, "step": 23620}, {"loss": 0.10805461406707764, "token_acc": 0.9582514734774067, "grad_norm": 1.0323783159255981, "learning_rate": 7.126556051280379e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242584, "epoch": 1.8008232334781615, "step": 23625}, {"loss": 0.12279930114746093, "token_acc": 0.9657626466628197, "grad_norm": 1.2695955038070679, "learning_rate": 7.125472337015779e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24259, "epoch": 1.8012043600884213, "step": 23630}, {"loss": 0.08190087080001832, "token_acc": 0.9680092059838895, "grad_norm": 0.9386529922485352, "learning_rate": 7.124388500865207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242602, "epoch": 1.8015854866986813, "step": 23635}, {"loss": 0.11005868911743164, "token_acc": 0.955719557195572, "grad_norm": 0.2688941955566406, "learning_rate": 7.123304542890811e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242612, "epoch": 1.8019666133089411, "step": 23640}, {"loss": 0.13060874938964845, "token_acc": 0.9520663696420341, "grad_norm": 1.3765912055969238, "learning_rate": 7.122220463154752e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242617, "epoch": 1.8023477399192012, "step": 23645}, {"loss": 0.1003786563873291, "token_acc": 0.9614041892940264, "grad_norm": 2.1273770332336426, "learning_rate": 7.1211362617192e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242624, "epoch": 1.8027288665294612, "step": 23650}, {"loss": 0.09521732330322266, "token_acc": 0.9502012072434608, "grad_norm": 0.5986934900283813, "learning_rate": 7.120051938646326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242633, "epoch": 1.803109993139721, "step": 23655}, {"loss": 0.1361548662185669, "token_acc": 0.9389523434423002, "grad_norm": 0.7441849112510681, "learning_rate": 7.118967493998309e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242645, "epoch": 1.803491119749981, "step": 23660}, {"loss": 0.1288763999938965, "token_acc": 0.9530432181845372, "grad_norm": 0.6873990893363953, "learning_rate": 7.117882927837343e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24265, "epoch": 1.8038722463602408, "step": 23665}, {"loss": 0.11310838460922241, "token_acc": 0.9517745868328367, "grad_norm": 1.441353678703308, "learning_rate": 7.116798240225619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242663, "epoch": 1.8042533729705008, "step": 23670}, {"loss": 0.10748989582061767, "token_acc": 0.9569095857272453, "grad_norm": 0.8142199516296387, "learning_rate": 7.115713431225337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242671, "epoch": 1.8046344995807608, "step": 23675}, {"loss": 0.12438158988952637, "token_acc": 0.9500420521446594, "grad_norm": 0.6686017513275146, "learning_rate": 7.114628500898707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242679, "epoch": 1.8050156261910206, "step": 23680}, {"loss": 0.08197990655899048, "token_acc": 0.9554956169925826, "grad_norm": 1.2830262184143066, "learning_rate": 7.113543449307948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242695, "epoch": 1.8053967528012804, "step": 23685}, {"loss": 0.12264930009841919, "token_acc": 0.943331503841932, "grad_norm": 0.7994800806045532, "learning_rate": 7.11245827651528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242703, "epoch": 1.8057778794115404, "step": 23690}, {"loss": 0.10996310710906983, "token_acc": 0.9568047337278106, "grad_norm": 1.1579331159591675, "learning_rate": 7.111372982582934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24272, "epoch": 1.8061590060218005, "step": 23695}, {"loss": 0.07946839332580566, "token_acc": 0.9675630718048239, "grad_norm": 0.7025693655014038, "learning_rate": 7.110287567573141e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242734, "epoch": 1.8065401326320605, "step": 23700}, {"loss": 0.08604157567024232, "token_acc": 0.9749492213947191, "grad_norm": 0.6859346628189087, "learning_rate": 7.109202031548153e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242747, "epoch": 1.8069212592423203, "step": 23705}, {"loss": 0.08363773226737976, "token_acc": 0.9735632183908046, "grad_norm": 0.866497278213501, "learning_rate": 7.108116374570216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24276, "epoch": 1.80730238585258, "step": 23710}, {"loss": 0.13259265422821045, "token_acc": 0.9557747916312298, "grad_norm": 1.3545655012130737, "learning_rate": 7.107030596701585e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242765, "epoch": 1.80768351246284, "step": 23715}, {"loss": 0.09402597546577454, "token_acc": 0.954191336865067, "grad_norm": 0.19057348370552063, "learning_rate": 7.10594469800453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242779, "epoch": 1.8080646390731, "step": 23720}, {"loss": 0.1405564546585083, "token_acc": 0.9482936918304034, "grad_norm": 1.5017684698104858, "learning_rate": 7.104858678541319e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24279, "epoch": 1.8084457656833601, "step": 23725}, {"loss": 0.11424330472946168, "token_acc": 0.9588270142180095, "grad_norm": 0.6256189346313477, "learning_rate": 7.10377253837423e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242795, "epoch": 1.80882689229362, "step": 23730}, {"loss": 0.09732189774513245, "token_acc": 0.963977210071678, "grad_norm": 0.42148345708847046, "learning_rate": 7.102686277565548e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2428, "epoch": 1.8092080189038797, "step": 23735}, {"loss": 0.11191459894180297, "token_acc": 0.9570011025358324, "grad_norm": 0.8721915483474731, "learning_rate": 7.101599896177567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242807, "epoch": 1.8095891455141397, "step": 23740}, {"loss": 0.09905914068222046, "token_acc": 0.9538461538461539, "grad_norm": 0.7764208316802979, "learning_rate": 7.100513394272582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242821, "epoch": 1.8099702721243998, "step": 23745}, {"loss": 0.0986211359500885, "token_acc": 0.9544041450777202, "grad_norm": 0.310560941696167, "learning_rate": 7.099426771912903e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242835, "epoch": 1.8103513987346598, "step": 23750}, {"loss": 0.1399161696434021, "token_acc": 0.9438828860230045, "grad_norm": 0.7087815403938293, "learning_rate": 7.098340029160841e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242849, "epoch": 1.8107325253449196, "step": 23755}, {"loss": 0.10878216028213501, "token_acc": 0.9613794604003482, "grad_norm": 0.4428345561027527, "learning_rate": 7.097253166078717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242852, "epoch": 1.8111136519551794, "step": 23760}, {"loss": 0.12076716423034668, "token_acc": 0.9596942321056289, "grad_norm": 1.9942346811294556, "learning_rate": 7.096166182728854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242864, "epoch": 1.8114947785654394, "step": 23765}, {"loss": 0.11307593584060668, "token_acc": 0.9572400388726919, "grad_norm": 0.8889882564544678, "learning_rate": 7.09507907917359e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242874, "epoch": 1.8118759051756994, "step": 23770}, {"loss": 0.06535944938659669, "token_acc": 0.9690836298932385, "grad_norm": 0.5869020819664001, "learning_rate": 7.093991855475261e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242884, "epoch": 1.8122570317859594, "step": 23775}, {"loss": 0.0911247968673706, "token_acc": 0.9613980177360459, "grad_norm": 1.2015464305877686, "learning_rate": 7.09290451169622e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2429, "epoch": 1.8126381583962192, "step": 23780}, {"loss": 0.11794075965881348, "token_acc": 0.9534683326152521, "grad_norm": 0.5732821226119995, "learning_rate": 7.091817047898815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242916, "epoch": 1.813019285006479, "step": 23785}, {"loss": 0.08853086233139038, "token_acc": 0.9709936473690519, "grad_norm": 1.000557780265808, "learning_rate": 7.090729464145409e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242914, "epoch": 1.813400411616739, "step": 23790}, {"loss": 0.14691172838211058, "token_acc": 0.9423778264040846, "grad_norm": 1.9943794012069702, "learning_rate": 7.089641760498371e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242931, "epoch": 1.813781538226999, "step": 23795}, {"loss": 0.07711422443389893, "token_acc": 0.9709830240821161, "grad_norm": 0.6959720253944397, "learning_rate": 7.088553937020075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242937, "epoch": 1.814162664837259, "step": 23800}, {"eval_loss": 0.09537702798843384, "eval_token_acc": 0.9570281910728269, "eval_runtime": 219.7952, "eval_samples_per_second": 2.411, "eval_steps_per_second": 2.411, "epoch": 1.814162664837259, "step": 23800}, {"loss": 0.15348838567733764, "token_acc": 0.9563481253136425, "grad_norm": 0.707782506942749, "learning_rate": 7.087465993772904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242397, "epoch": 1.8145437914475189, "step": 23805}, {"loss": 0.15817936658859252, "token_acc": 0.9357375271149675, "grad_norm": 1.5386277437210083, "learning_rate": 7.086377930819244e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242409, "epoch": 1.8149249180577787, "step": 23810}, {"loss": 0.09366993308067321, "token_acc": 0.9555773714566205, "grad_norm": 0.6460850834846497, "learning_rate": 7.085289748221492e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242414, "epoch": 1.8153060446680387, "step": 23815}, {"loss": 0.056979238986968994, "token_acc": 0.9802919708029197, "grad_norm": 0.5196642279624939, "learning_rate": 7.084201446042049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242419, "epoch": 1.8156871712782987, "step": 23820}, {"loss": 0.0965304434299469, "token_acc": 0.9559777571825765, "grad_norm": 0.9274725317955017, "learning_rate": 7.083113024343327e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242435, "epoch": 1.8160682978885587, "step": 23825}, {"loss": 0.10552045106887817, "token_acc": 0.9603461637819685, "grad_norm": 1.1522376537322998, "learning_rate": 7.082024483187739e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242436, "epoch": 1.8164494244988185, "step": 23830}, {"loss": 0.12028855085372925, "token_acc": 0.9570224141476454, "grad_norm": 1.2066177129745483, "learning_rate": 7.080935822637708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242444, "epoch": 1.8168305511090783, "step": 23835}, {"loss": 0.07249341607093811, "token_acc": 0.9672700223158939, "grad_norm": 1.1347299814224243, "learning_rate": 7.079847042755665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242452, "epoch": 1.8172116777193383, "step": 23840}, {"loss": 0.11605042219161987, "token_acc": 0.9545135757940086, "grad_norm": 0.4896186292171478, "learning_rate": 7.078758143604045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24245, "epoch": 1.8175928043295984, "step": 23845}, {"loss": 0.11876695156097412, "token_acc": 0.959188326493388, "grad_norm": 1.1050901412963867, "learning_rate": 7.077669125245292e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242451, "epoch": 1.8179739309398584, "step": 23850}, {"loss": 0.10033571720123291, "token_acc": 0.969391708640062, "grad_norm": 1.5957086086273193, "learning_rate": 7.076579987741858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242466, "epoch": 1.8183550575501182, "step": 23855}, {"loss": 0.12908560037612915, "token_acc": 0.9543798785776236, "grad_norm": 0.7457512021064758, "learning_rate": 7.075490731156196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242472, "epoch": 1.818736184160378, "step": 23860}, {"loss": 0.11617534160614014, "token_acc": 0.9458003169572108, "grad_norm": 0.7157314419746399, "learning_rate": 7.074401355550774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242478, "epoch": 1.819117310770638, "step": 23865}, {"loss": 0.10282866954803467, "token_acc": 0.9611670864819479, "grad_norm": 0.9054464101791382, "learning_rate": 7.073311860988059e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242488, "epoch": 1.819498437380898, "step": 23870}, {"loss": 0.10350270271301269, "token_acc": 0.95932944606414, "grad_norm": 0.6933221817016602, "learning_rate": 7.072222247530531e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24249, "epoch": 1.819879563991158, "step": 23875}, {"loss": 0.09137698411941528, "token_acc": 0.9640186915887851, "grad_norm": 0.361043781042099, "learning_rate": 7.071132515240674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242505, "epoch": 1.8202606906014178, "step": 23880}, {"loss": 0.09409580230712891, "token_acc": 0.9613114754098361, "grad_norm": 1.3981356620788574, "learning_rate": 7.070042664180976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24251, "epoch": 1.8206418172116776, "step": 23885}, {"loss": 0.10956627130508423, "token_acc": 0.9545782263878875, "grad_norm": 0.7994858622550964, "learning_rate": 7.068952694413939e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242525, "epoch": 1.8210229438219376, "step": 23890}, {"loss": 0.16230069398880004, "token_acc": 0.9411940298507463, "grad_norm": 1.5380841493606567, "learning_rate": 7.067862606002067e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242535, "epoch": 1.8214040704321977, "step": 23895}, {"loss": 0.07268702983856201, "token_acc": 0.9689799451738565, "grad_norm": 0.6299561858177185, "learning_rate": 7.066772399007871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242536, "epoch": 1.8217851970424574, "step": 23900}, {"loss": 0.09860904812812805, "token_acc": 0.9627795287408074, "grad_norm": 0.6240633130073547, "learning_rate": 7.065682073493867e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24254, "epoch": 1.8221663236527175, "step": 23905}, {"loss": 0.0944695770740509, "token_acc": 0.9620038722168441, "grad_norm": 0.8685871958732605, "learning_rate": 7.064591629522582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242551, "epoch": 1.8225474502629773, "step": 23910}, {"loss": 0.11215211153030395, "token_acc": 0.9416922402455064, "grad_norm": 1.223099708557129, "learning_rate": 7.06350106715655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242567, "epoch": 1.8229285768732373, "step": 23915}, {"loss": 0.13774139881134034, "token_acc": 0.9454495614035088, "grad_norm": 0.6510603427886963, "learning_rate": 7.062410386458305e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242579, "epoch": 1.8233097034834973, "step": 23920}, {"loss": 0.08675770163536071, "token_acc": 0.9633489040603666, "grad_norm": 1.0784436464309692, "learning_rate": 7.061319587490395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242586, "epoch": 1.823690830093757, "step": 23925}, {"loss": 0.11386843919754028, "token_acc": 0.9595679012345679, "grad_norm": 1.2463531494140625, "learning_rate": 7.060228670315376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242602, "epoch": 1.8240719567040171, "step": 23930}, {"loss": 0.12461512088775635, "token_acc": 0.9544996980068452, "grad_norm": 2.939951181411743, "learning_rate": 7.059137634995801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242609, "epoch": 1.824453083314277, "step": 23935}, {"loss": 0.06819335222244263, "token_acc": 0.9773874862788144, "grad_norm": 0.7030375599861145, "learning_rate": 7.058046481594237e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242621, "epoch": 1.824834209924537, "step": 23940}, {"loss": 0.09020789861679077, "token_acc": 0.9606903163950143, "grad_norm": 0.8468825221061707, "learning_rate": 7.05695521017326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242632, "epoch": 1.825215336534797, "step": 23945}, {"loss": 0.12331933975219726, "token_acc": 0.9495798319327731, "grad_norm": 1.0145013332366943, "learning_rate": 7.055863820795446e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242644, "epoch": 1.8255964631450567, "step": 23950}, {"loss": 0.08797367811203002, "token_acc": 0.9647501711156742, "grad_norm": 1.2795621156692505, "learning_rate": 7.054772313523381e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242653, "epoch": 1.8259775897553168, "step": 23955}, {"loss": 0.1426207661628723, "token_acc": 0.9357228674409291, "grad_norm": 0.8058647513389587, "learning_rate": 7.053680688419661e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242661, "epoch": 1.8263587163655766, "step": 23960}, {"loss": 0.12072993516921997, "token_acc": 0.9653946108603474, "grad_norm": 0.4705190360546112, "learning_rate": 7.052588945546884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24266, "epoch": 1.8267398429758366, "step": 23965}, {"loss": 0.11095502376556396, "token_acc": 0.9457364341085271, "grad_norm": 0.15032418072223663, "learning_rate": 7.051497084967654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242676, "epoch": 1.8271209695860966, "step": 23970}, {"loss": 0.056661355495452884, "token_acc": 0.9677871148459384, "grad_norm": 0.17093878984451294, "learning_rate": 7.050405106744589e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242693, "epoch": 1.8275020961963564, "step": 23975}, {"loss": 0.10714296102523804, "token_acc": 0.9580857555805363, "grad_norm": 0.6247076988220215, "learning_rate": 7.049313010940305e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242702, "epoch": 1.8278832228066162, "step": 23980}, {"loss": 0.13617091178894042, "token_acc": 0.9504267892317794, "grad_norm": 1.4720964431762695, "learning_rate": 7.04822079761743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242709, "epoch": 1.8282643494168762, "step": 23985}, {"loss": 0.07928122282028198, "token_acc": 0.9739524348810872, "grad_norm": 0.6930082440376282, "learning_rate": 7.047128466838596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242723, "epoch": 1.8286454760271362, "step": 23990}, {"loss": 0.11257362365722656, "token_acc": 0.9516441005802708, "grad_norm": 0.7904015779495239, "learning_rate": 7.046036018666446e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242734, "epoch": 1.8290266026373962, "step": 23995}, {"loss": 0.12771780490875245, "token_acc": 0.9569259962049336, "grad_norm": 1.0489678382873535, "learning_rate": 7.044943453163623e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242744, "epoch": 1.829407729247656, "step": 24000}, {"eval_loss": 0.09477829933166504, "eval_token_acc": 0.9565839407264622, "eval_runtime": 218.3206, "eval_samples_per_second": 2.428, "eval_steps_per_second": 2.428, "epoch": 1.829407729247656, "step": 24000}, {"loss": 0.1340134859085083, "token_acc": 0.9564754988017103, "grad_norm": 0.7909244298934937, "learning_rate": 7.043850770392784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242216, "epoch": 1.8297888558579158, "step": 24005}, {"loss": 0.0761795997619629, "token_acc": 0.9716782163302199, "grad_norm": 0.6778976917266846, "learning_rate": 7.042757970416589e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242229, "epoch": 1.8301699824681759, "step": 24010}, {"loss": 0.1874677300453186, "token_acc": 0.9172932330827067, "grad_norm": 0.7458018064498901, "learning_rate": 7.041665053297701e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242242, "epoch": 1.8305511090784359, "step": 24015}, {"loss": 0.11965630054473878, "token_acc": 0.9555242503521836, "grad_norm": 1.54597806930542, "learning_rate": 7.040572019098798e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242251, "epoch": 1.830932235688696, "step": 24020}, {"loss": 0.09050259590148926, "token_acc": 0.9627983153954142, "grad_norm": 0.7182013988494873, "learning_rate": 7.039478867882561e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242262, "epoch": 1.8313133622989557, "step": 24025}, {"loss": 0.09869426488876343, "token_acc": 0.9557894736842105, "grad_norm": 0.9259948134422302, "learning_rate": 7.038385599711674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242278, "epoch": 1.8316944889092155, "step": 24030}, {"loss": 0.12362513542175294, "token_acc": 0.963651270839027, "grad_norm": 0.5276364088058472, "learning_rate": 7.037292214648832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242281, "epoch": 1.8320756155194755, "step": 24035}, {"loss": 0.08715924620628357, "token_acc": 0.9721961886910341, "grad_norm": 0.5305531620979309, "learning_rate": 7.036198712756735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242289, "epoch": 1.8324567421297355, "step": 24040}, {"loss": 0.08246569633483887, "token_acc": 0.9641731155058756, "grad_norm": 0.778765082359314, "learning_rate": 7.035105094098092e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242301, "epoch": 1.8328378687399955, "step": 24045}, {"loss": 0.11924052238464355, "token_acc": 0.9488324175824175, "grad_norm": 0.8682101964950562, "learning_rate": 7.034011358735616e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242314, "epoch": 1.8332189953502553, "step": 24050}, {"loss": 0.14194570779800414, "token_acc": 0.9476426152643918, "grad_norm": 1.1356277465820312, "learning_rate": 7.032917506732026e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242324, "epoch": 1.8336001219605151, "step": 24055}, {"loss": 0.11022782325744629, "token_acc": 0.9567017422804899, "grad_norm": 0.7413094639778137, "learning_rate": 7.031823538150052e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242334, "epoch": 1.8339812485707752, "step": 24060}, {"loss": 0.15316052436828614, "token_acc": 0.9446556822982678, "grad_norm": 1.0274509191513062, "learning_rate": 7.030729453052427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242344, "epoch": 1.8343623751810352, "step": 24065}, {"loss": 0.11968309879302978, "token_acc": 0.9555295494441194, "grad_norm": 0.6163710951805115, "learning_rate": 7.029635251501893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242351, "epoch": 1.8347435017912952, "step": 24070}, {"loss": 0.0945904016494751, "token_acc": 0.9625783348254252, "grad_norm": 0.9568526148796082, "learning_rate": 7.028540933561192e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242355, "epoch": 1.835124628401555, "step": 24075}, {"loss": 0.16011400222778321, "token_acc": 0.9579545454545455, "grad_norm": 0.615674614906311, "learning_rate": 7.027446499293085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242366, "epoch": 1.8355057550118148, "step": 24080}, {"loss": 0.13497151136398317, "token_acc": 0.9463026577472428, "grad_norm": 1.0766220092773438, "learning_rate": 7.026351948760329e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242375, "epoch": 1.8358868816220748, "step": 24085}, {"loss": 0.09734436869621277, "token_acc": 0.9616579073100813, "grad_norm": 1.043893814086914, "learning_rate": 7.025257282025692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242379, "epoch": 1.8362680082323348, "step": 24090}, {"loss": 0.08951289057731629, "token_acc": 0.9679467327345928, "grad_norm": 0.8727908730506897, "learning_rate": 7.02416249915195e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242386, "epoch": 1.8366491348425948, "step": 24095}, {"loss": 0.11960580348968505, "token_acc": 0.960536253776435, "grad_norm": 0.5410177707672119, "learning_rate": 7.02306760020188e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242393, "epoch": 1.8370302614528546, "step": 24100}, {"loss": 0.1214989185333252, "token_acc": 0.9481750352893729, "grad_norm": 0.7246606349945068, "learning_rate": 7.021972585238273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242404, "epoch": 1.8374113880631144, "step": 24105}, {"loss": 0.10455282926559448, "token_acc": 0.9602613917343695, "grad_norm": 0.9364734292030334, "learning_rate": 7.020877454323919e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242413, "epoch": 1.8377925146733745, "step": 24110}, {"loss": 0.1043436050415039, "token_acc": 0.957613351055974, "grad_norm": 0.6331307291984558, "learning_rate": 7.019782207521621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242419, "epoch": 1.8381736412836345, "step": 24115}, {"loss": 0.12290433645248414, "token_acc": 0.9510710259301015, "grad_norm": 1.458105206489563, "learning_rate": 7.018686844894189e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242426, "epoch": 1.8385547678938945, "step": 24120}, {"loss": 0.11749522686004639, "token_acc": 0.966065464261857, "grad_norm": 0.45775434374809265, "learning_rate": 7.017591366504432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242428, "epoch": 1.8389358945041543, "step": 24125}, {"loss": 0.13099316358566285, "token_acc": 0.9570300637716368, "grad_norm": 1.0961328744888306, "learning_rate": 7.016495772415174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242431, "epoch": 1.839317021114414, "step": 24130}, {"loss": 0.11261796951293945, "token_acc": 0.9536376604850214, "grad_norm": 1.0575309991836548, "learning_rate": 7.015400062689241e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242445, "epoch": 1.839698147724674, "step": 24135}, {"loss": 0.18221073150634765, "token_acc": 0.9425828654229307, "grad_norm": 2.0484399795532227, "learning_rate": 7.014304237389466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242454, "epoch": 1.8400792743349341, "step": 24140}, {"loss": 0.0825664758682251, "token_acc": 0.9602824360105914, "grad_norm": 0.3093033730983734, "learning_rate": 7.013208296578692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242464, "epoch": 1.8404604009451941, "step": 24145}, {"loss": 0.08140487670898437, "token_acc": 0.9704706244232544, "grad_norm": 1.112473964691162, "learning_rate": 7.012112240319763e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242478, "epoch": 1.840841527555454, "step": 24150}, {"loss": 0.12812352180480957, "token_acc": 0.9564049586776859, "grad_norm": 1.1052141189575195, "learning_rate": 7.011016068675536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24249, "epoch": 1.8412226541657137, "step": 24155}, {"loss": 0.1045087456703186, "token_acc": 0.9621230999252429, "grad_norm": 0.7579441666603088, "learning_rate": 7.009919781708869e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2425, "epoch": 1.8416037807759738, "step": 24160}, {"loss": 0.12327699661254883, "token_acc": 0.9470333587980647, "grad_norm": 0.8986715078353882, "learning_rate": 7.00882337948263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242511, "epoch": 1.8419849073862338, "step": 24165}, {"loss": 0.12309162616729737, "token_acc": 0.9551032624962587, "grad_norm": 0.6594895124435425, "learning_rate": 7.007726862059692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242526, "epoch": 1.8423660339964938, "step": 24170}, {"loss": 0.1209206223487854, "token_acc": 0.9548894943990311, "grad_norm": 0.797662079334259, "learning_rate": 7.006630229502936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24254, "epoch": 1.8427471606067536, "step": 24175}, {"loss": 0.10141688585281372, "token_acc": 0.9504089979550102, "grad_norm": 1.0522246360778809, "learning_rate": 7.005533481875245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242557, "epoch": 1.8431282872170134, "step": 24180}, {"loss": 0.1348706841468811, "token_acc": 0.9529567353107878, "grad_norm": 0.6671926975250244, "learning_rate": 7.004436619239521e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242567, "epoch": 1.8435094138272734, "step": 24185}, {"loss": 0.08687095046043396, "token_acc": 0.970337738619677, "grad_norm": 0.7114071846008301, "learning_rate": 7.003339641658655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242571, "epoch": 1.8438905404375334, "step": 24190}, {"loss": 0.13677235841751098, "token_acc": 0.9511201629327902, "grad_norm": 0.8366031050682068, "learning_rate": 7.002242549195558e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242588, "epoch": 1.8442716670477934, "step": 24195}, {"loss": 0.1269094705581665, "token_acc": 0.9357463524130191, "grad_norm": 1.518053412437439, "learning_rate": 7.001145341913143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242601, "epoch": 1.8446527936580532, "step": 24200}, {"eval_loss": 0.09680986404418945, "eval_token_acc": 0.9571863140774652, "eval_runtime": 220.0931, "eval_samples_per_second": 2.408, "eval_steps_per_second": 2.408, "epoch": 1.8446527936580532, "step": 24200}, {"loss": 0.12280230522155762, "token_acc": 0.9571098623043427, "grad_norm": 0.6637988686561584, "learning_rate": 7.000048019874328e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24208, "epoch": 1.845033920268313, "step": 24205}, {"loss": 0.09117831587791443, "token_acc": 0.971304347826087, "grad_norm": 1.8672716617584229, "learning_rate": 6.998950583142041e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24209, "epoch": 1.845415046878573, "step": 24210}, {"loss": 0.121373450756073, "token_acc": 0.9560957910014514, "grad_norm": 0.8196402788162231, "learning_rate": 6.997853031779213e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242102, "epoch": 1.845796173488833, "step": 24215}, {"loss": 0.1312938451766968, "token_acc": 0.95, "grad_norm": 1.0248056650161743, "learning_rate": 6.996755365848786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242111, "epoch": 1.8461773000990929, "step": 24220}, {"loss": 0.12555835247039795, "token_acc": 0.9632583998066232, "grad_norm": 0.7133308053016663, "learning_rate": 6.995657585413706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242121, "epoch": 1.8465584267093529, "step": 24225}, {"loss": 0.14558084011077882, "token_acc": 0.943301687763713, "grad_norm": 1.9526312351226807, "learning_rate": 6.994559690536923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242134, "epoch": 1.8469395533196127, "step": 24230}, {"loss": 0.07016668319702149, "token_acc": 0.9701997422680413, "grad_norm": 0.5833352208137512, "learning_rate": 6.993461681281399e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242143, "epoch": 1.8473206799298727, "step": 24235}, {"loss": 0.10175871849060059, "token_acc": 0.9639338166945529, "grad_norm": 1.196860671043396, "learning_rate": 6.992363557710096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242151, "epoch": 1.8477018065401327, "step": 24240}, {"loss": 0.1194640040397644, "token_acc": 0.9515088086516658, "grad_norm": 0.756585955619812, "learning_rate": 6.99126531988599e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24216, "epoch": 1.8480829331503925, "step": 24245}, {"loss": 0.16689667701721192, "token_acc": 0.9389600602863603, "grad_norm": 1.6281567811965942, "learning_rate": 6.990166967872058e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242172, "epoch": 1.8484640597606525, "step": 24250}, {"loss": 0.1409121036529541, "token_acc": 0.9567901234567902, "grad_norm": 1.0117952823638916, "learning_rate": 6.989068501731288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24218, "epoch": 1.8488451863709123, "step": 24255}, {"loss": 0.12149341106414795, "token_acc": 0.9558565337346375, "grad_norm": 1.3113939762115479, "learning_rate": 6.987969921526669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242193, "epoch": 1.8492263129811723, "step": 24260}, {"loss": 0.13618087768554688, "token_acc": 0.9418734630002236, "grad_norm": 1.355720043182373, "learning_rate": 6.986871227321197e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242207, "epoch": 1.8496074395914324, "step": 24265}, {"loss": 0.09680225253105164, "token_acc": 0.96225614927905, "grad_norm": 0.9270972013473511, "learning_rate": 6.985772419177886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242221, "epoch": 1.8499885662016922, "step": 24270}, {"loss": 0.10834848880767822, "token_acc": 0.9593848580441641, "grad_norm": 0.6866962313652039, "learning_rate": 6.984673497159737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242229, "epoch": 1.8503696928119522, "step": 24275}, {"loss": 0.11221251487731934, "token_acc": 0.9609820254274442, "grad_norm": 1.0840245485305786, "learning_rate": 6.983574461329775e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242241, "epoch": 1.850750819422212, "step": 24280}, {"loss": 0.1259017825126648, "token_acc": 0.9515028581965702, "grad_norm": 1.2692883014678955, "learning_rate": 6.982475311751021e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242249, "epoch": 1.851131946032472, "step": 24285}, {"loss": 0.1326538324356079, "token_acc": 0.9569569569569569, "grad_norm": 1.0128353834152222, "learning_rate": 6.98137604848651e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242253, "epoch": 1.851513072642732, "step": 24290}, {"loss": 0.12101655006408692, "token_acc": 0.9506990434142752, "grad_norm": 0.5504249930381775, "learning_rate": 6.980276671599276e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242258, "epoch": 1.8518941992529918, "step": 24295}, {"loss": 0.12048131227493286, "token_acc": 0.9524988743809095, "grad_norm": 0.6895307302474976, "learning_rate": 6.979177181152364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242267, "epoch": 1.8522753258632516, "step": 24300}, {"loss": 0.08318830728530884, "token_acc": 0.9632196162046909, "grad_norm": 0.8315399289131165, "learning_rate": 6.978077577208826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242283, "epoch": 1.8526564524735116, "step": 24305}, {"loss": 0.16275683641433716, "token_acc": 0.9373211219232971, "grad_norm": 1.3649569749832153, "learning_rate": 6.97697785983172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242289, "epoch": 1.8530375790837716, "step": 24310}, {"loss": 0.16675660610198975, "token_acc": 0.9522446520036155, "grad_norm": 1.5859614610671997, "learning_rate": 6.975878029084105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242292, "epoch": 1.8534187056940317, "step": 24315}, {"loss": 0.0774298369884491, "token_acc": 0.9739368998628258, "grad_norm": 0.9296463131904602, "learning_rate": 6.974778085029055e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242308, "epoch": 1.8537998323042915, "step": 24320}, {"loss": 0.1072800874710083, "token_acc": 0.9538343558282208, "grad_norm": 0.5307679772377014, "learning_rate": 6.973678027729648e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242314, "epoch": 1.8541809589145513, "step": 24325}, {"loss": 0.09193305373191833, "token_acc": 0.960043342814574, "grad_norm": 0.8264315128326416, "learning_rate": 6.972577857248962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242319, "epoch": 1.8545620855248113, "step": 24330}, {"loss": 0.1127215027809143, "token_acc": 0.9585358879039176, "grad_norm": 0.6337208151817322, "learning_rate": 6.971477573650092e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242331, "epoch": 1.8549432121350713, "step": 24335}, {"loss": 0.11298857927322388, "token_acc": 0.9602520601066408, "grad_norm": 0.8458091020584106, "learning_rate": 6.970377176996131e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242347, "epoch": 1.8553243387453313, "step": 24340}, {"loss": 0.12852178812026976, "token_acc": 0.9522338403041825, "grad_norm": 1.9747209548950195, "learning_rate": 6.969276667350185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242357, "epoch": 1.855705465355591, "step": 24345}, {"loss": 0.10976569652557373, "token_acc": 0.9589199614271938, "grad_norm": 0.7211102247238159, "learning_rate": 6.968176044775355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242364, "epoch": 1.856086591965851, "step": 24350}, {"loss": 0.10706478357315063, "token_acc": 0.9507012324691883, "grad_norm": 1.1108744144439697, "learning_rate": 6.967075309334767e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242381, "epoch": 1.856467718576111, "step": 24355}, {"loss": 0.09136489033699036, "token_acc": 0.9712041884816754, "grad_norm": 0.6466699838638306, "learning_rate": 6.965974461091537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242395, "epoch": 1.856848845186371, "step": 24360}, {"loss": 0.07822231650352478, "token_acc": 0.9733333333333334, "grad_norm": 0.7743187546730042, "learning_rate": 6.964873500108794e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242407, "epoch": 1.857229971796631, "step": 24365}, {"loss": 0.1021127462387085, "token_acc": 0.9662663369833981, "grad_norm": 0.7046512365341187, "learning_rate": 6.963772426449675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242414, "epoch": 1.8576110984068908, "step": 24370}, {"loss": 0.14555213451385499, "token_acc": 0.9385035324341683, "grad_norm": 0.7498273849487305, "learning_rate": 6.962671240177321e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242421, "epoch": 1.8579922250171506, "step": 24375}, {"loss": 0.14541279077529906, "token_acc": 0.9452380952380952, "grad_norm": 1.2141318321228027, "learning_rate": 6.96156994135488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242431, "epoch": 1.8583733516274106, "step": 24380}, {"loss": 0.07278543710708618, "token_acc": 0.9719804134929271, "grad_norm": 0.4955367147922516, "learning_rate": 6.960468530045503e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242436, "epoch": 1.8587544782376706, "step": 24385}, {"loss": 0.10836031436920165, "token_acc": 0.9523348991434097, "grad_norm": 1.1922231912612915, "learning_rate": 6.959367006312355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242438, "epoch": 1.8591356048479306, "step": 24390}, {"loss": 0.07103281021118164, "token_acc": 0.9648484848484848, "grad_norm": 0.3362831771373749, "learning_rate": 6.958265370218602e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242448, "epoch": 1.8595167314581904, "step": 24395}, {"loss": 0.14549343585968016, "token_acc": 0.9292604501607717, "grad_norm": 0.47790735960006714, "learning_rate": 6.957163621827416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242462, "epoch": 1.8598978580684502, "step": 24400}, {"eval_loss": 0.09444306045770645, "eval_token_acc": 0.9576079754231672, "eval_runtime": 218.0557, "eval_samples_per_second": 2.431, "eval_steps_per_second": 2.431, "epoch": 1.8598978580684502, "step": 24400}, {"loss": 0.10079268217086793, "token_acc": 0.9578115955833327, "grad_norm": 0.701878011226654, "learning_rate": 6.95606176120198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24195, "epoch": 1.8602789846787102, "step": 24405}, {"loss": 0.1157450556755066, "token_acc": 0.9526327384886539, "grad_norm": 1.115817666053772, "learning_rate": 6.954959788405479e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24196, "epoch": 1.8606601112889702, "step": 24410}, {"loss": 0.13295495510101318, "token_acc": 0.9453210010881393, "grad_norm": 0.8656884431838989, "learning_rate": 6.953857703501105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241963, "epoch": 1.8610412378992303, "step": 24415}, {"loss": 0.07397289276123047, "token_acc": 0.9691912708600771, "grad_norm": 0.7063992619514465, "learning_rate": 6.95275550655206e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241971, "epoch": 1.86142236450949, "step": 24420}, {"loss": 0.11191864013671875, "token_acc": 0.9452707856598017, "grad_norm": 0.7390208840370178, "learning_rate": 6.951653197621548e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24198, "epoch": 1.8618034911197499, "step": 24425}, {"loss": 0.11717027425765991, "token_acc": 0.9637428531585553, "grad_norm": 0.3493862450122833, "learning_rate": 6.950550776772783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241987, "epoch": 1.8621846177300099, "step": 24430}, {"loss": 0.10039944648742676, "token_acc": 0.9508098380323935, "grad_norm": 0.8690118193626404, "learning_rate": 6.949448244068981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242, "epoch": 1.86256574434027, "step": 24435}, {"loss": 0.15723568201065063, "token_acc": 0.9375, "grad_norm": 0.7351366877555847, "learning_rate": 6.94834559957337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24201, "epoch": 1.86294687095053, "step": 24440}, {"loss": 0.08503319025039673, "token_acc": 0.9669688124135812, "grad_norm": 0.6039955615997314, "learning_rate": 6.94724284334918e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242017, "epoch": 1.8633279975607897, "step": 24445}, {"loss": 0.15095856189727783, "token_acc": 0.9251844046364595, "grad_norm": 0.8427472710609436, "learning_rate": 6.94613997545965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242031, "epoch": 1.8637091241710495, "step": 24450}, {"loss": 0.1045557975769043, "token_acc": 0.9584188911704312, "grad_norm": 1.1250957250595093, "learning_rate": 6.945036995968022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242044, "epoch": 1.8640902507813095, "step": 24455}, {"loss": 0.11666032075881957, "token_acc": 0.9554851157662624, "grad_norm": 0.4448085427284241, "learning_rate": 6.94393390493755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242047, "epoch": 1.8644713773915695, "step": 24460}, {"loss": 0.10442521572113037, "token_acc": 0.9582582582582583, "grad_norm": 0.9819527268409729, "learning_rate": 6.94283070243149e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24206, "epoch": 1.8648525040018296, "step": 24465}, {"loss": 0.12271168231964111, "token_acc": 0.9600043355733796, "grad_norm": 1.3671238422393799, "learning_rate": 6.941727388513102e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24206, "epoch": 1.8652336306120894, "step": 24470}, {"loss": 0.11500542163848877, "token_acc": 0.9560335497835498, "grad_norm": 0.5527922511100769, "learning_rate": 6.940623963245661e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242067, "epoch": 1.8656147572223492, "step": 24475}, {"loss": 0.11093573570251465, "token_acc": 0.9504761904761905, "grad_norm": 0.7813662886619568, "learning_rate": 6.93952042669244e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24208, "epoch": 1.8659958838326092, "step": 24480}, {"loss": 0.12271552085876465, "token_acc": 0.9490462503266266, "grad_norm": 0.3858792185783386, "learning_rate": 6.938416778916723e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242091, "epoch": 1.8663770104428692, "step": 24485}, {"loss": 0.09541603326797485, "token_acc": 0.9669555796316359, "grad_norm": 0.5808374881744385, "learning_rate": 6.937313019981801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242092, "epoch": 1.8667581370531292, "step": 24490}, {"loss": 0.10509436130523682, "token_acc": 0.9594175960346965, "grad_norm": 0.5066109299659729, "learning_rate": 6.936209149950966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242098, "epoch": 1.867139263663389, "step": 24495}, {"loss": 0.1141016125679016, "token_acc": 0.9469832202784719, "grad_norm": 0.8123342394828796, "learning_rate": 6.935105168887522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242106, "epoch": 1.8675203902736488, "step": 24500}, {"loss": 0.1322989583015442, "token_acc": 0.9497084548104956, "grad_norm": 1.08533775806427, "learning_rate": 6.934001076854775e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242111, "epoch": 1.8679015168839088, "step": 24505}, {"loss": 0.09298046827316284, "token_acc": 0.9625850340136054, "grad_norm": 0.6388190984725952, "learning_rate": 6.932896873916043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242121, "epoch": 1.8682826434941688, "step": 24510}, {"loss": 0.16057366132736206, "token_acc": 0.9495528935380463, "grad_norm": 0.6390783190727234, "learning_rate": 6.931792560134646e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242124, "epoch": 1.8686637701044289, "step": 24515}, {"loss": 0.08233790397644043, "token_acc": 0.9636251541307028, "grad_norm": 0.8562953472137451, "learning_rate": 6.930688135573909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242138, "epoch": 1.8690448967146887, "step": 24520}, {"loss": 0.08832259774208069, "token_acc": 0.9531641604010025, "grad_norm": 0.436522901058197, "learning_rate": 6.929583600297168e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242144, "epoch": 1.8694260233249484, "step": 24525}, {"loss": 0.09574618935585022, "token_acc": 0.9525144559313125, "grad_norm": 1.44728684425354, "learning_rate": 6.92847895436776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242152, "epoch": 1.8698071499352085, "step": 24530}, {"loss": 0.11955996751785278, "token_acc": 0.957973383142657, "grad_norm": 0.8362749218940735, "learning_rate": 6.927374197849033e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242163, "epoch": 1.8701882765454685, "step": 24535}, {"loss": 0.17180652618408204, "token_acc": 0.9392550143266476, "grad_norm": 0.7034499645233154, "learning_rate": 6.92626933080434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242171, "epoch": 1.8705694031557283, "step": 24540}, {"loss": 0.12489677667617798, "token_acc": 0.953268822279915, "grad_norm": 1.5691636800765991, "learning_rate": 6.925164353297042e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24218, "epoch": 1.8709505297659883, "step": 24545}, {"loss": 0.10648032426834106, "token_acc": 0.9659213847818248, "grad_norm": 0.662467360496521, "learning_rate": 6.9240592653905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242184, "epoch": 1.871331656376248, "step": 24550}, {"loss": 0.1263742446899414, "token_acc": 0.9439412484700123, "grad_norm": 1.1288537979125977, "learning_rate": 6.922954067148089e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242196, "epoch": 1.8717127829865081, "step": 24555}, {"loss": 0.10396476984024047, "token_acc": 0.962874908558888, "grad_norm": 0.8075565695762634, "learning_rate": 6.921848758633185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2422, "epoch": 1.8720939095967681, "step": 24560}, {"loss": 0.138031005859375, "token_acc": 0.9513286713286714, "grad_norm": 0.6415311098098755, "learning_rate": 6.920743339909174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242212, "epoch": 1.872475036207028, "step": 24565}, {"loss": 0.12752517461776733, "token_acc": 0.9523961661341853, "grad_norm": 2.1600167751312256, "learning_rate": 6.919637811039445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242226, "epoch": 1.872856162817288, "step": 24570}, {"loss": 0.13950117826461791, "token_acc": 0.9495662699213234, "grad_norm": 0.5511002540588379, "learning_rate": 6.918532172087396e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242236, "epoch": 1.8732372894275477, "step": 24575}, {"loss": 0.1483471155166626, "token_acc": 0.9328477785870357, "grad_norm": 1.1463775634765625, "learning_rate": 6.91742642311643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242247, "epoch": 1.8736184160378078, "step": 24580}, {"loss": 0.1320252776145935, "token_acc": 0.9338432122370937, "grad_norm": 0.9431594610214233, "learning_rate": 6.916320564189957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242262, "epoch": 1.8739995426480678, "step": 24585}, {"loss": 0.12095584869384765, "token_acc": 0.9383931406795808, "grad_norm": 1.3550835847854614, "learning_rate": 6.915214595371394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242276, "epoch": 1.8743806692583276, "step": 24590}, {"loss": 0.07665133476257324, "token_acc": 0.9725938713854122, "grad_norm": 0.7263226509094238, "learning_rate": 6.914108516724158e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242283, "epoch": 1.8747617958685876, "step": 24595}, {"loss": 0.10699925422668458, "token_acc": 0.953886876567289, "grad_norm": 0.9405462741851807, "learning_rate": 6.913002328311685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242288, "epoch": 1.8751429224788474, "step": 24600}, {"eval_loss": 0.09408386051654816, "eval_token_acc": 0.9575703270887296, "eval_runtime": 220.1997, "eval_samples_per_second": 2.407, "eval_steps_per_second": 2.407, "epoch": 1.8751429224788474, "step": 24600}, {"loss": 0.0838725745677948, "token_acc": 0.9581177558747869, "grad_norm": 0.2721266746520996, "learning_rate": 6.911896030197402e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241772, "epoch": 1.8755240490891074, "step": 24605}, {"loss": 0.1540897846221924, "token_acc": 0.9404092071611253, "grad_norm": 0.6907482147216797, "learning_rate": 6.910789622444756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241784, "epoch": 1.8759051756993674, "step": 24610}, {"loss": 0.06822125911712647, "token_acc": 0.9723831595210506, "grad_norm": 0.9140029549598694, "learning_rate": 6.909683105117192e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241792, "epoch": 1.8762863023096272, "step": 24615}, {"loss": 0.15809123516082763, "token_acc": 0.9475705780679854, "grad_norm": 1.5086561441421509, "learning_rate": 6.908576478278165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241801, "epoch": 1.876667428919887, "step": 24620}, {"loss": 0.10386934280395507, "token_acc": 0.9674743505784763, "grad_norm": 0.6805033683776855, "learning_rate": 6.907469741991131e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241812, "epoch": 1.877048555530147, "step": 24625}, {"loss": 0.06821250319480895, "token_acc": 0.9744389027431422, "grad_norm": 1.126225471496582, "learning_rate": 6.906362896319563e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24183, "epoch": 1.877429682140407, "step": 24630}, {"loss": 0.08460434079170227, "token_acc": 0.9681153090194365, "grad_norm": 0.5992647409439087, "learning_rate": 6.905255941326926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241838, "epoch": 1.877810808750667, "step": 24635}, {"loss": 0.12335501909255982, "token_acc": 0.9507853403141361, "grad_norm": 1.0299367904663086, "learning_rate": 6.904148877076704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241849, "epoch": 1.8781919353609269, "step": 24640}, {"loss": 0.09122146368026733, "token_acc": 0.9588411588411588, "grad_norm": 0.8165981769561768, "learning_rate": 6.90304170363238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241858, "epoch": 1.8785730619711867, "step": 24645}, {"loss": 0.178433358669281, "token_acc": 0.9343018213356461, "grad_norm": 0.8825969099998474, "learning_rate": 6.901934421057446e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241868, "epoch": 1.8789541885814467, "step": 24650}, {"loss": 0.12123171091079712, "token_acc": 0.9572010122125646, "grad_norm": 0.7832249402999878, "learning_rate": 6.900827029415399e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241872, "epoch": 1.8793353151917067, "step": 24655}, {"loss": 0.14991663694381713, "token_acc": 0.9382108822625269, "grad_norm": 1.1911184787750244, "learning_rate": 6.899719528769741e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241884, "epoch": 1.8797164418019667, "step": 24660}, {"loss": 0.1197007179260254, "token_acc": 0.9464701318851824, "grad_norm": 0.6734333634376526, "learning_rate": 6.898611919183986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241898, "epoch": 1.8800975684122265, "step": 24665}, {"loss": 0.09889943599700927, "token_acc": 0.9615849969751966, "grad_norm": 1.0047712326049805, "learning_rate": 6.897504200721647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241907, "epoch": 1.8804786950224863, "step": 24670}, {"loss": 0.13568401336669922, "token_acc": 0.9417913993822761, "grad_norm": 1.0910698175430298, "learning_rate": 6.896396373446247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241918, "epoch": 1.8808598216327463, "step": 24675}, {"loss": 0.09649399518966675, "token_acc": 0.9587112918360964, "grad_norm": 0.9333653450012207, "learning_rate": 6.895288437421317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241932, "epoch": 1.8812409482430064, "step": 24680}, {"loss": 0.12601059675216675, "token_acc": 0.9548709633833266, "grad_norm": 0.7843413949012756, "learning_rate": 6.894180392710387e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241935, "epoch": 1.8816220748532664, "step": 24685}, {"loss": 0.11230251789093018, "token_acc": 0.9546070460704607, "grad_norm": 0.9800599217414856, "learning_rate": 6.893072239377005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241949, "epoch": 1.8820032014635262, "step": 24690}, {"loss": 0.10395592451095581, "token_acc": 0.9620958751393534, "grad_norm": 1.3636984825134277, "learning_rate": 6.891963977484714e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241956, "epoch": 1.882384328073786, "step": 24695}, {"loss": 0.09789491891860962, "token_acc": 0.9615304202383441, "grad_norm": 0.5814365148544312, "learning_rate": 6.890855607097068e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241963, "epoch": 1.882765454684046, "step": 24700}, {"loss": 0.1060525894165039, "token_acc": 0.9583915107511868, "grad_norm": 0.48000234365463257, "learning_rate": 6.889747128277629e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241966, "epoch": 1.883146581294306, "step": 24705}, {"loss": 0.10130752325057983, "token_acc": 0.9546989866878601, "grad_norm": 0.8437292575836182, "learning_rate": 6.88863854108996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241976, "epoch": 1.883527707904566, "step": 24710}, {"loss": 0.12806694507598876, "token_acc": 0.9521946979574099, "grad_norm": 0.8598158955574036, "learning_rate": 6.887529845597636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241979, "epoch": 1.8839088345148258, "step": 24715}, {"loss": 0.15813401937484742, "token_acc": 0.9534066963240458, "grad_norm": 0.6728751063346863, "learning_rate": 6.886421041864235e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24199, "epoch": 1.8842899611250856, "step": 24720}, {"loss": 0.12329227924346924, "token_acc": 0.9588000514999356, "grad_norm": 0.5597208142280579, "learning_rate": 6.885312129953339e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241996, "epoch": 1.8846710877353456, "step": 24725}, {"loss": 0.08641157150268555, "token_acc": 0.9689991142604074, "grad_norm": 1.756227731704712, "learning_rate": 6.884203109928545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242006, "epoch": 1.8850522143456057, "step": 24730}, {"loss": 0.13248720169067382, "token_acc": 0.9384615384615385, "grad_norm": 1.408076524734497, "learning_rate": 6.883093981853444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242021, "epoch": 1.8854333409558657, "step": 24735}, {"loss": 0.11326239109039307, "token_acc": 0.9534225019669551, "grad_norm": 1.2376432418823242, "learning_rate": 6.881984745791642e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242026, "epoch": 1.8858144675661255, "step": 24740}, {"loss": 0.1206861138343811, "token_acc": 0.9655172413793104, "grad_norm": 0.371183305978775, "learning_rate": 6.880875401806748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242033, "epoch": 1.8861955941763853, "step": 24745}, {"loss": 0.11145108938217163, "token_acc": 0.9740622505985634, "grad_norm": 1.1030194759368896, "learning_rate": 6.879765949962377e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24204, "epoch": 1.8865767207866453, "step": 24750}, {"loss": 0.10398710966110229, "token_acc": 0.9563003818413237, "grad_norm": 0.768980860710144, "learning_rate": 6.878656390322155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242048, "epoch": 1.8869578473969053, "step": 24755}, {"loss": 0.13592371940612794, "token_acc": 0.9426096372495939, "grad_norm": 0.6596015691757202, "learning_rate": 6.877546722949705e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242058, "epoch": 1.8873389740071653, "step": 24760}, {"loss": 0.12784690856933595, "token_acc": 0.9497364699832883, "grad_norm": 0.8336893916130066, "learning_rate": 6.876436947908664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242058, "epoch": 1.8877201006174251, "step": 24765}, {"loss": 0.14585951566696168, "token_acc": 0.9446728971962617, "grad_norm": 0.9624178409576416, "learning_rate": 6.87532706526267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242073, "epoch": 1.888101227227685, "step": 24770}, {"loss": 0.11231428384780884, "token_acc": 0.9497896213183731, "grad_norm": 0.8079752922058105, "learning_rate": 6.874217075075376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242083, "epoch": 1.888482353837945, "step": 24775}, {"loss": 0.1362109065055847, "token_acc": 0.9462011089465008, "grad_norm": 0.6329883337020874, "learning_rate": 6.873106977410425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242086, "epoch": 1.888863480448205, "step": 24780}, {"loss": 0.12386872768402099, "token_acc": 0.9420597067655891, "grad_norm": 0.7140170335769653, "learning_rate": 6.871996772331484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242093, "epoch": 1.889244607058465, "step": 24785}, {"loss": 0.1295098304748535, "token_acc": 0.9559890375624698, "grad_norm": 0.943251371383667, "learning_rate": 6.870886459902214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242097, "epoch": 1.8896257336687248, "step": 24790}, {"loss": 0.10732793807983398, "token_acc": 0.9566929133858267, "grad_norm": 0.3532976508140564, "learning_rate": 6.869776040186289e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242109, "epoch": 1.8900068602789846, "step": 24795}, {"loss": 0.132412326335907, "token_acc": 0.9494697442295695, "grad_norm": 1.2943809032440186, "learning_rate": 6.868665513247384e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24212, "epoch": 1.8903879868892446, "step": 24800}, {"eval_loss": 0.09312719851732254, "eval_token_acc": 0.9580371664357569, "eval_runtime": 220.7128, "eval_samples_per_second": 2.401, "eval_steps_per_second": 2.401, "epoch": 1.8903879868892446, "step": 24800}, {"loss": 0.14004428386688234, "token_acc": 0.9576726942352217, "grad_norm": 1.6054743528366089, "learning_rate": 6.867554879149183e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241612, "epoch": 1.8907691134995046, "step": 24805}, {"loss": 0.09533853530883789, "token_acc": 0.9646393210749646, "grad_norm": 0.6145107746124268, "learning_rate": 6.866444137955376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241618, "epoch": 1.8911502401097646, "step": 24810}, {"loss": 0.10994658470153809, "token_acc": 0.9655172413793104, "grad_norm": 0.8572534322738647, "learning_rate": 6.865333289729661e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241624, "epoch": 1.8915313667200244, "step": 24815}, {"loss": 0.08382610082626343, "token_acc": 0.9638249430812041, "grad_norm": 0.4184836745262146, "learning_rate": 6.864222334535734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241624, "epoch": 1.8919124933302842, "step": 24820}, {"loss": 0.11338602304458618, "token_acc": 0.9501730103806229, "grad_norm": 1.0743303298950195, "learning_rate": 6.863111272437312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241637, "epoch": 1.8922936199405442, "step": 24825}, {"loss": 0.12385056018829346, "token_acc": 0.9509090909090909, "grad_norm": 1.1219459772109985, "learning_rate": 6.862000103498101e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241651, "epoch": 1.8926747465508043, "step": 24830}, {"loss": 0.11414767503738403, "token_acc": 0.951856946354883, "grad_norm": 1.0967707633972168, "learning_rate": 6.860888827781826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241661, "epoch": 1.893055873161064, "step": 24835}, {"loss": 0.12160284519195556, "token_acc": 0.9536500579374276, "grad_norm": 2.3000736236572266, "learning_rate": 6.859777445352214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241675, "epoch": 1.893436999771324, "step": 24840}, {"loss": 0.10412547588348389, "token_acc": 0.957455268389662, "grad_norm": 0.7351021766662598, "learning_rate": 6.858665956272994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24169, "epoch": 1.8938181263815839, "step": 24845}, {"loss": 0.15285081863403321, "token_acc": 0.9426458832933653, "grad_norm": 0.7144935131072998, "learning_rate": 6.857554360607906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241701, "epoch": 1.8941992529918439, "step": 24850}, {"loss": 0.082651025056839, "token_acc": 0.960097577975257, "grad_norm": 0.9545551538467407, "learning_rate": 6.856442658420697e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241707, "epoch": 1.894580379602104, "step": 24855}, {"loss": 0.08170257806777954, "token_acc": 0.9574241617881852, "grad_norm": 0.8078469634056091, "learning_rate": 6.855330849775115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241716, "epoch": 1.8949615062123637, "step": 24860}, {"loss": 0.09920209050178527, "token_acc": 0.9648760330578512, "grad_norm": 0.8147615194320679, "learning_rate": 6.85421893473492e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241724, "epoch": 1.8953426328226237, "step": 24865}, {"loss": 0.10400916337966919, "token_acc": 0.9456272518833934, "grad_norm": 0.29824039340019226, "learning_rate": 6.853106913363874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241739, "epoch": 1.8957237594328835, "step": 24870}, {"loss": 0.14934438467025757, "token_acc": 0.9358161648177497, "grad_norm": 2.3162291049957275, "learning_rate": 6.851994785725744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241748, "epoch": 1.8961048860431435, "step": 24875}, {"loss": 0.06940490603446961, "token_acc": 0.9787191327042762, "grad_norm": 0.8843148350715637, "learning_rate": 6.850882551884309e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241758, "epoch": 1.8964860126534036, "step": 24880}, {"loss": 0.12149347066879272, "token_acc": 0.9564765042483093, "grad_norm": 0.9068572521209717, "learning_rate": 6.849770211903348e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241764, "epoch": 1.8968671392636633, "step": 24885}, {"loss": 0.11975308656692504, "token_acc": 0.9539988968560397, "grad_norm": 0.6874720454216003, "learning_rate": 6.84865776584665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241764, "epoch": 1.8972482658739234, "step": 24890}, {"loss": 0.09546294808387756, "token_acc": 0.960668380462725, "grad_norm": 0.8322707414627075, "learning_rate": 6.847545213778008e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241765, "epoch": 1.8976293924841832, "step": 24895}, {"loss": 0.13312849998474122, "token_acc": 0.9412866958151156, "grad_norm": 1.4184728860855103, "learning_rate": 6.84643255576122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241781, "epoch": 1.8980105190944432, "step": 24900}, {"loss": 0.1460339307785034, "token_acc": 0.9531208849091388, "grad_norm": 1.1837490797042847, "learning_rate": 6.845319791860096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241793, "epoch": 1.8983916457047032, "step": 24905}, {"loss": 0.12729363441467284, "token_acc": 0.9408050513022889, "grad_norm": 0.7205832600593567, "learning_rate": 6.844206922138444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241805, "epoch": 1.898772772314963, "step": 24910}, {"loss": 0.0893536388874054, "token_acc": 0.9662415603900976, "grad_norm": 0.7902097105979919, "learning_rate": 6.843093946660082e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241814, "epoch": 1.8991538989252228, "step": 24915}, {"loss": 0.1004536509513855, "token_acc": 0.9537428500373042, "grad_norm": 0.47735798358917236, "learning_rate": 6.841980865488837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241825, "epoch": 1.8995350255354828, "step": 24920}, {"loss": 0.13194305896759034, "token_acc": 0.9340631364562119, "grad_norm": 1.2733780145645142, "learning_rate": 6.840867678688536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241837, "epoch": 1.8999161521457428, "step": 24925}, {"loss": 0.13195319175720216, "token_acc": 0.9499501992031872, "grad_norm": 1.5835341215133667, "learning_rate": 6.839754386323017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241847, "epoch": 1.9002972787560029, "step": 24930}, {"loss": 0.11669927835464478, "token_acc": 0.9551983584131327, "grad_norm": 1.0948282480239868, "learning_rate": 6.838640988456122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24186, "epoch": 1.9006784053662626, "step": 24935}, {"loss": 0.10433108806610107, "token_acc": 0.9613309352517986, "grad_norm": 0.6331787109375, "learning_rate": 6.837527485151697e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241877, "epoch": 1.9010595319765224, "step": 24940}, {"loss": 0.1547531008720398, "token_acc": 0.9385052034058656, "grad_norm": 1.570054531097412, "learning_rate": 6.8364138764736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241891, "epoch": 1.9014406585867825, "step": 24945}, {"loss": 0.088306725025177, "token_acc": 0.9632132132132132, "grad_norm": 0.9378734230995178, "learning_rate": 6.835300162485687e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241904, "epoch": 1.9018217851970425, "step": 24950}, {"loss": 0.0877190113067627, "token_acc": 0.9587178241864983, "grad_norm": 0.7957130670547485, "learning_rate": 6.834186343251827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241913, "epoch": 1.9022029118073025, "step": 24955}, {"loss": 0.09075245261192322, "token_acc": 0.9686876745113682, "grad_norm": 1.6933141946792603, "learning_rate": 6.833072418835893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241921, "epoch": 1.9025840384175623, "step": 24960}, {"loss": 0.08738378286361695, "token_acc": 0.9659058075700665, "grad_norm": 0.5800952315330505, "learning_rate": 6.831958389301762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241924, "epoch": 1.902965165027822, "step": 24965}, {"loss": 0.11157078742980957, "token_acc": 0.9595680562531391, "grad_norm": 0.8349543809890747, "learning_rate": 6.830844254713317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241933, "epoch": 1.903346291638082, "step": 24970}, {"loss": 0.1251460075378418, "token_acc": 0.9507479022254651, "grad_norm": 1.2131571769714355, "learning_rate": 6.829730015134452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241948, "epoch": 1.9037274182483421, "step": 24975}, {"loss": 0.07409882545471191, "token_acc": 0.9588414634146342, "grad_norm": 0.5984216332435608, "learning_rate": 6.828615670629062e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241959, "epoch": 1.9041085448586021, "step": 24980}, {"loss": 0.14525492191314698, "token_acc": 0.951113525258012, "grad_norm": 0.5764501690864563, "learning_rate": 6.827501221261047e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241965, "epoch": 1.904489671468862, "step": 24985}, {"loss": 0.1032108187675476, "token_acc": 0.9564862659776993, "grad_norm": 1.4766972064971924, "learning_rate": 6.82638666709432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241977, "epoch": 1.9048707980791217, "step": 24990}, {"loss": 0.18155087232589723, "token_acc": 0.9336823734729494, "grad_norm": 1.6881240606307983, "learning_rate": 6.82527200819279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241986, "epoch": 1.9052519246893818, "step": 24995}, {"loss": 0.05370696783065796, "token_acc": 0.9627742946708464, "grad_norm": 0.914800763130188, "learning_rate": 6.824157244620384e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.242001, "epoch": 1.9056330512996418, "step": 25000}, {"eval_loss": 0.09334749728441238, "eval_token_acc": 0.9581199927715198, "eval_runtime": 221.3733, "eval_samples_per_second": 2.394, "eval_steps_per_second": 2.394, "epoch": 1.9056330512996418, "step": 25000}, {"loss": 0.10644853115081787, "token_acc": 0.9581188818246039, "grad_norm": 1.0258666276931763, "learning_rate": 6.823042376441023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241487, "epoch": 1.9060141779099018, "step": 25005}, {"loss": 0.13958239555358887, "token_acc": 0.9468108108108109, "grad_norm": 2.187659978866577, "learning_rate": 6.821927403718644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241497, "epoch": 1.9063953045201616, "step": 25010}, {"loss": 0.14543284177780152, "token_acc": 0.9469429004547751, "grad_norm": 0.8859712481498718, "learning_rate": 6.820812326517181e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241507, "epoch": 1.9067764311304214, "step": 25015}, {"loss": 0.12560364007949829, "token_acc": 0.9537591483699268, "grad_norm": 1.8382761478424072, "learning_rate": 6.81969714490058e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241518, "epoch": 1.9071575577406814, "step": 25020}, {"loss": 0.0989556610584259, "token_acc": 0.944760101010101, "grad_norm": 0.2636927366256714, "learning_rate": 6.818581858932793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241531, "epoch": 1.9075386843509414, "step": 25025}, {"loss": 0.1324480175971985, "token_acc": 0.9510986066452305, "grad_norm": 0.7116786241531372, "learning_rate": 6.817466468677776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241539, "epoch": 1.9079198109612014, "step": 25030}, {"loss": 0.10451627969741821, "token_acc": 0.9651771336553945, "grad_norm": 0.6615849733352661, "learning_rate": 6.816350974199492e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241548, "epoch": 1.9083009375714612, "step": 25035}, {"loss": 0.13472012281417847, "token_acc": 0.9485230857470605, "grad_norm": 1.1573327779769897, "learning_rate": 6.815235375561907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241553, "epoch": 1.908682064181721, "step": 25040}, {"loss": 0.164923095703125, "token_acc": 0.9361958266452648, "grad_norm": 0.918311595916748, "learning_rate": 6.814119672828997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241561, "epoch": 1.909063190791981, "step": 25045}, {"loss": 0.11071850061416626, "token_acc": 0.956386292834891, "grad_norm": 1.2527796030044556, "learning_rate": 6.813003866064744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241578, "epoch": 1.909444317402241, "step": 25050}, {"loss": 0.14210659265518188, "token_acc": 0.9611226132965264, "grad_norm": 0.8984056115150452, "learning_rate": 6.811887955333132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241587, "epoch": 1.909825444012501, "step": 25055}, {"loss": 0.1107908844947815, "token_acc": 0.9556765163297045, "grad_norm": 0.714992880821228, "learning_rate": 6.810771940698153e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241601, "epoch": 1.910206570622761, "step": 25060}, {"loss": 0.09667259454727173, "token_acc": 0.9577389681375816, "grad_norm": 0.1833721250295639, "learning_rate": 6.809655822223807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241606, "epoch": 1.9105876972330207, "step": 25065}, {"loss": 0.07939456105232238, "token_acc": 0.9698827772768259, "grad_norm": 0.49883928894996643, "learning_rate": 6.808539599974097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241612, "epoch": 1.9109688238432807, "step": 25070}, {"loss": 0.10428711175918579, "token_acc": 0.9589237668161436, "grad_norm": 1.4164178371429443, "learning_rate": 6.807423274013034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241617, "epoch": 1.9113499504535407, "step": 25075}, {"loss": 0.10776156187057495, "token_acc": 0.9622484616663894, "grad_norm": 0.48240795731544495, "learning_rate": 6.806306844404633e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241618, "epoch": 1.9117310770638007, "step": 25080}, {"loss": 0.11361923217773437, "token_acc": 0.9580139572131335, "grad_norm": 1.3209139108657837, "learning_rate": 6.805190311212916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241623, "epoch": 1.9121122036740605, "step": 25085}, {"loss": 0.08617077469825744, "token_acc": 0.9566084788029925, "grad_norm": 0.8358122110366821, "learning_rate": 6.804073674501912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241638, "epoch": 1.9124933302843203, "step": 25090}, {"loss": 0.13708739280700682, "token_acc": 0.9457053849577214, "grad_norm": 0.985278844833374, "learning_rate": 6.802956934335657e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241649, "epoch": 1.9128744568945804, "step": 25095}, {"loss": 0.10410542488098144, "token_acc": 0.964203055084092, "grad_norm": 1.320091962814331, "learning_rate": 6.801840090778188e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241655, "epoch": 1.9132555835048404, "step": 25100}, {"loss": 0.07836112976074219, "token_acc": 0.9668610003068426, "grad_norm": 1.1884346008300781, "learning_rate": 6.80072314389355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241658, "epoch": 1.9136367101151004, "step": 25105}, {"loss": 0.1633504867553711, "token_acc": 0.941206985993429, "grad_norm": 1.042007327079773, "learning_rate": 6.799606093745796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241667, "epoch": 1.9140178367253602, "step": 25110}, {"loss": 0.11769750118255615, "token_acc": 0.9459336665152204, "grad_norm": 0.766101062297821, "learning_rate": 6.798488940398985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241677, "epoch": 1.91439896333562, "step": 25115}, {"loss": 0.1532688856124878, "token_acc": 0.9373134328358209, "grad_norm": 1.8784570693969727, "learning_rate": 6.797371683917177e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241682, "epoch": 1.91478008994588, "step": 25120}, {"loss": 0.16622772216796874, "token_acc": 0.9494047619047619, "grad_norm": 0.43710601329803467, "learning_rate": 6.796254324364447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241693, "epoch": 1.91516121655614, "step": 25125}, {"loss": 0.11955150365829467, "token_acc": 0.955078557202921, "grad_norm": 1.303815245628357, "learning_rate": 6.795136861804866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241704, "epoch": 1.9155423431664, "step": 25130}, {"loss": 0.0686455488204956, "token_acc": 0.9683813119395942, "grad_norm": 0.8038737773895264, "learning_rate": 6.794019296302516e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241705, "epoch": 1.9159234697766598, "step": 25135}, {"loss": 0.14914438724517823, "token_acc": 0.9429564210221515, "grad_norm": 0.9664490818977356, "learning_rate": 6.792901627921484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241712, "epoch": 1.9163045963869196, "step": 25140}, {"loss": 0.152068829536438, "token_acc": 0.9387010459742156, "grad_norm": 1.0169305801391602, "learning_rate": 6.791783856725864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241723, "epoch": 1.9166857229971797, "step": 25145}, {"loss": 0.09028018712997436, "token_acc": 0.9723766816143498, "grad_norm": 0.9945523738861084, "learning_rate": 6.790665982779755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241731, "epoch": 1.9170668496074397, "step": 25150}, {"loss": 0.11729158163070678, "token_acc": 0.9469874387907175, "grad_norm": 1.4863717555999756, "learning_rate": 6.789548006147262e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241743, "epoch": 1.9174479762176995, "step": 25155}, {"loss": 0.08882752656936646, "token_acc": 0.96491705194452, "grad_norm": 0.29543983936309814, "learning_rate": 6.788429926892494e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241744, "epoch": 1.9178291028279595, "step": 25160}, {"loss": 0.0772451937198639, "token_acc": 0.9603823030676738, "grad_norm": 0.6096279621124268, "learning_rate": 6.78731174507957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24175, "epoch": 1.9182102294382193, "step": 25165}, {"loss": 0.13917295932769774, "token_acc": 0.9521992002908033, "grad_norm": 0.880556046962738, "learning_rate": 6.786193460772612e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241754, "epoch": 1.9185913560484793, "step": 25170}, {"loss": 0.1459651231765747, "token_acc": 0.9593980247687726, "grad_norm": 0.5417191386222839, "learning_rate": 6.785075074035748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241762, "epoch": 1.9189724826587393, "step": 25175}, {"loss": 0.12119768857955933, "token_acc": 0.953452154351964, "grad_norm": 0.8969895243644714, "learning_rate": 6.783956584933111e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241771, "epoch": 1.9193536092689991, "step": 25180}, {"loss": 0.111759614944458, "token_acc": 0.954954954954955, "grad_norm": 0.7606545686721802, "learning_rate": 6.782837993528843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24178, "epoch": 1.9197347358792591, "step": 25185}, {"loss": 0.07344452142715455, "token_acc": 0.9686274509803922, "grad_norm": 1.2079427242279053, "learning_rate": 6.781719299887089e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241783, "epoch": 1.920115862489519, "step": 25190}, {"loss": 0.16829919815063477, "token_acc": 0.9376412961567445, "grad_norm": 1.076113224029541, "learning_rate": 6.780600504072003e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241791, "epoch": 1.920496989099779, "step": 25195}, {"loss": 0.10033812522888183, "token_acc": 0.9628258293838863, "grad_norm": 0.6737515926361084, "learning_rate": 6.77948160614774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241798, "epoch": 1.920878115710039, "step": 25200}, {"eval_loss": 0.09176785498857498, "eval_token_acc": 0.9593774471417384, "eval_runtime": 220.2928, "eval_samples_per_second": 2.406, "eval_steps_per_second": 2.406, "epoch": 1.920878115710039, "step": 25200}, {"loss": 0.0991840898990631, "token_acc": 0.9593909364858599, "grad_norm": 0.7664294838905334, "learning_rate": 6.778362606178465e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241297, "epoch": 1.9212592423202988, "step": 25205}, {"loss": 0.09370362758636475, "token_acc": 0.966142824127571, "grad_norm": 1.2469252347946167, "learning_rate": 6.777243504228346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241298, "epoch": 1.9216403689305588, "step": 25210}, {"loss": 0.10333333015441895, "token_acc": 0.9550077041602465, "grad_norm": 0.8442803025245667, "learning_rate": 6.776124300361562e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241311, "epoch": 1.9220214955408186, "step": 25215}, {"loss": 0.15733399391174316, "token_acc": 0.9337767495662233, "grad_norm": 0.4351358413696289, "learning_rate": 6.775004994642289e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241324, "epoch": 1.9224026221510786, "step": 25220}, {"loss": 0.08440716862678528, "token_acc": 0.9627067669172933, "grad_norm": 1.0487085580825806, "learning_rate": 6.773885587134716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241335, "epoch": 1.9227837487613386, "step": 25225}, {"loss": 0.10238280296325683, "token_acc": 0.966940866056185, "grad_norm": 0.7106019258499146, "learning_rate": 6.77276607790304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241342, "epoch": 1.9231648753715984, "step": 25230}, {"loss": 0.11631821393966675, "token_acc": 0.9448776065276518, "grad_norm": 1.115917682647705, "learning_rate": 6.771646467011452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24135, "epoch": 1.9235460019818582, "step": 25235}, {"loss": 0.14865119457244874, "token_acc": 0.9490644490644491, "grad_norm": 0.9220513701438904, "learning_rate": 6.770526754524163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241363, "epoch": 1.9239271285921182, "step": 25240}, {"loss": 0.08053070306777954, "token_acc": 0.9638336347197106, "grad_norm": 0.0016941402573138475, "learning_rate": 6.76940694050538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241373, "epoch": 1.9243082552023782, "step": 25245}, {"loss": 0.10468261241912842, "token_acc": 0.9624174707973591, "grad_norm": 2.3710010051727295, "learning_rate": 6.76828702501932e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241389, "epoch": 1.9246893818126383, "step": 25250}, {"loss": 0.10870151519775391, "token_acc": 0.9508819538670285, "grad_norm": 0.13613176345825195, "learning_rate": 6.767167008130206e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241398, "epoch": 1.925070508422898, "step": 25255}, {"loss": 0.12578210830688477, "token_acc": 0.9539113104135526, "grad_norm": 1.7110073566436768, "learning_rate": 6.766046889902265e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241409, "epoch": 1.9254516350331579, "step": 25260}, {"loss": 0.14221386909484862, "token_acc": 0.9473981102806375, "grad_norm": 0.9698331952095032, "learning_rate": 6.76492667039973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241412, "epoch": 1.9258327616434179, "step": 25265}, {"loss": 0.12062525749206543, "token_acc": 0.956781914893617, "grad_norm": 1.0566977262496948, "learning_rate": 6.76380634968684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24142, "epoch": 1.926213888253678, "step": 25270}, {"loss": 0.09047983884811402, "token_acc": 0.9670357970641257, "grad_norm": 0.6626619100570679, "learning_rate": 6.762685927827839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241431, "epoch": 1.926595014863938, "step": 25275}, {"loss": 0.12996337413787842, "token_acc": 0.9512141280353201, "grad_norm": 0.7870355844497681, "learning_rate": 6.761565404886984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24144, "epoch": 1.9269761414741977, "step": 25280}, {"loss": 0.09792162179946899, "token_acc": 0.9669282511210763, "grad_norm": 0.7580623626708984, "learning_rate": 6.760444780928524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241455, "epoch": 1.9273572680844575, "step": 25285}, {"loss": 0.10272096395492554, "token_acc": 0.952, "grad_norm": 1.9348212480545044, "learning_rate": 6.759324056016729e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241465, "epoch": 1.9277383946947175, "step": 25290}, {"loss": 0.1022484302520752, "token_acc": 0.955070281124498, "grad_norm": 0.08082933723926544, "learning_rate": 6.75820323021586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241476, "epoch": 1.9281195213049775, "step": 25295}, {"loss": 0.15305899381637572, "token_acc": 0.9451572327044026, "grad_norm": 0.6600849628448486, "learning_rate": 6.757082303590197e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24149, "epoch": 1.9285006479152376, "step": 25300}, {"loss": 0.11588840484619141, "token_acc": 0.9525999292536258, "grad_norm": 0.9358091950416565, "learning_rate": 6.755961276204017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241503, "epoch": 1.9288817745254974, "step": 25305}, {"loss": 0.15204390287399291, "token_acc": 0.9394752534287418, "grad_norm": 0.948543131351471, "learning_rate": 6.754840148121607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241515, "epoch": 1.9292629011357572, "step": 25310}, {"loss": 0.0999747633934021, "token_acc": 0.9673343605546996, "grad_norm": 0.43907269835472107, "learning_rate": 6.753718919407257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241527, "epoch": 1.9296440277460172, "step": 25315}, {"loss": 0.12752728462219237, "token_acc": 0.9518008474576272, "grad_norm": 1.5358482599258423, "learning_rate": 6.752597590125266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241538, "epoch": 1.9300251543562772, "step": 25320}, {"loss": 0.09251788854599, "token_acc": 0.9594260267194458, "grad_norm": 1.0366036891937256, "learning_rate": 6.751476160339937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241548, "epoch": 1.9304062809665372, "step": 25325}, {"loss": 0.08221243619918824, "token_acc": 0.9695774647887324, "grad_norm": 0.9986807703971863, "learning_rate": 6.750354630115577e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241556, "epoch": 1.930787407576797, "step": 25330}, {"loss": 0.11665012836456298, "token_acc": 0.9554554554554554, "grad_norm": 0.9377936124801636, "learning_rate": 6.749232999516502e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241566, "epoch": 1.9311685341870568, "step": 25335}, {"loss": 0.12441972494125367, "token_acc": 0.9633911368015414, "grad_norm": 0.8646098971366882, "learning_rate": 6.748111268607031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241576, "epoch": 1.9315496607973168, "step": 25340}, {"loss": 0.12351741790771484, "token_acc": 0.9458937198067633, "grad_norm": 0.7443369030952454, "learning_rate": 6.74698943745149e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241587, "epoch": 1.9319307874075768, "step": 25345}, {"loss": 0.052913129329681396, "token_acc": 0.9730690106601833, "grad_norm": 0.4886271059513092, "learning_rate": 6.745867506114213e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241593, "epoch": 1.9323119140178369, "step": 25350}, {"loss": 0.11649851799011231, "token_acc": 0.9574227581009797, "grad_norm": 0.635986328125, "learning_rate": 6.744745474659537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241606, "epoch": 1.9326930406280967, "step": 25355}, {"loss": 0.10125173330307007, "token_acc": 0.9596278743198174, "grad_norm": 0.8671284914016724, "learning_rate": 6.743623343151806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241612, "epoch": 1.9330741672383565, "step": 25360}, {"loss": 0.11291807889938354, "token_acc": 0.9508196721311475, "grad_norm": 0.6492798924446106, "learning_rate": 6.742501111655365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241628, "epoch": 1.9334552938486165, "step": 25365}, {"loss": 0.10060656070709229, "token_acc": 0.9592466309465822, "grad_norm": 1.1481432914733887, "learning_rate": 6.741378780234572e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241632, "epoch": 1.9338364204588765, "step": 25370}, {"loss": 0.11030815839767456, "token_acc": 0.9600771456123433, "grad_norm": 0.5594195127487183, "learning_rate": 6.740256348953788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241641, "epoch": 1.9342175470691365, "step": 25375}, {"loss": 0.09129924774169922, "token_acc": 0.9623985423223456, "grad_norm": 0.5683815479278564, "learning_rate": 6.739133817877377e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241649, "epoch": 1.9345986736793963, "step": 25380}, {"loss": 0.11215239763259888, "token_acc": 0.9563042906027902, "grad_norm": 1.0507827997207642, "learning_rate": 6.738011187069712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241662, "epoch": 1.934979800289656, "step": 25385}, {"loss": 0.12267132997512817, "token_acc": 0.9458577951728636, "grad_norm": 1.2869359254837036, "learning_rate": 6.736888456595173e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241675, "epoch": 1.9353609268999161, "step": 25390}, {"loss": 0.110951828956604, "token_acc": 0.9631914456097059, "grad_norm": 1.3183735609054565, "learning_rate": 6.735765626518138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241686, "epoch": 1.9357420535101761, "step": 25395}, {"loss": 0.04065674245357513, "token_acc": 0.9770114942528736, "grad_norm": 0.5601490139961243, "learning_rate": 6.734642696903001e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241693, "epoch": 1.9361231801204362, "step": 25400}, {"eval_loss": 0.09472565352916718, "eval_token_acc": 0.9585115354496717, "eval_runtime": 220.1762, "eval_samples_per_second": 2.407, "eval_steps_per_second": 2.407, "epoch": 1.9361231801204362, "step": 25400}, {"loss": 0.07228307723999024, "token_acc": 0.9590520692315531, "grad_norm": 1.0650886297225952, "learning_rate": 6.733519667814156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241196, "epoch": 1.936504306730696, "step": 25405}, {"loss": 0.10173146724700928, "token_acc": 0.9534435541129932, "grad_norm": 0.7388157844543457, "learning_rate": 6.732396539316003e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241199, "epoch": 1.9368854333409558, "step": 25410}, {"loss": 0.11366972923278809, "token_acc": 0.9575306479859895, "grad_norm": 1.1310505867004395, "learning_rate": 6.731273311472945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241209, "epoch": 1.9372665599512158, "step": 25415}, {"loss": 0.10917258262634277, "token_acc": 0.9560412268719731, "grad_norm": 0.7030280828475952, "learning_rate": 6.730149984349397e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241213, "epoch": 1.9376476865614758, "step": 25420}, {"loss": 0.08775395750999451, "token_acc": 0.961982540129541, "grad_norm": 0.8771541118621826, "learning_rate": 6.729026558009778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241224, "epoch": 1.9380288131717358, "step": 25425}, {"loss": 0.12893235683441162, "token_acc": 0.9568782265411478, "grad_norm": 1.57017183303833, "learning_rate": 6.727903032518509e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241235, "epoch": 1.9384099397819956, "step": 25430}, {"loss": 0.12148727178573608, "token_acc": 0.9488348530901722, "grad_norm": 0.7722845077514648, "learning_rate": 6.726779407940018e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241244, "epoch": 1.9387910663922554, "step": 25435}, {"loss": 0.12846884727478028, "token_acc": 0.9514268366727383, "grad_norm": 1.3621958494186401, "learning_rate": 6.725655684338743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241254, "epoch": 1.9391721930025154, "step": 25440}, {"loss": 0.1291172742843628, "token_acc": 0.9546735556599343, "grad_norm": 0.6706028580665588, "learning_rate": 6.724531861779123e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241261, "epoch": 1.9395533196127754, "step": 25445}, {"loss": 0.09779455661773681, "token_acc": 0.9653812445223489, "grad_norm": 0.6236817240715027, "learning_rate": 6.723407940325601e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241263, "epoch": 1.9399344462230355, "step": 25450}, {"loss": 0.13151650428771972, "token_acc": 0.952457956015524, "grad_norm": 1.3929885625839233, "learning_rate": 6.722283920042634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241274, "epoch": 1.9403155728332953, "step": 25455}, {"loss": 0.10368912220001221, "token_acc": 0.9663187855787476, "grad_norm": 1.0076351165771484, "learning_rate": 6.721159800994676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241283, "epoch": 1.940696699443555, "step": 25460}, {"loss": 0.08904297947883606, "token_acc": 0.9611111111111111, "grad_norm": 1.31459641456604, "learning_rate": 6.720035583246189e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241293, "epoch": 1.941077826053815, "step": 25465}, {"loss": 0.0969819724559784, "token_acc": 0.962409886714727, "grad_norm": 1.1427481174468994, "learning_rate": 6.718911266861644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241302, "epoch": 1.941458952664075, "step": 25470}, {"loss": 0.1359075665473938, "token_acc": 0.9422230051083319, "grad_norm": 0.8767688870429993, "learning_rate": 6.717786851905515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24131, "epoch": 1.9418400792743349, "step": 25475}, {"loss": 0.09809097051620483, "token_acc": 0.9605519724013799, "grad_norm": 0.9665900468826294, "learning_rate": 6.716662338442282e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241317, "epoch": 1.942221205884595, "step": 25480}, {"loss": 0.13839807510375976, "token_acc": 0.9557544757033248, "grad_norm": 1.3745023012161255, "learning_rate": 6.715537726536427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241328, "epoch": 1.9426023324948547, "step": 25485}, {"loss": 0.11799775362014771, "token_acc": 0.9610619469026549, "grad_norm": 0.7256761193275452, "learning_rate": 6.714413016252448e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24134, "epoch": 1.9429834591051147, "step": 25490}, {"loss": 0.10995889902114868, "token_acc": 0.9559132260321903, "grad_norm": 0.8939529657363892, "learning_rate": 6.713288207654838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241354, "epoch": 1.9433645857153747, "step": 25495}, {"loss": 0.10507405996322632, "token_acc": 0.966094934184284, "grad_norm": 0.7190664410591125, "learning_rate": 6.712163300808098e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241367, "epoch": 1.9437457123256345, "step": 25500}, {"loss": 0.06041609644889832, "token_acc": 0.9787556904400607, "grad_norm": 0.5132302045822144, "learning_rate": 6.71103829577674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241366, "epoch": 1.9441268389358946, "step": 25505}, {"loss": 0.08416474461555482, "token_acc": 0.9659543643607389, "grad_norm": 0.6095417737960815, "learning_rate": 6.709913192625276e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241374, "epoch": 1.9445079655461543, "step": 25510}, {"loss": 0.11599817276000976, "token_acc": 0.951212166842343, "grad_norm": 0.8764410614967346, "learning_rate": 6.708787991418222e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241381, "epoch": 1.9448890921564144, "step": 25515}, {"loss": 0.09775006771087646, "token_acc": 0.9633315872184389, "grad_norm": 0.7054735422134399, "learning_rate": 6.70766269222011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241388, "epoch": 1.9452702187666744, "step": 25520}, {"loss": 0.10299659967422485, "token_acc": 0.9625212947189097, "grad_norm": 1.1979063749313354, "learning_rate": 6.706537295095467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241402, "epoch": 1.9456513453769342, "step": 25525}, {"loss": 0.09154881238937378, "token_acc": 0.9685662596110357, "grad_norm": 1.209309458732605, "learning_rate": 6.70541180010883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241411, "epoch": 1.9460324719871942, "step": 25530}, {"loss": 0.087744802236557, "token_acc": 0.9697137580794091, "grad_norm": 0.8875465989112854, "learning_rate": 6.704286207324737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241421, "epoch": 1.946413598597454, "step": 25535}, {"loss": 0.1355154037475586, "token_acc": 0.9499861840287372, "grad_norm": 0.8628054261207581, "learning_rate": 6.703160516807742e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241432, "epoch": 1.946794725207714, "step": 25540}, {"loss": 0.11317617893218994, "token_acc": 0.9651810584958217, "grad_norm": 1.8349336385726929, "learning_rate": 6.702034728622393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241439, "epoch": 1.947175851817974, "step": 25545}, {"loss": 0.09008875489234924, "token_acc": 0.9568801521876982, "grad_norm": 0.5899932384490967, "learning_rate": 6.700908842833251e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241451, "epoch": 1.9475569784282338, "step": 25550}, {"loss": 0.15021508932113647, "token_acc": 0.9430409914204004, "grad_norm": 1.1865785121917725, "learning_rate": 6.69978285950488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241449, "epoch": 1.9479381050384936, "step": 25555}, {"loss": 0.061830770969390866, "token_acc": 0.9678518518518519, "grad_norm": 0.5801621079444885, "learning_rate": 6.69865677870185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241452, "epoch": 1.9483192316487536, "step": 25560}, {"loss": 0.08466415405273438, "token_acc": 0.9633275904504061, "grad_norm": 0.8859827518463135, "learning_rate": 6.697530600488738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241462, "epoch": 1.9487003582590137, "step": 25565}, {"loss": 0.11362833976745605, "token_acc": 0.961352657004831, "grad_norm": 0.7899249792098999, "learning_rate": 6.696404324930123e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241473, "epoch": 1.9490814848692737, "step": 25570}, {"loss": 0.09864280819892883, "token_acc": 0.951063829787234, "grad_norm": 0.9784717559814453, "learning_rate": 6.69527795209059e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241482, "epoch": 1.9494626114795335, "step": 25575}, {"loss": 0.11802574396133422, "token_acc": 0.9591102387962054, "grad_norm": 0.7010583877563477, "learning_rate": 6.694151482034736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241484, "epoch": 1.9498437380897933, "step": 25580}, {"loss": 0.13576021194458007, "token_acc": 0.9517901453385325, "grad_norm": 0.6966609358787537, "learning_rate": 6.693024914827155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24149, "epoch": 1.9502248647000533, "step": 25585}, {"loss": 0.08475621938705444, "token_acc": 0.95744301994302, "grad_norm": 0.7725162506103516, "learning_rate": 6.691898250532453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241498, "epoch": 1.9506059913103133, "step": 25590}, {"loss": 0.09059439301490783, "token_acc": 0.9613439306358381, "grad_norm": 0.5484259128570557, "learning_rate": 6.690771489215237e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241511, "epoch": 1.9509871179205733, "step": 25595}, {"loss": 0.10038014650344848, "token_acc": 0.961570362178601, "grad_norm": 1.1703639030456543, "learning_rate": 6.689644630940121e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241521, "epoch": 1.9513682445308331, "step": 25600}, {"eval_loss": 0.09341057389974594, "eval_token_acc": 0.9590235527980242, "eval_runtime": 221.9371, "eval_samples_per_second": 2.388, "eval_steps_per_second": 2.388, "epoch": 1.9513682445308331, "step": 25600}, {"loss": 0.07046685814857483, "token_acc": 0.9595257296048473, "grad_norm": 0.7381249070167542, "learning_rate": 6.688517675771729e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241023, "epoch": 1.951749371141093, "step": 25605}, {"loss": 0.1318049669265747, "token_acc": 0.9346781940441883, "grad_norm": 1.02713143825531, "learning_rate": 6.687390623774683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241036, "epoch": 1.952130497751353, "step": 25610}, {"loss": 0.07630914449691772, "token_acc": 0.966417194396469, "grad_norm": 0.9179072976112366, "learning_rate": 6.686263475013616e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241046, "epoch": 1.952511624361613, "step": 25615}, {"loss": 0.08883668184280395, "token_acc": 0.9594714964370546, "grad_norm": 0.9029240012168884, "learning_rate": 6.68513622955316e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24105, "epoch": 1.952892750971873, "step": 25620}, {"loss": 0.12069019079208373, "token_acc": 0.9536263143704502, "grad_norm": 0.9136301279067993, "learning_rate": 6.684008887457964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241063, "epoch": 1.9532738775821328, "step": 25625}, {"loss": 0.11324212551116944, "token_acc": 0.9410589410589411, "grad_norm": 1.1142699718475342, "learning_rate": 6.682881448792673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241076, "epoch": 1.9536550041923926, "step": 25630}, {"loss": 0.1016167163848877, "token_acc": 0.9546533087266016, "grad_norm": 0.6013747453689575, "learning_rate": 6.681753913621941e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241082, "epoch": 1.9540361308026526, "step": 25635}, {"loss": 0.12658778429031373, "token_acc": 0.9536118162935611, "grad_norm": 0.6005774736404419, "learning_rate": 6.680626282010425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241092, "epoch": 1.9544172574129126, "step": 25640}, {"loss": 0.04936954379081726, "token_acc": 0.9702393340270552, "grad_norm": 0.658902645111084, "learning_rate": 6.679498554022792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241102, "epoch": 1.9547983840231726, "step": 25645}, {"loss": 0.12246394157409668, "token_acc": 0.9489478499542543, "grad_norm": 0.8696643710136414, "learning_rate": 6.678370729723711e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241108, "epoch": 1.9551795106334324, "step": 25650}, {"loss": 0.11863361597061158, "token_acc": 0.9517839922854388, "grad_norm": 1.0736279487609863, "learning_rate": 6.677242809177856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241118, "epoch": 1.9555606372436922, "step": 25655}, {"loss": 0.12168625593185425, "token_acc": 0.9590840840840841, "grad_norm": 0.7502106428146362, "learning_rate": 6.67611479244991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241132, "epoch": 1.9559417638539522, "step": 25660}, {"loss": 0.1333797335624695, "token_acc": 0.9505381545531503, "grad_norm": 0.9132732152938843, "learning_rate": 6.674986679604559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241138, "epoch": 1.9563228904642123, "step": 25665}, {"loss": 0.12929890155792237, "token_acc": 0.9515447154471545, "grad_norm": 0.6566485166549683, "learning_rate": 6.673858470706493e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241149, "epoch": 1.9567040170744723, "step": 25670}, {"loss": 0.07238308191299439, "token_acc": 0.9696485623003195, "grad_norm": 0.5940651297569275, "learning_rate": 6.672730165820414e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24116, "epoch": 1.957085143684732, "step": 25675}, {"loss": 0.10333422422409058, "token_acc": 0.9662047989185536, "grad_norm": 1.4403315782546997, "learning_rate": 6.67160176501102e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241172, "epoch": 1.9574662702949919, "step": 25680}, {"loss": 0.06644163131713868, "token_acc": 0.9723175204069561, "grad_norm": 0.1298375129699707, "learning_rate": 6.670473268343022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241172, "epoch": 1.957847396905252, "step": 25685}, {"loss": 0.15387394428253173, "token_acc": 0.9348692955250333, "grad_norm": 1.3385024070739746, "learning_rate": 6.669344675881135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241187, "epoch": 1.958228523515512, "step": 25690}, {"loss": 0.1421678900718689, "token_acc": 0.9490995497748874, "grad_norm": 1.4127888679504395, "learning_rate": 6.668215987690079e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241188, "epoch": 1.958609650125772, "step": 25695}, {"loss": 0.09716130495071411, "token_acc": 0.9679073614557485, "grad_norm": 0.8296637535095215, "learning_rate": 6.667087203834576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241194, "epoch": 1.9589907767360317, "step": 25700}, {"loss": 0.12091450691223145, "token_acc": 0.9604925602873269, "grad_norm": 0.5406894683837891, "learning_rate": 6.665958324379358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241199, "epoch": 1.9593719033462915, "step": 25705}, {"loss": 0.09301092624664306, "token_acc": 0.9612716763005781, "grad_norm": 0.8709231019020081, "learning_rate": 6.664829349389161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241207, "epoch": 1.9597530299565515, "step": 25710}, {"loss": 0.14764015674591063, "token_acc": 0.9407665505226481, "grad_norm": 2.548740863800049, "learning_rate": 6.663700278928728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241221, "epoch": 1.9601341565668116, "step": 25715}, {"loss": 0.10981954336166382, "token_acc": 0.9504634994206257, "grad_norm": 1.3500055074691772, "learning_rate": 6.662571113062804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241235, "epoch": 1.9605152831770716, "step": 25720}, {"loss": 0.10976629257202149, "token_acc": 0.9597349643221202, "grad_norm": 0.9150088429450989, "learning_rate": 6.661441851856141e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24125, "epoch": 1.9608964097873314, "step": 25725}, {"loss": 0.1517275094985962, "token_acc": 0.937821993249245, "grad_norm": 0.8238550424575806, "learning_rate": 6.660312495373498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241261, "epoch": 1.9612775363975912, "step": 25730}, {"loss": 0.12827932834625244, "token_acc": 0.9418859649122807, "grad_norm": 0.8592469692230225, "learning_rate": 6.659183043679638e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241275, "epoch": 1.9616586630078512, "step": 25735}, {"loss": 0.1013903021812439, "token_acc": 0.9646127580319727, "grad_norm": 0.7015056014060974, "learning_rate": 6.65805349683933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241282, "epoch": 1.9620397896181112, "step": 25740}, {"loss": 0.13102164268493652, "token_acc": 0.9521410579345088, "grad_norm": 0.6849764585494995, "learning_rate": 6.656923854917349e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241289, "epoch": 1.9624209162283712, "step": 25745}, {"loss": 0.1342444658279419, "token_acc": 0.9534383954154728, "grad_norm": 1.4717473983764648, "learning_rate": 6.655794117978475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241299, "epoch": 1.962802042838631, "step": 25750}, {"loss": 0.06685240268707275, "token_acc": 0.9690801339860861, "grad_norm": 0.5564463138580322, "learning_rate": 6.65466428608749e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241309, "epoch": 1.9631831694488908, "step": 25755}, {"loss": 0.10643432140350342, "token_acc": 0.9591044776119403, "grad_norm": 1.2880631685256958, "learning_rate": 6.653534359309186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241319, "epoch": 1.9635642960591508, "step": 25760}, {"loss": 0.10490972995758056, "token_acc": 0.9683351991044299, "grad_norm": 0.5333672165870667, "learning_rate": 6.652404337708362e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241325, "epoch": 1.9639454226694109, "step": 25765}, {"loss": 0.10806642770767212, "token_acc": 0.9562964242528934, "grad_norm": 0.7675747871398926, "learning_rate": 6.651274221349817e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241332, "epoch": 1.9643265492796707, "step": 25770}, {"loss": 0.09376006126403809, "token_acc": 0.9619714786089567, "grad_norm": 0.8232045769691467, "learning_rate": 6.650144010298358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241341, "epoch": 1.9647076758899307, "step": 25775}, {"loss": 0.06518564820289612, "token_acc": 0.9721529509559435, "grad_norm": 0.804635226726532, "learning_rate": 6.649013704618798e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241343, "epoch": 1.9650888025001905, "step": 25780}, {"loss": 0.09170768857002258, "token_acc": 0.9618353344768439, "grad_norm": 0.9937106370925903, "learning_rate": 6.647883304375954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241356, "epoch": 1.9654699291104505, "step": 25785}, {"loss": 0.16496696472167968, "token_acc": 0.9310958555809814, "grad_norm": 1.1889737844467163, "learning_rate": 6.646752809634649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241366, "epoch": 1.9658510557207105, "step": 25790}, {"loss": 0.1551036834716797, "token_acc": 0.9443495240419819, "grad_norm": 1.7084089517593384, "learning_rate": 6.645622220459713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241376, "epoch": 1.9662321823309703, "step": 25795}, {"loss": 0.11817775964736939, "token_acc": 0.9529004789781799, "grad_norm": 1.657727837562561, "learning_rate": 6.644491536915979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241387, "epoch": 1.9666133089412303, "step": 25800}, {"eval_loss": 0.09299156814813614, "eval_token_acc": 0.9594452141437263, "eval_runtime": 219.9905, "eval_samples_per_second": 2.409, "eval_steps_per_second": 2.409, "epoch": 1.9666133089412303, "step": 25800}, {"loss": 0.08172635436058044, "token_acc": 0.9595520191200688, "grad_norm": 1.294771671295166, "learning_rate": 6.643360759068286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240897, "epoch": 1.9669944355514901, "step": 25805}, {"loss": 0.11432948112487792, "token_acc": 0.9651987110633727, "grad_norm": 0.6386441588401794, "learning_rate": 6.642229886981481e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240905, "epoch": 1.9673755621617501, "step": 25810}, {"loss": 0.13426809310913085, "token_acc": 0.9544205222171324, "grad_norm": 0.7928968667984009, "learning_rate": 6.641098920720413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240906, "epoch": 1.9677566887720102, "step": 25815}, {"loss": 0.07573255896568298, "token_acc": 0.964801049409707, "grad_norm": 0.9315042495727539, "learning_rate": 6.639967860349936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240916, "epoch": 1.96813781538227, "step": 25820}, {"loss": 0.09939044713973999, "token_acc": 0.9623291476830759, "grad_norm": 0.5195799469947815, "learning_rate": 6.638836705934913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240914, "epoch": 1.96851894199253, "step": 25825}, {"loss": 0.09861472845077515, "token_acc": 0.9544769369912571, "grad_norm": 0.3561801612377167, "learning_rate": 6.63770545754021e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240924, "epoch": 1.9689000686027898, "step": 25830}, {"loss": 0.11386866569519043, "token_acc": 0.9542144748455428, "grad_norm": 0.6425355076789856, "learning_rate": 6.6365741152307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240926, "epoch": 1.9692811952130498, "step": 25835}, {"loss": 0.09547186493873597, "token_acc": 0.9513212795549374, "grad_norm": 0.6313372850418091, "learning_rate": 6.635442679071259e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240936, "epoch": 1.9696623218233098, "step": 25840}, {"loss": 0.1002464771270752, "token_acc": 0.9710769230769231, "grad_norm": 1.4487853050231934, "learning_rate": 6.634311149126769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240943, "epoch": 1.9700434484335696, "step": 25845}, {"loss": 0.13840703964233397, "token_acc": 0.9464346639372228, "grad_norm": 2.4945571422576904, "learning_rate": 6.633179525462119e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240954, "epoch": 1.9704245750438294, "step": 25850}, {"loss": 0.12849892377853395, "token_acc": 0.9591386910817227, "grad_norm": 1.7437186241149902, "learning_rate": 6.632047808142203e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240964, "epoch": 1.9708057016540894, "step": 25855}, {"loss": 0.09771297574043274, "token_acc": 0.9513023782559457, "grad_norm": 0.8548665046691895, "learning_rate": 6.630915997231916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240968, "epoch": 1.9711868282643494, "step": 25860}, {"loss": 0.11660987138748169, "token_acc": 0.9631732168850072, "grad_norm": 0.6223412752151489, "learning_rate": 6.629784092796167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240971, "epoch": 1.9715679548746095, "step": 25865}, {"loss": 0.13441104888916017, "token_acc": 0.9424682957005877, "grad_norm": 1.3483121395111084, "learning_rate": 6.628652094899863e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240984, "epoch": 1.9719490814848692, "step": 25870}, {"loss": 0.1043013334274292, "token_acc": 0.9655812384005399, "grad_norm": 0.8816883563995361, "learning_rate": 6.627520003607918e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240991, "epoch": 1.972330208095129, "step": 25875}, {"loss": 0.09282463788986206, "token_acc": 0.964837829645347, "grad_norm": 0.9880886673927307, "learning_rate": 6.626387818985257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241004, "epoch": 1.972711334705389, "step": 25880}, {"loss": 0.07190305590629578, "token_acc": 0.9673681000304971, "grad_norm": 0.6471860408782959, "learning_rate": 6.625255541096799e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241016, "epoch": 1.973092461315649, "step": 25885}, {"loss": 0.17652335166931152, "token_acc": 0.9248677248677248, "grad_norm": 1.3265693187713623, "learning_rate": 6.62412317000748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241031, "epoch": 1.973473587925909, "step": 25890}, {"loss": 0.1100031852722168, "token_acc": 0.9494511105437835, "grad_norm": 1.5288797616958618, "learning_rate": 6.62299070578223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241041, "epoch": 1.973854714536169, "step": 25895}, {"loss": 0.1015278458595276, "token_acc": 0.9672769081100203, "grad_norm": 0.4328297972679138, "learning_rate": 6.621858148485997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241036, "epoch": 1.9742358411464287, "step": 25900}, {"loss": 0.10842350721359253, "token_acc": 0.9621857469353834, "grad_norm": 0.6530630588531494, "learning_rate": 6.620725498183728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241045, "epoch": 1.9746169677566887, "step": 25905}, {"loss": 0.11299914121627808, "token_acc": 0.953551912568306, "grad_norm": 1.2312203645706177, "learning_rate": 6.61959275494037e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241056, "epoch": 1.9749980943669487, "step": 25910}, {"loss": 0.08720279932022094, "token_acc": 0.9589142963376093, "grad_norm": 0.6641731858253479, "learning_rate": 6.618459918820883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241064, "epoch": 1.9753792209772087, "step": 25915}, {"loss": 0.12663037776947023, "token_acc": 0.9549192364170338, "grad_norm": 0.5112627744674683, "learning_rate": 6.617326989890232e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241068, "epoch": 1.9757603475874685, "step": 25920}, {"loss": 0.09054120779037475, "token_acc": 0.9663461538461539, "grad_norm": 0.6182435750961304, "learning_rate": 6.616193968213383e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241082, "epoch": 1.9761414741977283, "step": 25925}, {"loss": 0.07046051025390625, "token_acc": 0.9675625579240037, "grad_norm": 0.8282514214515686, "learning_rate": 6.615060853855308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241092, "epoch": 1.9765226008079884, "step": 25930}, {"loss": 0.09891223907470703, "token_acc": 0.960220740400092, "grad_norm": 0.8812187910079956, "learning_rate": 6.613927646880991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241103, "epoch": 1.9769037274182484, "step": 25935}, {"loss": 0.12211040258407593, "token_acc": 0.963098016336056, "grad_norm": 0.9234439730644226, "learning_rate": 6.612794347355411e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241104, "epoch": 1.9772848540285084, "step": 25940}, {"loss": 0.09554874897003174, "token_acc": 0.9566082082806002, "grad_norm": 1.0267410278320312, "learning_rate": 6.611660955343559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241111, "epoch": 1.9776659806387682, "step": 25945}, {"loss": 0.09236326217651367, "token_acc": 0.9621596677434241, "grad_norm": 0.9504725933074951, "learning_rate": 6.610527470910432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241122, "epoch": 1.978047107249028, "step": 25950}, {"loss": 0.11468203067779541, "token_acc": 0.9433714607162947, "grad_norm": 1.0098053216934204, "learning_rate": 6.609393894121027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24113, "epoch": 1.978428233859288, "step": 25955}, {"loss": 0.12111028432846069, "token_acc": 0.9518468670554808, "grad_norm": 0.9678493738174438, "learning_rate": 6.60826022504035e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241133, "epoch": 1.978809360469548, "step": 25960}, {"loss": 0.08237897753715515, "token_acc": 0.9657481328869431, "grad_norm": 0.8734918832778931, "learning_rate": 6.607126463733413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241137, "epoch": 1.979190487079808, "step": 25965}, {"loss": 0.09220286011695862, "token_acc": 0.9566717791411042, "grad_norm": 0.5150777697563171, "learning_rate": 6.605992610265233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241146, "epoch": 1.9795716136900678, "step": 25970}, {"loss": 0.13282779455184937, "token_acc": 0.9450122649223222, "grad_norm": 0.8618993759155273, "learning_rate": 6.604858664700828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241153, "epoch": 1.9799527403003276, "step": 25975}, {"loss": 0.1259993553161621, "token_acc": 0.9544296631757713, "grad_norm": 1.9674850702285767, "learning_rate": 6.603724627105226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241165, "epoch": 1.9803338669105877, "step": 25980}, {"loss": 0.11042227745056152, "token_acc": 0.9574126155082362, "grad_norm": 0.8697695136070251, "learning_rate": 6.602590497543459e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241172, "epoch": 1.9807149935208477, "step": 25985}, {"loss": 0.13682951927185058, "token_acc": 0.9424623633738916, "grad_norm": 0.6823428869247437, "learning_rate": 6.601456276080564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241181, "epoch": 1.9810961201311077, "step": 25990}, {"loss": 0.09563738703727723, "token_acc": 0.9650494027429583, "grad_norm": 0.7488774657249451, "learning_rate": 6.600321962781584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241187, "epoch": 1.9814772467413675, "step": 25995}, {"loss": 0.14637744426727295, "token_acc": 0.9258278145695364, "grad_norm": 0.9882155656814575, "learning_rate": 6.599187557711564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241203, "epoch": 1.9818583733516273, "step": 26000}, {"eval_loss": 0.08902326971292496, "eval_token_acc": 0.9598593458225408, "eval_runtime": 219.0777, "eval_samples_per_second": 2.419, "eval_steps_per_second": 2.419, "epoch": 1.9818583733516273, "step": 26000}, {"loss": 0.1422951936721802, "token_acc": 0.9597559203835537, "grad_norm": 1.566598892211914, "learning_rate": 6.59805306093556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240717, "epoch": 1.9822394999618873, "step": 26005}, {"loss": 0.09192507863044738, "token_acc": 0.9663359319631467, "grad_norm": 0.5387257933616638, "learning_rate": 6.596918472518628e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240723, "epoch": 1.9826206265721473, "step": 26010}, {"loss": 0.12191234827041626, "token_acc": 0.9467140319715808, "grad_norm": 1.585392713546753, "learning_rate": 6.595783792525833e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240735, "epoch": 1.9830017531824073, "step": 26015}, {"loss": 0.157107150554657, "token_acc": 0.9419546882751778, "grad_norm": 0.936375081539154, "learning_rate": 6.594649021022241e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240739, "epoch": 1.9833828797926671, "step": 26020}, {"loss": 0.10039744377136231, "token_acc": 0.9620946538124452, "grad_norm": 0.6655643582344055, "learning_rate": 6.59351415807293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240749, "epoch": 1.983764006402927, "step": 26025}, {"loss": 0.11313588619232177, "token_acc": 0.9530814100938372, "grad_norm": 0.5425387620925903, "learning_rate": 6.592379203742977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240761, "epoch": 1.984145133013187, "step": 26030}, {"loss": 0.11707713603973388, "token_acc": 0.9548362815205118, "grad_norm": 0.5904073715209961, "learning_rate": 6.591244158097464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240768, "epoch": 1.984526259623447, "step": 26035}, {"loss": 0.08734502196311951, "token_acc": 0.9564564564564565, "grad_norm": 0.454168438911438, "learning_rate": 6.590109021201485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24078, "epoch": 1.984907386233707, "step": 26040}, {"loss": 0.08911625146865845, "token_acc": 0.9649869884078542, "grad_norm": 0.8447994589805603, "learning_rate": 6.588973793120133e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240789, "epoch": 1.9852885128439668, "step": 26045}, {"loss": 0.09370272755622863, "token_acc": 0.9470899470899471, "grad_norm": 0.8310016393661499, "learning_rate": 6.587838473918505e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240803, "epoch": 1.9856696394542266, "step": 26050}, {"loss": 0.11950793266296386, "token_acc": 0.9564121945074326, "grad_norm": 0.6698933243751526, "learning_rate": 6.58670306366171e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240814, "epoch": 1.9860507660644866, "step": 26055}, {"loss": 0.09391063451766968, "token_acc": 0.9730492813141683, "grad_norm": 1.802700400352478, "learning_rate": 6.585567562414859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240825, "epoch": 1.9864318926747466, "step": 26060}, {"loss": 0.06451411843299866, "token_acc": 0.9611989702096359, "grad_norm": 0.5994386672973633, "learning_rate": 6.584431970243064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240832, "epoch": 1.9868130192850066, "step": 26065}, {"loss": 0.0855342447757721, "token_acc": 0.9619191049913941, "grad_norm": 1.9238004684448242, "learning_rate": 6.58329628721145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240841, "epoch": 1.9871941458952664, "step": 26070}, {"loss": 0.0618017852306366, "token_acc": 0.9713603818615751, "grad_norm": 1.2280157804489136, "learning_rate": 6.58216051338514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240857, "epoch": 1.9875752725055262, "step": 26075}, {"loss": 0.10722067356109619, "token_acc": 0.9492920015308075, "grad_norm": 0.5866227746009827, "learning_rate": 6.581024648829268e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240866, "epoch": 1.9879563991157863, "step": 26080}, {"loss": 0.0966400682926178, "token_acc": 0.9712843168191858, "grad_norm": 0.4604701101779938, "learning_rate": 6.579888693608967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240873, "epoch": 1.9883375257260463, "step": 26085}, {"loss": 0.11330108642578125, "token_acc": 0.9551412758520245, "grad_norm": 0.7597588300704956, "learning_rate": 6.578752647789383e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240883, "epoch": 1.988718652336306, "step": 26090}, {"loss": 0.1200719952583313, "token_acc": 0.9482529854046882, "grad_norm": 0.5999710559844971, "learning_rate": 6.577616511435661e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240894, "epoch": 1.989099778946566, "step": 26095}, {"loss": 0.1576218843460083, "token_acc": 0.9396526346776568, "grad_norm": 1.4099926948547363, "learning_rate": 6.576480284612952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240906, "epoch": 1.9894809055568259, "step": 26100}, {"loss": 0.10392158031463623, "token_acc": 0.9620497014062801, "grad_norm": 0.7893127799034119, "learning_rate": 6.575343967386416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240917, "epoch": 1.989862032167086, "step": 26105}, {"loss": 0.08679304122924805, "token_acc": 0.9550190176947246, "grad_norm": 0.7216599583625793, "learning_rate": 6.574207559821213e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24092, "epoch": 1.990243158777346, "step": 26110}, {"loss": 0.08989113569259644, "token_acc": 0.9634535588892436, "grad_norm": 0.6808780431747437, "learning_rate": 6.573071061982512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240927, "epoch": 1.9906242853876057, "step": 26115}, {"loss": 0.09862396121025085, "token_acc": 0.9633688405241781, "grad_norm": 1.2944449186325073, "learning_rate": 6.571934473935485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240921, "epoch": 1.9910054119978657, "step": 26120}, {"loss": 0.08003859519958496, "token_acc": 0.9634733893557423, "grad_norm": 0.5983178019523621, "learning_rate": 6.570797795745311e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240922, "epoch": 1.9913865386081255, "step": 26125}, {"loss": 0.13768817186355592, "token_acc": 0.9386892177589852, "grad_norm": 1.7874500751495361, "learning_rate": 6.569661027477173e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240939, "epoch": 1.9917676652183856, "step": 26130}, {"loss": 0.06939210891723632, "token_acc": 0.9737721779377732, "grad_norm": 0.4989190697669983, "learning_rate": 6.568524169196258e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24095, "epoch": 1.9921487918286456, "step": 26135}, {"loss": 0.11524865627288819, "token_acc": 0.9537423069287274, "grad_norm": 0.812203586101532, "learning_rate": 6.567387220967762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240958, "epoch": 1.9925299184389054, "step": 26140}, {"loss": 0.13886805772781372, "token_acc": 0.960679945054945, "grad_norm": 1.0384266376495361, "learning_rate": 6.566250182856882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240963, "epoch": 1.9929110450491654, "step": 26145}, {"loss": 0.11722745895385742, "token_acc": 0.9544459045116075, "grad_norm": 0.8786221146583557, "learning_rate": 6.565113054928822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240972, "epoch": 1.9932921716594252, "step": 26150}, {"loss": 0.1277235269546509, "token_acc": 0.9556200145032633, "grad_norm": 0.9618441462516785, "learning_rate": 6.563975837248791e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240975, "epoch": 1.9936732982696852, "step": 26155}, {"loss": 0.0825173556804657, "token_acc": 0.9635173058933583, "grad_norm": 0.8579375743865967, "learning_rate": 6.562838529882005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240988, "epoch": 1.9940544248799452, "step": 26160}, {"loss": 0.17754406929016114, "token_acc": 0.9329363024339721, "grad_norm": 0.7828971743583679, "learning_rate": 6.56170113289368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240998, "epoch": 1.994435551490205, "step": 26165}, {"loss": 0.09512693285942078, "token_acc": 0.9595338297183554, "grad_norm": 0.9978771209716797, "learning_rate": 6.560563646349042e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241011, "epoch": 1.9948166781004648, "step": 26170}, {"loss": 0.15674927234649658, "token_acc": 0.9314040728831725, "grad_norm": 1.3242008686065674, "learning_rate": 6.559426070313323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241017, "epoch": 1.9951978047107248, "step": 26175}, {"loss": 0.079948091506958, "token_acc": 0.9686374231828777, "grad_norm": 1.0694735050201416, "learning_rate": 6.558288404851755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241027, "epoch": 1.9955789313209849, "step": 26180}, {"loss": 0.09720447063446044, "token_acc": 0.9587852494577006, "grad_norm": 1.0680488348007202, "learning_rate": 6.557150650029577e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24104, "epoch": 1.9959600579312449, "step": 26185}, {"loss": 0.11324896812438964, "token_acc": 0.95856, "grad_norm": 1.4117043018341064, "learning_rate": 6.556012805912036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241044, "epoch": 1.9963411845415047, "step": 26190}, {"loss": 0.12777948379516602, "token_acc": 0.9458333333333333, "grad_norm": 1.948655128479004, "learning_rate": 6.554874872564381e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241055, "epoch": 1.9967223111517645, "step": 26195}, {"loss": 0.11586674451828002, "token_acc": 0.9554933875890133, "grad_norm": 0.8801734447479248, "learning_rate": 6.55373685005187e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.241066, "epoch": 1.9971034377620245, "step": 26200}, {"eval_loss": 0.09197056293487549, "eval_token_acc": 0.9595129811457141, "eval_runtime": 219.9195, "eval_samples_per_second": 2.41, "eval_steps_per_second": 2.41, "epoch": 1.9971034377620245, "step": 26200}, {"loss": 0.10808560848236085, "token_acc": 0.9593632204414008, "grad_norm": 0.8584057092666626, "learning_rate": 6.552598738439757e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240586, "epoch": 1.9974845643722845, "step": 26205}, {"loss": 0.09256476759910584, "token_acc": 0.962152209492635, "grad_norm": 0.10203911364078522, "learning_rate": 6.551460537793314e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240594, "epoch": 1.9978656909825445, "step": 26210}, {"loss": 0.09724140167236328, "token_acc": 0.9585737840065952, "grad_norm": 0.8576064109802246, "learning_rate": 6.550322248177808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240606, "epoch": 1.9982468175928043, "step": 26215}, {"loss": 0.1032977819442749, "token_acc": 0.9618016672887894, "grad_norm": 0.7598915100097656, "learning_rate": 6.549183869658514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240605, "epoch": 1.998627944203064, "step": 26220}, {"loss": 0.15722169876098632, "token_acc": 0.9392702832453192, "grad_norm": 1.3811780214309692, "learning_rate": 6.548045402300715e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240613, "epoch": 1.9990090708133241, "step": 26225}, {"loss": 0.06413478851318359, "token_acc": 0.9747474747474747, "grad_norm": 0.49171149730682373, "learning_rate": 6.546906846169697e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240619, "epoch": 1.9993901974235841, "step": 26230}, {"loss": 0.08560182452201844, "token_acc": 0.9617239300783604, "grad_norm": 0.7431855797767639, "learning_rate": 6.54576820133075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240631, "epoch": 1.9997713240338442, "step": 26235}, {"loss": 0.10114694833755493, "token_acc": 0.9576547231270358, "grad_norm": 0.6061593890190125, "learning_rate": 6.544629467849169e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240641, "epoch": 2.000152450644104, "step": 26240}, {"loss": 0.08493696451187134, "token_acc": 0.9672575364118776, "grad_norm": 0.859828531742096, "learning_rate": 6.543490645790255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240641, "epoch": 2.0005335772543638, "step": 26245}, {"loss": 0.0856185495853424, "token_acc": 0.9670757258305896, "grad_norm": 0.417591392993927, "learning_rate": 6.542351735219318e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240647, "epoch": 2.000914703864624, "step": 26250}, {"loss": 0.07369548678398133, "token_acc": 0.9720713731574864, "grad_norm": 1.1556613445281982, "learning_rate": 6.541212736201663e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240654, "epoch": 2.001295830474884, "step": 26255}, {"loss": 0.0809739112854004, "token_acc": 0.9630365659777425, "grad_norm": 0.9057174324989319, "learning_rate": 6.540073648802611e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240669, "epoch": 2.001676957085144, "step": 26260}, {"loss": 0.10142668485641479, "token_acc": 0.9570707070707071, "grad_norm": 0.8596274256706238, "learning_rate": 6.538934473087483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240673, "epoch": 2.002058083695404, "step": 26265}, {"loss": 0.12128397226333618, "token_acc": 0.9560963678610738, "grad_norm": 1.5172368288040161, "learning_rate": 6.537795209121604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240681, "epoch": 2.0024392103056634, "step": 26270}, {"loss": 0.10887273550033569, "token_acc": 0.9625498007968127, "grad_norm": 1.2023491859436035, "learning_rate": 6.536655856970306e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240687, "epoch": 2.0028203369159234, "step": 26275}, {"loss": 0.10067343711853027, "token_acc": 0.9634017347154643, "grad_norm": 1.5285547971725464, "learning_rate": 6.535516416698926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240695, "epoch": 2.0032014635261834, "step": 26280}, {"loss": 0.06601279973983765, "token_acc": 0.968647942521228, "grad_norm": 0.9714431762695312, "learning_rate": 6.534376888372804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240697, "epoch": 2.0035825901364435, "step": 26285}, {"loss": 0.1127902626991272, "token_acc": 0.9527083333333334, "grad_norm": 0.9681770205497742, "learning_rate": 6.533237272057289e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240705, "epoch": 2.003963716746703, "step": 26290}, {"loss": 0.10433038473129272, "token_acc": 0.9587301587301588, "grad_norm": 0.8474037051200867, "learning_rate": 6.53209756781773e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240713, "epoch": 2.004344843356963, "step": 26295}, {"loss": 0.10840727090835571, "token_acc": 0.9573978123200921, "grad_norm": 0.7044438123703003, "learning_rate": 6.530957775719488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240724, "epoch": 2.004725969967223, "step": 26300}, {"loss": 0.12008180618286132, "token_acc": 0.9544346521657604, "grad_norm": 1.090207815170288, "learning_rate": 6.52981789582792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240733, "epoch": 2.005107096577483, "step": 26305}, {"loss": 0.10662018060684204, "token_acc": 0.9586020698965052, "grad_norm": 0.7394430041313171, "learning_rate": 6.528677928208394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240736, "epoch": 2.005488223187743, "step": 26310}, {"loss": 0.08400206565856934, "token_acc": 0.9657100260901975, "grad_norm": 1.054826259613037, "learning_rate": 6.527537872926285e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240751, "epoch": 2.0058693497980027, "step": 26315}, {"loss": 0.09502209424972534, "token_acc": 0.9682893383613301, "grad_norm": 1.4686473608016968, "learning_rate": 6.526397730046967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240757, "epoch": 2.0062504764082627, "step": 26320}, {"loss": 0.09492986798286437, "token_acc": 0.9676515537442689, "grad_norm": 0.9168114066123962, "learning_rate": 6.525257499635822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240767, "epoch": 2.0066316030185227, "step": 26325}, {"loss": 0.05466879606246948, "token_acc": 0.9671386588298156, "grad_norm": 0.891483724117279, "learning_rate": 6.524117181758239e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240779, "epoch": 2.0070127296287827, "step": 26330}, {"loss": 0.15330554246902467, "token_acc": 0.9464317494216052, "grad_norm": 0.7309017181396484, "learning_rate": 6.522976776479606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240786, "epoch": 2.0073938562390428, "step": 26335}, {"loss": 0.08996121883392334, "token_acc": 0.9641456582633053, "grad_norm": 0.517546534538269, "learning_rate": 6.521836283865322e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240796, "epoch": 2.0077749828493023, "step": 26340}, {"loss": 0.12563036680221557, "token_acc": 0.959615673322324, "grad_norm": 0.7283541560173035, "learning_rate": 6.520695703980792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240798, "epoch": 2.0081561094595624, "step": 26345}, {"loss": 0.16642476320266725, "token_acc": 0.9328660436137072, "grad_norm": 1.0979572534561157, "learning_rate": 6.51955503689142e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240803, "epoch": 2.0085372360698224, "step": 26350}, {"loss": 0.10846613645553589, "token_acc": 0.9562657695542472, "grad_norm": 1.3895010948181152, "learning_rate": 6.518414282662615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240815, "epoch": 2.0089183626800824, "step": 26355}, {"loss": 0.10181916952133178, "token_acc": 0.9633947939262473, "grad_norm": 1.0041382312774658, "learning_rate": 6.517273441359799e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240824, "epoch": 2.0092994892903424, "step": 26360}, {"loss": 0.063021719455719, "token_acc": 0.9642528100239544, "grad_norm": 0.9571253657341003, "learning_rate": 6.516132513048393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240829, "epoch": 2.009680615900602, "step": 26365}, {"loss": 0.093866628408432, "token_acc": 0.972568578553616, "grad_norm": 0.8564225435256958, "learning_rate": 6.514991497793823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240844, "epoch": 2.010061742510862, "step": 26370}, {"loss": 0.10186458826065063, "token_acc": 0.9605358435916003, "grad_norm": 1.4974019527435303, "learning_rate": 6.513850395661521e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240858, "epoch": 2.010442869121122, "step": 26375}, {"loss": 0.10906683206558228, "token_acc": 0.965463515969878, "grad_norm": 1.0393095016479492, "learning_rate": 6.512709206716922e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24087, "epoch": 2.010823995731382, "step": 26380}, {"loss": 0.09424675703048706, "token_acc": 0.9572129206832403, "grad_norm": 0.968572199344635, "learning_rate": 6.511567931025472e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240879, "epoch": 2.011205122341642, "step": 26385}, {"loss": 0.12020928859710693, "token_acc": 0.9500682128240109, "grad_norm": 0.7902241945266724, "learning_rate": 6.510426568652617e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24089, "epoch": 2.0115862489519016, "step": 26390}, {"loss": 0.11630077362060547, "token_acc": 0.9477015825169556, "grad_norm": 1.1019465923309326, "learning_rate": 6.509285119663804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240896, "epoch": 2.0119673755621617, "step": 26395}, {"loss": 0.09044396877288818, "token_acc": 0.95907279971025, "grad_norm": 1.9062634706497192, "learning_rate": 6.508143584124495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240907, "epoch": 2.0123485021724217, "step": 26400}, {"eval_loss": 0.09217917919158936, "eval_token_acc": 0.9599497018251912, "eval_runtime": 218.1394, "eval_samples_per_second": 2.43, "eval_steps_per_second": 2.43, "epoch": 2.0123485021724217, "step": 26400}, {"loss": 0.11915383338928223, "token_acc": 0.9595161816617721, "grad_norm": 0.7773627042770386, "learning_rate": 6.50700196210015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240441, "epoch": 2.0127296287826817, "step": 26405}, {"loss": 0.15290580987930297, "token_acc": 0.9423173803526448, "grad_norm": 1.280651330947876, "learning_rate": 6.505860253656236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240453, "epoch": 2.0131107553929417, "step": 26410}, {"loss": 0.09577568173408509, "token_acc": 0.9645332246229107, "grad_norm": 0.7859970927238464, "learning_rate": 6.504718458858224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240462, "epoch": 2.0134918820032013, "step": 26415}, {"loss": 0.06313449740409852, "token_acc": 0.9713908450704225, "grad_norm": 0.9667031764984131, "learning_rate": 6.503576577771591e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240472, "epoch": 2.0138730086134613, "step": 26420}, {"loss": 0.09952600002288818, "token_acc": 0.9602177554438861, "grad_norm": 1.0064960718154907, "learning_rate": 6.502434610461821e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240486, "epoch": 2.0142541352237213, "step": 26425}, {"loss": 0.08019761443138122, "token_acc": 0.962893864013267, "grad_norm": 0.8050191402435303, "learning_rate": 6.501292556994395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240494, "epoch": 2.0146352618339813, "step": 26430}, {"loss": 0.12226300239562989, "token_acc": 0.9541838134430727, "grad_norm": 1.15009343624115, "learning_rate": 6.500150417434809e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240506, "epoch": 2.0150163884442414, "step": 26435}, {"loss": 0.05846806764602661, "token_acc": 0.9788321167883212, "grad_norm": 1.0684654712677002, "learning_rate": 6.499008191848558e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240523, "epoch": 2.015397515054501, "step": 26440}, {"loss": 0.06882889866828919, "token_acc": 0.9778022381214456, "grad_norm": 0.699732780456543, "learning_rate": 6.497865880301144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240528, "epoch": 2.015778641664761, "step": 26445}, {"loss": 0.1207455039024353, "token_acc": 0.9563246806757314, "grad_norm": 1.2265650033950806, "learning_rate": 6.496723482858072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240535, "epoch": 2.016159768275021, "step": 26450}, {"loss": 0.0905352234840393, "token_acc": 0.9652173913043478, "grad_norm": 0.7658952474594116, "learning_rate": 6.495580999584854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240541, "epoch": 2.016540894885281, "step": 26455}, {"loss": 0.1024355411529541, "token_acc": 0.9656799656799657, "grad_norm": 0.7466670870780945, "learning_rate": 6.494438430547008e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240555, "epoch": 2.016922021495541, "step": 26460}, {"loss": 0.1346266508102417, "token_acc": 0.9475839475839476, "grad_norm": 1.9980459213256836, "learning_rate": 6.493295775810051e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240566, "epoch": 2.0173031481058006, "step": 26465}, {"loss": 0.17365705966949463, "token_acc": 0.9275263695134399, "grad_norm": 1.0913875102996826, "learning_rate": 6.492153035439511e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240579, "epoch": 2.0176842747160606, "step": 26470}, {"loss": 0.071640545129776, "token_acc": 0.9728427507665353, "grad_norm": 0.5431331396102905, "learning_rate": 6.491010209500919e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240587, "epoch": 2.0180654013263206, "step": 26475}, {"loss": 0.12376170158386231, "token_acc": 0.9529025191675794, "grad_norm": 1.8722729682922363, "learning_rate": 6.48986729805981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240597, "epoch": 2.0184465279365806, "step": 26480}, {"loss": 0.06191643476486206, "token_acc": 0.974366529169122, "grad_norm": 0.6465417742729187, "learning_rate": 6.488724301181728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240608, "epoch": 2.0188276545468407, "step": 26485}, {"loss": 0.13101584911346437, "token_acc": 0.9401453612654981, "grad_norm": 0.9489759802818298, "learning_rate": 6.487581218932212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240624, "epoch": 2.0192087811571002, "step": 26490}, {"loss": 0.1478276491165161, "token_acc": 0.9368605670856475, "grad_norm": 0.41995611786842346, "learning_rate": 6.48643805137682e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240637, "epoch": 2.0195899077673602, "step": 26495}, {"loss": 0.05752885341644287, "token_acc": 0.9731543624161074, "grad_norm": 0.3118656575679779, "learning_rate": 6.485294798581101e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240652, "epoch": 2.0199710343776203, "step": 26500}, {"loss": 0.11755051612854003, "token_acc": 0.9537484885126964, "grad_norm": 0.7779620885848999, "learning_rate": 6.484151460610619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240658, "epoch": 2.0203521609878803, "step": 26505}, {"loss": 0.1173932671546936, "token_acc": 0.9476014760147602, "grad_norm": 1.614286184310913, "learning_rate": 6.483008037530938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240674, "epoch": 2.0207332875981403, "step": 26510}, {"loss": 0.09817641377449035, "token_acc": 0.9633187772925764, "grad_norm": 0.8454567193984985, "learning_rate": 6.481864529407627e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240682, "epoch": 2.0211144142084, "step": 26515}, {"loss": 0.12766919136047364, "token_acc": 0.9565780946208684, "grad_norm": 0.8441240191459656, "learning_rate": 6.480720936306263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240691, "epoch": 2.02149554081866, "step": 26520}, {"loss": 0.1428079128265381, "token_acc": 0.9489534387014097, "grad_norm": 0.765451967716217, "learning_rate": 6.479577258292425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240703, "epoch": 2.02187666742892, "step": 26525}, {"loss": 0.0710952877998352, "token_acc": 0.9676398170946183, "grad_norm": 0.6839261054992676, "learning_rate": 6.478433495431698e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240716, "epoch": 2.02225779403918, "step": 26530}, {"loss": 0.11097638607025147, "token_acc": 0.9593008087659797, "grad_norm": 0.548771858215332, "learning_rate": 6.477289647789669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240727, "epoch": 2.02263892064944, "step": 26535}, {"loss": 0.08356081247329712, "token_acc": 0.9548272807794509, "grad_norm": 0.10899920761585236, "learning_rate": 6.476145715431935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240737, "epoch": 2.0230200472596995, "step": 26540}, {"loss": 0.10546542406082153, "token_acc": 0.9615566037735849, "grad_norm": 0.6064369082450867, "learning_rate": 6.475001698424093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240747, "epoch": 2.0234011738699595, "step": 26545}, {"loss": 0.11532256603240967, "token_acc": 0.9510113780025284, "grad_norm": 1.3736778497695923, "learning_rate": 6.47385759683175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240758, "epoch": 2.0237823004802196, "step": 26550}, {"loss": 0.09139158725738525, "token_acc": 0.9579333709768493, "grad_norm": 0.8541922569274902, "learning_rate": 6.472713410720512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24077, "epoch": 2.0241634270904796, "step": 26555}, {"loss": 0.10490204095840454, "token_acc": 0.953232462173315, "grad_norm": 1.2088003158569336, "learning_rate": 6.471569140155997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240782, "epoch": 2.0245445537007396, "step": 26560}, {"loss": 0.12608013153076172, "token_acc": 0.9515115234959592, "grad_norm": 0.8693092465400696, "learning_rate": 6.470424785203816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240793, "epoch": 2.024925680310999, "step": 26565}, {"loss": 0.11140514612197876, "token_acc": 0.954375, "grad_norm": 0.7688348889350891, "learning_rate": 6.469280345929603e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240805, "epoch": 2.025306806921259, "step": 26570}, {"loss": 0.08680573701858521, "token_acc": 0.9621092516577202, "grad_norm": 0.3812229335308075, "learning_rate": 6.468135822398978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240817, "epoch": 2.025687933531519, "step": 26575}, {"loss": 0.08493500351905822, "token_acc": 0.9668328636462172, "grad_norm": 0.8090770244598389, "learning_rate": 6.466991214677575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240828, "epoch": 2.0260690601417792, "step": 26580}, {"loss": 0.16696085929870605, "token_acc": 0.9172113289760349, "grad_norm": 0.7277560234069824, "learning_rate": 6.465846522831033e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240842, "epoch": 2.0264501867520393, "step": 26585}, {"loss": 0.11890441179275513, "token_acc": 0.9565395095367848, "grad_norm": 0.575595498085022, "learning_rate": 6.464701746924998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240843, "epoch": 2.026831313362299, "step": 26590}, {"loss": 0.07395694851875305, "token_acc": 0.9650053022269353, "grad_norm": 1.0139473676681519, "learning_rate": 6.463556887025114e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240858, "epoch": 2.027212439972559, "step": 26595}, {"loss": 0.1238883376121521, "token_acc": 0.9517386091127098, "grad_norm": 1.3475227355957031, "learning_rate": 6.462411943197033e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24087, "epoch": 2.027593566582819, "step": 26600}, {"eval_loss": 0.09551186859607697, "eval_token_acc": 0.9591666164688875, "eval_runtime": 218.2412, "eval_samples_per_second": 2.429, "eval_steps_per_second": 2.429, "epoch": 2.027593566582819, "step": 26600}, {"loss": 0.09251853227615356, "token_acc": 0.9593675027262814, "grad_norm": 0.8470348119735718, "learning_rate": 6.461266915506415e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240404, "epoch": 2.027974693193079, "step": 26605}, {"loss": 0.0934902310371399, "token_acc": 0.9553462940461726, "grad_norm": 1.3194552659988403, "learning_rate": 6.46012180401892e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240417, "epoch": 2.0283558198033385, "step": 26610}, {"loss": 0.059352487325668335, "token_acc": 0.9711462450592885, "grad_norm": 0.5419029593467712, "learning_rate": 6.458976608800216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240421, "epoch": 2.0287369464135985, "step": 26615}, {"loss": 0.17204283475875853, "token_acc": 0.9486997635933806, "grad_norm": 1.4419090747833252, "learning_rate": 6.457831329915972e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240432, "epoch": 2.0291180730238585, "step": 26620}, {"loss": 0.11818337440490723, "token_acc": 0.957736516357206, "grad_norm": 1.0486336946487427, "learning_rate": 6.456685967431868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240437, "epoch": 2.0294991996341185, "step": 26625}, {"loss": 0.09560262560844421, "token_acc": 0.9665610700457585, "grad_norm": 0.1766224503517151, "learning_rate": 6.455540521413583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240448, "epoch": 2.0298803262443785, "step": 26630}, {"loss": 0.13426157236099243, "token_acc": 0.945353594389246, "grad_norm": 1.2283374071121216, "learning_rate": 6.454394991926804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240461, "epoch": 2.030261452854638, "step": 26635}, {"loss": 0.07588891386985779, "token_acc": 0.9622550205661747, "grad_norm": 0.4415243864059448, "learning_rate": 6.453249379037222e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240475, "epoch": 2.030642579464898, "step": 26640}, {"loss": 0.1065969467163086, "token_acc": 0.9520043632397055, "grad_norm": 0.931455135345459, "learning_rate": 6.45210368281053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240485, "epoch": 2.031023706075158, "step": 26645}, {"loss": 0.10227539539337158, "token_acc": 0.9614532565352237, "grad_norm": 1.7391352653503418, "learning_rate": 6.450957903312432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2405, "epoch": 2.031404832685418, "step": 26650}, {"loss": 0.08699576854705811, "token_acc": 0.9656850192061459, "grad_norm": 0.8141867518424988, "learning_rate": 6.449812040608631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240513, "epoch": 2.031785959295678, "step": 26655}, {"loss": 0.09306571483612061, "token_acc": 0.9675590551181102, "grad_norm": 1.1230524778366089, "learning_rate": 6.44866609476484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240517, "epoch": 2.0321670859059378, "step": 26660}, {"loss": 0.07012152075767517, "token_acc": 0.9644924739482825, "grad_norm": 0.6255595088005066, "learning_rate": 6.447520065846766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24053, "epoch": 2.0325482125161978, "step": 26665}, {"loss": 0.06670078039169311, "token_acc": 0.9745623223103397, "grad_norm": 0.5268899202346802, "learning_rate": 6.446373953920137e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240534, "epoch": 2.032929339126458, "step": 26670}, {"loss": 0.0800336480140686, "token_acc": 0.9632555356074207, "grad_norm": 0.9293346405029297, "learning_rate": 6.445227759050673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240536, "epoch": 2.033310465736718, "step": 26675}, {"loss": 0.09748769998550415, "token_acc": 0.9612949468402819, "grad_norm": 0.9993466734886169, "learning_rate": 6.444081481304105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240535, "epoch": 2.033691592346978, "step": 26680}, {"loss": 0.10227404832839966, "token_acc": 0.9624517962248833, "grad_norm": 0.5400479435920715, "learning_rate": 6.442935120746163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240541, "epoch": 2.0340727189572374, "step": 26685}, {"loss": 0.10041751861572265, "token_acc": 0.9628764884426804, "grad_norm": 0.6307332515716553, "learning_rate": 6.441788677442588e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240544, "epoch": 2.0344538455674974, "step": 26690}, {"loss": 0.0903249740600586, "token_acc": 0.965105767492316, "grad_norm": 1.122648000717163, "learning_rate": 6.440642151459124e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240551, "epoch": 2.0348349721777574, "step": 26695}, {"loss": 0.09585032463073731, "token_acc": 0.9623843782117163, "grad_norm": 0.7174046635627747, "learning_rate": 6.439495542861519e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240558, "epoch": 2.0352160987880175, "step": 26700}, {"loss": 0.10657339096069336, "token_acc": 0.9571806945261919, "grad_norm": 0.6395531296730042, "learning_rate": 6.438348851715523e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240562, "epoch": 2.0355972253982775, "step": 26705}, {"loss": 0.06949906349182129, "token_acc": 0.9725059906671711, "grad_norm": 0.6430047154426575, "learning_rate": 6.437202078086897e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240564, "epoch": 2.035978352008537, "step": 26710}, {"loss": 0.07076040506362916, "token_acc": 0.9693414672297825, "grad_norm": 0.5911123156547546, "learning_rate": 6.4360552220414e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24057, "epoch": 2.036359478618797, "step": 26715}, {"loss": 0.09599714279174805, "token_acc": 0.9566029900332226, "grad_norm": 1.0295257568359375, "learning_rate": 6.434908283644799e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240578, "epoch": 2.036740605229057, "step": 26720}, {"loss": 0.09896995425224304, "token_acc": 0.9642932157109851, "grad_norm": 1.0713828802108765, "learning_rate": 6.433761262962869e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240588, "epoch": 2.037121731839317, "step": 26725}, {"loss": 0.15164027214050294, "token_acc": 0.9519738496354035, "grad_norm": 2.3962037563323975, "learning_rate": 6.432614160061384e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240597, "epoch": 2.037502858449577, "step": 26730}, {"loss": 0.10237768888473511, "token_acc": 0.9584382871536524, "grad_norm": 0.5605326890945435, "learning_rate": 6.431466975006122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2406, "epoch": 2.0378839850598367, "step": 26735}, {"loss": 0.13025960922241211, "token_acc": 0.9482884195193008, "grad_norm": 0.7966943979263306, "learning_rate": 6.430319707862875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240604, "epoch": 2.0382651116700967, "step": 26740}, {"loss": 0.09468330144882202, "token_acc": 0.9657551750575006, "grad_norm": 0.8392658233642578, "learning_rate": 6.429172358697429e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240613, "epoch": 2.0386462382803567, "step": 26745}, {"loss": 0.1464400053024292, "token_acc": 0.9419715264011533, "grad_norm": 0.9187453389167786, "learning_rate": 6.42802492757558e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240623, "epoch": 2.0390273648906168, "step": 26750}, {"loss": 0.07116318941116333, "token_acc": 0.9657621100684758, "grad_norm": 0.7360518574714661, "learning_rate": 6.426877414563128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240635, "epoch": 2.0394084915008768, "step": 26755}, {"loss": 0.06796538829803467, "token_acc": 0.9778891509433962, "grad_norm": 0.6470309495925903, "learning_rate": 6.425729819725879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240646, "epoch": 2.0397896181111363, "step": 26760}, {"loss": 0.06214249134063721, "token_acc": 0.9719827586206896, "grad_norm": 0.20103265345096588, "learning_rate": 6.42458214312964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240659, "epoch": 2.0401707447213964, "step": 26765}, {"loss": 0.0559209942817688, "token_acc": 0.9727615965480043, "grad_norm": 0.6246945858001709, "learning_rate": 6.423434384840226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240671, "epoch": 2.0405518713316564, "step": 26770}, {"loss": 0.09110467433929444, "token_acc": 0.9594175220816424, "grad_norm": 0.9861221313476562, "learning_rate": 6.422286544923457e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240681, "epoch": 2.0409329979419164, "step": 26775}, {"loss": 0.09530458450317383, "token_acc": 0.9712283290298783, "grad_norm": 0.8526818752288818, "learning_rate": 6.421138623445154e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240694, "epoch": 2.0413141245521764, "step": 26780}, {"loss": 0.15079550743103026, "token_acc": 0.9443694301917365, "grad_norm": 1.2367308139801025, "learning_rate": 6.419990620471146e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240704, "epoch": 2.041695251162436, "step": 26785}, {"loss": 0.0863089382648468, "token_acc": 0.9688404184286669, "grad_norm": 1.4641131162643433, "learning_rate": 6.418842536067264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240713, "epoch": 2.042076377772696, "step": 26790}, {"loss": 0.12274694442749023, "token_acc": 0.9565119928267205, "grad_norm": 1.4458788633346558, "learning_rate": 6.41769437029935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240723, "epoch": 2.042457504382956, "step": 26795}, {"loss": 0.1410604476928711, "token_acc": 0.9466759972008397, "grad_norm": 1.3332107067108154, "learning_rate": 6.41654612323324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240728, "epoch": 2.042838630993216, "step": 26800}, {"eval_loss": 0.091831736266613, "eval_token_acc": 0.9597238118185651, "eval_runtime": 217.8685, "eval_samples_per_second": 2.433, "eval_steps_per_second": 2.433, "epoch": 2.042838630993216, "step": 26800}, {"loss": 0.1401495337486267, "token_acc": 0.9593794366673778, "grad_norm": 1.4090169668197632, "learning_rate": 6.415397794934784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240267, "epoch": 2.043219757603476, "step": 26805}, {"loss": 0.08828035593032837, "token_acc": 0.96494708994709, "grad_norm": 0.4587613642215729, "learning_rate": 6.414249385469834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240272, "epoch": 2.0436008842137356, "step": 26810}, {"loss": 0.10843360424041748, "token_acc": 0.9617067833698031, "grad_norm": 1.096441626548767, "learning_rate": 6.413100894904243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240287, "epoch": 2.0439820108239957, "step": 26815}, {"loss": 0.10005060434341431, "token_acc": 0.9543285616905249, "grad_norm": 0.821088433265686, "learning_rate": 6.411952323303874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240301, "epoch": 2.0443631374342557, "step": 26820}, {"loss": 0.0933132827281952, "token_acc": 0.9620047041794826, "grad_norm": 0.18083836138248444, "learning_rate": 6.41080367073459e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240306, "epoch": 2.0447442640445157, "step": 26825}, {"loss": 0.0989052951335907, "token_acc": 0.9603598538093899, "grad_norm": 0.6764624118804932, "learning_rate": 6.409654937262263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240309, "epoch": 2.0451253906547757, "step": 26830}, {"loss": 0.07678887844085694, "token_acc": 0.9644475426978041, "grad_norm": 0.09515105932950974, "learning_rate": 6.40850612295277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240322, "epoch": 2.0455065172650353, "step": 26835}, {"loss": 0.12432831525802612, "token_acc": 0.9516339869281045, "grad_norm": 0.4114013910293579, "learning_rate": 6.407357227871984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240333, "epoch": 2.0458876438752953, "step": 26840}, {"loss": 0.105396568775177, "token_acc": 0.9655130978130257, "grad_norm": 0.6978557705879211, "learning_rate": 6.406208252085793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240335, "epoch": 2.0462687704855553, "step": 26845}, {"loss": 0.1144120454788208, "token_acc": 0.9491778774289985, "grad_norm": 0.6079176068305969, "learning_rate": 6.405059195660084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240343, "epoch": 2.0466498970958154, "step": 26850}, {"loss": 0.1418940544128418, "token_acc": 0.950720512364348, "grad_norm": 0.8246468901634216, "learning_rate": 6.40391005866075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240345, "epoch": 2.0470310237060754, "step": 26855}, {"loss": 0.09540516138076782, "token_acc": 0.9582139446036294, "grad_norm": 1.000343680381775, "learning_rate": 6.40276084115369e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240354, "epoch": 2.047412150316335, "step": 26860}, {"loss": 0.10979394912719727, "token_acc": 0.9617897727272727, "grad_norm": 1.1081000566482544, "learning_rate": 6.401611543204807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240355, "epoch": 2.047793276926595, "step": 26865}, {"loss": 0.07766851782798767, "token_acc": 0.9659739201303994, "grad_norm": 0.5214206576347351, "learning_rate": 6.400462164880003e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240362, "epoch": 2.048174403536855, "step": 26870}, {"loss": 0.09318844079971314, "token_acc": 0.9607002500893176, "grad_norm": 0.31989967823028564, "learning_rate": 6.399312706245193e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240366, "epoch": 2.048555530147115, "step": 26875}, {"loss": 0.143338143825531, "token_acc": 0.9484435797665369, "grad_norm": 1.0048671960830688, "learning_rate": 6.398163167366294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240376, "epoch": 2.048936656757375, "step": 26880}, {"loss": 0.14447057247161865, "token_acc": 0.9602076124567474, "grad_norm": 0.7947468757629395, "learning_rate": 6.397013548309226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240376, "epoch": 2.0493177833676346, "step": 26885}, {"loss": 0.1317639946937561, "token_acc": 0.952633504023409, "grad_norm": 0.6386239528656006, "learning_rate": 6.395863849139914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240383, "epoch": 2.0496989099778946, "step": 26890}, {"loss": 0.09763221740722657, "token_acc": 0.96215360253365, "grad_norm": 0.5396363735198975, "learning_rate": 6.394714069924285e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240389, "epoch": 2.0500800365881546, "step": 26895}, {"loss": 0.06803131699562073, "token_acc": 0.9681453515809344, "grad_norm": 0.8052300810813904, "learning_rate": 6.39356421072828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240401, "epoch": 2.0504611631984146, "step": 26900}, {"loss": 0.10935251712799073, "token_acc": 0.9626834381551362, "grad_norm": 0.641417384147644, "learning_rate": 6.392414271617833e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240408, "epoch": 2.0508422898086742, "step": 26905}, {"loss": 0.105903959274292, "token_acc": 0.961764705882353, "grad_norm": 0.7287918925285339, "learning_rate": 6.39126425265889e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240412, "epoch": 2.0512234164189342, "step": 26910}, {"loss": 0.07489492297172547, "token_acc": 0.9693815064298836, "grad_norm": 0.5422208905220032, "learning_rate": 6.390114153917397e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240418, "epoch": 2.0516045430291943, "step": 26915}, {"loss": 0.09598802924156188, "token_acc": 0.9579655317360235, "grad_norm": 1.1631685495376587, "learning_rate": 6.38896397545931e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240432, "epoch": 2.0519856696394543, "step": 26920}, {"loss": 0.12486727237701416, "token_acc": 0.9461053487899126, "grad_norm": 1.1039069890975952, "learning_rate": 6.387813717350582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240439, "epoch": 2.0523667962497143, "step": 26925}, {"loss": 0.1017630934715271, "token_acc": 0.9601761056633981, "grad_norm": 1.448319911956787, "learning_rate": 6.38666337965718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240446, "epoch": 2.052747922859974, "step": 26930}, {"loss": 0.1384517192840576, "token_acc": 0.9599285349668198, "grad_norm": 1.5498502254486084, "learning_rate": 6.385512962445068e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240456, "epoch": 2.053129049470234, "step": 26935}, {"loss": 0.12466484308242798, "token_acc": 0.9524995211645279, "grad_norm": 0.8316618800163269, "learning_rate": 6.384362465780213e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240463, "epoch": 2.053510176080494, "step": 26940}, {"loss": 0.09037742018699646, "token_acc": 0.9413377192982456, "grad_norm": 1.3200207948684692, "learning_rate": 6.3832118897286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240478, "epoch": 2.053891302690754, "step": 26945}, {"loss": 0.07299980521202087, "token_acc": 0.9688231850117096, "grad_norm": 0.7724085450172424, "learning_rate": 6.382061234356203e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240485, "epoch": 2.054272429301014, "step": 26950}, {"loss": 0.08051310181617737, "token_acc": 0.9683787561146052, "grad_norm": 1.1012468338012695, "learning_rate": 6.380910499729005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240491, "epoch": 2.0546535559112735, "step": 26955}, {"loss": 0.12897799015045167, "token_acc": 0.9543147208121827, "grad_norm": 0.7243775129318237, "learning_rate": 6.379759685912999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240503, "epoch": 2.0550346825215335, "step": 26960}, {"loss": 0.1282886743545532, "token_acc": 0.9476011496794163, "grad_norm": 1.0771678686141968, "learning_rate": 6.378608792974179e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240511, "epoch": 2.0554158091317936, "step": 26965}, {"loss": 0.11191043853759766, "token_acc": 0.9593466424682395, "grad_norm": 0.9604676961898804, "learning_rate": 6.377457820978543e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240518, "epoch": 2.0557969357420536, "step": 26970}, {"loss": 0.074744713306427, "token_acc": 0.9601711652402897, "grad_norm": 0.46029436588287354, "learning_rate": 6.376306769992092e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24053, "epoch": 2.0561780623523136, "step": 26975}, {"loss": 0.09392922520637512, "token_acc": 0.9672648720505151, "grad_norm": 0.8221893906593323, "learning_rate": 6.375155640080834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240537, "epoch": 2.056559188962573, "step": 26980}, {"loss": 0.09526990652084351, "token_acc": 0.9666409266409266, "grad_norm": 0.8226714134216309, "learning_rate": 6.374004431310783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240547, "epoch": 2.056940315572833, "step": 26985}, {"loss": 0.0838483989238739, "token_acc": 0.9648351648351648, "grad_norm": 0.08478694409132004, "learning_rate": 6.372853143747954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240546, "epoch": 2.057321442183093, "step": 26990}, {"loss": 0.08975453972816468, "token_acc": 0.9608038201352964, "grad_norm": 0.7727572321891785, "learning_rate": 6.371701777458366e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240558, "epoch": 2.0577025687933532, "step": 26995}, {"loss": 0.12549465894699097, "token_acc": 0.9558773997979118, "grad_norm": 1.1627360582351685, "learning_rate": 6.370550332508047e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240562, "epoch": 2.0580836954036132, "step": 27000}, {"eval_loss": 0.08914484083652496, "eval_token_acc": 0.9601530028311548, "eval_runtime": 215.6991, "eval_samples_per_second": 2.457, "eval_steps_per_second": 2.457, "epoch": 2.0580836954036132, "step": 27000}, {"loss": 0.1255308508872986, "token_acc": 0.9596201391965472, "grad_norm": 1.056495189666748, "learning_rate": 6.369398808963029e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240105, "epoch": 2.058464822013873, "step": 27005}, {"loss": 0.1052697777748108, "token_acc": 0.9679703846772896, "grad_norm": 0.8481756448745728, "learning_rate": 6.368247206889342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24011, "epoch": 2.058845948624133, "step": 27010}, {"loss": 0.14658159017562866, "token_acc": 0.9544602196624699, "grad_norm": 1.715609073638916, "learning_rate": 6.367095526353027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240121, "epoch": 2.059227075234393, "step": 27015}, {"loss": 0.16356544494628905, "token_acc": 0.940893470790378, "grad_norm": 2.168832778930664, "learning_rate": 6.365943767420128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240131, "epoch": 2.059608201844653, "step": 27020}, {"loss": 0.09318562746047973, "token_acc": 0.9558852235018543, "grad_norm": 0.5267851948738098, "learning_rate": 6.364791930156693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240139, "epoch": 2.059989328454913, "step": 27025}, {"loss": 0.0920604407787323, "token_acc": 0.9663536776212832, "grad_norm": 0.28233256936073303, "learning_rate": 6.363640014628774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24015, "epoch": 2.0603704550651725, "step": 27030}, {"loss": 0.08805954456329346, "token_acc": 0.9686274509803922, "grad_norm": 1.2045133113861084, "learning_rate": 6.362488020902428e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240163, "epoch": 2.0607515816754325, "step": 27035}, {"loss": 0.14710952043533326, "token_acc": 0.9341434731477852, "grad_norm": 1.2009985446929932, "learning_rate": 6.361335949043719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240175, "epoch": 2.0611327082856925, "step": 27040}, {"loss": 0.07160587310791015, "token_acc": 0.971614301191766, "grad_norm": 0.9667435884475708, "learning_rate": 6.360183799118708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240183, "epoch": 2.0615138348959525, "step": 27045}, {"loss": 0.07269712686538696, "token_acc": 0.9700318098108154, "grad_norm": 0.5232541561126709, "learning_rate": 6.359031571193468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240187, "epoch": 2.0618949615062125, "step": 27050}, {"loss": 0.09179596900939942, "token_acc": 0.9638723254998246, "grad_norm": 1.229220986366272, "learning_rate": 6.357879265334076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240201, "epoch": 2.062276088116472, "step": 27055}, {"loss": 0.06252117156982422, "token_acc": 0.9740110835085037, "grad_norm": 0.7136285305023193, "learning_rate": 6.356726881606608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240206, "epoch": 2.062657214726732, "step": 27060}, {"loss": 0.09664551615715027, "token_acc": 0.9623574666849842, "grad_norm": 1.1598740816116333, "learning_rate": 6.35557442007715e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240209, "epoch": 2.063038341336992, "step": 27065}, {"loss": 0.12123782634735107, "token_acc": 0.94740545294635, "grad_norm": 1.3786028623580933, "learning_rate": 6.354421880811789e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240216, "epoch": 2.063419467947252, "step": 27070}, {"loss": 0.13816661834716798, "token_acc": 0.9375494071146245, "grad_norm": 1.0676100254058838, "learning_rate": 6.35326926387662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240228, "epoch": 2.063800594557512, "step": 27075}, {"loss": 0.1314984679222107, "token_acc": 0.95086891225059, "grad_norm": 0.7866661548614502, "learning_rate": 6.352116569337736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240238, "epoch": 2.0641817211677718, "step": 27080}, {"loss": 0.10533781051635742, "token_acc": 0.96310755416748, "grad_norm": 2.376122236251831, "learning_rate": 6.350963797261243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240244, "epoch": 2.064562847778032, "step": 27085}, {"loss": 0.07771116495132446, "token_acc": 0.9700395703787451, "grad_norm": 0.44144678115844727, "learning_rate": 6.349810947713245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240255, "epoch": 2.064943974388292, "step": 27090}, {"loss": 0.0897703766822815, "token_acc": 0.9645048203330412, "grad_norm": 3.0964107513427734, "learning_rate": 6.348658020759854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240266, "epoch": 2.065325100998552, "step": 27095}, {"loss": 0.10292158126831055, "token_acc": 0.9528710725893824, "grad_norm": 1.9238094091415405, "learning_rate": 6.347505016467184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240282, "epoch": 2.065706227608812, "step": 27100}, {"loss": 0.08587864637374878, "token_acc": 0.9590243902439024, "grad_norm": 1.2437328100204468, "learning_rate": 6.346351934901353e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240291, "epoch": 2.0660873542190714, "step": 27105}, {"loss": 0.08620719909667969, "token_acc": 0.9599455040871935, "grad_norm": 0.4304482638835907, "learning_rate": 6.345198776128487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240302, "epoch": 2.0664684808293314, "step": 27110}, {"loss": 0.0955781638622284, "token_acc": 0.9643086129514854, "grad_norm": 0.5446736216545105, "learning_rate": 6.344045540214713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240312, "epoch": 2.0668496074395915, "step": 27115}, {"loss": 0.10722672939300537, "token_acc": 0.958930018913807, "grad_norm": 1.7266288995742798, "learning_rate": 6.342892227226167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240318, "epoch": 2.0672307340498515, "step": 27120}, {"loss": 0.09324288368225098, "token_acc": 0.9645071295722256, "grad_norm": 1.0265812873840332, "learning_rate": 6.341738837228982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240325, "epoch": 2.0676118606601115, "step": 27125}, {"loss": 0.13621947765350342, "token_acc": 0.9497619047619048, "grad_norm": 1.67649245262146, "learning_rate": 6.3405853702893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240335, "epoch": 2.067992987270371, "step": 27130}, {"loss": 0.07382301092147828, "token_acc": 0.9729617304492513, "grad_norm": 0.7165817022323608, "learning_rate": 6.33943182647327e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240347, "epoch": 2.068374113880631, "step": 27135}, {"loss": 0.11724995374679566, "token_acc": 0.9550634272199527, "grad_norm": 0.8800249099731445, "learning_rate": 6.338278205847039e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240358, "epoch": 2.068755240490891, "step": 27140}, {"loss": 0.10026086568832397, "token_acc": 0.9688301440126258, "grad_norm": 0.5025755167007446, "learning_rate": 6.337124508476765e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240365, "epoch": 2.069136367101151, "step": 27145}, {"loss": 0.10567986965179443, "token_acc": 0.9611919611919612, "grad_norm": 0.7522721290588379, "learning_rate": 6.335970734428604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240372, "epoch": 2.069517493711411, "step": 27150}, {"loss": 0.10995858907699585, "token_acc": 0.9524534043362495, "grad_norm": 1.5401307344436646, "learning_rate": 6.334816883768719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240385, "epoch": 2.0698986203216707, "step": 27155}, {"loss": 0.08846145868301392, "token_acc": 0.9675925925925926, "grad_norm": 1.2714885473251343, "learning_rate": 6.333662956563283e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2404, "epoch": 2.0702797469319307, "step": 27160}, {"loss": 0.0684882640838623, "token_acc": 0.9694179546201908, "grad_norm": 0.9218497276306152, "learning_rate": 6.332508952878465e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240413, "epoch": 2.0706608735421907, "step": 27165}, {"loss": 0.10499304533004761, "token_acc": 0.9615198451113263, "grad_norm": 1.6380723714828491, "learning_rate": 6.331354872780441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240423, "epoch": 2.0710420001524508, "step": 27170}, {"loss": 0.08890421390533447, "token_acc": 0.9607745159275453, "grad_norm": 0.6559543609619141, "learning_rate": 6.330200716335395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240429, "epoch": 2.071423126762711, "step": 27175}, {"loss": 0.09030271768569946, "token_acc": 0.9644581804133668, "grad_norm": 0.8537452816963196, "learning_rate": 6.329046483609511e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240436, "epoch": 2.0718042533729704, "step": 27180}, {"loss": 0.12254018783569336, "token_acc": 0.9507042253521126, "grad_norm": 1.826904535293579, "learning_rate": 6.327892174668977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240445, "epoch": 2.0721853799832304, "step": 27185}, {"loss": 0.08373212814331055, "token_acc": 0.9644287396937573, "grad_norm": 0.756435751914978, "learning_rate": 6.32673778957999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240449, "epoch": 2.0725665065934904, "step": 27190}, {"loss": 0.08263529539108276, "token_acc": 0.9644729178800233, "grad_norm": 0.6416155695915222, "learning_rate": 6.325583328408747e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240458, "epoch": 2.0729476332037504, "step": 27195}, {"loss": 0.10952297449111939, "token_acc": 0.9580573951434879, "grad_norm": 0.8863335251808167, "learning_rate": 6.324428791221452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240463, "epoch": 2.07332875981401, "step": 27200}, {"eval_loss": 0.09116149693727493, "eval_token_acc": 0.9597313414854527, "eval_runtime": 217.8586, "eval_samples_per_second": 2.433, "eval_steps_per_second": 2.433, "epoch": 2.07332875981401, "step": 27200}, {"loss": 0.07261168956756592, "token_acc": 0.9600676720240352, "grad_norm": 0.7835207581520081, "learning_rate": 6.323274178084312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240011, "epoch": 2.07370988642427, "step": 27205}, {"loss": 0.06022197604179382, "token_acc": 0.9727520435967303, "grad_norm": 0.5070050954818726, "learning_rate": 6.322119489063538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240013, "epoch": 2.07409101303453, "step": 27210}, {"loss": 0.12444254159927368, "token_acc": 0.955026455026455, "grad_norm": 1.064069390296936, "learning_rate": 6.320964724225347e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240023, "epoch": 2.07447213964479, "step": 27215}, {"loss": 0.08999449014663696, "token_acc": 0.9729924378826071, "grad_norm": 0.7624698281288147, "learning_rate": 6.319809883635957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240028, "epoch": 2.07485326625505, "step": 27220}, {"loss": 0.078788423538208, "token_acc": 0.9678225894118926, "grad_norm": 0.592252790927887, "learning_rate": 6.318654967361598e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24003, "epoch": 2.07523439286531, "step": 27225}, {"loss": 0.10422115325927735, "token_acc": 0.9691252144082333, "grad_norm": 0.4671790599822998, "learning_rate": 6.317499975468495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240034, "epoch": 2.0756155194755697, "step": 27230}, {"loss": 0.07802949547767639, "token_acc": 0.9633587786259542, "grad_norm": 0.7090429663658142, "learning_rate": 6.316344908022882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240048, "epoch": 2.0759966460858297, "step": 27235}, {"loss": 0.07221020460128784, "token_acc": 0.9621848739495799, "grad_norm": 0.8349044919013977, "learning_rate": 6.315189765090998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240061, "epoch": 2.0763777726960897, "step": 27240}, {"loss": 0.10632894039154053, "token_acc": 0.9578189300411523, "grad_norm": 0.9693659543991089, "learning_rate": 6.314034546739084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24007, "epoch": 2.0767588993063497, "step": 27245}, {"loss": 0.07895511984825135, "token_acc": 0.9700400627068455, "grad_norm": 0.43815377354621887, "learning_rate": 6.312879253033386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240077, "epoch": 2.0771400259166093, "step": 27250}, {"loss": 0.10346498489379882, "token_acc": 0.9574819888980749, "grad_norm": 0.4931529462337494, "learning_rate": 6.311723884040154e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240079, "epoch": 2.0775211525268693, "step": 27255}, {"loss": 0.13021314144134521, "token_acc": 0.9375491996851221, "grad_norm": 1.4831833839416504, "learning_rate": 6.310568439825646e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240088, "epoch": 2.0779022791371293, "step": 27260}, {"loss": 0.0798985481262207, "token_acc": 0.9624587458745875, "grad_norm": 0.6185627579689026, "learning_rate": 6.309412920456121e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240096, "epoch": 2.0782834057473893, "step": 27265}, {"loss": 0.1391900062561035, "token_acc": 0.9560909705021392, "grad_norm": 1.0083574056625366, "learning_rate": 6.308257325997839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240104, "epoch": 2.0786645323576494, "step": 27270}, {"loss": 0.10200719833374024, "token_acc": 0.9595287858635759, "grad_norm": 0.6064718961715698, "learning_rate": 6.307101656517072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24011, "epoch": 2.079045658967909, "step": 27275}, {"loss": 0.12151408195495605, "token_acc": 0.9559289790741915, "grad_norm": 1.1932419538497925, "learning_rate": 6.305945912080091e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240121, "epoch": 2.079426785578169, "step": 27280}, {"loss": 0.12491326332092285, "token_acc": 0.9430801987224983, "grad_norm": 1.6018142700195312, "learning_rate": 6.304790092753171e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.24013, "epoch": 2.079807912188429, "step": 27285}, {"loss": 0.08824538588523864, "token_acc": 0.9634561783834005, "grad_norm": 0.958804190158844, "learning_rate": 6.303634198602593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240141, "epoch": 2.080189038798689, "step": 27290}, {"loss": 0.10456247329711914, "token_acc": 0.9691150267273807, "grad_norm": 0.8639811873435974, "learning_rate": 6.302478229694646e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240149, "epoch": 2.080570165408949, "step": 27295}, {"loss": 0.07610681056976318, "token_acc": 0.9726669269816478, "grad_norm": 0.9370761513710022, "learning_rate": 6.301322186095616e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240156, "epoch": 2.0809512920192086, "step": 27300}, {"loss": 0.09241738319396972, "token_acc": 0.9549526490913745, "grad_norm": 0.630244255065918, "learning_rate": 6.300166067871797e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240166, "epoch": 2.0813324186294686, "step": 27305}, {"loss": 0.08493274450302124, "token_acc": 0.9620670698185816, "grad_norm": 2.707411289215088, "learning_rate": 6.299009875089488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240181, "epoch": 2.0817135452397286, "step": 27310}, {"loss": 0.1043481707572937, "token_acc": 0.9567438692098093, "grad_norm": 0.7390384674072266, "learning_rate": 6.29785360781499e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240193, "epoch": 2.0820946718499886, "step": 27315}, {"loss": 0.1131706714630127, "token_acc": 0.9595739530380053, "grad_norm": 0.817465603351593, "learning_rate": 6.29669726611461e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240205, "epoch": 2.0824757984602487, "step": 27320}, {"loss": 0.08308249115943908, "token_acc": 0.9672131147540983, "grad_norm": 0.768190324306488, "learning_rate": 6.29554085005466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240208, "epoch": 2.0828569250705082, "step": 27325}, {"loss": 0.07333185672760009, "token_acc": 0.9719646323053699, "grad_norm": 0.6892905831336975, "learning_rate": 6.294384359701455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240218, "epoch": 2.0832380516807683, "step": 27330}, {"loss": 0.10476322174072265, "token_acc": 0.9513415188722146, "grad_norm": 0.9774745106697083, "learning_rate": 6.293227795121313e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240227, "epoch": 2.0836191782910283, "step": 27335}, {"loss": 0.08289227485656739, "token_acc": 0.9675798346571568, "grad_norm": 0.59339839220047, "learning_rate": 6.292071156380559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240233, "epoch": 2.0840003049012883, "step": 27340}, {"loss": 0.08499487042427063, "token_acc": 0.9682638456751711, "grad_norm": 0.4842331111431122, "learning_rate": 6.290914443545519e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240237, "epoch": 2.0843814315115483, "step": 27345}, {"loss": 0.1094969630241394, "token_acc": 0.968336483931947, "grad_norm": 1.64462149143219, "learning_rate": 6.289757656682527e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240251, "epoch": 2.084762558121808, "step": 27350}, {"loss": 0.05425162315368652, "token_acc": 0.9778531073446328, "grad_norm": 1.0304597616195679, "learning_rate": 6.288600795857917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240259, "epoch": 2.085143684732068, "step": 27355}, {"loss": 0.10501564741134643, "token_acc": 0.957290390337826, "grad_norm": 0.822722315788269, "learning_rate": 6.287443861138032e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240266, "epoch": 2.085524811342328, "step": 27360}, {"loss": 0.11050130128860473, "token_acc": 0.9613102302397342, "grad_norm": 0.880167543888092, "learning_rate": 6.286286852589217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240275, "epoch": 2.085905937952588, "step": 27365}, {"loss": 0.09736736416816712, "token_acc": 0.9607686148919136, "grad_norm": 0.7569501399993896, "learning_rate": 6.28512977027782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240289, "epoch": 2.086287064562848, "step": 27370}, {"loss": 0.10230519771575927, "token_acc": 0.964114010989011, "grad_norm": 0.849359929561615, "learning_rate": 6.283972614270194e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240295, "epoch": 2.0866681911731075, "step": 27375}, {"loss": 0.09945677518844605, "token_acc": 0.9713420316868593, "grad_norm": 1.004315972328186, "learning_rate": 6.282815384632697e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240304, "epoch": 2.0870493177833676, "step": 27380}, {"loss": 0.07099489569664001, "token_acc": 0.9658671586715867, "grad_norm": 0.41830363869667053, "learning_rate": 6.28165808143169e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240311, "epoch": 2.0874304443936276, "step": 27385}, {"loss": 0.08008714914321899, "token_acc": 0.9661843876177658, "grad_norm": 0.6833613514900208, "learning_rate": 6.28050070473354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240314, "epoch": 2.0878115710038876, "step": 27390}, {"loss": 0.09524340629577636, "token_acc": 0.9627354627354627, "grad_norm": 0.5011914968490601, "learning_rate": 6.279343254604617e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240323, "epoch": 2.0881926976141476, "step": 27395}, {"loss": 0.07801447510719299, "token_acc": 0.9705453484981044, "grad_norm": 1.5527230501174927, "learning_rate": 6.278185731111296e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240329, "epoch": 2.088573824224407, "step": 27400}, {"eval_loss": 0.09103234112262726, "eval_token_acc": 0.9604391301728812, "eval_runtime": 219.3587, "eval_samples_per_second": 2.416, "eval_steps_per_second": 2.416, "epoch": 2.088573824224407, "step": 27400}, {"loss": 0.10184295177459717, "token_acc": 0.9603171149215192, "grad_norm": 0.7897855639457703, "learning_rate": 6.277028134319953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239874, "epoch": 2.088954950834667, "step": 27405}, {"loss": 0.09539178609848023, "token_acc": 0.9606019151846785, "grad_norm": 1.2169387340545654, "learning_rate": 6.275870464296974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239885, "epoch": 2.089336077444927, "step": 27410}, {"loss": 0.12181757688522339, "token_acc": 0.953654860587792, "grad_norm": 0.8620839715003967, "learning_rate": 6.274712721108745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239894, "epoch": 2.0897172040551872, "step": 27415}, {"loss": 0.09877347350120544, "token_acc": 0.9653044591919897, "grad_norm": 2.1008286476135254, "learning_rate": 6.273554904821656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239894, "epoch": 2.0900983306654473, "step": 27420}, {"loss": 0.15242698192596435, "token_acc": 0.9547489983502239, "grad_norm": 0.6257491707801819, "learning_rate": 6.272397015502103e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239905, "epoch": 2.090479457275707, "step": 27425}, {"loss": 0.112270188331604, "token_acc": 0.9612736660929432, "grad_norm": 1.0099023580551147, "learning_rate": 6.271239053216487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239911, "epoch": 2.090860583885967, "step": 27430}, {"loss": 0.1270209550857544, "token_acc": 0.9424019607843137, "grad_norm": 3.634157419204712, "learning_rate": 6.27008101803121e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239922, "epoch": 2.091241710496227, "step": 27435}, {"loss": 0.07883673310279846, "token_acc": 0.9672848510106272, "grad_norm": 0.1678226888179779, "learning_rate": 6.268922910012679e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23993, "epoch": 2.091622837106487, "step": 27440}, {"loss": 0.06967081427574158, "token_acc": 0.9683257918552036, "grad_norm": 0.7551071047782898, "learning_rate": 6.26776472922731e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23994, "epoch": 2.092003963716747, "step": 27445}, {"loss": 0.08049039840698242, "token_acc": 0.9674756480105663, "grad_norm": 0.7371070981025696, "learning_rate": 6.266606475741515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239946, "epoch": 2.0923850903270065, "step": 27450}, {"loss": 0.12148127555847169, "token_acc": 0.9453366275478691, "grad_norm": 1.295127511024475, "learning_rate": 6.265448149621718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239959, "epoch": 2.0927662169372665, "step": 27455}, {"loss": 0.14644325971603395, "token_acc": 0.9450113378684807, "grad_norm": 1.0731515884399414, "learning_rate": 6.264289750934342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239969, "epoch": 2.0931473435475265, "step": 27460}, {"loss": 0.09337406754493713, "token_acc": 0.9709816368170483, "grad_norm": 0.9959650635719299, "learning_rate": 6.263131279745815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23997, "epoch": 2.0935284701577865, "step": 27465}, {"loss": 0.10333985090255737, "token_acc": 0.9732586068855084, "grad_norm": 1.279561161994934, "learning_rate": 6.26197273612257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239973, "epoch": 2.0939095967680466, "step": 27470}, {"loss": 0.0790955364704132, "token_acc": 0.9670027497708524, "grad_norm": 0.9768779277801514, "learning_rate": 6.260814120131046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239985, "epoch": 2.094290723378306, "step": 27475}, {"loss": 0.11093891859054565, "token_acc": 0.9598630989421282, "grad_norm": 1.4307076930999756, "learning_rate": 6.259655431837683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239997, "epoch": 2.094671849988566, "step": 27480}, {"loss": 0.10938501358032227, "token_acc": 0.9598757442402278, "grad_norm": 0.9147241711616516, "learning_rate": 6.258496671308927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240006, "epoch": 2.095052976598826, "step": 27485}, {"loss": 0.11372298002243042, "token_acc": 0.9567706842255941, "grad_norm": 0.7322588562965393, "learning_rate": 6.257337838611225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240015, "epoch": 2.095434103209086, "step": 27490}, {"loss": 0.0990553617477417, "token_acc": 0.9633507853403142, "grad_norm": 0.7225372791290283, "learning_rate": 6.256178933811034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240025, "epoch": 2.0958152298193458, "step": 27495}, {"loss": 0.08449924588203431, "token_acc": 0.9657206044968669, "grad_norm": 0.8304914236068726, "learning_rate": 6.25501995697481e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240039, "epoch": 2.096196356429606, "step": 27500}, {"loss": 0.10392621755599976, "token_acc": 0.9551316021904257, "grad_norm": 0.6901969313621521, "learning_rate": 6.253860908169017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240046, "epoch": 2.096577483039866, "step": 27505}, {"loss": 0.0905199646949768, "token_acc": 0.967741935483871, "grad_norm": 1.3439838886260986, "learning_rate": 6.252701787460118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240058, "epoch": 2.096958609650126, "step": 27510}, {"loss": 0.10548669099807739, "token_acc": 0.9658787255909558, "grad_norm": 0.6792594790458679, "learning_rate": 6.251542594914586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240066, "epoch": 2.097339736260386, "step": 27515}, {"loss": 0.12976969480514527, "token_acc": 0.9550075708414449, "grad_norm": 0.8755074143409729, "learning_rate": 6.250383330598892e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240074, "epoch": 2.097720862870646, "step": 27520}, {"loss": 0.13325886726379393, "token_acc": 0.951270207852194, "grad_norm": 0.985792875289917, "learning_rate": 6.249223994579518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240082, "epoch": 2.0981019894809054, "step": 27525}, {"loss": 0.11278994083404541, "token_acc": 0.9641451068616423, "grad_norm": 0.5580151081085205, "learning_rate": 6.248064586922945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240088, "epoch": 2.0984831160911654, "step": 27530}, {"loss": 0.0966147541999817, "token_acc": 0.9632919879316125, "grad_norm": 1.3276885747909546, "learning_rate": 6.24690510769566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240095, "epoch": 2.0988642427014255, "step": 27535}, {"loss": 0.07067039012908935, "token_acc": 0.9602996254681648, "grad_norm": 1.6260159015655518, "learning_rate": 6.245745556964153e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240112, "epoch": 2.0992453693116855, "step": 27540}, {"loss": 0.11402645111083984, "token_acc": 0.9685479643543596, "grad_norm": 0.4616506099700928, "learning_rate": 6.244585934794918e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240116, "epoch": 2.099626495921945, "step": 27545}, {"loss": 0.08127616047859192, "token_acc": 0.9678391959798995, "grad_norm": 0.6388801336288452, "learning_rate": 6.243426241254458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240122, "epoch": 2.100007622532205, "step": 27550}, {"loss": 0.1456449031829834, "token_acc": 0.9439480097481722, "grad_norm": 1.0668185949325562, "learning_rate": 6.242266476409271e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240133, "epoch": 2.100388749142465, "step": 27555}, {"loss": 0.0777139961719513, "token_acc": 0.9666790077748982, "grad_norm": 0.7531003355979919, "learning_rate": 6.241106640325867e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240134, "epoch": 2.100769875752725, "step": 27560}, {"loss": 0.08413103222846985, "token_acc": 0.9678877259752616, "grad_norm": 0.7044401168823242, "learning_rate": 6.239946733070756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240141, "epoch": 2.101151002362985, "step": 27565}, {"loss": 0.11540061235427856, "token_acc": 0.9610956728860659, "grad_norm": 0.825570821762085, "learning_rate": 6.238786754710455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240153, "epoch": 2.1015321289732447, "step": 27570}, {"loss": 0.08759520649909973, "token_acc": 0.9558021806853583, "grad_norm": 0.7807924747467041, "learning_rate": 6.237626705311482e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240162, "epoch": 2.1019132555835047, "step": 27575}, {"loss": 0.1410202145576477, "token_acc": 0.9436220472440945, "grad_norm": 1.221156358718872, "learning_rate": 6.23646658494036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240173, "epoch": 2.1022943821937647, "step": 27580}, {"loss": 0.07761870622634888, "token_acc": 0.9656181419166057, "grad_norm": 0.6920754313468933, "learning_rate": 6.23530639366362e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240183, "epoch": 2.1026755088040248, "step": 27585}, {"loss": 0.08397802114486694, "token_acc": 0.9658661465317566, "grad_norm": 0.12092328816652298, "learning_rate": 6.234146131547787e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240184, "epoch": 2.103056635414285, "step": 27590}, {"loss": 0.11129393577575683, "token_acc": 0.957084631982738, "grad_norm": 0.9724830985069275, "learning_rate": 6.232985798659404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240194, "epoch": 2.1034377620245444, "step": 27595}, {"loss": 0.15161778926849365, "token_acc": 0.9542524175551699, "grad_norm": 1.2841081619262695, "learning_rate": 6.231825395065004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2402, "epoch": 2.1038188886348044, "step": 27600}, {"eval_loss": 0.08985377103090286, "eval_token_acc": 0.9604014818384434, "eval_runtime": 218.075, "eval_samples_per_second": 2.43, "eval_steps_per_second": 2.43, "epoch": 2.1038188886348044, "step": 27600}, {"loss": 0.09173312783241272, "token_acc": 0.9606718528995757, "grad_norm": 0.9209967851638794, "learning_rate": 6.230664920831136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239749, "epoch": 2.1042000152450644, "step": 27605}, {"loss": 0.14252665042877197, "token_acc": 0.9441602728047741, "grad_norm": 1.8660341501235962, "learning_rate": 6.229504376024345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239758, "epoch": 2.1045811418553244, "step": 27610}, {"loss": 0.07365024685859681, "token_acc": 0.9716729021913415, "grad_norm": 0.6952311992645264, "learning_rate": 6.228343760711184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239769, "epoch": 2.1049622684655844, "step": 27615}, {"loss": 0.06616742014884949, "token_acc": 0.9753784056508578, "grad_norm": 1.340843915939331, "learning_rate": 6.227183074958208e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239778, "epoch": 2.105343395075844, "step": 27620}, {"loss": 0.1364797830581665, "token_acc": 0.942865264354747, "grad_norm": 2.5461747646331787, "learning_rate": 6.226022318831977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239789, "epoch": 2.105724521686104, "step": 27625}, {"loss": 0.09014132022857665, "token_acc": 0.9645844223732357, "grad_norm": 0.8338993191719055, "learning_rate": 6.224861492399057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239788, "epoch": 2.106105648296364, "step": 27630}, {"loss": 0.05745429992675781, "token_acc": 0.978103448275862, "grad_norm": 0.7258082628250122, "learning_rate": 6.223700595726014e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239792, "epoch": 2.106486774906624, "step": 27635}, {"loss": 0.13936772346496581, "token_acc": 0.9491623339110341, "grad_norm": 0.6892473101615906, "learning_rate": 6.22253962887942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239804, "epoch": 2.106867901516884, "step": 27640}, {"loss": 0.09958188533782959, "token_acc": 0.9662375516152538, "grad_norm": 1.0793795585632324, "learning_rate": 6.221378591925853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239814, "epoch": 2.1072490281271437, "step": 27645}, {"loss": 0.10529236793518067, "token_acc": 0.957370159111378, "grad_norm": 0.9540955424308777, "learning_rate": 6.22021748493189e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239821, "epoch": 2.1076301547374037, "step": 27650}, {"loss": 0.1130135178565979, "token_acc": 0.9507251153592617, "grad_norm": 0.7717848420143127, "learning_rate": 6.219056307964117e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239829, "epoch": 2.1080112813476637, "step": 27655}, {"loss": 0.13061641454696654, "token_acc": 0.9492208490059107, "grad_norm": 1.7596319913864136, "learning_rate": 6.217895061089122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239838, "epoch": 2.1083924079579237, "step": 27660}, {"loss": 0.0719691812992096, "token_acc": 0.9617996604414262, "grad_norm": 0.8522200584411621, "learning_rate": 6.216733744373496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239852, "epoch": 2.1087735345681837, "step": 27665}, {"loss": 0.11448359489440918, "token_acc": 0.9539303196084077, "grad_norm": 0.758590817451477, "learning_rate": 6.215572357883837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23986, "epoch": 2.1091546611784433, "step": 27670}, {"loss": 0.11950762271881103, "token_acc": 0.9595808383233533, "grad_norm": 0.8414782881736755, "learning_rate": 6.214410901686745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239871, "epoch": 2.1095357877887033, "step": 27675}, {"loss": 0.1349416732788086, "token_acc": 0.9593900481540931, "grad_norm": 0.4685438871383667, "learning_rate": 6.213249375848823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239877, "epoch": 2.1099169143989633, "step": 27680}, {"loss": 0.11778390407562256, "token_acc": 0.9463151207115629, "grad_norm": 0.35739293694496155, "learning_rate": 6.21208778043668e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239888, "epoch": 2.1102980410092234, "step": 27685}, {"loss": 0.11495099067687989, "token_acc": 0.9627128596594245, "grad_norm": 0.7673335671424866, "learning_rate": 6.210926115516925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239898, "epoch": 2.1106791676194834, "step": 27690}, {"loss": 0.10626416206359864, "token_acc": 0.9637305699481865, "grad_norm": 0.7692159414291382, "learning_rate": 6.209764381156179e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239908, "epoch": 2.111060294229743, "step": 27695}, {"loss": 0.10212780237197876, "token_acc": 0.9548319327731093, "grad_norm": 1.2469465732574463, "learning_rate": 6.20860257742106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23992, "epoch": 2.111441420840003, "step": 27700}, {"loss": 0.11788485050201417, "token_acc": 0.9539808592954592, "grad_norm": 1.2303427457809448, "learning_rate": 6.207440704378189e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239927, "epoch": 2.111822547450263, "step": 27705}, {"loss": 0.07162842750549317, "token_acc": 0.9697063369397217, "grad_norm": 0.7697901129722595, "learning_rate": 6.2062787620942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239939, "epoch": 2.112203674060523, "step": 27710}, {"loss": 0.10851017236709595, "token_acc": 0.9597560975609756, "grad_norm": 0.6067183613777161, "learning_rate": 6.205116750635719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239954, "epoch": 2.112584800670783, "step": 27715}, {"loss": 0.09070445299148559, "token_acc": 0.9687636522498908, "grad_norm": 1.2871036529541016, "learning_rate": 6.203954670069388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239964, "epoch": 2.1129659272810426, "step": 27720}, {"loss": 0.08251258134841918, "token_acc": 0.9701673538685424, "grad_norm": 1.2937735319137573, "learning_rate": 6.202792520461842e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239974, "epoch": 2.1133470538913026, "step": 27725}, {"loss": 0.054020369052886964, "token_acc": 0.9780508395084889, "grad_norm": 0.8037604093551636, "learning_rate": 6.201630301879727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23997, "epoch": 2.1137281805015626, "step": 27730}, {"loss": 0.10729857683181762, "token_acc": 0.9623655913978495, "grad_norm": 0.9780164361000061, "learning_rate": 6.200468014389689e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239979, "epoch": 2.1141093071118227, "step": 27735}, {"loss": 0.0917648732662201, "token_acc": 0.964735516372796, "grad_norm": 1.5614261627197266, "learning_rate": 6.199305658058382e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239989, "epoch": 2.1144904337220827, "step": 27740}, {"loss": 0.07042406797409058, "token_acc": 0.9702241552358648, "grad_norm": 0.5690711140632629, "learning_rate": 6.198143232952463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240002, "epoch": 2.1148715603323422, "step": 27745}, {"loss": 0.08511825799942016, "token_acc": 0.965046650884278, "grad_norm": 0.5193389058113098, "learning_rate": 6.196980739138586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240004, "epoch": 2.1152526869426023, "step": 27750}, {"loss": 0.08614201545715332, "token_acc": 0.9622847772615468, "grad_norm": 0.5709406137466431, "learning_rate": 6.195818176683419e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240007, "epoch": 2.1156338135528623, "step": 27755}, {"loss": 0.08205643892288209, "token_acc": 0.9615614717319773, "grad_norm": 0.921393871307373, "learning_rate": 6.194655545653631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240009, "epoch": 2.1160149401631223, "step": 27760}, {"loss": 0.07086114883422852, "token_acc": 0.9723988439306358, "grad_norm": 0.5504015684127808, "learning_rate": 6.19349284611589e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240013, "epoch": 2.1163960667733823, "step": 27765}, {"loss": 0.05852036476135254, "token_acc": 0.9755529685681025, "grad_norm": 0.7585349082946777, "learning_rate": 6.192330078136873e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240026, "epoch": 2.116777193383642, "step": 27770}, {"loss": 0.10204025506973266, "token_acc": 0.965322373490881, "grad_norm": 0.7448979020118713, "learning_rate": 6.19116724178326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240035, "epoch": 2.117158319993902, "step": 27775}, {"loss": 0.10226210355758666, "token_acc": 0.9538820782253357, "grad_norm": 0.977942705154419, "learning_rate": 6.190004337121732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240042, "epoch": 2.117539446604162, "step": 27780}, {"loss": 0.09320048093795777, "token_acc": 0.966259573587249, "grad_norm": 1.2242116928100586, "learning_rate": 6.188841364218978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240051, "epoch": 2.117920573214422, "step": 27785}, {"loss": 0.0681601345539093, "token_acc": 0.9759372507311885, "grad_norm": 0.9573265910148621, "learning_rate": 6.187678323141689e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240055, "epoch": 2.118301699824682, "step": 27790}, {"loss": 0.09692507982254028, "token_acc": 0.9550521395181589, "grad_norm": 0.8420156240463257, "learning_rate": 6.18651521395656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240063, "epoch": 2.1186828264349415, "step": 27795}, {"loss": 0.10330965518951415, "token_acc": 0.9627118644067797, "grad_norm": 1.116483211517334, "learning_rate": 6.185352036730287e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.240074, "epoch": 2.1190639530452016, "step": 27800}, {"eval_loss": 0.090018130838871, "eval_token_acc": 0.9606876091801698, "eval_runtime": 219.1831, "eval_samples_per_second": 2.418, "eval_steps_per_second": 2.418, "epoch": 2.1190639530452016, "step": 27800}, {"loss": 0.11982957124710084, "token_acc": 0.9604590024158022, "grad_norm": 1.5741393566131592, "learning_rate": 6.184188791529579e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239625, "epoch": 2.1194450796554616, "step": 27805}, {"loss": 0.10716099739074707, "token_acc": 0.9605813697423475, "grad_norm": 0.9526782631874084, "learning_rate": 6.183025478421138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239634, "epoch": 2.1198262062657216, "step": 27810}, {"loss": 0.14860497713088988, "token_acc": 0.9493370551290998, "grad_norm": 0.5382548570632935, "learning_rate": 6.181862097471674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239638, "epoch": 2.1202073328759816, "step": 27815}, {"loss": 0.11101962327957153, "token_acc": 0.9605784128077122, "grad_norm": 0.6813355684280396, "learning_rate": 6.180698648747906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239642, "epoch": 2.120588459486241, "step": 27820}, {"loss": 0.11362979412078858, "token_acc": 0.9569032258064516, "grad_norm": 0.94278484582901, "learning_rate": 6.179535132316547e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239654, "epoch": 2.120969586096501, "step": 27825}, {"loss": 0.10990517139434815, "token_acc": 0.958128078817734, "grad_norm": 0.8431946635246277, "learning_rate": 6.178371548244323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239665, "epoch": 2.1213507127067612, "step": 27830}, {"loss": 0.1387685179710388, "token_acc": 0.9392430278884463, "grad_norm": 0.8008997440338135, "learning_rate": 6.177207896597958e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239677, "epoch": 2.1217318393170213, "step": 27835}, {"loss": 0.12360445261001587, "token_acc": 0.9514647252556769, "grad_norm": 0.919292151927948, "learning_rate": 6.176044177444185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239683, "epoch": 2.122112965927281, "step": 27840}, {"loss": 0.10691941976547241, "token_acc": 0.9613793103448276, "grad_norm": 1.302345633506775, "learning_rate": 6.174880390849735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239689, "epoch": 2.122494092537541, "step": 27845}, {"loss": 0.132038414478302, "token_acc": 0.946985446985447, "grad_norm": 0.5413615703582764, "learning_rate": 6.173716536881346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239697, "epoch": 2.122875219147801, "step": 27850}, {"loss": 0.09266903400421142, "token_acc": 0.9646970989761092, "grad_norm": 0.5248980522155762, "learning_rate": 6.172552615605762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239699, "epoch": 2.123256345758061, "step": 27855}, {"loss": 0.11054692268371583, "token_acc": 0.9563485741596304, "grad_norm": 1.5410182476043701, "learning_rate": 6.171388627089726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239707, "epoch": 2.123637472368321, "step": 27860}, {"loss": 0.06086079478263855, "token_acc": 0.9655694286795309, "grad_norm": 0.8714772462844849, "learning_rate": 6.170224571399987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23972, "epoch": 2.1240185989785805, "step": 27865}, {"loss": 0.07207356691360474, "token_acc": 0.973729863692689, "grad_norm": 1.0499274730682373, "learning_rate": 6.1690604486033e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239729, "epoch": 2.1243997255888405, "step": 27870}, {"loss": 0.07693119645118714, "token_acc": 0.968609865470852, "grad_norm": 0.9508426785469055, "learning_rate": 6.167896258766423e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239742, "epoch": 2.1247808521991005, "step": 27875}, {"loss": 0.09342229962348939, "token_acc": 0.9742436631234669, "grad_norm": 0.7007280588150024, "learning_rate": 6.166732001956113e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239747, "epoch": 2.1251619788093605, "step": 27880}, {"loss": 0.0761534571647644, "token_acc": 0.9630515683147262, "grad_norm": 0.7621156573295593, "learning_rate": 6.165567678239138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239758, "epoch": 2.1255431054196205, "step": 27885}, {"loss": 0.09237680435180665, "token_acc": 0.9710169491525423, "grad_norm": 0.4037191569805145, "learning_rate": 6.164403287682264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239762, "epoch": 2.12592423202988, "step": 27890}, {"loss": 0.06853762865066529, "token_acc": 0.9667338709677419, "grad_norm": 0.5879103541374207, "learning_rate": 6.163238830352267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239769, "epoch": 2.12630535864014, "step": 27895}, {"loss": 0.0879755973815918, "token_acc": 0.9675449871465296, "grad_norm": 1.0007086992263794, "learning_rate": 6.162074306315922e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23977, "epoch": 2.1266864852504, "step": 27900}, {"loss": 0.09466269016265869, "token_acc": 0.9624190064794816, "grad_norm": 1.7321882247924805, "learning_rate": 6.160909715640006e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239779, "epoch": 2.12706761186066, "step": 27905}, {"loss": 0.063826984167099, "token_acc": 0.9723082699709003, "grad_norm": 0.5722376704216003, "learning_rate": 6.159745058391305e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239778, "epoch": 2.12744873847092, "step": 27910}, {"loss": 0.0876001238822937, "token_acc": 0.9628647214854111, "grad_norm": 0.5586673617362976, "learning_rate": 6.158580334636607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239792, "epoch": 2.1278298650811798, "step": 27915}, {"loss": 0.14738489389419557, "token_acc": 0.9507658643326039, "grad_norm": 0.6319655776023865, "learning_rate": 6.157415544442704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239802, "epoch": 2.12821099169144, "step": 27920}, {"loss": 0.10440703630447387, "token_acc": 0.959578804347826, "grad_norm": 0.6159265637397766, "learning_rate": 6.156250687876391e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239814, "epoch": 2.1285921183017, "step": 27925}, {"loss": 0.09945797324180602, "token_acc": 0.9610825318720644, "grad_norm": 1.4795209169387817, "learning_rate": 6.155085765004467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239822, "epoch": 2.12897324491196, "step": 27930}, {"loss": 0.11859880685806275, "token_acc": 0.9399612653324726, "grad_norm": 1.104069471359253, "learning_rate": 6.153920775893734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239834, "epoch": 2.12935437152222, "step": 27935}, {"loss": 0.06528820991516113, "token_acc": 0.9682586333578251, "grad_norm": 1.0906697511672974, "learning_rate": 6.152755720610998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239838, "epoch": 2.1297354981324794, "step": 27940}, {"loss": 0.08457621335983276, "token_acc": 0.9703953904232069, "grad_norm": 0.5203943848609924, "learning_rate": 6.151590599223072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239842, "epoch": 2.1301166247427394, "step": 27945}, {"loss": 0.08070627450942994, "token_acc": 0.9677194612169067, "grad_norm": 0.6331333518028259, "learning_rate": 6.15042541179677e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239853, "epoch": 2.1304977513529995, "step": 27950}, {"loss": 0.1089299201965332, "token_acc": 0.9562091503267974, "grad_norm": 1.3844211101531982, "learning_rate": 6.149260158398909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239869, "epoch": 2.1308788779632595, "step": 27955}, {"loss": 0.1007508635520935, "token_acc": 0.9643351431917385, "grad_norm": 0.4578879773616791, "learning_rate": 6.14809483909631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23987, "epoch": 2.1312600045735195, "step": 27960}, {"loss": 0.10212352275848388, "token_acc": 0.9605435066631827, "grad_norm": 0.6534649729728699, "learning_rate": 6.1469294539558e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239881, "epoch": 2.131641131183779, "step": 27965}, {"loss": 0.1396666646003723, "token_acc": 0.9275808936825886, "grad_norm": 0.91864413022995, "learning_rate": 6.145764003044209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23989, "epoch": 2.132022257794039, "step": 27970}, {"loss": 0.10935758352279663, "token_acc": 0.9674556213017751, "grad_norm": 0.7016887664794922, "learning_rate": 6.144598486428368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239903, "epoch": 2.132403384404299, "step": 27975}, {"loss": 0.05607488751411438, "token_acc": 0.9766339315949881, "grad_norm": 0.5596987009048462, "learning_rate": 6.143432904175117e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239903, "epoch": 2.132784511014559, "step": 27980}, {"loss": 0.10587786436080933, "token_acc": 0.963056255247691, "grad_norm": 0.7366549372673035, "learning_rate": 6.142267256351295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239908, "epoch": 2.133165637624819, "step": 27985}, {"loss": 0.13984909057617187, "token_acc": 0.9538989700833742, "grad_norm": 1.6402859687805176, "learning_rate": 6.141101543023745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239921, "epoch": 2.1335467642350787, "step": 27990}, {"loss": 0.0892623484134674, "token_acc": 0.9606974813174647, "grad_norm": 0.6540932655334473, "learning_rate": 6.139935764259319e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239933, "epoch": 2.1339278908453387, "step": 27995}, {"loss": 0.12113819122314454, "token_acc": 0.9532779590625927, "grad_norm": 0.521432638168335, "learning_rate": 6.138769920124866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23994, "epoch": 2.1343090174555988, "step": 28000}, {"eval_loss": 0.0899355337023735, "eval_token_acc": 0.9603186555026806, "eval_runtime": 222.3948, "eval_samples_per_second": 2.383, "eval_steps_per_second": 2.383, "epoch": 2.1343090174555988, "step": 28000}, {"loss": 0.07744794487953185, "token_acc": 0.9604096154262497, "grad_norm": 0.7031410336494446, "learning_rate": 6.137604010687243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239489, "epoch": 2.1346901440658588, "step": 28005}, {"loss": 0.09381205439567566, "token_acc": 0.9694444444444444, "grad_norm": 0.9439501166343689, "learning_rate": 6.136438036013308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239492, "epoch": 2.135071270676119, "step": 28010}, {"loss": 0.08376663327217101, "token_acc": 0.9668793267272974, "grad_norm": 1.019777536392212, "learning_rate": 6.135271996169927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239494, "epoch": 2.1354523972863784, "step": 28015}, {"loss": 0.12731715440750122, "token_acc": 0.9578108865614398, "grad_norm": 0.6609342694282532, "learning_rate": 6.134105891223964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239494, "epoch": 2.1358335238966384, "step": 28020}, {"loss": 0.11257238388061523, "token_acc": 0.9591801584567688, "grad_norm": 1.1665223836898804, "learning_rate": 6.132939721242289e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239501, "epoch": 2.1362146505068984, "step": 28025}, {"loss": 0.05358799695968628, "token_acc": 0.9785532533624137, "grad_norm": 1.1340506076812744, "learning_rate": 6.131773486291781e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239514, "epoch": 2.1365957771171584, "step": 28030}, {"loss": 0.13592766523361205, "token_acc": 0.944318610796527, "grad_norm": 0.7952711582183838, "learning_rate": 6.130607186439317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239522, "epoch": 2.1369769037274184, "step": 28035}, {"loss": 0.10717002153396607, "token_acc": 0.9604365620736699, "grad_norm": 0.918303370475769, "learning_rate": 6.129440821751774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239527, "epoch": 2.137358030337678, "step": 28040}, {"loss": 0.08610897064208985, "token_acc": 0.969054441260745, "grad_norm": 1.8507052659988403, "learning_rate": 6.128274392296044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239541, "epoch": 2.137739156947938, "step": 28045}, {"loss": 0.09622470736503601, "token_acc": 0.967457627118644, "grad_norm": 1.4840810298919678, "learning_rate": 6.127107898139013e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239547, "epoch": 2.138120283558198, "step": 28050}, {"loss": 0.10969299077987671, "token_acc": 0.9708591840571535, "grad_norm": 1.106105089187622, "learning_rate": 6.125941339347575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239553, "epoch": 2.138501410168458, "step": 28055}, {"loss": 0.11918030977249146, "token_acc": 0.9485937791022537, "grad_norm": 1.0433018207550049, "learning_rate": 6.124774715988624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239562, "epoch": 2.138882536778718, "step": 28060}, {"loss": 0.12598009109497071, "token_acc": 0.9645372233400402, "grad_norm": 0.5080896019935608, "learning_rate": 6.123608028129064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239573, "epoch": 2.1392636633889777, "step": 28065}, {"loss": 0.09826524257659912, "token_acc": 0.9653330167398789, "grad_norm": 0.7710150480270386, "learning_rate": 6.122441275835798e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239572, "epoch": 2.1396447899992377, "step": 28070}, {"loss": 0.10576131343841552, "token_acc": 0.9566574839302112, "grad_norm": 0.6538243889808655, "learning_rate": 6.121274459175732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23958, "epoch": 2.1400259166094977, "step": 28075}, {"loss": 0.09150153398513794, "token_acc": 0.9596899224806201, "grad_norm": 0.6489638090133667, "learning_rate": 6.120107578215781e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239592, "epoch": 2.1404070432197577, "step": 28080}, {"loss": 0.09272821545600891, "token_acc": 0.9601979345955249, "grad_norm": 0.7096555829048157, "learning_rate": 6.118940633022858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239599, "epoch": 2.1407881698300177, "step": 28085}, {"loss": 0.07790007591247558, "token_acc": 0.9672862453531599, "grad_norm": 0.28069791197776794, "learning_rate": 6.117773623663881e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239612, "epoch": 2.1411692964402773, "step": 28090}, {"loss": 0.1252113699913025, "token_acc": 0.9525252525252526, "grad_norm": 1.622114658355713, "learning_rate": 6.116606550205773e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239621, "epoch": 2.1415504230505373, "step": 28095}, {"loss": 0.09359397888183593, "token_acc": 0.9655937846836848, "grad_norm": 0.6619305610656738, "learning_rate": 6.115439412715464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239625, "epoch": 2.1419315496607974, "step": 28100}, {"loss": 0.08729241490364074, "token_acc": 0.955233291298865, "grad_norm": 0.102820485830307, "learning_rate": 6.11427221125988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239635, "epoch": 2.1423126762710574, "step": 28105}, {"loss": 0.07913691401481629, "token_acc": 0.9713910761154856, "grad_norm": 1.069226622581482, "learning_rate": 6.113104945905954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239644, "epoch": 2.1426938028813174, "step": 28110}, {"loss": 0.09348658323287964, "token_acc": 0.960327868852459, "grad_norm": 0.8148454427719116, "learning_rate": 6.111937616720627e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239649, "epoch": 2.143074929491577, "step": 28115}, {"loss": 0.10335943698883057, "token_acc": 0.9539473684210527, "grad_norm": 0.547702431678772, "learning_rate": 6.110770223770837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239656, "epoch": 2.143456056101837, "step": 28120}, {"loss": 0.07049182653427125, "token_acc": 0.9719002458728486, "grad_norm": 0.8776295781135559, "learning_rate": 6.109602767123528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239666, "epoch": 2.143837182712097, "step": 28125}, {"loss": 0.119430410861969, "token_acc": 0.9456437933693138, "grad_norm": 1.3733737468719482, "learning_rate": 6.108435246845651e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239679, "epoch": 2.144218309322357, "step": 28130}, {"loss": 0.11741838455200196, "token_acc": 0.9546365914786967, "grad_norm": 0.6764029264450073, "learning_rate": 6.107267663004155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239689, "epoch": 2.1445994359326166, "step": 28135}, {"loss": 0.08556505441665649, "token_acc": 0.9608540925266904, "grad_norm": 0.8878328800201416, "learning_rate": 6.106100015665998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239702, "epoch": 2.1449805625428766, "step": 28140}, {"loss": 0.08544302582740784, "token_acc": 0.9658950344583849, "grad_norm": 1.1151158809661865, "learning_rate": 6.104932304898138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239708, "epoch": 2.1453616891531366, "step": 28145}, {"loss": 0.07581700086593628, "token_acc": 0.9694513715710723, "grad_norm": 0.7038438320159912, "learning_rate": 6.103764530767537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239711, "epoch": 2.1457428157633966, "step": 28150}, {"loss": 0.12285703420639038, "token_acc": 0.9494546979865772, "grad_norm": 0.7154973149299622, "learning_rate": 6.102596693341163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239717, "epoch": 2.1461239423736567, "step": 28155}, {"loss": 0.08536692857742309, "token_acc": 0.9613793103448276, "grad_norm": 0.8372565507888794, "learning_rate": 6.101428792685985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239727, "epoch": 2.1465050689839167, "step": 28160}, {"loss": 0.07424387931823731, "token_acc": 0.9730046948356808, "grad_norm": 1.0679185390472412, "learning_rate": 6.100260828868975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239733, "epoch": 2.1468861955941763, "step": 28165}, {"loss": 0.11934046745300293, "token_acc": 0.9632641615255187, "grad_norm": 0.42938724160194397, "learning_rate": 6.099092801957116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239739, "epoch": 2.1472673222044363, "step": 28170}, {"loss": 0.11800200939178467, "token_acc": 0.9551630434782609, "grad_norm": 0.9847074151039124, "learning_rate": 6.097924712017383e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239748, "epoch": 2.1476484488146963, "step": 28175}, {"loss": 0.07804281711578369, "token_acc": 0.9671772428884027, "grad_norm": 0.6662660241127014, "learning_rate": 6.096756559116763e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239759, "epoch": 2.1480295754249563, "step": 28180}, {"loss": 0.11857231855392455, "token_acc": 0.9505391467416784, "grad_norm": 0.8077803254127502, "learning_rate": 6.095588343322245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239769, "epoch": 2.148410702035216, "step": 28185}, {"loss": 0.09026944637298584, "token_acc": 0.9685825621042377, "grad_norm": 0.637674868106842, "learning_rate": 6.094420064700819e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23978, "epoch": 2.148791828645476, "step": 28190}, {"loss": 0.11450526714324952, "token_acc": 0.9489432935760619, "grad_norm": 1.4687750339508057, "learning_rate": 6.09325172331948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239788, "epoch": 2.149172955255736, "step": 28195}, {"loss": 0.09341561198234558, "token_acc": 0.9552789303826649, "grad_norm": 1.1059716939926147, "learning_rate": 6.092083319245229e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239798, "epoch": 2.149554081865996, "step": 28200}, {"eval_loss": 0.09128241240978241, "eval_token_acc": 0.9608909101861334, "eval_runtime": 221.699, "eval_samples_per_second": 2.391, "eval_steps_per_second": 2.391, "epoch": 2.149554081865996, "step": 28200}, {"loss": 0.06801459193229675, "token_acc": 0.9616201359346037, "grad_norm": 0.7577376961708069, "learning_rate": 6.0909148525450676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239347, "epoch": 2.149935208476256, "step": 28205}, {"loss": 0.10775550603866577, "token_acc": 0.9597292724196278, "grad_norm": 1.174790859222412, "learning_rate": 6.089746323286002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239349, "epoch": 2.1503163350865155, "step": 28210}, {"loss": 0.08467478156089783, "token_acc": 0.9626818469323213, "grad_norm": 1.023391604423523, "learning_rate": 6.088577731535041e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239357, "epoch": 2.1506974616967756, "step": 28215}, {"loss": 0.07792733907699585, "token_acc": 0.9640866873065016, "grad_norm": 1.0269309282302856, "learning_rate": 6.0874090773592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23937, "epoch": 2.1510785883070356, "step": 28220}, {"loss": 0.15043263435363768, "token_acc": 0.9445879988515647, "grad_norm": 1.719300627708435, "learning_rate": 6.0862403608254925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239383, "epoch": 2.1514597149172956, "step": 28225}, {"loss": 0.07715824842453003, "token_acc": 0.9722331626624655, "grad_norm": 1.3176071643829346, "learning_rate": 6.085071582000943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239389, "epoch": 2.1518408415275556, "step": 28230}, {"loss": 0.1180142879486084, "token_acc": 0.954831424423294, "grad_norm": 1.2917969226837158, "learning_rate": 6.083902740952572e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239396, "epoch": 2.152221968137815, "step": 28235}, {"loss": 0.1064296841621399, "token_acc": 0.9577284372331341, "grad_norm": 1.271726369857788, "learning_rate": 6.08273383774741e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239408, "epoch": 2.152603094748075, "step": 28240}, {"loss": 0.06001255512237549, "token_acc": 0.9656276686592656, "grad_norm": 0.49032965302467346, "learning_rate": 6.081564872452488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239418, "epoch": 2.1529842213583352, "step": 28245}, {"loss": 0.11291947364807128, "token_acc": 0.9640387275242047, "grad_norm": 0.9699283242225647, "learning_rate": 6.0803958451348365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239427, "epoch": 2.1533653479685952, "step": 28250}, {"loss": 0.09559043049812317, "token_acc": 0.9642934429777105, "grad_norm": 0.8026388883590698, "learning_rate": 6.079226755861499e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239434, "epoch": 2.1537464745788553, "step": 28255}, {"loss": 0.08909776210784912, "token_acc": 0.9715205547300644, "grad_norm": 0.06248077377676964, "learning_rate": 6.078057604699515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239444, "epoch": 2.154127601189115, "step": 28260}, {"loss": 0.10180673599243165, "token_acc": 0.9606625258799172, "grad_norm": 1.3593966960906982, "learning_rate": 6.07688839171593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239455, "epoch": 2.154508727799375, "step": 28265}, {"loss": 0.09159737825393677, "token_acc": 0.9675655976676385, "grad_norm": 1.2693363428115845, "learning_rate": 6.075719116977794e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23946, "epoch": 2.154889854409635, "step": 28270}, {"loss": 0.10791506767272949, "token_acc": 0.9639169655472232, "grad_norm": 0.4697171151638031, "learning_rate": 6.074549780552158e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239465, "epoch": 2.155270981019895, "step": 28275}, {"loss": 0.08581749200820923, "token_acc": 0.9605776736924277, "grad_norm": 1.8569612503051758, "learning_rate": 6.0733803825060776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239477, "epoch": 2.155652107630155, "step": 28280}, {"loss": 0.07598314285278321, "token_acc": 0.964828897338403, "grad_norm": 0.019115058705210686, "learning_rate": 6.0722109229066146e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239489, "epoch": 2.1560332342404145, "step": 28285}, {"loss": 0.09754187464714051, "token_acc": 0.9624656698199573, "grad_norm": 0.8687453269958496, "learning_rate": 6.0710414018208294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2395, "epoch": 2.1564143608506745, "step": 28290}, {"loss": 0.09486402869224549, "token_acc": 0.9631821170282708, "grad_norm": 0.8459134101867676, "learning_rate": 6.069871819315791e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239508, "epoch": 2.1567954874609345, "step": 28295}, {"loss": 0.10098495483398437, "token_acc": 0.958051689860835, "grad_norm": 0.839917778968811, "learning_rate": 6.0687021754585685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239516, "epoch": 2.1571766140711945, "step": 28300}, {"loss": 0.0949479341506958, "token_acc": 0.96672, "grad_norm": 1.873209834098816, "learning_rate": 6.067532470316236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239516, "epoch": 2.1575577406814546, "step": 28305}, {"loss": 0.08942803740501404, "token_acc": 0.9641571450931288, "grad_norm": 0.45355430245399475, "learning_rate": 6.06636270395587e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239524, "epoch": 2.157938867291714, "step": 28310}, {"loss": 0.10198326110839843, "token_acc": 0.96062871967038, "grad_norm": 0.8409352898597717, "learning_rate": 6.065192876444551e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239531, "epoch": 2.158319993901974, "step": 28315}, {"loss": 0.1107219099998474, "token_acc": 0.9553646860039425, "grad_norm": 0.8375471234321594, "learning_rate": 6.064022987849365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239538, "epoch": 2.158701120512234, "step": 28320}, {"loss": 0.1135896921157837, "token_acc": 0.9537387836490528, "grad_norm": 1.2194017171859741, "learning_rate": 6.062853038237397e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239546, "epoch": 2.159082247122494, "step": 28325}, {"loss": 0.10336819887161255, "token_acc": 0.95377969762419, "grad_norm": 1.4612364768981934, "learning_rate": 6.061683027675741e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239556, "epoch": 2.159463373732754, "step": 28330}, {"loss": 0.07791873812675476, "token_acc": 0.9678374947101143, "grad_norm": 1.1058543920516968, "learning_rate": 6.060512956231489e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239568, "epoch": 2.159844500343014, "step": 28335}, {"loss": 0.08736817240715027, "token_acc": 0.9653267873580853, "grad_norm": 0.4513099789619446, "learning_rate": 6.05934282397174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239578, "epoch": 2.160225626953274, "step": 28340}, {"loss": 0.089145427942276, "token_acc": 0.9589622641509434, "grad_norm": 1.246484637260437, "learning_rate": 6.0581726309635964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239589, "epoch": 2.160606753563534, "step": 28345}, {"loss": 0.09838126301765442, "token_acc": 0.958687040181098, "grad_norm": 0.7784377336502075, "learning_rate": 6.057002377274163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239597, "epoch": 2.160987880173794, "step": 28350}, {"loss": 0.08941572308540344, "token_acc": 0.966081718177056, "grad_norm": 0.6538731455802917, "learning_rate": 6.055832062970549e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239599, "epoch": 2.161369006784054, "step": 28355}, {"loss": 0.08159719109535217, "token_acc": 0.9687953555878084, "grad_norm": 0.9794332981109619, "learning_rate": 6.0546616881198636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239601, "epoch": 2.1617501333943134, "step": 28360}, {"loss": 0.07450066804885865, "token_acc": 0.9704845814977974, "grad_norm": 0.5321868062019348, "learning_rate": 6.053491252789227e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23961, "epoch": 2.1621312600045735, "step": 28365}, {"loss": 0.10071868896484375, "token_acc": 0.9629233511586452, "grad_norm": 1.2130212783813477, "learning_rate": 6.052320757045754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239624, "epoch": 2.1625123866148335, "step": 28370}, {"loss": 0.08311924934387208, "token_acc": 0.9671018276762402, "grad_norm": 1.260616421699524, "learning_rate": 6.051150200956571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239633, "epoch": 2.1628935132250935, "step": 28375}, {"loss": 0.08966317772865295, "token_acc": 0.9686459975477316, "grad_norm": 0.6260547041893005, "learning_rate": 6.049979584588801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239638, "epoch": 2.1632746398353535, "step": 28380}, {"loss": 0.11280975341796876, "token_acc": 0.9566756574511126, "grad_norm": 1.0439443588256836, "learning_rate": 6.048808908009573e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239644, "epoch": 2.163655766445613, "step": 28385}, {"loss": 0.1509438157081604, "token_acc": 0.9469785575048733, "grad_norm": 1.173966646194458, "learning_rate": 6.047638171286023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239652, "epoch": 2.164036893055873, "step": 28390}, {"loss": 0.06052640080451965, "token_acc": 0.9754768392370572, "grad_norm": 1.4136862754821777, "learning_rate": 6.046467374485286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239666, "epoch": 2.164418019666133, "step": 28395}, {"loss": 0.1616116762161255, "token_acc": 0.95257854179016, "grad_norm": 0.6411550045013428, "learning_rate": 6.045296517674499e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239671, "epoch": 2.164799146276393, "step": 28400}, {"eval_loss": 0.08840744942426682, "eval_token_acc": 0.9615008132040238, "eval_runtime": 221.1479, "eval_samples_per_second": 2.397, "eval_steps_per_second": 2.397, "epoch": 2.164799146276393, "step": 28400}, {"loss": 0.13469887971878053, "token_acc": 0.9610543537538629, "grad_norm": 0.7650735974311829, "learning_rate": 6.044125600920809e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239231, "epoch": 2.165180272886653, "step": 28405}, {"loss": 0.07637932300567626, "token_acc": 0.9765560165975103, "grad_norm": 0.6748127341270447, "learning_rate": 6.0429546242913613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239237, "epoch": 2.1655613994969127, "step": 28410}, {"loss": 0.08393945693969726, "token_acc": 0.9694072657743786, "grad_norm": 0.6356326937675476, "learning_rate": 6.041783587853306e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239249, "epoch": 2.1659425261071727, "step": 28415}, {"loss": 0.09353143572807313, "token_acc": 0.9582958295829583, "grad_norm": 0.976385772228241, "learning_rate": 6.040612491673795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239258, "epoch": 2.1663236527174328, "step": 28420}, {"loss": 0.08541704416275024, "token_acc": 0.9567836563645888, "grad_norm": 1.268261432647705, "learning_rate": 6.039441335819987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239268, "epoch": 2.166704779327693, "step": 28425}, {"loss": 0.04326063394546509, "token_acc": 0.974191063174114, "grad_norm": 1.0949665307998657, "learning_rate": 6.0382701203590416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239279, "epoch": 2.1670859059379524, "step": 28430}, {"loss": 0.06323828101158142, "token_acc": 0.981300539083558, "grad_norm": 0.6081709861755371, "learning_rate": 6.0370988453581246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239284, "epoch": 2.1674670325482124, "step": 28435}, {"loss": 0.10040632486343384, "token_acc": 0.9493405275779376, "grad_norm": 1.1607609987258911, "learning_rate": 6.0359275108844006e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239296, "epoch": 2.1678481591584724, "step": 28440}, {"loss": 0.08583697080612182, "token_acc": 0.9606613454960091, "grad_norm": 1.8013986349105835, "learning_rate": 6.0347561170050414e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239307, "epoch": 2.1682292857687324, "step": 28445}, {"loss": 0.13214806318283082, "token_acc": 0.9500078112794876, "grad_norm": 1.5438437461853027, "learning_rate": 6.0335846637872206e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239313, "epoch": 2.1686104123789924, "step": 28450}, {"loss": 0.11759432554244995, "token_acc": 0.9587020648967551, "grad_norm": 1.00194251537323, "learning_rate": 6.032413151298115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239321, "epoch": 2.1689915389892525, "step": 28455}, {"loss": 0.09750629663467407, "token_acc": 0.953340402969247, "grad_norm": 1.572457194328308, "learning_rate": 6.031241579604907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239335, "epoch": 2.169372665599512, "step": 28460}, {"loss": 0.09577387571334839, "token_acc": 0.9552934722984092, "grad_norm": 0.7564902901649475, "learning_rate": 6.03006994877478e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239346, "epoch": 2.169753792209772, "step": 28465}, {"loss": 0.10857858657836914, "token_acc": 0.9659006671608599, "grad_norm": 0.9626314043998718, "learning_rate": 6.028898258874921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239353, "epoch": 2.170134918820032, "step": 28470}, {"loss": 0.072148597240448, "token_acc": 0.9686809137803979, "grad_norm": 0.5888820886611938, "learning_rate": 6.0277265099725225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239353, "epoch": 2.170516045430292, "step": 28475}, {"loss": 0.06444537043571472, "token_acc": 0.9755855498213577, "grad_norm": 0.7854037880897522, "learning_rate": 6.026554702134777e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23936, "epoch": 2.1708971720405517, "step": 28480}, {"loss": 0.10829472541809082, "token_acc": 0.9637496007665283, "grad_norm": 0.6096973419189453, "learning_rate": 6.0253828354288836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239365, "epoch": 2.1712782986508117, "step": 28485}, {"loss": 0.10484235286712647, "token_acc": 0.9591280653950953, "grad_norm": 0.6725614666938782, "learning_rate": 6.024210909922041e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239374, "epoch": 2.1716594252610717, "step": 28490}, {"loss": 0.0723418951034546, "token_acc": 0.9707078925956062, "grad_norm": 0.6311729550361633, "learning_rate": 6.023038925681458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239384, "epoch": 2.1720405518713317, "step": 28495}, {"loss": 0.10140331983566284, "token_acc": 0.9564990883042459, "grad_norm": 0.9527662992477417, "learning_rate": 6.02186688277434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239393, "epoch": 2.1724216784815917, "step": 28500}, {"loss": 0.11537402868270874, "token_acc": 0.9521008403361344, "grad_norm": 0.76530522108078, "learning_rate": 6.020694781267897e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2394, "epoch": 2.1728028050918513, "step": 28505}, {"loss": 0.08594166040420533, "token_acc": 0.9675586076249112, "grad_norm": 1.814502239227295, "learning_rate": 6.0195226212293454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239409, "epoch": 2.1731839317021113, "step": 28510}, {"loss": 0.09713976979255676, "token_acc": 0.960446247464503, "grad_norm": 0.7927237153053284, "learning_rate": 6.018350402725904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239413, "epoch": 2.1735650583123713, "step": 28515}, {"loss": 0.12309565544128417, "token_acc": 0.9586448034723897, "grad_norm": 0.6296750903129578, "learning_rate": 6.017178125824792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239416, "epoch": 2.1739461849226314, "step": 28520}, {"loss": 0.09520531892776489, "token_acc": 0.9543279686820356, "grad_norm": 0.6733710169792175, "learning_rate": 6.0160057905932335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23943, "epoch": 2.1743273115328914, "step": 28525}, {"loss": 0.10420083999633789, "token_acc": 0.9493670886075949, "grad_norm": 0.9160845279693604, "learning_rate": 6.0148333970984596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239441, "epoch": 2.174708438143151, "step": 28530}, {"loss": 0.09287576079368591, "token_acc": 0.9552364864864865, "grad_norm": 0.46705806255340576, "learning_rate": 6.013660945407699e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239453, "epoch": 2.175089564753411, "step": 28535}, {"loss": 0.10871402025222779, "token_acc": 0.9584382871536524, "grad_norm": 1.444498896598816, "learning_rate": 6.012488435588186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239467, "epoch": 2.175470691363671, "step": 28540}, {"loss": 0.064911949634552, "token_acc": 0.9676627097830536, "grad_norm": 1.0508748292922974, "learning_rate": 6.011315867707161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239473, "epoch": 2.175851817973931, "step": 28545}, {"loss": 0.10519801378250122, "token_acc": 0.9586519399603511, "grad_norm": 1.6996991634368896, "learning_rate": 6.010143241831864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239485, "epoch": 2.176232944584191, "step": 28550}, {"loss": 0.1063997745513916, "token_acc": 0.9574119574119574, "grad_norm": 1.941916584968567, "learning_rate": 6.008970558029538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239489, "epoch": 2.1766140711944506, "step": 28555}, {"loss": 0.09455177783966065, "token_acc": 0.963597907157965, "grad_norm": 1.1384410858154297, "learning_rate": 6.007797816367434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239492, "epoch": 2.1769951978047106, "step": 28560}, {"loss": 0.09158454537391662, "token_acc": 0.9671586715867159, "grad_norm": 0.7243781685829163, "learning_rate": 6.0066250169128025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239497, "epoch": 2.1773763244149706, "step": 28565}, {"loss": 0.1299346685409546, "token_acc": 0.951751866743251, "grad_norm": 1.3454619646072388, "learning_rate": 6.0054521597328986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239509, "epoch": 2.1777574510252307, "step": 28570}, {"loss": 0.09224478006362916, "token_acc": 0.9574116870254209, "grad_norm": 1.0876895189285278, "learning_rate": 6.004279244894977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23952, "epoch": 2.1781385776354907, "step": 28575}, {"loss": 0.08370343446731568, "token_acc": 0.9671232876712329, "grad_norm": 0.535778284072876, "learning_rate": 6.0031062724663024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239525, "epoch": 2.1785197042457503, "step": 28580}, {"loss": 0.08695634603500366, "token_acc": 0.9686783804430863, "grad_norm": 0.5618976354598999, "learning_rate": 6.001933242514137e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239531, "epoch": 2.1789008308560103, "step": 28585}, {"loss": 0.07080357074737549, "token_acc": 0.9536455818445195, "grad_norm": 0.6672285199165344, "learning_rate": 6.0007601551057505e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23954, "epoch": 2.1792819574662703, "step": 28590}, {"loss": 0.08805898427963257, "token_acc": 0.9664179104477612, "grad_norm": 0.6590083837509155, "learning_rate": 5.999587010308413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239548, "epoch": 2.1796630840765303, "step": 28595}, {"loss": 0.060230147838592527, "token_acc": 0.9641008515611955, "grad_norm": 0.08052240312099457, "learning_rate": 5.998413808189399e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239558, "epoch": 2.1800442106867903, "step": 28600}, {"eval_loss": 0.08790554106235504, "eval_token_acc": 0.9606951388470574, "eval_runtime": 219.6024, "eval_samples_per_second": 2.413, "eval_steps_per_second": 2.413, "epoch": 2.1800442106867903, "step": 28600}, {"loss": 0.10768903493881225, "token_acc": 0.9603134645272858, "grad_norm": 0.7962251901626587, "learning_rate": 5.9972405488159876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239127, "epoch": 2.18042533729705, "step": 28605}, {"loss": 0.05665057897567749, "token_acc": 0.9772972972972973, "grad_norm": 0.16098840534687042, "learning_rate": 5.9960672322554565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239139, "epoch": 2.18080646390731, "step": 28610}, {"loss": 0.09734983444213867, "token_acc": 0.9554670528602462, "grad_norm": 1.2436665296554565, "learning_rate": 5.9948938585750925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239153, "epoch": 2.18118759051757, "step": 28615}, {"loss": 0.10554989576339721, "token_acc": 0.9520414776409591, "grad_norm": 1.5661016702651978, "learning_rate": 5.993720427842184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239165, "epoch": 2.18156871712783, "step": 28620}, {"loss": 0.09545673131942749, "token_acc": 0.9605305726302168, "grad_norm": 0.8689875602722168, "learning_rate": 5.992546940124019e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239175, "epoch": 2.18194984373809, "step": 28625}, {"loss": 0.11277850866317748, "token_acc": 0.9605488850771869, "grad_norm": 0.7754881978034973, "learning_rate": 5.9913733954878916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239178, "epoch": 2.1823309703483496, "step": 28630}, {"loss": 0.0861231803894043, "token_acc": 0.9639261744966443, "grad_norm": 1.1624606847763062, "learning_rate": 5.9901997940011024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239186, "epoch": 2.1827120969586096, "step": 28635}, {"loss": 0.0957340955734253, "token_acc": 0.962843295638126, "grad_norm": 2.2545154094696045, "learning_rate": 5.989026135730951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239199, "epoch": 2.1830932235688696, "step": 28640}, {"loss": 0.11221576929092407, "token_acc": 0.9578001633542064, "grad_norm": 1.4343751668930054, "learning_rate": 5.9878524207447386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239211, "epoch": 2.1834743501791296, "step": 28645}, {"loss": 0.09704537391662597, "token_acc": 0.9512676983865657, "grad_norm": 0.37737441062927246, "learning_rate": 5.9866786491097745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239223, "epoch": 2.1838554767893896, "step": 28650}, {"loss": 0.07541357278823853, "token_acc": 0.9706870229007634, "grad_norm": 1.5277860164642334, "learning_rate": 5.985504820893369e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239225, "epoch": 2.184236603399649, "step": 28655}, {"loss": 0.08938062191009521, "token_acc": 0.9562545191612437, "grad_norm": 0.8790802359580994, "learning_rate": 5.984330936162834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239239, "epoch": 2.184617730009909, "step": 28660}, {"loss": 0.11099369525909424, "token_acc": 0.9613817537643933, "grad_norm": 1.5419442653656006, "learning_rate": 5.9831569949854893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239244, "epoch": 2.1849988566201692, "step": 28665}, {"loss": 0.08465604782104492, "token_acc": 0.9668310937234224, "grad_norm": 1.3076199293136597, "learning_rate": 5.9819829974286534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23925, "epoch": 2.1853799832304293, "step": 28670}, {"loss": 0.09034868478775024, "token_acc": 0.9593665969524948, "grad_norm": 0.6575175523757935, "learning_rate": 5.980808943559648e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239255, "epoch": 2.1857611098406893, "step": 28675}, {"loss": 0.08056789636611938, "token_acc": 0.9655859445752581, "grad_norm": 0.782276451587677, "learning_rate": 5.979634833445803e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239262, "epoch": 2.186142236450949, "step": 28680}, {"loss": 0.09123271107673644, "token_acc": 0.9540559942569993, "grad_norm": 0.22168083488941193, "learning_rate": 5.978460667154445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239277, "epoch": 2.186523363061209, "step": 28685}, {"loss": 0.10322872400283814, "token_acc": 0.960863425458947, "grad_norm": 0.7801160216331482, "learning_rate": 5.9772864447529085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239284, "epoch": 2.186904489671469, "step": 28690}, {"loss": 0.10132591724395752, "token_acc": 0.9524026072457178, "grad_norm": 0.8688017725944519, "learning_rate": 5.976112166308529e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239289, "epoch": 2.187285616281729, "step": 28695}, {"loss": 0.08846145868301392, "token_acc": 0.9617850098619329, "grad_norm": 1.526847243309021, "learning_rate": 5.9749378318886486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239299, "epoch": 2.187666742891989, "step": 28700}, {"loss": 0.09201809167861938, "token_acc": 0.9595736861447997, "grad_norm": 0.688266396522522, "learning_rate": 5.973763441560607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239302, "epoch": 2.1880478695022485, "step": 28705}, {"loss": 0.09969985485076904, "token_acc": 0.9553208773354996, "grad_norm": 0.7336198091506958, "learning_rate": 5.97258899539175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23931, "epoch": 2.1884289961125085, "step": 28710}, {"loss": 0.12818397283554078, "token_acc": 0.9570088587806149, "grad_norm": 0.608311116695404, "learning_rate": 5.9714144934494275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239318, "epoch": 2.1888101227227685, "step": 28715}, {"loss": 0.06647705435752868, "token_acc": 0.9781453041937389, "grad_norm": 0.3513854444026947, "learning_rate": 5.970239935800993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239327, "epoch": 2.1891912493330286, "step": 28720}, {"loss": 0.07961885333061218, "token_acc": 0.9724491734752042, "grad_norm": 0.586907148361206, "learning_rate": 5.9690653225137995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239335, "epoch": 2.189572375943288, "step": 28725}, {"loss": 0.07993540763854981, "token_acc": 0.960809928151535, "grad_norm": 0.7322615385055542, "learning_rate": 5.967890653655207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239346, "epoch": 2.189953502553548, "step": 28730}, {"loss": 0.12689443826675414, "token_acc": 0.9593606068816039, "grad_norm": 0.5982035398483276, "learning_rate": 5.966715929292577e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239355, "epoch": 2.190334629163808, "step": 28735}, {"loss": 0.08027002811431885, "token_acc": 0.9619068350021768, "grad_norm": 1.250866174697876, "learning_rate": 5.965541149493276e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239365, "epoch": 2.190715755774068, "step": 28740}, {"loss": 0.1620384931564331, "token_acc": 0.9372188139059304, "grad_norm": 2.6117444038391113, "learning_rate": 5.964366314324667e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239376, "epoch": 2.191096882384328, "step": 28745}, {"loss": 0.07109590768814086, "token_acc": 0.9684850018984938, "grad_norm": 0.7443350553512573, "learning_rate": 5.963191423854129e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239378, "epoch": 2.1914780089945882, "step": 28750}, {"loss": 0.10468604564666747, "token_acc": 0.9562951082598236, "grad_norm": 1.21170973777771, "learning_rate": 5.962016478149031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239391, "epoch": 2.191859135604848, "step": 28755}, {"loss": 0.16838459968566893, "token_acc": 0.9501067535678166, "grad_norm": 2.0057857036590576, "learning_rate": 5.960841477276752e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239391, "epoch": 2.192240262215108, "step": 28760}, {"loss": 0.1333222508430481, "token_acc": 0.9585311016737447, "grad_norm": 1.6185537576675415, "learning_rate": 5.959666421304673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239393, "epoch": 2.192621388825368, "step": 28765}, {"loss": 0.07670620083808899, "token_acc": 0.9659090909090909, "grad_norm": 0.7884822487831116, "learning_rate": 5.958491310300178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239403, "epoch": 2.193002515435628, "step": 28770}, {"loss": 0.0726938545703888, "token_acc": 0.9582595497090817, "grad_norm": 0.8232865929603577, "learning_rate": 5.957316144330656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239414, "epoch": 2.1933836420458874, "step": 28775}, {"loss": 0.07519101500511169, "token_acc": 0.9756171898811338, "grad_norm": 0.09501532465219498, "learning_rate": 5.9561409234634936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239422, "epoch": 2.1937647686561474, "step": 28780}, {"loss": 0.07845911383628845, "token_acc": 0.9672173799921946, "grad_norm": 0.9810920357704163, "learning_rate": 5.9549656477660876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239423, "epoch": 2.1941458952664075, "step": 28785}, {"loss": 0.1578362464904785, "token_acc": 0.944672131147541, "grad_norm": 1.9384510517120361, "learning_rate": 5.953790317305834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239436, "epoch": 2.1945270218766675, "step": 28790}, {"loss": 0.1248600959777832, "token_acc": 0.9531353135313532, "grad_norm": 1.311988115310669, "learning_rate": 5.95261493215013e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239445, "epoch": 2.1949081484869275, "step": 28795}, {"loss": 0.09211788773536682, "token_acc": 0.9707927677329624, "grad_norm": 1.1928349733352661, "learning_rate": 5.9514394923663805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239451, "epoch": 2.1952892750971875, "step": 28800}, {"eval_loss": 0.08703914284706116, "eval_token_acc": 0.9611920968616349, "eval_runtime": 217.1105, "eval_samples_per_second": 2.441, "eval_steps_per_second": 2.441, "epoch": 2.1952892750971875, "step": 28800}, {"loss": 0.0922511339187622, "token_acc": 0.961218547780566, "grad_norm": 0.9304694533348083, "learning_rate": 5.950263998021992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239034, "epoch": 2.195670401707447, "step": 28805}, {"loss": 0.09206722378730774, "token_acc": 0.9637423114276464, "grad_norm": 0.8685370683670044, "learning_rate": 5.9490884491843734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239045, "epoch": 2.196051528317707, "step": 28810}, {"loss": 0.08852599859237671, "token_acc": 0.9669728356458862, "grad_norm": 0.904920220375061, "learning_rate": 5.947912845920935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239051, "epoch": 2.196432654927967, "step": 28815}, {"loss": 0.09556234478950501, "token_acc": 0.9678571428571429, "grad_norm": 1.7651609182357788, "learning_rate": 5.9467371882990966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239066, "epoch": 2.196813781538227, "step": 28820}, {"loss": 0.13407727479934692, "token_acc": 0.9517058041648205, "grad_norm": 1.6504875421524048, "learning_rate": 5.94556147638627e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239073, "epoch": 2.1971949081484867, "step": 28825}, {"loss": 0.10677444934844971, "token_acc": 0.9680209698558322, "grad_norm": 1.3088833093643188, "learning_rate": 5.944385710249884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239081, "epoch": 2.1975760347587467, "step": 28830}, {"loss": 0.13191263675689696, "token_acc": 0.9454478437154441, "grad_norm": 0.928633451461792, "learning_rate": 5.943209889957357e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239088, "epoch": 2.1979571613690068, "step": 28835}, {"loss": 0.09703855514526367, "token_acc": 0.9489944622559021, "grad_norm": 0.6400498151779175, "learning_rate": 5.942034015576122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2391, "epoch": 2.198338287979267, "step": 28840}, {"loss": 0.11858887672424316, "token_acc": 0.9597855227882037, "grad_norm": 0.8739282488822937, "learning_rate": 5.9408580871736085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239104, "epoch": 2.198719414589527, "step": 28845}, {"loss": 0.09487816095352172, "token_acc": 0.9676258992805755, "grad_norm": 0.85493004322052, "learning_rate": 5.939682104817248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239112, "epoch": 2.1991005411997864, "step": 28850}, {"loss": 0.0870305359363556, "token_acc": 0.9614604462474645, "grad_norm": 0.5722710490226746, "learning_rate": 5.9385060685744795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239118, "epoch": 2.1994816678100464, "step": 28855}, {"loss": 0.11022617816925048, "token_acc": 0.9604963805584281, "grad_norm": 1.2472933530807495, "learning_rate": 5.937329978512744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239124, "epoch": 2.1998627944203064, "step": 28860}, {"loss": 0.10049896240234375, "token_acc": 0.960668633235005, "grad_norm": 0.8768842220306396, "learning_rate": 5.936153834699484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239136, "epoch": 2.2002439210305664, "step": 28865}, {"loss": 0.10433646440505981, "token_acc": 0.9622199062011464, "grad_norm": 1.1748061180114746, "learning_rate": 5.934977637202145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239147, "epoch": 2.2006250476408264, "step": 28870}, {"loss": 0.14414005279541015, "token_acc": 0.9518972786508241, "grad_norm": 2.416335105895996, "learning_rate": 5.933801386088178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239153, "epoch": 2.201006174251086, "step": 28875}, {"loss": 0.07905175685882568, "token_acc": 0.9729431253451132, "grad_norm": 0.973145067691803, "learning_rate": 5.9326250814250365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239162, "epoch": 2.201387300861346, "step": 28880}, {"loss": 0.08148943781852722, "token_acc": 0.965491030708422, "grad_norm": 0.48518306016921997, "learning_rate": 5.931448723280171e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239149, "epoch": 2.201768427471606, "step": 28885}, {"loss": 0.11322218179702759, "token_acc": 0.9562638991845812, "grad_norm": 0.6291018724441528, "learning_rate": 5.930272311721045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239157, "epoch": 2.202149554081866, "step": 28890}, {"loss": 0.10402286052703857, "token_acc": 0.9523690147906744, "grad_norm": 1.0008366107940674, "learning_rate": 5.929095846815119e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239167, "epoch": 2.202530680692126, "step": 28895}, {"loss": 0.08090718388557434, "token_acc": 0.96474891918856, "grad_norm": 0.4491863548755646, "learning_rate": 5.927919328629859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23918, "epoch": 2.2029118073023857, "step": 28900}, {"loss": 0.09680279493331909, "token_acc": 0.9624957381520627, "grad_norm": 1.2019726037979126, "learning_rate": 5.92674275723273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239193, "epoch": 2.2032929339126457, "step": 28905}, {"loss": 0.1089707374572754, "token_acc": 0.9671232876712329, "grad_norm": 1.344130277633667, "learning_rate": 5.925566132691205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239203, "epoch": 2.2036740605229057, "step": 28910}, {"loss": 0.06621025800704956, "token_acc": 0.9733582216188699, "grad_norm": 0.7479249835014343, "learning_rate": 5.924389455072759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239209, "epoch": 2.2040551871331657, "step": 28915}, {"loss": 0.07215047478675843, "token_acc": 0.9726632836798167, "grad_norm": 0.5978522896766663, "learning_rate": 5.9232127244448645e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239214, "epoch": 2.2044363137434257, "step": 28920}, {"loss": 0.10894174575805664, "token_acc": 0.9701058201058201, "grad_norm": 1.9057236909866333, "learning_rate": 5.922035940875006e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239222, "epoch": 2.2048174403536853, "step": 28925}, {"loss": 0.07306674718856812, "token_acc": 0.9726716222125055, "grad_norm": 0.7570027709007263, "learning_rate": 5.9208591044306663e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239231, "epoch": 2.2051985669639453, "step": 28930}, {"loss": 0.12193996906280517, "token_acc": 0.9548654244306418, "grad_norm": 2.1561875343322754, "learning_rate": 5.9196822151793273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239244, "epoch": 2.2055796935742054, "step": 28935}, {"loss": 0.099605792760849, "token_acc": 0.9523115368596418, "grad_norm": 0.7276331782341003, "learning_rate": 5.918505273188484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239254, "epoch": 2.2059608201844654, "step": 28940}, {"loss": 0.08943166732788085, "token_acc": 0.969390402075227, "grad_norm": 0.6190464496612549, "learning_rate": 5.917328278525625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239265, "epoch": 2.2063419467947254, "step": 28945}, {"loss": 0.10294674634933472, "token_acc": 0.9537839399191219, "grad_norm": 1.7998408079147339, "learning_rate": 5.9161512312582444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239275, "epoch": 2.206723073404985, "step": 28950}, {"loss": 0.15494229793548583, "token_acc": 0.9455933037912359, "grad_norm": 0.6933124661445618, "learning_rate": 5.914974131453844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239287, "epoch": 2.207104200015245, "step": 28955}, {"loss": 0.0863486647605896, "token_acc": 0.9669353172143005, "grad_norm": 0.6874995827674866, "learning_rate": 5.913796979179922e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239295, "epoch": 2.207485326625505, "step": 28960}, {"loss": 0.1489327669143677, "token_acc": 0.9477343562694798, "grad_norm": 1.1348522901535034, "learning_rate": 5.912619774503985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239307, "epoch": 2.207866453235765, "step": 28965}, {"loss": 0.07432869076728821, "token_acc": 0.9664138678223185, "grad_norm": 0.8211100697517395, "learning_rate": 5.911442517493537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239311, "epoch": 2.208247579846025, "step": 28970}, {"loss": 0.13534436225891114, "token_acc": 0.9496958737465067, "grad_norm": 0.624995231628418, "learning_rate": 5.9102652082160916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239317, "epoch": 2.2086287064562846, "step": 28975}, {"loss": 0.10982645750045776, "token_acc": 0.960603371783496, "grad_norm": 1.7683682441711426, "learning_rate": 5.909087846739161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239321, "epoch": 2.2090098330665446, "step": 28980}, {"loss": 0.06256929039955139, "token_acc": 0.9672645739910314, "grad_norm": 0.6065993309020996, "learning_rate": 5.9079104331302605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239332, "epoch": 2.2093909596768047, "step": 28985}, {"loss": 0.06942579746246338, "token_acc": 0.9718334809565987, "grad_norm": 0.6746577620506287, "learning_rate": 5.9067329674569106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239337, "epoch": 2.2097720862870647, "step": 28990}, {"loss": 0.10228986740112304, "token_acc": 0.9576202118989405, "grad_norm": 0.5669054388999939, "learning_rate": 5.9055554497866314e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239345, "epoch": 2.2101532128973247, "step": 28995}, {"loss": 0.13702352046966554, "token_acc": 0.9426079902656662, "grad_norm": 1.609857201576233, "learning_rate": 5.904377880186951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239354, "epoch": 2.2105343395075843, "step": 29000}, {"eval_loss": 0.08696001023054123, "eval_token_acc": 0.9605746641768568, "eval_runtime": 218.7979, "eval_samples_per_second": 2.422, "eval_steps_per_second": 2.422, "epoch": 2.2105343395075843, "step": 29000}, {"loss": 0.12809984683990477, "token_acc": 0.9603543516809083, "grad_norm": 0.7371930480003357, "learning_rate": 5.903200258725395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23893, "epoch": 2.2109154661178443, "step": 29005}, {"loss": 0.104678213596344, "token_acc": 0.9629032258064516, "grad_norm": 1.5786106586456299, "learning_rate": 5.9020225854694966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238938, "epoch": 2.2112965927281043, "step": 29010}, {"loss": 0.07319798469543456, "token_acc": 0.9644985747603005, "grad_norm": 1.012172818183899, "learning_rate": 5.900844860486788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238947, "epoch": 2.2116777193383643, "step": 29015}, {"loss": 0.08102163672447205, "token_acc": 0.9735276259866423, "grad_norm": 1.2177917957305908, "learning_rate": 5.899667083844807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238949, "epoch": 2.212058845948624, "step": 29020}, {"loss": 0.176019024848938, "token_acc": 0.9409992467988954, "grad_norm": 0.9177025556564331, "learning_rate": 5.8984892556110926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238958, "epoch": 2.212439972558884, "step": 29025}, {"loss": 0.0647564947605133, "token_acc": 0.9712281963675597, "grad_norm": 0.3995053172111511, "learning_rate": 5.8973113758531904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238962, "epoch": 2.212821099169144, "step": 29030}, {"loss": 0.10192911624908448, "token_acc": 0.957983193277311, "grad_norm": 1.8051702976226807, "learning_rate": 5.896133444638645e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238974, "epoch": 2.213202225779404, "step": 29035}, {"loss": 0.09819488525390625, "token_acc": 0.9492521367521367, "grad_norm": 1.2736706733703613, "learning_rate": 5.8949554620350034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238984, "epoch": 2.213583352389664, "step": 29040}, {"loss": 0.11246720552444459, "token_acc": 0.9624829467939973, "grad_norm": 1.540177822113037, "learning_rate": 5.893777428109821e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238991, "epoch": 2.213964478999924, "step": 29045}, {"loss": 0.10113387107849121, "token_acc": 0.9563877330867622, "grad_norm": 1.0434714555740356, "learning_rate": 5.8925993429306505e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238996, "epoch": 2.2143456056101836, "step": 29050}, {"loss": 0.08273571729660034, "token_acc": 0.9725103734439834, "grad_norm": 0.7075568437576294, "learning_rate": 5.8914212065650487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239004, "epoch": 2.2147267322204436, "step": 29055}, {"loss": 0.12945072650909423, "token_acc": 0.9515753530963836, "grad_norm": 0.6343828439712524, "learning_rate": 5.890243019080579e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239009, "epoch": 2.2151078588307036, "step": 29060}, {"loss": 0.09086321592330933, "token_acc": 0.9641818181818181, "grad_norm": 0.7775021195411682, "learning_rate": 5.889064780544803e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239017, "epoch": 2.2154889854409636, "step": 29065}, {"loss": 0.09379048943519593, "token_acc": 0.9577564785232516, "grad_norm": 0.7064670324325562, "learning_rate": 5.887886491025286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239022, "epoch": 2.215870112051223, "step": 29070}, {"loss": 0.0943835735321045, "token_acc": 0.9699609492340042, "grad_norm": 0.5275242328643799, "learning_rate": 5.8867081505896004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239033, "epoch": 2.216251238661483, "step": 29075}, {"loss": 0.09944668412208557, "token_acc": 0.9637033886289522, "grad_norm": 0.5650860667228699, "learning_rate": 5.885529759305317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239037, "epoch": 2.2166323652717432, "step": 29080}, {"loss": 0.10056686401367188, "token_acc": 0.9569313593539704, "grad_norm": 0.8123016953468323, "learning_rate": 5.884351317240012e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239044, "epoch": 2.2170134918820033, "step": 29085}, {"loss": 0.09735267162322998, "token_acc": 0.9625462392108508, "grad_norm": 0.7849647998809814, "learning_rate": 5.8831728244612616e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239047, "epoch": 2.2173946184922633, "step": 29090}, {"loss": 0.08406122922897338, "token_acc": 0.9726290516206483, "grad_norm": 0.5093734264373779, "learning_rate": 5.881994281036648e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23905, "epoch": 2.2177757451025233, "step": 29095}, {"loss": 0.08209398984909058, "token_acc": 0.9652703186537773, "grad_norm": 0.5452955961227417, "learning_rate": 5.880815687033756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239061, "epoch": 2.218156871712783, "step": 29100}, {"loss": 0.125529146194458, "token_acc": 0.9460925039872409, "grad_norm": 0.9549239873886108, "learning_rate": 5.879637042520172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239069, "epoch": 2.218537998323043, "step": 29105}, {"loss": 0.08892745971679687, "token_acc": 0.9661182375906302, "grad_norm": 1.3914787769317627, "learning_rate": 5.8784583475634844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239075, "epoch": 2.218919124933303, "step": 29110}, {"loss": 0.12273286581039429, "token_acc": 0.9468332980300783, "grad_norm": 0.7880571484565735, "learning_rate": 5.877279602231289e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239083, "epoch": 2.219300251543563, "step": 29115}, {"loss": 0.0924648642539978, "token_acc": 0.9660527266161069, "grad_norm": 1.160551905632019, "learning_rate": 5.876100806591179e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239093, "epoch": 2.2196813781538225, "step": 29120}, {"loss": 0.08272572755813598, "token_acc": 0.969381652912331, "grad_norm": 0.9735986590385437, "learning_rate": 5.874921960710753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239094, "epoch": 2.2200625047640825, "step": 29125}, {"loss": 0.09919875860214233, "token_acc": 0.9563742123121668, "grad_norm": 0.46535831689834595, "learning_rate": 5.873743064657613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239105, "epoch": 2.2204436313743425, "step": 29130}, {"loss": 0.08847461342811584, "token_acc": 0.9638646847770375, "grad_norm": 0.9705584645271301, "learning_rate": 5.8725641184993627e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239113, "epoch": 2.2208247579846025, "step": 29135}, {"loss": 0.09746550917625427, "token_acc": 0.9596662030598053, "grad_norm": 0.8367186188697815, "learning_rate": 5.871385122303609e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239125, "epoch": 2.2212058845948626, "step": 29140}, {"loss": 0.10395164489746093, "token_acc": 0.959551325628824, "grad_norm": 1.1570125818252563, "learning_rate": 5.8702060761379626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239137, "epoch": 2.221587011205122, "step": 29145}, {"loss": 0.10961235761642456, "token_acc": 0.9565070802427512, "grad_norm": 0.8230816125869751, "learning_rate": 5.869026980070036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239148, "epoch": 2.221968137815382, "step": 29150}, {"loss": 0.08497329950332641, "token_acc": 0.96991123815255, "grad_norm": 1.1831822395324707, "learning_rate": 5.867847834167444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239151, "epoch": 2.222349264425642, "step": 29155}, {"loss": 0.10299686193466187, "token_acc": 0.9530430818326875, "grad_norm": 1.070433259010315, "learning_rate": 5.866668638497807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239159, "epoch": 2.222730391035902, "step": 29160}, {"loss": 0.06437152624130249, "token_acc": 0.9677320691237192, "grad_norm": 1.0181251764297485, "learning_rate": 5.8654893931287444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239162, "epoch": 2.223111517646162, "step": 29165}, {"loss": 0.13958818912506105, "token_acc": 0.9440364649278298, "grad_norm": 1.321587085723877, "learning_rate": 5.8643100981278834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239171, "epoch": 2.223492644256422, "step": 29170}, {"loss": 0.10321824550628662, "token_acc": 0.9586347908147216, "grad_norm": 0.9863234162330627, "learning_rate": 5.863130753562847e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239173, "epoch": 2.223873770866682, "step": 29175}, {"loss": 0.07746029496192933, "token_acc": 0.9579344357412243, "grad_norm": 0.7619325518608093, "learning_rate": 5.8619513595012686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239182, "epoch": 2.224254897476942, "step": 29180}, {"loss": 0.10979831218719482, "token_acc": 0.9593628088426528, "grad_norm": 0.7200804948806763, "learning_rate": 5.86077191601078e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239189, "epoch": 2.224636024087202, "step": 29185}, {"loss": 0.09587050676345825, "token_acc": 0.964327714621717, "grad_norm": 1.650307536125183, "learning_rate": 5.859592423159016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239191, "epoch": 2.225017150697462, "step": 29190}, {"loss": 0.11553184986114502, "token_acc": 0.951162336393827, "grad_norm": 1.3075900077819824, "learning_rate": 5.8584128810136155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239198, "epoch": 2.2253982773077214, "step": 29195}, {"loss": 0.08010249137878418, "token_acc": 0.972972972972973, "grad_norm": 0.6939677000045776, "learning_rate": 5.857233289642219e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239198, "epoch": 2.2257794039179815, "step": 29200}, {"eval_loss": 0.08711579442024231, "eval_token_acc": 0.9612372748629601, "eval_runtime": 218.3058, "eval_samples_per_second": 2.428, "eval_steps_per_second": 2.428, "epoch": 2.2257794039179815, "step": 29200}, {"loss": 0.12472519874572754, "token_acc": 0.9606788079470199, "grad_norm": 1.1321016550064087, "learning_rate": 5.856053649112473e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238782, "epoch": 2.2261605305282415, "step": 29205}, {"loss": 0.0946509599685669, "token_acc": 0.9630091438071487, "grad_norm": 0.8853023052215576, "learning_rate": 5.854873959492021e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238788, "epoch": 2.2265416571385015, "step": 29210}, {"loss": 0.041424742341041564, "token_acc": 0.9836878507112097, "grad_norm": 0.4898860454559326, "learning_rate": 5.853694220848516e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238789, "epoch": 2.2269227837487615, "step": 29215}, {"loss": 0.06566023230552673, "token_acc": 0.9725897920604915, "grad_norm": 0.9387263059616089, "learning_rate": 5.852514433249608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238797, "epoch": 2.227303910359021, "step": 29220}, {"loss": 0.09921015501022339, "token_acc": 0.9685201529861724, "grad_norm": 1.6788650751113892, "learning_rate": 5.851334596762954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238808, "epoch": 2.227685036969281, "step": 29225}, {"loss": 0.07443768382072449, "token_acc": 0.9713125491223474, "grad_norm": 1.2840332984924316, "learning_rate": 5.8501547114562105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238809, "epoch": 2.228066163579541, "step": 29230}, {"loss": 0.08804042339324951, "token_acc": 0.9596330275229358, "grad_norm": 1.2149189710617065, "learning_rate": 5.8489747773970405e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238818, "epoch": 2.228447290189801, "step": 29235}, {"loss": 0.07277494668960571, "token_acc": 0.9690038123653241, "grad_norm": 1.1432230472564697, "learning_rate": 5.8477947946531075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238825, "epoch": 2.228828416800061, "step": 29240}, {"loss": 0.11627265214920043, "token_acc": 0.9636697247706422, "grad_norm": 0.5275107622146606, "learning_rate": 5.846614763292075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238831, "epoch": 2.2292095434103207, "step": 29245}, {"loss": 0.06221815347671509, "token_acc": 0.9716252868766951, "grad_norm": 0.6106123924255371, "learning_rate": 5.845434683381618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23884, "epoch": 2.2295906700205808, "step": 29250}, {"loss": 0.058583295345306395, "token_acc": 0.9596882558452029, "grad_norm": 0.7409005761146545, "learning_rate": 5.844254554989403e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238851, "epoch": 2.2299717966308408, "step": 29255}, {"loss": 0.11682937145233155, "token_acc": 0.9497163486333161, "grad_norm": 2.711928367614746, "learning_rate": 5.843074378183107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238861, "epoch": 2.230352923241101, "step": 29260}, {"loss": 0.10385620594024658, "token_acc": 0.960735171261487, "grad_norm": 1.1495715379714966, "learning_rate": 5.841894153030408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23887, "epoch": 2.230734049851361, "step": 29265}, {"loss": 0.09732089638710022, "token_acc": 0.9618222649983958, "grad_norm": 1.0255138874053955, "learning_rate": 5.840713879598987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238877, "epoch": 2.2311151764616204, "step": 29270}, {"loss": 0.10010727643966674, "token_acc": 0.9639446501656597, "grad_norm": 1.3367868661880493, "learning_rate": 5.839533557956526e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238885, "epoch": 2.2314963030718804, "step": 29275}, {"loss": 0.12616634368896484, "token_acc": 0.9523992322456813, "grad_norm": 1.109761357307434, "learning_rate": 5.83835318817071e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23889, "epoch": 2.2318774296821404, "step": 29280}, {"loss": 0.05514953136444092, "token_acc": 0.980497646267653, "grad_norm": 0.5499297976493835, "learning_rate": 5.8371727703092304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238893, "epoch": 2.2322585562924004, "step": 29285}, {"loss": 0.14690487384796141, "token_acc": 0.9639696586599241, "grad_norm": 1.902769684791565, "learning_rate": 5.835992304439778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238901, "epoch": 2.2326396829026605, "step": 29290}, {"loss": 0.08196125626564026, "token_acc": 0.9725760527498876, "grad_norm": 0.7917807102203369, "learning_rate": 5.834811790630045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238903, "epoch": 2.23302080951292, "step": 29295}, {"loss": 0.11354115009307861, "token_acc": 0.9648280482358196, "grad_norm": 0.5552849769592285, "learning_rate": 5.833631228947729e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238901, "epoch": 2.23340193612318, "step": 29300}, {"loss": 0.08670984506607056, "token_acc": 0.9670286278381046, "grad_norm": 1.1155108213424683, "learning_rate": 5.832450619460532e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238909, "epoch": 2.23378306273344, "step": 29305}, {"loss": 0.09489326477050782, "token_acc": 0.959040506902014, "grad_norm": 1.1885536909103394, "learning_rate": 5.8312699622361556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238916, "epoch": 2.2341641893437, "step": 29310}, {"loss": 0.11890120506286621, "token_acc": 0.953173546382601, "grad_norm": 1.3075968027114868, "learning_rate": 5.8300892573423024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238924, "epoch": 2.23454531595396, "step": 29315}, {"loss": 0.06777180433273315, "token_acc": 0.9621374865735768, "grad_norm": 1.1169874668121338, "learning_rate": 5.828908504846685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238934, "epoch": 2.2349264425642197, "step": 29320}, {"loss": 0.05845197439193726, "token_acc": 0.9740661112604139, "grad_norm": 0.7007449865341187, "learning_rate": 5.8277277048170095e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238939, "epoch": 2.2353075691744797, "step": 29325}, {"loss": 0.08815938830375672, "token_acc": 0.9709500130855797, "grad_norm": 0.6309834122657776, "learning_rate": 5.826546857320992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23895, "epoch": 2.2356886957847397, "step": 29330}, {"loss": 0.09333096742630005, "token_acc": 0.9690069576217584, "grad_norm": 0.5346353054046631, "learning_rate": 5.825365962426348e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238959, "epoch": 2.2360698223949997, "step": 29335}, {"loss": 0.07084048986434936, "token_acc": 0.9810350939383198, "grad_norm": 1.0738356113433838, "learning_rate": 5.8241850202007965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238964, "epoch": 2.2364509490052598, "step": 29340}, {"loss": 0.07830387353897095, "token_acc": 0.9700365408038977, "grad_norm": 0.9912185072898865, "learning_rate": 5.823004030712058e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238973, "epoch": 2.2368320756155193, "step": 29345}, {"loss": 0.11806774139404297, "token_acc": 0.9526288391462779, "grad_norm": 0.8207936882972717, "learning_rate": 5.821822994027858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238982, "epoch": 2.2372132022257794, "step": 29350}, {"loss": 0.08510139584541321, "token_acc": 0.9590604026845637, "grad_norm": 0.9739744663238525, "learning_rate": 5.8206419102159225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238993, "epoch": 2.2375943288360394, "step": 29355}, {"loss": 0.1151192307472229, "token_acc": 0.9558885605740819, "grad_norm": 0.8472847938537598, "learning_rate": 5.819460779343982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239, "epoch": 2.2379754554462994, "step": 29360}, {"loss": 0.08861685395240784, "token_acc": 0.9653821032005225, "grad_norm": 1.8394434452056885, "learning_rate": 5.818279601479768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23901, "epoch": 2.238356582056559, "step": 29365}, {"loss": 0.05714611411094665, "token_acc": 0.9738950633238563, "grad_norm": 0.6740123629570007, "learning_rate": 5.817098376691017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239019, "epoch": 2.238737708666819, "step": 29370}, {"loss": 0.06929715275764466, "token_acc": 0.96736, "grad_norm": 0.8111326694488525, "learning_rate": 5.815917105045467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23903, "epoch": 2.239118835277079, "step": 29375}, {"loss": 0.08702963590621948, "token_acc": 0.9604722792607803, "grad_norm": 0.6377689242362976, "learning_rate": 5.814735786610856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239042, "epoch": 2.239499961887339, "step": 29380}, {"loss": 0.11089174747467041, "token_acc": 0.9424054206662902, "grad_norm": 0.3633939027786255, "learning_rate": 5.813554421454928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239053, "epoch": 2.239881088497599, "step": 29385}, {"loss": 0.1079336404800415, "token_acc": 0.950812274368231, "grad_norm": 2.0164549350738525, "learning_rate": 5.812373009645429e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239063, "epoch": 2.240262215107859, "step": 29390}, {"loss": 0.07274160385131836, "token_acc": 0.9693823684673588, "grad_norm": 1.0745865106582642, "learning_rate": 5.811191551250109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239069, "epoch": 2.2406433417181186, "step": 29395}, {"loss": 0.12792248725891114, "token_acc": 0.9565452578434908, "grad_norm": 0.8852519989013672, "learning_rate": 5.810010046336717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239072, "epoch": 2.2410244683283786, "step": 29400}, {"eval_loss": 0.0905846357345581, "eval_token_acc": 0.9607252575146076, "eval_runtime": 218.5654, "eval_samples_per_second": 2.425, "eval_steps_per_second": 2.425, "epoch": 2.2410244683283786, "step": 29400}, {"loss": 0.07672276496887206, "token_acc": 0.9610281201457544, "grad_norm": 6.267818927764893, "learning_rate": 5.808828494973009e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238657, "epoch": 2.2414055949386387, "step": 29405}, {"loss": 0.10768457651138305, "token_acc": 0.955945252352438, "grad_norm": 0.8856683373451233, "learning_rate": 5.8076468972267396e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238663, "epoch": 2.2417867215488987, "step": 29410}, {"loss": 0.05633485913276672, "token_acc": 0.9771812080536912, "grad_norm": 1.1531215906143188, "learning_rate": 5.806465253165667e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23867, "epoch": 2.2421678481591583, "step": 29415}, {"loss": 0.0828878939151764, "token_acc": 0.9675456389452333, "grad_norm": 1.021605134010315, "learning_rate": 5.8052835628575564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238675, "epoch": 2.2425489747694183, "step": 29420}, {"loss": 0.12422515153884887, "token_acc": 0.9581785500299581, "grad_norm": 0.598179817199707, "learning_rate": 5.80410182637017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238676, "epoch": 2.2429301013796783, "step": 29425}, {"loss": 0.07833443880081177, "token_acc": 0.9656593406593407, "grad_norm": 1.0756993293762207, "learning_rate": 5.802920043771276e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238687, "epoch": 2.2433112279899383, "step": 29430}, {"loss": 0.08666513562202453, "token_acc": 0.9661204198121893, "grad_norm": 0.6223176717758179, "learning_rate": 5.8017382151286415e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238697, "epoch": 2.2436923546001983, "step": 29435}, {"loss": 0.10642174482345582, "token_acc": 0.9560327198364008, "grad_norm": 0.9155974388122559, "learning_rate": 5.800556340510043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238707, "epoch": 2.244073481210458, "step": 29440}, {"loss": 0.06528844833374023, "token_acc": 0.9736197987489802, "grad_norm": 0.5949214696884155, "learning_rate": 5.799374419983252e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238717, "epoch": 2.244454607820718, "step": 29445}, {"loss": 0.0936412751674652, "token_acc": 0.956371082060167, "grad_norm": 0.9791076183319092, "learning_rate": 5.798192453616048e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238724, "epoch": 2.244835734430978, "step": 29450}, {"loss": 0.09089666604995728, "token_acc": 0.9673013245033113, "grad_norm": 0.6201654076576233, "learning_rate": 5.797010441476212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23873, "epoch": 2.245216861041238, "step": 29455}, {"loss": 0.06674984693527222, "token_acc": 0.972989017512615, "grad_norm": 0.7913779020309448, "learning_rate": 5.7958283836315254e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238739, "epoch": 2.245597987651498, "step": 29460}, {"loss": 0.10688748359680175, "token_acc": 0.9595448798988622, "grad_norm": 1.0334267616271973, "learning_rate": 5.7946462801497724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238752, "epoch": 2.2459791142617576, "step": 29465}, {"loss": 0.0941691517829895, "token_acc": 0.9620676831535887, "grad_norm": 1.190184473991394, "learning_rate": 5.793464131098745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238764, "epoch": 2.2463602408720176, "step": 29470}, {"loss": 0.1198868989944458, "token_acc": 0.9347536617842876, "grad_norm": 0.9701222777366638, "learning_rate": 5.792281936546231e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238776, "epoch": 2.2467413674822776, "step": 29475}, {"loss": 0.11845667362213134, "token_acc": 0.9386120996441281, "grad_norm": 1.4663405418395996, "learning_rate": 5.791099696560024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238789, "epoch": 2.2471224940925376, "step": 29480}, {"loss": 0.07939584851264954, "token_acc": 0.9709754637941352, "grad_norm": 0.7954038381576538, "learning_rate": 5.78991741120792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2388, "epoch": 2.2475036207027976, "step": 29485}, {"loss": 0.09561090469360352, "token_acc": 0.9528907922912205, "grad_norm": 1.0619233846664429, "learning_rate": 5.7887350805577204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238813, "epoch": 2.247884747313057, "step": 29490}, {"loss": 0.12045505046844482, "token_acc": 0.9457547169811321, "grad_norm": 1.2254269123077393, "learning_rate": 5.7875527046772216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238821, "epoch": 2.2482658739233172, "step": 29495}, {"loss": 0.09624773263931274, "token_acc": 0.9566701680672269, "grad_norm": 0.6814715266227722, "learning_rate": 5.786370283634231e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23883, "epoch": 2.2486470005335772, "step": 29500}, {"loss": 0.11033997535705567, "token_acc": 0.9623346751006325, "grad_norm": 1.7416231632232666, "learning_rate": 5.785187817496553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238838, "epoch": 2.2490281271438373, "step": 29505}, {"loss": 0.12139544486999512, "token_acc": 0.9569555859909998, "grad_norm": 1.3084601163864136, "learning_rate": 5.784005306331999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238847, "epoch": 2.2494092537540973, "step": 29510}, {"loss": 0.1024258017539978, "token_acc": 0.960800161648818, "grad_norm": 0.9811158776283264, "learning_rate": 5.7828227502083784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238857, "epoch": 2.249790380364357, "step": 29515}, {"loss": 0.11518096923828125, "token_acc": 0.9597002262443439, "grad_norm": 0.8672311305999756, "learning_rate": 5.781640149193506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238859, "epoch": 2.250171506974617, "step": 29520}, {"loss": 0.08559463024139405, "token_acc": 0.9634175123908426, "grad_norm": 0.9036468863487244, "learning_rate": 5.7804575033551975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238869, "epoch": 2.250552633584877, "step": 29525}, {"loss": 0.1039236068725586, "token_acc": 0.9579950582421461, "grad_norm": 1.728669285774231, "learning_rate": 5.779274812761274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238881, "epoch": 2.250933760195137, "step": 29530}, {"loss": 0.10353094339370728, "token_acc": 0.9572141668647492, "grad_norm": 0.8602311015129089, "learning_rate": 5.778092077479555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238891, "epoch": 2.251314886805397, "step": 29535}, {"loss": 0.08912047743797302, "token_acc": 0.9643507676294562, "grad_norm": 0.6858974099159241, "learning_rate": 5.776909297577867e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2389, "epoch": 2.2516960134156565, "step": 29540}, {"loss": 0.09641697406768798, "token_acc": 0.9584289722009691, "grad_norm": 1.405182123184204, "learning_rate": 5.775726473124036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238912, "epoch": 2.2520771400259165, "step": 29545}, {"loss": 0.09534600973129273, "token_acc": 0.9538131041890441, "grad_norm": 0.7709251046180725, "learning_rate": 5.77454360418589e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238923, "epoch": 2.2524582666361765, "step": 29550}, {"loss": 0.10576581954956055, "token_acc": 0.9558335460811845, "grad_norm": 0.5804107785224915, "learning_rate": 5.773360690831265e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238933, "epoch": 2.2528393932464366, "step": 29555}, {"loss": 0.15266804695129393, "token_acc": 0.9458128078817734, "grad_norm": 1.3757576942443848, "learning_rate": 5.7721777331279916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238942, "epoch": 2.2532205198566966, "step": 29560}, {"loss": 0.10273809432983398, "token_acc": 0.9582438558816512, "grad_norm": 1.2293621301651, "learning_rate": 5.7709947311439097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238952, "epoch": 2.253601646466956, "step": 29565}, {"loss": 0.14323937892913818, "token_acc": 0.9504021447721179, "grad_norm": 1.1848936080932617, "learning_rate": 5.7698116849468566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238965, "epoch": 2.253982773077216, "step": 29570}, {"loss": 0.1147235631942749, "token_acc": 0.9605045672031318, "grad_norm": 0.7263049483299255, "learning_rate": 5.768628594604677e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238963, "epoch": 2.254363899687476, "step": 29575}, {"loss": 0.09442520141601562, "token_acc": 0.9677053824362606, "grad_norm": 1.0968860387802124, "learning_rate": 5.767445460185214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238972, "epoch": 2.254745026297736, "step": 29580}, {"loss": 0.082880038022995, "token_acc": 0.9719905922599957, "grad_norm": 1.0992894172668457, "learning_rate": 5.766262281756315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238978, "epoch": 2.2551261529079962, "step": 29585}, {"loss": 0.11388685703277587, "token_acc": 0.9459773453383677, "grad_norm": 0.8327937126159668, "learning_rate": 5.7650790593858296e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23899, "epoch": 2.255507279518256, "step": 29590}, {"loss": 0.1194993495941162, "token_acc": 0.9546534653465346, "grad_norm": 0.8314562439918518, "learning_rate": 5.7638957931416115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238997, "epoch": 2.255888406128516, "step": 29595}, {"loss": 0.1468212366104126, "token_acc": 0.9488324175824175, "grad_norm": 0.7081538438796997, "learning_rate": 5.7627124830915145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.239009, "epoch": 2.256269532738776, "step": 29600}, {"eval_loss": 0.08791312575340271, "eval_token_acc": 0.9613050418649479, "eval_runtime": 218.8732, "eval_samples_per_second": 2.421, "eval_steps_per_second": 2.421, "epoch": 2.256269532738776, "step": 29600}, {"loss": 0.08747146725654602, "token_acc": 0.9612556746555129, "grad_norm": 1.1298879384994507, "learning_rate": 5.761529129303395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238598, "epoch": 2.256650659349036, "step": 29605}, {"loss": 0.0877134621143341, "token_acc": 0.9614877727339288, "grad_norm": 0.4600697159767151, "learning_rate": 5.760345731845115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2386, "epoch": 2.2570317859592954, "step": 29610}, {"loss": 0.08997402787208557, "token_acc": 0.9654300168634065, "grad_norm": 1.1674805879592896, "learning_rate": 5.759162290784535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238608, "epoch": 2.2574129125695555, "step": 29615}, {"loss": 0.08923695683479309, "token_acc": 0.963265306122449, "grad_norm": 0.7436054348945618, "learning_rate": 5.75797880618952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238615, "epoch": 2.2577940391798155, "step": 29620}, {"loss": 0.15548186302185057, "token_acc": 0.9431716082659479, "grad_norm": 2.73691463470459, "learning_rate": 5.7567952781279376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238624, "epoch": 2.2581751657900755, "step": 29625}, {"loss": 0.0911983847618103, "token_acc": 0.9662837535431896, "grad_norm": 1.335565209388733, "learning_rate": 5.755611706667659e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238628, "epoch": 2.2585562924003355, "step": 29630}, {"loss": 0.0821040391921997, "token_acc": 0.9707638144803307, "grad_norm": 1.3673577308654785, "learning_rate": 5.754428091876557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238633, "epoch": 2.2589374190105955, "step": 29635}, {"loss": 0.08508868217468261, "token_acc": 0.9622030237580994, "grad_norm": 0.929169774055481, "learning_rate": 5.7532444338225025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238644, "epoch": 2.259318545620855, "step": 29640}, {"loss": 0.1555894136428833, "token_acc": 0.9452252997106242, "grad_norm": 0.7419663071632385, "learning_rate": 5.752060732573377e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238654, "epoch": 2.259699672231115, "step": 29645}, {"loss": 0.09023836255073547, "token_acc": 0.9625, "grad_norm": 0.9477188587188721, "learning_rate": 5.750876988197057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238664, "epoch": 2.260080798841375, "step": 29650}, {"loss": 0.07207100987434387, "token_acc": 0.9747774480712166, "grad_norm": 0.9495424032211304, "learning_rate": 5.7496932007614266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238672, "epoch": 2.260461925451635, "step": 29655}, {"loss": 0.11563383340835572, "token_acc": 0.947381009327912, "grad_norm": 1.3611626625061035, "learning_rate": 5.7485093703343705e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238683, "epoch": 2.2608430520618947, "step": 29660}, {"loss": 0.09074771404266357, "token_acc": 0.9699101211410708, "grad_norm": 1.336162805557251, "learning_rate": 5.7473254969837754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238689, "epoch": 2.2612241786721547, "step": 29665}, {"loss": 0.13604289293289185, "token_acc": 0.9582966226138032, "grad_norm": 1.2417963743209839, "learning_rate": 5.746141580777532e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238697, "epoch": 2.2616053052824148, "step": 29670}, {"loss": 0.07404351234436035, "token_acc": 0.968276102492592, "grad_norm": 0.5591177940368652, "learning_rate": 5.74495762178353e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238702, "epoch": 2.261986431892675, "step": 29675}, {"loss": 0.08617292642593384, "token_acc": 0.9660493827160493, "grad_norm": 1.3885908126831055, "learning_rate": 5.7437736200696656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23871, "epoch": 2.262367558502935, "step": 29680}, {"loss": 0.07827628254890442, "token_acc": 0.964578313253012, "grad_norm": 1.2833900451660156, "learning_rate": 5.742589575703836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23872, "epoch": 2.262748685113195, "step": 29685}, {"loss": 0.10113543272018433, "token_acc": 0.9608144448713023, "grad_norm": 0.403937429189682, "learning_rate": 5.74140548875394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238724, "epoch": 2.2631298117234544, "step": 29690}, {"loss": 0.09870997667312623, "token_acc": 0.9611197511664075, "grad_norm": 0.9561710357666016, "learning_rate": 5.740221359287879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238735, "epoch": 2.2635109383337144, "step": 29695}, {"loss": 0.10019593238830567, "token_acc": 0.9648356978295137, "grad_norm": 1.167987585067749, "learning_rate": 5.739037187373559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23874, "epoch": 2.2638920649439744, "step": 29700}, {"loss": 0.09572029113769531, "token_acc": 0.9673032009891469, "grad_norm": 1.2988662719726562, "learning_rate": 5.7378529730788875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238746, "epoch": 2.2642731915542345, "step": 29705}, {"loss": 0.11107032299041748, "token_acc": 0.9695203944419543, "grad_norm": 0.7734620571136475, "learning_rate": 5.736668716471769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238754, "epoch": 2.264654318164494, "step": 29710}, {"loss": 0.08022345900535584, "token_acc": 0.9650302622730329, "grad_norm": 0.7956851124763489, "learning_rate": 5.7354844176201205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238758, "epoch": 2.265035444774754, "step": 29715}, {"loss": 0.12027335166931152, "token_acc": 0.9521390374331551, "grad_norm": 0.8381355404853821, "learning_rate": 5.7343000765918534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238767, "epoch": 2.265416571385014, "step": 29720}, {"loss": 0.1254490375518799, "token_acc": 0.958295001533272, "grad_norm": 0.8090341091156006, "learning_rate": 5.733115693454882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238779, "epoch": 2.265797697995274, "step": 29725}, {"loss": 0.09208222031593323, "token_acc": 0.966381015161503, "grad_norm": 1.2990212440490723, "learning_rate": 5.731931268277131e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238784, "epoch": 2.266178824605534, "step": 29730}, {"loss": 0.08643304109573365, "token_acc": 0.9575375486742073, "grad_norm": 0.8209584951400757, "learning_rate": 5.730746801126518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238791, "epoch": 2.266559951215794, "step": 29735}, {"loss": 0.1150052309036255, "token_acc": 0.958129007921539, "grad_norm": 0.7107672095298767, "learning_rate": 5.729562292070965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238797, "epoch": 2.2669410778260537, "step": 29740}, {"loss": 0.07381318807601929, "token_acc": 0.9711609110947832, "grad_norm": 0.574143648147583, "learning_rate": 5.728377741178401e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238804, "epoch": 2.2673222044363137, "step": 29745}, {"loss": 0.0874578297138214, "token_acc": 0.968429258152527, "grad_norm": 1.244683027267456, "learning_rate": 5.727193148516754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238805, "epoch": 2.2677033310465737, "step": 29750}, {"loss": 0.15346014499664307, "token_acc": 0.9545346346108069, "grad_norm": 0.7323178052902222, "learning_rate": 5.726008514153954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238812, "epoch": 2.2680844576568338, "step": 29755}, {"loss": 0.1242634892463684, "token_acc": 0.9373349339735895, "grad_norm": 1.6105327606201172, "learning_rate": 5.724823838157933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238822, "epoch": 2.2684655842670933, "step": 29760}, {"loss": 0.09517564177513123, "token_acc": 0.955503512880562, "grad_norm": 1.0090878009796143, "learning_rate": 5.723639120596631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238835, "epoch": 2.2688467108773533, "step": 29765}, {"loss": 0.09699450731277466, "token_acc": 0.9714285714285714, "grad_norm": 1.6345921754837036, "learning_rate": 5.722454361537984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238839, "epoch": 2.2692278374876134, "step": 29770}, {"loss": 0.12385165691375732, "token_acc": 0.9517594369801663, "grad_norm": 0.8633151650428772, "learning_rate": 5.721269561049931e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238842, "epoch": 2.2696089640978734, "step": 29775}, {"loss": 0.08616209030151367, "token_acc": 0.9656319290465631, "grad_norm": 1.075720191001892, "learning_rate": 5.720084719200416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238852, "epoch": 2.2699900907081334, "step": 29780}, {"loss": 0.1071089744567871, "token_acc": 0.9367747098839536, "grad_norm": 0.6088447570800781, "learning_rate": 5.7188998360573833e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238865, "epoch": 2.2703712173183934, "step": 29785}, {"loss": 0.09238345623016357, "token_acc": 0.9639686684073107, "grad_norm": 0.92210453748703, "learning_rate": 5.7177149116887815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238873, "epoch": 2.270752343928653, "step": 29790}, {"loss": 0.08590492010116577, "token_acc": 0.9695577254451465, "grad_norm": 0.9962391257286072, "learning_rate": 5.71652994616256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238881, "epoch": 2.271133470538913, "step": 29795}, {"loss": 0.11061415672302247, "token_acc": 0.9589994842702424, "grad_norm": 1.0882277488708496, "learning_rate": 5.715344939546672e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23889, "epoch": 2.271514597149173, "step": 29800}, {"eval_loss": 0.08697597682476044, "eval_token_acc": 0.9615384615384616, "eval_runtime": 219.757, "eval_samples_per_second": 2.412, "eval_steps_per_second": 2.412, "epoch": 2.271514597149173, "step": 29800}, {"loss": 0.06047337055206299, "token_acc": 0.9619292670126538, "grad_norm": 0.6743706464767456, "learning_rate": 5.7141598919090714e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238479, "epoch": 2.271895723759433, "step": 29805}, {"loss": 0.12391581535339355, "token_acc": 0.9612659423712802, "grad_norm": 1.2512203454971313, "learning_rate": 5.7129748033177136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238489, "epoch": 2.2722768503696926, "step": 29810}, {"loss": 0.12657305002212524, "token_acc": 0.9506637168141593, "grad_norm": 0.7535390257835388, "learning_rate": 5.711789673840559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238498, "epoch": 2.2726579769799526, "step": 29815}, {"loss": 0.1016353964805603, "token_acc": 0.956767603064575, "grad_norm": 0.9032631516456604, "learning_rate": 5.710604503545572e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238502, "epoch": 2.2730391035902127, "step": 29820}, {"loss": 0.09974836707115173, "token_acc": 0.9639019013502342, "grad_norm": 1.3334821462631226, "learning_rate": 5.7094192925007125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238511, "epoch": 2.2734202302004727, "step": 29825}, {"loss": 0.11560415029525757, "token_acc": 0.9580805295091009, "grad_norm": 1.1291440725326538, "learning_rate": 5.70823404077395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238525, "epoch": 2.2738013568107327, "step": 29830}, {"loss": 0.06047348976135254, "token_acc": 0.9587601078167116, "grad_norm": 0.575461208820343, "learning_rate": 5.707048748433251e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238535, "epoch": 2.2741824834209923, "step": 29835}, {"loss": 0.10287492275238037, "token_acc": 0.9611669623496945, "grad_norm": 0.7454870939254761, "learning_rate": 5.7058634155465887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238543, "epoch": 2.2745636100312523, "step": 29840}, {"loss": 0.08376376628875733, "token_acc": 0.9693769799366421, "grad_norm": 2.078479290008545, "learning_rate": 5.704678042181932e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238549, "epoch": 2.2749447366415123, "step": 29845}, {"loss": 0.12300379276275634, "token_acc": 0.9570858283433133, "grad_norm": 1.6120598316192627, "learning_rate": 5.7034926284072634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238555, "epoch": 2.2753258632517723, "step": 29850}, {"loss": 0.087534499168396, "token_acc": 0.9668508287292817, "grad_norm": 1.0315546989440918, "learning_rate": 5.7023071742905554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23856, "epoch": 2.2757069898620323, "step": 29855}, {"loss": 0.1032545804977417, "token_acc": 0.96068669527897, "grad_norm": 1.2807683944702148, "learning_rate": 5.70112167989979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238568, "epoch": 2.276088116472292, "step": 29860}, {"loss": 0.10515725612640381, "token_acc": 0.9572827054286562, "grad_norm": 1.0422446727752686, "learning_rate": 5.6999361453029495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238578, "epoch": 2.276469243082552, "step": 29865}, {"loss": 0.1001811146736145, "token_acc": 0.9560677966101695, "grad_norm": 0.9309831857681274, "learning_rate": 5.6987505705680214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238579, "epoch": 2.276850369692812, "step": 29870}, {"loss": 0.11318085193634034, "token_acc": 0.9531653746770026, "grad_norm": 1.674796462059021, "learning_rate": 5.697564955762988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238589, "epoch": 2.277231496303072, "step": 29875}, {"loss": 0.09756169319152833, "token_acc": 0.952204748689485, "grad_norm": 0.7955397963523865, "learning_rate": 5.696379300955843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2386, "epoch": 2.277612622913332, "step": 29880}, {"loss": 0.11191200017929077, "token_acc": 0.9590004489001945, "grad_norm": 0.5379127264022827, "learning_rate": 5.695193606214576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238605, "epoch": 2.2779937495235916, "step": 29885}, {"loss": 0.07625535130500793, "token_acc": 0.9713180059185067, "grad_norm": 1.4161854982376099, "learning_rate": 5.694007871607182e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238613, "epoch": 2.2783748761338516, "step": 29890}, {"loss": 0.06954213976860046, "token_acc": 0.9757556675062973, "grad_norm": 0.7542302012443542, "learning_rate": 5.6928220972016565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238615, "epoch": 2.2787560027441116, "step": 29895}, {"loss": 0.1120072841644287, "token_acc": 0.9632500717772036, "grad_norm": 1.1198467016220093, "learning_rate": 5.6916362830659996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238616, "epoch": 2.2791371293543716, "step": 29900}, {"loss": 0.0713611364364624, "token_acc": 0.9792854998498949, "grad_norm": 0.6305238008499146, "learning_rate": 5.690450429268211e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238618, "epoch": 2.279518255964631, "step": 29905}, {"loss": 0.11996427774429322, "token_acc": 0.9614035087719298, "grad_norm": 1.3654106855392456, "learning_rate": 5.6892645358762954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238624, "epoch": 2.279899382574891, "step": 29910}, {"loss": 0.05447434186935425, "token_acc": 0.9786723540389229, "grad_norm": 0.5335673093795776, "learning_rate": 5.688078602958256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238636, "epoch": 2.2802805091851512, "step": 29915}, {"loss": 0.12166061401367187, "token_acc": 0.9546591619762351, "grad_norm": 1.2790799140930176, "learning_rate": 5.686892630582103e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238646, "epoch": 2.2806616357954113, "step": 29920}, {"loss": 0.08063465356826782, "token_acc": 0.9660474055092889, "grad_norm": 0.960541844367981, "learning_rate": 5.685706618815845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238653, "epoch": 2.2810427624056713, "step": 29925}, {"loss": 0.08080205917358399, "token_acc": 0.9712894560107455, "grad_norm": 0.9165868163108826, "learning_rate": 5.684520567727492e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238659, "epoch": 2.2814238890159313, "step": 29930}, {"loss": 0.10593725442886352, "token_acc": 0.9586567164179104, "grad_norm": 0.857231080532074, "learning_rate": 5.683334477385064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238663, "epoch": 2.281805015626191, "step": 29935}, {"loss": 0.07412965297698974, "token_acc": 0.9695712309820194, "grad_norm": 0.5822929739952087, "learning_rate": 5.682148347856574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238666, "epoch": 2.282186142236451, "step": 29940}, {"loss": 0.08544887900352478, "token_acc": 0.967741935483871, "grad_norm": 1.1302849054336548, "learning_rate": 5.680962179210042e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238672, "epoch": 2.282567268846711, "step": 29945}, {"loss": 0.14741196632385253, "token_acc": 0.9371385466431984, "grad_norm": 1.9605662822723389, "learning_rate": 5.679775971513488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23868, "epoch": 2.282948395456971, "step": 29950}, {"loss": 0.12397966384887696, "token_acc": 0.9544223107569721, "grad_norm": 1.4360101222991943, "learning_rate": 5.6785897248349375e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238686, "epoch": 2.2833295220672305, "step": 29955}, {"loss": 0.09912843704223633, "token_acc": 0.9590075512405609, "grad_norm": 0.766730546951294, "learning_rate": 5.6774034392424146e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238692, "epoch": 2.2837106486774905, "step": 29960}, {"loss": 0.09029557704925537, "token_acc": 0.9604547701433515, "grad_norm": 1.454736590385437, "learning_rate": 5.6762171148039476e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238699, "epoch": 2.2840917752877505, "step": 29965}, {"loss": 0.04767584800720215, "token_acc": 0.9779449922158796, "grad_norm": 1.0544531345367432, "learning_rate": 5.6750307515875676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238709, "epoch": 2.2844729018980106, "step": 29970}, {"loss": 0.09997313022613526, "token_acc": 0.9546811397557666, "grad_norm": 1.1560943126678467, "learning_rate": 5.673844349661308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238719, "epoch": 2.2848540285082706, "step": 29975}, {"loss": 0.10029778480529786, "token_acc": 0.9584717607973422, "grad_norm": 0.8264760375022888, "learning_rate": 5.672657909093201e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238729, "epoch": 2.2852351551185306, "step": 29980}, {"loss": 0.10831784009933472, "token_acc": 0.9621152328334649, "grad_norm": 0.8145834803581238, "learning_rate": 5.671471429951284e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238736, "epoch": 2.28561628172879, "step": 29985}, {"loss": 0.07515093684196472, "token_acc": 0.9783956415555138, "grad_norm": 0.8219764232635498, "learning_rate": 5.670284912303596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238742, "epoch": 2.28599740833905, "step": 29990}, {"loss": 0.09011992216110229, "token_acc": 0.9623911322248614, "grad_norm": 0.968137800693512, "learning_rate": 5.669098356218181e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238753, "epoch": 2.28637853494931, "step": 29995}, {"loss": 0.09410815834999084, "token_acc": 0.9696796338672768, "grad_norm": 0.8031928539276123, "learning_rate": 5.6679117617630774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238763, "epoch": 2.2867596615595702, "step": 30000}, {"eval_loss": 0.08565158396959305, "eval_token_acc": 0.9615234022046865, "eval_runtime": 220.3841, "eval_samples_per_second": 2.405, "eval_steps_per_second": 2.405, "epoch": 2.2867596615595702, "step": 30000}, {"loss": 0.12226029634475707, "token_acc": 0.9612921787627071, "grad_norm": 1.6018885374069214, "learning_rate": 5.666725129006336e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238357, "epoch": 2.28714078816983, "step": 30005}, {"loss": 0.06646475791931153, "token_acc": 0.969885277246654, "grad_norm": 0.7853828072547913, "learning_rate": 5.665538458016002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238366, "epoch": 2.28752191478009, "step": 30010}, {"loss": 0.10731363296508789, "token_acc": 0.9616691842900302, "grad_norm": 1.6445398330688477, "learning_rate": 5.664351748860124e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238374, "epoch": 2.28790304139035, "step": 30015}, {"loss": 0.07839056253433227, "token_acc": 0.9686173438447544, "grad_norm": 0.7935417890548706, "learning_rate": 5.663165001606758e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238381, "epoch": 2.28828416800061, "step": 30020}, {"loss": 0.11483265161514282, "token_acc": 0.9498491704374057, "grad_norm": 0.8570477366447449, "learning_rate": 5.661978216323957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238392, "epoch": 2.28866529461087, "step": 30025}, {"loss": 0.1066136360168457, "token_acc": 0.9509733237202596, "grad_norm": 0.6342665553092957, "learning_rate": 5.660791393079776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238401, "epoch": 2.28904642122113, "step": 30030}, {"loss": 0.06097148656845093, "token_acc": 0.9763816721776098, "grad_norm": 0.4324440360069275, "learning_rate": 5.659604531942275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238413, "epoch": 2.2894275478313895, "step": 30035}, {"loss": 0.08567940592765808, "token_acc": 0.9721812434141202, "grad_norm": 1.0332353115081787, "learning_rate": 5.658417632979516e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23842, "epoch": 2.2898086744416495, "step": 30040}, {"loss": 0.10466337203979492, "token_acc": 0.9524828767123288, "grad_norm": 0.8696891069412231, "learning_rate": 5.6572306962595614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238432, "epoch": 2.2901898010519095, "step": 30045}, {"loss": 0.08469771146774292, "token_acc": 0.9661883555995382, "grad_norm": 0.5334836840629578, "learning_rate": 5.656043721850475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238437, "epoch": 2.2905709276621695, "step": 30050}, {"loss": 0.08297701478004456, "token_acc": 0.9675855801272342, "grad_norm": 0.4797254204750061, "learning_rate": 5.6548567098203264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238448, "epoch": 2.290952054272429, "step": 30055}, {"loss": 0.0894980251789093, "token_acc": 0.9636470819414423, "grad_norm": 0.9111169576644897, "learning_rate": 5.6536696602371844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238456, "epoch": 2.291333180882689, "step": 30060}, {"loss": 0.07388848066329956, "token_acc": 0.9645072363886974, "grad_norm": 1.3819149732589722, "learning_rate": 5.652482573169121e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238467, "epoch": 2.291714307492949, "step": 30065}, {"loss": 0.09306795001029969, "token_acc": 0.9605168700646087, "grad_norm": 0.6442959904670715, "learning_rate": 5.6512954486842087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238478, "epoch": 2.292095434103209, "step": 30070}, {"loss": 0.10841739177703857, "token_acc": 0.950969942442976, "grad_norm": 1.342428207397461, "learning_rate": 5.6501082868505264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238487, "epoch": 2.292476560713469, "step": 30075}, {"loss": 0.11086174249649047, "token_acc": 0.9616069661587175, "grad_norm": 1.4731405973434448, "learning_rate": 5.64892108773615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238495, "epoch": 2.292857687323729, "step": 30080}, {"loss": 0.17720167636871337, "token_acc": 0.938123415046492, "grad_norm": 1.05408775806427, "learning_rate": 5.6477338514091603e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238501, "epoch": 2.2932388139339888, "step": 30085}, {"loss": 0.08904974460601807, "token_acc": 0.9591010325976919, "grad_norm": 0.8599543571472168, "learning_rate": 5.64654657793764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238509, "epoch": 2.293619940544249, "step": 30090}, {"loss": 0.07328202724456787, "token_acc": 0.9715396188565697, "grad_norm": 1.159589171409607, "learning_rate": 5.645359267389674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238512, "epoch": 2.294001067154509, "step": 30095}, {"loss": 0.12958072423934935, "token_acc": 0.9470134874759152, "grad_norm": 1.2138080596923828, "learning_rate": 5.64417191983335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238521, "epoch": 2.294382193764769, "step": 30100}, {"loss": 0.10445159673690796, "token_acc": 0.9620347394540943, "grad_norm": 0.5516689419746399, "learning_rate": 5.6429845353367525e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238529, "epoch": 2.2947633203750284, "step": 30105}, {"loss": 0.10232421159744262, "token_acc": 0.9625902012913027, "grad_norm": 1.0084072351455688, "learning_rate": 5.6417971139679794e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238535, "epoch": 2.2951444469852884, "step": 30110}, {"loss": 0.08904439210891724, "token_acc": 0.9532142857142857, "grad_norm": 1.0957235097885132, "learning_rate": 5.6406096557951184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238548, "epoch": 2.2955255735955484, "step": 30115}, {"loss": 0.09481902122497558, "token_acc": 0.9638873132917376, "grad_norm": 1.4330031871795654, "learning_rate": 5.6394221608862665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238555, "epoch": 2.2959067002058084, "step": 30120}, {"loss": 0.09287800192832947, "token_acc": 0.9619295341688342, "grad_norm": 0.6576471328735352, "learning_rate": 5.638234629309521e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238564, "epoch": 2.2962878268160685, "step": 30125}, {"loss": 0.10298845767974854, "token_acc": 0.96175, "grad_norm": 0.6586018800735474, "learning_rate": 5.637047061132982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238574, "epoch": 2.296668953426328, "step": 30130}, {"loss": 0.10202263593673706, "token_acc": 0.9631476863397063, "grad_norm": 0.5814892053604126, "learning_rate": 5.635859456424749e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238582, "epoch": 2.297050080036588, "step": 30135}, {"loss": 0.11343873739242553, "token_acc": 0.965279730109643, "grad_norm": 1.1876754760742188, "learning_rate": 5.634671815252928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238581, "epoch": 2.297431206646848, "step": 30140}, {"loss": 0.08904585242271423, "token_acc": 0.9680314960629921, "grad_norm": 0.9658925533294678, "learning_rate": 5.633484137685624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238584, "epoch": 2.297812333257108, "step": 30145}, {"loss": 0.09617437124252319, "token_acc": 0.9694050991501416, "grad_norm": 0.9896979331970215, "learning_rate": 5.6322964237909435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238593, "epoch": 2.298193459867368, "step": 30150}, {"loss": 0.07874135375022888, "token_acc": 0.9712343096234309, "grad_norm": 0.47590625286102295, "learning_rate": 5.631108673636997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2386, "epoch": 2.2985745864776277, "step": 30155}, {"loss": 0.13139302730560304, "token_acc": 0.9598684210526316, "grad_norm": 0.9263352751731873, "learning_rate": 5.6299208872918965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238606, "epoch": 2.2989557130878877, "step": 30160}, {"loss": 0.09020146131515502, "token_acc": 0.9710467706013363, "grad_norm": 1.3084970712661743, "learning_rate": 5.628733064823757e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238617, "epoch": 2.2993368396981477, "step": 30165}, {"loss": 0.06907802820205688, "token_acc": 0.9716646989374262, "grad_norm": 0.5923680663108826, "learning_rate": 5.627545206300695e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238623, "epoch": 2.2997179663084077, "step": 30170}, {"loss": 0.08535515666007995, "token_acc": 0.9688961646398503, "grad_norm": 0.4494882822036743, "learning_rate": 5.6263573117908254e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238627, "epoch": 2.3000990929186678, "step": 30175}, {"loss": 0.09593017101287842, "token_acc": 0.9601532567049809, "grad_norm": 2.483584403991699, "learning_rate": 5.625169381362272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238641, "epoch": 2.3004802195289273, "step": 30180}, {"loss": 0.07688462138175964, "token_acc": 0.9739, "grad_norm": 1.7419637441635132, "learning_rate": 5.623981415083156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238639, "epoch": 2.3008613461391874, "step": 30185}, {"loss": 0.11167666912078858, "token_acc": 0.962401055408971, "grad_norm": 1.051803469657898, "learning_rate": 5.622793413021601e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238648, "epoch": 2.3012424727494474, "step": 30190}, {"loss": 0.09182702898979186, "token_acc": 0.9645727406921437, "grad_norm": 0.47380131483078003, "learning_rate": 5.621605375245733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238652, "epoch": 2.3016235993597074, "step": 30195}, {"loss": 0.08092120289802551, "token_acc": 0.9654901960784313, "grad_norm": 0.7379163503646851, "learning_rate": 5.620417301823683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238658, "epoch": 2.3020047259699674, "step": 30200}, {"eval_loss": 0.08588273823261261, "eval_token_acc": 0.9613728088669358, "eval_runtime": 217.717, "eval_samples_per_second": 2.434, "eval_steps_per_second": 2.434, "epoch": 2.3020047259699674, "step": 30200}, {"loss": 0.07433177232742309, "token_acc": 0.9615754638504105, "grad_norm": 1.02250075340271, "learning_rate": 5.619229192823578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238255, "epoch": 2.302385852580227, "step": 30205}, {"loss": 0.09110434055328369, "token_acc": 0.9631776338220253, "grad_norm": 1.0403233766555786, "learning_rate": 5.618041048313555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238265, "epoch": 2.302766979190487, "step": 30210}, {"loss": 0.10374884605407715, "token_acc": 0.9519625073227885, "grad_norm": 1.0276206731796265, "learning_rate": 5.616852868361744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238276, "epoch": 2.303148105800747, "step": 30215}, {"loss": 0.12455391883850098, "token_acc": 0.9605263157894737, "grad_norm": 1.0621287822723389, "learning_rate": 5.615664653036283e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238285, "epoch": 2.303529232411007, "step": 30220}, {"loss": 0.1078485131263733, "token_acc": 0.9690721649484536, "grad_norm": 1.6187670230865479, "learning_rate": 5.614476402405313e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238292, "epoch": 2.303910359021267, "step": 30225}, {"loss": 0.10274761915206909, "token_acc": 0.9637345679012346, "grad_norm": 1.8578234910964966, "learning_rate": 5.613288116536971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238302, "epoch": 2.3042914856315266, "step": 30230}, {"loss": 0.11286866664886475, "token_acc": 0.9631260319207485, "grad_norm": 0.608182966709137, "learning_rate": 5.6120997954994024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238306, "epoch": 2.3046726122417867, "step": 30235}, {"loss": 0.11431206464767456, "token_acc": 0.9536665450565487, "grad_norm": 0.7439010143280029, "learning_rate": 5.610911439360751e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238318, "epoch": 2.3050537388520467, "step": 30240}, {"loss": 0.08236660957336425, "token_acc": 0.9657303370786516, "grad_norm": 1.0681089162826538, "learning_rate": 5.609723048189164e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238332, "epoch": 2.3054348654623067, "step": 30245}, {"loss": 0.12681906223297118, "token_acc": 0.9535673839184597, "grad_norm": 2.441105842590332, "learning_rate": 5.608534622052789e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238345, "epoch": 2.3058159920725663, "step": 30250}, {"loss": 0.08116672039031983, "token_acc": 0.9690574420818787, "grad_norm": 1.2382164001464844, "learning_rate": 5.6073461610197776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238351, "epoch": 2.3061971186828263, "step": 30255}, {"loss": 0.10957798957824708, "token_acc": 0.9577836411609498, "grad_norm": 0.8052395582199097, "learning_rate": 5.606157665158281e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238355, "epoch": 2.3065782452930863, "step": 30260}, {"loss": 0.1316436529159546, "token_acc": 0.9623326525981393, "grad_norm": 0.6693406701087952, "learning_rate": 5.6049691345364574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238363, "epoch": 2.3069593719033463, "step": 30265}, {"loss": 0.06008493900299072, "token_acc": 0.9800248653128886, "grad_norm": 0.5280429720878601, "learning_rate": 5.603780569222461e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238356, "epoch": 2.3073404985136063, "step": 30270}, {"loss": 0.09650521874427795, "token_acc": 0.9627840400787261, "grad_norm": 0.8467960953712463, "learning_rate": 5.60259196928445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238365, "epoch": 2.3077216251238664, "step": 30275}, {"loss": 0.07940338253974914, "token_acc": 0.9590368115139773, "grad_norm": 0.07875487208366394, "learning_rate": 5.601403334790586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238373, "epoch": 2.308102751734126, "step": 30280}, {"loss": 0.06232047080993652, "token_acc": 0.9773503505302894, "grad_norm": 0.8582872748374939, "learning_rate": 5.6002146658090325e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238378, "epoch": 2.308483878344386, "step": 30285}, {"loss": 0.07400666475296021, "token_acc": 0.974022633744856, "grad_norm": 0.5808085203170776, "learning_rate": 5.599025962407951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238379, "epoch": 2.308865004954646, "step": 30290}, {"loss": 0.07244296073913574, "token_acc": 0.9731990115947539, "grad_norm": 1.0523375272750854, "learning_rate": 5.597837224655512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238385, "epoch": 2.309246131564906, "step": 30295}, {"loss": 0.10635370016098022, "token_acc": 0.9524408656265727, "grad_norm": 0.644485592842102, "learning_rate": 5.5966484526198825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238395, "epoch": 2.3096272581751656, "step": 30300}, {"loss": 0.1049458622932434, "token_acc": 0.9634405554768315, "grad_norm": 0.8479452133178711, "learning_rate": 5.5954596463692334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238398, "epoch": 2.3100083847854256, "step": 30305}, {"loss": 0.08601288795471192, "token_acc": 0.9692253272019808, "grad_norm": 1.393730640411377, "learning_rate": 5.594270805971735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238405, "epoch": 2.3103895113956856, "step": 30310}, {"loss": 0.1026681661605835, "token_acc": 0.9744754488427428, "grad_norm": 2.3764901161193848, "learning_rate": 5.5930819314955664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238411, "epoch": 2.3107706380059456, "step": 30315}, {"loss": 0.15994828939437866, "token_acc": 0.9348795718108831, "grad_norm": 1.1725142002105713, "learning_rate": 5.591893023008899e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238422, "epoch": 2.3111517646162056, "step": 30320}, {"loss": 0.11299149990081787, "token_acc": 0.9575038284839203, "grad_norm": 1.4953439235687256, "learning_rate": 5.590704080579915e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238429, "epoch": 2.3115328912264657, "step": 30325}, {"loss": 0.12499520778656006, "token_acc": 0.9531401905502624, "grad_norm": 0.8807202577590942, "learning_rate": 5.5895151042767926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238436, "epoch": 2.3119140178367252, "step": 30330}, {"loss": 0.09669994115829468, "token_acc": 0.9644835451287064, "grad_norm": 1.1041603088378906, "learning_rate": 5.5883260941677154e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238439, "epoch": 2.3122951444469853, "step": 30335}, {"loss": 0.0794677495956421, "token_acc": 0.9680120972432243, "grad_norm": 1.1845797300338745, "learning_rate": 5.587137050320865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238439, "epoch": 2.3126762710572453, "step": 30340}, {"loss": 0.08918778300285339, "token_acc": 0.9625114693931053, "grad_norm": 0.8533769249916077, "learning_rate": 5.5859479728044305e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238442, "epoch": 2.3130573976675053, "step": 30345}, {"loss": 0.10104190111160279, "token_acc": 0.9604045620830644, "grad_norm": 1.1110117435455322, "learning_rate": 5.5847588616865985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238449, "epoch": 2.313438524277765, "step": 30350}, {"loss": 0.12815057039260863, "token_acc": 0.9482706766917294, "grad_norm": 0.9230715036392212, "learning_rate": 5.583569717035561e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238456, "epoch": 2.313819650888025, "step": 30355}, {"loss": 0.0739847481250763, "token_acc": 0.9643794525684289, "grad_norm": 0.28639477491378784, "learning_rate": 5.5823805389195064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238458, "epoch": 2.314200777498285, "step": 30360}, {"loss": 0.10677658319473267, "token_acc": 0.954552858771787, "grad_norm": 0.8794400691986084, "learning_rate": 5.5811913274066294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238464, "epoch": 2.314581904108545, "step": 30365}, {"loss": 0.06804120540618896, "token_acc": 0.9734090909090909, "grad_norm": 1.152249813079834, "learning_rate": 5.580002082565129e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238473, "epoch": 2.314963030718805, "step": 30370}, {"loss": 0.10525201559066773, "token_acc": 0.9640547736782047, "grad_norm": 1.3469125032424927, "learning_rate": 5.5788128044632015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238481, "epoch": 2.315344157329065, "step": 30375}, {"loss": 0.11804068088531494, "token_acc": 0.9550961072524633, "grad_norm": 0.6603857278823853, "learning_rate": 5.577623493169043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238485, "epoch": 2.3157252839393245, "step": 30380}, {"loss": 0.16345130205154418, "token_acc": 0.9404622927854308, "grad_norm": 1.9953058958053589, "learning_rate": 5.5764341487508596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238494, "epoch": 2.3161064105495845, "step": 30385}, {"loss": 0.07930009365081787, "token_acc": 0.9742667928098392, "grad_norm": 1.0898399353027344, "learning_rate": 5.575244771276853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2385, "epoch": 2.3164875371598446, "step": 30390}, {"loss": 0.0851434588432312, "token_acc": 0.962718669343275, "grad_norm": 0.8037872910499573, "learning_rate": 5.5740553608152266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238509, "epoch": 2.3168686637701046, "step": 30395}, {"loss": 0.056006377935409545, "token_acc": 0.9693749125996364, "grad_norm": 0.6425372362136841, "learning_rate": 5.57286591743419e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238511, "epoch": 2.317249790380364, "step": 30400}, {"eval_loss": 0.08501468598842621, "eval_token_acc": 0.9623366062285404, "eval_runtime": 220.5787, "eval_samples_per_second": 2.403, "eval_steps_per_second": 2.403, "epoch": 2.317249790380364, "step": 30400}, {"loss": 0.10285605192184448, "token_acc": 0.9623924367571302, "grad_norm": 0.8867582082748413, "learning_rate": 5.5716764412019516e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238105, "epoch": 2.317630916990624, "step": 30405}, {"loss": 0.07233263254165649, "token_acc": 0.972809112621716, "grad_norm": 0.6023790240287781, "learning_rate": 5.570486932186721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23811, "epoch": 2.318012043600884, "step": 30410}, {"loss": 0.08915624022483826, "token_acc": 0.9625522108598589, "grad_norm": 0.31271272897720337, "learning_rate": 5.569297390456715e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238114, "epoch": 2.318393170211144, "step": 30415}, {"loss": 0.08591740131378174, "token_acc": 0.9625818521983162, "grad_norm": 1.3782713413238525, "learning_rate": 5.568107816080144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238128, "epoch": 2.3187742968214042, "step": 30420}, {"loss": 0.12099208831787109, "token_acc": 0.9486416815387666, "grad_norm": 1.0978995561599731, "learning_rate": 5.566918209125226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238134, "epoch": 2.319155423431664, "step": 30425}, {"loss": 0.08636369109153748, "token_acc": 0.9668611145587688, "grad_norm": 0.752592146396637, "learning_rate": 5.565728569660178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238134, "epoch": 2.319536550041924, "step": 30430}, {"loss": 0.0952046811580658, "token_acc": 0.9557873820168902, "grad_norm": 1.2580060958862305, "learning_rate": 5.564538897753223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238138, "epoch": 2.319917676652184, "step": 30435}, {"loss": 0.11762738227844238, "token_acc": 0.9588581024349286, "grad_norm": 1.128401756286621, "learning_rate": 5.563349193472583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238147, "epoch": 2.320298803262444, "step": 30440}, {"loss": 0.084601891040802, "token_acc": 0.9661443760492445, "grad_norm": 1.2994271516799927, "learning_rate": 5.562159456886481e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238158, "epoch": 2.320679929872704, "step": 30445}, {"loss": 0.09172968864440918, "token_acc": 0.9696276943174396, "grad_norm": 0.8972370624542236, "learning_rate": 5.560969688063141e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23817, "epoch": 2.3210610564829635, "step": 30450}, {"loss": 0.06990692615509034, "token_acc": 0.9731577614585971, "grad_norm": 0.8366634845733643, "learning_rate": 5.559779887070795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238178, "epoch": 2.3214421830932235, "step": 30455}, {"loss": 0.08920409679412841, "token_acc": 0.9618357487922705, "grad_norm": 0.7747802138328552, "learning_rate": 5.558590053977669e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238177, "epoch": 2.3218233097034835, "step": 30460}, {"loss": 0.08493835926055908, "token_acc": 0.961437908496732, "grad_norm": 0.8025301694869995, "learning_rate": 5.5574001888519946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238191, "epoch": 2.3222044363137435, "step": 30465}, {"loss": 0.10490245819091797, "token_acc": 0.9528993091898681, "grad_norm": 0.6486112475395203, "learning_rate": 5.556210291762007e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238199, "epoch": 2.3225855629240035, "step": 30470}, {"loss": 0.05995995998382568, "token_acc": 0.9672058497673388, "grad_norm": 0.12567712366580963, "learning_rate": 5.555020362775941e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238208, "epoch": 2.322966689534263, "step": 30475}, {"loss": 0.07649307250976563, "token_acc": 0.9758926540823288, "grad_norm": 0.4757556915283203, "learning_rate": 5.553830401962031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238216, "epoch": 2.323347816144523, "step": 30480}, {"loss": 0.08219339847564697, "token_acc": 0.9737772539776075, "grad_norm": 0.5417240262031555, "learning_rate": 5.55264040938852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238219, "epoch": 2.323728942754783, "step": 30485}, {"loss": 0.10128331184387207, "token_acc": 0.9603123799769556, "grad_norm": 0.9813774228096008, "learning_rate": 5.5514503851236447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238223, "epoch": 2.324110069365043, "step": 30490}, {"loss": 0.08310458660125733, "token_acc": 0.9635036496350365, "grad_norm": 1.4300525188446045, "learning_rate": 5.550260329235648e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238233, "epoch": 2.324491195975303, "step": 30495}, {"loss": 0.09691834449768066, "token_acc": 0.9589810017271158, "grad_norm": 1.4410200119018555, "learning_rate": 5.5490702417927756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238239, "epoch": 2.3248723225855628, "step": 30500}, {"loss": 0.0863929808139801, "token_acc": 0.9656413232733604, "grad_norm": 1.006060242652893, "learning_rate": 5.547880122863272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238238, "epoch": 2.3252534491958228, "step": 30505}, {"loss": 0.09217605590820313, "token_acc": 0.9659712975292203, "grad_norm": 0.7944480180740356, "learning_rate": 5.5466899725153884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238243, "epoch": 2.325634575806083, "step": 30510}, {"loss": 0.09080533981323242, "token_acc": 0.9617161716171617, "grad_norm": 0.5183918476104736, "learning_rate": 5.54549979081737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238254, "epoch": 2.326015702416343, "step": 30515}, {"loss": 0.055918163061141966, "token_acc": 0.9704142011834319, "grad_norm": 0.6285891532897949, "learning_rate": 5.54430957783747e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238264, "epoch": 2.326396829026603, "step": 30520}, {"loss": 0.11995725631713867, "token_acc": 0.9482758620689655, "grad_norm": 1.4783027172088623, "learning_rate": 5.5431193336439426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238274, "epoch": 2.3267779556368624, "step": 30525}, {"loss": 0.1714908242225647, "token_acc": 0.9368179207352096, "grad_norm": 0.9496585130691528, "learning_rate": 5.541929058305041e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238282, "epoch": 2.3271590822471224, "step": 30530}, {"loss": 0.0750948429107666, "token_acc": 0.96505228398459, "grad_norm": 1.06456458568573, "learning_rate": 5.540738751889023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238291, "epoch": 2.3275402088573824, "step": 30535}, {"loss": 0.13376771211624144, "token_acc": 0.9506765604539502, "grad_norm": 1.2907204627990723, "learning_rate": 5.5395484144641465e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238304, "epoch": 2.3279213354676425, "step": 30540}, {"loss": 0.08661022186279296, "token_acc": 0.9675634900678903, "grad_norm": 1.0038177967071533, "learning_rate": 5.5383580460986726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238312, "epoch": 2.328302462077902, "step": 30545}, {"loss": 0.05814990997314453, "token_acc": 0.9705351773902585, "grad_norm": 0.5568806529045105, "learning_rate": 5.537167646860862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238317, "epoch": 2.328683588688162, "step": 30550}, {"loss": 0.11138288974761963, "token_acc": 0.9528246942341293, "grad_norm": 0.6740285754203796, "learning_rate": 5.535977216818982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238325, "epoch": 2.329064715298422, "step": 30555}, {"loss": 0.07129503488540649, "token_acc": 0.9656957928802589, "grad_norm": 1.062430739402771, "learning_rate": 5.534786756041294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238338, "epoch": 2.329445841908682, "step": 30560}, {"loss": 0.11609103679656982, "token_acc": 0.9612492770387507, "grad_norm": 0.6346415281295776, "learning_rate": 5.5335962645960684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23835, "epoch": 2.329826968518942, "step": 30565}, {"loss": 0.09201788306236267, "token_acc": 0.9695261949488625, "grad_norm": 1.1810859441757202, "learning_rate": 5.5324057425515705e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238357, "epoch": 2.330208095129202, "step": 30570}, {"loss": 0.10140079259872437, "token_acc": 0.948019801980198, "grad_norm": 2.298658609390259, "learning_rate": 5.531215189976077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238369, "epoch": 2.3305892217394617, "step": 30575}, {"loss": 0.12280269861221313, "token_acc": 0.9463655610444601, "grad_norm": 1.434770941734314, "learning_rate": 5.530024606937857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238382, "epoch": 2.3309703483497217, "step": 30580}, {"loss": 0.0869701623916626, "token_acc": 0.975200583515682, "grad_norm": 0.8881643414497375, "learning_rate": 5.528833993505184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238389, "epoch": 2.3313514749599817, "step": 30585}, {"loss": 0.07915791273117065, "token_acc": 0.971214320270924, "grad_norm": 0.9988405108451843, "learning_rate": 5.5276433497463367e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238397, "epoch": 2.3317326015702418, "step": 30590}, {"loss": 0.09636969566345215, "token_acc": 0.9660879441830278, "grad_norm": 0.6240341663360596, "learning_rate": 5.526452675729592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238402, "epoch": 2.3321137281805013, "step": 30595}, {"loss": 0.09380059242248535, "token_acc": 0.9620174346201743, "grad_norm": 0.8688497543334961, "learning_rate": 5.525261971523228e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238415, "epoch": 2.3324948547907614, "step": 30600}, {"eval_loss": 0.08754833787679672, "eval_token_acc": 0.9620128305523764, "eval_runtime": 220.4309, "eval_samples_per_second": 2.404, "eval_steps_per_second": 2.404, "epoch": 2.3324948547907614, "step": 30600}, {"loss": 0.12172577381134034, "token_acc": 0.9618011190906287, "grad_norm": 0.6813089847564697, "learning_rate": 5.5240712371955295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238016, "epoch": 2.3328759814010214, "step": 30605}, {"loss": 0.0864871859550476, "token_acc": 0.9667369988829589, "grad_norm": 1.0603091716766357, "learning_rate": 5.5228804728147766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23802, "epoch": 2.3332571080112814, "step": 30610}, {"loss": 0.14835765361785888, "token_acc": 0.9504258943781942, "grad_norm": 0.7441304326057434, "learning_rate": 5.521689678449253e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238026, "epoch": 2.3336382346215414, "step": 30615}, {"loss": 0.10581792593002319, "token_acc": 0.960285132382892, "grad_norm": 0.9711832404136658, "learning_rate": 5.5204988541672506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238028, "epoch": 2.3340193612318014, "step": 30620}, {"loss": 0.081064110994339, "token_acc": 0.9608167770419426, "grad_norm": 0.7890766263008118, "learning_rate": 5.519308000037054e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238038, "epoch": 2.334400487842061, "step": 30625}, {"loss": 0.15336552858352662, "token_acc": 0.9558212058212058, "grad_norm": 0.6175696849822998, "learning_rate": 5.518117116126951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238046, "epoch": 2.334781614452321, "step": 30630}, {"loss": 0.042292237281799316, "token_acc": 0.9807057628839807, "grad_norm": 1.2845661640167236, "learning_rate": 5.516926202505236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238057, "epoch": 2.335162741062581, "step": 30635}, {"loss": 0.112229323387146, "token_acc": 0.9665833853841349, "grad_norm": 0.4597531855106354, "learning_rate": 5.515735259240203e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238066, "epoch": 2.335543867672841, "step": 30640}, {"loss": 0.07683858871459961, "token_acc": 0.969294920394238, "grad_norm": 0.9087921380996704, "learning_rate": 5.5145442864001474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238074, "epoch": 2.3359249942831006, "step": 30645}, {"loss": 0.07119760513305665, "token_acc": 0.9740657545435981, "grad_norm": 0.8204307556152344, "learning_rate": 5.513353284053364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238083, "epoch": 2.3363061208933606, "step": 30650}, {"loss": 0.07975711822509765, "token_acc": 0.9660400242571255, "grad_norm": 1.15070641040802, "learning_rate": 5.512162252268151e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23809, "epoch": 2.3366872475036207, "step": 30655}, {"loss": 0.08336615562438965, "token_acc": 0.9606580829756796, "grad_norm": 0.8089344501495361, "learning_rate": 5.5109711911128115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238099, "epoch": 2.3370683741138807, "step": 30660}, {"loss": 0.11783276796340943, "token_acc": 0.9591468416735028, "grad_norm": 1.0416001081466675, "learning_rate": 5.509780100655644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238105, "epoch": 2.3374495007241407, "step": 30665}, {"loss": 0.08402632474899292, "token_acc": 0.959309084869623, "grad_norm": 0.8304465413093567, "learning_rate": 5.5085889809649525e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238109, "epoch": 2.3378306273344007, "step": 30670}, {"loss": 0.08283095359802246, "token_acc": 0.9661330049261084, "grad_norm": 2.3030290603637695, "learning_rate": 5.5073978321090446e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238112, "epoch": 2.3382117539446603, "step": 30675}, {"loss": 0.1102400541305542, "token_acc": 0.9617504593285452, "grad_norm": 1.109972596168518, "learning_rate": 5.506206654156226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238116, "epoch": 2.3385928805549203, "step": 30680}, {"loss": 0.10878502130508423, "token_acc": 0.9644691780821918, "grad_norm": 0.8983370661735535, "learning_rate": 5.505015447174804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238122, "epoch": 2.3389740071651803, "step": 30685}, {"loss": 0.08372299075126648, "token_acc": 0.9688132847306602, "grad_norm": 0.7435944676399231, "learning_rate": 5.503824211233089e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238134, "epoch": 2.3393551337754404, "step": 30690}, {"loss": 0.11801109313964844, "token_acc": 0.9581090174966352, "grad_norm": 0.8466969132423401, "learning_rate": 5.502632946399394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238141, "epoch": 2.3397362603857, "step": 30695}, {"loss": 0.0825296700000763, "token_acc": 0.9713203463203464, "grad_norm": 0.5676029324531555, "learning_rate": 5.501441652742033e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238146, "epoch": 2.34011738699596, "step": 30700}, {"loss": 0.09023303985595703, "token_acc": 0.9656670113753878, "grad_norm": 0.6374625563621521, "learning_rate": 5.5002503303293187e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238154, "epoch": 2.34049851360622, "step": 30705}, {"loss": 0.09671454429626465, "token_acc": 0.9724096863834855, "grad_norm": 0.7388700246810913, "learning_rate": 5.499058979229571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23816, "epoch": 2.34087964021648, "step": 30710}, {"loss": 0.12974437475204467, "token_acc": 0.9429708222811671, "grad_norm": 1.1937748193740845, "learning_rate": 5.4978675995111065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238171, "epoch": 2.34126076682674, "step": 30715}, {"loss": 0.08680453300476074, "token_acc": 0.9644277507733098, "grad_norm": 0.931572437286377, "learning_rate": 5.496676191242244e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23818, "epoch": 2.3416418934369996, "step": 30720}, {"loss": 0.07619919776916503, "token_acc": 0.9707560627674751, "grad_norm": 1.726481556892395, "learning_rate": 5.495484754491308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238183, "epoch": 2.3420230200472596, "step": 30725}, {"loss": 0.13595058917999267, "token_acc": 0.9485695917711346, "grad_norm": 0.960767388343811, "learning_rate": 5.494293289326621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238193, "epoch": 2.3424041466575196, "step": 30730}, {"loss": 0.0703538715839386, "token_acc": 0.9667535853976532, "grad_norm": 0.5304681062698364, "learning_rate": 5.493101795816508e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238201, "epoch": 2.3427852732677796, "step": 30735}, {"loss": 0.08296899795532227, "token_acc": 0.9674220963172805, "grad_norm": 1.9970533847808838, "learning_rate": 5.4919102740292924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238209, "epoch": 2.3431663998780397, "step": 30740}, {"loss": 0.06556588411331177, "token_acc": 0.9763825729793164, "grad_norm": 0.6064893007278442, "learning_rate": 5.490718724033308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238212, "epoch": 2.3435475264882992, "step": 30745}, {"loss": 0.1026916742324829, "token_acc": 0.9645010046885466, "grad_norm": 1.4180574417114258, "learning_rate": 5.4895271458968824e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238219, "epoch": 2.3439286530985592, "step": 30750}, {"loss": 0.06277583837509156, "token_acc": 0.9818640955004592, "grad_norm": 1.172115445137024, "learning_rate": 5.4883355396883454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238223, "epoch": 2.3443097797088193, "step": 30755}, {"loss": 0.07510268688201904, "token_acc": 0.9690693554980242, "grad_norm": 1.2776274681091309, "learning_rate": 5.487143905476031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238225, "epoch": 2.3446909063190793, "step": 30760}, {"loss": 0.11527880430221557, "token_acc": 0.9569112627986348, "grad_norm": 0.7859047651290894, "learning_rate": 5.485952243328274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238229, "epoch": 2.3450720329293393, "step": 30765}, {"loss": 0.07759864926338196, "token_acc": 0.9699163297922346, "grad_norm": 0.5625565052032471, "learning_rate": 5.4847605533134125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238226, "epoch": 2.345453159539599, "step": 30770}, {"loss": 0.08491954207420349, "token_acc": 0.9736842105263158, "grad_norm": 0.6491315960884094, "learning_rate": 5.483568835499782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238231, "epoch": 2.345834286149859, "step": 30775}, {"loss": 0.06941872835159302, "token_acc": 0.9699675324675324, "grad_norm": 0.9136077761650085, "learning_rate": 5.482377089955722e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238234, "epoch": 2.346215412760119, "step": 30780}, {"loss": 0.0854988694190979, "token_acc": 0.9662027833001988, "grad_norm": 1.067152976989746, "learning_rate": 5.4811853167495765e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238241, "epoch": 2.346596539370379, "step": 30785}, {"loss": 0.07178680300712585, "token_acc": 0.9734554850833921, "grad_norm": 0.7576886415481567, "learning_rate": 5.479993515949684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238249, "epoch": 2.346977665980639, "step": 30790}, {"loss": 0.1055801510810852, "token_acc": 0.959504132231405, "grad_norm": 0.692973256111145, "learning_rate": 5.478801687624392e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238257, "epoch": 2.3473587925908985, "step": 30795}, {"loss": 0.07733943462371826, "token_acc": 0.9659839063643014, "grad_norm": 1.8337305784225464, "learning_rate": 5.477609831842044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238269, "epoch": 2.3477399192011585, "step": 30800}, {"eval_loss": 0.08738161623477936, "eval_token_acc": 0.9625173182338413, "eval_runtime": 220.9966, "eval_samples_per_second": 2.398, "eval_steps_per_second": 2.398, "epoch": 2.3477399192011585, "step": 30800}, {"loss": 0.07053643465042114, "token_acc": 0.962978571895686, "grad_norm": 1.3934574127197266, "learning_rate": 5.47641794867099e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237871, "epoch": 2.3481210458114186, "step": 30805}, {"loss": 0.07433618307113647, "token_acc": 0.96247009569378, "grad_norm": 0.5910361409187317, "learning_rate": 5.475226038179576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237877, "epoch": 2.3485021724216786, "step": 30810}, {"loss": 0.10874111652374267, "token_acc": 0.9580856123662307, "grad_norm": 0.8397935628890991, "learning_rate": 5.474034100436156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237888, "epoch": 2.3488832990319386, "step": 30815}, {"loss": 0.09164924025535584, "token_acc": 0.96624529316837, "grad_norm": 0.6856833100318909, "learning_rate": 5.472842135509079e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23789, "epoch": 2.349264425642198, "step": 30820}, {"loss": 0.08812724947929382, "token_acc": 0.9629694019471489, "grad_norm": 0.9008845090866089, "learning_rate": 5.471650143466699e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237899, "epoch": 2.349645552252458, "step": 30825}, {"loss": 0.08434792757034301, "token_acc": 0.9605449900652853, "grad_norm": 1.0098556280136108, "learning_rate": 5.4704581243773723e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23791, "epoch": 2.350026678862718, "step": 30830}, {"loss": 0.08315092325210571, "token_acc": 0.9692140035417518, "grad_norm": 0.6507514119148254, "learning_rate": 5.469266078309456e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237911, "epoch": 2.3504078054729782, "step": 30835}, {"loss": 0.0671958088874817, "token_acc": 0.9727370689655173, "grad_norm": 0.6123827695846558, "learning_rate": 5.4680740053313076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237911, "epoch": 2.350788932083238, "step": 30840}, {"loss": 0.06048554182052612, "token_acc": 0.9812657071053232, "grad_norm": 0.9441723823547363, "learning_rate": 5.466881905511286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237917, "epoch": 2.351170058693498, "step": 30845}, {"loss": 0.15067782402038574, "token_acc": 0.9435379991412624, "grad_norm": 1.258835792541504, "learning_rate": 5.4656897789177555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237925, "epoch": 2.351551185303758, "step": 30850}, {"loss": 0.04793847799301147, "token_acc": 0.9804131054131054, "grad_norm": 0.7690373659133911, "learning_rate": 5.464497625619077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237928, "epoch": 2.351932311914018, "step": 30855}, {"loss": 0.04852641224861145, "token_acc": 0.980545422963349, "grad_norm": 0.670519232749939, "learning_rate": 5.463305445683614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237935, "epoch": 2.352313438524278, "step": 30860}, {"loss": 0.08067988157272339, "token_acc": 0.9665795369678865, "grad_norm": 0.7889462113380432, "learning_rate": 5.4621132391797345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23794, "epoch": 2.352694565134538, "step": 30865}, {"loss": 0.10897238254547119, "token_acc": 0.9682108935840279, "grad_norm": 1.8038569688796997, "learning_rate": 5.460921006175805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237947, "epoch": 2.3530756917447975, "step": 30870}, {"loss": 0.09772663712501525, "token_acc": 0.9635193133047211, "grad_norm": 0.9841631650924683, "learning_rate": 5.4597287467401946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237958, "epoch": 2.3534568183550575, "step": 30875}, {"loss": 0.11086546182632447, "token_acc": 0.9574202743630857, "grad_norm": 0.5393519997596741, "learning_rate": 5.458536460941275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237964, "epoch": 2.3538379449653175, "step": 30880}, {"loss": 0.09553924202919006, "token_acc": 0.9737765847615114, "grad_norm": 1.1484524011611938, "learning_rate": 5.4573441488474164e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23797, "epoch": 2.3542190715755775, "step": 30885}, {"loss": 0.1053186297416687, "token_acc": 0.9655647382920111, "grad_norm": 0.6212186217308044, "learning_rate": 5.4561518105269924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237979, "epoch": 2.354600198185837, "step": 30890}, {"loss": 0.10695401430130005, "token_acc": 0.9630662020905923, "grad_norm": 1.087348222732544, "learning_rate": 5.45495944604838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23799, "epoch": 2.354981324796097, "step": 30895}, {"loss": 0.0855899691581726, "token_acc": 0.9663339536457453, "grad_norm": 0.8577693700790405, "learning_rate": 5.453767055479955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237999, "epoch": 2.355362451406357, "step": 30900}, {"loss": 0.06020166873931885, "token_acc": 0.9650382032877981, "grad_norm": 0.9391471743583679, "learning_rate": 5.4525746388900945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238007, "epoch": 2.355743578016617, "step": 30905}, {"loss": 0.06447044610977173, "token_acc": 0.9705488621151271, "grad_norm": 0.6207118034362793, "learning_rate": 5.451382196347178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238017, "epoch": 2.356124704626877, "step": 30910}, {"loss": 0.08904388546943665, "token_acc": 0.9619396673244995, "grad_norm": 0.8926740288734436, "learning_rate": 5.450189727919588e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238028, "epoch": 2.356505831237137, "step": 30915}, {"loss": 0.06659048199653625, "token_acc": 0.9750056548292242, "grad_norm": 0.8048908114433289, "learning_rate": 5.448997233675707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238025, "epoch": 2.3568869578473968, "step": 30920}, {"loss": 0.13406717777252197, "token_acc": 0.9579354251932697, "grad_norm": 1.5697435140609741, "learning_rate": 5.447804713683917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238032, "epoch": 2.357268084457657, "step": 30925}, {"loss": 0.09263505339622498, "token_acc": 0.9683163131709872, "grad_norm": 3.6107394695281982, "learning_rate": 5.446612168012605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238035, "epoch": 2.357649211067917, "step": 30930}, {"loss": 0.08715442419052125, "token_acc": 0.9661894608589705, "grad_norm": 0.8466642498970032, "learning_rate": 5.445419596730158e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238045, "epoch": 2.358030337678177, "step": 30935}, {"loss": 0.07892669439315796, "token_acc": 0.9704898083358686, "grad_norm": 0.6050650477409363, "learning_rate": 5.444226999904963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238048, "epoch": 2.3584114642884364, "step": 30940}, {"loss": 0.05861798524856567, "token_acc": 0.9712742980561555, "grad_norm": 0.8390781283378601, "learning_rate": 5.443034377605412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238054, "epoch": 2.3587925908986964, "step": 30945}, {"loss": 0.10116490125656127, "token_acc": 0.9555223880597015, "grad_norm": 1.2999714612960815, "learning_rate": 5.441841729899896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238064, "epoch": 2.3591737175089564, "step": 30950}, {"loss": 0.10283323526382446, "token_acc": 0.959199789418268, "grad_norm": 0.4325985610485077, "learning_rate": 5.440649056856807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238074, "epoch": 2.3595548441192165, "step": 30955}, {"loss": 0.06515552401542664, "token_acc": 0.9715128961888875, "grad_norm": 0.48289909958839417, "learning_rate": 5.4394563585445376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238076, "epoch": 2.3599359707294765, "step": 30960}, {"loss": 0.07753714919090271, "token_acc": 0.9718234027279253, "grad_norm": 1.0268217325210571, "learning_rate": 5.4382636350314865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238083, "epoch": 2.3603170973397365, "step": 30965}, {"loss": 0.08886274099349975, "token_acc": 0.9590780023383999, "grad_norm": 0.7710219025611877, "learning_rate": 5.4370708863860496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23809, "epoch": 2.360698223949996, "step": 30970}, {"loss": 0.08288079500198364, "token_acc": 0.9736696230598669, "grad_norm": 1.3726928234100342, "learning_rate": 5.4358781126766267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238097, "epoch": 2.361079350560256, "step": 30975}, {"loss": 0.10357705354690552, "token_acc": 0.965595340811044, "grad_norm": 0.5045683979988098, "learning_rate": 5.4346853139716144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238095, "epoch": 2.361460477170516, "step": 30980}, {"loss": 0.08333129286766053, "token_acc": 0.954796320630749, "grad_norm": 1.2020784616470337, "learning_rate": 5.4334924903394194e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238104, "epoch": 2.361841603780776, "step": 30985}, {"loss": 0.0856864333152771, "token_acc": 0.9686104376674748, "grad_norm": 0.7484704256057739, "learning_rate": 5.4322996418484404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238107, "epoch": 2.3622227303910357, "step": 30990}, {"loss": 0.08418570756912232, "token_acc": 0.9632761536603044, "grad_norm": 0.7155664563179016, "learning_rate": 5.4311067685670825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238116, "epoch": 2.3626038570012957, "step": 30995}, {"loss": 0.06655234694480897, "token_acc": 0.971395881006865, "grad_norm": 0.8586833477020264, "learning_rate": 5.429913870563753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.238126, "epoch": 2.3629849836115557, "step": 31000}, {"eval_loss": 0.08528787642717361, "eval_token_acc": 0.9625775555689416, "eval_runtime": 220.4696, "eval_samples_per_second": 2.404, "eval_steps_per_second": 2.404, "epoch": 2.3629849836115557, "step": 31000}, {"loss": 0.07820500135421753, "token_acc": 0.9626929799009613, "grad_norm": 1.2716025114059448, "learning_rate": 5.4287209479068576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237729, "epoch": 2.3633661102218158, "step": 31005}, {"loss": 0.11107146739959717, "token_acc": 0.960948905109489, "grad_norm": 1.1224666833877563, "learning_rate": 5.427528000664807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237734, "epoch": 2.3637472368320758, "step": 31010}, {"loss": 0.08681471943855286, "token_acc": 0.9651859246318942, "grad_norm": 0.6373490691184998, "learning_rate": 5.4263350289060066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237736, "epoch": 2.364128363442336, "step": 31015}, {"loss": 0.05805981159210205, "token_acc": 0.9770766576287897, "grad_norm": 0.619637131690979, "learning_rate": 5.425142032698872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237744, "epoch": 2.3645094900525954, "step": 31020}, {"loss": 0.0947724461555481, "token_acc": 0.9620253164556962, "grad_norm": 1.317243218421936, "learning_rate": 5.423949012111815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237749, "epoch": 2.3648906166628554, "step": 31025}, {"loss": 0.11397541761398315, "token_acc": 0.9546788392566026, "grad_norm": 0.8387614488601685, "learning_rate": 5.4227559672132485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237761, "epoch": 2.3652717432731154, "step": 31030}, {"loss": 0.07932603359222412, "token_acc": 0.9693877551020408, "grad_norm": 0.7210548520088196, "learning_rate": 5.42156289807159e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237759, "epoch": 2.3656528698833754, "step": 31035}, {"loss": 0.08605616688728332, "token_acc": 0.9694438338096285, "grad_norm": 0.9409093260765076, "learning_rate": 5.4203698047552564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237765, "epoch": 2.366033996493635, "step": 31040}, {"loss": 0.09566019177436828, "token_acc": 0.9550695825049702, "grad_norm": 0.314769446849823, "learning_rate": 5.4191766873326644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237777, "epoch": 2.366415123103895, "step": 31045}, {"loss": 0.11585347652435303, "token_acc": 0.9606549920400272, "grad_norm": 0.5651035904884338, "learning_rate": 5.4179835458722336e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237777, "epoch": 2.366796249714155, "step": 31050}, {"loss": 0.06411581039428711, "token_acc": 0.9647249941981898, "grad_norm": 0.6355889439582825, "learning_rate": 5.416790380442388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237786, "epoch": 2.367177376324415, "step": 31055}, {"loss": 0.06622909903526306, "token_acc": 0.9755409219190969, "grad_norm": 1.4874205589294434, "learning_rate": 5.415597191111548e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23779, "epoch": 2.367558502934675, "step": 31060}, {"loss": 0.0880135715007782, "token_acc": 0.9603246167718665, "grad_norm": 0.42747634649276733, "learning_rate": 5.414403977948136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2378, "epoch": 2.3679396295449346, "step": 31065}, {"loss": 0.07852803468704224, "token_acc": 0.9592189817103312, "grad_norm": 0.9827426671981812, "learning_rate": 5.41321074102058e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237809, "epoch": 2.3683207561551947, "step": 31070}, {"loss": 0.07896273136138916, "token_acc": 0.9647932816537468, "grad_norm": 0.9668629169464111, "learning_rate": 5.412017480397306e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237819, "epoch": 2.3687018827654547, "step": 31075}, {"loss": 0.0755922555923462, "token_acc": 0.9754730203223546, "grad_norm": 0.571475088596344, "learning_rate": 5.41082419614674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237825, "epoch": 2.3690830093757147, "step": 31080}, {"loss": 0.09668500423431396, "token_acc": 0.9622641509433962, "grad_norm": 0.6273787617683411, "learning_rate": 5.409630888337315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237835, "epoch": 2.3694641359859747, "step": 31085}, {"loss": 0.07658748030662536, "token_acc": 0.969706947645703, "grad_norm": 0.8006317615509033, "learning_rate": 5.408437557037458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237835, "epoch": 2.3698452625962343, "step": 31090}, {"loss": 0.0853196620941162, "token_acc": 0.9693515230797982, "grad_norm": 0.839894711971283, "learning_rate": 5.407244202315602e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237842, "epoch": 2.3702263892064943, "step": 31095}, {"loss": 0.10421254634857177, "token_acc": 0.9607522485690924, "grad_norm": 1.0215001106262207, "learning_rate": 5.4060508242401806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237851, "epoch": 2.3706075158167543, "step": 31100}, {"loss": 0.07981572151184083, "token_acc": 0.9693438054218394, "grad_norm": 0.9255895614624023, "learning_rate": 5.40485742287963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237858, "epoch": 2.3709886424270143, "step": 31105}, {"loss": 0.09013288617134094, "token_acc": 0.9666237264316665, "grad_norm": 0.5459995269775391, "learning_rate": 5.4036639983023853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237861, "epoch": 2.3713697690372744, "step": 31110}, {"loss": 0.10316922664642333, "token_acc": 0.9670306144294584, "grad_norm": 0.7635063529014587, "learning_rate": 5.4024705505768826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237866, "epoch": 2.371750895647534, "step": 31115}, {"loss": 0.09620672464370728, "token_acc": 0.9638344914718888, "grad_norm": 1.4979983568191528, "learning_rate": 5.4012770797715616e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237872, "epoch": 2.372132022257794, "step": 31120}, {"loss": 0.115581214427948, "token_acc": 0.9531878839228977, "grad_norm": 0.7405616641044617, "learning_rate": 5.400083585954864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23788, "epoch": 2.372513148868054, "step": 31125}, {"loss": 0.09446353316307068, "token_acc": 0.9630208333333333, "grad_norm": 1.1127780675888062, "learning_rate": 5.3988900691952274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237886, "epoch": 2.372894275478314, "step": 31130}, {"loss": 0.0760711371898651, "token_acc": 0.9718289920724802, "grad_norm": 0.5686814188957214, "learning_rate": 5.397696529561096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237892, "epoch": 2.373275402088574, "step": 31135}, {"loss": 0.09822360873222351, "token_acc": 0.9554766457252117, "grad_norm": 0.8878071904182434, "learning_rate": 5.396502967120916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237903, "epoch": 2.3736565286988336, "step": 31140}, {"loss": 0.12208359241485596, "token_acc": 0.9640640313622999, "grad_norm": 1.384774088859558, "learning_rate": 5.39530938194313e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237912, "epoch": 2.3740376553090936, "step": 31145}, {"loss": 0.1326884627342224, "token_acc": 0.9491114701130856, "grad_norm": 1.3508821725845337, "learning_rate": 5.3941157740961844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237921, "epoch": 2.3744187819193536, "step": 31150}, {"loss": 0.06582505106925965, "token_acc": 0.9716687991226467, "grad_norm": 0.31269899010658264, "learning_rate": 5.392922143648529e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237928, "epoch": 2.3747999085296136, "step": 31155}, {"loss": 0.09521127939224243, "token_acc": 0.9682450206689215, "grad_norm": 0.7705280184745789, "learning_rate": 5.3917284906686126e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237935, "epoch": 2.3751810351398737, "step": 31160}, {"loss": 0.0856261670589447, "token_acc": 0.9686552072800809, "grad_norm": 1.735999584197998, "learning_rate": 5.390534815224884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237946, "epoch": 2.3755621617501332, "step": 31165}, {"loss": 0.07734074592590331, "token_acc": 0.9677187948350072, "grad_norm": 0.7416235208511353, "learning_rate": 5.3893411173857956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237951, "epoch": 2.3759432883603933, "step": 31170}, {"loss": 0.09363832473754882, "token_acc": 0.9680284191829485, "grad_norm": 0.8314568996429443, "learning_rate": 5.3881473972198025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237962, "epoch": 2.3763244149706533, "step": 31175}, {"loss": 0.08723482489585876, "token_acc": 0.9594771241830066, "grad_norm": 0.9788180589675903, "learning_rate": 5.386953654795357e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237967, "epoch": 2.3767055415809133, "step": 31180}, {"loss": 0.09058893918991089, "token_acc": 0.9657936167167597, "grad_norm": 0.6686174273490906, "learning_rate": 5.385759890180914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237969, "epoch": 2.377086668191173, "step": 31185}, {"loss": 0.10390739440917969, "token_acc": 0.9576976421636616, "grad_norm": 1.2684311866760254, "learning_rate": 5.384566103444932e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23798, "epoch": 2.377467794801433, "step": 31190}, {"loss": 0.08044705390930176, "token_acc": 0.9733996910931869, "grad_norm": 1.1410993337631226, "learning_rate": 5.3833722946558695e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237985, "epoch": 2.377848921411693, "step": 31195}, {"loss": 0.09050151109695434, "token_acc": 0.9537444933920705, "grad_norm": 0.2866517901420593, "learning_rate": 5.382178463882184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237993, "epoch": 2.378230048021953, "step": 31200}, {"eval_loss": 0.08521706610918045, "eval_token_acc": 0.9630067465815312, "eval_runtime": 220.0517, "eval_samples_per_second": 2.409, "eval_steps_per_second": 2.409, "epoch": 2.378230048021953, "step": 31200}, {"loss": 0.09774636626243591, "token_acc": 0.9630793516231346, "grad_norm": 1.2375469207763672, "learning_rate": 5.380984611192337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237603, "epoch": 2.378611174632213, "step": 31205}, {"loss": 0.06392840147018433, "token_acc": 0.9709886547811993, "grad_norm": 0.6631600260734558, "learning_rate": 5.379790736654792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237608, "epoch": 2.378992301242473, "step": 31210}, {"loss": 0.07077354788780213, "token_acc": 0.9680775597067864, "grad_norm": 1.1937839984893799, "learning_rate": 5.378596840338009e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237618, "epoch": 2.3793734278527325, "step": 31215}, {"loss": 0.0809092402458191, "token_acc": 0.9654485049833887, "grad_norm": 0.5735511183738708, "learning_rate": 5.377402922310455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237632, "epoch": 2.3797545544629926, "step": 31220}, {"loss": 0.1021620512008667, "token_acc": 0.9565217391304348, "grad_norm": 0.6882121562957764, "learning_rate": 5.376208982640595e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23764, "epoch": 2.3801356810732526, "step": 31225}, {"loss": 0.08965572118759155, "token_acc": 0.968724279835391, "grad_norm": 0.5293640494346619, "learning_rate": 5.375015021396894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237641, "epoch": 2.3805168076835126, "step": 31230}, {"loss": 0.10873479843139648, "token_acc": 0.9632850241545894, "grad_norm": 1.43839430809021, "learning_rate": 5.3738210386478224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237649, "epoch": 2.380897934293772, "step": 31235}, {"loss": 0.055960172414779664, "token_acc": 0.9799913005654632, "grad_norm": 1.1074553728103638, "learning_rate": 5.372627034461849e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237656, "epoch": 2.381279060904032, "step": 31240}, {"loss": 0.09745961427688599, "token_acc": 0.9713310580204778, "grad_norm": 1.7570327520370483, "learning_rate": 5.371433008907446e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237664, "epoch": 2.381660187514292, "step": 31245}, {"loss": 0.11691815853118896, "token_acc": 0.957719814892722, "grad_norm": 1.0225231647491455, "learning_rate": 5.370238962053083e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237672, "epoch": 2.3820413141245522, "step": 31250}, {"loss": 0.11683707237243653, "token_acc": 0.9524979524979525, "grad_norm": 0.6122372150421143, "learning_rate": 5.369044893967232e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237682, "epoch": 2.3824224407348122, "step": 31255}, {"loss": 0.0943717122077942, "token_acc": 0.9614955357142857, "grad_norm": 0.8814001083374023, "learning_rate": 5.3678508047183706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237692, "epoch": 2.3828035673450723, "step": 31260}, {"loss": 0.07922405004501343, "token_acc": 0.9686299615877081, "grad_norm": 1.2693196535110474, "learning_rate": 5.3666566943749716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237701, "epoch": 2.383184693955332, "step": 31265}, {"loss": 0.13680604696273804, "token_acc": 0.9443127962085308, "grad_norm": 1.1481791734695435, "learning_rate": 5.365462563005513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237713, "epoch": 2.383565820565592, "step": 31270}, {"loss": 0.08330482244491577, "token_acc": 0.9681285753200762, "grad_norm": 0.7890597581863403, "learning_rate": 5.3642684106784736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237723, "epoch": 2.383946947175852, "step": 31275}, {"loss": 0.08229019045829773, "token_acc": 0.967327262988752, "grad_norm": 0.8234835863113403, "learning_rate": 5.36307423746233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237733, "epoch": 2.384328073786112, "step": 31280}, {"loss": 0.08715881705284119, "token_acc": 0.970863405506549, "grad_norm": 0.667593240737915, "learning_rate": 5.3618800434255634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237741, "epoch": 2.3847092003963715, "step": 31285}, {"loss": 0.08429051637649536, "token_acc": 0.9644095913135273, "grad_norm": 0.693841278553009, "learning_rate": 5.3606858286366554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237743, "epoch": 2.3850903270066315, "step": 31290}, {"loss": 0.08095073699951172, "token_acc": 0.9656640181611805, "grad_norm": 0.6991963982582092, "learning_rate": 5.35949159316409e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237748, "epoch": 2.3854714536168915, "step": 31295}, {"loss": 0.08543552160263061, "token_acc": 0.971561230412072, "grad_norm": 1.4625240564346313, "learning_rate": 5.3582973370763503e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237761, "epoch": 2.3858525802271515, "step": 31300}, {"loss": 0.10993642807006836, "token_acc": 0.9640646232825004, "grad_norm": 0.7467935085296631, "learning_rate": 5.357103060441919e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237765, "epoch": 2.3862337068374115, "step": 31305}, {"loss": 0.08198057413101197, "token_acc": 0.963855421686747, "grad_norm": 1.5048809051513672, "learning_rate": 5.355908763329286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23777, "epoch": 2.3866148334476716, "step": 31310}, {"loss": 0.09441487193107605, "token_acc": 0.9676794576927733, "grad_norm": 0.866624653339386, "learning_rate": 5.3547144458069375e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237771, "epoch": 2.386995960057931, "step": 31315}, {"loss": 0.10726969242095948, "token_acc": 0.9627884499214692, "grad_norm": 0.5799077749252319, "learning_rate": 5.35352010794336e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237771, "epoch": 2.387377086668191, "step": 31320}, {"loss": 0.09630421400070191, "token_acc": 0.95826802507837, "grad_norm": 1.7038251161575317, "learning_rate": 5.3523257498070456e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23778, "epoch": 2.387758213278451, "step": 31325}, {"loss": 0.08274248242378235, "token_acc": 0.9701575020723957, "grad_norm": 1.609902024269104, "learning_rate": 5.351131371466486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237784, "epoch": 2.388139339888711, "step": 31330}, {"loss": 0.0806304931640625, "token_acc": 0.9662607813292745, "grad_norm": 1.2762500047683716, "learning_rate": 5.3499369729901694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237792, "epoch": 2.3885204664989708, "step": 31335}, {"loss": 0.1230278491973877, "token_acc": 0.9564719358533792, "grad_norm": 1.6169333457946777, "learning_rate": 5.348742554446592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237799, "epoch": 2.388901593109231, "step": 31340}, {"loss": 0.10180585384368897, "token_acc": 0.9672756155679111, "grad_norm": 0.9799315929412842, "learning_rate": 5.347548115904247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237804, "epoch": 2.389282719719491, "step": 31345}, {"loss": 0.09778773188591003, "token_acc": 0.9572978648932446, "grad_norm": 0.9468777775764465, "learning_rate": 5.3463536574316317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237809, "epoch": 2.389663846329751, "step": 31350}, {"loss": 0.10218154191970825, "token_acc": 0.9523296525720442, "grad_norm": 0.6771307587623596, "learning_rate": 5.34515917909724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23782, "epoch": 2.390044972940011, "step": 31355}, {"loss": 0.07776549458503723, "token_acc": 0.970154686078253, "grad_norm": 1.0314041376113892, "learning_rate": 5.343964680969573e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23783, "epoch": 2.3904260995502704, "step": 31360}, {"loss": 0.08387594223022461, "token_acc": 0.9685911401597677, "grad_norm": 0.5972577333450317, "learning_rate": 5.3427701631171255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237836, "epoch": 2.3908072261605304, "step": 31365}, {"loss": 0.090086829662323, "token_acc": 0.9733130003812428, "grad_norm": 1.6459697484970093, "learning_rate": 5.341575625608402e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237846, "epoch": 2.3911883527707904, "step": 31370}, {"loss": 0.0913809061050415, "token_acc": 0.9591134064988165, "grad_norm": 1.3109780550003052, "learning_rate": 5.340381068511898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237854, "epoch": 2.3915694793810505, "step": 31375}, {"loss": 0.05290588140487671, "token_acc": 0.9756329716352561, "grad_norm": 0.6141493916511536, "learning_rate": 5.339186491896122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23786, "epoch": 2.3919506059913105, "step": 31380}, {"loss": 0.09736396074295044, "token_acc": 0.9574582660204631, "grad_norm": 0.8543851971626282, "learning_rate": 5.337991895829575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237866, "epoch": 2.39233173260157, "step": 31385}, {"loss": 0.09589442014694213, "token_acc": 0.9653802497162316, "grad_norm": 0.7680191993713379, "learning_rate": 5.33679728038076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237873, "epoch": 2.39271285921183, "step": 31390}, {"loss": 0.08773276805877686, "token_acc": 0.9674185463659147, "grad_norm": 1.675175428390503, "learning_rate": 5.335602645618185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237883, "epoch": 2.39309398582209, "step": 31395}, {"loss": 0.11829129457473755, "token_acc": 0.9620253164556962, "grad_norm": 1.1155779361724854, "learning_rate": 5.334407991610355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237895, "epoch": 2.39347511243235, "step": 31400}, {"eval_loss": 0.08516139537096024, "eval_token_acc": 0.9628561532437805, "eval_runtime": 220.5249, "eval_samples_per_second": 2.403, "eval_steps_per_second": 2.403, "epoch": 2.39347511243235, "step": 31400}, {"loss": 0.09059352278709412, "token_acc": 0.9629528878955417, "grad_norm": 0.910506546497345, "learning_rate": 5.3332133184257795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237509, "epoch": 2.39385623904261, "step": 31405}, {"loss": 0.09969868063926697, "token_acc": 0.9625910612325261, "grad_norm": 1.1716959476470947, "learning_rate": 5.3320186261329654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237519, "epoch": 2.3942373656528697, "step": 31410}, {"loss": 0.09195284843444824, "token_acc": 0.9570867740625423, "grad_norm": 0.8604730367660522, "learning_rate": 5.3308239148004234e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237524, "epoch": 2.3946184922631297, "step": 31415}, {"loss": 0.1034429669380188, "token_acc": 0.9706141639729651, "grad_norm": 2.213545560836792, "learning_rate": 5.329629184496666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237532, "epoch": 2.3949996188733897, "step": 31420}, {"loss": 0.09135279059410095, "token_acc": 0.9642961235791314, "grad_norm": 0.4884463846683502, "learning_rate": 5.3284344352902035e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237533, "epoch": 2.3953807454836498, "step": 31425}, {"loss": 0.050753408670425416, "token_acc": 0.9727436358961172, "grad_norm": 0.12757809460163116, "learning_rate": 5.3272396672495504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237539, "epoch": 2.39576187209391, "step": 31430}, {"loss": 0.06104531288146973, "token_acc": 0.9754376796446302, "grad_norm": 0.5974608659744263, "learning_rate": 5.3260448804432225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237549, "epoch": 2.3961429987041694, "step": 31435}, {"loss": 0.1185562252998352, "token_acc": 0.9510847318870241, "grad_norm": 1.7749061584472656, "learning_rate": 5.324850074939733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237557, "epoch": 2.3965241253144294, "step": 31440}, {"loss": 0.07903689742088318, "token_acc": 0.971736204576043, "grad_norm": 0.8989559412002563, "learning_rate": 5.323655250807599e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237557, "epoch": 2.3969052519246894, "step": 31445}, {"loss": 0.11701039075851441, "token_acc": 0.9606656580937972, "grad_norm": 0.763389527797699, "learning_rate": 5.322460408115338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237563, "epoch": 2.3972863785349494, "step": 31450}, {"loss": 0.06187049150466919, "token_acc": 0.9700100806451613, "grad_norm": 1.066260576248169, "learning_rate": 5.32126554693147e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237573, "epoch": 2.3976675051452094, "step": 31455}, {"loss": 0.10295662879943848, "token_acc": 0.9574521025130629, "grad_norm": 1.5077931880950928, "learning_rate": 5.320070667324513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237582, "epoch": 2.398048631755469, "step": 31460}, {"loss": 0.10598461627960205, "token_acc": 0.9535163776493256, "grad_norm": 1.1629680395126343, "learning_rate": 5.3188757693629884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237591, "epoch": 2.398429758365729, "step": 31465}, {"loss": 0.09750716090202331, "token_acc": 0.9654150197628458, "grad_norm": 1.692908525466919, "learning_rate": 5.3176808531154186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237599, "epoch": 2.398810884975989, "step": 31470}, {"loss": 0.07754534482955933, "token_acc": 0.9716872110939908, "grad_norm": 0.5367060303688049, "learning_rate": 5.3164859186503256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237601, "epoch": 2.399192011586249, "step": 31475}, {"loss": 0.11748656034469604, "token_acc": 0.9631989596879064, "grad_norm": 1.5796602964401245, "learning_rate": 5.315290966036234e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2376, "epoch": 2.3995731381965086, "step": 31480}, {"loss": 0.08052210211753845, "token_acc": 0.9615822424587365, "grad_norm": 0.7455106377601624, "learning_rate": 5.3140959953416693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237612, "epoch": 2.3999542648067687, "step": 31485}, {"loss": 0.11531267166137696, "token_acc": 0.9578740157480315, "grad_norm": 1.794923186302185, "learning_rate": 5.312901006635157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23762, "epoch": 2.4003353914170287, "step": 31490}, {"loss": 0.09888643026351929, "token_acc": 0.9664864864864865, "grad_norm": 1.5555272102355957, "learning_rate": 5.3117059999852214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23763, "epoch": 2.4007165180272887, "step": 31495}, {"loss": 0.08097626566886902, "token_acc": 0.9746247319513939, "grad_norm": 0.6291319727897644, "learning_rate": 5.310510975460395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237634, "epoch": 2.4010976446375487, "step": 31500}, {"loss": 0.06617435216903686, "token_acc": 0.9741222548608197, "grad_norm": 0.5683590173721313, "learning_rate": 5.3093159331292065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237634, "epoch": 2.4014787712478087, "step": 31505}, {"loss": 0.08121579885482788, "token_acc": 0.9699248120300752, "grad_norm": 0.7380191683769226, "learning_rate": 5.308120873060183e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237648, "epoch": 2.4018598978580683, "step": 31510}, {"loss": 0.08265498876571656, "token_acc": 0.9768191896795001, "grad_norm": 0.8455606698989868, "learning_rate": 5.3069257953218576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237654, "epoch": 2.4022410244683283, "step": 31515}, {"loss": 0.07475255727767945, "token_acc": 0.9634574841883345, "grad_norm": 0.8110338449478149, "learning_rate": 5.305730699982763e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237658, "epoch": 2.4026221510785883, "step": 31520}, {"loss": 0.06787163615226746, "token_acc": 0.972764078027236, "grad_norm": 0.9760684370994568, "learning_rate": 5.30453558711143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23767, "epoch": 2.4030032776888484, "step": 31525}, {"loss": 0.13564035892486573, "token_acc": 0.9523615635179153, "grad_norm": 1.9275811910629272, "learning_rate": 5.3033404567763945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237681, "epoch": 2.403384404299108, "step": 31530}, {"loss": 0.07939769625663758, "token_acc": 0.9687356848373797, "grad_norm": 0.8539645671844482, "learning_rate": 5.3021453090461925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237684, "epoch": 2.403765530909368, "step": 31535}, {"loss": 0.10877256393432617, "token_acc": 0.9693493794659647, "grad_norm": 1.4706199169158936, "learning_rate": 5.3009501439893595e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23769, "epoch": 2.404146657519628, "step": 31540}, {"loss": 0.1155362606048584, "token_acc": 0.9621729237770194, "grad_norm": 1.3269944190979004, "learning_rate": 5.29975496167443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237699, "epoch": 2.404527784129888, "step": 31545}, {"loss": 0.09412874579429627, "token_acc": 0.9645469893078221, "grad_norm": 1.5807892084121704, "learning_rate": 5.298559762169947e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237704, "epoch": 2.404908910740148, "step": 31550}, {"loss": 0.10727784633636475, "token_acc": 0.9579972606909146, "grad_norm": 0.9008060693740845, "learning_rate": 5.297364545544445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237709, "epoch": 2.405290037350408, "step": 31555}, {"loss": 0.10135059356689453, "token_acc": 0.9543322636386078, "grad_norm": 1.4330517053604126, "learning_rate": 5.296169311866468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237718, "epoch": 2.4056711639606676, "step": 31560}, {"loss": 0.05997448563575745, "token_acc": 0.972, "grad_norm": 0.2918750047683716, "learning_rate": 5.294974061204554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237724, "epoch": 2.4060522905709276, "step": 31565}, {"loss": 0.09581416249275207, "token_acc": 0.9656072106261859, "grad_norm": 1.6249165534973145, "learning_rate": 5.293778793627247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237732, "epoch": 2.4064334171811876, "step": 31570}, {"loss": 0.08600782155990601, "token_acc": 0.9674609274916731, "grad_norm": 0.9419896602630615, "learning_rate": 5.29258350920309e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23774, "epoch": 2.4068145437914477, "step": 31575}, {"loss": 0.07383073568344116, "token_acc": 0.969704086425552, "grad_norm": 0.696643590927124, "learning_rate": 5.291388208000625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237747, "epoch": 2.4071956704017072, "step": 31580}, {"loss": 0.13172988891601561, "token_acc": 0.954599761051374, "grad_norm": 0.6923823952674866, "learning_rate": 5.2901928900884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237751, "epoch": 2.4075767970119673, "step": 31585}, {"loss": 0.1410140037536621, "token_acc": 0.9493966523939276, "grad_norm": 0.5206090807914734, "learning_rate": 5.288997555534959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237756, "epoch": 2.4079579236222273, "step": 31590}, {"loss": 0.0958120882511139, "token_acc": 0.9664555878829368, "grad_norm": 0.9300687909126282, "learning_rate": 5.28780220440885e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23776, "epoch": 2.4083390502324873, "step": 31595}, {"loss": 0.09393603801727295, "token_acc": 0.9685620557681793, "grad_norm": 1.3180656433105469, "learning_rate": 5.286606836778619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237762, "epoch": 2.4087201768427473, "step": 31600}, {"eval_loss": 0.08324947953224182, "eval_token_acc": 0.9632627552557075, "eval_runtime": 218.9144, "eval_samples_per_second": 2.421, "eval_steps_per_second": 2.421, "epoch": 2.4087201768427473, "step": 31600}, {"loss": 0.0957037091255188, "token_acc": 0.9633915240611003, "grad_norm": 0.5603662133216858, "learning_rate": 5.2854114527128164e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237376, "epoch": 2.4091013034530073, "step": 31605}, {"loss": 0.09463875889778137, "token_acc": 0.963344388200384, "grad_norm": 0.9108856916427612, "learning_rate": 5.284216052279992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237385, "epoch": 2.409482430063267, "step": 31610}, {"loss": 0.13878395557403564, "token_acc": 0.959659004414675, "grad_norm": 1.821824312210083, "learning_rate": 5.2830206355486945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237389, "epoch": 2.409863556673527, "step": 31615}, {"loss": 0.06228114366531372, "token_acc": 0.9710444674250258, "grad_norm": 1.2382431030273438, "learning_rate": 5.281825202587478e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2374, "epoch": 2.410244683283787, "step": 31620}, {"loss": 0.06674144864082336, "token_acc": 0.9770469798657718, "grad_norm": 0.6332990527153015, "learning_rate": 5.280629753464894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237402, "epoch": 2.410625809894047, "step": 31625}, {"loss": 0.11393991708755494, "token_acc": 0.9613229712633291, "grad_norm": 0.8873818516731262, "learning_rate": 5.279434288249495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23741, "epoch": 2.4110069365043065, "step": 31630}, {"loss": 0.06567127704620361, "token_acc": 0.9792456235336582, "grad_norm": 1.110944151878357, "learning_rate": 5.2782388070098365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237414, "epoch": 2.4113880631145665, "step": 31635}, {"loss": 0.0906289279460907, "token_acc": 0.9643046007403491, "grad_norm": 0.9004189372062683, "learning_rate": 5.277043309814475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237417, "epoch": 2.4117691897248266, "step": 31640}, {"loss": 0.10088374614715576, "token_acc": 0.9706678700361011, "grad_norm": 1.5165259838104248, "learning_rate": 5.275847796731964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237428, "epoch": 2.4121503163350866, "step": 31645}, {"loss": 0.08354413509368896, "token_acc": 0.9675805483289974, "grad_norm": 0.7593477368354797, "learning_rate": 5.274652267830862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237435, "epoch": 2.4125314429453466, "step": 31650}, {"loss": 0.07595022916793823, "token_acc": 0.966954851104707, "grad_norm": 0.9742563962936401, "learning_rate": 5.2734567231797286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237442, "epoch": 2.412912569555606, "step": 31655}, {"loss": 0.09080097079277039, "token_acc": 0.9652884124553344, "grad_norm": 0.698854386806488, "learning_rate": 5.27226116284712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237446, "epoch": 2.413293696165866, "step": 31660}, {"loss": 0.10014762878417968, "token_acc": 0.9520249221183801, "grad_norm": 0.603148341178894, "learning_rate": 5.271065586901596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237453, "epoch": 2.413674822776126, "step": 31665}, {"loss": 0.0982728898525238, "token_acc": 0.9598056537102474, "grad_norm": 1.0888844728469849, "learning_rate": 5.269869995411719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23746, "epoch": 2.4140559493863862, "step": 31670}, {"loss": 0.09465991854667663, "token_acc": 0.9689521345407504, "grad_norm": 0.4615923762321472, "learning_rate": 5.268674388446051e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237472, "epoch": 2.4144370759966463, "step": 31675}, {"loss": 0.06650314331054688, "token_acc": 0.9703663793103449, "grad_norm": 0.7292890548706055, "learning_rate": 5.267478766073154e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237475, "epoch": 2.414818202606906, "step": 31680}, {"loss": 0.10270296335220337, "token_acc": 0.9630599947602829, "grad_norm": 1.8328521251678467, "learning_rate": 5.2662831283615896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237485, "epoch": 2.415199329217166, "step": 31685}, {"loss": 0.1117973804473877, "token_acc": 0.9579231808531171, "grad_norm": 0.8092535138130188, "learning_rate": 5.265087475379924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237492, "epoch": 2.415580455827426, "step": 31690}, {"loss": 0.06421082615852355, "token_acc": 0.9745830023828436, "grad_norm": 0.694914698600769, "learning_rate": 5.2638918071967224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237505, "epoch": 2.415961582437686, "step": 31695}, {"loss": 0.06641955971717835, "token_acc": 0.9675284384694933, "grad_norm": 1.161771535873413, "learning_rate": 5.2626961238805486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237511, "epoch": 2.416342709047946, "step": 31700}, {"loss": 0.10980154275894165, "token_acc": 0.9523434423001181, "grad_norm": 1.4579120874404907, "learning_rate": 5.2615004254999724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237522, "epoch": 2.4167238356582055, "step": 31705}, {"loss": 0.08074135184288025, "token_acc": 0.9611933602512337, "grad_norm": 0.7843745350837708, "learning_rate": 5.26030471212356e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23753, "epoch": 2.4171049622684655, "step": 31710}, {"loss": 0.05520209074020386, "token_acc": 0.9701492537313433, "grad_norm": 0.7337310314178467, "learning_rate": 5.2591089838198816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23754, "epoch": 2.4174860888787255, "step": 31715}, {"loss": 0.06261842846870422, "token_acc": 0.9723382045929019, "grad_norm": 1.0853062868118286, "learning_rate": 5.2579132406575036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237548, "epoch": 2.4178672154889855, "step": 31720}, {"loss": 0.11928043365478516, "token_acc": 0.9498080087767417, "grad_norm": 0.6997091770172119, "learning_rate": 5.256717482704999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237559, "epoch": 2.4182483420992456, "step": 31725}, {"loss": 0.05571422576904297, "token_acc": 0.9739985945186226, "grad_norm": 0.8186673521995544, "learning_rate": 5.25552171003094e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237568, "epoch": 2.418629468709505, "step": 31730}, {"loss": 0.05884087085723877, "token_acc": 0.9728826151560178, "grad_norm": 0.4593213200569153, "learning_rate": 5.254325922703893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237579, "epoch": 2.419010595319765, "step": 31735}, {"loss": 0.09739054441452026, "token_acc": 0.9652892561983472, "grad_norm": 1.2494239807128906, "learning_rate": 5.253130120792437e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237583, "epoch": 2.419391721930025, "step": 31740}, {"loss": 0.080861896276474, "token_acc": 0.9726266744321491, "grad_norm": 0.7136322259902954, "learning_rate": 5.2519343043651424e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237593, "epoch": 2.419772848540285, "step": 31745}, {"loss": 0.07178466320037842, "token_acc": 0.9680557381359275, "grad_norm": 0.6551394462585449, "learning_rate": 5.250738473490584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237598, "epoch": 2.420153975150545, "step": 31750}, {"loss": 0.06998769044876099, "token_acc": 0.9660215689171222, "grad_norm": 0.8119661808013916, "learning_rate": 5.2495426282373385e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237604, "epoch": 2.4205351017608048, "step": 31755}, {"loss": 0.10886942148208618, "token_acc": 0.9616132167152576, "grad_norm": 0.9762775301933289, "learning_rate": 5.248346768673982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237613, "epoch": 2.420916228371065, "step": 31760}, {"loss": 0.0667304515838623, "token_acc": 0.9703777335984095, "grad_norm": 0.5545241236686707, "learning_rate": 5.2471508948690896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237617, "epoch": 2.421297354981325, "step": 31765}, {"loss": 0.09236547946929932, "token_acc": 0.968293700458907, "grad_norm": 0.719426691532135, "learning_rate": 5.245955006891239e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237626, "epoch": 2.421678481591585, "step": 31770}, {"loss": 0.08164860606193543, "token_acc": 0.9673558215451578, "grad_norm": 1.5304877758026123, "learning_rate": 5.244759104809013e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237637, "epoch": 2.4220596082018444, "step": 31775}, {"loss": 0.08680131435394287, "token_acc": 0.9690166142792995, "grad_norm": 1.1216273307800293, "learning_rate": 5.2435631886909864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237645, "epoch": 2.4224407348121044, "step": 31780}, {"loss": 0.07908720970153808, "token_acc": 0.9670462805912285, "grad_norm": 0.9484697580337524, "learning_rate": 5.2423672586057415e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237653, "epoch": 2.4228218614223644, "step": 31785}, {"loss": 0.09126312732696533, "token_acc": 0.966627138743012, "grad_norm": 1.06740140914917, "learning_rate": 5.24117131462186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237657, "epoch": 2.4232029880326245, "step": 31790}, {"loss": 0.11822844743728637, "token_acc": 0.9621054930654145, "grad_norm": 1.2163888216018677, "learning_rate": 5.2399753568079225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237656, "epoch": 2.4235841146428845, "step": 31795}, {"loss": 0.10553070306777954, "token_acc": 0.9536397711580193, "grad_norm": 0.6266806125640869, "learning_rate": 5.2387793852325115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237664, "epoch": 2.4239652412531445, "step": 31800}, {"eval_loss": 0.08320986479520798, "eval_token_acc": 0.9634961749292211, "eval_runtime": 221.7066, "eval_samples_per_second": 2.391, "eval_steps_per_second": 2.391, "epoch": 2.4239652412531445, "step": 31800}, {"loss": 0.060913360118865965, "token_acc": 0.9639290527005864, "grad_norm": 0.6699129939079285, "learning_rate": 5.23758339996421e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23728, "epoch": 2.424346367863404, "step": 31805}, {"loss": 0.08053375482559204, "token_acc": 0.9691436918020815, "grad_norm": 0.8798589110374451, "learning_rate": 5.236387401071604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237286, "epoch": 2.424727494473664, "step": 31810}, {"loss": 0.06070588231086731, "token_acc": 0.9715695952615993, "grad_norm": 1.0643125772476196, "learning_rate": 5.235191388623277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237294, "epoch": 2.425108621083924, "step": 31815}, {"loss": 0.0696878433227539, "token_acc": 0.969078947368421, "grad_norm": 0.7604033946990967, "learning_rate": 5.2339953626878156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237304, "epoch": 2.425489747694184, "step": 31820}, {"loss": 0.09960362315177917, "token_acc": 0.9623539593249676, "grad_norm": 0.8127695322036743, "learning_rate": 5.232799323333807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237316, "epoch": 2.4258708743044437, "step": 31825}, {"loss": 0.09174591302871704, "token_acc": 0.9666083406240886, "grad_norm": 0.5826697945594788, "learning_rate": 5.2316032706298355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237317, "epoch": 2.4262520009147037, "step": 31830}, {"loss": 0.06858834028244018, "token_acc": 0.9712663454920853, "grad_norm": 0.7676007747650146, "learning_rate": 5.230407204644493e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237323, "epoch": 2.4266331275249637, "step": 31835}, {"loss": 0.09747377634048462, "token_acc": 0.9576492981203902, "grad_norm": 0.6547728180885315, "learning_rate": 5.229211125446365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237331, "epoch": 2.4270142541352238, "step": 31840}, {"loss": 0.10961241722106933, "token_acc": 0.9594496741491673, "grad_norm": 0.6518384218215942, "learning_rate": 5.2280150331040436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237342, "epoch": 2.4273953807454838, "step": 31845}, {"loss": 0.08256965279579162, "token_acc": 0.9724241664577589, "grad_norm": 0.8992350101470947, "learning_rate": 5.226818927686118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237349, "epoch": 2.427776507355744, "step": 31850}, {"loss": 0.09309107065200806, "token_acc": 0.9603156184729635, "grad_norm": 1.2267297506332397, "learning_rate": 5.225622809261179e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237358, "epoch": 2.4281576339660034, "step": 31855}, {"loss": 0.07914117574691773, "token_acc": 0.9637027491408935, "grad_norm": 0.6713018417358398, "learning_rate": 5.2244266778978205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237366, "epoch": 2.4285387605762634, "step": 31860}, {"loss": 0.12258504629135132, "token_acc": 0.950259067357513, "grad_norm": 1.339560866355896, "learning_rate": 5.223230533664631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237371, "epoch": 2.4289198871865234, "step": 31865}, {"loss": 0.09028789401054382, "token_acc": 0.9670249590089269, "grad_norm": 0.9964811205863953, "learning_rate": 5.2220343766302084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237377, "epoch": 2.4293010137967834, "step": 31870}, {"loss": 0.07981270551681519, "token_acc": 0.9696598222494637, "grad_norm": 0.7002070546150208, "learning_rate": 5.220838206863143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237378, "epoch": 2.429682140407043, "step": 31875}, {"loss": 0.08711093664169312, "token_acc": 0.9690210656753407, "grad_norm": 1.0039584636688232, "learning_rate": 5.219642024432033e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237386, "epoch": 2.430063267017303, "step": 31880}, {"loss": 0.10010253190994263, "token_acc": 0.9681790186819955, "grad_norm": 1.5410128831863403, "learning_rate": 5.218445829405472e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237393, "epoch": 2.430444393627563, "step": 31885}, {"loss": 0.07102736234664916, "token_acc": 0.9688877365828364, "grad_norm": 0.6407871246337891, "learning_rate": 5.217249621852055e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237402, "epoch": 2.430825520237823, "step": 31890}, {"loss": 0.06450393795967102, "token_acc": 0.9769192172604114, "grad_norm": 0.611670732498169, "learning_rate": 5.216053401840382e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237414, "epoch": 2.431206646848083, "step": 31895}, {"loss": 0.1161083459854126, "token_acc": 0.9509619011693701, "grad_norm": 1.593155860900879, "learning_rate": 5.2148571694390466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237426, "epoch": 2.431587773458343, "step": 31900}, {"loss": 0.11345916986465454, "token_acc": 0.9641387419165197, "grad_norm": 1.0629907846450806, "learning_rate": 5.2136609247166514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237438, "epoch": 2.4319689000686027, "step": 31905}, {"loss": 0.11763770580291748, "token_acc": 0.9644532916251956, "grad_norm": 0.7532215714454651, "learning_rate": 5.212464667741793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237441, "epoch": 2.4323500266788627, "step": 31910}, {"loss": 0.1153026819229126, "token_acc": 0.9670843463624462, "grad_norm": 1.4345853328704834, "learning_rate": 5.211268398583072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237443, "epoch": 2.4327311532891227, "step": 31915}, {"loss": 0.11205878257751464, "token_acc": 0.9625949736995909, "grad_norm": 0.7158430814743042, "learning_rate": 5.2100721173090896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237445, "epoch": 2.4331122798993827, "step": 31920}, {"loss": 0.12104721069335937, "token_acc": 0.9494358545758462, "grad_norm": 1.5121842622756958, "learning_rate": 5.208875823988445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237456, "epoch": 2.4334934065096423, "step": 31925}, {"loss": 0.09834056496620178, "token_acc": 0.959081987014948, "grad_norm": 1.26921808719635, "learning_rate": 5.207679518689742e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237461, "epoch": 2.4338745331199023, "step": 31930}, {"loss": 0.10878283977508545, "token_acc": 0.9667946690761238, "grad_norm": 1.066515326499939, "learning_rate": 5.2064832014815823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237469, "epoch": 2.4342556597301623, "step": 31935}, {"loss": 0.11512922048568726, "token_acc": 0.9642196175200494, "grad_norm": 0.9966956973075867, "learning_rate": 5.2052868724325686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23748, "epoch": 2.4346367863404224, "step": 31940}, {"loss": 0.1125170111656189, "token_acc": 0.9462599854756718, "grad_norm": 1.0083377361297607, "learning_rate": 5.204090531611307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237492, "epoch": 2.4350179129506824, "step": 31945}, {"loss": 0.08732749223709106, "token_acc": 0.9691863995142683, "grad_norm": 0.6221123933792114, "learning_rate": 5.202894179086398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237496, "epoch": 2.4353990395609424, "step": 31950}, {"loss": 0.10020771026611328, "token_acc": 0.9634536317953404, "grad_norm": 1.417541265487671, "learning_rate": 5.2016978149264505e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237504, "epoch": 2.435780166171202, "step": 31955}, {"loss": 0.11524808406829834, "token_acc": 0.9590846047156727, "grad_norm": 0.6154100894927979, "learning_rate": 5.2005014392000694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237511, "epoch": 2.436161292781462, "step": 31960}, {"loss": 0.06674709320068359, "token_acc": 0.974304068522484, "grad_norm": 1.0033057928085327, "learning_rate": 5.199305051975861e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237521, "epoch": 2.436542419391722, "step": 31965}, {"loss": 0.11083319187164306, "token_acc": 0.9573333333333334, "grad_norm": 1.5526834726333618, "learning_rate": 5.1981086533224335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237527, "epoch": 2.436923546001982, "step": 31970}, {"loss": 0.07061379551887512, "token_acc": 0.9705153617443013, "grad_norm": 1.394752025604248, "learning_rate": 5.1969122433083925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237536, "epoch": 2.4373046726122416, "step": 31975}, {"loss": 0.07141281962394715, "token_acc": 0.9783606557377049, "grad_norm": 1.3300479650497437, "learning_rate": 5.195715822002349e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237549, "epoch": 2.4376857992225016, "step": 31980}, {"loss": 0.07534806132316589, "token_acc": 0.9744908048249951, "grad_norm": 0.6959165334701538, "learning_rate": 5.194519389472913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237556, "epoch": 2.4380669258327616, "step": 31985}, {"loss": 0.103554368019104, "token_acc": 0.962838968865082, "grad_norm": 0.9855327010154724, "learning_rate": 5.1933229457886914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237567, "epoch": 2.4384480524430217, "step": 31990}, {"loss": 0.07543789148330689, "token_acc": 0.9707169303264894, "grad_norm": 0.8330475091934204, "learning_rate": 5.1921264910182955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237567, "epoch": 2.4388291790532817, "step": 31995}, {"loss": 0.10583755970001221, "token_acc": 0.9592153542195879, "grad_norm": 0.6359584927558899, "learning_rate": 5.1909300252303374e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237571, "epoch": 2.4392103056635412, "step": 32000}, {"eval_loss": 0.08176108449697495, "eval_token_acc": 0.9633455815914704, "eval_runtime": 221.086, "eval_samples_per_second": 2.397, "eval_steps_per_second": 2.397, "epoch": 2.4392103056635412, "step": 32000}, {"loss": 0.08499435186386109, "token_acc": 0.9633421762294183, "grad_norm": 1.109655737876892, "learning_rate": 5.189733548493428e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237189, "epoch": 2.4395914322738013, "step": 32005}, {"loss": 0.07540545463562012, "token_acc": 0.9722627737226277, "grad_norm": 0.7547616958618164, "learning_rate": 5.1885370608761794e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237195, "epoch": 2.4399725588840613, "step": 32010}, {"loss": 0.11663752794265747, "token_acc": 0.9494510521500458, "grad_norm": 0.6588416695594788, "learning_rate": 5.187340562447207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237204, "epoch": 2.4403536854943213, "step": 32015}, {"loss": 0.08906418681144715, "token_acc": 0.9550970873786407, "grad_norm": 1.456199049949646, "learning_rate": 5.1861440532751225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237216, "epoch": 2.4407348121045813, "step": 32020}, {"loss": 0.10259878635406494, "token_acc": 0.956642800318218, "grad_norm": 0.9228630661964417, "learning_rate": 5.184947533428539e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237223, "epoch": 2.441115938714841, "step": 32025}, {"loss": 0.07409683465957642, "token_acc": 0.9642149434666045, "grad_norm": 0.683269202709198, "learning_rate": 5.1837510029760727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237229, "epoch": 2.441497065325101, "step": 32030}, {"loss": 0.10500092506408691, "token_acc": 0.9587143252978665, "grad_norm": 0.9451534152030945, "learning_rate": 5.18255446198634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237238, "epoch": 2.441878191935361, "step": 32035}, {"loss": 0.08998711705207825, "token_acc": 0.9619985925404645, "grad_norm": 1.662619709968567, "learning_rate": 5.1813579105279565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237251, "epoch": 2.442259318545621, "step": 32040}, {"loss": 0.08959287405014038, "token_acc": 0.9716544017443445, "grad_norm": 2.0273852348327637, "learning_rate": 5.180161348669538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237261, "epoch": 2.442640445155881, "step": 32045}, {"loss": 0.06429438591003418, "token_acc": 0.9695378151260504, "grad_norm": 1.5230754613876343, "learning_rate": 5.178964776479701e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23727, "epoch": 2.4430215717661405, "step": 32050}, {"loss": 0.13213027715682985, "token_acc": 0.9546652609383237, "grad_norm": 0.7076734900474548, "learning_rate": 5.177768194027066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237279, "epoch": 2.4434026983764006, "step": 32055}, {"loss": 0.09209928512573243, "token_acc": 0.9630838774485183, "grad_norm": 1.375850796699524, "learning_rate": 5.176571601380249e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237287, "epoch": 2.4437838249866606, "step": 32060}, {"loss": 0.06853286027908326, "token_acc": 0.9645819323021744, "grad_norm": 1.167485237121582, "learning_rate": 5.175374998607872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237296, "epoch": 2.4441649515969206, "step": 32065}, {"loss": 0.05861258506774902, "token_acc": 0.9736473226801233, "grad_norm": 0.7112610936164856, "learning_rate": 5.174178385778551e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237306, "epoch": 2.4445460782071806, "step": 32070}, {"loss": 0.10661687850952148, "token_acc": 0.9602234258632363, "grad_norm": 1.023407220840454, "learning_rate": 5.172981762960909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237312, "epoch": 2.44492720481744, "step": 32075}, {"loss": 0.0817100465297699, "token_acc": 0.9638140970673984, "grad_norm": 1.1306768655776978, "learning_rate": 5.171785130223564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237317, "epoch": 2.4453083314277, "step": 32080}, {"loss": 0.06689391136169434, "token_acc": 0.970879440885265, "grad_norm": 1.5240305662155151, "learning_rate": 5.1705884876351406e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237327, "epoch": 2.4456894580379602, "step": 32085}, {"loss": 0.06792814135551453, "token_acc": 0.9712855637513171, "grad_norm": 0.48312103748321533, "learning_rate": 5.1693918352642576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237334, "epoch": 2.4460705846482202, "step": 32090}, {"loss": 0.09426245093345642, "token_acc": 0.9680248246087426, "grad_norm": 0.8024948239326477, "learning_rate": 5.16819517317954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237336, "epoch": 2.4464517112584803, "step": 32095}, {"loss": 0.13640437126159669, "token_acc": 0.9470935130581297, "grad_norm": 1.1475082635879517, "learning_rate": 5.166998501449608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237341, "epoch": 2.44683283786874, "step": 32100}, {"loss": 0.08888157606124877, "token_acc": 0.9677274764679515, "grad_norm": 0.8022327423095703, "learning_rate": 5.1658018201430894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237353, "epoch": 2.447213964479, "step": 32105}, {"loss": 0.08603664636611938, "token_acc": 0.9610083424011607, "grad_norm": 0.8285499215126038, "learning_rate": 5.1646051293286045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237358, "epoch": 2.44759509108926, "step": 32110}, {"loss": 0.07164736390113831, "token_acc": 0.9697325199436884, "grad_norm": 1.042164921760559, "learning_rate": 5.163408429074778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237367, "epoch": 2.44797621769952, "step": 32115}, {"loss": 0.07417976260185241, "token_acc": 0.9642629227823867, "grad_norm": 0.26407742500305176, "learning_rate": 5.162211719450238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237373, "epoch": 2.4483573443097795, "step": 32120}, {"loss": 0.10034610033035278, "token_acc": 0.9652587310294386, "grad_norm": 1.2943451404571533, "learning_rate": 5.16101500052361e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237378, "epoch": 2.4487384709200395, "step": 32125}, {"loss": 0.1436115860939026, "token_acc": 0.9471303364433136, "grad_norm": 1.2685195207595825, "learning_rate": 5.159818272363517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237387, "epoch": 2.4491195975302995, "step": 32130}, {"loss": 0.10590897798538208, "token_acc": 0.9515877147319105, "grad_norm": 0.9950312376022339, "learning_rate": 5.1586215350385884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237397, "epoch": 2.4495007241405595, "step": 32135}, {"loss": 0.0680645227432251, "token_acc": 0.9668825161887141, "grad_norm": 0.6982214450836182, "learning_rate": 5.157424788617451e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237404, "epoch": 2.4498818507508195, "step": 32140}, {"loss": 0.1087909460067749, "token_acc": 0.9603812371519342, "grad_norm": 0.9895561337471008, "learning_rate": 5.1562280331687305e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237412, "epoch": 2.4502629773610796, "step": 32145}, {"loss": 0.08812410831451416, "token_acc": 0.9710865561694291, "grad_norm": 1.4580472707748413, "learning_rate": 5.1550312687610606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237417, "epoch": 2.450644103971339, "step": 32150}, {"loss": 0.06268866062164306, "token_acc": 0.9725125822686799, "grad_norm": 0.0010332155507057905, "learning_rate": 5.153834495463065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237424, "epoch": 2.451025230581599, "step": 32155}, {"loss": 0.06694316864013672, "token_acc": 0.9651191969887076, "grad_norm": 0.8241733312606812, "learning_rate": 5.1526377133433756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237433, "epoch": 2.451406357191859, "step": 32160}, {"loss": 0.10299503803253174, "token_acc": 0.9574243490499648, "grad_norm": 1.466530680656433, "learning_rate": 5.151440922470619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237445, "epoch": 2.451787483802119, "step": 32165}, {"loss": 0.08127434253692627, "token_acc": 0.9702473620480886, "grad_norm": 1.1249780654907227, "learning_rate": 5.1502441229134314e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237451, "epoch": 2.4521686104123788, "step": 32170}, {"loss": 0.09366962313652039, "token_acc": 0.9709753628079649, "grad_norm": 0.5738515853881836, "learning_rate": 5.14904731474044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237455, "epoch": 2.452549737022639, "step": 32175}, {"loss": 0.09987412095069885, "token_acc": 0.9584398976982097, "grad_norm": 0.8114838004112244, "learning_rate": 5.147850498020276e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237462, "epoch": 2.452930863632899, "step": 32180}, {"loss": 0.10303734540939331, "token_acc": 0.9683773976153447, "grad_norm": 1.7480616569519043, "learning_rate": 5.146653672821572e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237471, "epoch": 2.453311990243159, "step": 32185}, {"loss": 0.09398956298828125, "token_acc": 0.963462163039948, "grad_norm": 0.6125215888023376, "learning_rate": 5.1454568392129606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237476, "epoch": 2.453693116853419, "step": 32190}, {"loss": 0.05556373000144958, "token_acc": 0.9768033047346679, "grad_norm": 1.0182191133499146, "learning_rate": 5.1442599972630754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237485, "epoch": 2.454074243463679, "step": 32195}, {"loss": 0.14264739751815797, "token_acc": 0.9368177307310619, "grad_norm": 1.0362367630004883, "learning_rate": 5.143063147040548e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237496, "epoch": 2.4544553700739384, "step": 32200}, {"eval_loss": 0.08190025389194489, "eval_token_acc": 0.963887717607373, "eval_runtime": 217.6576, "eval_samples_per_second": 2.435, "eval_steps_per_second": 2.435, "epoch": 2.4544553700739384, "step": 32200}, {"loss": 0.0791084349155426, "token_acc": 0.9637296181175554, "grad_norm": 1.763527274131775, "learning_rate": 5.141866288614013e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237125, "epoch": 2.4548364966841985, "step": 32205}, {"loss": 0.0668079674243927, "token_acc": 0.9732885476647473, "grad_norm": 2.057387590408325, "learning_rate": 5.140669422052106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237131, "epoch": 2.4552176232944585, "step": 32210}, {"loss": 0.09443586468696594, "token_acc": 0.965258786589689, "grad_norm": 0.7704806327819824, "learning_rate": 5.139472547423458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237133, "epoch": 2.4555987499047185, "step": 32215}, {"loss": 0.10365757942199708, "token_acc": 0.9612956810631229, "grad_norm": 0.8204208016395569, "learning_rate": 5.138275664796708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237136, "epoch": 2.455979876514978, "step": 32220}, {"loss": 0.08756630420684815, "token_acc": 0.9699730527396382, "grad_norm": 1.1584113836288452, "learning_rate": 5.1370787742404914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23714, "epoch": 2.456361003125238, "step": 32225}, {"loss": 0.08980016112327575, "token_acc": 0.9585994795363142, "grad_norm": 1.3593182563781738, "learning_rate": 5.135881875823441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237148, "epoch": 2.456742129735498, "step": 32230}, {"loss": 0.06763052344322204, "token_acc": 0.9732796486090776, "grad_norm": 1.0349663496017456, "learning_rate": 5.1346849696141965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237161, "epoch": 2.457123256345758, "step": 32235}, {"loss": 0.05159831643104553, "token_acc": 0.9736616702355461, "grad_norm": 0.23163004219532013, "learning_rate": 5.1334880556813934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237168, "epoch": 2.457504382956018, "step": 32240}, {"loss": 0.10441603660583496, "token_acc": 0.9577167019027484, "grad_norm": 1.4182651042938232, "learning_rate": 5.132291134093672e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237179, "epoch": 2.457885509566278, "step": 32245}, {"loss": 0.06659343838691711, "token_acc": 0.97393297049556, "grad_norm": 0.584679901599884, "learning_rate": 5.1310942049196655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23719, "epoch": 2.4582666361765377, "step": 32250}, {"loss": 0.09552850127220154, "token_acc": 0.9624123128468223, "grad_norm": 1.250818133354187, "learning_rate": 5.1298972682280155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237187, "epoch": 2.4586477627867978, "step": 32255}, {"loss": 0.08111636638641358, "token_acc": 0.9734351652000665, "grad_norm": 1.342724084854126, "learning_rate": 5.128700324087361e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237195, "epoch": 2.4590288893970578, "step": 32260}, {"loss": 0.0718221127986908, "token_acc": 0.9734405458089669, "grad_norm": 0.6169635057449341, "learning_rate": 5.127503372566338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237204, "epoch": 2.459410016007318, "step": 32265}, {"loss": 0.08208571672439575, "token_acc": 0.9626849667595968, "grad_norm": 0.701077401638031, "learning_rate": 5.1263064137335905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237212, "epoch": 2.4597911426175774, "step": 32270}, {"loss": 0.09782501459121704, "token_acc": 0.9590246354952238, "grad_norm": 1.0186433792114258, "learning_rate": 5.1251094476577557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237222, "epoch": 2.4601722692278374, "step": 32275}, {"loss": 0.06929408311843872, "token_acc": 0.9726027397260274, "grad_norm": 1.129246711730957, "learning_rate": 5.123912474407474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237231, "epoch": 2.4605533958380974, "step": 32280}, {"loss": 0.0999297857284546, "token_acc": 0.9669434194341944, "grad_norm": 2.0745253562927246, "learning_rate": 5.1227154940513865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237235, "epoch": 2.4609345224483574, "step": 32285}, {"loss": 0.09268057346343994, "token_acc": 0.970393931979447, "grad_norm": 0.9055485129356384, "learning_rate": 5.121518506658136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237244, "epoch": 2.4613156490586174, "step": 32290}, {"loss": 0.09732171297073364, "token_acc": 0.9665970772442589, "grad_norm": 0.9835166931152344, "learning_rate": 5.120321512296363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237253, "epoch": 2.461696775668877, "step": 32295}, {"loss": 0.09012429118156433, "token_acc": 0.9686050660007135, "grad_norm": 0.525734543800354, "learning_rate": 5.1191245110347084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237253, "epoch": 2.462077902279137, "step": 32300}, {"loss": 0.10239927768707276, "token_acc": 0.9647347439435756, "grad_norm": 1.1260920763015747, "learning_rate": 5.117927502941817e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237264, "epoch": 2.462459028889397, "step": 32305}, {"loss": 0.06680032014846801, "token_acc": 0.9731223789553946, "grad_norm": 1.496146321296692, "learning_rate": 5.116730488086331e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237273, "epoch": 2.462840155499657, "step": 32310}, {"loss": 0.05874691605567932, "token_acc": 0.9803505045140732, "grad_norm": 0.7390111088752747, "learning_rate": 5.1155334665368925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237285, "epoch": 2.463221282109917, "step": 32315}, {"loss": 0.12634363174438476, "token_acc": 0.9625903803835272, "grad_norm": 0.8469942212104797, "learning_rate": 5.114336438362145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237291, "epoch": 2.4636024087201767, "step": 32320}, {"loss": 0.11960816383361816, "token_acc": 0.9656526005888125, "grad_norm": 0.937544584274292, "learning_rate": 5.113139403630734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237298, "epoch": 2.4639835353304367, "step": 32325}, {"loss": 0.10082534551620484, "token_acc": 0.9664414414414414, "grad_norm": 1.0568403005599976, "learning_rate": 5.111942362411305e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237306, "epoch": 2.4643646619406967, "step": 32330}, {"loss": 0.09214457869529724, "token_acc": 0.9545157780195865, "grad_norm": 0.9876269698143005, "learning_rate": 5.110745314772498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237313, "epoch": 2.4647457885509567, "step": 32335}, {"loss": 0.06972017884254456, "token_acc": 0.9724256785868161, "grad_norm": 1.2181813716888428, "learning_rate": 5.109548260782964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237315, "epoch": 2.4651269151612167, "step": 32340}, {"loss": 0.08288097381591797, "token_acc": 0.961265332472563, "grad_norm": 0.6257801651954651, "learning_rate": 5.108351200511344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237324, "epoch": 2.4655080417714763, "step": 32345}, {"loss": 0.08178079128265381, "token_acc": 0.9637262984336357, "grad_norm": 1.714722752571106, "learning_rate": 5.107154134026285e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237333, "epoch": 2.4658891683817363, "step": 32350}, {"loss": 0.0699450671672821, "token_acc": 0.9712465878070974, "grad_norm": 0.4944014549255371, "learning_rate": 5.105957061396435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237337, "epoch": 2.4662702949919963, "step": 32355}, {"loss": 0.07634921073913574, "token_acc": 0.9722544844496064, "grad_norm": 0.852733850479126, "learning_rate": 5.104759982690439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237341, "epoch": 2.4666514216022564, "step": 32360}, {"loss": 0.09792242050170899, "token_acc": 0.9680723920095612, "grad_norm": 0.6916747093200684, "learning_rate": 5.103562897976942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237348, "epoch": 2.4670325482125164, "step": 32365}, {"loss": 0.10554548501968383, "token_acc": 0.9529812606473594, "grad_norm": 1.089674949645996, "learning_rate": 5.102365807324595e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237358, "epoch": 2.467413674822776, "step": 32370}, {"loss": 0.09772891998291015, "token_acc": 0.9537664408130729, "grad_norm": 0.9333384037017822, "learning_rate": 5.101168710802045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237366, "epoch": 2.467794801433036, "step": 32375}, {"loss": 0.09505209922790528, "token_acc": 0.9656504345426955, "grad_norm": 0.8465971350669861, "learning_rate": 5.099971608477938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237369, "epoch": 2.468175928043296, "step": 32380}, {"loss": 0.10004132986068726, "token_acc": 0.9627329192546584, "grad_norm": 0.45627671480178833, "learning_rate": 5.098774500420923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237378, "epoch": 2.468557054653556, "step": 32385}, {"loss": 0.07462520599365234, "token_acc": 0.971830985915493, "grad_norm": 1.5973087549209595, "learning_rate": 5.097577386699649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237387, "epoch": 2.468938181263816, "step": 32390}, {"loss": 0.08998031616210937, "token_acc": 0.9699539617155318, "grad_norm": 0.6236518025398254, "learning_rate": 5.0963802673827646e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237396, "epoch": 2.4693193078740756, "step": 32395}, {"loss": 0.10645793676376343, "token_acc": 0.9565501470107808, "grad_norm": 0.6644592881202698, "learning_rate": 5.0951831425389196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237406, "epoch": 2.4697004344843356, "step": 32400}, {"eval_loss": 0.0816883072257042, "eval_token_acc": 0.9644750316246009, "eval_runtime": 212.524, "eval_samples_per_second": 2.494, "eval_steps_per_second": 2.494, "epoch": 2.4697004344843356, "step": 32400}, {"loss": 0.12554062604904176, "token_acc": 0.9644872984030429, "grad_norm": 1.0610525608062744, "learning_rate": 5.0939860122367625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237038, "epoch": 2.4700815610945956, "step": 32405}, {"loss": 0.06789535880088807, "token_acc": 0.9719830959461575, "grad_norm": 1.3927549123764038, "learning_rate": 5.0927888765449435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237042, "epoch": 2.4704626877048557, "step": 32410}, {"loss": 0.12432518005371093, "token_acc": 0.9431325301204819, "grad_norm": 1.6130789518356323, "learning_rate": 5.0915917355321144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237054, "epoch": 2.4708438143151152, "step": 32415}, {"loss": 0.09105119705200196, "token_acc": 0.963895486935867, "grad_norm": 1.081120252609253, "learning_rate": 5.090394589266923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237063, "epoch": 2.4712249409253753, "step": 32420}, {"loss": 0.083616441488266, "token_acc": 0.9638490164805954, "grad_norm": 0.9023790955543518, "learning_rate": 5.089197437818021e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237072, "epoch": 2.4716060675356353, "step": 32425}, {"loss": 0.07093601226806641, "token_acc": 0.9747744430123366, "grad_norm": 0.7962257862091064, "learning_rate": 5.088000281254062e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237079, "epoch": 2.4719871941458953, "step": 32430}, {"loss": 0.13298027515411376, "token_acc": 0.9567832832040526, "grad_norm": 0.9732542634010315, "learning_rate": 5.086803119643693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237082, "epoch": 2.4723683207561553, "step": 32435}, {"loss": 0.08403475880622864, "token_acc": 0.9632409251033849, "grad_norm": 0.8206663727760315, "learning_rate": 5.085605953055568e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237088, "epoch": 2.4727494473664153, "step": 32440}, {"loss": 0.08172794580459594, "token_acc": 0.9618705035971223, "grad_norm": 3.106858968734741, "learning_rate": 5.0844087815583394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237099, "epoch": 2.473130573976675, "step": 32445}, {"loss": 0.06163949966430664, "token_acc": 0.9773175542406312, "grad_norm": 0.8670427203178406, "learning_rate": 5.083211605220659e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237106, "epoch": 2.473511700586935, "step": 32450}, {"loss": 0.09013078212738038, "token_acc": 0.9733815313835031, "grad_norm": 0.6251036524772644, "learning_rate": 5.082014424111179e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23711, "epoch": 2.473892827197195, "step": 32455}, {"loss": 0.07429801225662232, "token_acc": 0.969092441697106, "grad_norm": 0.7533485293388367, "learning_rate": 5.080817238298553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237121, "epoch": 2.474273953807455, "step": 32460}, {"loss": 0.0762300968170166, "token_acc": 0.9670215528434173, "grad_norm": 0.8771314024925232, "learning_rate": 5.0796200478514336e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23713, "epoch": 2.4746550804177145, "step": 32465}, {"loss": 0.1233478307723999, "token_acc": 0.9426981008513425, "grad_norm": 1.2116272449493408, "learning_rate": 5.0784228528384733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23714, "epoch": 2.4750362070279746, "step": 32470}, {"loss": 0.10040969848632812, "token_acc": 0.9704091985120054, "grad_norm": 0.6252954006195068, "learning_rate": 5.077225653328326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237143, "epoch": 2.4754173336382346, "step": 32475}, {"loss": 0.10226720571517944, "token_acc": 0.9625074390001984, "grad_norm": 0.6778857111930847, "learning_rate": 5.076028449389646e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237148, "epoch": 2.4757984602484946, "step": 32480}, {"loss": 0.11114569902420043, "token_acc": 0.9587847385774847, "grad_norm": 1.8147715330123901, "learning_rate": 5.074831241091088e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237155, "epoch": 2.4761795868587546, "step": 32485}, {"loss": 0.12235462665557861, "token_acc": 0.9492472073822243, "grad_norm": 1.2582870721817017, "learning_rate": 5.073634028501304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237164, "epoch": 2.4765607134690146, "step": 32490}, {"loss": 0.10029060840606689, "token_acc": 0.9632842445027234, "grad_norm": 1.1435779333114624, "learning_rate": 5.072436811688952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237172, "epoch": 2.476941840079274, "step": 32495}, {"loss": 0.08358358144760132, "token_acc": 0.9670468948035488, "grad_norm": 1.160099744796753, "learning_rate": 5.071239590722684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237176, "epoch": 2.4773229666895342, "step": 32500}, {"loss": 0.11172574758529663, "token_acc": 0.9650209874075555, "grad_norm": 0.5981438755989075, "learning_rate": 5.070042365671156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237182, "epoch": 2.4777040932997942, "step": 32505}, {"loss": 0.0808282732963562, "token_acc": 0.9771428571428571, "grad_norm": 1.1696103811264038, "learning_rate": 5.068845136603023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237191, "epoch": 2.4780852199100543, "step": 32510}, {"loss": 0.12710686922073364, "token_acc": 0.9504666188083274, "grad_norm": 1.181359052658081, "learning_rate": 5.067647903586942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237198, "epoch": 2.478466346520314, "step": 32515}, {"loss": 0.08523765206336975, "token_acc": 0.9665626393223361, "grad_norm": 0.8165749311447144, "learning_rate": 5.066450666691568e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237208, "epoch": 2.478847473130574, "step": 32520}, {"loss": 0.088229900598526, "token_acc": 0.9609175870858114, "grad_norm": 0.7761129140853882, "learning_rate": 5.065253425985554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237218, "epoch": 2.479228599740834, "step": 32525}, {"loss": 0.10930988788604737, "token_acc": 0.9547635366689513, "grad_norm": 1.4951775074005127, "learning_rate": 5.064056181537562e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237228, "epoch": 2.479609726351094, "step": 32530}, {"loss": 0.08014906644821167, "token_acc": 0.9687781061287422, "grad_norm": 0.6839568614959717, "learning_rate": 5.062858933416245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23723, "epoch": 2.479990852961354, "step": 32535}, {"loss": 0.11091808080673218, "token_acc": 0.9527059196952865, "grad_norm": 1.291909098625183, "learning_rate": 5.061661681690257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237235, "epoch": 2.480371979571614, "step": 32540}, {"loss": 0.0896936297416687, "token_acc": 0.9664624314737181, "grad_norm": 0.5007871985435486, "learning_rate": 5.0604644264282594e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237241, "epoch": 2.4807531061818735, "step": 32545}, {"loss": 0.08060833811759949, "token_acc": 0.9675810473815462, "grad_norm": 1.0064418315887451, "learning_rate": 5.059267167698909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237254, "epoch": 2.4811342327921335, "step": 32550}, {"loss": 0.07388052940368653, "token_acc": 0.9740701001430615, "grad_norm": 0.6136196255683899, "learning_rate": 5.0580699055708604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237262, "epoch": 2.4815153594023935, "step": 32555}, {"loss": 0.07615472674369812, "token_acc": 0.9666666666666667, "grad_norm": 1.825529932975769, "learning_rate": 5.0568726401127706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237275, "epoch": 2.4818964860126536, "step": 32560}, {"loss": 0.09656510949134826, "token_acc": 0.9659300184162063, "grad_norm": 0.8835644125938416, "learning_rate": 5.0556753713933004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237281, "epoch": 2.482277612622913, "step": 32565}, {"loss": 0.11027920246124268, "token_acc": 0.9472352728586917, "grad_norm": 0.981692910194397, "learning_rate": 5.054478099481106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237292, "epoch": 2.482658739233173, "step": 32570}, {"loss": 0.07528504729270935, "token_acc": 0.9708705726580602, "grad_norm": 0.7605816125869751, "learning_rate": 5.053280824444845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237302, "epoch": 2.483039865843433, "step": 32575}, {"loss": 0.08171619176864624, "token_acc": 0.9631407179880975, "grad_norm": 0.9227256774902344, "learning_rate": 5.0520835463531755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237311, "epoch": 2.483420992453693, "step": 32580}, {"loss": 0.10844322443008422, "token_acc": 0.9682051282051282, "grad_norm": 1.7167404890060425, "learning_rate": 5.050886265274758e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23731, "epoch": 2.483802119063953, "step": 32585}, {"loss": 0.08117426633834839, "token_acc": 0.9695102173207915, "grad_norm": 1.1114164590835571, "learning_rate": 5.049688981278249e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237315, "epoch": 2.484183245674213, "step": 32590}, {"loss": 0.1279611110687256, "token_acc": 0.9558310055865922, "grad_norm": 1.3448941707611084, "learning_rate": 5.0484916944323056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237322, "epoch": 2.484564372284473, "step": 32595}, {"loss": 0.059603911638259885, "token_acc": 0.975054704595186, "grad_norm": 0.5457672476768494, "learning_rate": 5.04729440480559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237321, "epoch": 2.484945498894733, "step": 32600}, {"eval_loss": 0.08149267733097076, "eval_token_acc": 0.9638952472742606, "eval_runtime": 216.4152, "eval_samples_per_second": 2.449, "eval_steps_per_second": 2.449, "epoch": 2.484945498894733, "step": 32600}, {"loss": 0.08202637434005737, "token_acc": 0.9638942286527653, "grad_norm": 0.746606171131134, "learning_rate": 5.04609711246676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236956, "epoch": 2.485326625504993, "step": 32605}, {"loss": 0.06239247918128967, "token_acc": 0.9693151798414956, "grad_norm": 1.0643306970596313, "learning_rate": 5.044899817484473e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236964, "epoch": 2.485707752115253, "step": 32610}, {"loss": 0.08941280841827393, "token_acc": 0.9706031424227065, "grad_norm": 0.467007577419281, "learning_rate": 5.043702519927391e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236964, "epoch": 2.4860888787255124, "step": 32615}, {"loss": 0.08697628974914551, "token_acc": 0.9757437070938215, "grad_norm": 0.6772825121879578, "learning_rate": 5.042505219864173e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236973, "epoch": 2.4864700053357724, "step": 32620}, {"loss": 0.11443369388580323, "token_acc": 0.9590340664079344, "grad_norm": 1.7354190349578857, "learning_rate": 5.041307917363477e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236985, "epoch": 2.4868511319460325, "step": 32625}, {"loss": 0.0767454445362091, "token_acc": 0.9658858312485786, "grad_norm": 1.1378047466278076, "learning_rate": 5.0401106124939634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236991, "epoch": 2.4872322585562925, "step": 32630}, {"loss": 0.1118741512298584, "token_acc": 0.9592220828105396, "grad_norm": 1.932583212852478, "learning_rate": 5.038913305324292e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237001, "epoch": 2.4876133851665525, "step": 32635}, {"loss": 0.1123130202293396, "token_acc": 0.9516611003691334, "grad_norm": 1.2275440692901611, "learning_rate": 5.037715995923125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237006, "epoch": 2.487994511776812, "step": 32640}, {"loss": 0.11677471399307252, "token_acc": 0.9598548972188634, "grad_norm": 0.9071910381317139, "learning_rate": 5.036518684359119e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237015, "epoch": 2.488375638387072, "step": 32645}, {"loss": 0.08172268867492676, "token_acc": 0.9727140783744558, "grad_norm": 1.4639593362808228, "learning_rate": 5.035321370700935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237019, "epoch": 2.488756764997332, "step": 32650}, {"loss": 0.08754828572273254, "token_acc": 0.9662680931403398, "grad_norm": 0.6283960342407227, "learning_rate": 5.034124055017236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237023, "epoch": 2.489137891607592, "step": 32655}, {"loss": 0.09514535665512085, "token_acc": 0.9640985833495052, "grad_norm": 1.2513079643249512, "learning_rate": 5.032926737376681e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237032, "epoch": 2.489519018217852, "step": 32660}, {"loss": 0.06783218383789062, "token_acc": 0.9734939759036144, "grad_norm": 1.6153745651245117, "learning_rate": 5.031729417847929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237046, "epoch": 2.4899001448281117, "step": 32665}, {"loss": 0.10022616386413574, "token_acc": 0.9581824168587422, "grad_norm": 1.0578604936599731, "learning_rate": 5.0305320964996436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237056, "epoch": 2.4902812714383717, "step": 32670}, {"loss": 0.07359199523925782, "token_acc": 0.970320905212391, "grad_norm": 0.7264026999473572, "learning_rate": 5.0293347734004834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237062, "epoch": 2.4906623980486318, "step": 32675}, {"loss": 0.08453892469406128, "token_acc": 0.97015326700726, "grad_norm": 1.8340282440185547, "learning_rate": 5.02813744861911e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23707, "epoch": 2.491043524658892, "step": 32680}, {"loss": 0.09541623592376709, "token_acc": 0.9597787081339713, "grad_norm": 0.7447597980499268, "learning_rate": 5.0269401222241855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237074, "epoch": 2.491424651269152, "step": 32685}, {"loss": 0.0983817994594574, "token_acc": 0.9641767068273093, "grad_norm": 0.9106724262237549, "learning_rate": 5.0257427942843695e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23708, "epoch": 2.4918057778794114, "step": 32690}, {"loss": 0.11346976757049561, "token_acc": 0.9637648131267093, "grad_norm": 1.3889763355255127, "learning_rate": 5.024545464868322e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237087, "epoch": 2.4921869044896714, "step": 32695}, {"loss": 0.084490305185318, "token_acc": 0.9665205261060184, "grad_norm": 1.0603346824645996, "learning_rate": 5.023348134044707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237094, "epoch": 2.4925680310999314, "step": 32700}, {"loss": 0.11221163272857666, "token_acc": 0.9651517873181247, "grad_norm": 1.000857949256897, "learning_rate": 5.022150801882186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2371, "epoch": 2.4929491577101914, "step": 32705}, {"loss": 0.10742229223251343, "token_acc": 0.9544967880085653, "grad_norm": 0.9973498582839966, "learning_rate": 5.020953468449418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237107, "epoch": 2.493330284320451, "step": 32710}, {"loss": 0.07961418628692626, "token_acc": 0.9570397111913357, "grad_norm": 0.9577050805091858, "learning_rate": 5.0197561338150666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237117, "epoch": 2.493711410930711, "step": 32715}, {"loss": 0.09894939661026, "token_acc": 0.9663604766633564, "grad_norm": 2.2972452640533447, "learning_rate": 5.018558798047792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237121, "epoch": 2.494092537540971, "step": 32720}, {"loss": 0.07018018364906312, "token_acc": 0.9690272373540856, "grad_norm": 0.49451929330825806, "learning_rate": 5.017361461216258e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237126, "epoch": 2.494473664151231, "step": 32725}, {"loss": 0.08428190350532531, "token_acc": 0.9710033752684872, "grad_norm": 1.0628807544708252, "learning_rate": 5.0161641233891224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237132, "epoch": 2.494854790761491, "step": 32730}, {"loss": 0.16030316352844237, "token_acc": 0.9154310818231741, "grad_norm": 2.2226288318634033, "learning_rate": 5.014966784635051e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237145, "epoch": 2.495235917371751, "step": 32735}, {"loss": 0.08412414193153381, "token_acc": 0.9722882026920031, "grad_norm": 1.2904126644134521, "learning_rate": 5.013769445022704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237154, "epoch": 2.4956170439820107, "step": 32740}, {"loss": 0.08627579808235168, "token_acc": 0.9690436241610738, "grad_norm": 1.032455563545227, "learning_rate": 5.012572104620743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23715, "epoch": 2.4959981705922707, "step": 32745}, {"loss": 0.11428292989730834, "token_acc": 0.9526191877575044, "grad_norm": 1.027165174484253, "learning_rate": 5.011374763497829e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237159, "epoch": 2.4963792972025307, "step": 32750}, {"loss": 0.09785357713699341, "token_acc": 0.9598981540420115, "grad_norm": 0.879060685634613, "learning_rate": 5.010177421722626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237169, "epoch": 2.4967604238127907, "step": 32755}, {"loss": 0.10571023225784301, "token_acc": 0.9539170506912442, "grad_norm": 0.7778221964836121, "learning_rate": 5.008980079363795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237177, "epoch": 2.4971415504230503, "step": 32760}, {"loss": 0.10453786849975585, "token_acc": 0.962536023054755, "grad_norm": 0.9055548906326294, "learning_rate": 5.007782736489997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237183, "epoch": 2.4975226770333103, "step": 32765}, {"loss": 0.11275142431259155, "token_acc": 0.9532545422473099, "grad_norm": 1.0745505094528198, "learning_rate": 5.006585393169897e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237188, "epoch": 2.4979038036435703, "step": 32770}, {"loss": 0.07066336870193482, "token_acc": 0.9725378787878788, "grad_norm": 0.63880854845047, "learning_rate": 5.005388049472155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237196, "epoch": 2.4982849302538304, "step": 32775}, {"loss": 0.14020938873291017, "token_acc": 0.9461376773515502, "grad_norm": 0.6250942349433899, "learning_rate": 5.004190705465434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237205, "epoch": 2.4986660568640904, "step": 32780}, {"loss": 0.11702556610107422, "token_acc": 0.9425625920471281, "grad_norm": 2.016357183456421, "learning_rate": 5.002993361218393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237218, "epoch": 2.4990471834743504, "step": 32785}, {"loss": 0.09401137232780457, "token_acc": 0.9655782531767734, "grad_norm": 0.5274804830551147, "learning_rate": 5.001796016799698e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237224, "epoch": 2.49942831008461, "step": 32790}, {"loss": 0.09447575807571411, "token_acc": 0.9593118514472966, "grad_norm": 1.6258679628372192, "learning_rate": 5.000598672278011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237231, "epoch": 2.49980943669487, "step": 32795}, {"loss": 0.07882640957832336, "token_acc": 0.969311377245509, "grad_norm": 0.7354521155357361, "learning_rate": 4.99940132772199e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237241, "epoch": 2.50019056330513, "step": 32800}, {"eval_loss": 0.08330094069242477, "eval_token_acc": 0.9645578579603639, "eval_runtime": 218.2823, "eval_samples_per_second": 2.428, "eval_steps_per_second": 2.428, "epoch": 2.50019056330513, "step": 32800}, {"loss": 0.13596681356430054, "token_acc": 0.9635512744133966, "grad_norm": 1.1690751314163208, "learning_rate": 4.998203983200302e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236871, "epoch": 2.50057168991539, "step": 32805}, {"loss": 0.08115845918655396, "token_acc": 0.972549527385731, "grad_norm": 0.3608216643333435, "learning_rate": 4.997006638781607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236873, "epoch": 2.5009528165256496, "step": 32810}, {"loss": 0.15216610431671143, "token_acc": 0.9563456345634563, "grad_norm": 1.266127109527588, "learning_rate": 4.995809294534568e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236879, "epoch": 2.5013339431359096, "step": 32815}, {"loss": 0.0846735954284668, "token_acc": 0.9573447753659767, "grad_norm": 1.284793734550476, "learning_rate": 4.9946119505278455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236889, "epoch": 2.5017150697461696, "step": 32820}, {"loss": 0.11855581998825074, "token_acc": 0.9601393188854489, "grad_norm": 1.336588740348816, "learning_rate": 4.993414606830103e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2369, "epoch": 2.5020961963564297, "step": 32825}, {"loss": 0.07139829397201539, "token_acc": 0.9735243731505996, "grad_norm": 0.7253202795982361, "learning_rate": 4.992217263510003e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236903, "epoch": 2.5024773229666897, "step": 32830}, {"loss": 0.10076133012771607, "token_acc": 0.9591709844559585, "grad_norm": 1.466415286064148, "learning_rate": 4.9910199206362053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23691, "epoch": 2.5028584495769497, "step": 32835}, {"loss": 0.06510155200958252, "token_acc": 0.963081130355515, "grad_norm": 1.0126689672470093, "learning_rate": 4.989822578277375e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236921, "epoch": 2.5032395761872093, "step": 32840}, {"loss": 0.09717998504638672, "token_acc": 0.9697180647406892, "grad_norm": 1.7200003862380981, "learning_rate": 4.9886252365021726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236924, "epoch": 2.5036207027974693, "step": 32845}, {"loss": 0.07672379612922668, "token_acc": 0.9713162155910248, "grad_norm": 1.1946361064910889, "learning_rate": 4.987427895379258e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236931, "epoch": 2.5040018294077293, "step": 32850}, {"loss": 0.124867844581604, "token_acc": 0.9618026930475405, "grad_norm": 1.2628095149993896, "learning_rate": 4.9862305549772974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23694, "epoch": 2.5043829560179893, "step": 32855}, {"loss": 0.10146132707595826, "token_acc": 0.951005380911923, "grad_norm": 0.9964984059333801, "learning_rate": 4.985033215364951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236949, "epoch": 2.504764082628249, "step": 32860}, {"loss": 0.11411185264587402, "token_acc": 0.9526542324246772, "grad_norm": 1.2708353996276855, "learning_rate": 4.983835876610879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236957, "epoch": 2.505145209238509, "step": 32865}, {"loss": 0.11193795204162597, "token_acc": 0.9579656666131878, "grad_norm": 1.0460419654846191, "learning_rate": 4.982638538783744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236963, "epoch": 2.505526335848769, "step": 32870}, {"loss": 0.0615727961063385, "token_acc": 0.9716690042075736, "grad_norm": 0.6659510731697083, "learning_rate": 4.981441201952209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236973, "epoch": 2.505907462459029, "step": 32875}, {"loss": 0.07601369619369507, "token_acc": 0.9714932126696832, "grad_norm": 1.6163833141326904, "learning_rate": 4.9802438661849346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236984, "epoch": 2.506288589069289, "step": 32880}, {"loss": 0.07712869048118591, "token_acc": 0.9697311524722693, "grad_norm": 0.6211439967155457, "learning_rate": 4.979046531550582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23699, "epoch": 2.506669715679549, "step": 32885}, {"loss": 0.08751252889633179, "token_acc": 0.969023569023569, "grad_norm": 1.671754240989685, "learning_rate": 4.977849198117815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236994, "epoch": 2.5070508422898086, "step": 32890}, {"loss": 0.09953057765960693, "token_acc": 0.9661486054928677, "grad_norm": 3.0128824710845947, "learning_rate": 4.976651865955294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237001, "epoch": 2.5074319689000686, "step": 32895}, {"loss": 0.08191831111907959, "token_acc": 0.9649820177929207, "grad_norm": 1.0042357444763184, "learning_rate": 4.975454535131679e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237008, "epoch": 2.5078130955103286, "step": 32900}, {"loss": 0.11387544870376587, "token_acc": 0.9572406881576749, "grad_norm": 1.1863443851470947, "learning_rate": 4.974257205715633e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237013, "epoch": 2.5081942221205886, "step": 32905}, {"loss": 0.09124519824981689, "token_acc": 0.9624971929036604, "grad_norm": 1.049683928489685, "learning_rate": 4.973059877775817e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237022, "epoch": 2.508575348730848, "step": 32910}, {"loss": 0.07547228932380676, "token_acc": 0.9665361338554646, "grad_norm": 2.242917776107788, "learning_rate": 4.971862551380891e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237031, "epoch": 2.508956475341108, "step": 32915}, {"loss": 0.09978560209274293, "token_acc": 0.965947096381879, "grad_norm": 0.7965443134307861, "learning_rate": 4.970665226599518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237039, "epoch": 2.5093376019513682, "step": 32920}, {"loss": 0.09241698980331421, "token_acc": 0.9590717299578059, "grad_norm": 0.7460707426071167, "learning_rate": 4.969467903500358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237048, "epoch": 2.5097187285616283, "step": 32925}, {"loss": 0.09563430547714233, "token_acc": 0.9725533684502357, "grad_norm": 1.74571692943573, "learning_rate": 4.9682705821520726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237057, "epoch": 2.5100998551718883, "step": 32930}, {"loss": 0.07740887999534607, "token_acc": 0.9729110231298187, "grad_norm": 0.9395322203636169, "learning_rate": 4.9670732626233196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237064, "epoch": 2.5104809817821483, "step": 32935}, {"loss": 0.10924084186553955, "token_acc": 0.9576306913996627, "grad_norm": 1.4174041748046875, "learning_rate": 4.9658759449827635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237072, "epoch": 2.510862108392408, "step": 32940}, {"loss": 0.12027863264083863, "token_acc": 0.9643424281795872, "grad_norm": 2.8372652530670166, "learning_rate": 4.9646786292990643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237076, "epoch": 2.511243235002668, "step": 32945}, {"loss": 0.09025511145591736, "token_acc": 0.9659314690823159, "grad_norm": 0.7366938591003418, "learning_rate": 4.963481315640882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237082, "epoch": 2.511624361612928, "step": 32950}, {"loss": 0.09684789776802064, "token_acc": 0.9691833590138675, "grad_norm": 0.6312406659126282, "learning_rate": 4.962284004076876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237086, "epoch": 2.5120054882231875, "step": 32955}, {"loss": 0.09252734780311585, "token_acc": 0.9666412795125666, "grad_norm": 0.40779992938041687, "learning_rate": 4.961086694675708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237088, "epoch": 2.5123866148334475, "step": 32960}, {"loss": 0.07744455337524414, "token_acc": 0.9603399433427762, "grad_norm": 0.7484343647956848, "learning_rate": 4.959889387506038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237096, "epoch": 2.5127677414437075, "step": 32965}, {"loss": 0.07016698122024537, "token_acc": 0.9698924731182795, "grad_norm": 0.31623175740242004, "learning_rate": 4.958692082636525e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237107, "epoch": 2.5131488680539675, "step": 32970}, {"loss": 0.09530118703842164, "token_acc": 0.9624320316361838, "grad_norm": 0.489571750164032, "learning_rate": 4.957494780135828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237116, "epoch": 2.5135299946642276, "step": 32975}, {"loss": 0.10669958591461182, "token_acc": 0.9630372492836676, "grad_norm": 2.6379051208496094, "learning_rate": 4.956297480072609e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237125, "epoch": 2.5139111212744876, "step": 32980}, {"loss": 0.10632832050323486, "token_acc": 0.9646503123571537, "grad_norm": 2.743637800216675, "learning_rate": 4.9551001825155275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237132, "epoch": 2.5142922478847476, "step": 32985}, {"loss": 0.10157712697982788, "token_acc": 0.9565509819747108, "grad_norm": 0.660750150680542, "learning_rate": 4.953902887533241e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237135, "epoch": 2.514673374495007, "step": 32990}, {"loss": 0.08774518966674805, "token_acc": 0.9661757565949183, "grad_norm": 0.4104747176170349, "learning_rate": 4.952705595194411e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237141, "epoch": 2.515054501105267, "step": 32995}, {"loss": 0.0770055592060089, "token_acc": 0.9769099808469888, "grad_norm": 0.5099527835845947, "learning_rate": 4.9515083055676956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237138, "epoch": 2.515435627715527, "step": 33000}, {"eval_loss": 0.08091820776462555, "eval_token_acc": 0.965107523643154, "eval_runtime": 220.4141, "eval_samples_per_second": 2.405, "eval_steps_per_second": 2.405, "epoch": 2.515435627715527, "step": 33000}, {"loss": 0.1001753568649292, "token_acc": 0.965364236493138, "grad_norm": 1.264560580253601, "learning_rate": 4.950311018721753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236768, "epoch": 2.5158167543257868, "step": 33005}, {"loss": 0.09502356648445129, "token_acc": 0.9639344262295082, "grad_norm": 1.266026258468628, "learning_rate": 4.949113734725243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236777, "epoch": 2.516197880936047, "step": 33010}, {"loss": 0.05333621501922607, "token_acc": 0.9713159623385155, "grad_norm": 0.1107417643070221, "learning_rate": 4.9479164536468257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236785, "epoch": 2.516579007546307, "step": 33015}, {"loss": 0.08645542860031127, "token_acc": 0.973791233619521, "grad_norm": 1.4980623722076416, "learning_rate": 4.9467191755551554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236789, "epoch": 2.516960134156567, "step": 33020}, {"loss": 0.08119407892227173, "token_acc": 0.9709443099273608, "grad_norm": 0.646247148513794, "learning_rate": 4.945521900518895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23679, "epoch": 2.517341260766827, "step": 33025}, {"loss": 0.06108865737915039, "token_acc": 0.9638386648122392, "grad_norm": 1.3206604719161987, "learning_rate": 4.9443246286067015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236802, "epoch": 2.517722387377087, "step": 33030}, {"loss": 0.08659700751304626, "token_acc": 0.9596478356566398, "grad_norm": 1.316069483757019, "learning_rate": 4.943127359887231e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236814, "epoch": 2.5181035139873464, "step": 33035}, {"loss": 0.0971682071685791, "token_acc": 0.9584726376913602, "grad_norm": 0.6473144292831421, "learning_rate": 4.941930094429142e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236822, "epoch": 2.5184846405976065, "step": 33040}, {"loss": 0.09670069217681884, "token_acc": 0.966520073769329, "grad_norm": 1.000908374786377, "learning_rate": 4.940732832301094e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236823, "epoch": 2.5188657672078665, "step": 33045}, {"loss": 0.08770031332969666, "token_acc": 0.9587753864807518, "grad_norm": 2.267770528793335, "learning_rate": 4.939535573571742e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236833, "epoch": 2.5192468938181265, "step": 33050}, {"loss": 0.09292935132980347, "token_acc": 0.9640145763741269, "grad_norm": 1.1274231672286987, "learning_rate": 4.938338318309744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236838, "epoch": 2.519628020428386, "step": 33055}, {"loss": 0.09132999777793885, "token_acc": 0.9622641509433962, "grad_norm": 0.7619070410728455, "learning_rate": 4.9371410665837584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236843, "epoch": 2.520009147038646, "step": 33060}, {"loss": 0.09562448263168336, "token_acc": 0.9578059071729957, "grad_norm": 0.8996629118919373, "learning_rate": 4.935943818462438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236847, "epoch": 2.520390273648906, "step": 33065}, {"loss": 0.08897706270217895, "token_acc": 0.9688449848024316, "grad_norm": 1.0069319009780884, "learning_rate": 4.934746574014445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236854, "epoch": 2.520771400259166, "step": 33070}, {"loss": 0.059208142757415774, "token_acc": 0.9721552291164218, "grad_norm": 1.075402021408081, "learning_rate": 4.933549333308433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236862, "epoch": 2.521152526869426, "step": 33075}, {"loss": 0.10810576677322388, "token_acc": 0.9589005235602094, "grad_norm": 1.320214867591858, "learning_rate": 4.9323520964130574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236869, "epoch": 2.521533653479686, "step": 33080}, {"loss": 0.0891953706741333, "token_acc": 0.9650180940892642, "grad_norm": 1.0526854991912842, "learning_rate": 4.9311548633969766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236879, "epoch": 2.5219147800899457, "step": 33085}, {"loss": 0.07507234215736389, "token_acc": 0.9682658670664668, "grad_norm": 0.8374066948890686, "learning_rate": 4.929957634328845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236889, "epoch": 2.5222959067002058, "step": 33090}, {"loss": 0.10953775644302369, "token_acc": 0.947047619047619, "grad_norm": 1.2207252979278564, "learning_rate": 4.9287604092773164e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236899, "epoch": 2.5226770333104658, "step": 33095}, {"loss": 0.10648869276046753, "token_acc": 0.9603404913909848, "grad_norm": 0.8483012318611145, "learning_rate": 4.927563188311049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236905, "epoch": 2.523058159920726, "step": 33100}, {"loss": 0.10854912996292114, "token_acc": 0.9606423885998643, "grad_norm": 1.0070604085922241, "learning_rate": 4.9263659714986964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236912, "epoch": 2.5234392865309854, "step": 33105}, {"loss": 0.09892846345901489, "token_acc": 0.9561986703167775, "grad_norm": 0.5746860504150391, "learning_rate": 4.925168758908913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236923, "epoch": 2.5238204131412454, "step": 33110}, {"loss": 0.10281234979629517, "token_acc": 0.9611271081859317, "grad_norm": 0.7289799451828003, "learning_rate": 4.923971550610355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23693, "epoch": 2.5242015397515054, "step": 33115}, {"loss": 0.08764684200286865, "token_acc": 0.9693137437232657, "grad_norm": 0.8372538089752197, "learning_rate": 4.9227743466716754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236935, "epoch": 2.5245826663617654, "step": 33120}, {"loss": 0.12236213684082031, "token_acc": 0.9655566998512416, "grad_norm": 0.5898918509483337, "learning_rate": 4.921577147161528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236934, "epoch": 2.5249637929720254, "step": 33125}, {"loss": 0.06973938941955567, "token_acc": 0.966984126984127, "grad_norm": 0.863740086555481, "learning_rate": 4.9203799521485675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236943, "epoch": 2.5253449195822855, "step": 33130}, {"loss": 0.1176151156425476, "token_acc": 0.9378980891719745, "grad_norm": 2.110180377960205, "learning_rate": 4.919182761701449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236954, "epoch": 2.525726046192545, "step": 33135}, {"loss": 0.0875206708908081, "token_acc": 0.9636697247706422, "grad_norm": 2.325512647628784, "learning_rate": 4.917985575888822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236964, "epoch": 2.526107172802805, "step": 33140}, {"loss": 0.09069373607635497, "token_acc": 0.964942387840157, "grad_norm": 0.5914955735206604, "learning_rate": 4.916788394779342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236963, "epoch": 2.526488299413065, "step": 33145}, {"loss": 0.07858939170837402, "token_acc": 0.9713375796178344, "grad_norm": 0.7067722678184509, "learning_rate": 4.915591218441662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236972, "epoch": 2.526869426023325, "step": 33150}, {"loss": 0.11027237176895141, "token_acc": 0.9603634957463264, "grad_norm": 1.1293522119522095, "learning_rate": 4.914394046944434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236978, "epoch": 2.5272505526335847, "step": 33155}, {"loss": 0.08462151885032654, "token_acc": 0.9706898935434812, "grad_norm": 0.6791089773178101, "learning_rate": 4.913196880356309e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23698, "epoch": 2.5276316792438447, "step": 33160}, {"loss": 0.0936067521572113, "token_acc": 0.9645569620253165, "grad_norm": 0.5614945888519287, "learning_rate": 4.911999718745941e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236988, "epoch": 2.5280128058541047, "step": 33165}, {"loss": 0.08904505968093872, "token_acc": 0.9600062735257214, "grad_norm": 0.7882682085037231, "learning_rate": 4.910802562181981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236992, "epoch": 2.5283939324643647, "step": 33170}, {"loss": 0.10349856615066529, "token_acc": 0.9642389882250327, "grad_norm": 1.6088447570800781, "learning_rate": 4.909605410733079e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237001, "epoch": 2.5287750590746247, "step": 33175}, {"loss": 0.09457155466079711, "token_acc": 0.9677938808373591, "grad_norm": 1.3977211713790894, "learning_rate": 4.908408264467888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237006, "epoch": 2.5291561856848848, "step": 33180}, {"loss": 0.10187983512878418, "token_acc": 0.9604072398190046, "grad_norm": 1.0954550504684448, "learning_rate": 4.907211123455059e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237013, "epoch": 2.5295373122951443, "step": 33185}, {"loss": 0.07724708318710327, "token_acc": 0.9681744511566229, "grad_norm": 1.302017092704773, "learning_rate": 4.9060139877632393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237017, "epoch": 2.5299184389054044, "step": 33190}, {"loss": 0.10180256366729737, "token_acc": 0.9605902465359006, "grad_norm": 0.8362134099006653, "learning_rate": 4.904816857461082e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237022, "epoch": 2.5302995655156644, "step": 33195}, {"loss": 0.11541591882705689, "token_acc": 0.9631078086299049, "grad_norm": 0.7535756826400757, "learning_rate": 4.903619732617236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.237026, "epoch": 2.5306806921259244, "step": 33200}, {"eval_loss": 0.08056715130805969, "eval_token_acc": 0.9655065959881934, "eval_runtime": 221.3678, "eval_samples_per_second": 2.394, "eval_steps_per_second": 2.394, "epoch": 2.5306806921259244, "step": 33200}, {"loss": 0.09183005094528199, "token_acc": 0.9653119071859139, "grad_norm": 0.8629365563392639, "learning_rate": 4.9024226133003514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236661, "epoch": 2.531061818736184, "step": 33205}, {"loss": 0.10580255985260009, "token_acc": 0.962425840474621, "grad_norm": 0.4623248279094696, "learning_rate": 4.901225499579078e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236665, "epoch": 2.531442945346444, "step": 33210}, {"loss": 0.0989622414112091, "token_acc": 0.9758694109297374, "grad_norm": 1.6338202953338623, "learning_rate": 4.9000283915220623e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236674, "epoch": 2.531824071956704, "step": 33215}, {"loss": 0.08414579629898071, "token_acc": 0.9705044751830757, "grad_norm": 0.5987167358398438, "learning_rate": 4.898831289197956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236681, "epoch": 2.532205198566964, "step": 33220}, {"loss": 0.08905951976776123, "token_acc": 0.9667215815485997, "grad_norm": 1.4805432558059692, "learning_rate": 4.897634192675405e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236691, "epoch": 2.532586325177224, "step": 33225}, {"loss": 0.09001799821853637, "token_acc": 0.9690829694323144, "grad_norm": 0.5591229796409607, "learning_rate": 4.896437102023058e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236698, "epoch": 2.532967451787484, "step": 33230}, {"loss": 0.09925960898399352, "token_acc": 0.9535120461486257, "grad_norm": 0.9160152077674866, "learning_rate": 4.8952400173095624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236709, "epoch": 2.5333485783977436, "step": 33235}, {"loss": 0.08380405902862549, "token_acc": 0.9625796178343949, "grad_norm": 0.6434415578842163, "learning_rate": 4.894042938603566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236712, "epoch": 2.5337297050080037, "step": 33240}, {"loss": 0.093232262134552, "token_acc": 0.9706653947054615, "grad_norm": 0.8504883050918579, "learning_rate": 4.892845865973717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23672, "epoch": 2.5341108316182637, "step": 33245}, {"loss": 0.0829300343990326, "token_acc": 0.9662456445993032, "grad_norm": 1.1412131786346436, "learning_rate": 4.8916487994886576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236728, "epoch": 2.5344919582285232, "step": 33250}, {"loss": 0.09913569092750549, "token_acc": 0.9645363408521304, "grad_norm": 0.47249430418014526, "learning_rate": 4.890451739217038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236731, "epoch": 2.5348730848387833, "step": 33255}, {"loss": 0.09261062145233154, "token_acc": 0.9631779067440465, "grad_norm": 1.1726270914077759, "learning_rate": 4.889254685227503e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236738, "epoch": 2.5352542114490433, "step": 33260}, {"loss": 0.08000626564025878, "token_acc": 0.9698612029081295, "grad_norm": 1.6553479433059692, "learning_rate": 4.8880576375886966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23674, "epoch": 2.5356353380593033, "step": 33265}, {"loss": 0.10430415868759155, "token_acc": 0.963512241054614, "grad_norm": 1.0415784120559692, "learning_rate": 4.886860596369266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236747, "epoch": 2.5360164646695633, "step": 33270}, {"loss": 0.10411295890808106, "token_acc": 0.9532362960668938, "grad_norm": 0.9149861931800842, "learning_rate": 4.885663561637856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236752, "epoch": 2.5363975912798233, "step": 33275}, {"loss": 0.08204564452171326, "token_acc": 0.9597948717948718, "grad_norm": 0.8235099911689758, "learning_rate": 4.884466533463109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23676, "epoch": 2.5367787178900834, "step": 33280}, {"loss": 0.05346314907073975, "token_acc": 0.9816130380275805, "grad_norm": 0.8802794814109802, "learning_rate": 4.8832695119136706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23677, "epoch": 2.537159844500343, "step": 33285}, {"loss": 0.08534727096557618, "token_acc": 0.9660447133972097, "grad_norm": 1.432608962059021, "learning_rate": 4.882072497058184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236777, "epoch": 2.537540971110603, "step": 33290}, {"loss": 0.10437676906585694, "token_acc": 0.9598208035839283, "grad_norm": 0.5062547922134399, "learning_rate": 4.880875488965292e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236783, "epoch": 2.537922097720863, "step": 33295}, {"loss": 0.07997508645057679, "token_acc": 0.96015625, "grad_norm": 0.35453522205352783, "learning_rate": 4.879678487703639e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236792, "epoch": 2.5383032243311225, "step": 33300}, {"loss": 0.07111991047859192, "token_acc": 0.9650565262076053, "grad_norm": 1.3946725130081177, "learning_rate": 4.878481493341866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236804, "epoch": 2.5386843509413826, "step": 33305}, {"loss": 0.06252399682998658, "token_acc": 0.9749406489053021, "grad_norm": 0.9492907524108887, "learning_rate": 4.877284505948615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236809, "epoch": 2.5390654775516426, "step": 33310}, {"loss": 0.13176884651184081, "token_acc": 0.9507692307692308, "grad_norm": 1.1537877321243286, "learning_rate": 4.876087525592527e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236818, "epoch": 2.5394466041619026, "step": 33315}, {"loss": 0.10590393543243408, "token_acc": 0.9595410628019324, "grad_norm": 1.2672069072723389, "learning_rate": 4.874890552342247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236828, "epoch": 2.5398277307721626, "step": 33320}, {"loss": 0.07820298671722412, "token_acc": 0.9624116114625977, "grad_norm": 0.8286433219909668, "learning_rate": 4.873693586266412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236836, "epoch": 2.5402088573824226, "step": 33325}, {"loss": 0.07073242068290711, "token_acc": 0.9690402476780186, "grad_norm": 0.7912158966064453, "learning_rate": 4.872496627433663e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236848, "epoch": 2.540589983992682, "step": 33330}, {"loss": 0.060371577739715576, "token_acc": 0.9742755307608864, "grad_norm": 0.5380409359931946, "learning_rate": 4.871299675912639e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236854, "epoch": 2.5409711106029422, "step": 33335}, {"loss": 0.08260161876678467, "token_acc": 0.9674459252785668, "grad_norm": 0.9365635514259338, "learning_rate": 4.870102731771984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236862, "epoch": 2.5413522372132022, "step": 33340}, {"loss": 0.07976720333099366, "token_acc": 0.9676891615541923, "grad_norm": 1.0397971868515015, "learning_rate": 4.8689057950803343e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236873, "epoch": 2.5417333638234623, "step": 33345}, {"loss": 0.10098025798797608, "token_acc": 0.9538152610441767, "grad_norm": 2.4838805198669434, "learning_rate": 4.867708865906329e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236886, "epoch": 2.542114490433722, "step": 33350}, {"loss": 0.11523323059082032, "token_acc": 0.9676827029012119, "grad_norm": 0.7624874114990234, "learning_rate": 4.8665119443186064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236886, "epoch": 2.542495617043982, "step": 33355}, {"loss": 0.0676472544670105, "token_acc": 0.9760348583877996, "grad_norm": 0.9284722805023193, "learning_rate": 4.865315030385804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236886, "epoch": 2.542876743654242, "step": 33360}, {"loss": 0.06258687376976013, "token_acc": 0.9756049960967994, "grad_norm": 0.7425903081893921, "learning_rate": 4.86411812417656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236891, "epoch": 2.543257870264502, "step": 33365}, {"loss": 0.07466110587120056, "token_acc": 0.9699947359185822, "grad_norm": 0.6436979174613953, "learning_rate": 4.8629212257595104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236896, "epoch": 2.543638996874762, "step": 33370}, {"loss": 0.07887136936187744, "token_acc": 0.9620853080568721, "grad_norm": 0.6491569876670837, "learning_rate": 4.861724335203293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236907, "epoch": 2.544020123485022, "step": 33375}, {"loss": 0.07716236114501954, "token_acc": 0.9678779069767441, "grad_norm": 0.7132535576820374, "learning_rate": 4.8605274525765435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23691, "epoch": 2.5444012500952815, "step": 33380}, {"loss": 0.07430952787399292, "token_acc": 0.9683947248749432, "grad_norm": 0.8511771559715271, "learning_rate": 4.8593305779478954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236918, "epoch": 2.5447823767055415, "step": 33385}, {"loss": 0.09449993371963501, "token_acc": 0.9645984012181196, "grad_norm": 0.6393892765045166, "learning_rate": 4.858133711385987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236919, "epoch": 2.5451635033158015, "step": 33390}, {"loss": 0.08707157969474792, "token_acc": 0.9683009298393914, "grad_norm": 0.9555995464324951, "learning_rate": 4.856936852959453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236926, "epoch": 2.5455446299260616, "step": 33395}, {"loss": 0.10160677433013916, "token_acc": 0.9627870150435471, "grad_norm": 1.0605794191360474, "learning_rate": 4.855740002736925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236937, "epoch": 2.545925756536321, "step": 33400}, {"eval_loss": 0.08211491256952286, "eval_token_acc": 0.9645653876272514, "eval_runtime": 218.5514, "eval_samples_per_second": 2.425, "eval_steps_per_second": 2.425, "epoch": 2.545925756536321, "step": 33400}, {"loss": 0.08155235052108764, "token_acc": 0.9645719947941316, "grad_norm": 0.6244673132896423, "learning_rate": 4.85454316078704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236581, "epoch": 2.546306883146581, "step": 33405}, {"loss": 0.08855304718017579, "token_acc": 0.9702399028241725, "grad_norm": 0.7880488634109497, "learning_rate": 4.853346327178429e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23659, "epoch": 2.546688009756841, "step": 33410}, {"loss": 0.10192062854766845, "token_acc": 0.9516196886832141, "grad_norm": 1.204325795173645, "learning_rate": 4.8521495019797246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236598, "epoch": 2.547069136367101, "step": 33415}, {"loss": 0.08239102959632874, "token_acc": 0.9693574958813839, "grad_norm": 2.4195854663848877, "learning_rate": 4.8509526852595614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236604, "epoch": 2.547450262977361, "step": 33420}, {"loss": 0.10298590660095215, "token_acc": 0.9588815789473685, "grad_norm": 1.7310869693756104, "learning_rate": 4.8497558770865705e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236612, "epoch": 2.5478313895876212, "step": 33425}, {"loss": 0.0938825011253357, "token_acc": 0.9493708807669263, "grad_norm": 0.06103397533297539, "learning_rate": 4.848559077529382e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236622, "epoch": 2.548212516197881, "step": 33430}, {"loss": 0.08775216937065125, "token_acc": 0.9559623948540327, "grad_norm": 0.7581799626350403, "learning_rate": 4.847362286656627e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236634, "epoch": 2.548593642808141, "step": 33435}, {"loss": 0.1017961859703064, "token_acc": 0.9657534246575342, "grad_norm": 0.9391042590141296, "learning_rate": 4.8461655045369376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236643, "epoch": 2.548974769418401, "step": 33440}, {"loss": 0.07786097526550292, "token_acc": 0.9660706743629452, "grad_norm": 0.9612947702407837, "learning_rate": 4.8449687312389426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23665, "epoch": 2.549355896028661, "step": 33445}, {"loss": 0.08796676397323608, "token_acc": 0.9658412887828163, "grad_norm": 0.6162891387939453, "learning_rate": 4.8437719668312706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236655, "epoch": 2.5497370226389204, "step": 33450}, {"loss": 0.09662120938301086, "token_acc": 0.9647553918990005, "grad_norm": 0.988123893737793, "learning_rate": 4.8425752113825516e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23666, "epoch": 2.5501181492491805, "step": 33455}, {"loss": 0.12485998868942261, "token_acc": 0.9636215334420881, "grad_norm": 1.270635724067688, "learning_rate": 4.841378464961414e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236668, "epoch": 2.5504992758594405, "step": 33460}, {"loss": 0.03777420520782471, "token_acc": 0.9738812177674264, "grad_norm": 0.6873846650123596, "learning_rate": 4.840181727636485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236674, "epoch": 2.5508804024697005, "step": 33465}, {"loss": 0.10263659954071044, "token_acc": 0.9713574097135741, "grad_norm": 0.6051129698753357, "learning_rate": 4.838984999476391e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236682, "epoch": 2.5512615290799605, "step": 33470}, {"loss": 0.06979877352714539, "token_acc": 0.9727708961053454, "grad_norm": 0.9470630884170532, "learning_rate": 4.837788280549761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236682, "epoch": 2.5516426556902205, "step": 33475}, {"loss": 0.07424346804618835, "token_acc": 0.966411860088024, "grad_norm": 0.6842067241668701, "learning_rate": 4.8365915709252215e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236689, "epoch": 2.55202378230048, "step": 33480}, {"loss": 0.09496914744377136, "token_acc": 0.9640435262576881, "grad_norm": 0.8614187240600586, "learning_rate": 4.8353948706713967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236691, "epoch": 2.55240490891074, "step": 33485}, {"loss": 0.1354023337364197, "token_acc": 0.9382278481012658, "grad_norm": 1.8952419757843018, "learning_rate": 4.834198179856911e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2367, "epoch": 2.552786035521, "step": 33490}, {"loss": 0.10297071933746338, "token_acc": 0.9641983544585279, "grad_norm": 0.6305596232414246, "learning_rate": 4.833001498550392e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236706, "epoch": 2.55316716213126, "step": 33495}, {"loss": 0.08174842000007629, "token_acc": 0.9749226510340335, "grad_norm": 0.8222968578338623, "learning_rate": 4.831804826820462e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23671, "epoch": 2.5535482887415197, "step": 33500}, {"loss": 0.09607842564582825, "token_acc": 0.9601593625498008, "grad_norm": 0.7846235036849976, "learning_rate": 4.830608164735743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236713, "epoch": 2.5539294153517798, "step": 33505}, {"loss": 0.07423696517944336, "token_acc": 0.9716919739696313, "grad_norm": 0.5848549604415894, "learning_rate": 4.8294115123648606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236711, "epoch": 2.5543105419620398, "step": 33510}, {"loss": 0.08522294759750366, "token_acc": 0.9646941819990055, "grad_norm": 1.5587016344070435, "learning_rate": 4.828214869776437e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236716, "epoch": 2.5546916685723, "step": 33515}, {"loss": 0.08336693048477173, "token_acc": 0.9652918638719856, "grad_norm": 1.374883770942688, "learning_rate": 4.827018237039092e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236724, "epoch": 2.55507279518256, "step": 33520}, {"loss": 0.06760537624359131, "token_acc": 0.9660141966014196, "grad_norm": 0.24044804275035858, "learning_rate": 4.8258216142214496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23673, "epoch": 2.55545392179282, "step": 33525}, {"loss": 0.10059034824371338, "token_acc": 0.9557291666666666, "grad_norm": 0.538702130317688, "learning_rate": 4.8246250013921294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236742, "epoch": 2.5558350484030794, "step": 33530}, {"loss": 0.09949968457221985, "token_acc": 0.9570856379935152, "grad_norm": 0.5170353651046753, "learning_rate": 4.823428398619751e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236749, "epoch": 2.5562161750133394, "step": 33535}, {"loss": 0.1120996356010437, "token_acc": 0.9583609820836099, "grad_norm": 0.8190162181854248, "learning_rate": 4.8222318059729345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236756, "epoch": 2.5565973016235994, "step": 33540}, {"loss": 0.13419430255889891, "token_acc": 0.9571564582672167, "grad_norm": 0.9716420769691467, "learning_rate": 4.8210352235202995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236766, "epoch": 2.556978428233859, "step": 33545}, {"loss": 0.05544393062591553, "token_acc": 0.968358602504944, "grad_norm": 0.5284759998321533, "learning_rate": 4.819838651330464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236773, "epoch": 2.557359554844119, "step": 33550}, {"loss": 0.08546789288520813, "token_acc": 0.9723865877712031, "grad_norm": 0.613286018371582, "learning_rate": 4.8186420894720446e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236774, "epoch": 2.557740681454379, "step": 33555}, {"loss": 0.09444112181663514, "token_acc": 0.9647275158809763, "grad_norm": 0.8269124627113342, "learning_rate": 4.8174455380136604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236781, "epoch": 2.558121808064639, "step": 33560}, {"loss": 0.07265368700027466, "token_acc": 0.9692544196771714, "grad_norm": 0.8729132413864136, "learning_rate": 4.8162489970239285e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236791, "epoch": 2.558502934674899, "step": 33565}, {"loss": 0.08108082413673401, "token_acc": 0.9633333333333334, "grad_norm": 1.0262267589569092, "learning_rate": 4.815052466571462e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2368, "epoch": 2.558884061285159, "step": 33570}, {"loss": 0.06907997727394104, "token_acc": 0.9684456564082586, "grad_norm": 0.4291098713874817, "learning_rate": 4.813855946724879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236806, "epoch": 2.559265187895419, "step": 33575}, {"loss": 0.06109694242477417, "token_acc": 0.9668737060041408, "grad_norm": 0.8573706150054932, "learning_rate": 4.812659437552795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236815, "epoch": 2.5596463145056787, "step": 33580}, {"loss": 0.07955032587051392, "token_acc": 0.9675855028075548, "grad_norm": 0.5125099420547485, "learning_rate": 4.811462939123821e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236815, "epoch": 2.5600274411159387, "step": 33585}, {"loss": 0.12990150451660157, "token_acc": 0.946571887181839, "grad_norm": 1.281698226928711, "learning_rate": 4.810266451506574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236823, "epoch": 2.5604085677261987, "step": 33590}, {"loss": 0.1321187734603882, "token_acc": 0.956989247311828, "grad_norm": 0.7742004990577698, "learning_rate": 4.809069974769665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236828, "epoch": 2.5607896943364583, "step": 33595}, {"loss": 0.09043740034103394, "token_acc": 0.9668783250386134, "grad_norm": 0.9070193767547607, "learning_rate": 4.807873508981704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236833, "epoch": 2.5611708209467183, "step": 33600}, {"eval_loss": 0.0816020593047142, "eval_token_acc": 0.9646708029636769, "eval_runtime": 217.9084, "eval_samples_per_second": 2.432, "eval_steps_per_second": 2.432, "epoch": 2.5611708209467183, "step": 33600}, {"loss": 0.06645612716674805, "token_acc": 0.9647396927158174, "grad_norm": 0.8128228187561035, "learning_rate": 4.806677054211309e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236481, "epoch": 2.5615519475569783, "step": 33605}, {"loss": 0.08472345471382141, "token_acc": 0.9574468085106383, "grad_norm": 1.1780979633331299, "learning_rate": 4.805480610527087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236494, "epoch": 2.5619330741672384, "step": 33610}, {"loss": 0.07519138455390931, "token_acc": 0.9706596897776116, "grad_norm": 0.883957028388977, "learning_rate": 4.80428417799765e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23649, "epoch": 2.5623142007774984, "step": 33615}, {"loss": 0.12461764812469482, "token_acc": 0.9537185660781167, "grad_norm": 0.9901317954063416, "learning_rate": 4.8030877566916073e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236499, "epoch": 2.5626953273877584, "step": 33620}, {"loss": 0.054832732677459715, "token_acc": 0.9767441860465116, "grad_norm": 0.7721173167228699, "learning_rate": 4.8018913466775663e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236506, "epoch": 2.563076453998018, "step": 33625}, {"loss": 0.05779210329055786, "token_acc": 0.9698275862068966, "grad_norm": 1.161210298538208, "learning_rate": 4.8006949480241386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236514, "epoch": 2.563457580608278, "step": 33630}, {"loss": 0.07993063926696778, "token_acc": 0.9707413835854203, "grad_norm": 0.5758131146430969, "learning_rate": 4.799498560799931e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236523, "epoch": 2.563838707218538, "step": 33635}, {"loss": 0.11013473272323608, "token_acc": 0.9503612943763745, "grad_norm": 1.2821311950683594, "learning_rate": 4.7983021850735506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236533, "epoch": 2.564219833828798, "step": 33640}, {"loss": 0.07046456933021546, "token_acc": 0.9645152995628696, "grad_norm": 0.6820307970046997, "learning_rate": 4.797105820913602e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236541, "epoch": 2.5646009604390576, "step": 33645}, {"loss": 0.058859622478485106, "token_acc": 0.977808923148797, "grad_norm": 0.7819390892982483, "learning_rate": 4.795909468388695e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236541, "epoch": 2.5649820870493176, "step": 33650}, {"loss": 0.136098051071167, "token_acc": 0.956744305093422, "grad_norm": 1.3476794958114624, "learning_rate": 4.7947131275674325e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236549, "epoch": 2.5653632136595776, "step": 33655}, {"loss": 0.0974457859992981, "token_acc": 0.9627249357326478, "grad_norm": 0.7969303727149963, "learning_rate": 4.793516798518418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236557, "epoch": 2.5657443402698377, "step": 33660}, {"loss": 0.07500631809234619, "token_acc": 0.9696492805755396, "grad_norm": 1.2593172788619995, "learning_rate": 4.792320481310259e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236566, "epoch": 2.5661254668800977, "step": 33665}, {"loss": 0.09069485664367676, "token_acc": 0.9606525911708254, "grad_norm": 0.9430801272392273, "learning_rate": 4.791124176011556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236575, "epoch": 2.5665065934903577, "step": 33670}, {"loss": 0.0647216260433197, "token_acc": 0.9731534288496314, "grad_norm": 0.5406455397605896, "learning_rate": 4.789927882690911e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236576, "epoch": 2.5668877201006173, "step": 33675}, {"loss": 0.11939506530761719, "token_acc": 0.9607751575998132, "grad_norm": 1.2473437786102295, "learning_rate": 4.7887316014169284e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236585, "epoch": 2.5672688467108773, "step": 33680}, {"loss": 0.05691378116607666, "token_acc": 0.9744813961145867, "grad_norm": 0.6951276063919067, "learning_rate": 4.787535332258209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236591, "epoch": 2.5676499733211373, "step": 33685}, {"loss": 0.1023928165435791, "token_acc": 0.9609745579991376, "grad_norm": 0.9069197177886963, "learning_rate": 4.786339075283349e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236599, "epoch": 2.5680310999313973, "step": 33690}, {"loss": 0.07926180362701415, "token_acc": 0.9649344096871847, "grad_norm": 0.7306497693061829, "learning_rate": 4.785142830560954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236608, "epoch": 2.568412226541657, "step": 33695}, {"loss": 0.09403859376907349, "token_acc": 0.9664646464646465, "grad_norm": 0.7546234130859375, "learning_rate": 4.783946598159621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236619, "epoch": 2.568793353151917, "step": 33700}, {"loss": 0.0779864490032196, "token_acc": 0.9661495063469676, "grad_norm": 0.5300365686416626, "learning_rate": 4.782750378147947e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236628, "epoch": 2.569174479762177, "step": 33705}, {"loss": 0.1019016981124878, "token_acc": 0.9743051914001049, "grad_norm": 0.8069491982460022, "learning_rate": 4.781554170594531e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236635, "epoch": 2.569555606372437, "step": 33710}, {"loss": 0.07748110294342041, "token_acc": 0.969002201027146, "grad_norm": 0.8162585496902466, "learning_rate": 4.780357975567969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236642, "epoch": 2.569936732982697, "step": 33715}, {"loss": 0.11620439291000366, "token_acc": 0.961318407960199, "grad_norm": 0.4098800718784332, "learning_rate": 4.779161793136859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236646, "epoch": 2.570317859592957, "step": 33720}, {"loss": 0.09769705533981324, "token_acc": 0.9570537981990302, "grad_norm": 1.5975258350372314, "learning_rate": 4.7779656233697934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236654, "epoch": 2.5706989862032166, "step": 33725}, {"loss": 0.10105082988739014, "token_acc": 0.9581847649918963, "grad_norm": 0.7343229055404663, "learning_rate": 4.77676946633537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236659, "epoch": 2.5710801128134766, "step": 33730}, {"loss": 0.06251505613327027, "token_acc": 0.9619796091758709, "grad_norm": 1.2869561910629272, "learning_rate": 4.77557332210218e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236667, "epoch": 2.5714612394237366, "step": 33735}, {"loss": 0.0996316134929657, "token_acc": 0.9511354420113545, "grad_norm": 0.9730122685432434, "learning_rate": 4.7743771907388215e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236674, "epoch": 2.5718423660339966, "step": 33740}, {"loss": 0.06243879199028015, "token_acc": 0.9706390328151986, "grad_norm": 1.0387439727783203, "learning_rate": 4.773181072313883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236684, "epoch": 2.572223492644256, "step": 33745}, {"loss": 0.09206275343894958, "token_acc": 0.96468330134357, "grad_norm": 0.6113041043281555, "learning_rate": 4.771984966895957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236689, "epoch": 2.5726046192545162, "step": 33750}, {"loss": 0.05328338742256165, "token_acc": 0.9793628531356442, "grad_norm": 0.6980882883071899, "learning_rate": 4.7707888745536355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236694, "epoch": 2.5729857458647762, "step": 33755}, {"loss": 0.04082399010658264, "token_acc": 0.9796593352075409, "grad_norm": 0.49913209676742554, "learning_rate": 4.7695927953555085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2367, "epoch": 2.5733668724750363, "step": 33760}, {"loss": 0.12803636789321898, "token_acc": 0.9585960129493951, "grad_norm": 2.7099111080169678, "learning_rate": 4.768396729370165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236705, "epoch": 2.5737479990852963, "step": 33765}, {"loss": 0.06688524484634399, "token_acc": 0.9710306406685236, "grad_norm": 0.996671736240387, "learning_rate": 4.7672006766661945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236714, "epoch": 2.5741291256955563, "step": 33770}, {"loss": 0.09164313077926636, "token_acc": 0.9573152781866353, "grad_norm": 1.3469046354293823, "learning_rate": 4.7660046373121856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236719, "epoch": 2.574510252305816, "step": 33775}, {"loss": 0.1119532585144043, "token_acc": 0.9561752988047809, "grad_norm": 1.5829466581344604, "learning_rate": 4.7648086113767235e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236726, "epoch": 2.574891378916076, "step": 33780}, {"loss": 0.06549522280693054, "token_acc": 0.9716684155299056, "grad_norm": 1.006494164466858, "learning_rate": 4.763612598928397e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236732, "epoch": 2.575272505526336, "step": 33785}, {"loss": 0.07857672572135925, "token_acc": 0.9698446542796223, "grad_norm": 0.7849476933479309, "learning_rate": 4.762416600035791e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23674, "epoch": 2.575653632136596, "step": 33790}, {"loss": 0.1249001145362854, "token_acc": 0.9456478928712091, "grad_norm": 1.603631854057312, "learning_rate": 4.7612206147674896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236747, "epoch": 2.5760347587468555, "step": 33795}, {"loss": 0.08458157777786254, "token_acc": 0.9757952973720608, "grad_norm": 0.8279714584350586, "learning_rate": 4.760024643192079e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236753, "epoch": 2.5764158853571155, "step": 33800}, {"eval_loss": 0.08176679164171219, "eval_token_acc": 0.9646030359616891, "eval_runtime": 215.3403, "eval_samples_per_second": 2.461, "eval_steps_per_second": 2.461, "epoch": 2.5764158853571155, "step": 33800}, {"loss": 0.12198359966278076, "token_acc": 0.9641474547870804, "grad_norm": 0.930053174495697, "learning_rate": 4.7588286853781416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236403, "epoch": 2.5767970119673755, "step": 33805}, {"loss": 0.09420689940452576, "token_acc": 0.9687130052426856, "grad_norm": 0.646510899066925, "learning_rate": 4.75763274139426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236408, "epoch": 2.5771781385776356, "step": 33810}, {"loss": 0.09182687401771546, "token_acc": 0.9671465968586388, "grad_norm": 0.6364647150039673, "learning_rate": 4.756436811309014e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236413, "epoch": 2.5775592651878956, "step": 33815}, {"loss": 0.06027455329895019, "token_acc": 0.9749351771823682, "grad_norm": 0.7364826202392578, "learning_rate": 4.755240895190989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236425, "epoch": 2.5779403917981556, "step": 33820}, {"loss": 0.09123446941375732, "token_acc": 0.9706484641638226, "grad_norm": 1.3709372282028198, "learning_rate": 4.7540449931087615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236432, "epoch": 2.578321518408415, "step": 33825}, {"loss": 0.09112793207168579, "token_acc": 0.9667121884602253, "grad_norm": 1.148686170578003, "learning_rate": 4.752849105130912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236439, "epoch": 2.578702645018675, "step": 33830}, {"loss": 0.07172578573226929, "token_acc": 0.973458667403926, "grad_norm": 1.0731024742126465, "learning_rate": 4.7516532313260206e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236442, "epoch": 2.579083771628935, "step": 33835}, {"loss": 0.08957872390747071, "token_acc": 0.9698054474708171, "grad_norm": 0.6122640371322632, "learning_rate": 4.7504573717626634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236446, "epoch": 2.5794648982391952, "step": 33840}, {"loss": 0.10790429115295411, "token_acc": 0.958005249343832, "grad_norm": 1.6825331449508667, "learning_rate": 4.749261526509417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236455, "epoch": 2.579846024849455, "step": 33845}, {"loss": 0.09846560955047608, "token_acc": 0.9565010319098269, "grad_norm": 0.9899312853813171, "learning_rate": 4.7480656956348594e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23646, "epoch": 2.580227151459715, "step": 33850}, {"loss": 0.07196462750434876, "token_acc": 0.9754135002235136, "grad_norm": 0.3949052393436432, "learning_rate": 4.746869879207566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236464, "epoch": 2.580608278069975, "step": 33855}, {"loss": 0.08135765194892883, "token_acc": 0.967979002624672, "grad_norm": 0.6894046068191528, "learning_rate": 4.745674077296109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23647, "epoch": 2.580989404680235, "step": 33860}, {"loss": 0.07030567526817322, "token_acc": 0.9694897422409259, "grad_norm": 1.2190715074539185, "learning_rate": 4.7444782899690635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236482, "epoch": 2.581370531290495, "step": 33865}, {"loss": 0.07832826375961303, "token_acc": 0.963064584212748, "grad_norm": 0.7777606844902039, "learning_rate": 4.743282517295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236491, "epoch": 2.581751657900755, "step": 33870}, {"loss": 0.06766526699066162, "token_acc": 0.973505853357979, "grad_norm": 0.735948920249939, "learning_rate": 4.742086759342496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236486, "epoch": 2.5821327845110145, "step": 33875}, {"loss": 0.0898415744304657, "token_acc": 0.9646126520016396, "grad_norm": 0.6310897469520569, "learning_rate": 4.740891016180119e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236488, "epoch": 2.5825139111212745, "step": 33880}, {"loss": 0.07887614965438842, "token_acc": 0.9557838320678874, "grad_norm": 1.298627257347107, "learning_rate": 4.739695287876439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2365, "epoch": 2.5828950377315345, "step": 33885}, {"loss": 0.05766052007675171, "token_acc": 0.97771124417831, "grad_norm": 0.655427873134613, "learning_rate": 4.7384995745000274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236505, "epoch": 2.583276164341794, "step": 33890}, {"loss": 0.06853293180465699, "token_acc": 0.9732635060639471, "grad_norm": 0.07144086807966232, "learning_rate": 4.737303876119452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236514, "epoch": 2.583657290952054, "step": 33895}, {"loss": 0.0999443531036377, "token_acc": 0.9604875998318622, "grad_norm": 0.7946116328239441, "learning_rate": 4.736108192803278e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23652, "epoch": 2.584038417562314, "step": 33900}, {"loss": 0.0689189076423645, "token_acc": 0.9728395061728395, "grad_norm": 0.9583191275596619, "learning_rate": 4.7349125246200764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236533, "epoch": 2.584419544172574, "step": 33905}, {"loss": 0.0747263789176941, "token_acc": 0.9644519678374948, "grad_norm": 1.0344456434249878, "learning_rate": 4.7337168716384116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236544, "epoch": 2.584800670782834, "step": 33910}, {"loss": 0.07923012375831603, "token_acc": 0.9615674453654861, "grad_norm": 0.7092944383621216, "learning_rate": 4.7325212339268474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236549, "epoch": 2.585181797393094, "step": 33915}, {"loss": 0.131829571723938, "token_acc": 0.9617667597765364, "grad_norm": 0.9079461097717285, "learning_rate": 4.7313256115539495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236556, "epoch": 2.585562924003354, "step": 33920}, {"loss": 0.12849587202072144, "token_acc": 0.9636678200692042, "grad_norm": 0.6713945865631104, "learning_rate": 4.730130004588282e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236562, "epoch": 2.5859440506136138, "step": 33925}, {"loss": 0.08038285970687867, "token_acc": 0.9719534732036091, "grad_norm": 1.377274751663208, "learning_rate": 4.728934413098405e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236565, "epoch": 2.586325177223874, "step": 33930}, {"loss": 0.07744968533515931, "token_acc": 0.9686815593517302, "grad_norm": 0.7679956555366516, "learning_rate": 4.727738837152882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236573, "epoch": 2.586706303834134, "step": 33935}, {"loss": 0.09478347301483155, "token_acc": 0.9586449626044875, "grad_norm": 1.3349090814590454, "learning_rate": 4.726543276820273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236581, "epoch": 2.5870874304443934, "step": 33940}, {"loss": 0.07638683319091796, "token_acc": 0.9700149925037481, "grad_norm": 1.4836622476577759, "learning_rate": 4.725347732169139e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23659, "epoch": 2.5874685570546534, "step": 33945}, {"loss": 0.10199128389358521, "token_acc": 0.958287249170485, "grad_norm": 1.7623060941696167, "learning_rate": 4.7241522032680366e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236597, "epoch": 2.5878496836649134, "step": 33950}, {"loss": 0.08000107407569886, "token_acc": 0.9671862182116489, "grad_norm": 0.7934370040893555, "learning_rate": 4.7229566901855264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2366, "epoch": 2.5882308102751734, "step": 33955}, {"loss": 0.09526806473731994, "token_acc": 0.96590761223162, "grad_norm": 0.8853175044059753, "learning_rate": 4.721761192990165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236604, "epoch": 2.5886119368854335, "step": 33960}, {"loss": 0.08847002387046814, "token_acc": 0.9604708362614195, "grad_norm": 1.670579195022583, "learning_rate": 4.7205657117505056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236612, "epoch": 2.5889930634956935, "step": 33965}, {"loss": 0.07580370903015136, "token_acc": 0.9637305699481865, "grad_norm": 1.0070867538452148, "learning_rate": 4.719370246535107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23662, "epoch": 2.589374190105953, "step": 33970}, {"loss": 0.08596599698066712, "token_acc": 0.9657534246575342, "grad_norm": 1.007646918296814, "learning_rate": 4.718174797412523e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236629, "epoch": 2.589755316716213, "step": 33975}, {"loss": 0.10353718996047974, "token_acc": 0.9624230644638808, "grad_norm": 1.1688297986984253, "learning_rate": 4.716979364451307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236638, "epoch": 2.590136443326473, "step": 33980}, {"loss": 0.08620396852493287, "token_acc": 0.9678846883297509, "grad_norm": 0.5601897239685059, "learning_rate": 4.71578394772001e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236641, "epoch": 2.590517569936733, "step": 33985}, {"loss": 0.1362424373626709, "token_acc": 0.9486543233441497, "grad_norm": 0.8004137873649597, "learning_rate": 4.7145885472871855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236645, "epoch": 2.5908986965469927, "step": 33990}, {"loss": 0.09784333109855652, "token_acc": 0.9658884172225591, "grad_norm": 0.7461467981338501, "learning_rate": 4.713393163221383e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236649, "epoch": 2.5912798231572527, "step": 33995}, {"loss": 0.08269661664962769, "token_acc": 0.9646071515446364, "grad_norm": 0.62941974401474, "learning_rate": 4.712197795591151e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236651, "epoch": 2.5916609497675127, "step": 34000}, {"eval_loss": 0.07932724803686142, "eval_token_acc": 0.9654312993193181, "eval_runtime": 216.8181, "eval_samples_per_second": 2.444, "eval_steps_per_second": 2.444, "epoch": 2.5916609497675127, "step": 34000}, {"loss": 0.09640024304389953, "token_acc": 0.965474959373615, "grad_norm": 0.721224844455719, "learning_rate": 4.71100244446504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236303, "epoch": 2.5920420763777727, "step": 34005}, {"loss": 0.06655012965202331, "token_acc": 0.9638339920948616, "grad_norm": 0.8289339542388916, "learning_rate": 4.7098071099116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236308, "epoch": 2.5924232029880327, "step": 34010}, {"loss": 0.09038561582565308, "token_acc": 0.9700520833333334, "grad_norm": 0.7720751166343689, "learning_rate": 4.7086117919993746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236312, "epoch": 2.5928043295982928, "step": 34015}, {"loss": 0.09396907687187195, "token_acc": 0.9642210144927537, "grad_norm": 0.9583210945129395, "learning_rate": 4.70741649079691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236318, "epoch": 2.5931854562085523, "step": 34020}, {"loss": 0.07941424250602722, "token_acc": 0.9647732276530163, "grad_norm": 0.8889279365539551, "learning_rate": 4.706221206372753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236325, "epoch": 2.5935665828188124, "step": 34025}, {"loss": 0.09041731357574463, "token_acc": 0.9669894366197183, "grad_norm": 1.2236301898956299, "learning_rate": 4.7050259387954466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236331, "epoch": 2.5939477094290724, "step": 34030}, {"loss": 0.12461872100830078, "token_acc": 0.9614762058918744, "grad_norm": 0.6097456216812134, "learning_rate": 4.703830688133534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23634, "epoch": 2.5943288360393324, "step": 34035}, {"loss": 0.06718681454658508, "token_acc": 0.9681686647374949, "grad_norm": 0.7389066219329834, "learning_rate": 4.702635454455555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236344, "epoch": 2.594709962649592, "step": 34040}, {"loss": 0.08666484355926514, "token_acc": 0.9756372659598466, "grad_norm": 1.731662392616272, "learning_rate": 4.701440237830055e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23635, "epoch": 2.595091089259852, "step": 34045}, {"loss": 0.0789783775806427, "token_acc": 0.9643734643734644, "grad_norm": 0.5735782980918884, "learning_rate": 4.700245038325571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236353, "epoch": 2.595472215870112, "step": 34050}, {"loss": 0.12437083721160888, "token_acc": 0.947808764940239, "grad_norm": 0.7593801617622375, "learning_rate": 4.699049856010642e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236364, "epoch": 2.595853342480372, "step": 34055}, {"loss": 0.10753762722015381, "token_acc": 0.9555898226676947, "grad_norm": 1.0809094905853271, "learning_rate": 4.697854690953809e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236368, "epoch": 2.596234469090632, "step": 34060}, {"loss": 0.071216881275177, "token_acc": 0.9752042007001167, "grad_norm": 1.0418771505355835, "learning_rate": 4.6966595432236066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236378, "epoch": 2.596615595700892, "step": 34065}, {"loss": 0.09296025633811951, "token_acc": 0.9615834633385335, "grad_norm": 0.8582795262336731, "learning_rate": 4.695464412888571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236386, "epoch": 2.5969967223111516, "step": 34070}, {"loss": 0.1090484619140625, "token_acc": 0.9610413935193857, "grad_norm": 0.9182913303375244, "learning_rate": 4.694269300017239e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236392, "epoch": 2.5973778489214117, "step": 34075}, {"loss": 0.09550970792770386, "token_acc": 0.9670781893004116, "grad_norm": 0.5515517592430115, "learning_rate": 4.693074204678144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2364, "epoch": 2.5977589755316717, "step": 34080}, {"loss": 0.06814967393875122, "token_acc": 0.9737440562332024, "grad_norm": 0.982452392578125, "learning_rate": 4.6918791269398176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236408, "epoch": 2.5981401021419317, "step": 34085}, {"loss": 0.09271828532218933, "token_acc": 0.9676825526692575, "grad_norm": 1.2840639352798462, "learning_rate": 4.6906840668707954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236413, "epoch": 2.5985212287521913, "step": 34090}, {"loss": 0.06382675766944886, "token_acc": 0.9740885808978608, "grad_norm": 1.064578652381897, "learning_rate": 4.689489024539605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236424, "epoch": 2.5989023553624513, "step": 34095}, {"loss": 0.07332289218902588, "token_acc": 0.9697160883280758, "grad_norm": 1.1126813888549805, "learning_rate": 4.68829400001478e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236436, "epoch": 2.5992834819727113, "step": 34100}, {"loss": 0.08412699699401856, "token_acc": 0.9709972189114024, "grad_norm": 2.0775439739227295, "learning_rate": 4.687098993364845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236448, "epoch": 2.5996646085829713, "step": 34105}, {"loss": 0.049913495779037476, "token_acc": 0.9776476849387973, "grad_norm": 0.6218855381011963, "learning_rate": 4.685904004658333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236454, "epoch": 2.6000457351932313, "step": 34110}, {"loss": 0.10951352119445801, "token_acc": 0.9625977558653519, "grad_norm": 1.2839341163635254, "learning_rate": 4.684709033963768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236461, "epoch": 2.6004268618034914, "step": 34115}, {"loss": 0.10197027921676635, "token_acc": 0.9588928922371438, "grad_norm": 1.1918044090270996, "learning_rate": 4.6835140813496756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236469, "epoch": 2.600807988413751, "step": 34120}, {"loss": 0.049181267619132996, "token_acc": 0.9732910819375283, "grad_norm": 0.5429685115814209, "learning_rate": 4.682319146884583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236479, "epoch": 2.601189115024011, "step": 34125}, {"loss": 0.06147398948669434, "token_acc": 0.9713966123362097, "grad_norm": 0.6397847533226013, "learning_rate": 4.681124230637014e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236482, "epoch": 2.601570241634271, "step": 34130}, {"loss": 0.055589312314987184, "token_acc": 0.9698383084577115, "grad_norm": 1.107353925704956, "learning_rate": 4.679929332675488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23649, "epoch": 2.601951368244531, "step": 34135}, {"loss": 0.14241528511047363, "token_acc": 0.938179888564606, "grad_norm": 1.1172703504562378, "learning_rate": 4.678734453068531e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236499, "epoch": 2.6023324948547906, "step": 34140}, {"loss": 0.07070747613906861, "token_acc": 0.9689644416718652, "grad_norm": 0.479903906583786, "learning_rate": 4.6775395918846615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236503, "epoch": 2.6027136214650506, "step": 34145}, {"loss": 0.11165710687637329, "token_acc": 0.9578863726658721, "grad_norm": 1.0528767108917236, "learning_rate": 4.676344749192401e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236514, "epoch": 2.6030947480753106, "step": 34150}, {"loss": 0.05879241824150085, "token_acc": 0.9746740596433389, "grad_norm": 0.9184074401855469, "learning_rate": 4.675149925060268e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236518, "epoch": 2.6034758746855706, "step": 34155}, {"loss": 0.08034753799438477, "token_acc": 0.964819033156163, "grad_norm": 1.0138955116271973, "learning_rate": 4.673955119556778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236527, "epoch": 2.6038570012958306, "step": 34160}, {"loss": 0.11882693767547607, "token_acc": 0.9565393988627132, "grad_norm": 0.942582368850708, "learning_rate": 4.672760332750449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236535, "epoch": 2.6042381279060907, "step": 34165}, {"loss": 0.07874206304550171, "token_acc": 0.967147575178168, "grad_norm": 0.8357480764389038, "learning_rate": 4.671565564709797e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23654, "epoch": 2.6046192545163502, "step": 34170}, {"loss": 0.079747474193573, "token_acc": 0.9684882329477463, "grad_norm": 0.4317990243434906, "learning_rate": 4.670370815503334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236549, "epoch": 2.6050003811266103, "step": 34175}, {"loss": 0.08705169558525086, "token_acc": 0.9692724807953005, "grad_norm": 1.011272668838501, "learning_rate": 4.669176085199578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236552, "epoch": 2.6053815077368703, "step": 34180}, {"loss": 0.07391495704650879, "token_acc": 0.9688715953307393, "grad_norm": 0.8848428130149841, "learning_rate": 4.6679813738670364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236561, "epoch": 2.60576263434713, "step": 34185}, {"loss": 0.05986350178718567, "token_acc": 0.9752475247524752, "grad_norm": 0.760168731212616, "learning_rate": 4.6667866815742216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236561, "epoch": 2.60614376095739, "step": 34190}, {"loss": 0.09228652715682983, "token_acc": 0.9695381591876843, "grad_norm": 1.9547309875488281, "learning_rate": 4.6655920083896455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236571, "epoch": 2.60652488756765, "step": 34195}, {"loss": 0.07325916290283203, "token_acc": 0.9658072773816054, "grad_norm": 0.6332152485847473, "learning_rate": 4.6643973543818166e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236577, "epoch": 2.60690601417791, "step": 34200}, {"eval_loss": 0.07826592773199081, "eval_token_acc": 0.9656195409915065, "eval_runtime": 219.994, "eval_samples_per_second": 2.409, "eval_steps_per_second": 2.409, "epoch": 2.60690601417791, "step": 34200}, {"loss": 0.1078346848487854, "token_acc": 0.9655729874710659, "grad_norm": 2.0419859886169434, "learning_rate": 4.6632027196192404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236227, "epoch": 2.60728714078817, "step": 34205}, {"loss": 0.07571849822998047, "token_acc": 0.9690079164561226, "grad_norm": 0.9725856184959412, "learning_rate": 4.6620081041704256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236232, "epoch": 2.60766826739843, "step": 34210}, {"loss": 0.10436105728149414, "token_acc": 0.9638102623755977, "grad_norm": 0.5028820633888245, "learning_rate": 4.660813508103879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236235, "epoch": 2.60804939400869, "step": 34215}, {"loss": 0.10353643894195556, "token_acc": 0.9608872555453472, "grad_norm": 1.1707018613815308, "learning_rate": 4.6596189314881025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236236, "epoch": 2.6084305206189495, "step": 34220}, {"loss": 0.12903823852539062, "token_acc": 0.9620152993932999, "grad_norm": 1.5673580169677734, "learning_rate": 4.6584243743916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236245, "epoch": 2.6088116472292096, "step": 34225}, {"loss": 0.10350924730300903, "token_acc": 0.9681528662420382, "grad_norm": 0.8953158855438232, "learning_rate": 4.6572298368828756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236249, "epoch": 2.6091927738394696, "step": 34230}, {"loss": 0.14158824682235718, "token_acc": 0.9587194608256108, "grad_norm": 2.281813144683838, "learning_rate": 4.6560353190304295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236257, "epoch": 2.609573900449729, "step": 34235}, {"loss": 0.09629364609718323, "token_acc": 0.9737075857168236, "grad_norm": 0.7127488255500793, "learning_rate": 4.6548408209027604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236262, "epoch": 2.609955027059989, "step": 34240}, {"loss": 0.10234858989715576, "token_acc": 0.9632252792154726, "grad_norm": 1.2858225107192993, "learning_rate": 4.65364634256837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236271, "epoch": 2.610336153670249, "step": 34245}, {"loss": 0.07174274921417237, "token_acc": 0.9766204675906481, "grad_norm": 0.5620526671409607, "learning_rate": 4.652451884095754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236276, "epoch": 2.610717280280509, "step": 34250}, {"loss": 0.098134446144104, "token_acc": 0.9655744504355039, "grad_norm": 0.612727701663971, "learning_rate": 4.651257445553409e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236279, "epoch": 2.611098406890769, "step": 34255}, {"loss": 0.09175491333007812, "token_acc": 0.9687647151153665, "grad_norm": 1.245408535003662, "learning_rate": 4.6500630270098324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236283, "epoch": 2.6114795335010292, "step": 34260}, {"loss": 0.06942033767700195, "token_acc": 0.9719435154217763, "grad_norm": 1.2608333826065063, "learning_rate": 4.648868628533517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236289, "epoch": 2.611860660111289, "step": 34265}, {"loss": 0.09777196049690247, "token_acc": 0.9512699350265801, "grad_norm": 0.10658451914787292, "learning_rate": 4.6476742501929536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236298, "epoch": 2.612241786721549, "step": 34270}, {"loss": 0.06456367373466491, "token_acc": 0.9778663125276671, "grad_norm": 1.457679033279419, "learning_rate": 4.64647989205664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236304, "epoch": 2.612622913331809, "step": 34275}, {"loss": 0.0771110475063324, "token_acc": 0.9781893716461831, "grad_norm": 0.9247164130210876, "learning_rate": 4.645285554193063e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236308, "epoch": 2.613004039942069, "step": 34280}, {"loss": 0.09944462776184082, "token_acc": 0.9634343434343434, "grad_norm": 1.0543620586395264, "learning_rate": 4.644091236670714e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236314, "epoch": 2.6133851665523284, "step": 34285}, {"loss": 0.05566803216934204, "token_acc": 0.9765702891326022, "grad_norm": 0.7869449853897095, "learning_rate": 4.6428969395580806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236323, "epoch": 2.6137662931625885, "step": 34290}, {"loss": 0.0813014566898346, "token_acc": 0.9644549763033176, "grad_norm": 0.6862897872924805, "learning_rate": 4.64170266292365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23633, "epoch": 2.6141474197728485, "step": 34295}, {"loss": 0.10632283687591552, "token_acc": 0.9444816053511705, "grad_norm": 1.1799038648605347, "learning_rate": 4.64050840683591e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236341, "epoch": 2.6145285463831085, "step": 34300}, {"loss": 0.08166947364807128, "token_acc": 0.9670388091440723, "grad_norm": 0.7651465535163879, "learning_rate": 4.639314171363345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236344, "epoch": 2.6149096729933685, "step": 34305}, {"loss": 0.08617087006568909, "token_acc": 0.9631986027944112, "grad_norm": 0.7753387093544006, "learning_rate": 4.6381199565744384e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236345, "epoch": 2.6152907996036285, "step": 34310}, {"loss": 0.0615780770778656, "token_acc": 0.9754108488817497, "grad_norm": 0.48653778433799744, "learning_rate": 4.636925762537671e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236343, "epoch": 2.615671926213888, "step": 34315}, {"loss": 0.08526462316513062, "token_acc": 0.9729839528742636, "grad_norm": 0.7974960207939148, "learning_rate": 4.635731589321528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236348, "epoch": 2.616053052824148, "step": 34320}, {"loss": 0.0655815064907074, "token_acc": 0.9673704414587332, "grad_norm": 0.8235100507736206, "learning_rate": 4.634537436994488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236358, "epoch": 2.616434179434408, "step": 34325}, {"loss": 0.0683695912361145, "token_acc": 0.968528553563985, "grad_norm": 0.983639657497406, "learning_rate": 4.633343305625029e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236365, "epoch": 2.616815306044668, "step": 34330}, {"loss": 0.07709214687347413, "token_acc": 0.9675601374570447, "grad_norm": 0.7712479829788208, "learning_rate": 4.6321491952816306e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236369, "epoch": 2.6171964326549277, "step": 34335}, {"loss": 0.10948750972747803, "token_acc": 0.9647239263803681, "grad_norm": 0.6983458399772644, "learning_rate": 4.6309551060327686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236375, "epoch": 2.6175775592651878, "step": 34340}, {"loss": 0.09112035036087036, "token_acc": 0.9557222356641665, "grad_norm": 1.4490485191345215, "learning_rate": 4.6297610379469184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236382, "epoch": 2.6179586858754478, "step": 34345}, {"loss": 0.07221097350120545, "token_acc": 0.9737195759295206, "grad_norm": 0.7367695569992065, "learning_rate": 4.6285669910925555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236387, "epoch": 2.618339812485708, "step": 34350}, {"loss": 0.09764638543128967, "token_acc": 0.9698052322231185, "grad_norm": 1.4930578470230103, "learning_rate": 4.6273729655381514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236389, "epoch": 2.618720939095968, "step": 34355}, {"loss": 0.08748858571052551, "token_acc": 0.9633484162895928, "grad_norm": 2.204122543334961, "learning_rate": 4.626178961352178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236397, "epoch": 2.619102065706228, "step": 34360}, {"loss": 0.08757224082946777, "token_acc": 0.9719454640797064, "grad_norm": 1.1176056861877441, "learning_rate": 4.624984978603108e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236405, "epoch": 2.6194831923164874, "step": 34365}, {"loss": 0.0635875105857849, "token_acc": 0.9740003586157432, "grad_norm": 0.5771187543869019, "learning_rate": 4.623791017359408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236413, "epoch": 2.6198643189267474, "step": 34370}, {"loss": 0.0915436565876007, "token_acc": 0.9587258860475549, "grad_norm": 0.8891420364379883, "learning_rate": 4.622597077689548e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23642, "epoch": 2.6202454455370074, "step": 34375}, {"loss": 0.08667811155319213, "token_acc": 0.9635809113742375, "grad_norm": 0.8134907484054565, "learning_rate": 4.621403159661993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236425, "epoch": 2.6206265721472675, "step": 34380}, {"loss": 0.06328303813934326, "token_acc": 0.9718939635899074, "grad_norm": 0.9435305595397949, "learning_rate": 4.620209263345211e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236435, "epoch": 2.621007698757527, "step": 34385}, {"loss": 0.10097131729125977, "token_acc": 0.9589855979962429, "grad_norm": 1.4771685600280762, "learning_rate": 4.619015388807665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236439, "epoch": 2.621388825367787, "step": 34390}, {"loss": 0.10863854885101318, "token_acc": 0.9614181438998958, "grad_norm": 0.770915150642395, "learning_rate": 4.617821536117818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236447, "epoch": 2.621769951978047, "step": 34395}, {"loss": 0.06730060577392578, "token_acc": 0.97227385377943, "grad_norm": 0.6036670207977295, "learning_rate": 4.6166277053441324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236449, "epoch": 2.622151078588307, "step": 34400}, {"eval_loss": 0.07841651886701584, "eval_token_acc": 0.965612011324619, "eval_runtime": 221.542, "eval_samples_per_second": 2.392, "eval_steps_per_second": 2.392, "epoch": 2.622151078588307, "step": 34400}, {"loss": 0.07920050024986267, "token_acc": 0.9656754962001033, "grad_norm": 1.0552517175674438, "learning_rate": 4.6154338965550675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236101, "epoch": 2.622532205198567, "step": 34405}, {"loss": 0.09569973349571229, "token_acc": 0.9692712906057945, "grad_norm": 0.8265538811683655, "learning_rate": 4.614240109819086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236107, "epoch": 2.622913331808827, "step": 34410}, {"loss": 0.08906965851783752, "token_acc": 0.9592048401037165, "grad_norm": 0.9442800283432007, "learning_rate": 4.6130463452046434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236113, "epoch": 2.6232944584190867, "step": 34415}, {"loss": 0.1175311803817749, "token_acc": 0.9656293543892244, "grad_norm": 0.81524258852005, "learning_rate": 4.611852602780198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236121, "epoch": 2.6236755850293467, "step": 34420}, {"loss": 0.07521740198135377, "token_acc": 0.9692671394799054, "grad_norm": 0.35128647089004517, "learning_rate": 4.610658882614204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23613, "epoch": 2.6240567116396067, "step": 34425}, {"loss": 0.07586504220962524, "token_acc": 0.9737335834896811, "grad_norm": 0.818597674369812, "learning_rate": 4.6094651847751174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236142, "epoch": 2.6244378382498668, "step": 34430}, {"loss": 0.07701766490936279, "token_acc": 0.9679613117727066, "grad_norm": 0.611804723739624, "learning_rate": 4.6082715093313886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236147, "epoch": 2.6248189648601263, "step": 34435}, {"loss": 0.08279744982719421, "token_acc": 0.9711340206185567, "grad_norm": 0.6534541249275208, "learning_rate": 4.6070778563514715e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236154, "epoch": 2.6252000914703864, "step": 34440}, {"loss": 0.10027914047241211, "token_acc": 0.9603927986906711, "grad_norm": 1.4544756412506104, "learning_rate": 4.605884225903817e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236165, "epoch": 2.6255812180806464, "step": 34445}, {"loss": 0.09477045536041259, "token_acc": 0.9606537530266344, "grad_norm": 0.6570330858230591, "learning_rate": 4.604690618056871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236174, "epoch": 2.6259623446909064, "step": 34450}, {"loss": 0.12491008043289184, "token_acc": 0.9294392523364486, "grad_norm": 1.2199070453643799, "learning_rate": 4.6034970328790855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236186, "epoch": 2.6263434713011664, "step": 34455}, {"loss": 0.11044152975082397, "token_acc": 0.9571013087736306, "grad_norm": 1.0403878688812256, "learning_rate": 4.602303470438905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236193, "epoch": 2.6267245979114264, "step": 34460}, {"loss": 0.09239108562469482, "token_acc": 0.9684952632738488, "grad_norm": 0.9080274105072021, "learning_rate": 4.601109930804773e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2362, "epoch": 2.627105724521686, "step": 34465}, {"loss": 0.07672637701034546, "token_acc": 0.9695885509838998, "grad_norm": 0.6978354454040527, "learning_rate": 4.599916414045138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23621, "epoch": 2.627486851131946, "step": 34470}, {"loss": 0.08601888418197631, "token_acc": 0.9651821862348178, "grad_norm": 1.0192087888717651, "learning_rate": 4.598722920228439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236214, "epoch": 2.627867977742206, "step": 34475}, {"loss": 0.07509363889694214, "token_acc": 0.9722658294086866, "grad_norm": 1.034632921218872, "learning_rate": 4.5975294494231186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236218, "epoch": 2.6282491043524656, "step": 34480}, {"loss": 0.15468306541442872, "token_acc": 0.9424117085587019, "grad_norm": 1.8488266468048096, "learning_rate": 4.596336001697615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236227, "epoch": 2.6286302309627256, "step": 34485}, {"loss": 0.0838808000087738, "token_acc": 0.9511868940153795, "grad_norm": 0.2803126275539398, "learning_rate": 4.59514257712037e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236238, "epoch": 2.6290113575729857, "step": 34490}, {"loss": 0.06667059659957886, "token_acc": 0.9711664482306684, "grad_norm": 1.0675890445709229, "learning_rate": 4.59394917575982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236249, "epoch": 2.6293924841832457, "step": 34495}, {"loss": 0.07805976867675782, "token_acc": 0.9691195795006571, "grad_norm": 1.1665489673614502, "learning_rate": 4.5927557976843985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236257, "epoch": 2.6297736107935057, "step": 34500}, {"loss": 0.07837527990341187, "token_acc": 0.9660901538880566, "grad_norm": 0.6722052097320557, "learning_rate": 4.591562442962544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236256, "epoch": 2.6301547374037657, "step": 34505}, {"loss": 0.08717117309570313, "token_acc": 0.9631190727081138, "grad_norm": 1.3864669799804688, "learning_rate": 4.5903691116626877e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236266, "epoch": 2.6305358640140257, "step": 34510}, {"loss": 0.07707738876342773, "token_acc": 0.9712643678160919, "grad_norm": 0.6589874029159546, "learning_rate": 4.5891758038532605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236272, "epoch": 2.6309169906242853, "step": 34515}, {"loss": 0.09339557886123658, "token_acc": 0.9690402476780186, "grad_norm": 1.6244090795516968, "learning_rate": 4.587982519602696e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23628, "epoch": 2.6312981172345453, "step": 34520}, {"loss": 0.10717564821243286, "token_acc": 0.9616153538584566, "grad_norm": 1.2460570335388184, "learning_rate": 4.586789258979422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236286, "epoch": 2.6316792438448053, "step": 34525}, {"loss": 0.0729071855545044, "token_acc": 0.9726708074534162, "grad_norm": 1.3849495649337769, "learning_rate": 4.585596022051865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236296, "epoch": 2.632060370455065, "step": 34530}, {"loss": 0.07066272497177124, "token_acc": 0.9671686746987952, "grad_norm": 1.2723926305770874, "learning_rate": 4.584402808888454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236305, "epoch": 2.632441497065325, "step": 34535}, {"loss": 0.1126067042350769, "token_acc": 0.954985754985755, "grad_norm": 1.6462208032608032, "learning_rate": 4.5832096195576127e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236311, "epoch": 2.632822623675585, "step": 34540}, {"loss": 0.07615478038787842, "token_acc": 0.9675218340611353, "grad_norm": 0.8074650168418884, "learning_rate": 4.582016454127766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23632, "epoch": 2.633203750285845, "step": 34545}, {"loss": 0.07518311142921448, "token_acc": 0.9666004469828656, "grad_norm": 0.7124179005622864, "learning_rate": 4.580823312667337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236324, "epoch": 2.633584876896105, "step": 34550}, {"loss": 0.10309662818908691, "token_acc": 0.9636650868878357, "grad_norm": 2.025308847427368, "learning_rate": 4.579630195244744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236331, "epoch": 2.633966003506365, "step": 34555}, {"loss": 0.10235599279403687, "token_acc": 0.9630718954248366, "grad_norm": 0.6852911710739136, "learning_rate": 4.57843710192841e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236335, "epoch": 2.6343471301166246, "step": 34560}, {"loss": 0.1060101866722107, "token_acc": 0.9709509899383317, "grad_norm": 1.2011756896972656, "learning_rate": 4.577244032786752e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236339, "epoch": 2.6347282567268846, "step": 34565}, {"loss": 0.09034164547920227, "token_acc": 0.9711451758340848, "grad_norm": 1.8492302894592285, "learning_rate": 4.5760509878881855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236348, "epoch": 2.6351093833371446, "step": 34570}, {"loss": 0.06038922071456909, "token_acc": 0.9797410510281798, "grad_norm": 0.9346972107887268, "learning_rate": 4.574857967301128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236351, "epoch": 2.6354905099474046, "step": 34575}, {"loss": 0.07569088339805603, "token_acc": 0.963881636205396, "grad_norm": 0.839268147945404, "learning_rate": 4.5736649710939946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236357, "epoch": 2.635871636557664, "step": 34580}, {"loss": 0.053468060493469236, "token_acc": 0.9770075497597803, "grad_norm": 1.0588699579238892, "learning_rate": 4.5724719993351944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236367, "epoch": 2.6362527631679242, "step": 34585}, {"loss": 0.06658456325531006, "token_acc": 0.9712987817468511, "grad_norm": 0.828446626663208, "learning_rate": 4.571279052093143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236374, "epoch": 2.6366338897781842, "step": 34590}, {"loss": 0.08491186499595642, "token_acc": 0.9675888034048126, "grad_norm": 0.724871814250946, "learning_rate": 4.570086129436248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236379, "epoch": 2.6370150163884443, "step": 34595}, {"loss": 0.10163453817367554, "token_acc": 0.9572787650332076, "grad_norm": 0.9738374352455139, "learning_rate": 4.5688932314329187e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236385, "epoch": 2.6373961429987043, "step": 34600}, {"eval_loss": 0.0791676789522171, "eval_token_acc": 0.9654614179868682, "eval_runtime": 221.4526, "eval_samples_per_second": 2.393, "eval_steps_per_second": 2.393, "epoch": 2.6373961429987043, "step": 34600}, {"loss": 0.08453396558761597, "token_acc": 0.9658202078645666, "grad_norm": 0.7109556198120117, "learning_rate": 4.56770035815156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23603, "epoch": 2.6377772696089643, "step": 34605}, {"loss": 0.06915705800056457, "token_acc": 0.9722976643128735, "grad_norm": 1.3445689678192139, "learning_rate": 4.566507509660582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236041, "epoch": 2.638158396219224, "step": 34610}, {"loss": 0.11613163948059083, "token_acc": 0.9658826570173171, "grad_norm": 0.7363599538803101, "learning_rate": 4.565314686028386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236048, "epoch": 2.638539522829484, "step": 34615}, {"loss": 0.06864437460899353, "token_acc": 0.9783931832014607, "grad_norm": 0.8980638980865479, "learning_rate": 4.5641218873233745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236052, "epoch": 2.638920649439744, "step": 34620}, {"loss": 0.10776060819625854, "token_acc": 0.9527777777777777, "grad_norm": 0.8212231397628784, "learning_rate": 4.5629291136139515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23606, "epoch": 2.639301776050004, "step": 34625}, {"loss": 0.09207921624183654, "token_acc": 0.9676248953391013, "grad_norm": 0.8818819522857666, "learning_rate": 4.561736364968515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236069, "epoch": 2.6396829026602635, "step": 34630}, {"loss": 0.10315999984741211, "token_acc": 0.9658712541620422, "grad_norm": 0.7599839568138123, "learning_rate": 4.5605436414554635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236076, "epoch": 2.6400640292705235, "step": 34635}, {"loss": 0.0902387797832489, "token_acc": 0.9664131812420785, "grad_norm": 1.2587523460388184, "learning_rate": 4.559350943143196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236087, "epoch": 2.6404451558807835, "step": 34640}, {"loss": 0.11591588258743286, "token_acc": 0.967198711377947, "grad_norm": 0.5499386787414551, "learning_rate": 4.558158270100106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23609, "epoch": 2.6408262824910436, "step": 34645}, {"loss": 0.0806598722934723, "token_acc": 0.9680350987151363, "grad_norm": 0.7512726783752441, "learning_rate": 4.556965622394589e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2361, "epoch": 2.6412074091013036, "step": 34650}, {"loss": 0.057606637477874756, "token_acc": 0.9749192947603675, "grad_norm": 0.6224662661552429, "learning_rate": 4.5557730000950386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236109, "epoch": 2.6415885357115636, "step": 34655}, {"loss": 0.08936265110969543, "token_acc": 0.9682687820811946, "grad_norm": 0.6146666407585144, "learning_rate": 4.5545804032698444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23611, "epoch": 2.641969662321823, "step": 34660}, {"loss": 0.09350624680519104, "token_acc": 0.963336875664187, "grad_norm": 1.0363690853118896, "learning_rate": 4.553387831987398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236117, "epoch": 2.642350788932083, "step": 34665}, {"loss": 0.09945698380470276, "token_acc": 0.9687707641196013, "grad_norm": 0.6018379330635071, "learning_rate": 4.552195286316084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236124, "epoch": 2.642731915542343, "step": 34670}, {"loss": 0.04971529841423035, "token_acc": 0.9785310734463277, "grad_norm": 1.0576268434524536, "learning_rate": 4.5510027663242936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23613, "epoch": 2.6431130421526032, "step": 34675}, {"loss": 0.10189125537872315, "token_acc": 0.9600430305824497, "grad_norm": 0.6960410475730896, "learning_rate": 4.549810272080412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236134, "epoch": 2.643494168762863, "step": 34680}, {"loss": 0.07377658486366272, "token_acc": 0.975119482710149, "grad_norm": 0.993836522102356, "learning_rate": 4.5486178036528226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236136, "epoch": 2.643875295373123, "step": 34685}, {"loss": 0.10406787395477295, "token_acc": 0.9599456890699253, "grad_norm": 0.7220819592475891, "learning_rate": 4.547425361109906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236142, "epoch": 2.644256421983383, "step": 34690}, {"loss": 0.11260309219360351, "token_acc": 0.9605858281283652, "grad_norm": 1.2464371919631958, "learning_rate": 4.5462329445200455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236147, "epoch": 2.644637548593643, "step": 34695}, {"loss": 0.08344818353652954, "token_acc": 0.9697944593386952, "grad_norm": 1.0397944450378418, "learning_rate": 4.545040553951621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236153, "epoch": 2.645018675203903, "step": 34700}, {"loss": 0.08904408216476441, "token_acc": 0.9598864039758609, "grad_norm": 1.0590509176254272, "learning_rate": 4.543848189473008e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236162, "epoch": 2.645399801814163, "step": 34705}, {"loss": 0.057963895797729495, "token_acc": 0.9766917293233083, "grad_norm": 1.2606360912322998, "learning_rate": 4.542655851152584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236171, "epoch": 2.6457809284244225, "step": 34710}, {"loss": 0.07432994842529297, "token_acc": 0.9669599867175827, "grad_norm": 0.48929363489151, "learning_rate": 4.541463539058726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236176, "epoch": 2.6461620550346825, "step": 34715}, {"loss": 0.06637262105941773, "token_acc": 0.9737895158063226, "grad_norm": 1.1390858888626099, "learning_rate": 4.540271253259806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236183, "epoch": 2.6465431816449425, "step": 34720}, {"loss": 0.09039289951324463, "token_acc": 0.9628175236225304, "grad_norm": 0.6493496894836426, "learning_rate": 4.539078993824195e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236182, "epoch": 2.6469243082552025, "step": 34725}, {"loss": 0.09192712903022766, "token_acc": 0.9593086064097948, "grad_norm": 0.9344501495361328, "learning_rate": 4.537886760820266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236192, "epoch": 2.647305434865462, "step": 34730}, {"loss": 0.08626474142074585, "token_acc": 0.966497461928934, "grad_norm": 1.6318135261535645, "learning_rate": 4.5366945543163866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2362, "epoch": 2.647686561475722, "step": 34735}, {"loss": 0.08600993752479554, "token_acc": 0.9753017120404154, "grad_norm": 0.7969309091567993, "learning_rate": 4.535502374380924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236208, "epoch": 2.648067688085982, "step": 34740}, {"loss": 0.08370350599288941, "token_acc": 0.9664916229057264, "grad_norm": 0.6688978672027588, "learning_rate": 4.534310221082245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236211, "epoch": 2.648448814696242, "step": 34745}, {"loss": 0.0799898386001587, "token_acc": 0.9691934925579785, "grad_norm": 0.9750869870185852, "learning_rate": 4.533118094488715e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236221, "epoch": 2.648829941306502, "step": 34750}, {"loss": 0.04989679157733917, "token_acc": 0.9765209940017138, "grad_norm": 0.5955497026443481, "learning_rate": 4.531925994668693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236225, "epoch": 2.649211067916762, "step": 34755}, {"loss": 0.09081840515136719, "token_acc": 0.9646643109540636, "grad_norm": 1.219254732131958, "learning_rate": 4.530733921690545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236235, "epoch": 2.6495921945270218, "step": 34760}, {"loss": 0.08430290222167969, "token_acc": 0.9655781112091791, "grad_norm": 0.6814606189727783, "learning_rate": 4.5295418756226295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236248, "epoch": 2.649973321137282, "step": 34765}, {"loss": 0.07764970064163208, "token_acc": 0.9713102632357291, "grad_norm": 0.6479282975196838, "learning_rate": 4.5283498565333034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236252, "epoch": 2.650354447747542, "step": 34770}, {"loss": 0.06987233161926269, "token_acc": 0.9752208989627353, "grad_norm": 0.6928173899650574, "learning_rate": 4.527157864490923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236257, "epoch": 2.650735574357802, "step": 34775}, {"loss": 0.07601243257522583, "token_acc": 0.9701639344262295, "grad_norm": 1.6042349338531494, "learning_rate": 4.525965899563846e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236263, "epoch": 2.6511167009680614, "step": 34780}, {"loss": 0.053401076793670656, "token_acc": 0.9798668615034908, "grad_norm": 1.5826935768127441, "learning_rate": 4.5247739618204256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236265, "epoch": 2.6514978275783214, "step": 34785}, {"loss": 0.10230897665023804, "token_acc": 0.9583741429970617, "grad_norm": 0.8021280169487, "learning_rate": 4.5235820513290114e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236269, "epoch": 2.6518789541885814, "step": 34790}, {"loss": 0.08673296570777893, "token_acc": 0.9665292662819456, "grad_norm": 1.4549806118011475, "learning_rate": 4.522390168157957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236274, "epoch": 2.6522600807988415, "step": 34795}, {"loss": 0.10868560075759888, "token_acc": 0.9650593990216632, "grad_norm": 1.0394068956375122, "learning_rate": 4.521198312375611e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23628, "epoch": 2.6526412074091015, "step": 34800}, {"eval_loss": 0.07940098643302917, "eval_token_acc": 0.96582284199747, "eval_runtime": 223.0293, "eval_samples_per_second": 2.376, "eval_steps_per_second": 2.376, "epoch": 2.6526412074091015, "step": 34800}, {"loss": 0.09724587202072144, "token_acc": 0.9657538616402135, "grad_norm": 1.1645346879959106, "learning_rate": 4.5200064840503166e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235925, "epoch": 2.6530223340193615, "step": 34805}, {"loss": 0.09641849994659424, "token_acc": 0.9623484365028717, "grad_norm": 1.0690507888793945, "learning_rate": 4.518814683250425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23593, "epoch": 2.653403460629621, "step": 34810}, {"loss": 0.08912160992622375, "token_acc": 0.9702051739518287, "grad_norm": 0.934097945690155, "learning_rate": 4.5176229100442775e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235935, "epoch": 2.653784587239881, "step": 34815}, {"loss": 0.10587561130523682, "token_acc": 0.9575185434929198, "grad_norm": 1.263421654701233, "learning_rate": 4.5164311645002187e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235944, "epoch": 2.654165713850141, "step": 34820}, {"loss": 0.0826075553894043, "token_acc": 0.9800173761946134, "grad_norm": 0.6879926323890686, "learning_rate": 4.515239446686589e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235952, "epoch": 2.6545468404604007, "step": 34825}, {"loss": 0.075517076253891, "token_acc": 0.9727932285368803, "grad_norm": 0.5690597891807556, "learning_rate": 4.514047756671726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23596, "epoch": 2.6549279670706607, "step": 34830}, {"loss": 0.0786234200000763, "token_acc": 0.9708981435022579, "grad_norm": 1.035203218460083, "learning_rate": 4.51285609452397e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235968, "epoch": 2.6553090936809207, "step": 34835}, {"loss": 0.06986383199691773, "token_acc": 0.9712529079428381, "grad_norm": 0.5182098150253296, "learning_rate": 4.5116644603116564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235971, "epoch": 2.6556902202911807, "step": 34840}, {"loss": 0.07075812816619872, "token_acc": 0.9737609329446064, "grad_norm": 1.005347728729248, "learning_rate": 4.510472854103119e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23598, "epoch": 2.6560713469014408, "step": 34845}, {"loss": 0.07964443564414977, "token_acc": 0.9679331716518459, "grad_norm": 1.1412445306777954, "learning_rate": 4.509281275966692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235983, "epoch": 2.6564524735117008, "step": 34850}, {"loss": 0.06194390654563904, "token_acc": 0.9711128344319504, "grad_norm": 1.3200820684432983, "learning_rate": 4.508089725970708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235988, "epoch": 2.656833600121961, "step": 34855}, {"loss": 0.07742317914962768, "token_acc": 0.9720848056537102, "grad_norm": 0.878207266330719, "learning_rate": 4.506898204183494e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235998, "epoch": 2.6572147267322204, "step": 34860}, {"loss": 0.07053429484367371, "token_acc": 0.9701715137956749, "grad_norm": 0.9697880148887634, "learning_rate": 4.5057067106733804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236009, "epoch": 2.6575958533424804, "step": 34865}, {"loss": 0.1030411958694458, "token_acc": 0.9622799664710813, "grad_norm": 1.1064485311508179, "learning_rate": 4.504515245508693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236013, "epoch": 2.6579769799527404, "step": 34870}, {"loss": 0.08747999668121338, "token_acc": 0.9740829346092504, "grad_norm": 1.1469590663909912, "learning_rate": 4.5033238087577574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236024, "epoch": 2.658358106563, "step": 34875}, {"loss": 0.11580581665039062, "token_acc": 0.9597875569044007, "grad_norm": 1.5519354343414307, "learning_rate": 4.5021324004888946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236031, "epoch": 2.65873923317326, "step": 34880}, {"loss": 0.10885385274887086, "token_acc": 0.954343245141653, "grad_norm": 0.8507601022720337, "learning_rate": 4.500941020770431e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236039, "epoch": 2.65912035978352, "step": 34885}, {"loss": 0.10078145265579223, "token_acc": 0.9641991156753673, "grad_norm": 0.9800879955291748, "learning_rate": 4.499749669670682e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236042, "epoch": 2.65950148639378, "step": 34890}, {"loss": 0.10268805027008057, "token_acc": 0.9660601367918441, "grad_norm": 0.9540125727653503, "learning_rate": 4.4985583472579677e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236045, "epoch": 2.65988261300404, "step": 34895}, {"loss": 0.100931715965271, "token_acc": 0.9643870967741935, "grad_norm": 1.3989028930664062, "learning_rate": 4.497367053600607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236053, "epoch": 2.6602637396143, "step": 34900}, {"loss": 0.04833863079547882, "token_acc": 0.9741492146596858, "grad_norm": 1.0339680910110474, "learning_rate": 4.4961757887669125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236062, "epoch": 2.6606448662245596, "step": 34905}, {"loss": 0.05490332841873169, "token_acc": 0.9739551786795881, "grad_norm": 0.45887675881385803, "learning_rate": 4.494984552825198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236071, "epoch": 2.6610259928348197, "step": 34910}, {"loss": 0.08238070011138916, "token_acc": 0.9706798866855524, "grad_norm": 0.45629504323005676, "learning_rate": 4.493793345843776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236077, "epoch": 2.6614071194450797, "step": 34915}, {"loss": 0.10910717248916627, "token_acc": 0.9578012215435869, "grad_norm": 1.3043519258499146, "learning_rate": 4.4926021678909566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236085, "epoch": 2.6617882460553397, "step": 34920}, {"loss": 0.05665872097015381, "token_acc": 0.9800573514077163, "grad_norm": 0.9262687563896179, "learning_rate": 4.491411019035048e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236086, "epoch": 2.6621693726655993, "step": 34925}, {"loss": 0.08006370067596436, "token_acc": 0.967284904688305, "grad_norm": 0.7802358865737915, "learning_rate": 4.490219899344358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236094, "epoch": 2.6625504992758593, "step": 34930}, {"loss": 0.057595640420913696, "token_acc": 0.9785407725321889, "grad_norm": 1.1045026779174805, "learning_rate": 4.489028808887191e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236101, "epoch": 2.6629316258861193, "step": 34935}, {"loss": 0.049222621321678164, "token_acc": 0.9706933523945676, "grad_norm": 0.6823529005050659, "learning_rate": 4.4878377477318486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236113, "epoch": 2.6633127524963793, "step": 34940}, {"loss": 0.07279379963874817, "token_acc": 0.9730856051397813, "grad_norm": 0.6395122408866882, "learning_rate": 4.486646715946637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236118, "epoch": 2.6636938791066394, "step": 34945}, {"loss": 0.062296736240386966, "token_acc": 0.97497308934338, "grad_norm": 0.7404492497444153, "learning_rate": 4.4854557135998524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236128, "epoch": 2.6640750057168994, "step": 34950}, {"loss": 0.08760073781013489, "token_acc": 0.9676403708238587, "grad_norm": 0.6181774735450745, "learning_rate": 4.484264740759796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236132, "epoch": 2.664456132327159, "step": 34955}, {"loss": 0.08710880279541015, "token_acc": 0.9685323703894764, "grad_norm": 0.8381205797195435, "learning_rate": 4.483073797494764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236141, "epoch": 2.664837258937419, "step": 34960}, {"loss": 0.05549919009208679, "token_acc": 0.970108695652174, "grad_norm": 0.5959903001785278, "learning_rate": 4.4818828838730495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236148, "epoch": 2.665218385547679, "step": 34965}, {"loss": 0.09415339231491089, "token_acc": 0.9653301886792452, "grad_norm": 1.6724343299865723, "learning_rate": 4.480691999962948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236156, "epoch": 2.665599512157939, "step": 34970}, {"loss": 0.10845847129821777, "token_acc": 0.9669487043892121, "grad_norm": 0.5706411004066467, "learning_rate": 4.4795011458327506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236166, "epoch": 2.6659806387681986, "step": 34975}, {"loss": 0.12566871643066407, "token_acc": 0.9613578424795385, "grad_norm": 1.0162218809127808, "learning_rate": 4.478310321550747e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236169, "epoch": 2.6663617653784586, "step": 34980}, {"loss": 0.08670580983161927, "token_acc": 0.9604340945059914, "grad_norm": 1.5870065689086914, "learning_rate": 4.4771195271852245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236179, "epoch": 2.6667428919887186, "step": 34985}, {"loss": 0.09162315130233764, "token_acc": 0.9638689048760991, "grad_norm": 0.8754083514213562, "learning_rate": 4.475928762804472e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236186, "epoch": 2.6671240185989786, "step": 34990}, {"loss": 0.09392979741096497, "token_acc": 0.9613100938517526, "grad_norm": 1.5178778171539307, "learning_rate": 4.474738028476772e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236191, "epoch": 2.6675051452092386, "step": 34995}, {"loss": 0.062468111515045166, "token_acc": 0.9735263702171665, "grad_norm": 0.9080075621604919, "learning_rate": 4.473547324270409e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236199, "epoch": 2.6678862718194987, "step": 35000}, {"eval_loss": 0.07843136787414551, "eval_token_acc": 0.9663499186795976, "eval_runtime": 221.7515, "eval_samples_per_second": 2.39, "eval_steps_per_second": 2.39, "epoch": 2.6678862718194987, "step": 35000}, {"loss": 0.07848840951919556, "token_acc": 0.9669153581649802, "grad_norm": 0.6307786107063293, "learning_rate": 4.4723566502536645e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235846, "epoch": 2.6682673984297582, "step": 35005}, {"loss": 0.0710215449333191, "token_acc": 0.9727775414717141, "grad_norm": 1.0642178058624268, "learning_rate": 4.471166006494817e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235856, "epoch": 2.6686485250400183, "step": 35010}, {"loss": 0.11612780094146728, "token_acc": 0.9497319034852547, "grad_norm": 1.6664384603500366, "learning_rate": 4.469975393062144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235865, "epoch": 2.6690296516502783, "step": 35015}, {"loss": 0.07632217407226563, "token_acc": 0.9769769769769769, "grad_norm": 0.5637938380241394, "learning_rate": 4.468784810023924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23587, "epoch": 2.6694107782605383, "step": 35020}, {"loss": 0.11441630125045776, "token_acc": 0.9504504504504504, "grad_norm": 1.5170615911483765, "learning_rate": 4.46759425744843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23588, "epoch": 2.669791904870798, "step": 35025}, {"loss": 0.07293434739112854, "token_acc": 0.9725170068027211, "grad_norm": 0.9731893539428711, "learning_rate": 4.4664037354039334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235888, "epoch": 2.670173031481058, "step": 35030}, {"loss": 0.1052127718925476, "token_acc": 0.9679885332059245, "grad_norm": 0.5590035319328308, "learning_rate": 4.4652132439587074e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235892, "epoch": 2.670554158091318, "step": 35035}, {"loss": 0.11190294027328491, "token_acc": 0.9625638116846285, "grad_norm": 1.074646234512329, "learning_rate": 4.464022783181021e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2359, "epoch": 2.670935284701578, "step": 35040}, {"loss": 0.06761512160301208, "token_acc": 0.9757510729613734, "grad_norm": 1.4665356874465942, "learning_rate": 4.462832353139139e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235906, "epoch": 2.671316411311838, "step": 35045}, {"loss": 0.0890347719192505, "token_acc": 0.9690256615878108, "grad_norm": 0.6132632493972778, "learning_rate": 4.4616419539013286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235906, "epoch": 2.671697537922098, "step": 35050}, {"loss": 0.10179684162139893, "token_acc": 0.9708496267330252, "grad_norm": 1.828651785850525, "learning_rate": 4.460451585535855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235913, "epoch": 2.6720786645323575, "step": 35055}, {"loss": 0.12122589349746704, "token_acc": 0.9500728104847098, "grad_norm": 0.4339956045150757, "learning_rate": 4.45926124811098e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235921, "epoch": 2.6724597911426176, "step": 35060}, {"loss": 0.09570226073265076, "token_acc": 0.967329220927576, "grad_norm": 0.9354884028434753, "learning_rate": 4.4580709416949606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235928, "epoch": 2.6728409177528776, "step": 35065}, {"loss": 0.11747571229934692, "token_acc": 0.9557640750670241, "grad_norm": 1.366164207458496, "learning_rate": 4.456880666356057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235934, "epoch": 2.6732220443631376, "step": 35070}, {"loss": 0.1636034607887268, "token_acc": 0.940415964024733, "grad_norm": 0.7041143774986267, "learning_rate": 4.4556904221625294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235943, "epoch": 2.673603170973397, "step": 35075}, {"loss": 0.07659584879875184, "token_acc": 0.9676798768757214, "grad_norm": 1.0360685586929321, "learning_rate": 4.4545002091826307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235953, "epoch": 2.673984297583657, "step": 35080}, {"loss": 0.10948672294616699, "token_acc": 0.9570124481327801, "grad_norm": 0.9309723377227783, "learning_rate": 4.453310027484612e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235958, "epoch": 2.674365424193917, "step": 35085}, {"loss": 0.08245308995246887, "token_acc": 0.9656876200933296, "grad_norm": 0.9038699269294739, "learning_rate": 4.452119877136727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235966, "epoch": 2.6747465508041772, "step": 35090}, {"loss": 0.11698803901672364, "token_acc": 0.9545177045177046, "grad_norm": 0.8327280879020691, "learning_rate": 4.450929758207225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235974, "epoch": 2.6751276774144372, "step": 35095}, {"loss": 0.08347607851028442, "token_acc": 0.9618403837767118, "grad_norm": 0.5915766358375549, "learning_rate": 4.449739670764353e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235983, "epoch": 2.6755088040246973, "step": 35100}, {"loss": 0.07888557910919189, "token_acc": 0.9698665518725785, "grad_norm": 0.9511887431144714, "learning_rate": 4.448549614876356e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235986, "epoch": 2.675889930634957, "step": 35105}, {"loss": 0.10269246101379395, "token_acc": 0.9631013545072397, "grad_norm": 1.0451788902282715, "learning_rate": 4.447359590611481e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235992, "epoch": 2.676271057245217, "step": 35110}, {"loss": 0.11112785339355469, "token_acc": 0.9528130671506352, "grad_norm": 1.0318127870559692, "learning_rate": 4.446169598037969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235999, "epoch": 2.676652183855477, "step": 35115}, {"loss": 0.07435340881347656, "token_acc": 0.9672811825278192, "grad_norm": 0.5985041856765747, "learning_rate": 4.44497963722406e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236007, "epoch": 2.6770333104657364, "step": 35120}, {"loss": 0.09671497344970703, "token_acc": 0.965949565465166, "grad_norm": 1.1406794786453247, "learning_rate": 4.443789708237993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236009, "epoch": 2.6774144370759965, "step": 35125}, {"loss": 0.09976692199707031, "token_acc": 0.9629327902240326, "grad_norm": 0.7000481486320496, "learning_rate": 4.442599811148006e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236016, "epoch": 2.6777955636862565, "step": 35130}, {"loss": 0.08998606204986573, "token_acc": 0.9713412304165074, "grad_norm": 1.3462473154067993, "learning_rate": 4.441409946022332e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23602, "epoch": 2.6781766902965165, "step": 35135}, {"loss": 0.06629632711410523, "token_acc": 0.9716259560819146, "grad_norm": 0.6552445292472839, "learning_rate": 4.440220112929207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236028, "epoch": 2.6785578169067765, "step": 35140}, {"loss": 0.07014608979225159, "token_acc": 0.9727582292849035, "grad_norm": 1.8415154218673706, "learning_rate": 4.4390303119368595e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236036, "epoch": 2.6789389435170365, "step": 35145}, {"loss": 0.07307873964309693, "token_acc": 0.9694462126034373, "grad_norm": 0.6169350743293762, "learning_rate": 4.43784054311352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236044, "epoch": 2.6793200701272966, "step": 35150}, {"loss": 0.07986955642700196, "token_acc": 0.9596744358120607, "grad_norm": 0.9401827454566956, "learning_rate": 4.436650806527417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236054, "epoch": 2.679701196737556, "step": 35155}, {"loss": 0.069408118724823, "token_acc": 0.97165991902834, "grad_norm": 0.6553975939750671, "learning_rate": 4.435461102246777e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236058, "epoch": 2.680082323347816, "step": 35160}, {"loss": 0.08336496353149414, "token_acc": 0.9704125950054289, "grad_norm": 0.9611994624137878, "learning_rate": 4.434271430339823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236065, "epoch": 2.680463449958076, "step": 35165}, {"loss": 0.14030874967575074, "token_acc": 0.9618764172335601, "grad_norm": 1.9711670875549316, "learning_rate": 4.433081790874776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236069, "epoch": 2.6808445765683357, "step": 35170}, {"loss": 0.10978789329528808, "token_acc": 0.9548705302096178, "grad_norm": 0.95865398645401, "learning_rate": 4.431892183919858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236077, "epoch": 2.6812257031785958, "step": 35175}, {"loss": 0.055616730451583864, "token_acc": 0.9767213918157315, "grad_norm": 0.9708633422851562, "learning_rate": 4.430702609543288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236083, "epoch": 2.681606829788856, "step": 35180}, {"loss": 0.08995945453643799, "token_acc": 0.965467102871683, "grad_norm": 1.6855332851409912, "learning_rate": 4.429513067813279e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236088, "epoch": 2.681987956399116, "step": 35185}, {"loss": 0.08290210366249084, "token_acc": 0.9692720399951226, "grad_norm": 1.0304208993911743, "learning_rate": 4.4283235587980496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236089, "epoch": 2.682369083009376, "step": 35190}, {"loss": 0.08793768286705017, "token_acc": 0.9703631010794896, "grad_norm": 1.3022607564926147, "learning_rate": 4.427134082565812e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236093, "epoch": 2.682750209619636, "step": 35195}, {"loss": 0.054417884349823, "token_acc": 0.9796545105566219, "grad_norm": 1.4607073068618774, "learning_rate": 4.4259446391847746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236103, "epoch": 2.6831313362298954, "step": 35200}, {"eval_loss": 0.07838715612888336, "eval_token_acc": 0.965905668333233, "eval_runtime": 221.4811, "eval_samples_per_second": 2.393, "eval_steps_per_second": 2.393, "epoch": 2.6831313362298954, "step": 35200}, {"loss": 0.09090142250061035, "token_acc": 0.9659274734681146, "grad_norm": 1.0164872407913208, "learning_rate": 4.424755228723148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23576, "epoch": 2.6835124628401554, "step": 35205}, {"loss": 0.09625781774520874, "token_acc": 0.9569789674952199, "grad_norm": 1.0169868469238281, "learning_rate": 4.42356585124914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235768, "epoch": 2.6838935894504155, "step": 35210}, {"loss": 0.07743846774101257, "token_acc": 0.9656850192061459, "grad_norm": 1.0060405731201172, "learning_rate": 4.422376506830957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235776, "epoch": 2.6842747160606755, "step": 35215}, {"loss": 0.12534357309341432, "token_acc": 0.9616989002654531, "grad_norm": 0.9206529259681702, "learning_rate": 4.4211871955368004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235786, "epoch": 2.684655842670935, "step": 35220}, {"loss": 0.08128911256790161, "token_acc": 0.9594957081545065, "grad_norm": 0.8882681727409363, "learning_rate": 4.419997917434871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235794, "epoch": 2.685036969281195, "step": 35225}, {"loss": 0.09914633631706238, "token_acc": 0.9584382871536524, "grad_norm": 0.9535582661628723, "learning_rate": 4.4188086725933704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235802, "epoch": 2.685418095891455, "step": 35230}, {"loss": 0.06210626363754272, "token_acc": 0.9732243517474634, "grad_norm": 0.8457511067390442, "learning_rate": 4.417619461080495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23581, "epoch": 2.685799222501715, "step": 35235}, {"loss": 0.05522758960723877, "token_acc": 0.9686977299880526, "grad_norm": 0.745723307132721, "learning_rate": 4.41643028296444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235815, "epoch": 2.686180349111975, "step": 35240}, {"loss": 0.06324333548545838, "token_acc": 0.9785001279754287, "grad_norm": 0.7693453431129456, "learning_rate": 4.415241138313402e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235823, "epoch": 2.686561475722235, "step": 35245}, {"loss": 0.06384479999542236, "token_acc": 0.9685055165496489, "grad_norm": 0.8835068941116333, "learning_rate": 4.414052027195571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235829, "epoch": 2.6869426023324947, "step": 35250}, {"loss": 0.09133310914039612, "token_acc": 0.970947705870567, "grad_norm": 1.2129287719726562, "learning_rate": 4.412862949679135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235833, "epoch": 2.6873237289427547, "step": 35255}, {"loss": 0.07776565551757812, "token_acc": 0.9685181471826749, "grad_norm": 0.8428898453712463, "learning_rate": 4.4116739058322864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235839, "epoch": 2.6877048555530147, "step": 35260}, {"loss": 0.07144677639007568, "token_acc": 0.9662921348314607, "grad_norm": 0.7238909602165222, "learning_rate": 4.4104848957232086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235848, "epoch": 2.6880859821632748, "step": 35265}, {"loss": 0.07191640138626099, "token_acc": 0.9660889223813113, "grad_norm": 1.4484970569610596, "learning_rate": 4.4092959194200864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235858, "epoch": 2.6884671087735343, "step": 35270}, {"loss": 0.08877195715904236, "token_acc": 0.963632972771354, "grad_norm": 0.7443024516105652, "learning_rate": 4.408106976991101e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235864, "epoch": 2.6888482353837944, "step": 35275}, {"loss": 0.10613809823989868, "token_acc": 0.9689975887013434, "grad_norm": 0.6300280690193176, "learning_rate": 4.4069180685044354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235874, "epoch": 2.6892293619940544, "step": 35280}, {"loss": 0.08017803430557251, "token_acc": 0.9680973524091432, "grad_norm": 0.6633759140968323, "learning_rate": 4.405729194028265e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235878, "epoch": 2.6896104886043144, "step": 35285}, {"loss": 0.1642252564430237, "token_acc": 0.9571195947168446, "grad_norm": 1.4697518348693848, "learning_rate": 4.404540353630768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235882, "epoch": 2.6899916152145744, "step": 35290}, {"loss": 0.09471780061721802, "token_acc": 0.9654477397063058, "grad_norm": 1.1984577178955078, "learning_rate": 4.4033515473801186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235885, "epoch": 2.6903727418248344, "step": 35295}, {"loss": 0.08634262084960938, "token_acc": 0.9611430921052632, "grad_norm": 1.1482563018798828, "learning_rate": 4.402162775344489e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235893, "epoch": 2.690753868435094, "step": 35300}, {"loss": 0.13199710845947266, "token_acc": 0.9558158651870119, "grad_norm": 1.1681169271469116, "learning_rate": 4.4009740375920496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2359, "epoch": 2.691134995045354, "step": 35305}, {"loss": 0.06836973428726197, "token_acc": 0.9733653269346131, "grad_norm": 0.6707178354263306, "learning_rate": 4.39978533419097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235903, "epoch": 2.691516121655614, "step": 35310}, {"loss": 0.057117462158203125, "token_acc": 0.9778398185307974, "grad_norm": 0.9165451526641846, "learning_rate": 4.3985966652094165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235909, "epoch": 2.691897248265874, "step": 35315}, {"loss": 0.1039546012878418, "token_acc": 0.9637387387387387, "grad_norm": 1.8033150434494019, "learning_rate": 4.3974080307155514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235916, "epoch": 2.6922783748761336, "step": 35320}, {"loss": 0.052589583396911624, "token_acc": 0.9711415134672937, "grad_norm": 0.8163173794746399, "learning_rate": 4.396219430777541e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235923, "epoch": 2.6926595014863937, "step": 35325}, {"loss": 0.0991385817527771, "token_acc": 0.9486984609538286, "grad_norm": 0.9008318185806274, "learning_rate": 4.3950308654635444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235931, "epoch": 2.6930406280966537, "step": 35330}, {"loss": 0.10175211429595947, "token_acc": 0.958712259003274, "grad_norm": 0.9078161716461182, "learning_rate": 4.39384233484172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235935, "epoch": 2.6934217547069137, "step": 35335}, {"loss": 0.12729686498641968, "token_acc": 0.9584384740982633, "grad_norm": 1.0569475889205933, "learning_rate": 4.392653838980223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235938, "epoch": 2.6938028813171737, "step": 35340}, {"loss": 0.09144845008850097, "token_acc": 0.9566058595909342, "grad_norm": 1.5204691886901855, "learning_rate": 4.391465377947211e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235946, "epoch": 2.6941840079274337, "step": 35345}, {"loss": 0.09276120662689209, "token_acc": 0.9654731457800512, "grad_norm": 1.054661750793457, "learning_rate": 4.390276951810837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235951, "epoch": 2.6945651345376933, "step": 35350}, {"loss": 0.0787214994430542, "token_acc": 0.9708500222518914, "grad_norm": 0.9206229448318481, "learning_rate": 4.3890885606392495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23596, "epoch": 2.6949462611479533, "step": 35355}, {"loss": 0.09731523394584655, "token_acc": 0.9547619047619048, "grad_norm": 0.46435466408729553, "learning_rate": 4.3879002045005974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235968, "epoch": 2.6953273877582133, "step": 35360}, {"loss": 0.08033180236816406, "token_acc": 0.9697762970014279, "grad_norm": 1.0577620267868042, "learning_rate": 4.386711883463029e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235975, "epoch": 2.6957085143684734, "step": 35365}, {"loss": 0.07029534578323364, "token_acc": 0.9751265365148228, "grad_norm": 0.63516765832901, "learning_rate": 4.3855235975946885e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235977, "epoch": 2.696089640978733, "step": 35370}, {"loss": 0.0874361515045166, "token_acc": 0.969290082424887, "grad_norm": 0.7372981309890747, "learning_rate": 4.384335346963718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23598, "epoch": 2.696470767588993, "step": 35375}, {"loss": 0.07841692566871643, "token_acc": 0.974401913875598, "grad_norm": 0.8637972474098206, "learning_rate": 4.383147131638257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235986, "epoch": 2.696851894199253, "step": 35380}, {"loss": 0.12298245429992676, "token_acc": 0.949094781682641, "grad_norm": 1.342454195022583, "learning_rate": 4.381958951686447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235994, "epoch": 2.697233020809513, "step": 35385}, {"loss": 0.04612143635749817, "token_acc": 0.972885032537961, "grad_norm": 0.06202472001314163, "learning_rate": 4.380770807176422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236002, "epoch": 2.697614147419773, "step": 35390}, {"loss": 0.07536575198173523, "token_acc": 0.9724073787009766, "grad_norm": 1.1343315839767456, "learning_rate": 4.3795826981763176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236004, "epoch": 2.697995274030033, "step": 35395}, {"loss": 0.06245092153549194, "token_acc": 0.9750859106529209, "grad_norm": 0.5838271975517273, "learning_rate": 4.3783946247542674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.236012, "epoch": 2.6983764006402926, "step": 35400}, {"eval_loss": 0.07676771283149719, "eval_token_acc": 0.9666887536895368, "eval_runtime": 221.0225, "eval_samples_per_second": 2.398, "eval_steps_per_second": 2.398, "epoch": 2.6983764006402926, "step": 35400}, {"loss": 0.07267065048217773, "token_acc": 0.9667638816591676, "grad_norm": 0.6321262717247009, "learning_rate": 4.3772065869784006e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235667, "epoch": 2.6987575272505526, "step": 35405}, {"loss": 0.10444469451904297, "token_acc": 0.9656783468104223, "grad_norm": 0.6317225694656372, "learning_rate": 4.376018584916845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235673, "epoch": 2.6991386538608126, "step": 35410}, {"loss": 0.07969510555267334, "token_acc": 0.9730958007634976, "grad_norm": 0.7578514814376831, "learning_rate": 4.3748306186377287e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235676, "epoch": 2.699519780471072, "step": 35415}, {"loss": 0.07491014003753663, "token_acc": 0.9719636524822695, "grad_norm": 0.682076096534729, "learning_rate": 4.373642688209175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235677, "epoch": 2.6999009070813322, "step": 35420}, {"loss": 0.07084066867828369, "token_acc": 0.9730959446092977, "grad_norm": 0.5768642425537109, "learning_rate": 4.3724547936993064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235676, "epoch": 2.7002820336915923, "step": 35425}, {"loss": 0.08262470364570618, "token_acc": 0.9668810289389067, "grad_norm": 1.3360315561294556, "learning_rate": 4.371266935176244e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23568, "epoch": 2.7006631603018523, "step": 35430}, {"loss": 0.11395291090011597, "token_acc": 0.9612511671335201, "grad_norm": 1.9561270475387573, "learning_rate": 4.3700791127081046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23569, "epoch": 2.7010442869121123, "step": 35435}, {"loss": 0.08316536545753479, "token_acc": 0.9677377049180328, "grad_norm": 0.5722203850746155, "learning_rate": 4.368891326363005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235693, "epoch": 2.7014254135223723, "step": 35440}, {"loss": 0.09825537204742432, "token_acc": 0.9580042381044115, "grad_norm": 1.0655966997146606, "learning_rate": 4.3677035762090584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235699, "epoch": 2.7018065401326323, "step": 35445}, {"loss": 0.110711669921875, "token_acc": 0.9649851632047478, "grad_norm": 0.6710293889045715, "learning_rate": 4.3665158623143784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235705, "epoch": 2.702187666742892, "step": 35450}, {"loss": 0.06675156354904174, "token_acc": 0.9730354391371341, "grad_norm": 1.0139358043670654, "learning_rate": 4.365328184747074e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235711, "epoch": 2.702568793353152, "step": 35455}, {"loss": 0.06650227308273315, "token_acc": 0.9776948114110664, "grad_norm": 0.40842220187187195, "learning_rate": 4.364140543575252e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235711, "epoch": 2.702949919963412, "step": 35460}, {"loss": 0.10579248666763305, "token_acc": 0.9702427564604542, "grad_norm": 1.171823263168335, "learning_rate": 4.36295293886702e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235718, "epoch": 2.7033310465736715, "step": 35465}, {"loss": 0.07406131625175476, "token_acc": 0.9685615848406546, "grad_norm": 0.8871923685073853, "learning_rate": 4.361765370690479e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235726, "epoch": 2.7037121731839315, "step": 35470}, {"loss": 0.057308930158615115, "token_acc": 0.9779913205207688, "grad_norm": 1.2977409362792969, "learning_rate": 4.360577839113733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235735, "epoch": 2.7040932997941916, "step": 35475}, {"loss": 0.06825003623962403, "token_acc": 0.9718936311157377, "grad_norm": 0.5309045314788818, "learning_rate": 4.359390344204882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235736, "epoch": 2.7044744264044516, "step": 35480}, {"loss": 0.11710309982299805, "token_acc": 0.9452508276037688, "grad_norm": 1.5621318817138672, "learning_rate": 4.358202886032021e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235744, "epoch": 2.7048555530147116, "step": 35485}, {"loss": 0.08137757778167724, "token_acc": 0.9631255487269534, "grad_norm": 0.8814067840576172, "learning_rate": 4.3570154646632466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235749, "epoch": 2.7052366796249716, "step": 35490}, {"loss": 0.06542729139328003, "token_acc": 0.9787934186471664, "grad_norm": 0.44718262553215027, "learning_rate": 4.355828080166652e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235754, "epoch": 2.705617806235231, "step": 35495}, {"loss": 0.09437135457992554, "token_acc": 0.9589568191534844, "grad_norm": 1.2874548435211182, "learning_rate": 4.354640732610326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235766, "epoch": 2.705998932845491, "step": 35500}, {"loss": 0.08073940873146057, "token_acc": 0.9720422775315377, "grad_norm": 0.6346542239189148, "learning_rate": 4.353453422062361e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235762, "epoch": 2.706380059455751, "step": 35505}, {"loss": 0.08905956745147706, "token_acc": 0.9604043807919124, "grad_norm": 0.8158250451087952, "learning_rate": 4.352266148590841e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235771, "epoch": 2.7067611860660112, "step": 35510}, {"loss": 0.08909804224967957, "token_acc": 0.9595701125895599, "grad_norm": 1.4863781929016113, "learning_rate": 4.3510789122638506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235778, "epoch": 2.707142312676271, "step": 35515}, {"loss": 0.0735629141330719, "token_acc": 0.9732120914229541, "grad_norm": 1.2774780988693237, "learning_rate": 4.349891713149475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235787, "epoch": 2.707523439286531, "step": 35520}, {"loss": 0.07424221634864807, "token_acc": 0.9670747150696496, "grad_norm": 0.25067007541656494, "learning_rate": 4.348704551315792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235795, "epoch": 2.707904565896791, "step": 35525}, {"loss": 0.06941035389900208, "token_acc": 0.9664019547953574, "grad_norm": 0.23121044039726257, "learning_rate": 4.34751742683088e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235805, "epoch": 2.708285692507051, "step": 35530}, {"loss": 0.04191494584083557, "token_acc": 0.9754028837998303, "grad_norm": 0.5919772386550903, "learning_rate": 4.346330339762816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235815, "epoch": 2.708666819117311, "step": 35535}, {"loss": 0.0560515820980072, "token_acc": 0.9829399392381397, "grad_norm": 1.6588588953018188, "learning_rate": 4.345143290179675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235823, "epoch": 2.709047945727571, "step": 35540}, {"loss": 0.08185315132141113, "token_acc": 0.9704336399474376, "grad_norm": 0.5652149319648743, "learning_rate": 4.343956278149526e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23583, "epoch": 2.7094290723378305, "step": 35545}, {"loss": 0.08300833702087403, "token_acc": 0.9750412919801799, "grad_norm": 0.7423208951950073, "learning_rate": 4.34276930374044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235837, "epoch": 2.7098101989480905, "step": 35550}, {"loss": 0.08577765226364135, "token_acc": 0.9705380679175066, "grad_norm": 0.6640967130661011, "learning_rate": 4.341582367020485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235841, "epoch": 2.7101913255583505, "step": 35555}, {"loss": 0.08674956560134887, "token_acc": 0.96529284164859, "grad_norm": 2.084167003631592, "learning_rate": 4.3403954680577265e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23585, "epoch": 2.7105724521686105, "step": 35560}, {"loss": 0.09079451560974121, "token_acc": 0.9716574245224893, "grad_norm": 2.4054014682769775, "learning_rate": 4.3392086069202256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235858, "epoch": 2.71095357877887, "step": 35565}, {"loss": 0.06017959117889404, "token_acc": 0.9750849377123443, "grad_norm": 1.6501370668411255, "learning_rate": 4.338021783676045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235869, "epoch": 2.71133470538913, "step": 35570}, {"loss": 0.11018457412719726, "token_acc": 0.9599325179249262, "grad_norm": 0.9408222436904907, "learning_rate": 4.3368349983932435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235877, "epoch": 2.71171583199939, "step": 35575}, {"loss": 0.12338459491729736, "token_acc": 0.9590800951625694, "grad_norm": 1.2673035860061646, "learning_rate": 4.3356482511398766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235883, "epoch": 2.71209695860965, "step": 35580}, {"loss": 0.07662172317504883, "token_acc": 0.9697829479358774, "grad_norm": 0.9863390922546387, "learning_rate": 4.3344615419840004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235887, "epoch": 2.71247808521991, "step": 35585}, {"loss": 0.1071923017501831, "token_acc": 0.9733029801324503, "grad_norm": 1.6998751163482666, "learning_rate": 4.3332748709936664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235893, "epoch": 2.71285921183017, "step": 35590}, {"loss": 0.06603131294250489, "token_acc": 0.9764941235308827, "grad_norm": 0.5378970503807068, "learning_rate": 4.332088238236923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2359, "epoch": 2.7132403384404298, "step": 35595}, {"loss": 0.06301345229148865, "token_acc": 0.9752047315741583, "grad_norm": 1.0697497129440308, "learning_rate": 4.330901643781822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235907, "epoch": 2.71362146505069, "step": 35600}, {"eval_loss": 0.07654815167188644, "eval_token_acc": 0.9669522920306005, "eval_runtime": 222.3236, "eval_samples_per_second": 2.384, "eval_steps_per_second": 2.384, "epoch": 2.71362146505069, "step": 35600}, {"loss": 0.07763549089431762, "token_acc": 0.967178607624542, "grad_norm": 1.0057942867279053, "learning_rate": 4.3297150876964035e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235559, "epoch": 2.71400259166095, "step": 35605}, {"loss": 0.09439860582351685, "token_acc": 0.9654680817361001, "grad_norm": 1.7471017837524414, "learning_rate": 4.328528570048716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235563, "epoch": 2.71438371827121, "step": 35610}, {"loss": 0.1035967230796814, "token_acc": 0.9638532763532763, "grad_norm": 1.3044712543487549, "learning_rate": 4.3273420909068e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235571, "epoch": 2.7147648448814694, "step": 35615}, {"loss": 0.09638741016387939, "token_acc": 0.960453466912734, "grad_norm": 0.9582646489143372, "learning_rate": 4.326155650338692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235579, "epoch": 2.7151459714917294, "step": 35620}, {"loss": 0.09296506643295288, "token_acc": 0.9633603768646951, "grad_norm": 1.506386399269104, "learning_rate": 4.3249692484124315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235586, "epoch": 2.7155270981019894, "step": 35625}, {"loss": 0.08713527917861938, "token_acc": 0.9475917144996256, "grad_norm": 2.1300253868103027, "learning_rate": 4.323782885196053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235595, "epoch": 2.7159082247122495, "step": 35630}, {"loss": 0.07735421657562255, "token_acc": 0.9593088071348941, "grad_norm": 1.2594480514526367, "learning_rate": 4.322596560757586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235604, "epoch": 2.7162893513225095, "step": 35635}, {"loss": 0.09126784801483154, "token_acc": 0.9579944154425155, "grad_norm": 0.6773355603218079, "learning_rate": 4.3214102751650636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235606, "epoch": 2.7166704779327695, "step": 35640}, {"loss": 0.07618552446365356, "token_acc": 0.9724828810550342, "grad_norm": 0.9887690544128418, "learning_rate": 4.320224028486513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235611, "epoch": 2.717051604543029, "step": 35645}, {"loss": 0.10555518865585327, "token_acc": 0.9642756283535724, "grad_norm": 0.5562832355499268, "learning_rate": 4.319037820789959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235611, "epoch": 2.717432731153289, "step": 35650}, {"loss": 0.09457230567932129, "token_acc": 0.9680173661360347, "grad_norm": 0.8524538278579712, "learning_rate": 4.317851652143427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235615, "epoch": 2.717813857763549, "step": 35655}, {"loss": 0.09357575178146363, "token_acc": 0.9685564554549786, "grad_norm": 1.82323157787323, "learning_rate": 4.316665522614937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235622, "epoch": 2.718194984373809, "step": 35660}, {"loss": 0.09518301486968994, "token_acc": 0.9584583429494576, "grad_norm": 0.729487955570221, "learning_rate": 4.315479432272509e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23563, "epoch": 2.7185761109840687, "step": 35665}, {"loss": 0.08640878200531006, "token_acc": 0.96630859375, "grad_norm": 0.9275891184806824, "learning_rate": 4.314293381184157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23564, "epoch": 2.7189572375943287, "step": 35670}, {"loss": 0.08236033320426941, "token_acc": 0.9703252805782766, "grad_norm": 0.6889150738716125, "learning_rate": 4.3131073694178985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235645, "epoch": 2.7193383642045887, "step": 35675}, {"loss": 0.07088986039161682, "token_acc": 0.9709618874773139, "grad_norm": 1.7570236921310425, "learning_rate": 4.311921397041745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235655, "epoch": 2.7197194908148488, "step": 35680}, {"loss": 0.06675441265106201, "token_acc": 0.9667412855772306, "grad_norm": 1.919663429260254, "learning_rate": 4.310735464123706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235664, "epoch": 2.720100617425109, "step": 35685}, {"loss": 0.07461090087890625, "token_acc": 0.9665, "grad_norm": 1.0758261680603027, "learning_rate": 4.30954957073179e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235671, "epoch": 2.720481744035369, "step": 35690}, {"loss": 0.07521390914916992, "token_acc": 0.9730363423212193, "grad_norm": 0.07010713964700699, "learning_rate": 4.3083637169340016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235677, "epoch": 2.7208628706456284, "step": 35695}, {"loss": 0.08875989317893981, "token_acc": 0.9645206766917294, "grad_norm": 0.9437703490257263, "learning_rate": 4.307177902798344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235684, "epoch": 2.7212439972558884, "step": 35700}, {"loss": 0.05708191394805908, "token_acc": 0.9749911940824234, "grad_norm": 1.4150831699371338, "learning_rate": 4.30599212839282e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235694, "epoch": 2.7216251238661484, "step": 35705}, {"loss": 0.043326807022094724, "token_acc": 0.9814707585408222, "grad_norm": 0.6397532820701599, "learning_rate": 4.3048063937854264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235698, "epoch": 2.7220062504764084, "step": 35710}, {"loss": 0.08643834590911866, "token_acc": 0.9651303820497271, "grad_norm": 0.6481029987335205, "learning_rate": 4.3036206990441584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235707, "epoch": 2.722387377086668, "step": 35715}, {"loss": 0.08062859177589417, "token_acc": 0.968184939345388, "grad_norm": 0.2683565318584442, "learning_rate": 4.302435044237013e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235715, "epoch": 2.722768503696928, "step": 35720}, {"loss": 0.11361410617828369, "token_acc": 0.9534569983136594, "grad_norm": 0.9589257836341858, "learning_rate": 4.301249429431982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235721, "epoch": 2.723149630307188, "step": 35725}, {"loss": 0.08955263495445251, "token_acc": 0.9636320418350368, "grad_norm": 0.6809784770011902, "learning_rate": 4.300063854697052e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235729, "epoch": 2.723530756917448, "step": 35730}, {"loss": 0.09896026253700256, "token_acc": 0.9587747581759558, "grad_norm": 1.0372300148010254, "learning_rate": 4.2988783201002115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235736, "epoch": 2.723911883527708, "step": 35735}, {"loss": 0.06577342748641968, "token_acc": 0.9760128711423138, "grad_norm": 0.5639796853065491, "learning_rate": 4.2976928257094444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235738, "epoch": 2.724293010137968, "step": 35740}, {"loss": 0.0534085214138031, "token_acc": 0.9780424264979531, "grad_norm": 0.27676689624786377, "learning_rate": 4.296507371592737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235747, "epoch": 2.7246741367482277, "step": 35745}, {"loss": 0.08273829221725464, "token_acc": 0.97031652279267, "grad_norm": 0.723821759223938, "learning_rate": 4.295321957818067e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235749, "epoch": 2.7250552633584877, "step": 35750}, {"loss": 0.08306689858436585, "token_acc": 0.9651022864019254, "grad_norm": 0.9038600921630859, "learning_rate": 4.294136584453412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235756, "epoch": 2.7254363899687477, "step": 35755}, {"loss": 0.05955403447151184, "token_acc": 0.9746783465644676, "grad_norm": 1.0152894258499146, "learning_rate": 4.2929512515667494e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235761, "epoch": 2.7258175165790073, "step": 35760}, {"loss": 0.105423903465271, "token_acc": 0.9615483870967741, "grad_norm": 1.4407148361206055, "learning_rate": 4.2917659592260506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235769, "epoch": 2.7261986431892673, "step": 35765}, {"loss": 0.08945835828781128, "token_acc": 0.958538706871557, "grad_norm": 1.5723509788513184, "learning_rate": 4.290580707499288e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235777, "epoch": 2.7265797697995273, "step": 35770}, {"loss": 0.0904066801071167, "token_acc": 0.9648199901364458, "grad_norm": 0.7911795973777771, "learning_rate": 4.289395496454429e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235783, "epoch": 2.7269608964097873, "step": 35775}, {"loss": 0.09201250076293946, "token_acc": 0.9642485248177716, "grad_norm": 0.6524139642715454, "learning_rate": 4.288210326159441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235789, "epoch": 2.7273420230200474, "step": 35780}, {"loss": 0.0814014732837677, "token_acc": 0.9702445358147587, "grad_norm": 1.8482624292373657, "learning_rate": 4.2870251966822875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23579, "epoch": 2.7277231496303074, "step": 35785}, {"loss": 0.08730539679527283, "token_acc": 0.9600997506234414, "grad_norm": 1.2952357530593872, "learning_rate": 4.28584010809093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235798, "epoch": 2.728104276240567, "step": 35790}, {"loss": 0.09840134382247925, "token_acc": 0.9675144261594357, "grad_norm": 2.185176372528076, "learning_rate": 4.284655060453329e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235805, "epoch": 2.728485402850827, "step": 35795}, {"loss": 0.0935293436050415, "token_acc": 0.9588189588189588, "grad_norm": 1.3329147100448608, "learning_rate": 4.2834700538374404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235815, "epoch": 2.728866529461087, "step": 35800}, {"eval_loss": 0.07659797370433807, "eval_token_acc": 0.9673061863743148, "eval_runtime": 221.8952, "eval_samples_per_second": 2.389, "eval_steps_per_second": 2.389, "epoch": 2.728866529461087, "step": 35800}, {"loss": 0.12913265228271484, "token_acc": 0.966738126769735, "grad_norm": 1.1892683506011963, "learning_rate": 4.282285088311219e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235479, "epoch": 2.729247656071347, "step": 35805}, {"loss": 0.08970249295234681, "token_acc": 0.9653624118024374, "grad_norm": 1.7173138856887817, "learning_rate": 4.281100163942617e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235488, "epoch": 2.7296287826816066, "step": 35810}, {"loss": 0.10853818655014039, "token_acc": 0.9583919597989949, "grad_norm": 1.1461225748062134, "learning_rate": 4.279915280799586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235495, "epoch": 2.7300099092918666, "step": 35815}, {"loss": 0.08615018129348755, "token_acc": 0.9712896503820329, "grad_norm": 1.7309094667434692, "learning_rate": 4.2787304389500695e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235501, "epoch": 2.7303910359021266, "step": 35820}, {"loss": 0.07479963898658752, "token_acc": 0.9548180727708916, "grad_norm": 0.33034655451774597, "learning_rate": 4.277545638462017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235512, "epoch": 2.7307721625123866, "step": 35825}, {"loss": 0.09643290042877198, "token_acc": 0.964583719636566, "grad_norm": 1.2293055057525635, "learning_rate": 4.2763608794033696e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23552, "epoch": 2.7311532891226467, "step": 35830}, {"loss": 0.05468939542770386, "token_acc": 0.9758793969849247, "grad_norm": 0.8170815706253052, "learning_rate": 4.275176161842067e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235525, "epoch": 2.7315344157329067, "step": 35835}, {"loss": 0.10435469150543213, "token_acc": 0.9631218988869519, "grad_norm": 0.6521604061126709, "learning_rate": 4.273991485846048e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235528, "epoch": 2.7319155423431662, "step": 35840}, {"loss": 0.07631123661994935, "token_acc": 0.9694821815317975, "grad_norm": 0.9644380807876587, "learning_rate": 4.272806851483248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235533, "epoch": 2.7322966689534263, "step": 35845}, {"loss": 0.08040010333061218, "token_acc": 0.9668999432570455, "grad_norm": 0.5921468734741211, "learning_rate": 4.2716222588216016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235541, "epoch": 2.7326777955636863, "step": 35850}, {"loss": 0.09538315534591675, "token_acc": 0.95274040039383, "grad_norm": 2.4007863998413086, "learning_rate": 4.270437707929037e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235551, "epoch": 2.7330589221739463, "step": 35855}, {"loss": 0.08161606788635253, "token_acc": 0.968683776783612, "grad_norm": 0.4892181158065796, "learning_rate": 4.2692531988734854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23556, "epoch": 2.733440048784206, "step": 35860}, {"loss": 0.09424226880073547, "token_acc": 0.9658042744656918, "grad_norm": 0.49300989508628845, "learning_rate": 4.268068731722871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235568, "epoch": 2.733821175394466, "step": 35865}, {"loss": 0.06082687973976135, "token_acc": 0.9720372836218375, "grad_norm": 0.6563447117805481, "learning_rate": 4.266884306545118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235576, "epoch": 2.734202302004726, "step": 35870}, {"loss": 0.10046892166137696, "token_acc": 0.9567316620241412, "grad_norm": 1.0380146503448486, "learning_rate": 4.265699923408148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235582, "epoch": 2.734583428614986, "step": 35875}, {"loss": 0.08002877831459046, "token_acc": 0.9673309376020908, "grad_norm": 0.7814728617668152, "learning_rate": 4.26451558237988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235592, "epoch": 2.734964555225246, "step": 35880}, {"loss": 0.11272075176239013, "token_acc": 0.9558074965293846, "grad_norm": 0.6951321363449097, "learning_rate": 4.2633312835282307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2356, "epoch": 2.735345681835506, "step": 35885}, {"loss": 0.1267564296722412, "token_acc": 0.9562699102229945, "grad_norm": 1.0905017852783203, "learning_rate": 4.2621470269211136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235609, "epoch": 2.7357268084457655, "step": 35890}, {"loss": 0.08950303196907043, "token_acc": 0.9655516171909615, "grad_norm": 0.7702677249908447, "learning_rate": 4.26096281262644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235611, "epoch": 2.7361079350560256, "step": 35895}, {"loss": 0.06723722815513611, "token_acc": 0.9746919746919747, "grad_norm": 1.2690509557724, "learning_rate": 4.2597786407121205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23562, "epoch": 2.7364890616662856, "step": 35900}, {"loss": 0.09514663219451905, "token_acc": 0.9686898723106524, "grad_norm": 0.8746135830879211, "learning_rate": 4.258594511246061e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235625, "epoch": 2.7368701882765456, "step": 35905}, {"loss": 0.08544286489486694, "token_acc": 0.9564544650751547, "grad_norm": 1.2319340705871582, "learning_rate": 4.2574104242961644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235632, "epoch": 2.737251314886805, "step": 35910}, {"loss": 0.11443558931350709, "token_acc": 0.9564274875352266, "grad_norm": 2.426100969314575, "learning_rate": 4.256226379930335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235639, "epoch": 2.737632441497065, "step": 35915}, {"loss": 0.050571000576019286, "token_acc": 0.9793021880544057, "grad_norm": 0.5768752098083496, "learning_rate": 4.255042378216472e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235644, "epoch": 2.738013568107325, "step": 35920}, {"loss": 0.07122111916542054, "token_acc": 0.9679544240697882, "grad_norm": 0.6836011409759521, "learning_rate": 4.25385841922247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235649, "epoch": 2.7383946947175852, "step": 35925}, {"loss": 0.0785791277885437, "token_acc": 0.9606393129770993, "grad_norm": 0.9548466205596924, "learning_rate": 4.252674503016225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235657, "epoch": 2.7387758213278453, "step": 35930}, {"loss": 0.10118836164474487, "token_acc": 0.9595189205045468, "grad_norm": 1.5440421104431152, "learning_rate": 4.251490629665631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235666, "epoch": 2.7391569479381053, "step": 35935}, {"loss": 0.062047290802001956, "token_acc": 0.9608091024020228, "grad_norm": 0.4116368889808655, "learning_rate": 4.2503067992385745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235676, "epoch": 2.739538074548365, "step": 35940}, {"loss": 0.0996061086654663, "token_acc": 0.9582403570290086, "grad_norm": 0.7505683898925781, "learning_rate": 4.249123011802943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23568, "epoch": 2.739919201158625, "step": 35945}, {"loss": 0.10817514657974243, "token_acc": 0.9645390070921985, "grad_norm": 1.2447725534439087, "learning_rate": 4.247939267426625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235685, "epoch": 2.740300327768885, "step": 35950}, {"loss": 0.09425817728042603, "token_acc": 0.9649171270718232, "grad_norm": 0.7793630361557007, "learning_rate": 4.246755566177499e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235695, "epoch": 2.740681454379145, "step": 35955}, {"loss": 0.10564165115356446, "token_acc": 0.9579503227068258, "grad_norm": 0.6527905464172363, "learning_rate": 4.2455719081234443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235702, "epoch": 2.7410625809894045, "step": 35960}, {"loss": 0.05614688992500305, "token_acc": 0.9776863084922011, "grad_norm": 1.1404554843902588, "learning_rate": 4.244388293332341e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235707, "epoch": 2.7414437075996645, "step": 35965}, {"loss": 0.08530694842338563, "token_acc": 0.9601139601139601, "grad_norm": 0.8685212135314941, "learning_rate": 4.243204721872063e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235713, "epoch": 2.7418248342099245, "step": 35970}, {"loss": 0.07745405435562133, "token_acc": 0.9659376814399071, "grad_norm": 1.1547967195510864, "learning_rate": 4.2420211938104806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235721, "epoch": 2.7422059608201845, "step": 35975}, {"loss": 0.1073150873184204, "token_acc": 0.9615785813630042, "grad_norm": 1.0924409627914429, "learning_rate": 4.240837709215467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235725, "epoch": 2.7425870874304445, "step": 35980}, {"loss": 0.11150245666503907, "token_acc": 0.9666751462732129, "grad_norm": 1.2724134922027588, "learning_rate": 4.239654268154888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235734, "epoch": 2.7429682140407046, "step": 35985}, {"loss": 0.11465519666671753, "token_acc": 0.9554395126196693, "grad_norm": 3.8650100231170654, "learning_rate": 4.2384708706966064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235737, "epoch": 2.743349340650964, "step": 35990}, {"loss": 0.07770415544509887, "token_acc": 0.9673375123721544, "grad_norm": 1.478115439414978, "learning_rate": 4.237287516908488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235746, "epoch": 2.743730467261224, "step": 35995}, {"loss": 0.10138874053955078, "token_acc": 0.9723790322580645, "grad_norm": 2.0596556663513184, "learning_rate": 4.236104206858391e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235754, "epoch": 2.744111593871484, "step": 36000}, {"eval_loss": 0.0774289146065712, "eval_token_acc": 0.9666962833564243, "eval_runtime": 221.8175, "eval_samples_per_second": 2.389, "eval_steps_per_second": 2.389, "epoch": 2.744111593871484, "step": 36000}, {"loss": 0.10316756963729859, "token_acc": 0.9663777405492024, "grad_norm": 0.5009119510650635, "learning_rate": 4.23492094061417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235419, "epoch": 2.744492720481744, "step": 36005}, {"loss": 0.09585130214691162, "token_acc": 0.965531142914735, "grad_norm": 1.0636125802993774, "learning_rate": 4.233737718243686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235425, "epoch": 2.7448738470920038, "step": 36010}, {"loss": 0.09847974181175231, "token_acc": 0.9599400171379606, "grad_norm": 0.8922129273414612, "learning_rate": 4.232554539814787e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235432, "epoch": 2.745254973702264, "step": 36015}, {"loss": 0.10700086355209351, "token_acc": 0.9602494154325799, "grad_norm": 1.1830281019210815, "learning_rate": 4.2313714053953233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23544, "epoch": 2.745636100312524, "step": 36020}, {"loss": 0.06363803744316102, "token_acc": 0.9823337982333799, "grad_norm": 0.5644654035568237, "learning_rate": 4.230188315053143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235451, "epoch": 2.746017226922784, "step": 36025}, {"loss": 0.07743685245513916, "token_acc": 0.9692559280457891, "grad_norm": 0.8629458546638489, "learning_rate": 4.229005268856091e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235455, "epoch": 2.746398353533044, "step": 36030}, {"loss": 0.09857755899429321, "token_acc": 0.9558498896247241, "grad_norm": 0.7974511981010437, "learning_rate": 4.227822266872008e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235463, "epoch": 2.746779480143304, "step": 36035}, {"loss": 0.10738775730133057, "token_acc": 0.968281797896079, "grad_norm": 1.6877200603485107, "learning_rate": 4.226639309168736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235467, "epoch": 2.7471606067535634, "step": 36040}, {"loss": 0.10633816719055175, "token_acc": 0.9596676475679419, "grad_norm": 0.8187024593353271, "learning_rate": 4.2254563958141104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235473, "epoch": 2.7475417333638235, "step": 36045}, {"loss": 0.09708261489868164, "token_acc": 0.9631416441528368, "grad_norm": 1.002465009689331, "learning_rate": 4.2242735268759655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235478, "epoch": 2.7479228599740835, "step": 36050}, {"loss": 0.05363468527793884, "token_acc": 0.9757229560871118, "grad_norm": 1.0996912717819214, "learning_rate": 4.223090702422134e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235488, "epoch": 2.748303986584343, "step": 36055}, {"loss": 0.088137286901474, "token_acc": 0.9664082687338501, "grad_norm": 1.7137305736541748, "learning_rate": 4.2219079225204464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235494, "epoch": 2.748685113194603, "step": 36060}, {"loss": 0.08112077713012696, "token_acc": 0.9572716581732654, "grad_norm": 0.7687479257583618, "learning_rate": 4.220725187238728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235501, "epoch": 2.749066239804863, "step": 36065}, {"loss": 0.06631267070770264, "token_acc": 0.9775967413441955, "grad_norm": 0.8418876528739929, "learning_rate": 4.2195424966448037e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235507, "epoch": 2.749447366415123, "step": 36070}, {"loss": 0.07221702933311462, "token_acc": 0.9710560625814864, "grad_norm": 1.9810903072357178, "learning_rate": 4.218359850806496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235513, "epoch": 2.749828493025383, "step": 36075}, {"loss": 0.09562355279922485, "token_acc": 0.9725823591923486, "grad_norm": 1.4238126277923584, "learning_rate": 4.217177249791622e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235522, "epoch": 2.750209619635643, "step": 36080}, {"loss": 0.06820365190505981, "token_acc": 0.9720750101916021, "grad_norm": 1.0349708795547485, "learning_rate": 4.2159946936680016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23553, "epoch": 2.750590746245903, "step": 36085}, {"loss": 0.10692830085754394, "token_acc": 0.9572536410062418, "grad_norm": 1.4965686798095703, "learning_rate": 4.214812182503447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235537, "epoch": 2.7509718728561627, "step": 36090}, {"loss": 0.10088772773742676, "token_acc": 0.9628722970216238, "grad_norm": 1.4444934129714966, "learning_rate": 4.213629716365769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235546, "epoch": 2.7513529994664228, "step": 36095}, {"loss": 0.09247565865516663, "token_acc": 0.9658377875900535, "grad_norm": 0.7864841818809509, "learning_rate": 4.2124472953227795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235555, "epoch": 2.7517341260766828, "step": 36100}, {"loss": 0.0770712673664093, "token_acc": 0.9675842552096733, "grad_norm": 1.0814357995986938, "learning_rate": 4.211264919442282e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235562, "epoch": 2.7521152526869423, "step": 36105}, {"loss": 0.06944127678871155, "token_acc": 0.9683648315529991, "grad_norm": 1.9760977029800415, "learning_rate": 4.210082588792082e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235572, "epoch": 2.7524963792972024, "step": 36110}, {"loss": 0.058572965860366824, "token_acc": 0.9805712065280746, "grad_norm": 0.44257479906082153, "learning_rate": 4.2089003034399774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235576, "epoch": 2.7528775059074624, "step": 36115}, {"loss": 0.10856097936630249, "token_acc": 0.9571256038647343, "grad_norm": 1.3039697408676147, "learning_rate": 4.207718063453771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235585, "epoch": 2.7532586325177224, "step": 36120}, {"loss": 0.043909657001495364, "token_acc": 0.979800853485064, "grad_norm": 1.5724818706512451, "learning_rate": 4.206535868901258e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235594, "epoch": 2.7536397591279824, "step": 36125}, {"loss": 0.1262003540992737, "token_acc": 0.9484777517564403, "grad_norm": 2.18611741065979, "learning_rate": 4.205353719850229e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235604, "epoch": 2.7540208857382424, "step": 36130}, {"loss": 0.04816741347312927, "token_acc": 0.9738871363477042, "grad_norm": 0.7887604236602783, "learning_rate": 4.204171616368477e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235608, "epoch": 2.754402012348502, "step": 36135}, {"loss": 0.09338799715042115, "token_acc": 0.9633044787354159, "grad_norm": 1.8722261190414429, "learning_rate": 4.202989558523788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235613, "epoch": 2.754783138958762, "step": 36140}, {"loss": 0.06579349040985108, "token_acc": 0.9666836647968724, "grad_norm": 0.8806177973747253, "learning_rate": 4.201807546383952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235621, "epoch": 2.755164265569022, "step": 36145}, {"loss": 0.10801869630813599, "token_acc": 0.9462809917355371, "grad_norm": 1.2966192960739136, "learning_rate": 4.200625580016747e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235631, "epoch": 2.755545392179282, "step": 36150}, {"loss": 0.08398632407188415, "token_acc": 0.9646994931209268, "grad_norm": 0.7677803635597229, "learning_rate": 4.1994436594899575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235638, "epoch": 2.7559265187895416, "step": 36155}, {"loss": 0.08445631265640259, "token_acc": 0.9668772146048374, "grad_norm": 1.025064468383789, "learning_rate": 4.198261784871358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235642, "epoch": 2.7563076453998017, "step": 36160}, {"loss": 0.11279771327972413, "token_acc": 0.9606834771068348, "grad_norm": 0.7825415134429932, "learning_rate": 4.1970799562287256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23565, "epoch": 2.7566887720100617, "step": 36165}, {"loss": 0.07024667263031006, "token_acc": 0.9709062315706704, "grad_norm": 0.9214193820953369, "learning_rate": 4.19589817362983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235655, "epoch": 2.7570698986203217, "step": 36170}, {"loss": 0.09184709787368775, "token_acc": 0.9617028551889212, "grad_norm": 1.081828236579895, "learning_rate": 4.194716437142444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235662, "epoch": 2.7574510252305817, "step": 36175}, {"loss": 0.10770206451416016, "token_acc": 0.9561137179133314, "grad_norm": 1.376746416091919, "learning_rate": 4.1935347468343334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23567, "epoch": 2.7578321518408417, "step": 36180}, {"loss": 0.0525756299495697, "token_acc": 0.9780015902464883, "grad_norm": 0.4956839680671692, "learning_rate": 4.1923531027732615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235676, "epoch": 2.7582132784511013, "step": 36185}, {"loss": 0.112065589427948, "token_acc": 0.9597423510466989, "grad_norm": 1.7300044298171997, "learning_rate": 4.191171505026993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235684, "epoch": 2.7585944050613613, "step": 36190}, {"loss": 0.09584531784057618, "token_acc": 0.9601630535482676, "grad_norm": 1.3968719244003296, "learning_rate": 4.1899899536632844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235688, "epoch": 2.7589755316716214, "step": 36195}, {"loss": 0.071506929397583, "token_acc": 0.97599451303155, "grad_norm": 1.2060410976409912, "learning_rate": 4.1888084487498916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235699, "epoch": 2.7593566582818814, "step": 36200}, {"eval_loss": 0.07753386348485947, "eval_token_acc": 0.9670125293657008, "eval_runtime": 220.4791, "eval_samples_per_second": 2.404, "eval_steps_per_second": 2.404, "epoch": 2.7593566582818814, "step": 36200}, {"loss": 0.06384857892990112, "token_acc": 0.967335919631742, "grad_norm": 0.6607219576835632, "learning_rate": 4.187626990354572e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235367, "epoch": 2.759737784892141, "step": 36205}, {"loss": 0.06676793694496155, "token_acc": 0.9709618874773139, "grad_norm": 1.0810904502868652, "learning_rate": 4.186445578545074e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235375, "epoch": 2.760118911502401, "step": 36210}, {"loss": 0.09877266883850097, "token_acc": 0.9699953117674637, "grad_norm": 0.5588495135307312, "learning_rate": 4.1852642133891455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235375, "epoch": 2.760500038112661, "step": 36215}, {"loss": 0.07206475734710693, "token_acc": 0.9704906782568913, "grad_norm": 0.8207181096076965, "learning_rate": 4.184082894954535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235377, "epoch": 2.760881164722921, "step": 36220}, {"loss": 0.09352295398712158, "token_acc": 0.9625393194166428, "grad_norm": 0.9270002245903015, "learning_rate": 4.182901623308984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235386, "epoch": 2.761262291333181, "step": 36225}, {"loss": 0.07189087271690368, "token_acc": 0.9690821256038648, "grad_norm": 0.8764816522598267, "learning_rate": 4.181720398520233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235397, "epoch": 2.761643417943441, "step": 36230}, {"loss": 0.08117685317993165, "token_acc": 0.9683760683760684, "grad_norm": 1.3416770696640015, "learning_rate": 4.180539220656019e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235404, "epoch": 2.7620245445537006, "step": 36235}, {"loss": 0.10312105417251587, "token_acc": 0.9559063690800218, "grad_norm": 0.9607065916061401, "learning_rate": 4.1793580897840787e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235413, "epoch": 2.7624056711639606, "step": 36240}, {"loss": 0.08235690593719483, "token_acc": 0.9700996677740864, "grad_norm": 1.0895726680755615, "learning_rate": 4.1781770059721445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23542, "epoch": 2.7627867977742206, "step": 36245}, {"loss": 0.06402266621589661, "token_acc": 0.9808612440191388, "grad_norm": 0.39658495783805847, "learning_rate": 4.176995969287943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23543, "epoch": 2.7631679243844807, "step": 36250}, {"loss": 0.09143427014350891, "token_acc": 0.9628732849071832, "grad_norm": 1.457228422164917, "learning_rate": 4.1758149797992054e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235439, "epoch": 2.7635490509947402, "step": 36255}, {"loss": 0.058904063701629636, "token_acc": 0.974091260634184, "grad_norm": 0.8689384460449219, "learning_rate": 4.174634037573654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235445, "epoch": 2.7639301776050003, "step": 36260}, {"loss": 0.068360435962677, "token_acc": 0.9778495102404274, "grad_norm": 0.46016544103622437, "learning_rate": 4.173453142679009e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235448, "epoch": 2.7643113042152603, "step": 36265}, {"loss": 0.060930836200714114, "token_acc": 0.9720767888307156, "grad_norm": 0.8173233866691589, "learning_rate": 4.1722722951829916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235455, "epoch": 2.7646924308255203, "step": 36270}, {"loss": 0.08112999200820922, "token_acc": 0.97109375, "grad_norm": 1.0083820819854736, "learning_rate": 4.1710914951533156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235464, "epoch": 2.7650735574357803, "step": 36275}, {"loss": 0.06332104802131652, "token_acc": 0.9739736070381232, "grad_norm": 2.1769845485687256, "learning_rate": 4.169910742657697e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23547, "epoch": 2.7654546840460403, "step": 36280}, {"loss": 0.05588276386260986, "token_acc": 0.9818644607063315, "grad_norm": 0.9891211986541748, "learning_rate": 4.1687300377638455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235479, "epoch": 2.7658358106563, "step": 36285}, {"loss": 0.0994698464870453, "token_acc": 0.9686591276252019, "grad_norm": 2.373494863510132, "learning_rate": 4.167549380539467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235487, "epoch": 2.76621693726656, "step": 36290}, {"loss": 0.07894558906555176, "token_acc": 0.9682322801024765, "grad_norm": 0.922339677810669, "learning_rate": 4.166368771052271e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235492, "epoch": 2.76659806387682, "step": 36295}, {"loss": 0.062323343753814694, "token_acc": 0.9726027397260274, "grad_norm": 0.22008441388607025, "learning_rate": 4.165188209369957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2355, "epoch": 2.76697919048708, "step": 36300}, {"loss": 0.07008575797080993, "token_acc": 0.9783503310073358, "grad_norm": 1.758994698524475, "learning_rate": 4.164007695560224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235507, "epoch": 2.7673603170973395, "step": 36305}, {"loss": 0.09704723358154296, "token_acc": 0.9657799944582987, "grad_norm": 0.9090166091918945, "learning_rate": 4.162827229690771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235509, "epoch": 2.7677414437075996, "step": 36310}, {"loss": 0.09053519368171692, "token_acc": 0.9680191603268526, "grad_norm": 1.928450584411621, "learning_rate": 4.161646811829291e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235514, "epoch": 2.7681225703178596, "step": 36315}, {"loss": 0.13967348337173463, "token_acc": 0.9474010861132661, "grad_norm": 1.560502052307129, "learning_rate": 4.160466442043475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235519, "epoch": 2.7685036969281196, "step": 36320}, {"loss": 0.07417197227478027, "token_acc": 0.9697370001200912, "grad_norm": 0.6211332082748413, "learning_rate": 4.159286120401015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235521, "epoch": 2.7688848235383796, "step": 36325}, {"loss": 0.08970252871513366, "token_acc": 0.9618456078083407, "grad_norm": 0.8066635131835938, "learning_rate": 4.158105846969593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235529, "epoch": 2.7692659501486396, "step": 36330}, {"loss": 0.08030766844749451, "token_acc": 0.9679044597872738, "grad_norm": 1.2891541719436646, "learning_rate": 4.156925621816894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235535, "epoch": 2.769647076758899, "step": 36335}, {"loss": 0.08223112225532532, "token_acc": 0.9674971126876754, "grad_norm": 0.8287607431411743, "learning_rate": 4.155745445010598e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235539, "epoch": 2.7700282033691592, "step": 36340}, {"loss": 0.08237577080726624, "token_acc": 0.9748587570621469, "grad_norm": 0.5788384675979614, "learning_rate": 4.154565316618384e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235546, "epoch": 2.7704093299794192, "step": 36345}, {"loss": 0.0916076123714447, "token_acc": 0.9666374012291484, "grad_norm": 0.8958272337913513, "learning_rate": 4.153385236707925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235551, "epoch": 2.770790456589679, "step": 36350}, {"loss": 0.06918643712997437, "token_acc": 0.9744045989597591, "grad_norm": 0.7509499788284302, "learning_rate": 4.152205205346894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235552, "epoch": 2.771171583199939, "step": 36355}, {"loss": 0.09540314078330994, "token_acc": 0.9716114210699048, "grad_norm": 0.718990683555603, "learning_rate": 4.15102522260296e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235559, "epoch": 2.771552709810199, "step": 36360}, {"loss": 0.06851948499679565, "token_acc": 0.9720868409393, "grad_norm": 0.884028434753418, "learning_rate": 4.149845288543791e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235564, "epoch": 2.771933836420459, "step": 36365}, {"loss": 0.11777944564819336, "token_acc": 0.9572309801233722, "grad_norm": 1.6565873622894287, "learning_rate": 4.148665403237047e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235568, "epoch": 2.772314963030719, "step": 36370}, {"loss": 0.07789106369018554, "token_acc": 0.966804979253112, "grad_norm": 1.0289907455444336, "learning_rate": 4.147485566750393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235574, "epoch": 2.772696089640979, "step": 36375}, {"loss": 0.08800234794616699, "token_acc": 0.9632784958871915, "grad_norm": 0.5598178505897522, "learning_rate": 4.1463057791514866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235579, "epoch": 2.773077216251239, "step": 36380}, {"loss": 0.058179455995559695, "token_acc": 0.9785207700101317, "grad_norm": 0.6030678749084473, "learning_rate": 4.14512604050798e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235586, "epoch": 2.7734583428614985, "step": 36385}, {"loss": 0.10248603820800781, "token_acc": 0.9730348511829051, "grad_norm": 0.25762659311294556, "learning_rate": 4.143946350887529e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235594, "epoch": 2.7738394694717585, "step": 36390}, {"loss": 0.07895773649215698, "token_acc": 0.967479674796748, "grad_norm": 1.3151499032974243, "learning_rate": 4.1427667103577824e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2356, "epoch": 2.7742205960820185, "step": 36395}, {"loss": 0.07168622016906738, "token_acc": 0.9727078891257995, "grad_norm": 0.522243082523346, "learning_rate": 4.141587118986388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235601, "epoch": 2.774601722692278, "step": 36400}, {"eval_loss": 0.07645303755998611, "eval_token_acc": 0.9676977290524668, "eval_runtime": 220.8907, "eval_samples_per_second": 2.399, "eval_steps_per_second": 2.399, "epoch": 2.774601722692278, "step": 36400}, {"loss": 0.13256523609161378, "token_acc": 0.9675535271414525, "grad_norm": 1.2162169218063354, "learning_rate": 4.140407576840985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235274, "epoch": 2.774982849302538, "step": 36405}, {"loss": 0.08124409914016724, "token_acc": 0.9695206428373511, "grad_norm": 0.6755419373512268, "learning_rate": 4.13922808398922e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235283, "epoch": 2.775363975912798, "step": 36410}, {"loss": 0.0857742428779602, "token_acc": 0.9713563605728728, "grad_norm": 2.6815364360809326, "learning_rate": 4.138048640498731e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235292, "epoch": 2.775745102523058, "step": 36415}, {"loss": 0.11509518623352051, "token_acc": 0.9640581187866428, "grad_norm": 1.8331245183944702, "learning_rate": 4.136869246437153e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235296, "epoch": 2.776126229133318, "step": 36420}, {"loss": 0.06862449645996094, "token_acc": 0.9699594544784371, "grad_norm": 0.4943867325782776, "learning_rate": 4.135689901872117e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235303, "epoch": 2.776507355743578, "step": 36425}, {"loss": 0.0933029294013977, "token_acc": 0.9696132596685083, "grad_norm": 1.251592755317688, "learning_rate": 4.1345106068712554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235313, "epoch": 2.776888482353838, "step": 36430}, {"loss": 0.09444934725761414, "token_acc": 0.9645120405576679, "grad_norm": 0.7031018137931824, "learning_rate": 4.133331361502194e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235314, "epoch": 2.777269608964098, "step": 36435}, {"loss": 0.06731322407722473, "token_acc": 0.9681245366938473, "grad_norm": 0.025030970573425293, "learning_rate": 4.1321521658325565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235322, "epoch": 2.777650735574358, "step": 36440}, {"loss": 0.11034375429153442, "token_acc": 0.9536423841059603, "grad_norm": 0.8849080204963684, "learning_rate": 4.130973019929965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235332, "epoch": 2.778031862184618, "step": 36445}, {"loss": 0.07208907604217529, "token_acc": 0.9758194519075766, "grad_norm": 0.6636297106742859, "learning_rate": 4.1297939238620386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23534, "epoch": 2.7784129887948774, "step": 36450}, {"loss": 0.06330386400222779, "token_acc": 0.9770869623475814, "grad_norm": 1.6018611192703247, "learning_rate": 4.128614877696393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23534, "epoch": 2.7787941154051374, "step": 36455}, {"loss": 0.06758404970169067, "token_acc": 0.9698403311649911, "grad_norm": 1.1094274520874023, "learning_rate": 4.1274358815006385e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23535, "epoch": 2.7791752420153975, "step": 36460}, {"loss": 0.1271100401878357, "token_acc": 0.9585654596100278, "grad_norm": 1.913881540298462, "learning_rate": 4.126256935342388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235359, "epoch": 2.7795563686256575, "step": 36465}, {"loss": 0.10310649871826172, "token_acc": 0.9540332147093713, "grad_norm": 1.7787593603134155, "learning_rate": 4.1250780392892485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235367, "epoch": 2.7799374952359175, "step": 36470}, {"loss": 0.08938018083572388, "token_acc": 0.9656862745098039, "grad_norm": 0.8732700347900391, "learning_rate": 4.123899193408822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235378, "epoch": 2.7803186218461775, "step": 36475}, {"loss": 0.05103349685668945, "token_acc": 0.973466641030571, "grad_norm": 0.7307310104370117, "learning_rate": 4.122720397768712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235382, "epoch": 2.780699748456437, "step": 36480}, {"loss": 0.07958240509033203, "token_acc": 0.9742044812652985, "grad_norm": 1.193358302116394, "learning_rate": 4.121541652436516e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235388, "epoch": 2.781080875066697, "step": 36485}, {"loss": 0.11204242706298828, "token_acc": 0.9503424657534246, "grad_norm": 1.086230993270874, "learning_rate": 4.1203629574798285e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235397, "epoch": 2.781462001676957, "step": 36490}, {"loss": 0.08108473420143128, "token_acc": 0.9720930232558139, "grad_norm": 1.2544385194778442, "learning_rate": 4.119184312966245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235401, "epoch": 2.781843128287217, "step": 36495}, {"loss": 0.06436741352081299, "token_acc": 0.9684512428298279, "grad_norm": 0.704272985458374, "learning_rate": 4.118005718963353e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235413, "epoch": 2.7822242548974767, "step": 36500}, {"loss": 0.08787984251976014, "token_acc": 0.9662212323682257, "grad_norm": 0.9944061636924744, "learning_rate": 4.116827175538741e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235418, "epoch": 2.7826053815077367, "step": 36505}, {"loss": 0.11848341226577759, "token_acc": 0.9532424158085165, "grad_norm": 1.3454316854476929, "learning_rate": 4.11564868275999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235426, "epoch": 2.7829865081179967, "step": 36510}, {"loss": 0.09040989875793456, "token_acc": 0.9662540274715957, "grad_norm": 1.0767661333084106, "learning_rate": 4.114470240694685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235431, "epoch": 2.7833676347282568, "step": 36515}, {"loss": 0.10079787969589234, "token_acc": 0.9621165328392012, "grad_norm": 1.2659990787506104, "learning_rate": 4.1132918494104015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235437, "epoch": 2.783748761338517, "step": 36520}, {"loss": 0.11501826047897339, "token_acc": 0.9582917912927883, "grad_norm": 0.74942946434021, "learning_rate": 4.1121135089747156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235444, "epoch": 2.784129887948777, "step": 36525}, {"loss": 0.08875986337661743, "token_acc": 0.9589930978481527, "grad_norm": 1.0585417747497559, "learning_rate": 4.1109352194552e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23545, "epoch": 2.7845110145590364, "step": 36530}, {"loss": 0.060883831977844236, "token_acc": 0.9772380291464261, "grad_norm": 1.0165746212005615, "learning_rate": 4.109756980919424e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235453, "epoch": 2.7848921411692964, "step": 36535}, {"loss": 0.050427043437957765, "token_acc": 0.9752377828796327, "grad_norm": 0.9741947650909424, "learning_rate": 4.108578793434951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235457, "epoch": 2.7852732677795564, "step": 36540}, {"loss": 0.11738067865371704, "token_acc": 0.9503311258278145, "grad_norm": 0.7384887933731079, "learning_rate": 4.1074006570693507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235464, "epoch": 2.7856543943898164, "step": 36545}, {"loss": 0.0851446270942688, "token_acc": 0.9665173308182032, "grad_norm": 0.7410151958465576, "learning_rate": 4.1062225718901795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235472, "epoch": 2.786035521000076, "step": 36550}, {"loss": 0.07792996168136597, "token_acc": 0.9788799240626483, "grad_norm": 0.6020153164863586, "learning_rate": 4.105044537964996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235479, "epoch": 2.786416647610336, "step": 36555}, {"loss": 0.09622241258621216, "token_acc": 0.9623644917160974, "grad_norm": 0.8210570812225342, "learning_rate": 4.1038665553613567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235486, "epoch": 2.786797774220596, "step": 36560}, {"loss": 0.09591569900512695, "token_acc": 0.9644038431249016, "grad_norm": 0.9296842217445374, "learning_rate": 4.10268862414681e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23549, "epoch": 2.787178900830856, "step": 36565}, {"loss": 0.09500133991241455, "token_acc": 0.9573371805441055, "grad_norm": 1.170676350593567, "learning_rate": 4.101510744388908e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235497, "epoch": 2.787560027441116, "step": 36570}, {"loss": 0.10960228443145752, "token_acc": 0.9546148810822606, "grad_norm": 1.4319919347763062, "learning_rate": 4.100332916155195e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235503, "epoch": 2.787941154051376, "step": 36575}, {"loss": 0.05863608121871948, "token_acc": 0.9613722312263642, "grad_norm": 0.7024170160293579, "learning_rate": 4.099155139513213e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235513, "epoch": 2.7883222806616357, "step": 36580}, {"loss": 0.09685714244842529, "token_acc": 0.9598082595870207, "grad_norm": 1.4978535175323486, "learning_rate": 4.097977414530505e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235518, "epoch": 2.7887034072718957, "step": 36585}, {"loss": 0.0978753924369812, "token_acc": 0.9628174123337364, "grad_norm": 1.4491987228393555, "learning_rate": 4.096799741274606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235526, "epoch": 2.7890845338821557, "step": 36590}, {"loss": 0.0904083013534546, "token_acc": 0.9655629139072848, "grad_norm": 1.3727492094039917, "learning_rate": 4.09562211981305e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235535, "epoch": 2.7894656604924157, "step": 36595}, {"loss": 0.1301613688468933, "token_acc": 0.9525022747952684, "grad_norm": 1.0467239618301392, "learning_rate": 4.094444550213369e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235541, "epoch": 2.7898467871026753, "step": 36600}, {"eval_loss": 0.07642733305692673, "eval_token_acc": 0.9678332630564423, "eval_runtime": 216.2575, "eval_samples_per_second": 2.451, "eval_steps_per_second": 2.451, "epoch": 2.7898467871026753, "step": 36600}, {"loss": 0.06338745951652527, "token_acc": 0.9677159707892464, "grad_norm": 0.40056517720222473, "learning_rate": 4.093267032543091e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235222, "epoch": 2.7902279137129353, "step": 36605}, {"loss": 0.04842616319656372, "token_acc": 0.9807930607187113, "grad_norm": 1.1515675783157349, "learning_rate": 4.0920895668697414e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235229, "epoch": 2.7906090403231953, "step": 36610}, {"loss": 0.06429333686828613, "token_acc": 0.966078431372549, "grad_norm": 1.4294439554214478, "learning_rate": 4.09091215326084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235237, "epoch": 2.7909901669334554, "step": 36615}, {"loss": 0.06859900951385497, "token_acc": 0.9770878299850573, "grad_norm": 0.6767603754997253, "learning_rate": 4.089734791783909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235242, "epoch": 2.7913712935437154, "step": 36620}, {"loss": 0.08225930333137513, "token_acc": 0.9716098334655036, "grad_norm": 0.6418783664703369, "learning_rate": 4.088557482506464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235246, "epoch": 2.7917524201539754, "step": 36625}, {"loss": 0.07174615859985352, "token_acc": 0.967371229222245, "grad_norm": 1.0925025939941406, "learning_rate": 4.087380225496017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235252, "epoch": 2.792133546764235, "step": 36630}, {"loss": 0.06293715238571167, "token_acc": 0.9766718506998445, "grad_norm": 0.9911214709281921, "learning_rate": 4.08620302082008e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235261, "epoch": 2.792514673374495, "step": 36635}, {"loss": 0.07545194625854493, "token_acc": 0.9535617673579802, "grad_norm": 0.5798222422599792, "learning_rate": 4.0850258685461585e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235271, "epoch": 2.792895799984755, "step": 36640}, {"loss": 0.09164856076240539, "token_acc": 0.9734885224700938, "grad_norm": 0.656215488910675, "learning_rate": 4.083848768741757e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23528, "epoch": 2.7932769265950146, "step": 36645}, {"loss": 0.09737058877944946, "token_acc": 0.9666367252662647, "grad_norm": 0.8668796420097351, "learning_rate": 4.082671721474378e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235283, "epoch": 2.7936580532052746, "step": 36650}, {"loss": 0.12800090312957763, "token_acc": 0.9596987315010571, "grad_norm": 0.9103873372077942, "learning_rate": 4.0814947268115184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235289, "epoch": 2.7940391798155346, "step": 36655}, {"loss": 0.09216012358665467, "token_acc": 0.9637705467963771, "grad_norm": 1.0717148780822754, "learning_rate": 4.080317784820673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235299, "epoch": 2.7944203064257946, "step": 36660}, {"loss": 0.04761860370635986, "token_acc": 0.9757240204429302, "grad_norm": 0.7615875005722046, "learning_rate": 4.079140895569337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23531, "epoch": 2.7948014330360547, "step": 36665}, {"loss": 0.08474367260932922, "token_acc": 0.9658048373644704, "grad_norm": 1.024062991142273, "learning_rate": 4.077964059124996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23532, "epoch": 2.7951825596463147, "step": 36670}, {"loss": 0.12462332248687744, "token_acc": 0.9592261904761905, "grad_norm": 1.5493580102920532, "learning_rate": 4.076787275555135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235326, "epoch": 2.7955636862565747, "step": 36675}, {"loss": 0.0643521249294281, "token_acc": 0.9702970297029703, "grad_norm": 0.5942776799201965, "learning_rate": 4.075610544927243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235331, "epoch": 2.7959448128668343, "step": 36680}, {"loss": 0.07752467393875122, "token_acc": 0.9726590854101137, "grad_norm": 0.9140352010726929, "learning_rate": 4.074433867308795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23534, "epoch": 2.7963259394770943, "step": 36685}, {"loss": 0.10140366554260254, "token_acc": 0.9670273055126224, "grad_norm": 2.738765239715576, "learning_rate": 4.07325724276727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235349, "epoch": 2.7967070660873543, "step": 36690}, {"loss": 0.10834966897964478, "token_acc": 0.9661234991423671, "grad_norm": 1.4033223390579224, "learning_rate": 4.072080671370142e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235358, "epoch": 2.797088192697614, "step": 36695}, {"loss": 0.08157490491867066, "token_acc": 0.9655453065653825, "grad_norm": 0.9291077256202698, "learning_rate": 4.07090415318488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235361, "epoch": 2.797469319307874, "step": 36700}, {"loss": 0.08174354434013367, "token_acc": 0.9724358974358974, "grad_norm": 0.6391225457191467, "learning_rate": 4.069727688278955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23537, "epoch": 2.797850445918134, "step": 36705}, {"loss": 0.06498481631278992, "token_acc": 0.9729326115363076, "grad_norm": 1.0302814245224, "learning_rate": 4.06855127671983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235375, "epoch": 2.798231572528394, "step": 36710}, {"loss": 0.09835391640663146, "token_acc": 0.9571192963166575, "grad_norm": 1.0147652626037598, "learning_rate": 4.0673749185749654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235387, "epoch": 2.798612699138654, "step": 36715}, {"loss": 0.08342958688735962, "token_acc": 0.9617607070020394, "grad_norm": 1.1075419187545776, "learning_rate": 4.066198613911822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235393, "epoch": 2.798993825748914, "step": 36720}, {"loss": 0.11905139684677124, "token_acc": 0.9503163815326927, "grad_norm": 1.3226616382598877, "learning_rate": 4.0650223627978554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235401, "epoch": 2.7993749523591736, "step": 36725}, {"loss": 0.08005784749984741, "token_acc": 0.9805961754780652, "grad_norm": 1.494226098060608, "learning_rate": 4.063846165300518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23541, "epoch": 2.7997560789694336, "step": 36730}, {"loss": 0.09067997932434083, "token_acc": 0.9654282765737874, "grad_norm": 1.0193595886230469, "learning_rate": 4.062670021487256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235416, "epoch": 2.8001372055796936, "step": 36735}, {"loss": 0.11200917959213257, "token_acc": 0.9526081424936387, "grad_norm": 0.9789173603057861, "learning_rate": 4.061493931425521e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235425, "epoch": 2.8005183321899536, "step": 36740}, {"loss": 0.11819676160812378, "token_acc": 0.9545560475413657, "grad_norm": 1.67096745967865, "learning_rate": 4.0603178951827536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235432, "epoch": 2.800899458800213, "step": 36745}, {"loss": 0.11247262954711915, "token_acc": 0.9625, "grad_norm": 1.0002846717834473, "learning_rate": 4.059141912826393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235435, "epoch": 2.801280585410473, "step": 36750}, {"loss": 0.09238088726997376, "token_acc": 0.957391713747646, "grad_norm": 1.2062668800354004, "learning_rate": 4.057965984423879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235443, "epoch": 2.801661712020733, "step": 36755}, {"loss": 0.08172243237495422, "token_acc": 0.966756294304571, "grad_norm": 1.239045262336731, "learning_rate": 4.056790110042644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235449, "epoch": 2.8020428386309932, "step": 36760}, {"loss": 0.0768383264541626, "token_acc": 0.9704312114989733, "grad_norm": 0.6657172441482544, "learning_rate": 4.0556142897501174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235456, "epoch": 2.8024239652412533, "step": 36765}, {"loss": 0.055221033096313474, "token_acc": 0.9761222540592168, "grad_norm": 1.4484046697616577, "learning_rate": 4.0544385236137305e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235465, "epoch": 2.8028050918515133, "step": 36770}, {"loss": 0.08206046223640442, "token_acc": 0.9619120654396728, "grad_norm": 0.8007888197898865, "learning_rate": 4.0532628117009066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235474, "epoch": 2.803186218461773, "step": 36775}, {"loss": 0.06869337558746338, "token_acc": 0.9816939890710382, "grad_norm": 1.5043879747390747, "learning_rate": 4.052087154079066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235482, "epoch": 2.803567345072033, "step": 36780}, {"loss": 0.06745745539665222, "token_acc": 0.9626168224299065, "grad_norm": 1.84316086769104, "learning_rate": 4.0509115508156284e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235489, "epoch": 2.803948471682293, "step": 36785}, {"loss": 0.08040390610694885, "token_acc": 0.9733291983253217, "grad_norm": 0.8834179043769836, "learning_rate": 4.0497360019780096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235494, "epoch": 2.804329598292553, "step": 36790}, {"loss": 0.06423368453979492, "token_acc": 0.9733741978737669, "grad_norm": 0.7222166061401367, "learning_rate": 4.048560507633621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235495, "epoch": 2.8047107249028125, "step": 36795}, {"loss": 0.09731810092926026, "token_acc": 0.9520016767973172, "grad_norm": 0.9137911200523376, "learning_rate": 4.0473850678498716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235501, "epoch": 2.8050918515130725, "step": 36800}, {"eval_loss": 0.07635236531496048, "eval_token_acc": 0.9681419793988314, "eval_runtime": 215.1752, "eval_samples_per_second": 2.463, "eval_steps_per_second": 2.463, "epoch": 2.8050918515130725, "step": 36800}, {"loss": 0.08730719089508057, "token_acc": 0.9681948612358443, "grad_norm": 1.1574220657348633, "learning_rate": 4.046209682694169e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235185, "epoch": 2.8054729781233325, "step": 36805}, {"loss": 0.04637258052825928, "token_acc": 0.9785867237687366, "grad_norm": 0.4871918261051178, "learning_rate": 4.045034352233912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235196, "epoch": 2.8058541047335925, "step": 36810}, {"loss": 0.0716752290725708, "token_acc": 0.9705882352941176, "grad_norm": 1.2497634887695312, "learning_rate": 4.043859076536506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2352, "epoch": 2.8062352313438526, "step": 36815}, {"loss": 0.08512197136878967, "token_acc": 0.9691931540342298, "grad_norm": 0.7433101534843445, "learning_rate": 4.042683855669344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235205, "epoch": 2.8066163579541126, "step": 36820}, {"loss": 0.06816704273223877, "token_acc": 0.9718354936789887, "grad_norm": 0.9254250526428223, "learning_rate": 4.041508689699821e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235212, "epoch": 2.806997484564372, "step": 36825}, {"loss": 0.09206663966178893, "token_acc": 0.9578049846961084, "grad_norm": 1.375670075416565, "learning_rate": 4.0403335786953275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235218, "epoch": 2.807378611174632, "step": 36830}, {"loss": 0.08337479829788208, "token_acc": 0.9745938472174214, "grad_norm": 0.5542064309120178, "learning_rate": 4.039158522723249e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235223, "epoch": 2.807759737784892, "step": 36835}, {"loss": 0.10555912256240844, "token_acc": 0.9663899574812715, "grad_norm": 2.0370168685913086, "learning_rate": 4.03798352185097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235231, "epoch": 2.808140864395152, "step": 36840}, {"loss": 0.10478427410125732, "token_acc": 0.9606548719302879, "grad_norm": 2.373049736022949, "learning_rate": 4.036808576145872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23524, "epoch": 2.8085219910054118, "step": 36845}, {"loss": 0.09056482315063477, "token_acc": 0.9699723429474516, "grad_norm": 1.202152132987976, "learning_rate": 4.035633685675333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235247, "epoch": 2.808903117615672, "step": 36850}, {"loss": 0.042677664756774904, "token_acc": 0.9773396782234308, "grad_norm": 0.754456639289856, "learning_rate": 4.034458850506726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235255, "epoch": 2.809284244225932, "step": 36855}, {"loss": 0.10294344425201415, "token_acc": 0.963991527418216, "grad_norm": 1.0163607597351074, "learning_rate": 4.0332840707074235e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235263, "epoch": 2.809665370836192, "step": 36860}, {"loss": 0.04769116342067718, "token_acc": 0.9779563719862228, "grad_norm": 1.2148113250732422, "learning_rate": 4.032109346344795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23527, "epoch": 2.810046497446452, "step": 36865}, {"loss": 0.08967609405517578, "token_acc": 0.9637497892429607, "grad_norm": 0.7905786633491516, "learning_rate": 4.030934677486201e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235277, "epoch": 2.810427624056712, "step": 36870}, {"loss": 0.06143359541893005, "token_acc": 0.9812206572769953, "grad_norm": 0.6032323837280273, "learning_rate": 4.029760064199009e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235283, "epoch": 2.8108087506669714, "step": 36875}, {"loss": 0.0717646598815918, "token_acc": 0.974146185764443, "grad_norm": 1.2043129205703735, "learning_rate": 4.028585506550574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235291, "epoch": 2.8111898772772315, "step": 36880}, {"loss": 0.10287641286849976, "token_acc": 0.9690311418685121, "grad_norm": 0.6496508121490479, "learning_rate": 4.027411004608251e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235296, "epoch": 2.8115710038874915, "step": 36885}, {"loss": 0.12701424360275268, "token_acc": 0.944979794839913, "grad_norm": 1.0407556295394897, "learning_rate": 4.026236558439394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235305, "epoch": 2.8119521304977515, "step": 36890}, {"loss": 0.09326013326644897, "token_acc": 0.9709443099273608, "grad_norm": 0.8468184471130371, "learning_rate": 4.025062168111353e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235311, "epoch": 2.812333257108011, "step": 36895}, {"loss": 0.09739107489585877, "token_acc": 0.9736919029523531, "grad_norm": 0.7214844822883606, "learning_rate": 4.023887833691471e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235321, "epoch": 2.812714383718271, "step": 36900}, {"loss": 0.06845536231994628, "token_acc": 0.9745293466223699, "grad_norm": 1.2149076461791992, "learning_rate": 4.0227135552470927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235328, "epoch": 2.813095510328531, "step": 36905}, {"loss": 0.09929978847503662, "token_acc": 0.9630504072718687, "grad_norm": 0.8331543207168579, "learning_rate": 4.021539332845557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235326, "epoch": 2.813476636938791, "step": 36910}, {"loss": 0.06204451322555542, "token_acc": 0.9702026221692491, "grad_norm": 1.249104619026184, "learning_rate": 4.0203651665542e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235335, "epoch": 2.813857763549051, "step": 36915}, {"loss": 0.05535479784011841, "token_acc": 0.9789674952198852, "grad_norm": 0.7015763521194458, "learning_rate": 4.019191056440353e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235345, "epoch": 2.814238890159311, "step": 36920}, {"loss": 0.08181743025779724, "token_acc": 0.9627031019202363, "grad_norm": 0.8901872634887695, "learning_rate": 4.0180170025713484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235354, "epoch": 2.8146200167695707, "step": 36925}, {"loss": 0.06646875143051148, "token_acc": 0.9758750247182124, "grad_norm": 0.7533461451530457, "learning_rate": 4.0168430050145125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23536, "epoch": 2.8150011433798308, "step": 36930}, {"loss": 0.08506077527999878, "token_acc": 0.9669811320754716, "grad_norm": 1.0599215030670166, "learning_rate": 4.015669063837167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235368, "epoch": 2.815382269990091, "step": 36935}, {"loss": 0.10604052543640137, "token_acc": 0.9700194873332334, "grad_norm": 1.1567624807357788, "learning_rate": 4.014495179106632e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235373, "epoch": 2.815763396600351, "step": 36940}, {"loss": 0.0680406391620636, "token_acc": 0.9750912604681126, "grad_norm": 1.0826857089996338, "learning_rate": 4.013321350890226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235378, "epoch": 2.8161445232106104, "step": 36945}, {"loss": 0.06095672845840454, "token_acc": 0.968032647508927, "grad_norm": 0.6640536785125732, "learning_rate": 4.012147579255262e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235383, "epoch": 2.8165256498208704, "step": 36950}, {"loss": 0.12544753551483154, "token_acc": 0.9538718929254302, "grad_norm": 0.6961215138435364, "learning_rate": 4.010973864269051e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235392, "epoch": 2.8169067764311304, "step": 36955}, {"loss": 0.0820692539215088, "token_acc": 0.9663127059685097, "grad_norm": 0.5102221965789795, "learning_rate": 4.009800205998897e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235397, "epoch": 2.8172879030413904, "step": 36960}, {"loss": 0.04682015180587769, "token_acc": 0.9781560283687943, "grad_norm": 0.045260608196258545, "learning_rate": 4.008626604512108e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235406, "epoch": 2.8176690296516504, "step": 36965}, {"loss": 0.10248687267303466, "token_acc": 0.9698197285801093, "grad_norm": 1.443069577217102, "learning_rate": 4.007453059875983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235411, "epoch": 2.8180501562619105, "step": 36970}, {"loss": 0.07119889259338379, "token_acc": 0.9754290171606864, "grad_norm": 1.5521090030670166, "learning_rate": 4.006279572157817e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235422, "epoch": 2.81843128287217, "step": 36975}, {"loss": 0.07963992357254028, "token_acc": 0.969797958758592, "grad_norm": 0.5529496669769287, "learning_rate": 4.005106141424908e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235429, "epoch": 2.81881240948243, "step": 36980}, {"loss": 0.07668164968490601, "token_acc": 0.9701456310679611, "grad_norm": 0.8216714262962341, "learning_rate": 4.003932767744545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235436, "epoch": 2.81919353609269, "step": 36985}, {"loss": 0.1049383044242859, "token_acc": 0.9604819277108434, "grad_norm": 0.9717664122581482, "learning_rate": 4.0027594511840136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235442, "epoch": 2.8195746627029497, "step": 36990}, {"loss": 0.0885585069656372, "token_acc": 0.9661538461538461, "grad_norm": 1.0794439315795898, "learning_rate": 4.0015861918106016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235451, "epoch": 2.8199557893132097, "step": 36995}, {"loss": 0.12776585817337036, "token_acc": 0.9549242424242425, "grad_norm": 3.250413656234741, "learning_rate": 4.000412989691588e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235461, "epoch": 2.8203369159234697, "step": 37000}, {"eval_loss": 0.07391706854104996, "eval_token_acc": 0.9683302210710198, "eval_runtime": 219.3961, "eval_samples_per_second": 2.416, "eval_steps_per_second": 2.416, "epoch": 2.8203369159234697, "step": 37000}, {"loss": 0.13115190267562865, "token_acc": 0.9679376083188909, "grad_norm": 1.1751999855041504, "learning_rate": 3.999239844894251e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235137, "epoch": 2.8207180425337297, "step": 37005}, {"loss": 0.06140064001083374, "token_acc": 0.9669980119284294, "grad_norm": 0.5355262756347656, "learning_rate": 3.998066757485863e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235147, "epoch": 2.8210991691439897, "step": 37010}, {"loss": 0.05486927032470703, "token_acc": 0.9738219895287958, "grad_norm": 0.9067244529724121, "learning_rate": 3.9968937275336995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235151, "epoch": 2.8214802957542497, "step": 37015}, {"loss": 0.08770846128463745, "token_acc": 0.9645661750622486, "grad_norm": 1.1822378635406494, "learning_rate": 3.9957207551050243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235157, "epoch": 2.8218614223645098, "step": 37020}, {"loss": 0.06765681505203247, "token_acc": 0.9709281328999639, "grad_norm": 1.6147971153259277, "learning_rate": 3.994547840267103e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235162, "epoch": 2.8222425489747693, "step": 37025}, {"loss": 0.08962969183921814, "token_acc": 0.9693816884661117, "grad_norm": 2.579986810684204, "learning_rate": 3.993374983087198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235168, "epoch": 2.8226236755850294, "step": 37030}, {"loss": 0.07182464599609376, "token_acc": 0.9739983646770237, "grad_norm": 0.4994626045227051, "learning_rate": 3.992202183632567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235171, "epoch": 2.8230048021952894, "step": 37035}, {"loss": 0.07686096429824829, "token_acc": 0.9675938428301377, "grad_norm": 1.139796495437622, "learning_rate": 3.991029441970462e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23518, "epoch": 2.823385928805549, "step": 37040}, {"loss": 0.08141154050827026, "token_acc": 0.9714334296888284, "grad_norm": 1.5872453451156616, "learning_rate": 3.989856758168138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235183, "epoch": 2.823767055415809, "step": 37045}, {"loss": 0.0812134325504303, "token_acc": 0.9753887966178469, "grad_norm": 0.8142287731170654, "learning_rate": 3.9886841322928415e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235188, "epoch": 2.824148182026069, "step": 37050}, {"loss": 0.11091704368591308, "token_acc": 0.9615530303030303, "grad_norm": 0.7422438859939575, "learning_rate": 3.9875115644118156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235194, "epoch": 2.824529308636329, "step": 37055}, {"loss": 0.08091414570808411, "token_acc": 0.970703125, "grad_norm": 1.0799150466918945, "learning_rate": 3.9863390545923036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235201, "epoch": 2.824910435246589, "step": 37060}, {"loss": 0.13060142993927001, "token_acc": 0.9403354412977729, "grad_norm": 1.383588194847107, "learning_rate": 3.9851666029015436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235211, "epoch": 2.825291561856849, "step": 37065}, {"loss": 0.09031330943107604, "token_acc": 0.9721867823424343, "grad_norm": 1.1318490505218506, "learning_rate": 3.9839942094067684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235219, "epoch": 2.8256726884671086, "step": 37070}, {"loss": 0.08069726228713989, "token_acc": 0.9722499169159189, "grad_norm": 0.8360273838043213, "learning_rate": 3.9828218741752093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235222, "epoch": 2.8260538150773686, "step": 37075}, {"loss": 0.10121493339538574, "token_acc": 0.9612969183584051, "grad_norm": 0.8736184239387512, "learning_rate": 3.9816495972740965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235227, "epoch": 2.8264349416876287, "step": 37080}, {"loss": 0.08203986883163453, "token_acc": 0.9728803882386526, "grad_norm": 1.1784236431121826, "learning_rate": 3.980477378770654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235234, "epoch": 2.8268160682978887, "step": 37085}, {"loss": 0.08631514310836792, "token_acc": 0.967235494880546, "grad_norm": 1.543839454650879, "learning_rate": 3.979305218732104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235246, "epoch": 2.8271971949081482, "step": 37090}, {"loss": 0.07424243688583373, "token_acc": 0.9763934426229508, "grad_norm": 1.9943255186080933, "learning_rate": 3.97813311722566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235253, "epoch": 2.8275783215184083, "step": 37095}, {"loss": 0.11411020755767823, "token_acc": 0.9557297671201291, "grad_norm": 1.2927846908569336, "learning_rate": 3.976961074318542e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235261, "epoch": 2.8279594481286683, "step": 37100}, {"loss": 0.10129848718643189, "token_acc": 0.9709421112372304, "grad_norm": 1.0905365943908691, "learning_rate": 3.975789090077959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235267, "epoch": 2.8283405747389283, "step": 37105}, {"loss": 0.08270695805549622, "token_acc": 0.9666121112929623, "grad_norm": 0.5565839409828186, "learning_rate": 3.974617164571118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23527, "epoch": 2.8287217013491883, "step": 37110}, {"loss": 0.11617907285690307, "token_acc": 0.9561986703167775, "grad_norm": 0.7808406352996826, "learning_rate": 3.973445297865224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235278, "epoch": 2.8291028279594483, "step": 37115}, {"loss": 0.05223644375801086, "token_acc": 0.9763727121464226, "grad_norm": 0.46499618887901306, "learning_rate": 3.972273490027479e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235287, "epoch": 2.829483954569708, "step": 37120}, {"loss": 0.07091000080108642, "token_acc": 0.967443091582848, "grad_norm": 0.7660902738571167, "learning_rate": 3.97110174112508e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235294, "epoch": 2.829865081179968, "step": 37125}, {"loss": 0.10268213748931884, "token_acc": 0.9605168700646087, "grad_norm": 1.2747206687927246, "learning_rate": 3.969930051225221e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235303, "epoch": 2.830246207790228, "step": 37130}, {"loss": 0.07852541804313659, "token_acc": 0.9627055825804958, "grad_norm": 1.050632119178772, "learning_rate": 3.9687584203950936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23531, "epoch": 2.830627334400488, "step": 37135}, {"loss": 0.07245814800262451, "token_acc": 0.9733201581027668, "grad_norm": 0.6592636108398438, "learning_rate": 3.967586848701886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235316, "epoch": 2.8310084610107475, "step": 37140}, {"loss": 0.09650664329528809, "token_acc": 0.9565306963329213, "grad_norm": 1.0048855543136597, "learning_rate": 3.9664153362127805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235323, "epoch": 2.8313895876210076, "step": 37145}, {"loss": 0.11208385229110718, "token_acc": 0.9655730129390019, "grad_norm": 1.3832238912582397, "learning_rate": 3.96524388299496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235329, "epoch": 2.8317707142312676, "step": 37150}, {"loss": 0.07781385183334351, "token_acc": 0.9601722282023681, "grad_norm": 0.8861879706382751, "learning_rate": 3.964072489115601e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235339, "epoch": 2.8321518408415276, "step": 37155}, {"loss": 0.04949742555618286, "token_acc": 0.9698568198944989, "grad_norm": 1.2923848628997803, "learning_rate": 3.9629011546418765e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235347, "epoch": 2.8325329674517876, "step": 37160}, {"loss": 0.06599857211112976, "token_acc": 0.979084519115378, "grad_norm": 0.5005874037742615, "learning_rate": 3.961729879640959e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235352, "epoch": 2.8329140940620476, "step": 37165}, {"loss": 0.04505498707294464, "token_acc": 0.9806001818732949, "grad_norm": 0.47089096903800964, "learning_rate": 3.9605586641800145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235356, "epoch": 2.833295220672307, "step": 37170}, {"loss": 0.09503658413887024, "token_acc": 0.9631517960602549, "grad_norm": 0.8457223773002625, "learning_rate": 3.959387508326207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235364, "epoch": 2.8336763472825672, "step": 37175}, {"loss": 0.09132510423660278, "token_acc": 0.9707643536456498, "grad_norm": 1.1616133451461792, "learning_rate": 3.958216412146696e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23537, "epoch": 2.8340574738928273, "step": 37180}, {"loss": 0.10978183746337891, "token_acc": 0.9627534181989628, "grad_norm": 1.6323531866073608, "learning_rate": 3.9570453757086405e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235377, "epoch": 2.8344386005030873, "step": 37185}, {"loss": 0.09096361398696899, "token_acc": 0.9619116061803809, "grad_norm": 0.37861520051956177, "learning_rate": 3.955874399079193e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235387, "epoch": 2.834819727113347, "step": 37190}, {"loss": 0.0527302622795105, "token_acc": 0.9728301886792453, "grad_norm": 1.0373079776763916, "learning_rate": 3.954703482325502e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235396, "epoch": 2.835200853723607, "step": 37195}, {"loss": 0.08107391595840455, "token_acc": 0.9711229946524064, "grad_norm": 1.0132797956466675, "learning_rate": 3.9535326255147166e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235402, "epoch": 2.835581980333867, "step": 37200}, {"eval_loss": 0.07531843334436417, "eval_token_acc": 0.9681118607312812, "eval_runtime": 220.8145, "eval_samples_per_second": 2.4, "eval_steps_per_second": 2.4, "epoch": 2.835581980333867, "step": 37200}, {"loss": 0.11442897319793702, "token_acc": 0.9679359303183754, "grad_norm": 0.7924807667732239, "learning_rate": 3.952361828713978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235081, "epoch": 2.835963106944127, "step": 37205}, {"loss": 0.0818480372428894, "token_acc": 0.9716363636363636, "grad_norm": 0.6689233779907227, "learning_rate": 3.951191091990426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235085, "epoch": 2.836344233554387, "step": 37210}, {"loss": 0.07830572724342347, "token_acc": 0.9694656488549618, "grad_norm": 0.6019874811172485, "learning_rate": 3.950020415411199e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23509, "epoch": 2.836725360164647, "step": 37215}, {"loss": 0.07112939953804016, "token_acc": 0.9757971571263926, "grad_norm": 0.6677398085594177, "learning_rate": 3.9488497990434295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2351, "epoch": 2.8371064867749065, "step": 37220}, {"loss": 0.0926108717918396, "token_acc": 0.9727996461742592, "grad_norm": 0.6930105686187744, "learning_rate": 3.9476792429542455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235107, "epoch": 2.8374876133851665, "step": 37225}, {"loss": 0.0855736792087555, "token_acc": 0.9608900876601484, "grad_norm": 1.8544495105743408, "learning_rate": 3.9465087472107746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235114, "epoch": 2.8378687399954265, "step": 37230}, {"loss": 0.05204768180847168, "token_acc": 0.9761336515513126, "grad_norm": 0.7679210305213928, "learning_rate": 3.9453383118801356e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235123, "epoch": 2.8382498666056866, "step": 37235}, {"loss": 0.05148593187332153, "token_acc": 0.9753818098928653, "grad_norm": 0.8050784468650818, "learning_rate": 3.944167937029453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23513, "epoch": 2.838630993215946, "step": 37240}, {"loss": 0.07024246454238892, "token_acc": 0.9783154530929011, "grad_norm": 1.5313812494277954, "learning_rate": 3.942997622725838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23513, "epoch": 2.839012119826206, "step": 37245}, {"loss": 0.06141210794448852, "token_acc": 0.967756381549485, "grad_norm": 1.621543288230896, "learning_rate": 3.941827369036404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235141, "epoch": 2.839393246436466, "step": 37250}, {"loss": 0.11061840057373047, "token_acc": 0.9607021220854074, "grad_norm": 1.3409210443496704, "learning_rate": 3.940657176028261e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235149, "epoch": 2.839774373046726, "step": 37255}, {"loss": 0.08258526921272277, "token_acc": 0.9642663779101245, "grad_norm": 0.7905392646789551, "learning_rate": 3.939487043768513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235156, "epoch": 2.840155499656986, "step": 37260}, {"loss": 0.11182751655578613, "token_acc": 0.9620253164556962, "grad_norm": 0.476076602935791, "learning_rate": 3.93831697232426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235168, "epoch": 2.8405366262672462, "step": 37265}, {"loss": 0.10456565618515015, "token_acc": 0.9511568123393316, "grad_norm": 2.4273130893707275, "learning_rate": 3.9371469617626036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235176, "epoch": 2.840917752877506, "step": 37270}, {"loss": 0.08522037267684937, "token_acc": 0.9686330422384601, "grad_norm": 1.2171694040298462, "learning_rate": 3.935977012150636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235182, "epoch": 2.841298879487766, "step": 37275}, {"loss": 0.08187426924705506, "token_acc": 0.9641818181818181, "grad_norm": 1.3108835220336914, "learning_rate": 3.934807123555449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235187, "epoch": 2.841680006098026, "step": 37280}, {"loss": 0.08537745475769043, "token_acc": 0.9546848381601363, "grad_norm": 1.1976078748703003, "learning_rate": 3.93363729604413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235196, "epoch": 2.8420611327082854, "step": 37285}, {"loss": 0.09837604761123657, "token_acc": 0.9540463603090688, "grad_norm": 1.2470980882644653, "learning_rate": 3.9324675296837646e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235205, "epoch": 2.8424422593185454, "step": 37290}, {"loss": 0.10673336982727051, "token_acc": 0.9590491410307631, "grad_norm": 1.489729881286621, "learning_rate": 3.931297824541432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235212, "epoch": 2.8428233859288055, "step": 37295}, {"loss": 0.1026721715927124, "token_acc": 0.9604190919674039, "grad_norm": 1.4418636560440063, "learning_rate": 3.930128180684209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235221, "epoch": 2.8432045125390655, "step": 37300}, {"loss": 0.0649897038936615, "token_acc": 0.9703912583715192, "grad_norm": 0.8947908878326416, "learning_rate": 3.928958598179172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235231, "epoch": 2.8435856391493255, "step": 37305}, {"loss": 0.0812071442604065, "token_acc": 0.9669649002064694, "grad_norm": 0.9955778121948242, "learning_rate": 3.927789077093388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235234, "epoch": 2.8439667657595855, "step": 37310}, {"loss": 0.07952761650085449, "token_acc": 0.9605695509309967, "grad_norm": 1.2245725393295288, "learning_rate": 3.9266196174939235e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235242, "epoch": 2.8443478923698455, "step": 37315}, {"loss": 0.09536066055297851, "token_acc": 0.9637937124690922, "grad_norm": 0.8701687455177307, "learning_rate": 3.925450219447844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235249, "epoch": 2.844729018980105, "step": 37320}, {"loss": 0.06593762636184693, "token_acc": 0.9756036843415484, "grad_norm": 1.5913084745407104, "learning_rate": 3.9242808830222086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235256, "epoch": 2.845110145590365, "step": 37325}, {"loss": 0.06542204022407531, "token_acc": 0.9696691176470589, "grad_norm": 0.4090445637702942, "learning_rate": 3.923111608284071e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235263, "epoch": 2.845491272200625, "step": 37330}, {"loss": 0.09544023275375366, "token_acc": 0.9683487271908088, "grad_norm": 0.7415654063224792, "learning_rate": 3.921942395300486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235266, "epoch": 2.8458723988108847, "step": 37335}, {"loss": 0.1308335542678833, "token_acc": 0.9447531873161163, "grad_norm": 1.7409909963607788, "learning_rate": 3.9207732441385e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235274, "epoch": 2.8462535254211447, "step": 37340}, {"loss": 0.05408849120140076, "token_acc": 0.9752776031845799, "grad_norm": 0.8360950350761414, "learning_rate": 3.919604154865163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235279, "epoch": 2.8466346520314048, "step": 37345}, {"loss": 0.09584521055221558, "token_acc": 0.9658065869519614, "grad_norm": 2.114609956741333, "learning_rate": 3.918435127547514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235284, "epoch": 2.8470157786416648, "step": 37350}, {"loss": 0.07180578112602234, "token_acc": 0.9726893997839839, "grad_norm": 0.7424201369285583, "learning_rate": 3.9172661622525894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23529, "epoch": 2.847396905251925, "step": 37355}, {"loss": 0.07142413258552552, "token_acc": 0.9751449875724938, "grad_norm": 0.5499105453491211, "learning_rate": 3.9160972590474274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235295, "epoch": 2.847778031862185, "step": 37360}, {"loss": 0.08360521793365479, "token_acc": 0.9642493823572155, "grad_norm": 1.567277193069458, "learning_rate": 3.914928417999058e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235299, "epoch": 2.8481591584724444, "step": 37365}, {"loss": 0.06911305785179138, "token_acc": 0.9762390941154632, "grad_norm": 0.5081021189689636, "learning_rate": 3.913759639174507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235304, "epoch": 2.8485402850827044, "step": 37370}, {"loss": 0.0903830885887146, "token_acc": 0.9642622231966674, "grad_norm": 1.2233604192733765, "learning_rate": 3.912590922640801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235309, "epoch": 2.8489214116929644, "step": 37375}, {"loss": 0.0876248836517334, "token_acc": 0.961027713625866, "grad_norm": 0.7939669489860535, "learning_rate": 3.91142226846496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235318, "epoch": 2.8493025383032244, "step": 37380}, {"loss": 0.08891031742095948, "token_acc": 0.9639936881365657, "grad_norm": 1.6148709058761597, "learning_rate": 3.9102536767139985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235324, "epoch": 2.849683664913484, "step": 37385}, {"loss": 0.07568166255950928, "token_acc": 0.9690112130479103, "grad_norm": 0.599860429763794, "learning_rate": 3.909085147454933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23533, "epoch": 2.850064791523744, "step": 37390}, {"loss": 0.08821362257003784, "token_acc": 0.9614352783366867, "grad_norm": 1.0100765228271484, "learning_rate": 3.907916680754772e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23534, "epoch": 2.850445918134004, "step": 37395}, {"loss": 0.1252490758895874, "token_acc": 0.9526128488480989, "grad_norm": 1.6458839178085327, "learning_rate": 3.9067482766805214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235346, "epoch": 2.850827044744264, "step": 37400}, {"eval_loss": 0.07392237335443497, "eval_token_acc": 0.9681269200650563, "eval_runtime": 221.274, "eval_samples_per_second": 2.395, "eval_steps_per_second": 2.395, "epoch": 2.850827044744264, "step": 37400}, {"loss": 0.09801877737045288, "token_acc": 0.9681560924045894, "grad_norm": 1.0230239629745483, "learning_rate": 3.905579935299182e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235026, "epoch": 2.851208171354524, "step": 37405}, {"loss": 0.08635572195053101, "token_acc": 0.9720351092059604, "grad_norm": 0.8388431072235107, "learning_rate": 3.9044116566777567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235033, "epoch": 2.851589297964784, "step": 37410}, {"loss": 0.09397611618041993, "token_acc": 0.9611407082419304, "grad_norm": 1.2618399858474731, "learning_rate": 3.903243440883238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235041, "epoch": 2.8519704245750437, "step": 37415}, {"loss": 0.08769038915634156, "token_acc": 0.9668793679732605, "grad_norm": 0.7472879886627197, "learning_rate": 3.902075287982618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235046, "epoch": 2.8523515511853037, "step": 37420}, {"loss": 0.07200249433517455, "token_acc": 0.9733162100456622, "grad_norm": 1.8295495510101318, "learning_rate": 3.900907198042886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235049, "epoch": 2.8527326777955637, "step": 37425}, {"loss": 0.06193675994873047, "token_acc": 0.9752563530985288, "grad_norm": 0.7457391619682312, "learning_rate": 3.899739171131025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235056, "epoch": 2.8531138044058237, "step": 37430}, {"loss": 0.11662843227386474, "token_acc": 0.9628567331134376, "grad_norm": 0.5031586289405823, "learning_rate": 3.898571207314017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235062, "epoch": 2.8534949310160833, "step": 37435}, {"loss": 0.0766907811164856, "token_acc": 0.9683707976924607, "grad_norm": 0.7260444164276123, "learning_rate": 3.897403306658839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235066, "epoch": 2.8538760576263433, "step": 37440}, {"loss": 0.061160147190093994, "token_acc": 0.9760383386581469, "grad_norm": 0.570349931716919, "learning_rate": 3.8962354692324655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23507, "epoch": 2.8542571842366034, "step": 37445}, {"loss": 0.06857154369354249, "token_acc": 0.9689621726479146, "grad_norm": 1.2957910299301147, "learning_rate": 3.8950676951018636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23508, "epoch": 2.8546383108468634, "step": 37450}, {"loss": 0.10757466554641723, "token_acc": 0.9671361502347418, "grad_norm": 1.0401804447174072, "learning_rate": 3.893899984334004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235085, "epoch": 2.8550194374571234, "step": 37455}, {"loss": 0.09515454173088074, "token_acc": 0.9640628362384334, "grad_norm": 1.5904053449630737, "learning_rate": 3.892732336995847e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235091, "epoch": 2.8554005640673834, "step": 37460}, {"loss": 0.07712588906288147, "token_acc": 0.9707806367204536, "grad_norm": 0.9020172357559204, "learning_rate": 3.891564753154352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2351, "epoch": 2.855781690677643, "step": 37465}, {"loss": 0.07396081686019898, "token_acc": 0.9662203286670724, "grad_norm": 1.318202257156372, "learning_rate": 3.8903972328764735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235108, "epoch": 2.856162817287903, "step": 37470}, {"loss": 0.06605539321899415, "token_acc": 0.9739776951672863, "grad_norm": 1.7637637853622437, "learning_rate": 3.8892297762291636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235119, "epoch": 2.856543943898163, "step": 37475}, {"loss": 0.08866016864776612, "token_acc": 0.9618261140542225, "grad_norm": 0.8949657678604126, "learning_rate": 3.888062383279374e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235124, "epoch": 2.856925070508423, "step": 37480}, {"loss": 0.07980450987815857, "token_acc": 0.9752947078003511, "grad_norm": 0.7615159153938293, "learning_rate": 3.8868950540940455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235128, "epoch": 2.8573061971186826, "step": 37485}, {"loss": 0.09254343509674072, "token_acc": 0.9654071993872861, "grad_norm": 0.5338117480278015, "learning_rate": 3.88572778874012e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235131, "epoch": 2.8576873237289426, "step": 37490}, {"loss": 0.06830713748931885, "token_acc": 0.974052812858783, "grad_norm": 1.243766188621521, "learning_rate": 3.884560587284536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235137, "epoch": 2.8580684503392026, "step": 37495}, {"loss": 0.055156415700912474, "token_acc": 0.9775222164140094, "grad_norm": 0.678043782711029, "learning_rate": 3.883393449794226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235142, "epoch": 2.8584495769494627, "step": 37500}, {"loss": 0.11557214260101319, "token_acc": 0.9654387417218543, "grad_norm": 0.9878964424133301, "learning_rate": 3.88222637633612e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235146, "epoch": 2.8588307035597227, "step": 37505}, {"loss": 0.09238015413284302, "token_acc": 0.9714389446932107, "grad_norm": 1.6379841566085815, "learning_rate": 3.881059366977143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235148, "epoch": 2.8592118301699827, "step": 37510}, {"loss": 0.09083805084228516, "token_acc": 0.9593633592956315, "grad_norm": 3.083301544189453, "learning_rate": 3.87989242178422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235156, "epoch": 2.8595929567802423, "step": 37515}, {"loss": 0.08880417943000793, "token_acc": 0.9768244575936884, "grad_norm": 1.5604013204574585, "learning_rate": 3.878725540824269e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235162, "epoch": 2.8599740833905023, "step": 37520}, {"loss": 0.09186557531356812, "token_acc": 0.9643271942923511, "grad_norm": 0.8298394083976746, "learning_rate": 3.877558724164203e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235167, "epoch": 2.8603552100007623, "step": 37525}, {"loss": 0.0660668134689331, "token_acc": 0.9750692520775623, "grad_norm": 0.7213504314422607, "learning_rate": 3.8763919718709375e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235174, "epoch": 2.8607363366110223, "step": 37530}, {"loss": 0.10126533508300781, "token_acc": 0.9610876699484294, "grad_norm": 1.0971808433532715, "learning_rate": 3.875225284011377e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235181, "epoch": 2.861117463221282, "step": 37535}, {"loss": 0.08379967212677002, "token_acc": 0.9711077466565733, "grad_norm": 0.4884926676750183, "learning_rate": 3.8740586606524266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235181, "epoch": 2.861498589831542, "step": 37540}, {"loss": 0.08777062892913819, "token_acc": 0.9650195694716243, "grad_norm": 1.4050750732421875, "learning_rate": 3.872892101860988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235188, "epoch": 2.861879716441802, "step": 37545}, {"loss": 0.13713667392730713, "token_acc": 0.9591652566271855, "grad_norm": 0.8504447340965271, "learning_rate": 3.8717256077039573e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235192, "epoch": 2.862260843052062, "step": 37550}, {"loss": 0.08787782788276673, "token_acc": 0.9728244728244728, "grad_norm": 0.9192399382591248, "learning_rate": 3.870559178248225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235195, "epoch": 2.862641969662322, "step": 37555}, {"loss": 0.09883487224578857, "token_acc": 0.9587291188994431, "grad_norm": 0.6913599967956543, "learning_rate": 3.8693928135606846e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235204, "epoch": 2.863023096272582, "step": 37560}, {"loss": 0.08358967304229736, "token_acc": 0.9637082285303629, "grad_norm": 2.4948015213012695, "learning_rate": 3.86822651370822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235213, "epoch": 2.8634042228828416, "step": 37565}, {"loss": 0.07112233638763428, "token_acc": 0.9705693148922483, "grad_norm": 0.7621044516563416, "learning_rate": 3.867060278757712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23522, "epoch": 2.8637853494931016, "step": 37570}, {"loss": 0.06059027314186096, "token_acc": 0.9741909601497727, "grad_norm": 0.9077858924865723, "learning_rate": 3.865894108776038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235221, "epoch": 2.8641664761033616, "step": 37575}, {"loss": 0.0761684775352478, "token_acc": 0.9644988066825776, "grad_norm": 1.4839637279510498, "learning_rate": 3.864728003830076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23523, "epoch": 2.864547602713621, "step": 37580}, {"loss": 0.06423194408416748, "token_acc": 0.9746809172979143, "grad_norm": 0.6079143285751343, "learning_rate": 3.863561963986694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235231, "epoch": 2.864928729323881, "step": 37585}, {"loss": 0.058178645372390744, "token_acc": 0.9761102603369066, "grad_norm": 1.6962138414382935, "learning_rate": 3.8623959893127595e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235241, "epoch": 2.8653098559341412, "step": 37590}, {"loss": 0.08919512033462525, "token_acc": 0.9668085106382979, "grad_norm": 0.7918026447296143, "learning_rate": 3.861230079875136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235249, "epoch": 2.8656909825444012, "step": 37595}, {"loss": 0.0779586374759674, "token_acc": 0.969147005444646, "grad_norm": 1.1996636390686035, "learning_rate": 3.860064235740683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235257, "epoch": 2.8660721091546613, "step": 37600}, {"eval_loss": 0.07338440418243408, "eval_token_acc": 0.9686765857478465, "eval_runtime": 221.5313, "eval_samples_per_second": 2.392, "eval_steps_per_second": 2.392, "epoch": 2.8660721091546613, "step": 37600}, {"loss": 0.07049527168273925, "token_acc": 0.9685343222887254, "grad_norm": 0.6825397610664368, "learning_rate": 3.8588984569762555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234937, "epoch": 2.8664532357649213, "step": 37605}, {"loss": 0.044300153851509094, "token_acc": 0.9846153846153847, "grad_norm": 0.8457134962081909, "learning_rate": 3.8577327436487057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234947, "epoch": 2.8668343623751813, "step": 37610}, {"loss": 0.08750039339065552, "token_acc": 0.9628764278296988, "grad_norm": 1.4401220083236694, "learning_rate": 3.856567095824883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234956, "epoch": 2.867215488985441, "step": 37615}, {"loss": 0.06733075380325318, "token_acc": 0.9710383800329645, "grad_norm": 0.7018383741378784, "learning_rate": 3.855401513571631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234964, "epoch": 2.867596615595701, "step": 37620}, {"loss": 0.10761547088623047, "token_acc": 0.9591100420926038, "grad_norm": 1.0767743587493896, "learning_rate": 3.8542359969557916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234971, "epoch": 2.867977742205961, "step": 37625}, {"loss": 0.07416890859603882, "token_acc": 0.9742801230081074, "grad_norm": 1.5876203775405884, "learning_rate": 3.8530705460442e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234979, "epoch": 2.8683588688162205, "step": 37630}, {"loss": 0.16404304504394532, "token_acc": 0.9439270469538222, "grad_norm": 2.0851857662200928, "learning_rate": 3.8519051609036904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234983, "epoch": 2.8687399954264805, "step": 37635}, {"loss": 0.05104566216468811, "token_acc": 0.977751448130595, "grad_norm": 0.5806670188903809, "learning_rate": 3.8507398416010926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234983, "epoch": 2.8691211220367405, "step": 37640}, {"loss": 0.06266066431999207, "token_acc": 0.978594564145895, "grad_norm": 0.5802030563354492, "learning_rate": 3.849574588203231e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234987, "epoch": 2.8695022486470005, "step": 37645}, {"loss": 0.06567035913467408, "token_acc": 0.9727592267135325, "grad_norm": 0.8798251152038574, "learning_rate": 3.848409400776928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23499, "epoch": 2.8698833752572606, "step": 37650}, {"loss": 0.08284960985183716, "token_acc": 0.9699845508717723, "grad_norm": 1.1115680932998657, "learning_rate": 3.847244279389002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234998, "epoch": 2.8702645018675206, "step": 37655}, {"loss": 0.07910059690475464, "token_acc": 0.9604117181314331, "grad_norm": 0.8585509657859802, "learning_rate": 3.846079224106267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235004, "epoch": 2.87064562847778, "step": 37660}, {"loss": 0.042608022689819336, "token_acc": 0.9814704124327556, "grad_norm": 1.0320909023284912, "learning_rate": 3.844914234995534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235013, "epoch": 2.87102675508804, "step": 37665}, {"loss": 0.0982345998287201, "token_acc": 0.969661610268378, "grad_norm": 0.9491744041442871, "learning_rate": 3.84374931212361e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235017, "epoch": 2.8714078816983, "step": 37670}, {"loss": 0.06122907400131226, "token_acc": 0.9773917838433968, "grad_norm": 1.1583856344223022, "learning_rate": 3.842584455557296e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235026, "epoch": 2.87178900830856, "step": 37675}, {"loss": 0.058839929103851316, "token_acc": 0.9758982035928143, "grad_norm": 0.9622520804405212, "learning_rate": 3.8414196653633924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235027, "epoch": 2.87217013491882, "step": 37680}, {"loss": 0.0706447958946228, "token_acc": 0.9626615605552896, "grad_norm": 1.3225998878479004, "learning_rate": 3.8402549416086956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235034, "epoch": 2.87255126152908, "step": 37685}, {"loss": 0.10583727359771729, "token_acc": 0.9636386671734448, "grad_norm": 0.6204521656036377, "learning_rate": 3.8390902843599954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235036, "epoch": 2.87293238813934, "step": 37690}, {"loss": 0.0976695716381073, "token_acc": 0.9702998436833878, "grad_norm": 0.4902087152004242, "learning_rate": 3.83792569368408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235038, "epoch": 2.8733135147496, "step": 37695}, {"loss": 0.08696631193161011, "token_acc": 0.9682090022033365, "grad_norm": 1.1833827495574951, "learning_rate": 3.836761169647734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235042, "epoch": 2.87369464135986, "step": 37700}, {"loss": 0.09079868197441102, "token_acc": 0.9642497482376636, "grad_norm": 1.4736696481704712, "learning_rate": 3.835596712317737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235047, "epoch": 2.87407576797012, "step": 37705}, {"loss": 0.08161352872848511, "token_acc": 0.971889400921659, "grad_norm": 0.604415237903595, "learning_rate": 3.8344323217608633e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235054, "epoch": 2.8744568945803795, "step": 37710}, {"loss": 0.08416850566864013, "token_acc": 0.9679309281529448, "grad_norm": 1.3426930904388428, "learning_rate": 3.8332679980438884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235058, "epoch": 2.8748380211906395, "step": 37715}, {"loss": 0.08411678075790405, "token_acc": 0.9755792110206637, "grad_norm": 2.5330376625061035, "learning_rate": 3.83210374123358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235064, "epoch": 2.8752191478008995, "step": 37720}, {"loss": 0.08168486952781677, "token_acc": 0.9668043445005354, "grad_norm": 0.03720680996775627, "learning_rate": 3.8309395513967005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23507, "epoch": 2.8756002744111595, "step": 37725}, {"loss": 0.09484231472015381, "token_acc": 0.9589237668161436, "grad_norm": 1.2487587928771973, "learning_rate": 3.8297754286000145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235075, "epoch": 2.875981401021419, "step": 37730}, {"loss": 0.07753746509552002, "token_acc": 0.9726694915254237, "grad_norm": 2.021404981613159, "learning_rate": 3.828611372910277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235081, "epoch": 2.876362527631679, "step": 37735}, {"loss": 0.10608422756195068, "token_acc": 0.9591307168342523, "grad_norm": 1.106571912765503, "learning_rate": 3.827447384394241e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235091, "epoch": 2.876743654241939, "step": 37740}, {"loss": 0.07758030295372009, "token_acc": 0.9703839122486289, "grad_norm": 0.7597334384918213, "learning_rate": 3.826283463118654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235098, "epoch": 2.877124780852199, "step": 37745}, {"loss": 0.08207584619522094, "token_acc": 0.9663372969351868, "grad_norm": 0.6588160991668701, "learning_rate": 3.825119609150265e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235102, "epoch": 2.877505907462459, "step": 37750}, {"loss": 0.08710498213768006, "token_acc": 0.9696752381928081, "grad_norm": 0.48011189699172974, "learning_rate": 3.8239558225558156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235104, "epoch": 2.877887034072719, "step": 37755}, {"loss": 0.04682544767856598, "token_acc": 0.9755374351371386, "grad_norm": 1.2707535028457642, "learning_rate": 3.822792103402042e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235112, "epoch": 2.8782681606829787, "step": 37760}, {"loss": 0.11355810165405274, "token_acc": 0.9554342883128695, "grad_norm": 0.9917944669723511, "learning_rate": 3.821628451755677e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235117, "epoch": 2.8786492872932388, "step": 37765}, {"loss": 0.08655939698219299, "token_acc": 0.970108695652174, "grad_norm": 0.7982029914855957, "learning_rate": 3.820464867683453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235121, "epoch": 2.879030413903499, "step": 37770}, {"loss": 0.08331148624420166, "token_acc": 0.9647741400745959, "grad_norm": 1.5520362854003906, "learning_rate": 3.819301351252096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235131, "epoch": 2.879411540513759, "step": 37775}, {"loss": 0.037147268652915955, "token_acc": 0.9859131859131859, "grad_norm": 0.5555896759033203, "learning_rate": 3.8181379025283265e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235135, "epoch": 2.8797926671240184, "step": 37780}, {"loss": 0.11949472427368164, "token_acc": 0.9586832381592207, "grad_norm": 2.0533390045166016, "learning_rate": 3.8169745215788634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235143, "epoch": 2.8801737937342784, "step": 37785}, {"loss": 0.08377432227134704, "token_acc": 0.9685997171145686, "grad_norm": 0.8549385666847229, "learning_rate": 3.8158112084704226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235147, "epoch": 2.8805549203445384, "step": 37790}, {"loss": 0.09465956687927246, "token_acc": 0.9710660500415036, "grad_norm": 1.0679277181625366, "learning_rate": 3.814647963269713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235152, "epoch": 2.8809360469547984, "step": 37795}, {"loss": 0.0633561372756958, "token_acc": 0.9688281135127187, "grad_norm": 0.7813785076141357, "learning_rate": 3.813484786043441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235155, "epoch": 2.8813171735650585, "step": 37800}, {"eval_loss": 0.07429222017526627, "eval_token_acc": 0.9686088187458587, "eval_runtime": 221.252, "eval_samples_per_second": 2.395, "eval_steps_per_second": 2.395, "epoch": 2.8813171735650585, "step": 37800}, {"loss": 0.06352437138557435, "token_acc": 0.9687987067121927, "grad_norm": 0.7490967512130737, "learning_rate": 3.812321676858312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234835, "epoch": 2.8816983001753185, "step": 37805}, {"loss": 0.05955098867416382, "token_acc": 0.9770384254920338, "grad_norm": 1.4641709327697754, "learning_rate": 3.811158635781023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234845, "epoch": 2.882079426785578, "step": 37810}, {"loss": 0.0508830189704895, "token_acc": 0.9802779480891068, "grad_norm": 0.7408734560012817, "learning_rate": 3.809995662878269e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234844, "epoch": 2.882460553395838, "step": 37815}, {"loss": 0.06532365679740906, "token_acc": 0.9747447608812466, "grad_norm": 0.569401204586029, "learning_rate": 3.808832758216742e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234847, "epoch": 2.882841680006098, "step": 37820}, {"loss": 0.07660976052284241, "token_acc": 0.9699540473665607, "grad_norm": 2.13411545753479, "learning_rate": 3.8076699218631284e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234856, "epoch": 2.883222806616358, "step": 37825}, {"loss": 0.07094260454177856, "token_acc": 0.9706905116741182, "grad_norm": 0.34800365567207336, "learning_rate": 3.806507153884111e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234864, "epoch": 2.8836039332266177, "step": 37830}, {"loss": 0.08238838911056519, "token_acc": 0.970679330993186, "grad_norm": 0.9863859415054321, "learning_rate": 3.80534445434637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234868, "epoch": 2.8839850598368777, "step": 37835}, {"loss": 0.09837762117385865, "token_acc": 0.9665847665847666, "grad_norm": 1.201694130897522, "learning_rate": 3.804181823316582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234874, "epoch": 2.8843661864471377, "step": 37840}, {"loss": 0.09818058609962463, "token_acc": 0.9620743034055728, "grad_norm": 0.7310218214988708, "learning_rate": 3.8030192608614164e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23488, "epoch": 2.8847473130573977, "step": 37845}, {"loss": 0.0840908408164978, "token_acc": 0.9657759882869692, "grad_norm": 1.334642767906189, "learning_rate": 3.80185676704754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234885, "epoch": 2.8851284396676578, "step": 37850}, {"loss": 0.09427948594093323, "token_acc": 0.963962783383567, "grad_norm": 1.497881531715393, "learning_rate": 3.80069434194162e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234889, "epoch": 2.8855095662779178, "step": 37855}, {"loss": 0.056127339601516724, "token_acc": 0.9784591991890522, "grad_norm": 0.281019926071167, "learning_rate": 3.7995319856103136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234897, "epoch": 2.8858906928881773, "step": 37860}, {"loss": 0.06277437210083008, "token_acc": 0.9742194213692352, "grad_norm": 1.6171692609786987, "learning_rate": 3.798369698120275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234905, "epoch": 2.8862718194984374, "step": 37865}, {"loss": 0.09869595766067504, "token_acc": 0.9654059040590406, "grad_norm": 1.5683726072311401, "learning_rate": 3.797207479538161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234913, "epoch": 2.8866529461086974, "step": 37870}, {"loss": 0.09572099447250366, "token_acc": 0.9628637059724349, "grad_norm": 0.5380122065544128, "learning_rate": 3.7960453299306134e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234914, "epoch": 2.8870340727189574, "step": 37875}, {"loss": 0.0830041527748108, "token_acc": 0.9679862798342147, "grad_norm": 0.8102245926856995, "learning_rate": 3.7948832493642805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23492, "epoch": 2.887415199329217, "step": 37880}, {"loss": 0.09912623763084412, "token_acc": 0.9691656590084643, "grad_norm": 1.0901880264282227, "learning_rate": 3.7937212379058004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234928, "epoch": 2.887796325939477, "step": 37885}, {"loss": 0.06892263293266296, "token_acc": 0.9726509612780937, "grad_norm": 0.9431098103523254, "learning_rate": 3.79255929562181e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234929, "epoch": 2.888177452549737, "step": 37890}, {"loss": 0.0828850269317627, "token_acc": 0.9619520264681555, "grad_norm": 1.363510012626648, "learning_rate": 3.791397422578942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23494, "epoch": 2.888558579159997, "step": 37895}, {"loss": 0.12587124109268188, "token_acc": 0.9546460176991151, "grad_norm": 0.7722975611686707, "learning_rate": 3.790235618843822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234948, "epoch": 2.888939705770257, "step": 37900}, {"loss": 0.11206810474395752, "token_acc": 0.9662680706764234, "grad_norm": 2.1903038024902344, "learning_rate": 3.7890738844830747e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234953, "epoch": 2.889320832380517, "step": 37905}, {"loss": 0.10055527687072754, "token_acc": 0.9522704673516739, "grad_norm": 1.013375163078308, "learning_rate": 3.787912219563322e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234962, "epoch": 2.8897019589907766, "step": 37910}, {"loss": 0.081793874502182, "token_acc": 0.964797706275884, "grad_norm": 0.9082911610603333, "learning_rate": 3.7867506241511786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234966, "epoch": 2.8900830856010367, "step": 37915}, {"loss": 0.05942943096160889, "token_acc": 0.977042431918936, "grad_norm": 0.9624173045158386, "learning_rate": 3.785589098313255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234969, "epoch": 2.8904642122112967, "step": 37920}, {"loss": 0.09542831778526306, "token_acc": 0.9759882869692533, "grad_norm": 1.369828224182129, "learning_rate": 3.784427642116163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234978, "epoch": 2.8908453388215563, "step": 37925}, {"loss": 0.049045336246490476, "token_acc": 0.9715944432925565, "grad_norm": 0.9761334657669067, "learning_rate": 3.7832662556265046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234985, "epoch": 2.8912264654318163, "step": 37930}, {"loss": 0.105331289768219, "token_acc": 0.9600924175593363, "grad_norm": 1.1205757856369019, "learning_rate": 3.7821049389108786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234991, "epoch": 2.8916075920420763, "step": 37935}, {"loss": 0.08248488903045655, "token_acc": 0.9712509712509713, "grad_norm": 0.7117846012115479, "learning_rate": 3.7809436920358844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234994, "epoch": 2.8919887186523363, "step": 37940}, {"loss": 0.06780540943145752, "token_acc": 0.9767510300176574, "grad_norm": 0.5552998781204224, "learning_rate": 3.779782515068112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234996, "epoch": 2.8923698452625963, "step": 37945}, {"loss": 0.10284035205841065, "token_acc": 0.9682257244534824, "grad_norm": 0.7938038110733032, "learning_rate": 3.778621408074149e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235004, "epoch": 2.8927509718728563, "step": 37950}, {"loss": 0.06375249624252319, "token_acc": 0.973495130129331, "grad_norm": 0.4910276532173157, "learning_rate": 3.777460371120581e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235012, "epoch": 2.8931320984831164, "step": 37955}, {"loss": 0.0954779028892517, "token_acc": 0.9666374012291484, "grad_norm": 1.298025369644165, "learning_rate": 3.7762994042739874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235013, "epoch": 2.893513225093376, "step": 37960}, {"loss": 0.08412294387817383, "token_acc": 0.9705375333019903, "grad_norm": 1.5332584381103516, "learning_rate": 3.775138507600945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235019, "epoch": 2.893894351703636, "step": 37965}, {"loss": 0.058449959754943846, "token_acc": 0.9772232699840417, "grad_norm": 1.3342256546020508, "learning_rate": 3.773977681168023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235021, "epoch": 2.894275478313896, "step": 37970}, {"loss": 0.08247337937355041, "token_acc": 0.9659227261819054, "grad_norm": 2.3797428607940674, "learning_rate": 3.7728169250417936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23503, "epoch": 2.8946566049241556, "step": 37975}, {"loss": 0.0862675130367279, "token_acc": 0.9723320158102767, "grad_norm": 2.223917245864868, "learning_rate": 3.771656239288818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235039, "epoch": 2.8950377315344156, "step": 37980}, {"loss": 0.0782415509223938, "token_acc": 0.9711737868104521, "grad_norm": 0.49933919310569763, "learning_rate": 3.7704956239756564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235045, "epoch": 2.8954188581446756, "step": 37985}, {"loss": 0.0573919951915741, "token_acc": 0.9771302102545186, "grad_norm": 0.8481409549713135, "learning_rate": 3.769335079168866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235053, "epoch": 2.8957999847549356, "step": 37990}, {"loss": 0.08061132431030274, "token_acc": 0.9704731412308787, "grad_norm": 1.4453394412994385, "learning_rate": 3.768174604934998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.235054, "epoch": 2.8961811113651956, "step": 37995}, {"loss": 0.07005182504653931, "token_acc": 0.9769951718261858, "grad_norm": 1.8469257354736328, "learning_rate": 3.767014201340598e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23506, "epoch": 2.8965622379754556, "step": 38000}, {"eval_loss": 0.07313370704650879, "eval_token_acc": 0.9689100054213602, "eval_runtime": 221.3149, "eval_samples_per_second": 2.395, "eval_steps_per_second": 2.395, "epoch": 2.8965622379754556, "step": 38000}, {"loss": 0.05372971296310425, "token_acc": 0.9690916752297241, "grad_norm": 0.8806771039962769, "learning_rate": 3.765853868452214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234746, "epoch": 2.896943364585715, "step": 38005}, {"loss": 0.06655730605125428, "token_acc": 0.9746633188769688, "grad_norm": 0.8762566447257996, "learning_rate": 3.7646936063363816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234753, "epoch": 2.8973244911959752, "step": 38010}, {"loss": 0.09971969723701476, "token_acc": 0.9562343286984272, "grad_norm": 1.786808967590332, "learning_rate": 3.763533415059639e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234761, "epoch": 2.8977056178062353, "step": 38015}, {"loss": 0.0608712911605835, "token_acc": 0.9793564055859137, "grad_norm": 0.9162140488624573, "learning_rate": 3.762373294688518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234767, "epoch": 2.8980867444164953, "step": 38020}, {"loss": 0.05766780376434326, "token_acc": 0.9684962650211107, "grad_norm": 0.8191885352134705, "learning_rate": 3.7612132452895445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234772, "epoch": 2.898467871026755, "step": 38025}, {"loss": 0.07932933568954467, "token_acc": 0.9643281807372176, "grad_norm": 0.5313200354576111, "learning_rate": 3.7600532669292436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234776, "epoch": 2.898848997637015, "step": 38030}, {"loss": 0.05417177677154541, "token_acc": 0.9776735156123605, "grad_norm": 0.7560880184173584, "learning_rate": 3.758893359674134e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234778, "epoch": 2.899230124247275, "step": 38035}, {"loss": 0.07130923271179199, "token_acc": 0.9614260666277031, "grad_norm": 0.6784417629241943, "learning_rate": 3.757733523590729e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234787, "epoch": 2.899611250857535, "step": 38040}, {"loss": 0.06712146401405335, "token_acc": 0.9715037264357738, "grad_norm": 0.38170069456100464, "learning_rate": 3.756573758745543e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234795, "epoch": 2.899992377467795, "step": 38045}, {"loss": 0.0863541841506958, "token_acc": 0.9649730561970746, "grad_norm": 1.3735333681106567, "learning_rate": 3.755414065205082e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2348, "epoch": 2.900373504078055, "step": 38050}, {"loss": 0.09077118039131164, "token_acc": 0.9594221372424049, "grad_norm": 1.0491634607315063, "learning_rate": 3.7542544430358476e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234807, "epoch": 2.9007546306883145, "step": 38055}, {"loss": 0.07302770018577576, "token_acc": 0.9641174338528452, "grad_norm": 0.8341416716575623, "learning_rate": 3.753094892304341e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234813, "epoch": 2.9011357572985745, "step": 38060}, {"loss": 0.07721441984176636, "token_acc": 0.9708791208791209, "grad_norm": 1.4460233449935913, "learning_rate": 3.7519354130770557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234824, "epoch": 2.9015168839088346, "step": 38065}, {"loss": 0.10300500392913818, "token_acc": 0.957725321888412, "grad_norm": 0.6992290019989014, "learning_rate": 3.7507760054204834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234831, "epoch": 2.9018980105190946, "step": 38070}, {"loss": 0.0781505823135376, "token_acc": 0.9757085020242915, "grad_norm": 0.4452054798603058, "learning_rate": 3.749616669401108e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234838, "epoch": 2.902279137129354, "step": 38075}, {"loss": 0.0851179838180542, "token_acc": 0.9637902656948036, "grad_norm": 1.9531822204589844, "learning_rate": 3.748457405085416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234843, "epoch": 2.902660263739614, "step": 38080}, {"loss": 0.08823171257972717, "token_acc": 0.9631540162122328, "grad_norm": 0.6668861508369446, "learning_rate": 3.747298212539884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234851, "epoch": 2.903041390349874, "step": 38085}, {"loss": 0.0831906259059906, "token_acc": 0.9728544933400776, "grad_norm": 0.7634332180023193, "learning_rate": 3.746139091830985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234856, "epoch": 2.903422516960134, "step": 38090}, {"loss": 0.07657724618911743, "token_acc": 0.9720232002729444, "grad_norm": 1.020965337753296, "learning_rate": 3.7449800430251905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234863, "epoch": 2.903803643570394, "step": 38095}, {"loss": 0.07149125933647156, "token_acc": 0.9710982658959537, "grad_norm": 1.3418511152267456, "learning_rate": 3.7438210661889676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234874, "epoch": 2.9041847701806542, "step": 38100}, {"loss": 0.08186355233192444, "token_acc": 0.9721092388146426, "grad_norm": 1.805721640586853, "learning_rate": 3.7426621613887755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234877, "epoch": 2.904565896790914, "step": 38105}, {"loss": 0.07275183200836181, "token_acc": 0.9777702358730698, "grad_norm": 0.8951708078384399, "learning_rate": 3.7415033286910764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234881, "epoch": 2.904947023401174, "step": 38110}, {"loss": 0.10987311601638794, "token_acc": 0.9675937739219188, "grad_norm": 1.2457143068313599, "learning_rate": 3.740344568162319e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234888, "epoch": 2.905328150011434, "step": 38115}, {"loss": 0.08784855604171753, "token_acc": 0.9552196235025671, "grad_norm": 0.9420811533927917, "learning_rate": 3.7391858798689553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234895, "epoch": 2.905709276621694, "step": 38120}, {"loss": 0.08441098928451538, "token_acc": 0.9646556977452773, "grad_norm": 1.6861162185668945, "learning_rate": 3.7380272638774314e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234902, "epoch": 2.9060904032319534, "step": 38125}, {"loss": 0.09057918190956116, "token_acc": 0.9689813182939725, "grad_norm": 0.6586142182350159, "learning_rate": 3.736868720254187e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234902, "epoch": 2.9064715298422135, "step": 38130}, {"loss": 0.06134576797485351, "token_acc": 0.9737916502041354, "grad_norm": 0.416040301322937, "learning_rate": 3.7357102490656615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234905, "epoch": 2.9068526564524735, "step": 38135}, {"loss": 0.10116394758224487, "token_acc": 0.9541561712846348, "grad_norm": 1.3224214315414429, "learning_rate": 3.734551850378284e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234913, "epoch": 2.9072337830627335, "step": 38140}, {"loss": 0.08961164951324463, "token_acc": 0.9733024503230525, "grad_norm": 0.8738381862640381, "learning_rate": 3.733393524258484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234918, "epoch": 2.9076149096729935, "step": 38145}, {"loss": 0.08586803674697877, "token_acc": 0.9706287287746673, "grad_norm": 1.3854632377624512, "learning_rate": 3.73223527077269e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234924, "epoch": 2.9079960362832535, "step": 38150}, {"loss": 0.07355605959892272, "token_acc": 0.9698329593617552, "grad_norm": 1.6323603391647339, "learning_rate": 3.731077089987321e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234932, "epoch": 2.908377162893513, "step": 38155}, {"loss": 0.0869312822818756, "token_acc": 0.9763011152416357, "grad_norm": 1.809833288192749, "learning_rate": 3.7299189819687905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234937, "epoch": 2.908758289503773, "step": 38160}, {"loss": 0.08074188828468323, "token_acc": 0.9697234352256187, "grad_norm": 0.912880539894104, "learning_rate": 3.728760946783514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234946, "epoch": 2.909139416114033, "step": 38165}, {"loss": 0.08652944564819336, "token_acc": 0.9642248722316865, "grad_norm": 1.3774921894073486, "learning_rate": 3.727602984497898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234955, "epoch": 2.909520542724293, "step": 38170}, {"loss": 0.08608655333518982, "token_acc": 0.9667654257374726, "grad_norm": 1.0564051866531372, "learning_rate": 3.726445095178345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23496, "epoch": 2.9099016693345527, "step": 38175}, {"loss": 0.11052887439727783, "token_acc": 0.9603426395939086, "grad_norm": 1.6787174940109253, "learning_rate": 3.725287278891255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234969, "epoch": 2.9102827959448128, "step": 38180}, {"loss": 0.1554656982421875, "token_acc": 0.9487563679952052, "grad_norm": 2.1762208938598633, "learning_rate": 3.724129535703026e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234977, "epoch": 2.910663922555073, "step": 38185}, {"loss": 0.08318414092063904, "token_acc": 0.9679385865883947, "grad_norm": 0.9532738327980042, "learning_rate": 3.722971865680047e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234984, "epoch": 2.911045049165333, "step": 38190}, {"loss": 0.10271081924438477, "token_acc": 0.9646910466582598, "grad_norm": 0.5648732781410217, "learning_rate": 3.721814268888705e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234988, "epoch": 2.911426175775593, "step": 38195}, {"loss": 0.11269645690917969, "token_acc": 0.9583544946673438, "grad_norm": 1.3330557346343994, "learning_rate": 3.720656745395383e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234991, "epoch": 2.911807302385853, "step": 38200}, {"eval_loss": 0.07321149110794067, "eval_token_acc": 0.9693090777663996, "eval_runtime": 220.7733, "eval_samples_per_second": 2.401, "eval_steps_per_second": 2.401, "epoch": 2.911807302385853, "step": 38200}, {"loss": 0.09346674680709839, "token_acc": 0.9693592704101021, "grad_norm": 2.2213964462280273, "learning_rate": 3.719499295266461e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23468, "epoch": 2.9121884289961124, "step": 38205}, {"loss": 0.1362439751625061, "token_acc": 0.9478672985781991, "grad_norm": 2.366450071334839, "learning_rate": 3.7183419185683106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234689, "epoch": 2.9125695556063724, "step": 38210}, {"loss": 0.07193232774734497, "token_acc": 0.9681225419167874, "grad_norm": 1.0613170862197876, "learning_rate": 3.717184615367304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234695, "epoch": 2.9129506822166324, "step": 38215}, {"loss": 0.07799142003059387, "token_acc": 0.9663244353182752, "grad_norm": 0.9518450498580933, "learning_rate": 3.7160273857298075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234701, "epoch": 2.913331808826892, "step": 38220}, {"loss": 0.08137394785881043, "token_acc": 0.9690576652601969, "grad_norm": 0.7388240694999695, "learning_rate": 3.7148702297221806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23471, "epoch": 2.913712935437152, "step": 38225}, {"loss": 0.0820425033569336, "token_acc": 0.9662307241850479, "grad_norm": 0.8096959590911865, "learning_rate": 3.713713147410783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234718, "epoch": 2.914094062047412, "step": 38230}, {"loss": 0.126302170753479, "token_acc": 0.9516225066984222, "grad_norm": 1.100929617881775, "learning_rate": 3.712556138861969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234723, "epoch": 2.914475188657672, "step": 38235}, {"loss": 0.08991179466247559, "token_acc": 0.9619482496194824, "grad_norm": 0.881531298160553, "learning_rate": 3.711399204142084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234732, "epoch": 2.914856315267932, "step": 38240}, {"loss": 0.08665409088134765, "token_acc": 0.9708754208754209, "grad_norm": 0.8039235472679138, "learning_rate": 3.710242343317475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234736, "epoch": 2.915237441878192, "step": 38245}, {"loss": 0.09391170740127563, "token_acc": 0.9597757995384109, "grad_norm": 0.881889283657074, "learning_rate": 3.709085556454483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234745, "epoch": 2.915618568488452, "step": 38250}, {"loss": 0.08970773220062256, "token_acc": 0.9638418079096045, "grad_norm": 0.5480813384056091, "learning_rate": 3.707928843619444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23475, "epoch": 2.9159996950987117, "step": 38255}, {"loss": 0.1206515908241272, "token_acc": 0.946528555431131, "grad_norm": 1.083185076713562, "learning_rate": 3.706772204878688e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234759, "epoch": 2.9163808217089717, "step": 38260}, {"loss": 0.09910249710083008, "token_acc": 0.9621676891615542, "grad_norm": 1.3724526166915894, "learning_rate": 3.7056156402985465e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234766, "epoch": 2.9167619483192317, "step": 38265}, {"loss": 0.11622238159179688, "token_acc": 0.9516971279373369, "grad_norm": 1.3133405447006226, "learning_rate": 3.7044591499453414e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234774, "epoch": 2.9171430749294913, "step": 38270}, {"loss": 0.07822607755661011, "token_acc": 0.966792656587473, "grad_norm": 1.0902714729309082, "learning_rate": 3.70330273388539e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234781, "epoch": 2.9175242015397513, "step": 38275}, {"loss": 0.06858866810798644, "token_acc": 0.9683333333333334, "grad_norm": 1.2709585428237915, "learning_rate": 3.702146392185011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234789, "epoch": 2.9179053281500114, "step": 38280}, {"loss": 0.06464377045631409, "token_acc": 0.9720496894409938, "grad_norm": 0.7964215278625488, "learning_rate": 3.700990124910513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234797, "epoch": 2.9182864547602714, "step": 38285}, {"loss": 0.06996945142745972, "token_acc": 0.9778398510242086, "grad_norm": 0.707655131816864, "learning_rate": 3.699833932128204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234801, "epoch": 2.9186675813705314, "step": 38290}, {"loss": 0.10109896659851074, "token_acc": 0.9610522719508029, "grad_norm": 1.1067827939987183, "learning_rate": 3.6986778139043856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234809, "epoch": 2.9190487079807914, "step": 38295}, {"loss": 0.09507867097854614, "token_acc": 0.9627064464571125, "grad_norm": 1.1973488330841064, "learning_rate": 3.6975217703053546e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234818, "epoch": 2.919429834591051, "step": 38300}, {"loss": 0.09561291337013245, "token_acc": 0.9680630443799253, "grad_norm": 1.3434109687805176, "learning_rate": 3.696365801397407e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234822, "epoch": 2.919810961201311, "step": 38305}, {"loss": 0.11114062070846557, "token_acc": 0.9540067720090294, "grad_norm": 1.5486390590667725, "learning_rate": 3.69520990724683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234829, "epoch": 2.920192087811571, "step": 38310}, {"loss": 0.07182212471961975, "token_acc": 0.9655017921146953, "grad_norm": 0.9452990889549255, "learning_rate": 3.6940540879199104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234836, "epoch": 2.920573214421831, "step": 38315}, {"loss": 0.08025586605072021, "token_acc": 0.9713283828382838, "grad_norm": 0.818956732749939, "learning_rate": 3.692898343482929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234842, "epoch": 2.9209543410320906, "step": 38320}, {"loss": 0.09171321988105774, "token_acc": 0.9673389524382902, "grad_norm": 1.9653021097183228, "learning_rate": 3.6917426740021615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234847, "epoch": 2.9213354676423506, "step": 38325}, {"loss": 0.07154630422592163, "token_acc": 0.975499303297724, "grad_norm": 1.2570027112960815, "learning_rate": 3.69058707954388e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234848, "epoch": 2.9217165942526107, "step": 38330}, {"loss": 0.06225066184997559, "token_acc": 0.9746300211416491, "grad_norm": 1.9504152536392212, "learning_rate": 3.6894315601743533e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234858, "epoch": 2.9220977208628707, "step": 38335}, {"loss": 0.09836920499801635, "token_acc": 0.9556471158507028, "grad_norm": 1.1779415607452393, "learning_rate": 3.688276115959846e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234865, "epoch": 2.9224788474731307, "step": 38340}, {"loss": 0.08379368782043457, "token_acc": 0.968944099378882, "grad_norm": 0.6319994330406189, "learning_rate": 3.6871207469666155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234868, "epoch": 2.9228599740833907, "step": 38345}, {"loss": 0.06321191787719727, "token_acc": 0.9731661588938364, "grad_norm": 0.5886424779891968, "learning_rate": 3.685965453260918e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234871, "epoch": 2.9232411006936503, "step": 38350}, {"loss": 0.0843707799911499, "token_acc": 0.963355408388521, "grad_norm": 0.8608803749084473, "learning_rate": 3.684810234909003e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234879, "epoch": 2.9236222273039103, "step": 38355}, {"loss": 0.048241302371025085, "token_acc": 0.9788000847996609, "grad_norm": 0.6467999815940857, "learning_rate": 3.683655091977119e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234885, "epoch": 2.9240033539141703, "step": 38360}, {"loss": 0.08278734683990478, "token_acc": 0.9606966345022359, "grad_norm": 0.7474616169929504, "learning_rate": 3.6825000245315054e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234892, "epoch": 2.9243844805244303, "step": 38365}, {"loss": 0.06328598260879517, "token_acc": 0.9767402086540106, "grad_norm": 0.8409563302993774, "learning_rate": 3.6813450326384027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234901, "epoch": 2.92476560713469, "step": 38370}, {"loss": 0.11127490997314453, "token_acc": 0.9584920794064568, "grad_norm": 0.9744145274162292, "learning_rate": 3.680190116364043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234906, "epoch": 2.92514673374495, "step": 38375}, {"loss": 0.08497668504714966, "token_acc": 0.9680242943908539, "grad_norm": 1.0472900867462158, "learning_rate": 3.679035275774655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234912, "epoch": 2.92552786035521, "step": 38380}, {"loss": 0.06863973140716553, "token_acc": 0.9768115942028985, "grad_norm": 0.8046517372131348, "learning_rate": 3.677880510936464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23492, "epoch": 2.92590898696547, "step": 38385}, {"loss": 0.0629566490650177, "token_acc": 0.9812910596972294, "grad_norm": 1.1033340692520142, "learning_rate": 3.676725821915691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234924, "epoch": 2.92629011357573, "step": 38390}, {"loss": 0.12579107284545898, "token_acc": 0.9615198451113263, "grad_norm": 1.1933232545852661, "learning_rate": 3.6755712087785496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234926, "epoch": 2.92667124018599, "step": 38395}, {"loss": 0.07103090286254883, "token_acc": 0.9753711790393013, "grad_norm": 0.6069520115852356, "learning_rate": 3.6744166715912545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234931, "epoch": 2.9270523667962496, "step": 38400}, {"eval_loss": 0.07321581244468689, "eval_token_acc": 0.9690455394253358, "eval_runtime": 221.6204, "eval_samples_per_second": 2.391, "eval_steps_per_second": 2.391, "epoch": 2.9270523667962496, "step": 38400}, {"loss": 0.0906354010105133, "token_acc": 0.9692234207130584, "grad_norm": 0.6016127467155457, "learning_rate": 3.673262210420012e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234619, "epoch": 2.9274334934065096, "step": 38405}, {"loss": 0.0751638650894165, "token_acc": 0.9739504299443601, "grad_norm": 0.8554596304893494, "learning_rate": 3.6721078253310234e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234625, "epoch": 2.9278146200167696, "step": 38410}, {"loss": 0.06845004558563232, "token_acc": 0.9777312523791397, "grad_norm": 0.6402720212936401, "learning_rate": 3.67095351639049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234629, "epoch": 2.9281957466270296, "step": 38415}, {"loss": 0.10728366374969482, "token_acc": 0.9575926322553009, "grad_norm": 1.703059434890747, "learning_rate": 3.6697992836646045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234636, "epoch": 2.928576873237289, "step": 38420}, {"loss": 0.11867262125015259, "token_acc": 0.9516327788046827, "grad_norm": 1.3567802906036377, "learning_rate": 3.668645127219558e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234645, "epoch": 2.9289579998475492, "step": 38425}, {"loss": 0.07756887674331665, "token_acc": 0.9672786766042538, "grad_norm": 0.8658754825592041, "learning_rate": 3.667491047121535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234651, "epoch": 2.9293391264578093, "step": 38430}, {"loss": 0.08433717489242554, "token_acc": 0.9644800483675937, "grad_norm": 0.7964979410171509, "learning_rate": 3.666337043436716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234657, "epoch": 2.9297202530680693, "step": 38435}, {"loss": 0.0697148859500885, "token_acc": 0.9696132596685083, "grad_norm": 1.0031805038452148, "learning_rate": 3.66518311623128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234664, "epoch": 2.9301013796783293, "step": 38440}, {"loss": 0.07812336683273316, "token_acc": 0.9638462706972505, "grad_norm": 0.6281558871269226, "learning_rate": 3.664029265571398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234669, "epoch": 2.9304825062885893, "step": 38445}, {"loss": 0.07443418502807617, "token_acc": 0.9743187610272496, "grad_norm": 1.6045385599136353, "learning_rate": 3.6628754915232366e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234674, "epoch": 2.930863632898849, "step": 38450}, {"loss": 0.12446836233139039, "token_acc": 0.940631808278867, "grad_norm": 1.8853859901428223, "learning_rate": 3.6617217941529615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234685, "epoch": 2.931244759509109, "step": 38455}, {"loss": 0.1187375545501709, "token_acc": 0.9626112759643917, "grad_norm": 0.6618401408195496, "learning_rate": 3.660568173526732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234693, "epoch": 2.931625886119369, "step": 38460}, {"loss": 0.09195100069046021, "token_acc": 0.9641532756489494, "grad_norm": 0.35117802023887634, "learning_rate": 3.659414629710701e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234701, "epoch": 2.932007012729629, "step": 38465}, {"loss": 0.07881757020950317, "token_acc": 0.965500124100273, "grad_norm": 1.0934264659881592, "learning_rate": 3.658261162771019e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234708, "epoch": 2.9323881393398885, "step": 38470}, {"loss": 0.08198112845420838, "token_acc": 0.968937875751503, "grad_norm": 1.2915143966674805, "learning_rate": 3.657107772773835e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234713, "epoch": 2.9327692659501485, "step": 38475}, {"loss": 0.06403120160102845, "token_acc": 0.9774681292617847, "grad_norm": 0.772872805595398, "learning_rate": 3.655954459785287e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234721, "epoch": 2.9331503925604085, "step": 38480}, {"loss": 0.1185457706451416, "token_acc": 0.9476028294472099, "grad_norm": 0.8432132005691528, "learning_rate": 3.654801223871514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23473, "epoch": 2.9335315191706686, "step": 38485}, {"loss": 0.09074968099594116, "token_acc": 0.9561119293078056, "grad_norm": 1.3068593740463257, "learning_rate": 3.6536480650986484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234738, "epoch": 2.9339126457809286, "step": 38490}, {"loss": 0.0646716058254242, "token_acc": 0.9782316581564096, "grad_norm": 0.7391459941864014, "learning_rate": 3.652494983532818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234746, "epoch": 2.9342937723911886, "step": 38495}, {"loss": 0.10729162693023682, "token_acc": 0.9554945054945055, "grad_norm": 1.7009575366973877, "learning_rate": 3.651341979240147e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234752, "epoch": 2.934674899001448, "step": 38500}, {"loss": 0.08538492918014526, "token_acc": 0.968746328281048, "grad_norm": 0.5439935922622681, "learning_rate": 3.650189052286755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234752, "epoch": 2.935056025611708, "step": 38505}, {"loss": 0.10654065608978272, "token_acc": 0.9497784342688331, "grad_norm": 1.173685073852539, "learning_rate": 3.649036202738758e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234761, "epoch": 2.935437152221968, "step": 38510}, {"loss": 0.06769155263900757, "token_acc": 0.9711945778028805, "grad_norm": 0.7812029719352722, "learning_rate": 3.647883430662265e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23477, "epoch": 2.935818278832228, "step": 38515}, {"loss": 0.0734384000301361, "token_acc": 0.9703894827374371, "grad_norm": 0.8242233991622925, "learning_rate": 3.6467307361233824e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234772, "epoch": 2.936199405442488, "step": 38520}, {"loss": 0.08858414888381957, "token_acc": 0.9570491803278689, "grad_norm": 2.0323479175567627, "learning_rate": 3.6455781191882126e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234781, "epoch": 2.936580532052748, "step": 38525}, {"loss": 0.07953286767005921, "token_acc": 0.9744349352644284, "grad_norm": 1.0969643592834473, "learning_rate": 3.6444255799228525e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234782, "epoch": 2.936961658663008, "step": 38530}, {"loss": 0.05935894846916199, "token_acc": 0.9720479178551056, "grad_norm": 0.5396181344985962, "learning_rate": 3.6432731183933935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234791, "epoch": 2.937342785273268, "step": 38535}, {"loss": 0.08878918290138245, "token_acc": 0.9690380935814924, "grad_norm": 1.0247985124588013, "learning_rate": 3.642120734665926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234796, "epoch": 2.937723911883528, "step": 38540}, {"loss": 0.05096613168716431, "token_acc": 0.9787900698963605, "grad_norm": 0.732018768787384, "learning_rate": 3.6409684288065315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234804, "epoch": 2.938105038493788, "step": 38545}, {"loss": 0.08514778017997741, "token_acc": 0.971967380224261, "grad_norm": 0.6222997903823853, "learning_rate": 3.639816200881293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234808, "epoch": 2.9384861651040475, "step": 38550}, {"loss": 0.07821987867355347, "token_acc": 0.9678551216751556, "grad_norm": 1.0242666006088257, "learning_rate": 3.638664050956282e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234806, "epoch": 2.9388672917143075, "step": 38555}, {"loss": 0.08289740681648254, "token_acc": 0.9704701834862385, "grad_norm": 0.6417696475982666, "learning_rate": 3.637511979097571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234812, "epoch": 2.9392484183245675, "step": 38560}, {"loss": 0.04867103099822998, "token_acc": 0.9802669762042948, "grad_norm": 0.8166964650154114, "learning_rate": 3.636359985371226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23482, "epoch": 2.939629544934827, "step": 38565}, {"loss": 0.07524790167808533, "token_acc": 0.9742238946378174, "grad_norm": 1.5745680332183838, "learning_rate": 3.635208069843308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234827, "epoch": 2.940010671545087, "step": 38570}, {"loss": 0.061606526374816895, "token_acc": 0.979950289975145, "grad_norm": 0.5692694783210754, "learning_rate": 3.634056232579872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234834, "epoch": 2.940391798155347, "step": 38575}, {"loss": 0.09089514017105102, "token_acc": 0.9681077250177179, "grad_norm": 1.2897921800613403, "learning_rate": 3.6329044736469734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234833, "epoch": 2.940772924765607, "step": 38580}, {"loss": 0.07411049604415894, "token_acc": 0.9743104380746349, "grad_norm": 2.204230546951294, "learning_rate": 3.63175279311066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234836, "epoch": 2.941154051375867, "step": 38585}, {"loss": 0.07833275794982911, "token_acc": 0.9748407643312101, "grad_norm": 0.5812010169029236, "learning_rate": 3.630601191036972e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234845, "epoch": 2.941535177986127, "step": 38590}, {"loss": 0.1112443208694458, "token_acc": 0.9608006672226855, "grad_norm": 0.9122231602668762, "learning_rate": 3.629449667491953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234852, "epoch": 2.9419163045963868, "step": 38595}, {"loss": 0.04806002974510193, "token_acc": 0.9785202863961814, "grad_norm": 0.13897180557250977, "learning_rate": 3.6282982225416354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234858, "epoch": 2.9422974312066468, "step": 38600}, {"eval_loss": 0.07308615744113922, "eval_token_acc": 0.9692789590988494, "eval_runtime": 221.3702, "eval_samples_per_second": 2.394, "eval_steps_per_second": 2.394, "epoch": 2.9422974312066468, "step": 38600}, {"loss": 0.07586143016815186, "token_acc": 0.969287369853942, "grad_norm": 0.8170351386070251, "learning_rate": 3.6271468562520475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23455, "epoch": 2.942678557816907, "step": 38605}, {"loss": 0.1036845326423645, "token_acc": 0.9602260833158887, "grad_norm": 0.5808900594711304, "learning_rate": 3.6259955686892185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234556, "epoch": 2.943059684427167, "step": 38610}, {"loss": 0.06232611536979675, "token_acc": 0.974917491749175, "grad_norm": 1.0807719230651855, "learning_rate": 3.624844359919167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234561, "epoch": 2.9434408110374264, "step": 38615}, {"loss": 0.05861049294471741, "token_acc": 0.9799201369081575, "grad_norm": 0.6244029998779297, "learning_rate": 3.6236932300079094e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23456, "epoch": 2.9438219376476864, "step": 38620}, {"loss": 0.06806414127349854, "token_acc": 0.9653069004956157, "grad_norm": 0.6895312070846558, "learning_rate": 3.6225421790214585e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234567, "epoch": 2.9442030642579464, "step": 38625}, {"loss": 0.07100957036018371, "token_acc": 0.9711479435236341, "grad_norm": 0.9582532644271851, "learning_rate": 3.6213912070258214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234574, "epoch": 2.9445841908682064, "step": 38630}, {"loss": 0.07467643022537232, "token_acc": 0.9588568612958857, "grad_norm": 0.7546040415763855, "learning_rate": 3.620240314087002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234582, "epoch": 2.9449653174784665, "step": 38635}, {"loss": 0.08365092277526856, "token_acc": 0.9657686212361332, "grad_norm": 1.0474066734313965, "learning_rate": 3.6190895002709956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234591, "epoch": 2.9453464440887265, "step": 38640}, {"loss": 0.06738827228546143, "token_acc": 0.9675973802137194, "grad_norm": 0.04862583801150322, "learning_rate": 3.6179387656438004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2346, "epoch": 2.945727570698986, "step": 38645}, {"loss": 0.07072598934173584, "token_acc": 0.9730597431602457, "grad_norm": 0.9068000912666321, "learning_rate": 3.6167881102714025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234605, "epoch": 2.946108697309246, "step": 38650}, {"loss": 0.09277918338775634, "token_acc": 0.9611125418490858, "grad_norm": 0.9595414400100708, "learning_rate": 3.6156375342197865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234612, "epoch": 2.946489823919506, "step": 38655}, {"loss": 0.06875663995742798, "token_acc": 0.9728470111448835, "grad_norm": 0.7440850734710693, "learning_rate": 3.6144870375549355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234618, "epoch": 2.946870950529766, "step": 38660}, {"loss": 0.07529481053352356, "token_acc": 0.9744897959183674, "grad_norm": 0.9217122793197632, "learning_rate": 3.6133366203428226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234624, "epoch": 2.9472520771400257, "step": 38665}, {"loss": 0.0612426221370697, "token_acc": 0.9694519317160827, "grad_norm": 0.6697252988815308, "learning_rate": 3.612186282649419e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234632, "epoch": 2.9476332037502857, "step": 38670}, {"loss": 0.08065415024757386, "token_acc": 0.9647006912781292, "grad_norm": 0.7084183692932129, "learning_rate": 3.611036024540693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234636, "epoch": 2.9480143303605457, "step": 38675}, {"loss": 0.10098352432250976, "token_acc": 0.9640241961158866, "grad_norm": 1.5974667072296143, "learning_rate": 3.6098858460826025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234641, "epoch": 2.9483954569708057, "step": 38680}, {"loss": 0.10012969970703126, "token_acc": 0.9670473694064782, "grad_norm": 1.3520749807357788, "learning_rate": 3.608735747341111e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234648, "epoch": 2.9487765835810658, "step": 38685}, {"loss": 0.08925758004188537, "token_acc": 0.9591280653950953, "grad_norm": 0.03705350309610367, "learning_rate": 3.607585728382167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234658, "epoch": 2.9491577101913258, "step": 38690}, {"loss": 0.09105641841888427, "token_acc": 0.9669636737491433, "grad_norm": 0.741936445236206, "learning_rate": 3.60643578927172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23466, "epoch": 2.9495388368015854, "step": 38695}, {"loss": 0.0751001477241516, "token_acc": 0.9744670600987595, "grad_norm": 0.5934513807296753, "learning_rate": 3.605285930075714e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234661, "epoch": 2.9499199634118454, "step": 38700}, {"loss": 0.05762844681739807, "token_acc": 0.980089485458613, "grad_norm": 0.8418030738830566, "learning_rate": 3.604136150860088e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234668, "epoch": 2.9503010900221054, "step": 38705}, {"loss": 0.08942219614982605, "token_acc": 0.9645300684191573, "grad_norm": 0.8436858654022217, "learning_rate": 3.602986451690774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234671, "epoch": 2.9506822166323654, "step": 38710}, {"loss": 0.09446380138397217, "token_acc": 0.9627543604651163, "grad_norm": 1.2350512742996216, "learning_rate": 3.601836832633706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234677, "epoch": 2.951063343242625, "step": 38715}, {"loss": 0.09501760601997375, "token_acc": 0.9616455304670585, "grad_norm": 1.440083384513855, "learning_rate": 3.600687293754807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234687, "epoch": 2.951444469852885, "step": 38720}, {"loss": 0.07629832029342651, "token_acc": 0.9656978266561927, "grad_norm": 2.0481960773468018, "learning_rate": 3.599537835119998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234697, "epoch": 2.951825596463145, "step": 38725}, {"loss": 0.08238788843154907, "token_acc": 0.964804896710023, "grad_norm": 1.0453717708587646, "learning_rate": 3.598388456795195e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234704, "epoch": 2.952206723073405, "step": 38730}, {"loss": 0.12514473199844361, "token_acc": 0.9527698079894064, "grad_norm": 2.314896583557129, "learning_rate": 3.5972391588463106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234712, "epoch": 2.952587849683665, "step": 38735}, {"loss": 0.06875689029693603, "token_acc": 0.9711103376261747, "grad_norm": 1.4636012315750122, "learning_rate": 3.5960899413392506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234721, "epoch": 2.952968976293925, "step": 38740}, {"loss": 0.04716563820838928, "token_acc": 0.9827771797631862, "grad_norm": 0.9940330386161804, "learning_rate": 3.594940804339917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234725, "epoch": 2.9533501029041846, "step": 38745}, {"loss": 0.0678349792957306, "token_acc": 0.9659483467675605, "grad_norm": 1.0505119562149048, "learning_rate": 3.593791747914208e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234731, "epoch": 2.9537312295144447, "step": 38750}, {"loss": 0.11112428903579712, "token_acc": 0.9585043319653442, "grad_norm": 1.5109341144561768, "learning_rate": 3.5926427721280175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234741, "epoch": 2.9541123561247047, "step": 38755}, {"loss": 0.08223534226417542, "token_acc": 0.9670622426737709, "grad_norm": 1.2430680990219116, "learning_rate": 3.591493877047232e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234748, "epoch": 2.9544934827349647, "step": 38760}, {"loss": 0.05034450888633728, "token_acc": 0.9804169298799748, "grad_norm": 0.8281294703483582, "learning_rate": 3.5903450627377364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234758, "epoch": 2.9548746093452243, "step": 38765}, {"loss": 0.06878971457481384, "token_acc": 0.970767004341534, "grad_norm": 1.1660783290863037, "learning_rate": 3.5891963292654105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234761, "epoch": 2.9552557359554843, "step": 38770}, {"loss": 0.07143346667289734, "token_acc": 0.9773267797685112, "grad_norm": 0.7993292808532715, "learning_rate": 3.5880476766961274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234765, "epoch": 2.9556368625657443, "step": 38775}, {"loss": 0.09173145890235901, "token_acc": 0.962091230993543, "grad_norm": 1.074449896812439, "learning_rate": 3.586899105095759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234771, "epoch": 2.9560179891760043, "step": 38780}, {"loss": 0.07905872464179993, "token_acc": 0.9693670418896475, "grad_norm": 0.8507541418075562, "learning_rate": 3.585750614530169e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234774, "epoch": 2.9563991157862644, "step": 38785}, {"loss": 0.0719455599784851, "token_acc": 0.9683986630203586, "grad_norm": 0.7372616529464722, "learning_rate": 3.584602205065217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234784, "epoch": 2.9567802423965244, "step": 38790}, {"loss": 0.087141352891922, "token_acc": 0.9696888412017167, "grad_norm": 0.7369358539581299, "learning_rate": 3.5834538767667615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234791, "epoch": 2.957161369006784, "step": 38795}, {"loss": 0.05474860668182373, "token_acc": 0.9761499148211243, "grad_norm": 0.711685061454773, "learning_rate": 3.582305629700653e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234797, "epoch": 2.957542495617044, "step": 38800}, {"eval_loss": 0.07327984273433685, "eval_token_acc": 0.9689551834226854, "eval_runtime": 221.0396, "eval_samples_per_second": 2.398, "eval_steps_per_second": 2.398, "epoch": 2.957542495617044, "step": 38800}, {"loss": 0.04817003905773163, "token_acc": 0.9695198121221206, "grad_norm": 1.4097583293914795, "learning_rate": 3.5811574639327373e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234486, "epoch": 2.957923622227304, "step": 38805}, {"loss": 0.0671981155872345, "token_acc": 0.9743421052631579, "grad_norm": 0.7329922318458557, "learning_rate": 3.580009379528855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234493, "epoch": 2.958304748837564, "step": 38810}, {"loss": 0.10910841226577758, "token_acc": 0.9643954918032787, "grad_norm": 0.6524449586868286, "learning_rate": 3.578861376554846e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234501, "epoch": 2.9586858754478236, "step": 38815}, {"loss": 0.08297204375267028, "token_acc": 0.9671444677081655, "grad_norm": 1.0033230781555176, "learning_rate": 3.5777134550765433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234507, "epoch": 2.9590670020580836, "step": 38820}, {"loss": 0.10434581041336059, "token_acc": 0.9579470198675497, "grad_norm": 0.85258948802948, "learning_rate": 3.576565615159774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23451, "epoch": 2.9594481286683436, "step": 38825}, {"loss": 0.046606266498565675, "token_acc": 0.980043044414009, "grad_norm": 0.5201262831687927, "learning_rate": 3.575417856870359e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234516, "epoch": 2.9598292552786036, "step": 38830}, {"loss": 0.0701273500919342, "token_acc": 0.9717741935483871, "grad_norm": 0.597226083278656, "learning_rate": 3.574270180274121e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234525, "epoch": 2.9602103818888637, "step": 38835}, {"loss": 0.0834250271320343, "token_acc": 0.9686804451510334, "grad_norm": 0.7599177360534668, "learning_rate": 3.573122585436872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234528, "epoch": 2.9605915084991237, "step": 38840}, {"loss": 0.08164891004562377, "token_acc": 0.967345669413777, "grad_norm": 0.4462575316429138, "learning_rate": 3.571975072424421e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234534, "epoch": 2.9609726351093832, "step": 38845}, {"loss": 0.07861298322677612, "token_acc": 0.9653276955602537, "grad_norm": 0.9207409620285034, "learning_rate": 3.570827641302572e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234541, "epoch": 2.9613537617196433, "step": 38850}, {"loss": 0.04996066689491272, "token_acc": 0.9789692627686619, "grad_norm": 0.5712072849273682, "learning_rate": 3.569680292137126e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234549, "epoch": 2.9617348883299033, "step": 38855}, {"loss": 0.07683677673339843, "token_acc": 0.973630831643002, "grad_norm": 1.096729040145874, "learning_rate": 3.5685330249938786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234555, "epoch": 2.962116014940163, "step": 38860}, {"loss": 0.08227510452270508, "token_acc": 0.9726130653266332, "grad_norm": 1.3038557767868042, "learning_rate": 3.567385839938618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234562, "epoch": 2.962497141550423, "step": 38865}, {"loss": 0.12806181907653807, "token_acc": 0.9570082449941107, "grad_norm": 1.8853020668029785, "learning_rate": 3.566238737037132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23457, "epoch": 2.962878268160683, "step": 38870}, {"loss": 0.12048227787017822, "token_acc": 0.9596619285439877, "grad_norm": 1.2064908742904663, "learning_rate": 3.5650917163552014e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234579, "epoch": 2.963259394770943, "step": 38875}, {"loss": 0.07434581518173218, "token_acc": 0.9744516751024344, "grad_norm": 0.6385561227798462, "learning_rate": 3.563944777958601e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234585, "epoch": 2.963640521381203, "step": 38880}, {"loss": 0.07883182764053345, "token_acc": 0.9683831881862931, "grad_norm": 1.2863200902938843, "learning_rate": 3.562797921913105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234591, "epoch": 2.964021647991463, "step": 38885}, {"loss": 0.06824736595153809, "token_acc": 0.9684579439252337, "grad_norm": 1.0779120922088623, "learning_rate": 3.561651148284478e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234601, "epoch": 2.964402774601723, "step": 38890}, {"loss": 0.06643468141555786, "token_acc": 0.9749496112870717, "grad_norm": 0.9973769187927246, "learning_rate": 3.5605044571384813e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234605, "epoch": 2.9647839012119825, "step": 38895}, {"loss": 0.09061163067817687, "token_acc": 0.965295208992688, "grad_norm": 0.7081709504127502, "learning_rate": 3.559357848540876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234605, "epoch": 2.9651650278222426, "step": 38900}, {"loss": 0.0790637731552124, "token_acc": 0.9694481573419896, "grad_norm": 0.8721177577972412, "learning_rate": 3.5582113225574125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234609, "epoch": 2.9655461544325026, "step": 38905}, {"loss": 0.06460950970649719, "token_acc": 0.9669551534225019, "grad_norm": 0.988643229007721, "learning_rate": 3.557064879253839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234616, "epoch": 2.965927281042762, "step": 38910}, {"loss": 0.08273127675056458, "token_acc": 0.9742160278745644, "grad_norm": 0.6945236921310425, "learning_rate": 3.555918518695898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234621, "epoch": 2.966308407653022, "step": 38915}, {"loss": 0.08158943057060242, "token_acc": 0.9754915930464519, "grad_norm": 0.8074384331703186, "learning_rate": 3.5547722409493286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234625, "epoch": 2.966689534263282, "step": 38920}, {"loss": 0.08944888114929199, "token_acc": 0.970175920835624, "grad_norm": 0.8986004590988159, "learning_rate": 3.553626046079865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234627, "epoch": 2.967070660873542, "step": 38925}, {"loss": 0.06634051203727723, "token_acc": 0.9756327621443169, "grad_norm": 0.6507866978645325, "learning_rate": 3.5524799341532344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234632, "epoch": 2.9674517874838022, "step": 38930}, {"loss": 0.03285872340202332, "token_acc": 0.9839857651245552, "grad_norm": 0.7415527701377869, "learning_rate": 3.5513339052351635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234641, "epoch": 2.9678329140940622, "step": 38935}, {"loss": 0.09051662683486938, "token_acc": 0.9735621521335807, "grad_norm": 0.9399220943450928, "learning_rate": 3.550187959391371e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234647, "epoch": 2.968214040704322, "step": 38940}, {"loss": 0.056359076499938966, "token_acc": 0.983362143474503, "grad_norm": 2.7175989151000977, "learning_rate": 3.5490420966875685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234652, "epoch": 2.968595167314582, "step": 38945}, {"loss": 0.10753805637359619, "token_acc": 0.9630479687858619, "grad_norm": 1.0740936994552612, "learning_rate": 3.547896317189469e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23466, "epoch": 2.968976293924842, "step": 38950}, {"loss": 0.06662009358406067, "token_acc": 0.9734897172236504, "grad_norm": 1.4621716737747192, "learning_rate": 3.546750620962779e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234661, "epoch": 2.969357420535102, "step": 38955}, {"loss": 0.0946004033088684, "token_acc": 0.9650285010013865, "grad_norm": 1.0432528257369995, "learning_rate": 3.545605008073196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234666, "epoch": 2.9697385471453615, "step": 38960}, {"loss": 0.07019053101539612, "token_acc": 0.9731757943477567, "grad_norm": 1.3881069421768188, "learning_rate": 3.544459478586418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23467, "epoch": 2.9701196737556215, "step": 38965}, {"loss": 0.05511276125907898, "token_acc": 0.9749857873791927, "grad_norm": 0.5398285388946533, "learning_rate": 3.543314032568132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234677, "epoch": 2.9705008003658815, "step": 38970}, {"loss": 0.08305079936981201, "token_acc": 0.9641754169240272, "grad_norm": 1.0859532356262207, "learning_rate": 3.542168670084029e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234682, "epoch": 2.9708819269761415, "step": 38975}, {"loss": 0.04208917617797851, "token_acc": 0.9803262955854126, "grad_norm": 1.6940295696258545, "learning_rate": 3.541023391199786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234688, "epoch": 2.9712630535864015, "step": 38980}, {"loss": 0.07224465608596801, "token_acc": 0.9735202492211839, "grad_norm": 0.4786969721317291, "learning_rate": 3.53987819598108e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234687, "epoch": 2.9716441801966615, "step": 38985}, {"loss": 0.04666823148727417, "token_acc": 0.9830172657797905, "grad_norm": 0.6289643049240112, "learning_rate": 3.538733084493586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234695, "epoch": 2.972025306806921, "step": 38990}, {"loss": 0.0947305679321289, "token_acc": 0.9647089129314786, "grad_norm": 0.9665145874023438, "learning_rate": 3.537588056802967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234699, "epoch": 2.972406433417181, "step": 38995}, {"loss": 0.07951099276542664, "token_acc": 0.970199043700656, "grad_norm": 0.6485277414321899, "learning_rate": 3.536443112974887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234699, "epoch": 2.972787560027441, "step": 39000}, {"eval_loss": 0.07230938971042633, "eval_token_acc": 0.9695801457743509, "eval_runtime": 219.4103, "eval_samples_per_second": 2.416, "eval_steps_per_second": 2.416, "epoch": 2.972787560027441, "step": 39000}, {"loss": 0.07749907374382019, "token_acc": 0.9697628515032755, "grad_norm": 1.0107721090316772, "learning_rate": 3.535298253075003e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234392, "epoch": 2.973168686637701, "step": 39005}, {"loss": 0.09255664348602295, "token_acc": 0.9687725198174394, "grad_norm": 0.8344621658325195, "learning_rate": 3.5341534771689665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234398, "epoch": 2.9735498132479607, "step": 39010}, {"loss": 0.0548406183719635, "token_acc": 0.9786253143336128, "grad_norm": 1.3069581985473633, "learning_rate": 3.533008785322426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234407, "epoch": 2.9739309398582208, "step": 39015}, {"loss": 0.12056159973144531, "token_acc": 0.9548164417947913, "grad_norm": 1.726629376411438, "learning_rate": 3.531864177601024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234415, "epoch": 2.974312066468481, "step": 39020}, {"loss": 0.08566503524780274, "token_acc": 0.9618699399320971, "grad_norm": 1.141485571861267, "learning_rate": 3.530719654070399e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234422, "epoch": 2.974693193078741, "step": 39025}, {"loss": 0.09134765863418579, "token_acc": 0.9635815356065878, "grad_norm": 0.9991254210472107, "learning_rate": 3.529575214796183e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234431, "epoch": 2.975074319689001, "step": 39030}, {"loss": 0.061217236518859866, "token_acc": 0.9719756309834638, "grad_norm": 1.125738263130188, "learning_rate": 3.5284308598440045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234437, "epoch": 2.975455446299261, "step": 39035}, {"loss": 0.0695447325706482, "token_acc": 0.9760574620909817, "grad_norm": 1.1593971252441406, "learning_rate": 3.527286589279488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234443, "epoch": 2.9758365729095204, "step": 39040}, {"loss": 0.06359245777130126, "token_acc": 0.9759274992919853, "grad_norm": 1.6628764867782593, "learning_rate": 3.5261424031682515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234451, "epoch": 2.9762176995197804, "step": 39045}, {"loss": 0.10594902038574219, "token_acc": 0.9626704953338119, "grad_norm": 1.304595947265625, "learning_rate": 3.524998301575908e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234458, "epoch": 2.9765988261300405, "step": 39050}, {"loss": 0.06611074805259705, "token_acc": 0.9717643880032424, "grad_norm": 1.1797105073928833, "learning_rate": 3.523854284568067e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234462, "epoch": 2.9769799527403005, "step": 39055}, {"loss": 0.08016995191574097, "token_acc": 0.9657501205981669, "grad_norm": 0.8876939415931702, "learning_rate": 3.522710352210333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234471, "epoch": 2.97736107935056, "step": 39060}, {"loss": 0.0716000735759735, "token_acc": 0.9764219234746639, "grad_norm": 1.6086838245391846, "learning_rate": 3.521566504568304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234476, "epoch": 2.97774220596082, "step": 39065}, {"loss": 0.09208372831344605, "token_acc": 0.9618613576397218, "grad_norm": 1.3499586582183838, "learning_rate": 3.520422741707576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234483, "epoch": 2.97812333257108, "step": 39070}, {"loss": 0.07049931287765503, "token_acc": 0.9705389221556886, "grad_norm": 1.6736934185028076, "learning_rate": 3.519279063693738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234491, "epoch": 2.97850445918134, "step": 39075}, {"loss": 0.07858411073684693, "token_acc": 0.9705352758225568, "grad_norm": 0.6909894347190857, "learning_rate": 3.5181354705923725e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234496, "epoch": 2.9788855857916, "step": 39080}, {"loss": 0.07957220673561097, "token_acc": 0.9701573521432447, "grad_norm": 1.3095768690109253, "learning_rate": 3.516991962469063e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2345, "epoch": 2.97926671240186, "step": 39085}, {"loss": 0.08474056720733643, "token_acc": 0.9676173869722257, "grad_norm": 0.6547259092330933, "learning_rate": 3.515848539389381e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2345, "epoch": 2.9796478390121197, "step": 39090}, {"loss": 0.07835097312927246, "token_acc": 0.9681749296384499, "grad_norm": 0.7898026704788208, "learning_rate": 3.5147052014189e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234507, "epoch": 2.9800289656223797, "step": 39095}, {"loss": 0.06380345821380615, "token_acc": 0.9775366457262517, "grad_norm": 0.6175777912139893, "learning_rate": 3.513561948623182e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234513, "epoch": 2.9804100922326398, "step": 39100}, {"loss": 0.07493141889572144, "token_acc": 0.9667104164180885, "grad_norm": 0.6688360571861267, "learning_rate": 3.512418781067787e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234515, "epoch": 2.9807912188428998, "step": 39105}, {"loss": 0.07798659205436706, "token_acc": 0.9759970457902511, "grad_norm": 1.4546802043914795, "learning_rate": 3.511275698818274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234522, "epoch": 2.9811723454531593, "step": 39110}, {"loss": 0.0606040358543396, "token_acc": 0.9743554006968641, "grad_norm": 0.9583495855331421, "learning_rate": 3.5101327019401895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234525, "epoch": 2.9815534720634194, "step": 39115}, {"loss": 0.08515780568122863, "token_acc": 0.9697956766360675, "grad_norm": 1.1618422269821167, "learning_rate": 3.508989790499081e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234529, "epoch": 2.9819345986736794, "step": 39120}, {"loss": 0.07220359444618225, "token_acc": 0.9740634005763689, "grad_norm": 1.3012700080871582, "learning_rate": 3.5078469645604895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234538, "epoch": 2.9823157252839394, "step": 39125}, {"loss": 0.08890300393104553, "token_acc": 0.9625262477790341, "grad_norm": 1.383684754371643, "learning_rate": 3.506704224189951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234541, "epoch": 2.9826968518941994, "step": 39130}, {"loss": 0.0651609718799591, "token_acc": 0.9680672268907563, "grad_norm": 0.5972448587417603, "learning_rate": 3.505561569452994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234551, "epoch": 2.9830779785044594, "step": 39135}, {"loss": 0.06103957891464233, "token_acc": 0.9747768723321691, "grad_norm": 0.8712660670280457, "learning_rate": 3.5044190004151456e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23456, "epoch": 2.983459105114719, "step": 39140}, {"loss": 0.05538129210472107, "token_acc": 0.9797435897435898, "grad_norm": 0.9281178116798401, "learning_rate": 3.503276517141929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234567, "epoch": 2.983840231724979, "step": 39145}, {"loss": 0.09805760383605958, "token_acc": 0.9677329881656804, "grad_norm": 1.9713696241378784, "learning_rate": 3.502134119698857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234567, "epoch": 2.984221358335239, "step": 39150}, {"loss": 0.07481737732887268, "token_acc": 0.9755026186855887, "grad_norm": 0.7472063899040222, "learning_rate": 3.500991808151443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234572, "epoch": 2.9846024849454986, "step": 39155}, {"loss": 0.06893886923789978, "token_acc": 0.9766891276634493, "grad_norm": 0.7177664637565613, "learning_rate": 3.4998495825651925e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234578, "epoch": 2.9849836115557586, "step": 39160}, {"loss": 0.10198855400085449, "token_acc": 0.961433868974042, "grad_norm": 0.6451066732406616, "learning_rate": 3.498707443005607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234586, "epoch": 2.9853647381660187, "step": 39165}, {"loss": 0.09753260612487794, "token_acc": 0.9615212527964205, "grad_norm": 1.8478902578353882, "learning_rate": 3.497565389538181e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234592, "epoch": 2.9857458647762787, "step": 39170}, {"loss": 0.06039793491363525, "token_acc": 0.9799808035102153, "grad_norm": 1.1897917985916138, "learning_rate": 3.49642342222841e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234595, "epoch": 2.9861269913865387, "step": 39175}, {"loss": 0.07277787327766419, "token_acc": 0.976927570093458, "grad_norm": 0.7621636986732483, "learning_rate": 3.495281541141777e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234602, "epoch": 2.9865081179967987, "step": 39180}, {"loss": 0.07517488598823548, "token_acc": 0.973026130935656, "grad_norm": 0.9261408448219299, "learning_rate": 3.4941397463437654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23461, "epoch": 2.9868892446070587, "step": 39185}, {"loss": 0.10181840658187866, "token_acc": 0.9600223651104277, "grad_norm": 0.6630003452301025, "learning_rate": 3.4929980378998514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234618, "epoch": 2.9872703712173183, "step": 39190}, {"loss": 0.0656619906425476, "token_acc": 0.9673601147776184, "grad_norm": 1.2734942436218262, "learning_rate": 3.4918564158755065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234627, "epoch": 2.9876514978275783, "step": 39195}, {"loss": 0.10563346147537231, "token_acc": 0.9695896433805569, "grad_norm": 1.3208194971084595, "learning_rate": 3.4907148803361976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234628, "epoch": 2.9880326244378383, "step": 39200}, {"eval_loss": 0.07265514135360718, "eval_token_acc": 0.9695349677730257, "eval_runtime": 221.3628, "eval_samples_per_second": 2.394, "eval_steps_per_second": 2.394, "epoch": 2.9880326244378383, "step": 39200}, {"loss": 0.06479206085205078, "token_acc": 0.9695677838263265, "grad_norm": 1.0566213130950928, "learning_rate": 3.489573431347386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234324, "epoch": 2.988413751048098, "step": 39205}, {"loss": 0.05413353443145752, "token_acc": 0.976957585644372, "grad_norm": 0.761085569858551, "learning_rate": 3.48843206897453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23433, "epoch": 2.988794877658358, "step": 39210}, {"loss": 0.062159568071365356, "token_acc": 0.9774436090225563, "grad_norm": 0.9931512475013733, "learning_rate": 3.4872907932830766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234333, "epoch": 2.989176004268618, "step": 39215}, {"loss": 0.0627434492111206, "token_acc": 0.9781634938409854, "grad_norm": 0.9465264678001404, "learning_rate": 3.48614960433848e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234338, "epoch": 2.989557130878878, "step": 39220}, {"loss": 0.05273017883300781, "token_acc": 0.9824719680371182, "grad_norm": 0.714407742023468, "learning_rate": 3.485008502206177e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234337, "epoch": 2.989938257489138, "step": 39225}, {"loss": 0.07220150828361512, "token_acc": 0.9760528488852188, "grad_norm": 2.22300386428833, "learning_rate": 3.4838674869516066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234341, "epoch": 2.990319384099398, "step": 39230}, {"loss": 0.07949203252792358, "token_acc": 0.9729129662522202, "grad_norm": 1.0791500806808472, "learning_rate": 3.482726558640201e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234342, "epoch": 2.9907005107096576, "step": 39235}, {"loss": 0.07493292689323425, "token_acc": 0.974762726488352, "grad_norm": 1.728495478630066, "learning_rate": 3.481585717337386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234349, "epoch": 2.9910816373199176, "step": 39240}, {"loss": 0.10468072891235351, "token_acc": 0.9638118214716526, "grad_norm": 0.6211915016174316, "learning_rate": 3.480444963108582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234353, "epoch": 2.9914627639301776, "step": 39245}, {"loss": 0.06595179438591003, "token_acc": 0.9686671487105326, "grad_norm": 0.6416475176811218, "learning_rate": 3.479304296019209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234361, "epoch": 2.9918438905404376, "step": 39250}, {"loss": 0.09969189167022705, "token_acc": 0.9653804543815362, "grad_norm": 0.8585364818572998, "learning_rate": 3.478163716134679e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234371, "epoch": 2.992225017150697, "step": 39255}, {"loss": 0.0885477066040039, "token_acc": 0.9696274059685679, "grad_norm": 1.2608102560043335, "learning_rate": 3.4770232235203955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234375, "epoch": 2.9926061437609572, "step": 39260}, {"loss": 0.08256800174713134, "token_acc": 0.9718351615772309, "grad_norm": 1.7529563903808594, "learning_rate": 3.475882818241763e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234383, "epoch": 2.9929872703712173, "step": 39265}, {"loss": 0.0831078052520752, "token_acc": 0.966217870257038, "grad_norm": 1.0772836208343506, "learning_rate": 3.4747425003641795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234386, "epoch": 2.9933683969814773, "step": 39270}, {"loss": 0.088853257894516, "token_acc": 0.9597104186339314, "grad_norm": 1.9200010299682617, "learning_rate": 3.473602269953034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234394, "epoch": 2.9937495235917373, "step": 39275}, {"loss": 0.0703099250793457, "token_acc": 0.9734564339296018, "grad_norm": 1.0271961688995361, "learning_rate": 3.472462127073716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234399, "epoch": 2.9941306502019973, "step": 39280}, {"loss": 0.0784456729888916, "token_acc": 0.9710327455919395, "grad_norm": 0.8118994832038879, "learning_rate": 3.471322071791606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234406, "epoch": 2.994511776812257, "step": 39285}, {"loss": 0.0917759358882904, "token_acc": 0.963262554769127, "grad_norm": 1.3292436599731445, "learning_rate": 3.470182104172081e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234411, "epoch": 2.994892903422517, "step": 39290}, {"loss": 0.09355546236038208, "token_acc": 0.9644194756554307, "grad_norm": 0.6280410885810852, "learning_rate": 3.469042224280514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234419, "epoch": 2.995274030032777, "step": 39295}, {"loss": 0.12040141820907593, "token_acc": 0.9491954438618695, "grad_norm": 1.3419440984725952, "learning_rate": 3.4679024321822704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234425, "epoch": 2.995655156643037, "step": 39300}, {"loss": 0.12129837274551392, "token_acc": 0.9583333333333334, "grad_norm": 1.0595062971115112, "learning_rate": 3.466762727942713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234433, "epoch": 2.9960362832532965, "step": 39305}, {"loss": 0.08626197576522827, "token_acc": 0.9662247474747475, "grad_norm": 0.9315109848976135, "learning_rate": 3.465623111627196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234438, "epoch": 2.9964174098635565, "step": 39310}, {"loss": 0.08997769355773926, "token_acc": 0.9750992421508481, "grad_norm": 0.9964389204978943, "learning_rate": 3.464483583301076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234447, "epoch": 2.9967985364738166, "step": 39315}, {"loss": 0.054768145084381104, "token_acc": 0.9806002928257687, "grad_norm": 0.6324106454849243, "learning_rate": 3.463344143029695e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234455, "epoch": 2.9971796630840766, "step": 39320}, {"loss": 0.09918960332870483, "token_acc": 0.9645056139080044, "grad_norm": 1.1516257524490356, "learning_rate": 3.462204790878397e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23446, "epoch": 2.9975607896943366, "step": 39325}, {"loss": 0.07015914916992187, "token_acc": 0.9744, "grad_norm": 1.0922255516052246, "learning_rate": 3.4610655269125184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234467, "epoch": 2.9979419163045966, "step": 39330}, {"loss": 0.06108701229095459, "token_acc": 0.9768477292965272, "grad_norm": 0.7641240358352661, "learning_rate": 3.45992635119739e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234472, "epoch": 2.998323042914856, "step": 39335}, {"loss": 0.0817350447177887, "token_acc": 0.96390760346487, "grad_norm": 1.30362868309021, "learning_rate": 3.458787263798338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234479, "epoch": 2.998704169525116, "step": 39340}, {"loss": 0.12164015769958496, "token_acc": 0.9583106267029973, "grad_norm": 2.031428813934326, "learning_rate": 3.457648264780684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234486, "epoch": 2.999085296135376, "step": 39345}, {"loss": 0.07482206225395202, "token_acc": 0.9732609149780655, "grad_norm": 1.254213809967041, "learning_rate": 3.456509354209744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234493, "epoch": 2.9994664227456362, "step": 39350}, {"loss": 0.10698556900024414, "token_acc": 0.9667471934062811, "grad_norm": 1.2808424234390259, "learning_rate": 3.4553705321508324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234499, "epoch": 2.999847549355896, "step": 39355}, {"loss": 0.08201568126678467, "token_acc": 0.9722695207978594, "grad_norm": 0.6597931385040283, "learning_rate": 3.454231798669252e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234506, "epoch": 3.000228675966156, "step": 39360}, {"loss": 0.0778917670249939, "token_acc": 0.973754100921731, "grad_norm": 0.8968120217323303, "learning_rate": 3.4530931538303034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234511, "epoch": 3.000609802576416, "step": 39365}, {"loss": 0.10934780836105347, "token_acc": 0.9615581752947207, "grad_norm": 1.5238381624221802, "learning_rate": 3.451954597699285e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234518, "epoch": 3.000990929186676, "step": 39370}, {"loss": 0.0701261043548584, "token_acc": 0.9709870703248187, "grad_norm": 0.7919889688491821, "learning_rate": 3.450816130341487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234526, "epoch": 3.001372055796936, "step": 39375}, {"loss": 0.06657161116600037, "token_acc": 0.974376731301939, "grad_norm": 0.9384965300559998, "learning_rate": 3.4496777518221935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234536, "epoch": 3.0017531824071955, "step": 39380}, {"loss": 0.05467992424964905, "token_acc": 0.9806991207377225, "grad_norm": 0.9657983183860779, "learning_rate": 3.4485394622066875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234543, "epoch": 3.0021343090174555, "step": 39385}, {"loss": 0.08483916521072388, "token_acc": 0.9669893273765202, "grad_norm": 0.9216153025627136, "learning_rate": 3.447401261560243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23455, "epoch": 3.0025154356277155, "step": 39390}, {"loss": 0.05708732604980469, "token_acc": 0.9744897959183674, "grad_norm": 0.9467447400093079, "learning_rate": 3.4462631499481325e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234556, "epoch": 3.0028965622379755, "step": 39395}, {"loss": 0.07783139944076538, "token_acc": 0.9675440838231536, "grad_norm": 1.3860000371932983, "learning_rate": 3.445125127435619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234563, "epoch": 3.0032776888482355, "step": 39400}, {"eval_loss": 0.07260935008525848, "eval_token_acc": 0.9694446117703753, "eval_runtime": 221.2813, "eval_samples_per_second": 2.395, "eval_steps_per_second": 2.395, "epoch": 3.0032776888482355, "step": 39400}, {"loss": 0.08239893317222595, "token_acc": 0.9694291488489251, "grad_norm": 1.5388834476470947, "learning_rate": 3.4439871940879654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234263, "epoch": 3.003658815458495, "step": 39405}, {"loss": 0.06583164930343628, "token_acc": 0.9773193059161087, "grad_norm": 1.2024186849594116, "learning_rate": 3.442849349970424e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234263, "epoch": 3.004039942068755, "step": 39410}, {"loss": 0.05454905033111572, "token_acc": 0.9800934741215164, "grad_norm": 0.9287282228469849, "learning_rate": 3.441711595148246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234269, "epoch": 3.004421068679015, "step": 39415}, {"loss": 0.06142799854278565, "token_acc": 0.9798748980146859, "grad_norm": 1.6532049179077148, "learning_rate": 3.440573929686678e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234276, "epoch": 3.004802195289275, "step": 39420}, {"loss": 0.07788003087043763, "token_acc": 0.9742558326629123, "grad_norm": 0.5667494535446167, "learning_rate": 3.439436353650958e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234281, "epoch": 3.005183321899535, "step": 39425}, {"loss": 0.0836568832397461, "token_acc": 0.9653952025167125, "grad_norm": 1.404039978981018, "learning_rate": 3.438298867106321e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234288, "epoch": 3.0055644485097948, "step": 39430}, {"loss": 0.0565992534160614, "token_acc": 0.973175965665236, "grad_norm": 1.1280783414840698, "learning_rate": 3.4371614701179965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234293, "epoch": 3.005945575120055, "step": 39435}, {"loss": 0.08752325177192688, "token_acc": 0.9662790697674418, "grad_norm": 0.5237492322921753, "learning_rate": 3.43602416275121e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234299, "epoch": 3.006326701730315, "step": 39440}, {"loss": 0.060970187187194824, "token_acc": 0.9769276276868468, "grad_norm": 0.921880304813385, "learning_rate": 3.434886945071179e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234306, "epoch": 3.006707828340575, "step": 39445}, {"loss": 0.05646783709526062, "token_acc": 0.975, "grad_norm": 1.2174757719039917, "learning_rate": 3.43374981714312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234315, "epoch": 3.007088954950835, "step": 39450}, {"loss": 0.06315624117851257, "token_acc": 0.9746132054913924, "grad_norm": 0.6392403841018677, "learning_rate": 3.43261277903224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234316, "epoch": 3.0074700815610944, "step": 39455}, {"loss": 0.03826099634170532, "token_acc": 0.9845814977973568, "grad_norm": 0.6718295812606812, "learning_rate": 3.4314758308037433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234316, "epoch": 3.0078512081713544, "step": 39460}, {"loss": 0.07007969617843628, "token_acc": 0.9737827715355806, "grad_norm": 0.9157667756080627, "learning_rate": 3.43033897252283e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234321, "epoch": 3.0082323347816144, "step": 39465}, {"loss": 0.07612475156784057, "token_acc": 0.9777103512661921, "grad_norm": 0.9105504155158997, "learning_rate": 3.429202204254691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234322, "epoch": 3.0086134613918745, "step": 39470}, {"loss": 0.05890547037124634, "token_acc": 0.9707034576733095, "grad_norm": 1.0837302207946777, "learning_rate": 3.428065526064518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234329, "epoch": 3.0089945880021345, "step": 39475}, {"loss": 0.05693358778953552, "token_acc": 0.9768064228367529, "grad_norm": 0.6902436017990112, "learning_rate": 3.426928938017489e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234336, "epoch": 3.009375714612394, "step": 39480}, {"loss": 0.05612483024597168, "token_acc": 0.9750554323725056, "grad_norm": 1.31316339969635, "learning_rate": 3.4257924401787864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234343, "epoch": 3.009756841222654, "step": 39485}, {"loss": 0.037118139863014224, "token_acc": 0.9869626497533475, "grad_norm": 0.7805521488189697, "learning_rate": 3.424656032613585e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234352, "epoch": 3.010137967832914, "step": 39490}, {"loss": 0.07974357008934022, "token_acc": 0.977651710503696, "grad_norm": 1.3148024082183838, "learning_rate": 3.423519715387048e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234357, "epoch": 3.010519094443174, "step": 39495}, {"loss": 0.07749972939491272, "token_acc": 0.9555555555555556, "grad_norm": 1.2969496250152588, "learning_rate": 3.422383488564339e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234366, "epoch": 3.010900221053434, "step": 39500}, {"loss": 0.06747925281524658, "token_acc": 0.9760919540229885, "grad_norm": 1.3388887643814087, "learning_rate": 3.421247352210617e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234369, "epoch": 3.0112813476636937, "step": 39505}, {"loss": 0.06820608973503113, "token_acc": 0.9800099950024987, "grad_norm": 1.1166969537734985, "learning_rate": 3.4201113063910326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234379, "epoch": 3.0116624742739537, "step": 39510}, {"loss": 0.0918799340724945, "token_acc": 0.9587393738337134, "grad_norm": 1.6922825574874878, "learning_rate": 3.418975351170732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234385, "epoch": 3.0120436008842137, "step": 39515}, {"loss": 0.04682411551475525, "token_acc": 0.9848484848484849, "grad_norm": 0.9951008558273315, "learning_rate": 3.41783948661486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234391, "epoch": 3.0124247274944738, "step": 39520}, {"loss": 0.07305909991264344, "token_acc": 0.9755525787006029, "grad_norm": 1.0013409852981567, "learning_rate": 3.416703712788552e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2344, "epoch": 3.012805854104734, "step": 39525}, {"loss": 0.07594524025917053, "token_acc": 0.9721879709549254, "grad_norm": 1.9884096384048462, "learning_rate": 3.415568029756937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234405, "epoch": 3.0131869807149934, "step": 39530}, {"loss": 0.07913765907287598, "token_acc": 0.9642582036666153, "grad_norm": 1.562718391418457, "learning_rate": 3.414432437585142e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23441, "epoch": 3.0135681073252534, "step": 39535}, {"loss": 0.06119677424430847, "token_acc": 0.9757975797579758, "grad_norm": 1.7101428508758545, "learning_rate": 3.41329693633829e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234417, "epoch": 3.0139492339355134, "step": 39540}, {"loss": 0.08163259029388428, "token_acc": 0.9683116883116883, "grad_norm": 1.1923686265945435, "learning_rate": 3.4121615260814966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234425, "epoch": 3.0143303605457734, "step": 39545}, {"loss": 0.05776560306549072, "token_acc": 0.9667070217917676, "grad_norm": 1.3107987642288208, "learning_rate": 3.411026206879869e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234432, "epoch": 3.0147114871560334, "step": 39550}, {"loss": 0.06792814135551453, "token_acc": 0.975609756097561, "grad_norm": 0.5181317925453186, "learning_rate": 3.409890978798517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234441, "epoch": 3.015092613766293, "step": 39555}, {"loss": 0.044603532552719115, "token_acc": 0.9845708775313404, "grad_norm": 0.5551623702049255, "learning_rate": 3.408755841902537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234447, "epoch": 3.015473740376553, "step": 39560}, {"loss": 0.09473435878753662, "token_acc": 0.9591103122893732, "grad_norm": 0.6403271555900574, "learning_rate": 3.407620796257025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234454, "epoch": 3.015854866986813, "step": 39565}, {"loss": 0.0753549337387085, "token_acc": 0.9758210499094906, "grad_norm": 1.9262216091156006, "learning_rate": 3.406485841927071e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234453, "epoch": 3.016235993597073, "step": 39570}, {"loss": 0.0568355917930603, "token_acc": 0.9780536466415429, "grad_norm": 1.3632495403289795, "learning_rate": 3.40535097897776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23446, "epoch": 3.016617120207333, "step": 39575}, {"loss": 0.07645566463470459, "token_acc": 0.9647302904564315, "grad_norm": 1.514310598373413, "learning_rate": 3.404216207474169e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234468, "epoch": 3.0169982468175927, "step": 39580}, {"loss": 0.04687686562538147, "token_acc": 0.9825680272108843, "grad_norm": 1.2851296663284302, "learning_rate": 3.4030815274813735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234472, "epoch": 3.0173793734278527, "step": 39585}, {"loss": 0.05242878198623657, "token_acc": 0.9815969130305728, "grad_norm": 0.5882842540740967, "learning_rate": 3.401946939064442e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234476, "epoch": 3.0177605000381127, "step": 39590}, {"loss": 0.049172204732894895, "token_acc": 0.975355969331873, "grad_norm": 0.954261839389801, "learning_rate": 3.400812442288439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234483, "epoch": 3.0181416266483727, "step": 39595}, {"loss": 0.03304167687892914, "token_acc": 0.9881831610044313, "grad_norm": 0.4422500729560852, "learning_rate": 3.399678037218419e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234489, "epoch": 3.0185227532586327, "step": 39600}, {"eval_loss": 0.07239662855863571, "eval_token_acc": 0.9696328534425637, "eval_runtime": 221.0759, "eval_samples_per_second": 2.397, "eval_steps_per_second": 2.397, "epoch": 3.0185227532586327, "step": 39600}, {"loss": 0.07254239916801453, "token_acc": 0.9698526192908216, "grad_norm": 1.5617244243621826, "learning_rate": 3.398543723919438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234188, "epoch": 3.0189038798688923, "step": 39605}, {"loss": 0.07168787121772766, "token_acc": 0.9704785581106277, "grad_norm": 1.3559612035751343, "learning_rate": 3.3974095024565436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234193, "epoch": 3.0192850064791523, "step": 39610}, {"loss": 0.0632422149181366, "token_acc": 0.9732480372201221, "grad_norm": 1.290589451789856, "learning_rate": 3.396275372894775e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234201, "epoch": 3.0196661330894123, "step": 39615}, {"loss": 0.07209588289260864, "token_acc": 0.9724151234567902, "grad_norm": 0.8012451529502869, "learning_rate": 3.395141335299172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234206, "epoch": 3.0200472596996724, "step": 39620}, {"loss": 0.07420333027839661, "token_acc": 0.9684531278006812, "grad_norm": 1.111770510673523, "learning_rate": 3.394007389734768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234211, "epoch": 3.0204283863099324, "step": 39625}, {"loss": 0.08121557831764221, "token_acc": 0.9733105443071259, "grad_norm": 1.039993166923523, "learning_rate": 3.3928735362665866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234211, "epoch": 3.020809512920192, "step": 39630}, {"loss": 0.05303125381469727, "token_acc": 0.9711445976274447, "grad_norm": 1.17144775390625, "learning_rate": 3.3917397749596504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234221, "epoch": 3.021190639530452, "step": 39635}, {"loss": 0.06085293292999268, "token_acc": 0.9799918334013883, "grad_norm": 0.7270400524139404, "learning_rate": 3.390606105878974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234229, "epoch": 3.021571766140712, "step": 39640}, {"loss": 0.06372824907302857, "token_acc": 0.9755749688001426, "grad_norm": 0.7814453840255737, "learning_rate": 3.389472529089569e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234233, "epoch": 3.021952892750972, "step": 39645}, {"loss": 0.03833313584327698, "token_acc": 0.9837832940750136, "grad_norm": 0.7135666012763977, "learning_rate": 3.3883390446564424e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234232, "epoch": 3.0223340193612316, "step": 39650}, {"loss": 0.0752606749534607, "token_acc": 0.9673590504451038, "grad_norm": 1.035219669342041, "learning_rate": 3.38720565264459e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234239, "epoch": 3.0227151459714916, "step": 39655}, {"loss": 0.06705437898635865, "token_acc": 0.9721503879053113, "grad_norm": 0.9009223580360413, "learning_rate": 3.386072353119011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234247, "epoch": 3.0230962725817516, "step": 39660}, {"loss": 0.06422204971313476, "token_acc": 0.9728220402084885, "grad_norm": 1.4092539548873901, "learning_rate": 3.3849391461446924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234255, "epoch": 3.0234773991920116, "step": 39665}, {"loss": 0.048988950252532956, "token_acc": 0.9826860084230229, "grad_norm": 0.5667319297790527, "learning_rate": 3.3838060317866184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234263, "epoch": 3.0238585258022717, "step": 39670}, {"loss": 0.08209805488586426, "token_acc": 0.9717462632154575, "grad_norm": 1.8842958211898804, "learning_rate": 3.382673010109769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234268, "epoch": 3.0242396524125312, "step": 39675}, {"loss": 0.05828458070755005, "token_acc": 0.9707687810581701, "grad_norm": 0.3077614903450012, "learning_rate": 3.3815400811791174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234277, "epoch": 3.0246207790227913, "step": 39680}, {"loss": 0.06342191696166992, "token_acc": 0.9785, "grad_norm": 1.7499667406082153, "learning_rate": 3.380407245059631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234284, "epoch": 3.0250019056330513, "step": 39685}, {"loss": 0.04329520165920257, "token_acc": 0.9824884792626728, "grad_norm": 0.6214100122451782, "learning_rate": 3.379274501816274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234288, "epoch": 3.0253830322433113, "step": 39690}, {"loss": 0.08212856054306031, "token_acc": 0.9602080624187256, "grad_norm": 1.757106900215149, "learning_rate": 3.378141851514003e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234296, "epoch": 3.0257641588535713, "step": 39695}, {"loss": 0.046687576174736026, "token_acc": 0.9769115442278861, "grad_norm": 0.8971019387245178, "learning_rate": 3.377009294217771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234304, "epoch": 3.026145285463831, "step": 39700}, {"loss": 0.05405145883560181, "token_acc": 0.9819048783469861, "grad_norm": 0.575691282749176, "learning_rate": 3.3758768299925224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234306, "epoch": 3.026526412074091, "step": 39705}, {"loss": 0.049078524112701416, "token_acc": 0.9803767660910518, "grad_norm": 1.5340170860290527, "learning_rate": 3.3747444589032026e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234312, "epoch": 3.026907538684351, "step": 39710}, {"loss": 0.060889029502868654, "token_acc": 0.9732246798603027, "grad_norm": 2.0387609004974365, "learning_rate": 3.3736121810147455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234321, "epoch": 3.027288665294611, "step": 39715}, {"loss": 0.07171829938888549, "token_acc": 0.9773263433813892, "grad_norm": 0.6770581603050232, "learning_rate": 3.3724799963920814e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234326, "epoch": 3.027669791904871, "step": 39720}, {"loss": 0.042297637462615965, "token_acc": 0.9801324503311258, "grad_norm": 1.4031425714492798, "learning_rate": 3.371347905100138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234337, "epoch": 3.0280509185151305, "step": 39725}, {"loss": 0.05656819343566895, "token_acc": 0.9798817913162082, "grad_norm": 1.0513629913330078, "learning_rate": 3.3702159072038355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234339, "epoch": 3.0284320451253905, "step": 39730}, {"loss": 0.0476178914308548, "token_acc": 0.9830618892508143, "grad_norm": 1.9232016801834106, "learning_rate": 3.369084002768085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234343, "epoch": 3.0288131717356506, "step": 39735}, {"loss": 0.07205018997192383, "token_acc": 0.9824644549763033, "grad_norm": 1.2645000219345093, "learning_rate": 3.3679521918578004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234349, "epoch": 3.0291942983459106, "step": 39740}, {"loss": 0.04790619909763336, "token_acc": 0.9834645669291339, "grad_norm": 0.6505276560783386, "learning_rate": 3.366820474537882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234356, "epoch": 3.0295754249561706, "step": 39745}, {"loss": 0.07938244938850403, "token_acc": 0.972972972972973, "grad_norm": 0.8190963268280029, "learning_rate": 3.365688850873232e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234362, "epoch": 3.02995655156643, "step": 39750}, {"loss": 0.07830352187156678, "token_acc": 0.9695389681668496, "grad_norm": 0.7670210599899292, "learning_rate": 3.364557320928742e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234371, "epoch": 3.03033767817669, "step": 39755}, {"loss": 0.06114376187324524, "token_acc": 0.9744458930899609, "grad_norm": 1.638051986694336, "learning_rate": 3.3634258847693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23438, "epoch": 3.03071880478695, "step": 39760}, {"loss": 0.08804128170013428, "token_acc": 0.965499306518724, "grad_norm": 1.4499859809875488, "learning_rate": 3.3622945424597893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234384, "epoch": 3.0310999313972102, "step": 39765}, {"loss": 0.07820584177970887, "token_acc": 0.9695682944090588, "grad_norm": 1.9644252061843872, "learning_rate": 3.3611632940650874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234393, "epoch": 3.0314810580074703, "step": 39770}, {"loss": 0.06245817542076111, "token_acc": 0.9756023177798109, "grad_norm": 1.825711965560913, "learning_rate": 3.3600321396500644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234397, "epoch": 3.03186218461773, "step": 39775}, {"loss": 0.06365445852279664, "token_acc": 0.9783503310073358, "grad_norm": 0.6751904487609863, "learning_rate": 3.358901079279588e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234404, "epoch": 3.03224331122799, "step": 39780}, {"loss": 0.07140827775001526, "token_acc": 0.9787631668365613, "grad_norm": 0.6121198534965515, "learning_rate": 3.35777011301852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234408, "epoch": 3.03262443783825, "step": 39785}, {"loss": 0.0793246567249298, "token_acc": 0.9714604591836735, "grad_norm": 1.6158921718597412, "learning_rate": 3.356639240931714e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234413, "epoch": 3.03300556444851, "step": 39790}, {"loss": 0.0688313364982605, "token_acc": 0.9733986699334967, "grad_norm": 1.299395203590393, "learning_rate": 3.355508463084022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234414, "epoch": 3.03338669105877, "step": 39795}, {"loss": 0.0452489823102951, "token_acc": 0.9830300552034349, "grad_norm": 0.825907826423645, "learning_rate": 3.354377779540289e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23442, "epoch": 3.0337678176690295, "step": 39800}, {"eval_loss": 0.07258981466293335, "eval_token_acc": 0.9702879344617794, "eval_runtime": 221.2895, "eval_samples_per_second": 2.395, "eval_steps_per_second": 2.395, "epoch": 3.0337678176690295, "step": 39800}, {"loss": 0.0694502592086792, "token_acc": 0.9704177304500258, "grad_norm": 1.7762625217437744, "learning_rate": 3.353247190365353e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234121, "epoch": 3.0341489442792895, "step": 39805}, {"loss": 0.06532583236694336, "token_acc": 0.9730240549828179, "grad_norm": 0.9209100604057312, "learning_rate": 3.352116695624047e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234127, "epoch": 3.0345300708895495, "step": 39810}, {"loss": 0.0552116334438324, "token_acc": 0.9807490374518726, "grad_norm": 0.6756927371025085, "learning_rate": 3.350986295381204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234133, "epoch": 3.0349111974998095, "step": 39815}, {"loss": 0.051213139295578004, "token_acc": 0.9861141245389455, "grad_norm": 1.176149845123291, "learning_rate": 3.3498559897016435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234138, "epoch": 3.0352923241100696, "step": 39820}, {"loss": 0.052402842044830325, "token_acc": 0.9786460166608002, "grad_norm": 0.7002317905426025, "learning_rate": 3.348725778650184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234138, "epoch": 3.035673450720329, "step": 39825}, {"loss": 0.054445904493331906, "token_acc": 0.9815515610217597, "grad_norm": 0.7214280962944031, "learning_rate": 3.3475956622916394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234147, "epoch": 3.036054577330589, "step": 39830}, {"loss": 0.0523833692073822, "token_acc": 0.9773510585918267, "grad_norm": 0.8075754642486572, "learning_rate": 3.346465640690815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234153, "epoch": 3.036435703940849, "step": 39835}, {"loss": 0.0834058403968811, "token_acc": 0.9723600283486888, "grad_norm": 0.5790780186653137, "learning_rate": 3.345335713912512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234159, "epoch": 3.036816830551109, "step": 39840}, {"loss": 0.04336692094802856, "token_acc": 0.9859688195991091, "grad_norm": 0.5245856046676636, "learning_rate": 3.344205882021528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234165, "epoch": 3.037197957161369, "step": 39845}, {"loss": 0.08442255854606628, "token_acc": 0.9719264278799613, "grad_norm": 0.8140866756439209, "learning_rate": 3.343076145082653e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234171, "epoch": 3.0375790837716288, "step": 39850}, {"loss": 0.05792512893676758, "token_acc": 0.97934493951018, "grad_norm": 1.099595546722412, "learning_rate": 3.3419465031606714e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234181, "epoch": 3.037960210381889, "step": 39855}, {"loss": 0.09112204313278198, "token_acc": 0.9667904741096788, "grad_norm": 1.8679360151290894, "learning_rate": 3.3408169563203636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234188, "epoch": 3.038341336992149, "step": 39860}, {"loss": 0.0587047815322876, "token_acc": 0.9763857002295835, "grad_norm": 1.1673696041107178, "learning_rate": 3.339687504626504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234194, "epoch": 3.038722463602409, "step": 39865}, {"loss": 0.06191736459732056, "token_acc": 0.9801849405548216, "grad_norm": 1.9940006732940674, "learning_rate": 3.338558148143862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234201, "epoch": 3.039103590212669, "step": 39870}, {"loss": 0.044448471069335936, "token_acc": 0.9809741248097412, "grad_norm": 0.6273790597915649, "learning_rate": 3.337428886937198e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234201, "epoch": 3.0394847168229284, "step": 39875}, {"loss": 0.07316847443580628, "token_acc": 0.9782012415186949, "grad_norm": 1.2552859783172607, "learning_rate": 3.336299721071272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234206, "epoch": 3.0398658434331884, "step": 39880}, {"loss": 0.09549397230148315, "token_acc": 0.970942299709423, "grad_norm": 3.1244125366210938, "learning_rate": 3.3351706506108384e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234214, "epoch": 3.0402469700434485, "step": 39885}, {"loss": 0.06104463338851929, "token_acc": 0.9679334916864608, "grad_norm": 1.0998260974884033, "learning_rate": 3.3340416756206425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23422, "epoch": 3.0406280966537085, "step": 39890}, {"loss": 0.11186854839324951, "token_acc": 0.9716098864395457, "grad_norm": 0.6428917050361633, "learning_rate": 3.332912796165424e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234226, "epoch": 3.0410092232639685, "step": 39895}, {"loss": 0.060212457180023195, "token_acc": 0.970788830266375, "grad_norm": 0.9653410315513611, "learning_rate": 3.3317840123099214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234228, "epoch": 3.041390349874228, "step": 39900}, {"loss": 0.07211906909942627, "token_acc": 0.9762075134168158, "grad_norm": 0.7813236117362976, "learning_rate": 3.330655324118864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234234, "epoch": 3.041771476484488, "step": 39905}, {"loss": 0.0581806480884552, "token_acc": 0.9784964160693449, "grad_norm": 2.0067830085754395, "learning_rate": 3.329526731656978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23424, "epoch": 3.042152603094748, "step": 39910}, {"loss": 0.07647414207458496, "token_acc": 0.9739640130861504, "grad_norm": 0.6909515857696533, "learning_rate": 3.3283982349889794e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234246, "epoch": 3.042533729705008, "step": 39915}, {"loss": 0.054646795988082884, "token_acc": 0.9785932721712538, "grad_norm": 0.7479629516601562, "learning_rate": 3.327269834179588e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234253, "epoch": 3.042914856315268, "step": 39920}, {"loss": 0.060467648506164554, "token_acc": 0.9750441696113075, "grad_norm": 0.5888261198997498, "learning_rate": 3.326141529293508e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234259, "epoch": 3.0432959829255277, "step": 39925}, {"loss": 0.07042725086212158, "token_acc": 0.9685880829015544, "grad_norm": 1.0729564428329468, "learning_rate": 3.3250133203954426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234266, "epoch": 3.0436771095357877, "step": 39930}, {"loss": 0.054604601860046384, "token_acc": 0.9825174825174825, "grad_norm": 1.3364334106445312, "learning_rate": 3.323885207550091e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234275, "epoch": 3.0440582361460478, "step": 39935}, {"loss": 0.05734869241714478, "token_acc": 0.974441754102771, "grad_norm": 0.7985712289810181, "learning_rate": 3.3227571908221456e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234278, "epoch": 3.0444393627563078, "step": 39940}, {"loss": 0.050196290016174316, "token_acc": 0.9807692307692307, "grad_norm": 1.1172962188720703, "learning_rate": 3.3216292702762895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234279, "epoch": 3.0448204893665674, "step": 39945}, {"loss": 0.07328345775604247, "token_acc": 0.9681616832779624, "grad_norm": 1.2852576971054077, "learning_rate": 3.320501445977209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234287, "epoch": 3.0452016159768274, "step": 39950}, {"loss": 0.06209991574287414, "token_acc": 0.9738219895287958, "grad_norm": 0.7059462070465088, "learning_rate": 3.319373717989576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234294, "epoch": 3.0455827425870874, "step": 39955}, {"loss": 0.060081905126571654, "token_acc": 0.9764831640833779, "grad_norm": 1.0393316745758057, "learning_rate": 3.31824608637806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234299, "epoch": 3.0459638691973474, "step": 39960}, {"loss": 0.06531715393066406, "token_acc": 0.9728997289972899, "grad_norm": 1.7570558786392212, "learning_rate": 3.317118551207328e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23431, "epoch": 3.0463449958076074, "step": 39965}, {"loss": 0.0696272611618042, "token_acc": 0.9625668449197861, "grad_norm": 0.2915506064891815, "learning_rate": 3.315991112542036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234319, "epoch": 3.046726122417867, "step": 39970}, {"loss": 0.06097676157951355, "token_acc": 0.9790040376850606, "grad_norm": 1.1175479888916016, "learning_rate": 3.314863770446841e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234328, "epoch": 3.047107249028127, "step": 39975}, {"loss": 0.05729676485061645, "token_acc": 0.9761985145172181, "grad_norm": 1.1273046731948853, "learning_rate": 3.3137365249863874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234333, "epoch": 3.047488375638387, "step": 39980}, {"loss": 0.09189997315406799, "token_acc": 0.9680147624173459, "grad_norm": 0.5920534729957581, "learning_rate": 3.3126093762253184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234336, "epoch": 3.047869502248647, "step": 39985}, {"loss": 0.053027182817459106, "token_acc": 0.9831127339114559, "grad_norm": 0.6231995820999146, "learning_rate": 3.311482324228273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234341, "epoch": 3.048250628858907, "step": 39990}, {"loss": 0.07021919488906861, "token_acc": 0.9713704403429734, "grad_norm": 1.3645877838134766, "learning_rate": 3.310355369059879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234343, "epoch": 3.0486317554691666, "step": 39995}, {"loss": 0.0505083441734314, "token_acc": 0.9814914887868144, "grad_norm": 0.9373550415039062, "learning_rate": 3.3092285107847644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234345, "epoch": 3.0490128820794267, "step": 40000}, {"eval_loss": 0.0704260915517807, "eval_token_acc": 0.9705364134690682, "eval_runtime": 221.5179, "eval_samples_per_second": 2.393, "eval_steps_per_second": 2.393, "epoch": 3.0490128820794267, "step": 40000}, {"loss": 0.042469573020935056, "token_acc": 0.9710289198427744, "grad_norm": 0.5062888860702515, "learning_rate": 3.3081017494675485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234046, "epoch": 3.0493940086896867, "step": 40005}, {"loss": 0.054365295171737674, "token_acc": 0.9778200253485425, "grad_norm": 1.2162554264068604, "learning_rate": 3.3069750851728454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234049, "epoch": 3.0497751352999467, "step": 40010}, {"loss": 0.0965767741203308, "token_acc": 0.9670050761421319, "grad_norm": 0.9594593644142151, "learning_rate": 3.305848517965263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234056, "epoch": 3.0501562619102067, "step": 40015}, {"loss": 0.05550400614738464, "token_acc": 0.9802836388792805, "grad_norm": 0.7352628111839294, "learning_rate": 3.3047220479094085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234061, "epoch": 3.0505373885204663, "step": 40020}, {"loss": 0.03913738429546356, "token_acc": 0.9756450446105619, "grad_norm": 0.5569922924041748, "learning_rate": 3.3035956750698785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234066, "epoch": 3.0509185151307263, "step": 40025}, {"loss": 0.050398558378219604, "token_acc": 0.9785542168674699, "grad_norm": 1.095737338066101, "learning_rate": 3.302469399511263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234075, "epoch": 3.0512996417409863, "step": 40030}, {"loss": 0.04310442209243774, "token_acc": 0.9767576318223867, "grad_norm": 0.5388192534446716, "learning_rate": 3.301343221298149e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234077, "epoch": 3.0516807683512464, "step": 40035}, {"loss": 0.05553781986236572, "token_acc": 0.9734822051639916, "grad_norm": 0.725538432598114, "learning_rate": 3.30021714049512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234082, "epoch": 3.0520618949615064, "step": 40040}, {"loss": 0.06187505722045898, "token_acc": 0.9808680248007086, "grad_norm": 1.3483809232711792, "learning_rate": 3.2990911571667496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234087, "epoch": 3.052443021571766, "step": 40045}, {"loss": 0.046360284090042114, "token_acc": 0.971241570805236, "grad_norm": 0.2374332994222641, "learning_rate": 3.297965271377608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234094, "epoch": 3.052824148182026, "step": 40050}, {"loss": 0.06030192971229553, "token_acc": 0.9785258270458502, "grad_norm": 1.6220355033874512, "learning_rate": 3.29683948319226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234103, "epoch": 3.053205274792286, "step": 40055}, {"loss": 0.058750379085540774, "token_acc": 0.9776741086304566, "grad_norm": 1.0841282606124878, "learning_rate": 3.295713792675264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23411, "epoch": 3.053586401402546, "step": 40060}, {"loss": 0.04483100175857544, "token_acc": 0.9756151629350477, "grad_norm": 0.6131526827812195, "learning_rate": 3.294588199891172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234118, "epoch": 3.053967528012806, "step": 40065}, {"loss": 0.062362265586853025, "token_acc": 0.9750223015165032, "grad_norm": 0.16994024813175201, "learning_rate": 3.2934627049045344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234123, "epoch": 3.0543486546230656, "step": 40070}, {"loss": 0.07814797759056091, "token_acc": 0.9659350307287093, "grad_norm": 1.1065882444381714, "learning_rate": 3.29233730777989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234128, "epoch": 3.0547297812333256, "step": 40075}, {"loss": 0.04784272313117981, "token_acc": 0.9788318306546452, "grad_norm": 1.3531697988510132, "learning_rate": 3.2912120085817774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234137, "epoch": 3.0551109078435856, "step": 40080}, {"loss": 0.08367094993591309, "token_acc": 0.9533715925394548, "grad_norm": 2.436333179473877, "learning_rate": 3.290086807374726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234145, "epoch": 3.0554920344538457, "step": 40085}, {"loss": 0.06922162771224975, "token_acc": 0.974415666456096, "grad_norm": 1.683335542678833, "learning_rate": 3.288961704223261e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23415, "epoch": 3.0558731610641057, "step": 40090}, {"loss": 0.06491246223449706, "token_acc": 0.9761490683229813, "grad_norm": 0.9991024136543274, "learning_rate": 3.287836699191903e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234152, "epoch": 3.0562542876743652, "step": 40095}, {"loss": 0.06463882923126221, "token_acc": 0.9753946806997582, "grad_norm": 0.993813157081604, "learning_rate": 3.286711792345163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234156, "epoch": 3.0566354142846253, "step": 40100}, {"loss": 0.06782611012458802, "token_acc": 0.975024975024975, "grad_norm": 1.272670865058899, "learning_rate": 3.285586983747553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234165, "epoch": 3.0570165408948853, "step": 40105}, {"loss": 0.07725061178207397, "token_acc": 0.9709322935129386, "grad_norm": 0.9784106016159058, "learning_rate": 3.2844622734635735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234169, "epoch": 3.0573976675051453, "step": 40110}, {"loss": 0.07126542329788207, "token_acc": 0.9605831533477321, "grad_norm": 1.2272591590881348, "learning_rate": 3.28333766155772e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234179, "epoch": 3.0577787941154053, "step": 40115}, {"loss": 0.06153574585914612, "token_acc": 0.9773896561061468, "grad_norm": 0.5836849212646484, "learning_rate": 3.282213148094487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234182, "epoch": 3.058159920725665, "step": 40120}, {"loss": 0.07264306545257568, "token_acc": 0.9711174242424242, "grad_norm": 1.0087261199951172, "learning_rate": 3.2810887331383574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23419, "epoch": 3.058541047335925, "step": 40125}, {"loss": 0.07261946201324462, "token_acc": 0.9716722509899482, "grad_norm": 0.6476016640663147, "learning_rate": 3.279964416753813e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234198, "epoch": 3.058922173946185, "step": 40130}, {"loss": 0.053327149152755736, "token_acc": 0.9835882133532264, "grad_norm": 1.2144378423690796, "learning_rate": 3.278840199005326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234201, "epoch": 3.059303300556445, "step": 40135}, {"loss": 0.07927498817443848, "token_acc": 0.9711495783399912, "grad_norm": 0.8927167057991028, "learning_rate": 3.2777160799573684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234211, "epoch": 3.059684427166705, "step": 40140}, {"loss": 0.04439226984977722, "token_acc": 0.9818741450068399, "grad_norm": 0.5923752188682556, "learning_rate": 3.276592059674401e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234215, "epoch": 3.0600655537769645, "step": 40145}, {"loss": 0.04353592991828918, "token_acc": 0.977364001460387, "grad_norm": 0.9738351106643677, "learning_rate": 3.2754681382208786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234224, "epoch": 3.0604466803872246, "step": 40150}, {"loss": 0.05864318609237671, "token_acc": 0.9776191130028834, "grad_norm": 1.0424336194992065, "learning_rate": 3.274344315661256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234226, "epoch": 3.0608278069974846, "step": 40155}, {"loss": 0.06144073009490967, "token_acc": 0.9762606671838635, "grad_norm": 0.714299201965332, "learning_rate": 3.273220592059981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234229, "epoch": 3.0612089336077446, "step": 40160}, {"loss": 0.06509497165679931, "token_acc": 0.9656453110492108, "grad_norm": 1.3669302463531494, "learning_rate": 3.2720969674814916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234237, "epoch": 3.0615900602180046, "step": 40165}, {"loss": 0.06185004711151123, "token_acc": 0.9769775678866588, "grad_norm": 3.169528007507324, "learning_rate": 3.270973441990222e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234246, "epoch": 3.061971186828264, "step": 40170}, {"loss": 0.07717486023902893, "token_acc": 0.9712918660287081, "grad_norm": 1.0040183067321777, "learning_rate": 3.2698500156506026e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234253, "epoch": 3.062352313438524, "step": 40175}, {"loss": 0.07158398628234863, "token_acc": 0.974511672224869, "grad_norm": 1.4344481229782104, "learning_rate": 3.2687266885270564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23426, "epoch": 3.0627334400487842, "step": 40180}, {"loss": 0.041824734210968016, "token_acc": 0.9811220420101037, "grad_norm": 0.7907947897911072, "learning_rate": 3.267603460683999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234265, "epoch": 3.0631145666590442, "step": 40185}, {"loss": 0.08315824270248413, "token_acc": 0.9667545104398946, "grad_norm": 1.1564909219741821, "learning_rate": 3.2664803321858447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234272, "epoch": 3.0634956932693043, "step": 40190}, {"loss": 0.06905866861343384, "token_acc": 0.9726212607740409, "grad_norm": 0.744450032711029, "learning_rate": 3.2653573030969986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234277, "epoch": 3.063876819879564, "step": 40195}, {"loss": 0.037275031208992004, "token_acc": 0.9863058901171424, "grad_norm": 0.6399838328361511, "learning_rate": 3.264234373481862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23428, "epoch": 3.064257946489824, "step": 40200}, {"eval_loss": 0.07084307074546814, "eval_token_acc": 0.9702578157942293, "eval_runtime": 220.8269, "eval_samples_per_second": 2.4, "eval_steps_per_second": 2.4, "epoch": 3.064257946489824, "step": 40200}, {"loss": 0.07506142258644104, "token_acc": 0.9702562672459344, "grad_norm": 1.5782195329666138, "learning_rate": 3.263111543404828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233987, "epoch": 3.064639073100084, "step": 40205}, {"loss": 0.04253174662590027, "token_acc": 0.9804151322397054, "grad_norm": 0.6643892526626587, "learning_rate": 3.2619888129302876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23399, "epoch": 3.065020199710344, "step": 40210}, {"loss": 0.08559784889221192, "token_acc": 0.9617728531855956, "grad_norm": 1.3351500034332275, "learning_rate": 3.260866182122624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234, "epoch": 3.065401326320604, "step": 40215}, {"loss": 0.09768767952919007, "token_acc": 0.961509000382995, "grad_norm": 0.9973918795585632, "learning_rate": 3.259743651046213e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234006, "epoch": 3.0657824529308635, "step": 40220}, {"loss": 0.061995089054107666, "token_acc": 0.9801687763713081, "grad_norm": 2.3457822799682617, "learning_rate": 3.258621219765429e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234015, "epoch": 3.0661635795411235, "step": 40225}, {"loss": 0.060358178615570066, "token_acc": 0.9797461132506062, "grad_norm": 1.0093181133270264, "learning_rate": 3.2574988883446365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23402, "epoch": 3.0665447061513835, "step": 40230}, {"loss": 0.04835548996925354, "token_acc": 0.9849119865884325, "grad_norm": 0.5886979103088379, "learning_rate": 3.2563766568481956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234026, "epoch": 3.0669258327616435, "step": 40235}, {"loss": 0.08188050985336304, "token_acc": 0.9692307692307692, "grad_norm": 0.0003671533486340195, "learning_rate": 3.255254525340463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234035, "epoch": 3.067306959371903, "step": 40240}, {"loss": 0.05557176470756531, "token_acc": 0.9762985375693394, "grad_norm": 0.6623596549034119, "learning_rate": 3.254132493885788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234041, "epoch": 3.067688085982163, "step": 40245}, {"loss": 0.06265113353729249, "token_acc": 0.9719016557952835, "grad_norm": 0.9340169429779053, "learning_rate": 3.25301056254851e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234048, "epoch": 3.068069212592423, "step": 40250}, {"loss": 0.05410281419754028, "token_acc": 0.9805287319930347, "grad_norm": 0.6245326399803162, "learning_rate": 3.251888731392971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234052, "epoch": 3.068450339202683, "step": 40255}, {"loss": 0.05541174411773682, "token_acc": 0.9811215991116047, "grad_norm": 3.942952871322632, "learning_rate": 3.250767000483501e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234062, "epoch": 3.068831465812943, "step": 40260}, {"loss": 0.049525362253189084, "token_acc": 0.9845482028888143, "grad_norm": 1.4570636749267578, "learning_rate": 3.2496453698844256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234067, "epoch": 3.069212592423203, "step": 40265}, {"loss": 0.05081298351287842, "token_acc": 0.9797696856520386, "grad_norm": 1.3044590950012207, "learning_rate": 3.2485238396600656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234072, "epoch": 3.069593719033463, "step": 40270}, {"loss": 0.06445257663726807, "token_acc": 0.9750085005100306, "grad_norm": 0.5210493206977844, "learning_rate": 3.247402409874736e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234079, "epoch": 3.069974845643723, "step": 40275}, {"loss": 0.09065452814102173, "token_acc": 0.9685430463576159, "grad_norm": 1.5920966863632202, "learning_rate": 3.246281080592743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234087, "epoch": 3.070355972253983, "step": 40280}, {"loss": 0.07094126343727111, "token_acc": 0.9754885155982174, "grad_norm": 1.4825024604797363, "learning_rate": 3.2451598518783944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234092, "epoch": 3.070737098864243, "step": 40285}, {"loss": 0.06890535354614258, "token_acc": 0.9746415294742432, "grad_norm": 1.0272026062011719, "learning_rate": 3.244038723795983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234093, "epoch": 3.0711182254745024, "step": 40290}, {"loss": 0.07823984622955323, "token_acc": 0.9719231888274659, "grad_norm": 1.1526970863342285, "learning_rate": 3.2429176964098036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234097, "epoch": 3.0714993520847624, "step": 40295}, {"loss": 0.0589880108833313, "token_acc": 0.9778441623101817, "grad_norm": 1.0353963375091553, "learning_rate": 3.24179676978414e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234104, "epoch": 3.0718804786950225, "step": 40300}, {"loss": 0.07748907804489136, "token_acc": 0.9681059862610403, "grad_norm": 0.1328011453151703, "learning_rate": 3.240675943983274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234113, "epoch": 3.0722616053052825, "step": 40305}, {"loss": 0.0744431495666504, "token_acc": 0.9693803159173755, "grad_norm": 1.0474193096160889, "learning_rate": 3.239555219071475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234121, "epoch": 3.0726427319155425, "step": 40310}, {"loss": 0.09595105648040772, "token_acc": 0.9769835596854897, "grad_norm": 2.983072280883789, "learning_rate": 3.238434595113018e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234124, "epoch": 3.073023858525802, "step": 40315}, {"loss": 0.059659868478775024, "token_acc": 0.9770526002086127, "grad_norm": 0.6839165687561035, "learning_rate": 3.2373140721721605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234128, "epoch": 3.073404985136062, "step": 40320}, {"loss": 0.059799933433532716, "token_acc": 0.9764932562620424, "grad_norm": 1.813169002532959, "learning_rate": 3.236193650313161e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234137, "epoch": 3.073786111746322, "step": 40325}, {"loss": 0.04233308136463165, "token_acc": 0.9818552959854843, "grad_norm": 0.9068735837936401, "learning_rate": 3.235073329600272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234138, "epoch": 3.074167238356582, "step": 40330}, {"loss": 0.05729679465293884, "token_acc": 0.9750254841997962, "grad_norm": 0.8088947534561157, "learning_rate": 3.233953110097737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234144, "epoch": 3.074548364966842, "step": 40335}, {"loss": 0.03824906051158905, "token_acc": 0.980584666298952, "grad_norm": 0.9844661355018616, "learning_rate": 3.2328329918697945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234147, "epoch": 3.0749294915771017, "step": 40340}, {"loss": 0.0664734423160553, "token_acc": 0.9739560912613, "grad_norm": 0.971795916557312, "learning_rate": 3.2317129749806794e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234154, "epoch": 3.0753106181873617, "step": 40345}, {"loss": 0.04170198142528534, "token_acc": 0.9786289203441576, "grad_norm": 0.8621265292167664, "learning_rate": 3.230593059494621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234162, "epoch": 3.0756917447976218, "step": 40350}, {"loss": 0.05285307765007019, "token_acc": 0.9781906300484653, "grad_norm": 1.2580446004867554, "learning_rate": 3.229473245475838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234169, "epoch": 3.0760728714078818, "step": 40355}, {"loss": 0.0348027378320694, "token_acc": 0.9894825410180901, "grad_norm": 1.1658308506011963, "learning_rate": 3.2283535329885485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234171, "epoch": 3.076453998018142, "step": 40360}, {"loss": 0.044558069109916686, "token_acc": 0.9791483757682178, "grad_norm": 0.861822783946991, "learning_rate": 3.2272339220969625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234178, "epoch": 3.0768351246284014, "step": 40365}, {"loss": 0.041172435879707335, "token_acc": 0.9737747205503009, "grad_norm": 1.1759922504425049, "learning_rate": 3.2261144128652855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234188, "epoch": 3.0772162512386614, "step": 40370}, {"loss": 0.05116206407546997, "token_acc": 0.981438127090301, "grad_norm": 0.7100277543067932, "learning_rate": 3.2249950053577125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234193, "epoch": 3.0775973778489214, "step": 40375}, {"loss": 0.06808379888534546, "token_acc": 0.9647769204964777, "grad_norm": 1.4321022033691406, "learning_rate": 3.223875699638441e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234201, "epoch": 3.0779785044591814, "step": 40380}, {"loss": 0.0887679100036621, "token_acc": 0.9718786616326, "grad_norm": 0.8641403317451477, "learning_rate": 3.222756495771656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234204, "epoch": 3.0783596310694414, "step": 40385}, {"loss": 0.04914510250091553, "token_acc": 0.9789473684210527, "grad_norm": 1.9083986282348633, "learning_rate": 3.221637393821537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234208, "epoch": 3.078740757679701, "step": 40390}, {"loss": 0.07798879146575928, "token_acc": 0.9715189873417721, "grad_norm": 1.0334970951080322, "learning_rate": 3.2205183938522624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234216, "epoch": 3.079121884289961, "step": 40395}, {"loss": 0.06794584393501282, "token_acc": 0.9675456389452333, "grad_norm": 0.48327475786209106, "learning_rate": 3.219399495927999e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234223, "epoch": 3.079503010900221, "step": 40400}, {"eval_loss": 0.06965147703886032, "eval_token_acc": 0.9702427564604542, "eval_runtime": 220.8708, "eval_samples_per_second": 2.4, "eval_steps_per_second": 2.4, "epoch": 3.079503010900221, "step": 40400}, {"loss": 0.046459048986434937, "token_acc": 0.9707811525530649, "grad_norm": 0.6358887553215027, "learning_rate": 3.2182807001129114e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233929, "epoch": 3.079884137510481, "step": 40405}, {"loss": 0.07580753564834594, "token_acc": 0.9847176079734219, "grad_norm": 2.55283522605896, "learning_rate": 3.2171620064711586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233936, "epoch": 3.080265264120741, "step": 40410}, {"loss": 0.0788317859172821, "token_acc": 0.9716453674121406, "grad_norm": 0.792969286441803, "learning_rate": 3.21604341506689e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233946, "epoch": 3.0806463907310007, "step": 40415}, {"loss": 0.07411404848098754, "token_acc": 0.9724727100142383, "grad_norm": 1.3298557996749878, "learning_rate": 3.2149249259642535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233949, "epoch": 3.0810275173412607, "step": 40420}, {"loss": 0.05589293241500855, "token_acc": 0.9786386099155109, "grad_norm": 0.89655601978302, "learning_rate": 3.2138065392273895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233952, "epoch": 3.0814086439515207, "step": 40425}, {"loss": 0.10183897018432617, "token_acc": 0.9670977246685218, "grad_norm": 0.9705274701118469, "learning_rate": 3.2126882549204294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233956, "epoch": 3.0817897705617807, "step": 40430}, {"loss": 0.0580452561378479, "token_acc": 0.9766726480389644, "grad_norm": 1.3217989206314087, "learning_rate": 3.211570073107506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233957, "epoch": 3.0821708971720407, "step": 40435}, {"loss": 0.11575267314910889, "token_acc": 0.9642295597484277, "grad_norm": 0.8320159316062927, "learning_rate": 3.2104519938527396e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233962, "epoch": 3.0825520237823003, "step": 40440}, {"loss": 0.09004729986190796, "token_acc": 0.9726174496644295, "grad_norm": 2.169710397720337, "learning_rate": 3.209334017220246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23397, "epoch": 3.0829331503925603, "step": 40445}, {"loss": 0.04818301796913147, "token_acc": 0.977510222626079, "grad_norm": 1.1367822885513306, "learning_rate": 3.208216143274136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233975, "epoch": 3.0833142770028203, "step": 40450}, {"loss": 0.06039578914642334, "token_acc": 0.9791019486020898, "grad_norm": 0.9515669941902161, "learning_rate": 3.207098372078517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233978, "epoch": 3.0836954036130804, "step": 40455}, {"loss": 0.04501516819000244, "token_acc": 0.9778427075724373, "grad_norm": 0.8431556224822998, "learning_rate": 3.205980703697485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233986, "epoch": 3.0840765302233404, "step": 40460}, {"loss": 0.050639814138412474, "token_acc": 0.9773281675993686, "grad_norm": 0.6239203810691833, "learning_rate": 3.2048631381951356e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233988, "epoch": 3.0844576568336, "step": 40465}, {"loss": 0.03927751183509827, "token_acc": 0.9807401812688822, "grad_norm": 1.677498698234558, "learning_rate": 3.203745675635554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233996, "epoch": 3.08483878344386, "step": 40470}, {"loss": 0.07997772693634034, "token_acc": 0.9724930362116991, "grad_norm": 1.430440902709961, "learning_rate": 3.202628316082823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234004, "epoch": 3.08521991005412, "step": 40475}, {"loss": 0.053567242622375486, "token_acc": 0.9800078400627205, "grad_norm": 0.9831953048706055, "learning_rate": 3.201511059601016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234009, "epoch": 3.08560103666438, "step": 40480}, {"loss": 0.06834284663200378, "token_acc": 0.9740879645414252, "grad_norm": 1.0131467580795288, "learning_rate": 3.200393906254204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234014, "epoch": 3.08598216327464, "step": 40485}, {"loss": 0.10797680616378784, "token_acc": 0.9565786602662012, "grad_norm": 1.2827280759811401, "learning_rate": 3.199276856106451e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234021, "epoch": 3.0863632898848996, "step": 40490}, {"loss": 0.08195743560791016, "token_acc": 0.9787391841779975, "grad_norm": 0.8202342987060547, "learning_rate": 3.198159909221813e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234028, "epoch": 3.0867444164951596, "step": 40495}, {"loss": 0.07763301730155944, "token_acc": 0.9719379333113238, "grad_norm": 1.3255513906478882, "learning_rate": 3.197043065664344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234033, "epoch": 3.0871255431054196, "step": 40500}, {"loss": 0.051429980993270875, "token_acc": 0.9790405216581276, "grad_norm": 0.503959059715271, "learning_rate": 3.1959263254980874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234038, "epoch": 3.0875066697156797, "step": 40505}, {"loss": 0.06830111742019654, "token_acc": 0.9728997289972899, "grad_norm": 0.9061885476112366, "learning_rate": 3.194809688787084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234043, "epoch": 3.0878877963259397, "step": 40510}, {"loss": 0.04603073298931122, "token_acc": 0.9819277108433735, "grad_norm": 0.7196916341781616, "learning_rate": 3.193693155595369e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234048, "epoch": 3.0882689229361993, "step": 40515}, {"loss": 0.08834622502326965, "token_acc": 0.9582493521451195, "grad_norm": 1.4720286130905151, "learning_rate": 3.192576725986969e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234056, "epoch": 3.0886500495464593, "step": 40520}, {"loss": 0.09731671810150147, "token_acc": 0.9633328577543159, "grad_norm": 1.7539218664169312, "learning_rate": 3.191460400025904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23406, "epoch": 3.0890311761567193, "step": 40525}, {"loss": 0.1167303204536438, "token_acc": 0.9605118829981718, "grad_norm": 2.0427074432373047, "learning_rate": 3.190344177776195e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234069, "epoch": 3.0894123027669793, "step": 40530}, {"loss": 0.05711507201194763, "token_acc": 0.9794776119402985, "grad_norm": 0.1697077453136444, "learning_rate": 3.1892280593018485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234077, "epoch": 3.0897934293772393, "step": 40535}, {"loss": 0.04919119477272034, "token_acc": 0.9790374331550802, "grad_norm": 0.5123584270477295, "learning_rate": 3.188112044666871e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234084, "epoch": 3.090174555987499, "step": 40540}, {"loss": 0.05811744332313538, "token_acc": 0.974184120798831, "grad_norm": 1.7662264108657837, "learning_rate": 3.1869961339352574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234093, "epoch": 3.090555682597759, "step": 40545}, {"loss": 0.05687412023544312, "token_acc": 0.9745185185185186, "grad_norm": 1.1987863779067993, "learning_rate": 3.185880327171002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234101, "epoch": 3.090936809208019, "step": 40550}, {"loss": 0.0777698814868927, "token_acc": 0.9731318219983207, "grad_norm": 2.2116799354553223, "learning_rate": 3.184764624438093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234109, "epoch": 3.091317935818279, "step": 40555}, {"loss": 0.05249854326248169, "token_acc": 0.9728910591008587, "grad_norm": 1.1024830341339111, "learning_rate": 3.183649025800509e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234114, "epoch": 3.091699062428539, "step": 40560}, {"loss": 0.049197572469711306, "token_acc": 0.9823835784313726, "grad_norm": 0.9509339928627014, "learning_rate": 3.182533531322223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234115, "epoch": 3.0920801890387986, "step": 40565}, {"loss": 0.07038125395774841, "token_acc": 0.97037158291046, "grad_norm": 0.6877323985099792, "learning_rate": 3.1814181410672065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23412, "epoch": 3.0924613156490586, "step": 40570}, {"loss": 0.08202228546142579, "token_acc": 0.9733484547774313, "grad_norm": 6.658283233642578, "learning_rate": 3.1803028550994204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234127, "epoch": 3.0928424422593186, "step": 40575}, {"loss": 0.0516794741153717, "token_acc": 0.9788335617481346, "grad_norm": 0.6767612099647522, "learning_rate": 3.1791876734828204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234129, "epoch": 3.0932235688695786, "step": 40580}, {"loss": 0.07141729593276977, "token_acc": 0.9720876138786586, "grad_norm": 1.534783124923706, "learning_rate": 3.1780725962813576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234135, "epoch": 3.093604695479838, "step": 40585}, {"loss": 0.08700929284095764, "token_acc": 0.9772360348724572, "grad_norm": 0.6500986814498901, "learning_rate": 3.176957623558977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234139, "epoch": 3.093985822090098, "step": 40590}, {"loss": 0.06951172351837158, "token_acc": 0.9764018185754493, "grad_norm": 1.1677542924880981, "learning_rate": 3.1758427553796176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234144, "epoch": 3.094366948700358, "step": 40595}, {"loss": 0.06538564562797547, "token_acc": 0.9707668090847763, "grad_norm": 1.2128084897994995, "learning_rate": 3.174727991807209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23415, "epoch": 3.0947480753106182, "step": 40600}, {"eval_loss": 0.07009056955575943, "eval_token_acc": 0.9701448707909162, "eval_runtime": 219.7654, "eval_samples_per_second": 2.412, "eval_steps_per_second": 2.412, "epoch": 3.0947480753106182, "step": 40600}, {"loss": 0.07111892104148865, "token_acc": 0.970181348481179, "grad_norm": 1.1937199831008911, "learning_rate": 3.1736133329056816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233862, "epoch": 3.0951292019208783, "step": 40605}, {"loss": 0.05958819389343262, "token_acc": 0.9791054521710741, "grad_norm": 1.3945248126983643, "learning_rate": 3.172498778738954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233866, "epoch": 3.095510328531138, "step": 40610}, {"loss": 0.03982595503330231, "token_acc": 0.9793935825728584, "grad_norm": 0.8373230695724487, "learning_rate": 3.171384329370939e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233874, "epoch": 3.095891455141398, "step": 40615}, {"loss": 0.07809516787528992, "token_acc": 0.9684265010351967, "grad_norm": 2.2430405616760254, "learning_rate": 3.170269984865549e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233883, "epoch": 3.096272581751658, "step": 40620}, {"loss": 0.07574228644371032, "token_acc": 0.9685621027314895, "grad_norm": 1.1688148975372314, "learning_rate": 3.169155745286684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233887, "epoch": 3.096653708361918, "step": 40625}, {"loss": 0.07978163957595825, "token_acc": 0.9692507579038545, "grad_norm": 1.1869450807571411, "learning_rate": 3.168041610698239e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233894, "epoch": 3.097034834972178, "step": 40630}, {"loss": 0.04399622082710266, "token_acc": 0.9863541975674874, "grad_norm": 2.0459418296813965, "learning_rate": 3.166927581164109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233902, "epoch": 3.0974159615824375, "step": 40635}, {"loss": 0.08150098323822022, "token_acc": 0.9695021881838074, "grad_norm": 1.891729712486267, "learning_rate": 3.1658136567481744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233906, "epoch": 3.0977970881926975, "step": 40640}, {"loss": 0.0846285104751587, "token_acc": 0.9732718894009217, "grad_norm": 1.25875985622406, "learning_rate": 3.164699837514315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233914, "epoch": 3.0981782148029575, "step": 40645}, {"loss": 0.09692569971084594, "token_acc": 0.9661167287564307, "grad_norm": 2.322939157485962, "learning_rate": 3.163586123526402e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23392, "epoch": 3.0985593414132175, "step": 40650}, {"loss": 0.05152239799499512, "token_acc": 0.980706961683756, "grad_norm": 0.7375257015228271, "learning_rate": 3.162472514848305e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233922, "epoch": 3.0989404680234776, "step": 40655}, {"loss": 0.04377131760120392, "token_acc": 0.981260979894593, "grad_norm": 0.9018100500106812, "learning_rate": 3.1613590115438804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233927, "epoch": 3.099321594633737, "step": 40660}, {"loss": 0.08011202812194824, "token_acc": 0.9599922690374951, "grad_norm": 1.0182322263717651, "learning_rate": 3.160245613676984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233934, "epoch": 3.099702721243997, "step": 40665}, {"loss": 0.044398444890975955, "token_acc": 0.9803671596124426, "grad_norm": 0.5748077034950256, "learning_rate": 3.1591323213114655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233941, "epoch": 3.100083847854257, "step": 40670}, {"loss": 0.07262259721755981, "token_acc": 0.969047619047619, "grad_norm": 1.0145440101623535, "learning_rate": 3.158019134511166e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233946, "epoch": 3.100464974464517, "step": 40675}, {"loss": 0.05023207664489746, "token_acc": 0.9838670840356369, "grad_norm": 0.6751973032951355, "learning_rate": 3.156906053339918e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233951, "epoch": 3.100846101074777, "step": 40680}, {"loss": 0.07174451351165771, "token_acc": 0.9724409448818898, "grad_norm": 0.9415655136108398, "learning_rate": 3.155793077861556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233957, "epoch": 3.101227227685037, "step": 40685}, {"loss": 0.06050864458084106, "token_acc": 0.9767928476317291, "grad_norm": 1.2594071626663208, "learning_rate": 3.154680208139905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233963, "epoch": 3.101608354295297, "step": 40690}, {"loss": 0.04644063115119934, "token_acc": 0.9813031161473088, "grad_norm": 1.5684599876403809, "learning_rate": 3.15356744423878e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233969, "epoch": 3.101989480905557, "step": 40695}, {"loss": 0.06398332715034485, "token_acc": 0.9720388349514563, "grad_norm": 0.7719554305076599, "learning_rate": 3.152454786221993e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233978, "epoch": 3.102370607515817, "step": 40700}, {"loss": 0.049184536933898924, "token_acc": 0.9792440463185492, "grad_norm": 0.9517346024513245, "learning_rate": 3.1513422341533506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233982, "epoch": 3.102751734126077, "step": 40705}, {"loss": 0.06018694639205933, "token_acc": 0.9771352706888922, "grad_norm": 0.8249827027320862, "learning_rate": 3.150229788096653e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233986, "epoch": 3.1031328607363364, "step": 40710}, {"loss": 0.06072781682014465, "token_acc": 0.9752475247524752, "grad_norm": 0.6713043451309204, "learning_rate": 3.149117448115692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233994, "epoch": 3.1035139873465964, "step": 40715}, {"loss": 0.06459769010543823, "token_acc": 0.9647577092511013, "grad_norm": 1.2094985246658325, "learning_rate": 3.148005214274256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234001, "epoch": 3.1038951139568565, "step": 40720}, {"loss": 0.050724643468856814, "token_acc": 0.9845605700712589, "grad_norm": 0.5747514963150024, "learning_rate": 3.146893086636128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234005, "epoch": 3.1042762405671165, "step": 40725}, {"loss": 0.058845806121826175, "token_acc": 0.9828049435787212, "grad_norm": 0.8817791938781738, "learning_rate": 3.145781065265081e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234011, "epoch": 3.1046573671773765, "step": 40730}, {"loss": 0.08230015635490417, "token_acc": 0.9734725312339552, "grad_norm": 0.7612600326538086, "learning_rate": 3.144669150224885e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234016, "epoch": 3.105038493787636, "step": 40735}, {"loss": 0.06947977542877197, "token_acc": 0.971830985915493, "grad_norm": 1.0903247594833374, "learning_rate": 3.143557341579304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234024, "epoch": 3.105419620397896, "step": 40740}, {"loss": 0.04508732557296753, "token_acc": 0.9813432835820896, "grad_norm": 0.9312857389450073, "learning_rate": 3.1424456393920956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234031, "epoch": 3.105800747008156, "step": 40745}, {"loss": 0.09056665301322937, "token_acc": 0.9660924750679963, "grad_norm": 0.7610155940055847, "learning_rate": 3.1413340437270075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234039, "epoch": 3.106181873618416, "step": 40750}, {"loss": 0.09071980714797974, "token_acc": 0.9714606381273048, "grad_norm": 0.6402648687362671, "learning_rate": 3.140222554647788e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234043, "epoch": 3.106563000228676, "step": 40755}, {"loss": 0.03416937589645386, "token_acc": 0.982690794649882, "grad_norm": 1.206046223640442, "learning_rate": 3.139111172218175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234052, "epoch": 3.1069441268389357, "step": 40760}, {"loss": 0.04066526591777801, "token_acc": 0.97756487994179, "grad_norm": 0.7276979088783264, "learning_rate": 3.1379998965019e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234054, "epoch": 3.1073252534491957, "step": 40765}, {"loss": 0.06596564054489136, "token_acc": 0.971147748890298, "grad_norm": 1.0220636129379272, "learning_rate": 3.13688872756269e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234061, "epoch": 3.1077063800594558, "step": 40770}, {"loss": 0.05785113573074341, "token_acc": 0.9758935993349959, "grad_norm": 1.1848812103271484, "learning_rate": 3.1357776654642655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234072, "epoch": 3.108087506669716, "step": 40775}, {"loss": 0.07946353554725646, "token_acc": 0.9743491577335375, "grad_norm": 1.1563011407852173, "learning_rate": 3.134666710270342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234074, "epoch": 3.108468633279976, "step": 40780}, {"loss": 0.05938659310340881, "token_acc": 0.9735085074305406, "grad_norm": 0.6480773091316223, "learning_rate": 3.133555862044625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23408, "epoch": 3.1088497598902354, "step": 40785}, {"loss": 0.03987505733966827, "token_acc": 0.9840704647676162, "grad_norm": 0.6247876882553101, "learning_rate": 3.1324451208508186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234085, "epoch": 3.1092308865004954, "step": 40790}, {"loss": 0.051394641399383545, "token_acc": 0.9741824440619621, "grad_norm": 1.1854546070098877, "learning_rate": 3.131334486752618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234095, "epoch": 3.1096120131107554, "step": 40795}, {"loss": 0.04961842894554138, "token_acc": 0.9765721331689272, "grad_norm": 1.30801260471344, "learning_rate": 3.130223959813713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234101, "epoch": 3.1099931397210154, "step": 40800}, {"eval_loss": 0.07041678577661514, "eval_token_acc": 0.970815011143907, "eval_runtime": 221.6091, "eval_samples_per_second": 2.392, "eval_steps_per_second": 2.392, "epoch": 3.1099931397210154, "step": 40800}, {"loss": 0.07187273502349853, "token_acc": 0.970935585601914, "grad_norm": 1.104972004890442, "learning_rate": 3.1291135400977874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233809, "epoch": 3.1103742663312755, "step": 40805}, {"loss": 0.08159438967704773, "token_acc": 0.971715755025713, "grad_norm": 1.6173006296157837, "learning_rate": 3.1280032276685175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233815, "epoch": 3.110755392941535, "step": 40810}, {"loss": 0.046999281644821166, "token_acc": 0.9812717770034843, "grad_norm": 0.8091890215873718, "learning_rate": 3.126893022589574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233822, "epoch": 3.111136519551795, "step": 40815}, {"loss": 0.0512359619140625, "token_acc": 0.9715726730857405, "grad_norm": 0.9577683210372925, "learning_rate": 3.1257829249246265e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23383, "epoch": 3.111517646162055, "step": 40820}, {"loss": 0.09420149326324463, "token_acc": 0.9642381586456154, "grad_norm": 0.9569116234779358, "learning_rate": 3.124672934737328e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233836, "epoch": 3.111898772772315, "step": 40825}, {"loss": 0.06678684949874877, "token_acc": 0.9768247202983484, "grad_norm": 3.6409029960632324, "learning_rate": 3.123563052091336e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233844, "epoch": 3.112279899382575, "step": 40830}, {"loss": 0.04060501456260681, "token_acc": 0.9817677368212445, "grad_norm": 0.6608148813247681, "learning_rate": 3.122453277050296e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23385, "epoch": 3.1126610259928347, "step": 40835}, {"loss": 0.07134703993797302, "token_acc": 0.9766364162965824, "grad_norm": 0.848366379737854, "learning_rate": 3.1213436096778454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233856, "epoch": 3.1130421526030947, "step": 40840}, {"loss": 0.05601824522018432, "token_acc": 0.9796385848816492, "grad_norm": 0.8616316318511963, "learning_rate": 3.1202340500376223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233863, "epoch": 3.1134232792133547, "step": 40845}, {"loss": 0.053549349308013916, "token_acc": 0.9769181789239095, "grad_norm": 1.1332385540008545, "learning_rate": 3.119124598193253e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233867, "epoch": 3.1138044058236147, "step": 40850}, {"loss": 0.054135262966156006, "token_acc": 0.9764862466725821, "grad_norm": 0.8757167458534241, "learning_rate": 3.118015254208358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233877, "epoch": 3.1141855324338747, "step": 40855}, {"loss": 0.04940584897994995, "token_acc": 0.977402668118704, "grad_norm": 1.084897518157959, "learning_rate": 3.116906018146557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233883, "epoch": 3.1145666590441343, "step": 40860}, {"loss": 0.07470813989639283, "token_acc": 0.9701393497013935, "grad_norm": 1.1350955963134766, "learning_rate": 3.115796890071457e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233893, "epoch": 3.1149477856543943, "step": 40865}, {"loss": 0.07117047309875488, "token_acc": 0.9696342305037957, "grad_norm": 1.2562497854232788, "learning_rate": 3.1146878700466606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233899, "epoch": 3.1153289122646544, "step": 40870}, {"loss": 0.06778972148895264, "token_acc": 0.9759068760151597, "grad_norm": 0.5867315530776978, "learning_rate": 3.1135789581357666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233901, "epoch": 3.1157100388749144, "step": 40875}, {"loss": 0.0697576105594635, "token_acc": 0.9703055515707932, "grad_norm": 0.000580324383918196, "learning_rate": 3.112470154402365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233904, "epoch": 3.116091165485174, "step": 40880}, {"loss": 0.10597015619277954, "token_acc": 0.9693295292439372, "grad_norm": 1.7832475900650024, "learning_rate": 3.1113614589100415e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233914, "epoch": 3.116472292095434, "step": 40885}, {"loss": 0.05830283164978027, "token_acc": 0.9774624373956594, "grad_norm": 0.9005212187767029, "learning_rate": 3.1102528717223724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233914, "epoch": 3.116853418705694, "step": 40890}, {"loss": 0.06409925818443299, "token_acc": 0.9741379310344828, "grad_norm": 1.7553929090499878, "learning_rate": 3.109144392902933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233923, "epoch": 3.117234545315954, "step": 40895}, {"loss": 0.06992838382720948, "token_acc": 0.9708228857989515, "grad_norm": 1.6358855962753296, "learning_rate": 3.1080360225152876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233929, "epoch": 3.117615671926214, "step": 40900}, {"loss": 0.05138227343559265, "token_acc": 0.9790209790209791, "grad_norm": 0.5959569811820984, "learning_rate": 3.1069277606229965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233935, "epoch": 3.1179967985364736, "step": 40905}, {"loss": 0.08401997685432434, "token_acc": 0.962173425228402, "grad_norm": 0.7105233073234558, "learning_rate": 3.1058196072896126e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233942, "epoch": 3.1183779251467336, "step": 40910}, {"loss": 0.04868377149105072, "token_acc": 0.9782729805013928, "grad_norm": 0.3886406123638153, "learning_rate": 3.104711562578686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233949, "epoch": 3.1187590517569936, "step": 40915}, {"loss": 0.05837680101394653, "token_acc": 0.9818893783651493, "grad_norm": 0.5179718136787415, "learning_rate": 3.1036036265537535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233955, "epoch": 3.1191401783672537, "step": 40920}, {"loss": 0.08188855051994323, "token_acc": 0.9704840613931524, "grad_norm": 0.6908483505249023, "learning_rate": 3.102495799278356e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233964, "epoch": 3.1195213049775137, "step": 40925}, {"loss": 0.07655901312828065, "token_acc": 0.9707668090847763, "grad_norm": 1.1881844997406006, "learning_rate": 3.101388080816017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23397, "epoch": 3.1199024315877733, "step": 40930}, {"loss": 0.048185303807258606, "token_acc": 0.9854473589651456, "grad_norm": 1.0043611526489258, "learning_rate": 3.100280471230261e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233974, "epoch": 3.1202835581980333, "step": 40935}, {"loss": 0.07683063745498657, "token_acc": 0.9735261401557286, "grad_norm": 2.980212926864624, "learning_rate": 3.0991729705846036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233979, "epoch": 3.1206646848082933, "step": 40940}, {"loss": 0.054518884420394896, "token_acc": 0.979075691411936, "grad_norm": 1.590779423713684, "learning_rate": 3.098065578942556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233983, "epoch": 3.1210458114185533, "step": 40945}, {"loss": 0.0773003876209259, "token_acc": 0.9744451916610626, "grad_norm": 0.6149834990501404, "learning_rate": 3.09695829636762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233989, "epoch": 3.1214269380288133, "step": 40950}, {"loss": 0.058064723014831544, "token_acc": 0.9802167555479099, "grad_norm": 0.4793623089790344, "learning_rate": 3.095851122923296e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233997, "epoch": 3.121808064639073, "step": 40955}, {"loss": 0.04200972318649292, "token_acc": 0.9771241830065359, "grad_norm": 1.0694605112075806, "learning_rate": 3.0947440586730734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234003, "epoch": 3.122189191249333, "step": 40960}, {"loss": 0.08496562242507935, "token_acc": 0.9660460021905805, "grad_norm": 1.7235950231552124, "learning_rate": 3.093637103680438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234011, "epoch": 3.122570317859593, "step": 40965}, {"loss": 0.08178526163101196, "token_acc": 0.9742236961109436, "grad_norm": 1.1172890663146973, "learning_rate": 3.092530258008868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234015, "epoch": 3.122951444469853, "step": 40970}, {"loss": 0.05247173309326172, "token_acc": 0.9787669957161482, "grad_norm": 1.2570968866348267, "learning_rate": 3.0914235217218366e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23402, "epoch": 3.123332571080113, "step": 40975}, {"loss": 0.07378085255622864, "token_acc": 0.9713763702801461, "grad_norm": 1.2520493268966675, "learning_rate": 3.090316894882808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234026, "epoch": 3.1237136976903725, "step": 40980}, {"loss": 0.08498408198356629, "token_acc": 0.9690824468085106, "grad_norm": 0.8613846302032471, "learning_rate": 3.0892103775552443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23403, "epoch": 3.1240948243006326, "step": 40985}, {"loss": 0.11203494071960449, "token_acc": 0.9577006507592191, "grad_norm": 2.482330799102783, "learning_rate": 3.0881039698025986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234037, "epoch": 3.1244759509108926, "step": 40990}, {"loss": 0.0530243992805481, "token_acc": 0.9784244856999498, "grad_norm": 1.1744680404663086, "learning_rate": 3.086997671688317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.234044, "epoch": 3.1248570775211526, "step": 40995}, {"loss": 0.0846670150756836, "token_acc": 0.9722479185938946, "grad_norm": 1.5945223569869995, "learning_rate": 3.0858914832758425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23405, "epoch": 3.1252382041314126, "step": 41000}, {"eval_loss": 0.0689433142542839, "eval_token_acc": 0.970912896813445, "eval_runtime": 221.6041, "eval_samples_per_second": 2.392, "eval_steps_per_second": 2.392, "epoch": 3.1252382041314126, "step": 41000}, {"loss": 0.057130742073059085, "token_acc": 0.9711582634661766, "grad_norm": 1.2955076694488525, "learning_rate": 3.084785404628608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233757, "epoch": 3.125619330741672, "step": 41005}, {"loss": 0.04344964027404785, "token_acc": 0.9838129496402878, "grad_norm": 0.6317728757858276, "learning_rate": 3.083679435810043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233765, "epoch": 3.126000457351932, "step": 41010}, {"loss": 0.056244826316833495, "token_acc": 0.9750857142857143, "grad_norm": 0.40359827876091003, "learning_rate": 3.082573576883571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233771, "epoch": 3.1263815839621922, "step": 41015}, {"loss": 0.06375553607940673, "token_acc": 0.9740619491312013, "grad_norm": 1.3705552816390991, "learning_rate": 3.0814678279126055e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233778, "epoch": 3.1267627105724523, "step": 41020}, {"loss": 0.06079742908477783, "token_acc": 0.9711243088265411, "grad_norm": 1.5133610963821411, "learning_rate": 3.080362188960556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233785, "epoch": 3.1271438371827123, "step": 41025}, {"loss": 0.06026759147644043, "token_acc": 0.9785488958990536, "grad_norm": 5.296872615814209, "learning_rate": 3.079256660090827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233793, "epoch": 3.127524963792972, "step": 41030}, {"loss": 0.08776463270187378, "token_acc": 0.9666076957098629, "grad_norm": 2.393446683883667, "learning_rate": 3.078151241366816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233799, "epoch": 3.127906090403232, "step": 41035}, {"loss": 0.06124182939529419, "token_acc": 0.976, "grad_norm": 1.828258752822876, "learning_rate": 3.077045932851913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233806, "epoch": 3.128287217013492, "step": 41040}, {"loss": 0.09893736243247986, "token_acc": 0.9706264199935086, "grad_norm": 2.193493604660034, "learning_rate": 3.0759407346095014e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233809, "epoch": 3.128668343623752, "step": 41045}, {"loss": 0.10050392150878906, "token_acc": 0.9626126126126127, "grad_norm": 1.6973962783813477, "learning_rate": 3.0748356467029605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233814, "epoch": 3.129049470234012, "step": 41050}, {"loss": 0.08656326532363892, "token_acc": 0.9706867671691792, "grad_norm": 2.2159523963928223, "learning_rate": 3.0737306691956615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233823, "epoch": 3.1294305968442715, "step": 41055}, {"loss": 0.052810651063919065, "token_acc": 0.9780252859723059, "grad_norm": 0.8030562400817871, "learning_rate": 3.072625802150968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23383, "epoch": 3.1298117234545315, "step": 41060}, {"loss": 0.03762415945529938, "token_acc": 0.9838568935427574, "grad_norm": 0.8524441123008728, "learning_rate": 3.0715210456322427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233837, "epoch": 3.1301928500647915, "step": 41065}, {"loss": 0.04519851207733154, "token_acc": 0.982678338610542, "grad_norm": 2.027395725250244, "learning_rate": 3.0704163997028356e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233842, "epoch": 3.1305739766750516, "step": 41070}, {"loss": 0.06948146224021912, "token_acc": 0.9768955418158152, "grad_norm": 2.054636001586914, "learning_rate": 3.0693118644260926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233846, "epoch": 3.1309551032853116, "step": 41075}, {"loss": 0.07127683758735656, "token_acc": 0.9658119658119658, "grad_norm": 4.334886074066162, "learning_rate": 3.068207439865356e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233856, "epoch": 3.131336229895571, "step": 41080}, {"loss": 0.04780671000480652, "token_acc": 0.9824504737295435, "grad_norm": 0.8018355965614319, "learning_rate": 3.067103126083956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233858, "epoch": 3.131717356505831, "step": 41085}, {"loss": 0.07857391238212585, "token_acc": 0.9696609161213563, "grad_norm": 1.9356883764266968, "learning_rate": 3.065998923145224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233862, "epoch": 3.132098483116091, "step": 41090}, {"loss": 0.10466885566711426, "token_acc": 0.9604834068674468, "grad_norm": 0.7646064758300781, "learning_rate": 3.0648948311124785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233866, "epoch": 3.132479609726351, "step": 41095}, {"loss": 0.08575916290283203, "token_acc": 0.9697986577181208, "grad_norm": 1.8019771575927734, "learning_rate": 3.0637908500490344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233874, "epoch": 3.132860736336611, "step": 41100}, {"loss": 0.05940815806388855, "token_acc": 0.9796019900497512, "grad_norm": 0.9144595861434937, "learning_rate": 3.0626869800182e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23388, "epoch": 3.133241862946871, "step": 41105}, {"loss": 0.04400671124458313, "token_acc": 0.9765124555160143, "grad_norm": 0.8346425890922546, "learning_rate": 3.0615832210832775e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233888, "epoch": 3.133622989557131, "step": 41110}, {"loss": 0.09113326668739319, "token_acc": 0.9632518374081296, "grad_norm": 0.7869294285774231, "learning_rate": 3.060479573307561e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233894, "epoch": 3.134004116167391, "step": 41115}, {"loss": 0.09717616438865662, "token_acc": 0.9565001242853591, "grad_norm": 1.6671888828277588, "learning_rate": 3.0593760367543414e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233901, "epoch": 3.134385242777651, "step": 41120}, {"loss": 0.053297394514083864, "token_acc": 0.9678751720972923, "grad_norm": 0.938633382320404, "learning_rate": 3.0582726114868996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233909, "epoch": 3.134766369387911, "step": 41125}, {"loss": 0.10676794052124024, "token_acc": 0.9568640876412188, "grad_norm": 1.7748560905456543, "learning_rate": 3.057169297568513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233917, "epoch": 3.1351474959981704, "step": 41130}, {"loss": 0.05804198980331421, "token_acc": 0.9754750331418471, "grad_norm": 1.1242393255233765, "learning_rate": 3.056066095062452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233923, "epoch": 3.1355286226084305, "step": 41135}, {"loss": 0.05337294936180115, "token_acc": 0.9807971014492753, "grad_norm": 1.2128175497055054, "learning_rate": 3.054963004031979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233927, "epoch": 3.1359097492186905, "step": 41140}, {"loss": 0.0401511013507843, "token_acc": 0.9878603945371776, "grad_norm": 0.21051447093486786, "learning_rate": 3.053860024540352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233933, "epoch": 3.1362908758289505, "step": 41145}, {"loss": 0.044893139600753786, "token_acc": 0.9838065194532072, "grad_norm": 0.9152271151542664, "learning_rate": 3.052757156650821e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233938, "epoch": 3.1366720024392105, "step": 41150}, {"loss": 0.051659798622131346, "token_acc": 0.9764499121265378, "grad_norm": 1.4421234130859375, "learning_rate": 3.051654400426631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233946, "epoch": 3.13705312904947, "step": 41155}, {"loss": 0.04382171332836151, "token_acc": 0.9802371541501976, "grad_norm": 1.3432954549789429, "learning_rate": 3.0505517559310205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233955, "epoch": 3.13743425565973, "step": 41160}, {"loss": 0.05401742458343506, "token_acc": 0.9803803199517054, "grad_norm": 1.2426396608352661, "learning_rate": 3.0494492232272188e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233957, "epoch": 3.13781538226999, "step": 41165}, {"loss": 0.06951776742935181, "token_acc": 0.9693273542600896, "grad_norm": 2.2157418727874756, "learning_rate": 3.0483468023784532e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233963, "epoch": 3.13819650888025, "step": 41170}, {"loss": 0.08610001802444459, "token_acc": 0.9636363636363636, "grad_norm": 1.059841275215149, "learning_rate": 3.0472444934479416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233969, "epoch": 3.1385776354905097, "step": 41175}, {"loss": 0.06430829763412475, "token_acc": 0.9760335530257639, "grad_norm": 0.5356501340866089, "learning_rate": 3.0461422964988963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233969, "epoch": 3.1389587621007697, "step": 41180}, {"loss": 0.09535632133483887, "token_acc": 0.962272396212673, "grad_norm": 1.2409876585006714, "learning_rate": 3.0450402115945232e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233974, "epoch": 3.1393398887110298, "step": 41185}, {"loss": 0.0920930802822113, "token_acc": 0.9685185185185186, "grad_norm": 0.9350152611732483, "learning_rate": 3.0439382387980226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23398, "epoch": 3.1397210153212898, "step": 41190}, {"loss": 0.07395251989364623, "token_acc": 0.9721254355400697, "grad_norm": 1.5308011770248413, "learning_rate": 3.0428363781725854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233988, "epoch": 3.14010214193155, "step": 41195}, {"loss": 0.08258944153785705, "token_acc": 0.9590407470288624, "grad_norm": 1.7124793529510498, "learning_rate": 3.041734629781401e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233994, "epoch": 3.14048326854181, "step": 41200}, {"eval_loss": 0.06769044697284698, "eval_token_acc": 0.9711538461538461, "eval_runtime": 220.0738, "eval_samples_per_second": 2.408, "eval_steps_per_second": 2.408, "epoch": 3.14048326854181, "step": 41200}, {"loss": 0.06759366989135743, "token_acc": 0.9713930699500155, "grad_norm": 0.6931485533714294, "learning_rate": 3.0406329936876475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233703, "epoch": 3.1408643951520694, "step": 41205}, {"loss": 0.10035171508789062, "token_acc": 0.9664608710161855, "grad_norm": 0.7603834271430969, "learning_rate": 3.0395314699544997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233707, "epoch": 3.1412455217623294, "step": 41210}, {"loss": 0.04833589196205139, "token_acc": 0.9786969643174153, "grad_norm": 0.7873270511627197, "learning_rate": 3.038430058645122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233713, "epoch": 3.1416266483725894, "step": 41215}, {"loss": 0.06658474802970886, "token_acc": 0.9721208582688659, "grad_norm": 0.9613159894943237, "learning_rate": 3.0373287598226784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233716, "epoch": 3.1420077749828494, "step": 41220}, {"loss": 0.05706588625907898, "token_acc": 0.976203551162365, "grad_norm": 0.5019503235816956, "learning_rate": 3.0362275735503242e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233722, "epoch": 3.142388901593109, "step": 41225}, {"loss": 0.06776690483093262, "token_acc": 0.9668774966711052, "grad_norm": 0.9879562258720398, "learning_rate": 3.0351264998912053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233725, "epoch": 3.142770028203369, "step": 41230}, {"loss": 0.06462484002113342, "token_acc": 0.9790996784565916, "grad_norm": 0.5349322557449341, "learning_rate": 3.0340255389084634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233732, "epoch": 3.143151154813629, "step": 41235}, {"loss": 0.06500527858734131, "token_acc": 0.971702418986764, "grad_norm": 1.471511960029602, "learning_rate": 3.0329246906652337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233739, "epoch": 3.143532281423889, "step": 41240}, {"loss": 0.04652838110923767, "token_acc": 0.9805529075309819, "grad_norm": 0.8499729633331299, "learning_rate": 3.0318239552246448e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233743, "epoch": 3.143913408034149, "step": 41245}, {"loss": 0.06890680789947509, "token_acc": 0.9740932642487047, "grad_norm": 1.6324365139007568, "learning_rate": 3.0307233326498174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233749, "epoch": 3.1442945346444087, "step": 41250}, {"loss": 0.07449865341186523, "token_acc": 0.9691166321601105, "grad_norm": 1.3680241107940674, "learning_rate": 3.029622823003869e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233753, "epoch": 3.1446756612546687, "step": 41255}, {"loss": 0.08250809311866761, "token_acc": 0.9618287373004354, "grad_norm": 1.0384217500686646, "learning_rate": 3.028522426349909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233757, "epoch": 3.1450567878649287, "step": 41260}, {"loss": 0.05253629088401794, "token_acc": 0.9800214056368177, "grad_norm": 0.41949376463890076, "learning_rate": 3.0274221427510386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233761, "epoch": 3.1454379144751887, "step": 41265}, {"loss": 0.07180822491645814, "token_acc": 0.9712936046511628, "grad_norm": 0.8782514333724976, "learning_rate": 3.026321972270354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233766, "epoch": 3.1458190410854487, "step": 41270}, {"loss": 0.06300634145736694, "token_acc": 0.9719656992084432, "grad_norm": 1.048801302909851, "learning_rate": 3.0252219149709455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233771, "epoch": 3.1462001676957083, "step": 41275}, {"loss": 0.06545564532279968, "token_acc": 0.9743235236026071, "grad_norm": 1.2616082429885864, "learning_rate": 3.0241219709158965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233776, "epoch": 3.1465812943059683, "step": 41280}, {"loss": 0.07151327729225158, "token_acc": 0.9748693704901716, "grad_norm": 0.8236479163169861, "learning_rate": 3.0230221401682822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233782, "epoch": 3.1469624209162284, "step": 41285}, {"loss": 0.05326000452041626, "token_acc": 0.9806903991370011, "grad_norm": 0.8467496633529663, "learning_rate": 3.0219224227911747e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233783, "epoch": 3.1473435475264884, "step": 41290}, {"loss": 0.09105112552642822, "token_acc": 0.9649357601713062, "grad_norm": 1.935588002204895, "learning_rate": 3.0208228188476374e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233789, "epoch": 3.1477246741367484, "step": 41295}, {"loss": 0.049700969457626344, "token_acc": 0.9791364821790786, "grad_norm": 0.9834100008010864, "learning_rate": 3.0197233284007254e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233796, "epoch": 3.148105800747008, "step": 41300}, {"loss": 0.07985422015190125, "token_acc": 0.9684287812041116, "grad_norm": 1.1245007514953613, "learning_rate": 3.0186239515134917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233804, "epoch": 3.148486927357268, "step": 41305}, {"loss": 0.07230067253112793, "token_acc": 0.967677440853049, "grad_norm": 1.973496437072754, "learning_rate": 3.01752468824898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233812, "epoch": 3.148868053967528, "step": 41310}, {"loss": 0.05986018180847168, "token_acc": 0.9770057485628593, "grad_norm": 1.0982078313827515, "learning_rate": 3.0164255386702266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233813, "epoch": 3.149249180577788, "step": 41315}, {"loss": 0.05105769634246826, "token_acc": 0.9772988978450403, "grad_norm": 0.5968378782272339, "learning_rate": 3.0153265028402643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233819, "epoch": 3.149630307188048, "step": 41320}, {"loss": 0.05596068501472473, "token_acc": 0.9763434579439252, "grad_norm": 1.1003705263137817, "learning_rate": 3.0142275808221175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233823, "epoch": 3.1500114337983076, "step": 41325}, {"loss": 0.049200701713562014, "token_acc": 0.9781965425946114, "grad_norm": 1.6825363636016846, "learning_rate": 3.0131287726788037e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233826, "epoch": 3.1503925604085676, "step": 41330}, {"loss": 0.08356298208236694, "token_acc": 0.9677571193221934, "grad_norm": 0.8921375870704651, "learning_rate": 3.0120300784733335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233834, "epoch": 3.1507736870188277, "step": 41335}, {"loss": 0.04998570680618286, "token_acc": 0.9752130131680867, "grad_norm": 0.6563031077384949, "learning_rate": 3.0109314982687142e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233843, "epoch": 3.1511548136290877, "step": 41340}, {"loss": 0.06513535380363464, "token_acc": 0.9752332485156913, "grad_norm": 1.4205410480499268, "learning_rate": 3.0098330321279432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233849, "epoch": 3.1515359402393477, "step": 41345}, {"loss": 0.09504803419113159, "token_acc": 0.9653831194087904, "grad_norm": 1.3406301736831665, "learning_rate": 3.0087346801140104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233858, "epoch": 3.1519170668496073, "step": 41350}, {"loss": 0.05497164726257324, "token_acc": 0.9800890138205669, "grad_norm": 0.8556622862815857, "learning_rate": 3.0076364422899034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233859, "epoch": 3.1522981934598673, "step": 41355}, {"loss": 0.05001155138015747, "token_acc": 0.9802559912854031, "grad_norm": 0.37950411438941956, "learning_rate": 3.0065383187186023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233861, "epoch": 3.1526793200701273, "step": 41360}, {"loss": 0.046772506833076474, "token_acc": 0.9765400115141047, "grad_norm": 0.839168906211853, "learning_rate": 3.0054403094630778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233866, "epoch": 3.1530604466803873, "step": 41365}, {"loss": 0.05238469243049622, "token_acc": 0.9783412572636028, "grad_norm": 1.3182730674743652, "learning_rate": 3.0043424145862953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233873, "epoch": 3.1534415732906473, "step": 41370}, {"loss": 0.06720551252365112, "token_acc": 0.9741091314031181, "grad_norm": 0.9910061359405518, "learning_rate": 3.0032446341512134e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233881, "epoch": 3.153822699900907, "step": 41375}, {"loss": 0.05850543975830078, "token_acc": 0.9786673058485139, "grad_norm": 1.1701642274856567, "learning_rate": 3.002146968220787e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233884, "epoch": 3.154203826511167, "step": 41380}, {"loss": 0.057343071699142455, "token_acc": 0.9680067950169875, "grad_norm": 1.1980109214782715, "learning_rate": 3.0010494168579604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233892, "epoch": 3.154584953121427, "step": 41385}, {"loss": 0.09713571071624756, "token_acc": 0.9656340755082284, "grad_norm": 1.472232460975647, "learning_rate": 2.9999519801256727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233899, "epoch": 3.154966079731687, "step": 41390}, {"loss": 0.06012204885482788, "token_acc": 0.9800693240901213, "grad_norm": 0.47783902287483215, "learning_rate": 2.9988546580868583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233901, "epoch": 3.155347206341947, "step": 41395}, {"loss": 0.051166027784347534, "token_acc": 0.9823733862959285, "grad_norm": 0.5391678214073181, "learning_rate": 2.9977574508044437e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233909, "epoch": 3.1557283329522066, "step": 41400}, {"eval_loss": 0.06848479807376862, "eval_token_acc": 0.9718013975061743, "eval_runtime": 220.5993, "eval_samples_per_second": 2.403, "eval_steps_per_second": 2.403, "epoch": 3.1557283329522066, "step": 41400}, {"loss": 0.07701042890548707, "token_acc": 0.9715322396649813, "grad_norm": 1.6586476564407349, "learning_rate": 2.9966603583413455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233625, "epoch": 3.1561094595624666, "step": 41405}, {"loss": 0.06349784135818481, "token_acc": 0.970162124870645, "grad_norm": 2.020293951034546, "learning_rate": 2.995563380760481e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233632, "epoch": 3.1564905861727266, "step": 41410}, {"loss": 0.06132028102874756, "token_acc": 0.9740932642487047, "grad_norm": 1.1042976379394531, "learning_rate": 2.9944665181247543e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233637, "epoch": 3.1568717127829866, "step": 41415}, {"loss": 0.08311035037040711, "token_acc": 0.9758149316508938, "grad_norm": 1.6652374267578125, "learning_rate": 2.9933697704970654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233644, "epoch": 3.1572528393932466, "step": 41420}, {"loss": 0.05910235643386841, "token_acc": 0.9742698191933241, "grad_norm": 1.0442605018615723, "learning_rate": 2.992273137940309e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233649, "epoch": 3.157633966003506, "step": 41425}, {"loss": 0.0698774516582489, "token_acc": 0.9770612421553776, "grad_norm": 2.1014113426208496, "learning_rate": 2.991176620517372e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233655, "epoch": 3.1580150926137662, "step": 41430}, {"loss": 0.0701134204864502, "token_acc": 0.9774258760107817, "grad_norm": 1.0567227602005005, "learning_rate": 2.9900802182911326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233664, "epoch": 3.1583962192240262, "step": 41435}, {"loss": 0.07259177565574645, "token_acc": 0.9715693707354056, "grad_norm": 0.7786219716072083, "learning_rate": 2.988983931324465e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233673, "epoch": 3.1587773458342863, "step": 41440}, {"loss": 0.04783483147621155, "token_acc": 0.9842549439476005, "grad_norm": 0.5490391254425049, "learning_rate": 2.987887759680238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233675, "epoch": 3.1591584724445463, "step": 41445}, {"loss": 0.060641562938690184, "token_acc": 0.9774127310061602, "grad_norm": 0.5900206565856934, "learning_rate": 2.98679170342131e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233679, "epoch": 3.159539599054806, "step": 41450}, {"loss": 0.07627586126327515, "token_acc": 0.9694505494505494, "grad_norm": 1.441440463066101, "learning_rate": 2.9856957626105346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233685, "epoch": 3.159920725665066, "step": 41455}, {"loss": 0.05195193886756897, "token_acc": 0.9784145887606996, "grad_norm": 0.2709362208843231, "learning_rate": 2.9845999373107614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233694, "epoch": 3.160301852275326, "step": 41460}, {"loss": 0.10714271068572997, "token_acc": 0.9558270676691729, "grad_norm": 1.6669529676437378, "learning_rate": 2.983504227584828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233703, "epoch": 3.160682978885586, "step": 41465}, {"loss": 0.06858885288238525, "token_acc": 0.9707773232028054, "grad_norm": 0.9114015698432922, "learning_rate": 2.9824086334955692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233709, "epoch": 3.1610641054958455, "step": 41470}, {"loss": 0.038591507077217105, "token_acc": 0.9846519276448018, "grad_norm": 0.7932776808738708, "learning_rate": 2.9813131551058133e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233714, "epoch": 3.1614452321061055, "step": 41475}, {"loss": 0.06561845541000366, "token_acc": 0.9748110831234257, "grad_norm": 1.2704881429672241, "learning_rate": 2.9802177924783803e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233721, "epoch": 3.1618263587163655, "step": 41480}, {"loss": 0.07014963626861573, "token_acc": 0.971597874948917, "grad_norm": 0.8512484431266785, "learning_rate": 2.9791225456760818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233726, "epoch": 3.1622074853266255, "step": 41485}, {"loss": 0.08682125210762023, "token_acc": 0.9709202219246221, "grad_norm": 1.2230534553527832, "learning_rate": 2.9780274147617293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233731, "epoch": 3.1625886119368856, "step": 41490}, {"loss": 0.07740952968597412, "token_acc": 0.9677900387712496, "grad_norm": 1.1891520023345947, "learning_rate": 2.97693239979812e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233739, "epoch": 3.1629697385471456, "step": 41495}, {"loss": 0.04073510468006134, "token_acc": 0.9851280120481928, "grad_norm": 1.4557856321334839, "learning_rate": 2.975837500848051e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233745, "epoch": 3.163350865157405, "step": 41500}, {"loss": 0.05300735235214234, "token_acc": 0.9713842058562555, "grad_norm": 0.6580830216407776, "learning_rate": 2.974742717974308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23375, "epoch": 3.163731991767665, "step": 41505}, {"loss": 0.06453022360801697, "token_acc": 0.9722010080953108, "grad_norm": 0.9973852038383484, "learning_rate": 2.973648051239671e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233753, "epoch": 3.164113118377925, "step": 41510}, {"loss": 0.06635384559631348, "token_acc": 0.9619283065512979, "grad_norm": 1.146131992340088, "learning_rate": 2.9725535007069148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233761, "epoch": 3.164494244988185, "step": 41515}, {"loss": 0.0736556589603424, "token_acc": 0.9651094027202839, "grad_norm": 1.5216649770736694, "learning_rate": 2.971459066438808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23377, "epoch": 3.164875371598445, "step": 41520}, {"loss": 0.07407851815223694, "token_acc": 0.9780263683579704, "grad_norm": 1.0645077228546143, "learning_rate": 2.970364748498109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233772, "epoch": 3.165256498208705, "step": 41525}, {"loss": 0.06713278889656067, "token_acc": 0.9723786066150598, "grad_norm": 0.8308607339859009, "learning_rate": 2.9692705469475734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233777, "epoch": 3.165637624818965, "step": 41530}, {"loss": 0.04068241715431213, "token_acc": 0.9786076186901858, "grad_norm": 1.037408471107483, "learning_rate": 2.9681764618499486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233782, "epoch": 3.166018751429225, "step": 41535}, {"loss": 0.06180088520050049, "token_acc": 0.9754901960784313, "grad_norm": 0.5918450951576233, "learning_rate": 2.967082493267975e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233783, "epoch": 3.166399878039485, "step": 41540}, {"loss": 0.05979889035224915, "token_acc": 0.9741100323624595, "grad_norm": 0.7628582119941711, "learning_rate": 2.9659886412643856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233789, "epoch": 3.166781004649745, "step": 41545}, {"loss": 0.06691375374794006, "token_acc": 0.9726292507602986, "grad_norm": 1.070630431175232, "learning_rate": 2.9648949059019095e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233797, "epoch": 3.1671621312600045, "step": 41550}, {"loss": 0.0429253876209259, "token_acc": 0.9775474956822107, "grad_norm": 0.851128101348877, "learning_rate": 2.9638012872432663e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233806, "epoch": 3.1675432578702645, "step": 41555}, {"loss": 0.03765738904476166, "token_acc": 0.9830451000339098, "grad_norm": 0.3952985405921936, "learning_rate": 2.9627077853511692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233814, "epoch": 3.1679243844805245, "step": 41560}, {"loss": 0.05728347301483154, "token_acc": 0.9820014398848093, "grad_norm": 0.6665393710136414, "learning_rate": 2.9616144002883273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233824, "epoch": 3.1683055110907845, "step": 41565}, {"loss": 0.0659214735031128, "token_acc": 0.9751257685858021, "grad_norm": 1.4150234460830688, "learning_rate": 2.9605211321174408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233831, "epoch": 3.168686637701044, "step": 41570}, {"loss": 0.0645095944404602, "token_acc": 0.9799242424242425, "grad_norm": 1.4562711715698242, "learning_rate": 2.9594279809012015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23384, "epoch": 3.169067764311304, "step": 41575}, {"loss": 0.05517424345016479, "token_acc": 0.9730476848652384, "grad_norm": 0.15288378298282623, "learning_rate": 2.9583349467022992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233851, "epoch": 3.169448890921564, "step": 41580}, {"loss": 0.06157075166702271, "token_acc": 0.9735305566368236, "grad_norm": 0.6692416667938232, "learning_rate": 2.9572420295834137e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233856, "epoch": 3.169830017531824, "step": 41585}, {"loss": 0.05766244530677796, "token_acc": 0.9764007728401877, "grad_norm": 1.4360891580581665, "learning_rate": 2.9561492296072167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233862, "epoch": 3.170211144142084, "step": 41590}, {"loss": 0.08509247303009033, "token_acc": 0.9676682481110526, "grad_norm": 2.032360553741455, "learning_rate": 2.9550565468363777e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233868, "epoch": 3.1705922707523437, "step": 41595}, {"loss": 0.07540404200553893, "token_acc": 0.9760080936551525, "grad_norm": 0.606160044670105, "learning_rate": 2.9539639813335562e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233872, "epoch": 3.1709733973626038, "step": 41600}, {"eval_loss": 0.06945876777172089, "eval_token_acc": 0.9715002108306728, "eval_runtime": 221.3335, "eval_samples_per_second": 2.395, "eval_steps_per_second": 2.395, "epoch": 3.1709733973626038, "step": 41600}, {"loss": 0.07248306274414062, "token_acc": 0.9717095136021637, "grad_norm": 1.0155447721481323, "learning_rate": 2.952871533161406e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233584, "epoch": 3.1713545239728638, "step": 41605}, {"loss": 0.10081007480621337, "token_acc": 0.9633977900552486, "grad_norm": 1.2093439102172852, "learning_rate": 2.9517792023825717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233591, "epoch": 3.171735650583124, "step": 41610}, {"loss": 0.0590671181678772, "token_acc": 0.9772357723577236, "grad_norm": 0.9452424645423889, "learning_rate": 2.9506869890596955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233597, "epoch": 3.172116777193384, "step": 41615}, {"loss": 0.0628302276134491, "token_acc": 0.9743388834476004, "grad_norm": 1.1566349267959595, "learning_rate": 2.9495948932554118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233603, "epoch": 3.1724979038036434, "step": 41620}, {"loss": 0.04935285747051239, "token_acc": 0.9838214212574237, "grad_norm": 1.1924704313278198, "learning_rate": 2.9485029150323458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23361, "epoch": 3.1728790304139034, "step": 41625}, {"loss": 0.06599261164665222, "token_acc": 0.9724605867092396, "grad_norm": 0.8630245327949524, "learning_rate": 2.9474110544531163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233614, "epoch": 3.1732601570241634, "step": 41630}, {"loss": 0.04272204637527466, "token_acc": 0.9777361631294216, "grad_norm": 0.36059150099754333, "learning_rate": 2.946319311580339e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233621, "epoch": 3.1736412836344234, "step": 41635}, {"loss": 0.05727453231811523, "token_acc": 0.975008799718409, "grad_norm": 0.9269136190414429, "learning_rate": 2.9452276864766192e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23363, "epoch": 3.1740224102446835, "step": 41640}, {"loss": 0.06212894320487976, "token_acc": 0.9760191846522782, "grad_norm": 1.1380795240402222, "learning_rate": 2.9441361792045556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233631, "epoch": 3.174403536854943, "step": 41645}, {"loss": 0.07609431743621826, "token_acc": 0.9750432419075858, "grad_norm": 0.6806704998016357, "learning_rate": 2.943044789826741e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233638, "epoch": 3.174784663465203, "step": 41650}, {"loss": 0.030690330266952514, "token_acc": 0.9865523289807056, "grad_norm": 0.645335853099823, "learning_rate": 2.9419535184057635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233644, "epoch": 3.175165790075463, "step": 41655}, {"loss": 0.07085552215576171, "token_acc": 0.9721142470846713, "grad_norm": 0.6478248834609985, "learning_rate": 2.940862365004201e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233647, "epoch": 3.175546916685723, "step": 41660}, {"loss": 0.06327407956123351, "token_acc": 0.9809932556713673, "grad_norm": 1.6494673490524292, "learning_rate": 2.939771329684625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233654, "epoch": 3.175928043295983, "step": 41665}, {"loss": 0.0631700575351715, "token_acc": 0.9826294277929155, "grad_norm": 2.364428758621216, "learning_rate": 2.9386804125096045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233659, "epoch": 3.1763091699062427, "step": 41670}, {"loss": 0.04597944617271423, "token_acc": 0.9844736842105263, "grad_norm": 0.6007527709007263, "learning_rate": 2.9375896135416957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233666, "epoch": 3.1766902965165027, "step": 41675}, {"loss": 0.05808382630348206, "token_acc": 0.9709812905689195, "grad_norm": 1.3521523475646973, "learning_rate": 2.9364989328434516e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233672, "epoch": 3.1770714231267627, "step": 41680}, {"loss": 0.07504408359527588, "token_acc": 0.9720730397422127, "grad_norm": 1.880145788192749, "learning_rate": 2.9354083704774188e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233679, "epoch": 3.1774525497370227, "step": 41685}, {"loss": 0.053441751003265384, "token_acc": 0.9758378799688231, "grad_norm": 0.563736617565155, "learning_rate": 2.934317926506135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233682, "epoch": 3.1778336763472828, "step": 41690}, {"loss": 0.05543901920318604, "token_acc": 0.9733870967741935, "grad_norm": 0.7579193711280823, "learning_rate": 2.9332276009921312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233691, "epoch": 3.1782148029575423, "step": 41695}, {"loss": 0.06089034080505371, "token_acc": 0.9736320380650277, "grad_norm": 0.9986939430236816, "learning_rate": 2.9321373939979336e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233696, "epoch": 3.1785959295678023, "step": 41700}, {"loss": 0.053903496265411376, "token_acc": 0.9800590841949779, "grad_norm": 0.6006383299827576, "learning_rate": 2.931047305586061e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233699, "epoch": 3.1789770561780624, "step": 41705}, {"loss": 0.09062209725379944, "token_acc": 0.975100695715855, "grad_norm": 1.6536331176757812, "learning_rate": 2.9299573358190246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233708, "epoch": 3.1793581827883224, "step": 41710}, {"loss": 0.04719461798667908, "token_acc": 0.9837099316868103, "grad_norm": 0.8072085976600647, "learning_rate": 2.928867484759328e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233712, "epoch": 3.1797393093985824, "step": 41715}, {"loss": 0.055147993564605716, "token_acc": 0.9798206278026906, "grad_norm": 0.6361351609230042, "learning_rate": 2.9277777524694705e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233716, "epoch": 3.180120436008842, "step": 41720}, {"loss": 0.0712714970111847, "token_acc": 0.9652080344332855, "grad_norm": 1.6861317157745361, "learning_rate": 2.926688139011943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233724, "epoch": 3.180501562619102, "step": 41725}, {"loss": 0.06979209780693055, "token_acc": 0.9688052741598328, "grad_norm": 0.6705349683761597, "learning_rate": 2.925598644449228e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233728, "epoch": 3.180882689229362, "step": 41730}, {"loss": 0.08325998783111573, "token_acc": 0.9748995983935743, "grad_norm": 1.554783582687378, "learning_rate": 2.9245092688438046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233736, "epoch": 3.181263815839622, "step": 41735}, {"loss": 0.04538442492485047, "token_acc": 0.9795310755489394, "grad_norm": 1.439249873161316, "learning_rate": 2.9234200122581445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233744, "epoch": 3.181644942449882, "step": 41740}, {"loss": 0.05833116173744202, "token_acc": 0.974155069582505, "grad_norm": 0.8866991996765137, "learning_rate": 2.9223308747547085e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233754, "epoch": 3.1820260690601416, "step": 41745}, {"loss": 0.05486854910850525, "token_acc": 0.9778657549037251, "grad_norm": 0.6320008039474487, "learning_rate": 2.921241856395954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233761, "epoch": 3.1824071956704016, "step": 41750}, {"loss": 0.06429152488708496, "token_acc": 0.9760294117647059, "grad_norm": 1.4702850580215454, "learning_rate": 2.9201529572443352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233764, "epoch": 3.1827883222806617, "step": 41755}, {"loss": 0.06327551007270812, "token_acc": 0.977112676056338, "grad_norm": 0.6732486486434937, "learning_rate": 2.9190641773622916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233772, "epoch": 3.1831694488909217, "step": 41760}, {"loss": 0.05203160047531128, "token_acc": 0.9781550203974207, "grad_norm": 0.9415630102157593, "learning_rate": 2.9179755168122625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233774, "epoch": 3.1835505755011813, "step": 41765}, {"loss": 0.07148418426513672, "token_acc": 0.974694046878241, "grad_norm": 1.2698845863342285, "learning_rate": 2.916886975656673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233779, "epoch": 3.1839317021114413, "step": 41770}, {"loss": 0.03702530860900879, "token_acc": 0.9827722459301407, "grad_norm": 0.5888361930847168, "learning_rate": 2.9157985539579496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233783, "epoch": 3.1843128287217013, "step": 41775}, {"loss": 0.08921311497688293, "token_acc": 0.9691379921958141, "grad_norm": 1.5327491760253906, "learning_rate": 2.9147102517785084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233791, "epoch": 3.1846939553319613, "step": 41780}, {"loss": 0.09791937470436096, "token_acc": 0.9635097031016753, "grad_norm": 1.0220773220062256, "learning_rate": 2.9136220691807565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233795, "epoch": 3.1850750819422213, "step": 41785}, {"loss": 0.04858251810073853, "token_acc": 0.9800294496594883, "grad_norm": 0.8032410740852356, "learning_rate": 2.912534006227098e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233796, "epoch": 3.1854562085524813, "step": 41790}, {"loss": 0.10475491285324097, "token_acc": 0.9703459637561779, "grad_norm": 2.0223424434661865, "learning_rate": 2.9114460629799257e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233804, "epoch": 3.185837335162741, "step": 41795}, {"loss": 0.059638023376464844, "token_acc": 0.9857425742574257, "grad_norm": 1.5567214488983154, "learning_rate": 2.9103582395016293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233812, "epoch": 3.186218461773001, "step": 41800}, {"eval_loss": 0.06655236333608627, "eval_token_acc": 0.9718013975061743, "eval_runtime": 221.0681, "eval_samples_per_second": 2.397, "eval_steps_per_second": 2.397, "epoch": 3.186218461773001, "step": 41800}, {"loss": 0.06731876134872436, "token_acc": 0.9720658277982958, "grad_norm": 0.7251859903335571, "learning_rate": 2.909270535854593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233529, "epoch": 3.186599588383261, "step": 41805}, {"loss": 0.07086960077285767, "token_acc": 0.9748908296943232, "grad_norm": 1.7249196767807007, "learning_rate": 2.9081829521011873e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233536, "epoch": 3.186980714993521, "step": 41810}, {"loss": 0.049729830026626586, "token_acc": 0.9804951237809453, "grad_norm": 1.1304986476898193, "learning_rate": 2.9070954883037815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233545, "epoch": 3.1873618416037806, "step": 41815}, {"loss": 0.07715476751327514, "token_acc": 0.9769187464815162, "grad_norm": 2.143695831298828, "learning_rate": 2.90600814452474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23355, "epoch": 3.1877429682140406, "step": 41820}, {"loss": 0.060927993059158324, "token_acc": 0.9805574673090158, "grad_norm": 1.068039894104004, "learning_rate": 2.9049209208264115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233555, "epoch": 3.1881240948243006, "step": 41825}, {"loss": 0.0747305691242218, "token_acc": 0.9708692612444652, "grad_norm": 1.123646855354309, "learning_rate": 2.903833817271146e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233561, "epoch": 3.1885052214345606, "step": 41830}, {"loss": 0.03678010404109955, "token_acc": 0.9797446059004844, "grad_norm": 1.3242628574371338, "learning_rate": 2.902746833921286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233571, "epoch": 3.1888863480448206, "step": 41835}, {"loss": 0.04504353404045105, "token_acc": 0.9779969650986343, "grad_norm": 0.8322247862815857, "learning_rate": 2.90165997083916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233576, "epoch": 3.1892674746550806, "step": 41840}, {"loss": 0.05141534805297852, "token_acc": 0.9847801578354002, "grad_norm": 0.6445869207382202, "learning_rate": 2.900573228087098e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233581, "epoch": 3.18964860126534, "step": 41845}, {"loss": 0.03571479916572571, "token_acc": 0.9835983263598327, "grad_norm": 0.8549160957336426, "learning_rate": 2.8994866057274206e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233584, "epoch": 3.1900297278756002, "step": 41850}, {"loss": 0.09740809798240661, "token_acc": 0.969929046063746, "grad_norm": 0.5422884225845337, "learning_rate": 2.8984001038224362e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233586, "epoch": 3.1904108544858603, "step": 41855}, {"loss": 0.08486742973327636, "token_acc": 0.9607250755287009, "grad_norm": 1.1810939311981201, "learning_rate": 2.8973137224344537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233593, "epoch": 3.1907919810961203, "step": 41860}, {"loss": 0.059251779317855836, "token_acc": 0.982089552238806, "grad_norm": 2.13507080078125, "learning_rate": 2.8962274616257734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233599, "epoch": 3.19117310770638, "step": 41865}, {"loss": 0.05158516764640808, "token_acc": 0.9743360190987765, "grad_norm": 0.869504451751709, "learning_rate": 2.8951413214586836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233608, "epoch": 3.19155423431664, "step": 41870}, {"loss": 0.0516184151172638, "token_acc": 0.9800127578141612, "grad_norm": 1.5324188470840454, "learning_rate": 2.8940553019954707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233614, "epoch": 3.1919353609269, "step": 41875}, {"loss": 0.05978899598121643, "token_acc": 0.9773117254528122, "grad_norm": 0.9871914982795715, "learning_rate": 2.8929694032984166e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233619, "epoch": 3.19231648753716, "step": 41880}, {"loss": 0.06493679285049439, "token_acc": 0.9702187063750581, "grad_norm": 1.7186481952667236, "learning_rate": 2.8918836254297844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233628, "epoch": 3.19269761414742, "step": 41885}, {"loss": 0.06620514988899232, "token_acc": 0.9721694036300778, "grad_norm": 0.33100444078445435, "learning_rate": 2.8907979684518483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233633, "epoch": 3.1930787407576795, "step": 41890}, {"loss": 0.06153750419616699, "token_acc": 0.9739130434782609, "grad_norm": 0.8563975095748901, "learning_rate": 2.889712432426858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23364, "epoch": 3.1934598673679395, "step": 41895}, {"loss": 0.06620625257492066, "token_acc": 0.9684719043986778, "grad_norm": 1.35704505443573, "learning_rate": 2.888627017417067e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233647, "epoch": 3.1938409939781995, "step": 41900}, {"loss": 0.053743505477905275, "token_acc": 0.9861551773867897, "grad_norm": 1.499839186668396, "learning_rate": 2.8875417234847214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233656, "epoch": 3.1942221205884596, "step": 41905}, {"loss": 0.052200138568878174, "token_acc": 0.9777335264301231, "grad_norm": 0.7952582836151123, "learning_rate": 2.8864565506920517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23366, "epoch": 3.1946032471987196, "step": 41910}, {"loss": 0.05643333792686463, "token_acc": 0.9752544752544753, "grad_norm": 0.8939226865768433, "learning_rate": 2.8853714991012915e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233664, "epoch": 3.194984373808979, "step": 41915}, {"loss": 0.08442361950874329, "token_acc": 0.9681750372948782, "grad_norm": 1.5397398471832275, "learning_rate": 2.8842865687746645e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23367, "epoch": 3.195365500419239, "step": 41920}, {"loss": 0.07817186713218689, "token_acc": 0.9679186228482003, "grad_norm": 1.6088355779647827, "learning_rate": 2.8832017597743827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233677, "epoch": 3.195746627029499, "step": 41925}, {"loss": 0.0733165442943573, "token_acc": 0.9729235272594219, "grad_norm": 0.6909950375556946, "learning_rate": 2.8821170721626567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233684, "epoch": 3.196127753639759, "step": 41930}, {"loss": 0.04861036241054535, "token_acc": 0.9804347826086957, "grad_norm": 0.9355821013450623, "learning_rate": 2.881032506001691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233693, "epoch": 3.1965088802500192, "step": 41935}, {"loss": 0.08451087474822998, "token_acc": 0.9718563954537254, "grad_norm": 2.2333266735076904, "learning_rate": 2.8799480613536755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233697, "epoch": 3.196890006860279, "step": 41940}, {"loss": 0.040038949251174925, "token_acc": 0.9810379241516967, "grad_norm": 1.583493709564209, "learning_rate": 2.8788637382808004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233702, "epoch": 3.197271133470539, "step": 41945}, {"loss": 0.06693893671035767, "token_acc": 0.9783476472722874, "grad_norm": 1.087618350982666, "learning_rate": 2.877779536845249e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233702, "epoch": 3.197652260080799, "step": 41950}, {"loss": 0.07469189763069153, "token_acc": 0.9739524348810872, "grad_norm": 0.8555540442466736, "learning_rate": 2.87669545710919e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233709, "epoch": 3.198033386691059, "step": 41955}, {"loss": 0.0729659378528595, "token_acc": 0.9746037156979717, "grad_norm": 0.8266153931617737, "learning_rate": 2.875611499134796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233713, "epoch": 3.198414513301319, "step": 41960}, {"loss": 0.04907079935073853, "token_acc": 0.9845747025121199, "grad_norm": 0.5709372758865356, "learning_rate": 2.8745276629842216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233717, "epoch": 3.1987956399115784, "step": 41965}, {"loss": 0.06662549972534179, "token_acc": 0.9743464052287582, "grad_norm": 1.1534748077392578, "learning_rate": 2.8734439487196228e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23372, "epoch": 3.1991767665218385, "step": 41970}, {"loss": 0.042132461071014406, "token_acc": 0.9783561643835617, "grad_norm": 1.1692193746566772, "learning_rate": 2.8723603564031466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233727, "epoch": 3.1995578931320985, "step": 41975}, {"loss": 0.06523092985153198, "token_acc": 0.978114023236963, "grad_norm": 0.851092517375946, "learning_rate": 2.8712768860969285e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233734, "epoch": 3.1999390197423585, "step": 41980}, {"loss": 0.08090447783470153, "token_acc": 0.9741847826086957, "grad_norm": 1.7831929922103882, "learning_rate": 2.870193537863103e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233741, "epoch": 3.2003201463526185, "step": 41985}, {"loss": 0.06469687223434448, "token_acc": 0.97901914503016, "grad_norm": 0.9572160243988037, "learning_rate": 2.8691103117637964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233748, "epoch": 3.200701272962878, "step": 41990}, {"loss": 0.08029439449310302, "token_acc": 0.9722578987927049, "grad_norm": 0.7688141465187073, "learning_rate": 2.868027207861123e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233756, "epoch": 3.201082399573138, "step": 41995}, {"loss": 0.10112118721008301, "token_acc": 0.9588571428571429, "grad_norm": 1.1438865661621094, "learning_rate": 2.866944226217196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233766, "epoch": 3.201463526183398, "step": 42000}, {"eval_loss": 0.06670878827571869, "eval_token_acc": 0.9718164568399494, "eval_runtime": 223.0341, "eval_samples_per_second": 2.376, "eval_steps_per_second": 2.376, "epoch": 3.201463526183398, "step": 42000}, {"loss": 0.06921271085739136, "token_acc": 0.971821104102979, "grad_norm": 0.6726539731025696, "learning_rate": 2.8658613668941203e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23348, "epoch": 3.201844652793658, "step": 42005}, {"loss": 0.07723052501678467, "token_acc": 0.9809305873379099, "grad_norm": 1.5786051750183105, "learning_rate": 2.8647786299539902e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233481, "epoch": 3.202225779403918, "step": 42010}, {"loss": 0.04806656241416931, "token_acc": 0.9805571677307022, "grad_norm": 2.877349853515625, "learning_rate": 2.8636960154588965e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233489, "epoch": 3.2026069060141777, "step": 42015}, {"loss": 0.07134389281272888, "token_acc": 0.9708240534521159, "grad_norm": 1.2190872430801392, "learning_rate": 2.8626135234709227e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233496, "epoch": 3.2029880326244378, "step": 42020}, {"loss": 0.05651550889015198, "token_acc": 0.9815063887020847, "grad_norm": 0.7249446511268616, "learning_rate": 2.861531154052145e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233504, "epoch": 3.203369159234698, "step": 42025}, {"loss": 0.059232407808303834, "token_acc": 0.9770142753447859, "grad_norm": 0.7617385983467102, "learning_rate": 2.8604489072646333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23351, "epoch": 3.203750285844958, "step": 42030}, {"loss": 0.05051870346069336, "token_acc": 0.9756165142698808, "grad_norm": 0.5910804867744446, "learning_rate": 2.8593667831704467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233517, "epoch": 3.204131412455218, "step": 42035}, {"loss": 0.0621164083480835, "token_acc": 0.9793190416141235, "grad_norm": 0.4959962069988251, "learning_rate": 2.8582847818316415e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23352, "epoch": 3.2045125390654774, "step": 42040}, {"loss": 0.04299565255641937, "token_acc": 0.9812382739212008, "grad_norm": 0.8037670850753784, "learning_rate": 2.8572029033102664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233523, "epoch": 3.2048936656757374, "step": 42045}, {"loss": 0.07040913105010986, "token_acc": 0.9686159403928652, "grad_norm": 0.9555992484092712, "learning_rate": 2.8561211476683604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233531, "epoch": 3.2052747922859974, "step": 42050}, {"loss": 0.08210671544075013, "token_acc": 0.9743099207433725, "grad_norm": 1.847030520439148, "learning_rate": 2.8550395149679565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233538, "epoch": 3.2056559188962575, "step": 42055}, {"loss": 0.051465940475463864, "token_acc": 0.9755620723362659, "grad_norm": 0.8517504930496216, "learning_rate": 2.8539580052710846e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233546, "epoch": 3.2060370455065175, "step": 42060}, {"loss": 0.06202307343482971, "token_acc": 0.9752611324903794, "grad_norm": 1.4270883798599243, "learning_rate": 2.8528766186397603e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233552, "epoch": 3.206418172116777, "step": 42065}, {"loss": 0.06053359508514404, "token_acc": 0.9743167599604873, "grad_norm": 1.7516244649887085, "learning_rate": 2.8517953551359988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233561, "epoch": 3.206799298727037, "step": 42070}, {"loss": 0.07278724312782288, "token_acc": 0.9729004218330564, "grad_norm": 0.4553517699241638, "learning_rate": 2.8507142148218062e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233563, "epoch": 3.207180425337297, "step": 42075}, {"loss": 0.07626963257789612, "token_acc": 0.97185667752443, "grad_norm": 1.1812692880630493, "learning_rate": 2.849633197759178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233565, "epoch": 3.207561551947557, "step": 42080}, {"loss": 0.07135959863662719, "token_acc": 0.970873786407767, "grad_norm": 0.8561417460441589, "learning_rate": 2.8485523040101064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233571, "epoch": 3.207942678557817, "step": 42085}, {"loss": 0.05540143251419068, "token_acc": 0.9738219895287958, "grad_norm": 1.2827221155166626, "learning_rate": 2.8474715336365787e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233581, "epoch": 3.2083238051680767, "step": 42090}, {"loss": 0.06007001996040344, "token_acc": 0.9825548677546426, "grad_norm": 0.8401476740837097, "learning_rate": 2.8463908867005675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233588, "epoch": 3.2087049317783367, "step": 42095}, {"loss": 0.060094451904296874, "token_acc": 0.9798417483044461, "grad_norm": 1.5432426929473877, "learning_rate": 2.8453103632640443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233593, "epoch": 3.2090860583885967, "step": 42100}, {"loss": 0.04187192618846893, "token_acc": 0.9820193637621023, "grad_norm": 0.6609178185462952, "learning_rate": 2.844229963388976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233603, "epoch": 3.2094671849988567, "step": 42105}, {"loss": 0.07802796363830566, "token_acc": 0.975005680527153, "grad_norm": 1.10936439037323, "learning_rate": 2.843149687137312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23361, "epoch": 3.2098483116091163, "step": 42110}, {"loss": 0.07058386206626892, "token_acc": 0.9663307938068322, "grad_norm": 0.9833263158798218, "learning_rate": 2.8420695345710053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233617, "epoch": 3.2102294382193763, "step": 42115}, {"loss": 0.051799678802490236, "token_acc": 0.9853255069370331, "grad_norm": 1.2911237478256226, "learning_rate": 2.8409895057519985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233624, "epoch": 3.2106105648296364, "step": 42120}, {"loss": 0.09086737632751465, "token_acc": 0.9676011637133034, "grad_norm": 1.903690218925476, "learning_rate": 2.839909600742222e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233627, "epoch": 3.2109916914398964, "step": 42125}, {"loss": 0.057541847229003906, "token_acc": 0.9828136073706591, "grad_norm": 0.8191927075386047, "learning_rate": 2.838829819603609e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23363, "epoch": 3.2113728180501564, "step": 42130}, {"loss": 0.05979266166687012, "token_acc": 0.9722486219349934, "grad_norm": 0.7303987145423889, "learning_rate": 2.837750162398074e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233636, "epoch": 3.2117539446604164, "step": 42135}, {"loss": 0.07706948518753051, "token_acc": 0.9738004121283486, "grad_norm": 1.9157589673995972, "learning_rate": 2.8366706291875333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233639, "epoch": 3.212135071270676, "step": 42140}, {"loss": 0.07527621984481811, "token_acc": 0.9660739832413652, "grad_norm": 2.5069448947906494, "learning_rate": 2.8355912200338952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233645, "epoch": 3.212516197880936, "step": 42145}, {"loss": 0.053117644786834714, "token_acc": 0.9786541980077251, "grad_norm": 0.07322249561548233, "learning_rate": 2.8345119349990517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233649, "epoch": 3.212897324491196, "step": 42150}, {"loss": 0.06552187204360962, "token_acc": 0.9729314057213165, "grad_norm": 1.0949307680130005, "learning_rate": 2.8334327741449025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233652, "epoch": 3.213278451101456, "step": 42155}, {"loss": 0.1002872109413147, "token_acc": 0.9545983701979045, "grad_norm": 1.506376028060913, "learning_rate": 2.8323537375333308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233661, "epoch": 3.2136595777117156, "step": 42160}, {"loss": 0.053935778141021726, "token_acc": 0.978756884343037, "grad_norm": 0.9093676805496216, "learning_rate": 2.831274825226212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233664, "epoch": 3.2140407043219756, "step": 42165}, {"loss": 0.04539737403392792, "token_acc": 0.9819628647214854, "grad_norm": 1.2035579681396484, "learning_rate": 2.8301960372854174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233668, "epoch": 3.2144218309322357, "step": 42170}, {"loss": 0.0655114471912384, "token_acc": 0.9764409542154393, "grad_norm": 1.8014506101608276, "learning_rate": 2.8291173737728133e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233673, "epoch": 3.2148029575424957, "step": 42175}, {"loss": 0.048455968499183655, "token_acc": 0.9808231992516371, "grad_norm": 1.4017510414123535, "learning_rate": 2.828038834750252e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233682, "epoch": 3.2151840841527557, "step": 42180}, {"loss": 0.06078876256942749, "token_acc": 0.9680885704982091, "grad_norm": 1.5404976606369019, "learning_rate": 2.826960420279585e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23369, "epoch": 3.2155652107630153, "step": 42185}, {"loss": 0.05747076272964478, "token_acc": 0.9829396325459318, "grad_norm": 0.9111979007720947, "learning_rate": 2.825882130422653e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233697, "epoch": 3.2159463373732753, "step": 42190}, {"loss": 0.08016111850738525, "token_acc": 0.9625299760191847, "grad_norm": 2.2338764667510986, "learning_rate": 2.8248039652412912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233704, "epoch": 3.2163274639835353, "step": 42195}, {"loss": 0.05830413103103638, "token_acc": 0.9716268120431173, "grad_norm": 0.861918568611145, "learning_rate": 2.8237259247973303e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233708, "epoch": 3.2167085905937953, "step": 42200}, {"eval_loss": 0.0659181997179985, "eval_token_acc": 0.9721854105174387, "eval_runtime": 220.1876, "eval_samples_per_second": 2.407, "eval_steps_per_second": 2.407, "epoch": 3.2167085905937953, "step": 42200}, {"loss": 0.061796563863754275, "token_acc": 0.9725842187599544, "grad_norm": 0.6821376085281372, "learning_rate": 2.8226480091525857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233426, "epoch": 3.2170897172040553, "step": 42205}, {"loss": 0.08358233571052551, "token_acc": 0.9758992805755395, "grad_norm": 1.0680803060531616, "learning_rate": 2.821570218368874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233429, "epoch": 3.217470843814315, "step": 42210}, {"loss": 0.042455455660820006, "token_acc": 0.979381443298969, "grad_norm": 1.0940077304840088, "learning_rate": 2.8204925525080034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233437, "epoch": 3.217851970424575, "step": 42215}, {"loss": 0.05985978841781616, "token_acc": 0.9722222222222222, "grad_norm": 1.3784866333007812, "learning_rate": 2.8194150116317687e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233447, "epoch": 3.218233097034835, "step": 42220}, {"loss": 0.05287977457046509, "token_acc": 0.9785038693035254, "grad_norm": 1.018708348274231, "learning_rate": 2.818337595801963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233452, "epoch": 3.218614223645095, "step": 42225}, {"loss": 0.09550297856330872, "token_acc": 0.9653989133543037, "grad_norm": 1.260504126548767, "learning_rate": 2.8172603050803752e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23346, "epoch": 3.218995350255355, "step": 42230}, {"loss": 0.052314257621765135, "token_acc": 0.9788226848528356, "grad_norm": 0.3555678725242615, "learning_rate": 2.8161831395287776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233469, "epoch": 3.2193764768656146, "step": 42235}, {"loss": 0.06829994320869445, "token_acc": 0.9768015794669299, "grad_norm": 1.6358704566955566, "learning_rate": 2.8151060992089423e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233478, "epoch": 3.2197576034758746, "step": 42240}, {"loss": 0.043975254893302916, "token_acc": 0.980154355016538, "grad_norm": 0.8939799070358276, "learning_rate": 2.814029184182635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233484, "epoch": 3.2201387300861346, "step": 42245}, {"loss": 0.05905129909515381, "token_acc": 0.9755034565674782, "grad_norm": 0.785541832447052, "learning_rate": 2.8129523945116088e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233487, "epoch": 3.2205198566963946, "step": 42250}, {"loss": 0.05921238660812378, "token_acc": 0.9795684552224556, "grad_norm": 0.5917999744415283, "learning_rate": 2.8118757302576125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233491, "epoch": 3.2209009833066546, "step": 42255}, {"loss": 0.041399520635604856, "token_acc": 0.9821449827401499, "grad_norm": 0.8329206109046936, "learning_rate": 2.8107991914823916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233492, "epoch": 3.221282109916914, "step": 42260}, {"loss": 0.06436173915863037, "token_acc": 0.9784133837021047, "grad_norm": 1.259564995765686, "learning_rate": 2.8097227782476754e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233494, "epoch": 3.2216632365271742, "step": 42265}, {"loss": 0.05489648580551147, "token_acc": 0.9790360925005404, "grad_norm": 0.6623247265815735, "learning_rate": 2.8086464906151945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233501, "epoch": 3.2220443631374343, "step": 42270}, {"loss": 0.07188607454299926, "token_acc": 0.9708708250724417, "grad_norm": 0.5724599361419678, "learning_rate": 2.8075703286466696e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233505, "epoch": 3.2224254897476943, "step": 42275}, {"loss": 0.09012957215309143, "token_acc": 0.9645456241836163, "grad_norm": 1.0917340517044067, "learning_rate": 2.8064942924038106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23351, "epoch": 3.2228066163579543, "step": 42280}, {"loss": 0.10426207780838012, "token_acc": 0.9549578742709008, "grad_norm": 1.8548345565795898, "learning_rate": 2.8054183819483248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233518, "epoch": 3.223187742968214, "step": 42285}, {"loss": 0.043931832909584044, "token_acc": 0.9818286703201615, "grad_norm": 1.2381476163864136, "learning_rate": 2.80434259734191e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233526, "epoch": 3.223568869578474, "step": 42290}, {"loss": 0.07227838635444642, "token_acc": 0.9708664396519107, "grad_norm": 0.8472701907157898, "learning_rate": 2.8032669386462596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233531, "epoch": 3.223949996188734, "step": 42295}, {"loss": 0.061519956588745116, "token_acc": 0.9748181309457191, "grad_norm": 1.9096413850784302, "learning_rate": 2.802191405923057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233539, "epoch": 3.224331122798994, "step": 42300}, {"loss": 0.0994529366493225, "token_acc": 0.9646896973402629, "grad_norm": 1.86320161819458, "learning_rate": 2.8011159992339764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233544, "epoch": 3.224712249409254, "step": 42305}, {"loss": 0.05222654342651367, "token_acc": 0.9796124343964473, "grad_norm": 1.1967010498046875, "learning_rate": 2.8000407186406896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233549, "epoch": 3.2250933760195135, "step": 42310}, {"loss": 0.043341583013534545, "token_acc": 0.9825653798256538, "grad_norm": 1.3244593143463135, "learning_rate": 2.79896556420486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233556, "epoch": 3.2254745026297735, "step": 42315}, {"loss": 0.08988655805587768, "token_acc": 0.9710998877665544, "grad_norm": 2.3630356788635254, "learning_rate": 2.797890535988139e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233563, "epoch": 3.2258556292400336, "step": 42320}, {"loss": 0.10488255023956299, "token_acc": 0.9610580455547392, "grad_norm": 1.042773723602295, "learning_rate": 2.7968156340521777e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233572, "epoch": 3.2262367558502936, "step": 42325}, {"loss": 0.08937157392501831, "token_acc": 0.9668508287292817, "grad_norm": 1.1702932119369507, "learning_rate": 2.7957408584586175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233579, "epoch": 3.2266178824605536, "step": 42330}, {"loss": 0.04470755457878113, "token_acc": 0.9787760148361838, "grad_norm": 0.8519013524055481, "learning_rate": 2.7946662092690877e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233585, "epoch": 3.226999009070813, "step": 42335}, {"loss": 0.08159132599830628, "token_acc": 0.9681050656660413, "grad_norm": 0.9887986183166504, "learning_rate": 2.7935916865452165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233587, "epoch": 3.227380135681073, "step": 42340}, {"loss": 0.04901260733604431, "token_acc": 0.9828750981932443, "grad_norm": 0.565908670425415, "learning_rate": 2.7925172903486258e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233591, "epoch": 3.227761262291333, "step": 42345}, {"loss": 0.06212977170944214, "token_acc": 0.9728, "grad_norm": 0.18376196920871735, "learning_rate": 2.791443020740922e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233598, "epoch": 3.228142388901593, "step": 42350}, {"loss": 0.047337332367897035, "token_acc": 0.9805043441407078, "grad_norm": 0.9201083183288574, "learning_rate": 2.7903688777837144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233604, "epoch": 3.2285235155118532, "step": 42355}, {"loss": 0.08147130608558655, "token_acc": 0.9738537324744221, "grad_norm": 0.6614370346069336, "learning_rate": 2.7892948615385957e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233613, "epoch": 3.228904642122113, "step": 42360}, {"loss": 0.06097877025604248, "token_acc": 0.9781337401474701, "grad_norm": 0.9469267129898071, "learning_rate": 2.788220972067157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233621, "epoch": 3.229285768732373, "step": 42365}, {"loss": 0.05720457434654236, "token_acc": 0.9764226638686582, "grad_norm": 0.7664675712585449, "learning_rate": 2.7871472094309847e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233624, "epoch": 3.229666895342633, "step": 42370}, {"loss": 0.04413672685623169, "token_acc": 0.981178196040088, "grad_norm": 0.9239668846130371, "learning_rate": 2.7860735736916487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233632, "epoch": 3.230048021952893, "step": 42375}, {"loss": 0.07724674344062805, "token_acc": 0.9788797061524335, "grad_norm": 0.7836955785751343, "learning_rate": 2.7850000649107188e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23363, "epoch": 3.230429148563153, "step": 42380}, {"loss": 0.06362406015396119, "token_acc": 0.9770174172936206, "grad_norm": 0.7979056239128113, "learning_rate": 2.783926683149759e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23363, "epoch": 3.2308102751734125, "step": 42385}, {"loss": 0.05029805898666382, "token_acc": 0.9797803730172564, "grad_norm": 0.6546550393104553, "learning_rate": 2.782853428470318e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233635, "epoch": 3.2311914017836725, "step": 42390}, {"loss": 0.0731450378894806, "token_acc": 0.9713396659023911, "grad_norm": 0.7344277501106262, "learning_rate": 2.7817803009339438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23364, "epoch": 3.2315725283939325, "step": 42395}, {"loss": 0.05156984329223633, "token_acc": 0.9817422249729227, "grad_norm": 1.6547328233718872, "learning_rate": 2.7807073006021777e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233643, "epoch": 3.2319536550041925, "step": 42400}, {"eval_loss": 0.06537575274705887, "eval_token_acc": 0.9728706102042045, "eval_runtime": 220.0535, "eval_samples_per_second": 2.409, "eval_steps_per_second": 2.409, "epoch": 3.2319536550041925, "step": 42400}, {"loss": 0.06546038985252381, "token_acc": 0.9729916034172992, "grad_norm": 0.683313250541687, "learning_rate": 2.7796344275365472e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233368, "epoch": 3.232334781614452, "step": 42405}, {"loss": 0.05036668181419372, "token_acc": 0.9780787738371057, "grad_norm": 1.1989493370056152, "learning_rate": 2.7785616817985783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233373, "epoch": 3.232715908224712, "step": 42410}, {"loss": 0.07751496434211731, "token_acc": 0.9680019540791402, "grad_norm": 1.1419326066970825, "learning_rate": 2.7774890634497907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233378, "epoch": 3.233097034834972, "step": 42415}, {"loss": 0.05963137149810791, "token_acc": 0.9768885822697482, "grad_norm": 0.7279849052429199, "learning_rate": 2.776416572551687e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233384, "epoch": 3.233478161445232, "step": 42420}, {"loss": 0.056727665662765506, "token_acc": 0.9763549415515409, "grad_norm": 0.7193878889083862, "learning_rate": 2.775344209165779e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233391, "epoch": 3.233859288055492, "step": 42425}, {"loss": 0.09787141680717468, "token_acc": 0.9642857142857143, "grad_norm": 2.8124334812164307, "learning_rate": 2.774271973353554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233398, "epoch": 3.234240414665752, "step": 42430}, {"loss": 0.05534396171569824, "token_acc": 0.9796009863259358, "grad_norm": 0.8358386754989624, "learning_rate": 2.773199865176503e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233403, "epoch": 3.2346215412760118, "step": 42435}, {"loss": 0.08611618280410767, "token_acc": 0.9669946699466995, "grad_norm": 0.9465641379356384, "learning_rate": 2.7721278846961087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233409, "epoch": 3.2350026678862718, "step": 42440}, {"loss": 0.052656954526901244, "token_acc": 0.9758839157980789, "grad_norm": 1.398116111755371, "learning_rate": 2.771056031973839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233417, "epoch": 3.235383794496532, "step": 42445}, {"loss": 0.058349609375, "token_acc": 0.9813307802776448, "grad_norm": 2.1333959102630615, "learning_rate": 2.7699843070711618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233423, "epoch": 3.235764921106792, "step": 42450}, {"loss": 0.03567093908786774, "token_acc": 0.9817015952455427, "grad_norm": 0.8491339087486267, "learning_rate": 2.7689127100495387e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233428, "epoch": 3.2361460477170514, "step": 42455}, {"loss": 0.07583127617835998, "token_acc": 0.9703764320785597, "grad_norm": 1.2560086250305176, "learning_rate": 2.7678412409704163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233431, "epoch": 3.2365271743273114, "step": 42460}, {"loss": 0.03927004039287567, "token_acc": 0.9859518348623854, "grad_norm": 1.1431241035461426, "learning_rate": 2.7667698998952403e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233437, "epoch": 3.2369083009375714, "step": 42465}, {"loss": 0.05524343252182007, "token_acc": 0.9747334599094494, "grad_norm": 0.6823190450668335, "learning_rate": 2.7656986868854486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233438, "epoch": 3.2372894275478314, "step": 42470}, {"loss": 0.055554866790771484, "token_acc": 0.9751364463311097, "grad_norm": 0.9150939583778381, "learning_rate": 2.7646276020024676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233445, "epoch": 3.2376705541580915, "step": 42475}, {"loss": 0.05763424038887024, "token_acc": 0.9798607657881651, "grad_norm": 0.16562843322753906, "learning_rate": 2.763556645307719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233453, "epoch": 3.2380516807683515, "step": 42480}, {"loss": 0.09004406332969665, "token_acc": 0.9781063406312198, "grad_norm": 0.1558966040611267, "learning_rate": 2.762485816862621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233459, "epoch": 3.238432807378611, "step": 42485}, {"loss": 0.06885814070701599, "token_acc": 0.97362539114886, "grad_norm": 2.2350833415985107, "learning_rate": 2.761415116728576e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233466, "epoch": 3.238813933988871, "step": 42490}, {"loss": 0.05394957661628723, "token_acc": 0.975059697532502, "grad_norm": 0.7142639756202698, "learning_rate": 2.7603445449669863e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233471, "epoch": 3.239195060599131, "step": 42495}, {"loss": 0.06824737787246704, "token_acc": 0.9745752201413865, "grad_norm": 0.9952199459075928, "learning_rate": 2.7592741016392452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233473, "epoch": 3.239576187209391, "step": 42500}, {"loss": 0.10317122936248779, "token_acc": 0.972485592117494, "grad_norm": 2.21818470954895, "learning_rate": 2.7582037868067346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233478, "epoch": 3.2399573138196507, "step": 42505}, {"loss": 0.05135197639465332, "token_acc": 0.9788764044943821, "grad_norm": 1.1227920055389404, "learning_rate": 2.7571336005308335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233482, "epoch": 3.2403384404299107, "step": 42510}, {"loss": 0.06397298574447632, "token_acc": 0.9758175955780746, "grad_norm": 2.1567065715789795, "learning_rate": 2.7560635428729135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233488, "epoch": 3.2407195670401707, "step": 42515}, {"loss": 0.05491306781768799, "token_acc": 0.9773681055155875, "grad_norm": 0.5576828718185425, "learning_rate": 2.7549936138943345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233494, "epoch": 3.2411006936504307, "step": 42520}, {"loss": 0.06830212473869324, "token_acc": 0.9706293706293706, "grad_norm": 0.8951201438903809, "learning_rate": 2.753923813656456e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233495, "epoch": 3.2414818202606908, "step": 42525}, {"loss": 0.048886162042617795, "token_acc": 0.9796131124753852, "grad_norm": 0.8029420971870422, "learning_rate": 2.7528541422206217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233498, "epoch": 3.2418629468709503, "step": 42530}, {"loss": 0.06046299338340759, "token_acc": 0.9790432801822323, "grad_norm": 1.6024067401885986, "learning_rate": 2.751784599648174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233503, "epoch": 3.2422440734812104, "step": 42535}, {"loss": 0.07005232572555542, "token_acc": 0.9747466071121801, "grad_norm": 1.3231877088546753, "learning_rate": 2.7507151860004487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233509, "epoch": 3.2426252000914704, "step": 42540}, {"loss": 0.06078174114227295, "token_acc": 0.9767633875914131, "grad_norm": 0.4790107011795044, "learning_rate": 2.7496459013387675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233511, "epoch": 3.2430063267017304, "step": 42545}, {"loss": 0.06068713068962097, "token_acc": 0.9697794718213995, "grad_norm": 1.602644443511963, "learning_rate": 2.7485767457244492e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233518, "epoch": 3.2433874533119904, "step": 42550}, {"loss": 0.06238076686859131, "token_acc": 0.9803967327887981, "grad_norm": 1.1763359308242798, "learning_rate": 2.7475077192188104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233524, "epoch": 3.24376857992225, "step": 42555}, {"loss": 0.05665228962898254, "token_acc": 0.9767441860465116, "grad_norm": 0.9470227360725403, "learning_rate": 2.746438821883149e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233528, "epoch": 3.24414970653251, "step": 42560}, {"loss": 0.06641061305999756, "token_acc": 0.9759557585958163, "grad_norm": 0.8338575959205627, "learning_rate": 2.745370053778763e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233535, "epoch": 3.24453083314277, "step": 42565}, {"loss": 0.05849201679229736, "token_acc": 0.9648616125150421, "grad_norm": 0.0708136335015297, "learning_rate": 2.7443014149669444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233541, "epoch": 3.24491195975303, "step": 42570}, {"loss": 0.07030618786811829, "token_acc": 0.971003717472119, "grad_norm": 1.2843830585479736, "learning_rate": 2.7432329055089696e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233548, "epoch": 3.24529308636329, "step": 42575}, {"loss": 0.07388638257980347, "token_acc": 0.9722522522522522, "grad_norm": 1.155849575996399, "learning_rate": 2.7421645254661165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233556, "epoch": 3.2456742129735496, "step": 42580}, {"loss": 0.08492366075515748, "token_acc": 0.9679817905918058, "grad_norm": 0.7255603671073914, "learning_rate": 2.7410962748996495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233559, "epoch": 3.2460553395838097, "step": 42585}, {"loss": 0.05834152102470398, "token_acc": 0.9705254164886801, "grad_norm": 1.1885102987289429, "learning_rate": 2.7400281538708273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233568, "epoch": 3.2464364661940697, "step": 42590}, {"loss": 0.046013647317886354, "token_acc": 0.9808013355592654, "grad_norm": 1.6499050855636597, "learning_rate": 2.7389601624409055e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233577, "epoch": 3.2468175928043297, "step": 42595}, {"loss": 0.07959501147270202, "token_acc": 0.9735254691689008, "grad_norm": 0.7977024912834167, "learning_rate": 2.7378923006711238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233585, "epoch": 3.2471987194145897, "step": 42600}, {"eval_loss": 0.06596631556749344, "eval_token_acc": 0.9723284741883019, "eval_runtime": 220.2794, "eval_samples_per_second": 2.406, "eval_steps_per_second": 2.406, "epoch": 3.2471987194145897, "step": 42600}, {"loss": 0.06116113066673279, "token_acc": 0.9726316395815182, "grad_norm": 0.6999056935310364, "learning_rate": 2.736824568622721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233306, "epoch": 3.2475798460248493, "step": 42605}, {"loss": 0.06276138424873352, "token_acc": 0.9783386874713171, "grad_norm": 1.7752422094345093, "learning_rate": 2.7357569663569293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233304, "epoch": 3.2479609726351093, "step": 42610}, {"loss": 0.028673011064529418, "token_acc": 0.9860180600058258, "grad_norm": 2.740935802459717, "learning_rate": 2.7346894939349653e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233312, "epoch": 3.2483420992453693, "step": 42615}, {"loss": 0.07028174996376038, "token_acc": 0.9723439211391018, "grad_norm": 1.0245343446731567, "learning_rate": 2.733622151418047e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233319, "epoch": 3.2487232258556293, "step": 42620}, {"loss": 0.05863792300224304, "token_acc": 0.9810874704491725, "grad_norm": 0.6487531661987305, "learning_rate": 2.7325549388673833e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233323, "epoch": 3.2491043524658894, "step": 42625}, {"loss": 0.04603674709796905, "token_acc": 0.9736328125, "grad_norm": 1.0830954313278198, "learning_rate": 2.7314878563441693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233331, "epoch": 3.249485479076149, "step": 42630}, {"loss": 0.0803896427154541, "token_acc": 0.9615799697819987, "grad_norm": 0.8688685894012451, "learning_rate": 2.7304209039095995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233338, "epoch": 3.249866605686409, "step": 42635}, {"loss": 0.05064167976379395, "token_acc": 0.9779168200220831, "grad_norm": 1.6832741498947144, "learning_rate": 2.7293540816248607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233347, "epoch": 3.250247732296669, "step": 42640}, {"loss": 0.04696687161922455, "token_acc": 0.9838282078472959, "grad_norm": 1.3469057083129883, "learning_rate": 2.7282873895511267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233353, "epoch": 3.250628858906929, "step": 42645}, {"loss": 0.05144243836402893, "token_acc": 0.9753496089120645, "grad_norm": 0.7458909749984741, "learning_rate": 2.7272208277495686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233361, "epoch": 3.2510099855171886, "step": 42650}, {"loss": 0.08403071165084838, "token_acc": 0.9706512425021423, "grad_norm": 1.1928120851516724, "learning_rate": 2.7261543962813512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233368, "epoch": 3.2513911121274486, "step": 42655}, {"loss": 0.06704549789428711, "token_acc": 0.9752994011976048, "grad_norm": 3.7232553958892822, "learning_rate": 2.7250880952076253e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233376, "epoch": 3.2517722387377086, "step": 42660}, {"loss": 0.04871947467327118, "token_acc": 0.982064491509254, "grad_norm": 1.1748361587524414, "learning_rate": 2.72402192458954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233382, "epoch": 3.2521533653479686, "step": 42665}, {"loss": 0.055596137046813966, "token_acc": 0.9774538057297847, "grad_norm": 0.6439116597175598, "learning_rate": 2.7229558844882374e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233386, "epoch": 3.2525344919582286, "step": 42670}, {"loss": 0.059202718734741214, "token_acc": 0.975785896346644, "grad_norm": 1.0294725894927979, "learning_rate": 2.7218899749648463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233388, "epoch": 3.2529156185684887, "step": 42675}, {"loss": 0.03812982439994812, "token_acc": 0.9850195897672275, "grad_norm": 1.2087512016296387, "learning_rate": 2.7208241960804932e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233394, "epoch": 3.2532967451787482, "step": 42680}, {"loss": 0.06293061971664429, "token_acc": 0.9782825263996812, "grad_norm": 0.9924610257148743, "learning_rate": 2.719758547896296e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2334, "epoch": 3.2536778717890082, "step": 42685}, {"loss": 0.04352408051490784, "token_acc": 0.9817162359824476, "grad_norm": 1.272883415222168, "learning_rate": 2.718693030473364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233407, "epoch": 3.2540589983992683, "step": 42690}, {"loss": 0.05131037831306458, "token_acc": 0.9758083832335329, "grad_norm": 1.3397119045257568, "learning_rate": 2.7176276438728027e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233415, "epoch": 3.2544401250095283, "step": 42695}, {"loss": 0.0645828366279602, "token_acc": 0.9743533053283219, "grad_norm": 0.7463000416755676, "learning_rate": 2.7165623881557023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23342, "epoch": 3.254821251619788, "step": 42700}, {"loss": 0.0653878927230835, "token_acc": 0.973252073810733, "grad_norm": 1.0446393489837646, "learning_rate": 2.7154972633831522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233427, "epoch": 3.255202378230048, "step": 42705}, {"loss": 0.05527141094207764, "token_acc": 0.976630083925113, "grad_norm": 0.7506847381591797, "learning_rate": 2.714432269616235e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23343, "epoch": 3.255583504840308, "step": 42710}, {"loss": 0.06855987906455993, "token_acc": 0.9747606614447345, "grad_norm": 1.1880439519882202, "learning_rate": 2.7133674069160186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233438, "epoch": 3.255964631450568, "step": 42715}, {"loss": 0.05160095095634461, "token_acc": 0.9749646678780537, "grad_norm": 1.8700916767120361, "learning_rate": 2.712302675343571e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233444, "epoch": 3.256345758060828, "step": 42720}, {"loss": 0.07144472002983093, "token_acc": 0.9634594594594594, "grad_norm": 1.023488163948059, "learning_rate": 2.7112380749599496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233451, "epoch": 3.256726884671088, "step": 42725}, {"loss": 0.0679600715637207, "token_acc": 0.975397973950796, "grad_norm": 0.988815188407898, "learning_rate": 2.7101736058262016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233457, "epoch": 3.2571080112813475, "step": 42730}, {"loss": 0.05806206464767456, "token_acc": 0.974973563623546, "grad_norm": 1.0338600873947144, "learning_rate": 2.709109268003372e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233465, "epoch": 3.2574891378916075, "step": 42735}, {"loss": 0.06254867911338806, "token_acc": 0.9733100523821402, "grad_norm": 0.9501224756240845, "learning_rate": 2.7080450615524968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233472, "epoch": 3.2578702645018676, "step": 42740}, {"loss": 0.04526399075984955, "token_acc": 0.9859180357465246, "grad_norm": 1.8176747560501099, "learning_rate": 2.7069809865345987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233476, "epoch": 3.2582513911121276, "step": 42745}, {"loss": 0.06219180226325989, "token_acc": 0.9762395441871742, "grad_norm": 1.0573756694793701, "learning_rate": 2.705917043010702e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233476, "epoch": 3.258632517722387, "step": 42750}, {"loss": 0.05459409952163696, "token_acc": 0.9813495661183784, "grad_norm": 0.8191227316856384, "learning_rate": 2.7048532310418156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23348, "epoch": 3.259013644332647, "step": 42755}, {"loss": 0.0374012291431427, "token_acc": 0.9831748354059985, "grad_norm": 0.5790355801582336, "learning_rate": 2.7037895506889456e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233487, "epoch": 3.259394770942907, "step": 42760}, {"loss": 0.04637461006641388, "token_acc": 0.9774730656219393, "grad_norm": 2.1171586513519287, "learning_rate": 2.7027260020130905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233494, "epoch": 3.259775897553167, "step": 42765}, {"loss": 0.07586174011230469, "token_acc": 0.9712306872669153, "grad_norm": 0.8658002018928528, "learning_rate": 2.7016625850752374e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233503, "epoch": 3.2601570241634272, "step": 42770}, {"loss": 0.06472283601760864, "token_acc": 0.9743685687558465, "grad_norm": 1.0051231384277344, "learning_rate": 2.7005992999363688e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233507, "epoch": 3.2605381507736872, "step": 42775}, {"loss": 0.04558103382587433, "token_acc": 0.9857317570322055, "grad_norm": 0.3723355531692505, "learning_rate": 2.699536146657462e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233515, "epoch": 3.260919277383947, "step": 42780}, {"loss": 0.05501596331596374, "token_acc": 0.9769274057400112, "grad_norm": 0.6477387547492981, "learning_rate": 2.69847312529948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233523, "epoch": 3.261300403994207, "step": 42785}, {"loss": 0.04391325414180756, "token_acc": 0.981922525107604, "grad_norm": 0.7046604156494141, "learning_rate": 2.6974102359233834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233527, "epoch": 3.261681530604467, "step": 42790}, {"loss": 0.035621154308319095, "token_acc": 0.9836692147324531, "grad_norm": 0.04762738198041916, "learning_rate": 2.6963474785901267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233534, "epoch": 3.262062657214727, "step": 42795}, {"loss": 0.0626000702381134, "token_acc": 0.9743700193840189, "grad_norm": 0.6623939275741577, "learning_rate": 2.69528485336065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23354, "epoch": 3.2624437838249865, "step": 42800}, {"eval_loss": 0.06727106124162674, "eval_token_acc": 0.9724188301909523, "eval_runtime": 218.6048, "eval_samples_per_second": 2.424, "eval_steps_per_second": 2.424, "epoch": 3.2624437838249865, "step": 42800}, {"loss": 0.08656785488128663, "token_acc": 0.9723977091574659, "grad_norm": 2.086151361465454, "learning_rate": 2.6942223602958917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233269, "epoch": 3.2628249104352465, "step": 42805}, {"loss": 0.07125670313835145, "token_acc": 0.966866009374495, "grad_norm": 1.3119465112686157, "learning_rate": 2.693159999456783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233275, "epoch": 3.2632060370455065, "step": 42810}, {"loss": 0.06106266975402832, "token_acc": 0.9716053299492385, "grad_norm": 1.1251730918884277, "learning_rate": 2.6920977709042412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23328, "epoch": 3.2635871636557665, "step": 42815}, {"loss": 0.04346319437026978, "token_acc": 0.9799749687108886, "grad_norm": 1.5668684244155884, "learning_rate": 2.6910356746991823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23329, "epoch": 3.2639682902660265, "step": 42820}, {"loss": 0.06582842469215393, "token_acc": 0.973630831643002, "grad_norm": 1.2774184942245483, "learning_rate": 2.6899737109025125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233299, "epoch": 3.2643494168762865, "step": 42825}, {"loss": 0.0769266963005066, "token_acc": 0.975074646241724, "grad_norm": 1.1230212450027466, "learning_rate": 2.68891187957513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233303, "epoch": 3.264730543486546, "step": 42830}, {"loss": 0.06817191243171691, "token_acc": 0.9745587533789156, "grad_norm": 1.1386878490447998, "learning_rate": 2.6878501807779295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233308, "epoch": 3.265111670096806, "step": 42835}, {"loss": 0.06460253596305847, "token_acc": 0.9771858428906154, "grad_norm": 0.8600606322288513, "learning_rate": 2.6867886145717886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23331, "epoch": 3.265492796707066, "step": 42840}, {"loss": 0.05943437218666077, "token_acc": 0.9704757858963466, "grad_norm": 0.7039764523506165, "learning_rate": 2.6857271810175866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233312, "epoch": 3.265873923317326, "step": 42845}, {"loss": 0.054924231767654416, "token_acc": 0.9803733186933846, "grad_norm": 0.48147517442703247, "learning_rate": 2.6846658801761926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233312, "epoch": 3.2662550499275858, "step": 42850}, {"loss": 0.05920307040214538, "token_acc": 0.9671111111111111, "grad_norm": 1.4190236330032349, "learning_rate": 2.6836047121084644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233321, "epoch": 3.2666361765378458, "step": 42855}, {"loss": 0.05452497005462646, "token_acc": 0.9803431022158685, "grad_norm": 1.7944756746292114, "learning_rate": 2.6825436768752565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233329, "epoch": 3.267017303148106, "step": 42860}, {"loss": 0.07820318937301636, "token_acc": 0.9708597285067874, "grad_norm": 2.0745229721069336, "learning_rate": 2.6814827745374167e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233334, "epoch": 3.267398429758366, "step": 42865}, {"loss": 0.06902634501457214, "token_acc": 0.9721714401787528, "grad_norm": 0.6876674294471741, "learning_rate": 2.6804220051557782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23334, "epoch": 3.267779556368626, "step": 42870}, {"loss": 0.10674506425857544, "token_acc": 0.9669653839395537, "grad_norm": 2.2552127838134766, "learning_rate": 2.6793613687911732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233345, "epoch": 3.2681606829788854, "step": 42875}, {"loss": 0.03793119490146637, "token_acc": 0.9812108559498957, "grad_norm": 0.7671197056770325, "learning_rate": 2.6783008655044273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233351, "epoch": 3.2685418095891454, "step": 42880}, {"loss": 0.06871196627616882, "token_acc": 0.9767589266849778, "grad_norm": 1.1196846961975098, "learning_rate": 2.67724049535635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233357, "epoch": 3.2689229361994054, "step": 42885}, {"loss": 0.06854056119918824, "token_acc": 0.9663120567375887, "grad_norm": 0.6253530383110046, "learning_rate": 2.6761802584077522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233364, "epoch": 3.2693040628096655, "step": 42890}, {"loss": 0.057530772686004636, "token_acc": 0.9723132969034608, "grad_norm": 1.3982338905334473, "learning_rate": 2.6751201547194345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233372, "epoch": 3.2696851894199255, "step": 42895}, {"loss": 0.05774573683738708, "token_acc": 0.9703125, "grad_norm": 0.0003903468023054302, "learning_rate": 2.6740601843521852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233378, "epoch": 3.270066316030185, "step": 42900}, {"loss": 0.04635041058063507, "token_acc": 0.9634551495016611, "grad_norm": 0.5279640555381775, "learning_rate": 2.6730003473667903e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233386, "epoch": 3.270447442640445, "step": 42905}, {"loss": 0.041554155945777896, "token_acc": 0.9763277693474962, "grad_norm": 1.2309820652008057, "learning_rate": 2.671940643824029e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233395, "epoch": 3.270828569250705, "step": 42910}, {"loss": 0.061218470335006714, "token_acc": 0.9771543086172345, "grad_norm": 1.037993311882019, "learning_rate": 2.670881073784666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233397, "epoch": 3.271209695860965, "step": 42915}, {"loss": 0.06739042401313781, "token_acc": 0.9744140275541242, "grad_norm": 1.7300680875778198, "learning_rate": 2.6698216373094674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233402, "epoch": 3.271590822471225, "step": 42920}, {"loss": 0.08511364459991455, "token_acc": 0.96760710553814, "grad_norm": 1.25575852394104, "learning_rate": 2.668762334459183e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233408, "epoch": 3.2719719490814847, "step": 42925}, {"loss": 0.03652408719062805, "token_acc": 0.9838134430727024, "grad_norm": 0.5344502329826355, "learning_rate": 2.6677031652945593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233414, "epoch": 3.2723530756917447, "step": 42930}, {"loss": 0.07466774582862853, "token_acc": 0.9690500071643502, "grad_norm": 1.253894329071045, "learning_rate": 2.666644129876339e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233419, "epoch": 3.2727342023020047, "step": 42935}, {"loss": 0.05427144169807434, "token_acc": 0.9797320508416352, "grad_norm": 1.7072559595108032, "learning_rate": 2.665585228265247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233422, "epoch": 3.2731153289122648, "step": 42940}, {"loss": 0.050177091360092164, "token_acc": 0.973968105065666, "grad_norm": 1.2604657411575317, "learning_rate": 2.66452646052201e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233429, "epoch": 3.2734964555225248, "step": 42945}, {"loss": 0.046173095703125, "token_acc": 0.9814773488060701, "grad_norm": 1.5712522268295288, "learning_rate": 2.6634678267073433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233436, "epoch": 3.2738775821327843, "step": 42950}, {"loss": 0.06701436042785644, "token_acc": 0.9753634894991923, "grad_norm": 1.0377196073532104, "learning_rate": 2.6624093268819505e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233442, "epoch": 3.2742587087430444, "step": 42955}, {"loss": 0.05004933476448059, "token_acc": 0.9837013062073748, "grad_norm": 1.124483346939087, "learning_rate": 2.6613509611065397e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23344, "epoch": 3.2746398353533044, "step": 42960}, {"loss": 0.07120344638824463, "token_acc": 0.9729959600255156, "grad_norm": 1.3881689310073853, "learning_rate": 2.6602927294417956e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233446, "epoch": 3.2750209619635644, "step": 42965}, {"loss": 0.06625648736953735, "token_acc": 0.9755388713974328, "grad_norm": 1.135448932647705, "learning_rate": 2.659234631948407e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233453, "epoch": 3.2754020885738244, "step": 42970}, {"loss": 0.0742311954498291, "token_acc": 0.9781704781704782, "grad_norm": 2.003007411956787, "learning_rate": 2.6581766686870507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23346, "epoch": 3.275783215184084, "step": 42975}, {"loss": 0.04553976655006409, "token_acc": 0.9779929577464789, "grad_norm": 0.5491850972175598, "learning_rate": 2.6571188397183938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23347, "epoch": 3.276164341794344, "step": 42980}, {"loss": 0.0394243061542511, "token_acc": 0.9852981214266268, "grad_norm": 0.8654868602752686, "learning_rate": 2.6560611451030988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233476, "epoch": 3.276545468404604, "step": 42985}, {"loss": 0.07932916879653931, "token_acc": 0.9688550302487117, "grad_norm": 1.4415119886398315, "learning_rate": 2.6550035849018217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233483, "epoch": 3.276926595014864, "step": 42990}, {"loss": 0.04906262159347534, "token_acc": 0.9768243895709753, "grad_norm": 0.7831910848617554, "learning_rate": 2.6539461591752056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233486, "epoch": 3.2773077216251236, "step": 42995}, {"loss": 0.052426719665527345, "token_acc": 0.9805555555555555, "grad_norm": 2.097409725189209, "learning_rate": 2.65288886798389e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233494, "epoch": 3.2776888482353836, "step": 43000}, {"eval_loss": 0.06629740446805954, "eval_token_acc": 0.9726748388651286, "eval_runtime": 220.0038, "eval_samples_per_second": 2.409, "eval_steps_per_second": 2.409, "epoch": 3.2776888482353836, "step": 43000}, {"loss": 0.07164985537528992, "token_acc": 0.9727641072679605, "grad_norm": 1.3887238502502441, "learning_rate": 2.651831711388507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233217, "epoch": 3.2780699748456437, "step": 43005}, {"loss": 0.05299915075302124, "token_acc": 0.9812108559498957, "grad_norm": 0.7943814992904663, "learning_rate": 2.6507746894496777e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233225, "epoch": 3.2784511014559037, "step": 43010}, {"loss": 0.05487884879112244, "token_acc": 0.9774810681546433, "grad_norm": 1.3195894956588745, "learning_rate": 2.649717802228018e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233232, "epoch": 3.2788322280661637, "step": 43015}, {"loss": 0.07814643383026124, "token_acc": 0.973456987527982, "grad_norm": 1.5997304916381836, "learning_rate": 2.6486610497841367e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233241, "epoch": 3.2792133546764237, "step": 43020}, {"loss": 0.03801571130752564, "token_acc": 0.984415139578695, "grad_norm": 0.6714390516281128, "learning_rate": 2.6476044321786318e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233244, "epoch": 3.2795944812866833, "step": 43025}, {"loss": 0.05601094961166382, "token_acc": 0.9778652238071815, "grad_norm": 0.6634875535964966, "learning_rate": 2.646547949472096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233251, "epoch": 3.2799756078969433, "step": 43030}, {"loss": 0.05309295654296875, "token_acc": 0.978008658008658, "grad_norm": 0.5223979353904724, "learning_rate": 2.6454916017251158e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233257, "epoch": 3.2803567345072033, "step": 43035}, {"loss": 0.07242034673690796, "token_acc": 0.9767709291628335, "grad_norm": 1.6771008968353271, "learning_rate": 2.6444353889982642e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233263, "epoch": 3.2807378611174633, "step": 43040}, {"loss": 0.05275624394416809, "token_acc": 0.9781420765027322, "grad_norm": 1.278633952140808, "learning_rate": 2.6433793113521116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233271, "epoch": 3.281118987727723, "step": 43045}, {"loss": 0.06562319993972779, "token_acc": 0.9762005949851253, "grad_norm": 0.5493510961532593, "learning_rate": 2.6423233688472217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233274, "epoch": 3.281500114337983, "step": 43050}, {"loss": 0.052223026752471924, "token_acc": 0.9785262206148282, "grad_norm": 0.8573600649833679, "learning_rate": 2.6412675615441434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233279, "epoch": 3.281881240948243, "step": 43055}, {"loss": 0.0759082317352295, "token_acc": 0.9692099147947327, "grad_norm": 1.6509133577346802, "learning_rate": 2.6402118895034245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233283, "epoch": 3.282262367558503, "step": 43060}, {"loss": 0.07879940271377564, "token_acc": 0.9631929046563192, "grad_norm": 0.8339722156524658, "learning_rate": 2.6391563527856057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233291, "epoch": 3.282643494168763, "step": 43065}, {"loss": 0.052259761095047, "token_acc": 0.9643469317792253, "grad_norm": 1.0828884840011597, "learning_rate": 2.638100951451211e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2333, "epoch": 3.283024620779023, "step": 43070}, {"loss": 0.04365265965461731, "token_acc": 0.9768058316766071, "grad_norm": 0.7441643476486206, "learning_rate": 2.6370456855607673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233305, "epoch": 3.2834057473892826, "step": 43075}, {"loss": 0.0848358154296875, "token_acc": 0.9723456790123457, "grad_norm": 2.9038941860198975, "learning_rate": 2.63599055517479e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233313, "epoch": 3.2837868739995426, "step": 43080}, {"loss": 0.0463539183139801, "token_acc": 0.9849902534113061, "grad_norm": 0.97982257604599, "learning_rate": 2.63493556035378e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233319, "epoch": 3.2841680006098026, "step": 43085}, {"loss": 0.06758823990821838, "token_acc": 0.9730421094057458, "grad_norm": 0.11799737066030502, "learning_rate": 2.6338807011582446e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233325, "epoch": 3.2845491272200626, "step": 43090}, {"loss": 0.07166142463684082, "token_acc": 0.9710655235762401, "grad_norm": 1.0011916160583496, "learning_rate": 2.632825977648668e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233329, "epoch": 3.2849302538303222, "step": 43095}, {"loss": 0.07425054907798767, "token_acc": 0.9689922480620154, "grad_norm": 1.1652113199234009, "learning_rate": 2.6317713898855368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233334, "epoch": 3.2853113804405822, "step": 43100}, {"loss": 0.05553842186927795, "token_acc": 0.9785695151352799, "grad_norm": 1.444705605506897, "learning_rate": 2.630716937929329e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233341, "epoch": 3.2856925070508423, "step": 43105}, {"loss": 0.050655257701873777, "token_acc": 0.9809470124013528, "grad_norm": 0.6072777509689331, "learning_rate": 2.6296626218405073e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233344, "epoch": 3.2860736336611023, "step": 43110}, {"loss": 0.06505702137947082, "token_acc": 0.9766123316796598, "grad_norm": 1.986367106437683, "learning_rate": 2.6286084416795354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233351, "epoch": 3.2864547602713623, "step": 43115}, {"loss": 0.06778401136398315, "token_acc": 0.977907333537895, "grad_norm": 1.9065816402435303, "learning_rate": 2.6275543975068662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233359, "epoch": 3.2868358868816223, "step": 43120}, {"loss": 0.03966890573501587, "token_acc": 0.9859350581698212, "grad_norm": 0.839687168598175, "learning_rate": 2.6265004893829408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233364, "epoch": 3.287217013491882, "step": 43125}, {"loss": 0.08644756078720092, "token_acc": 0.9606379368849678, "grad_norm": 1.4101654291152954, "learning_rate": 2.6254467173682002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233372, "epoch": 3.287598140102142, "step": 43130}, {"loss": 0.06445740461349488, "token_acc": 0.9739696312364425, "grad_norm": 1.2434519529342651, "learning_rate": 2.624393081523069e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233379, "epoch": 3.287979266712402, "step": 43135}, {"loss": 0.09202950596809387, "token_acc": 0.9713558243157224, "grad_norm": 2.1101233959198, "learning_rate": 2.6233395819079703e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233388, "epoch": 3.288360393322662, "step": 43140}, {"loss": 0.06035665869712829, "token_acc": 0.9799679487179487, "grad_norm": 0.9122503399848938, "learning_rate": 2.6222862185833196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233395, "epoch": 3.2887415199329215, "step": 43145}, {"loss": 0.0486588180065155, "token_acc": 0.9794021144732045, "grad_norm": 1.0373295545578003, "learning_rate": 2.6212329916095178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233399, "epoch": 3.2891226465431815, "step": 43150}, {"loss": 0.05163888931274414, "token_acc": 0.9781625533014602, "grad_norm": 1.1227869987487793, "learning_rate": 2.6201799010469664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233404, "epoch": 3.2895037731534416, "step": 43155}, {"loss": 0.06953897476196289, "token_acc": 0.9696663296258847, "grad_norm": 1.6563754081726074, "learning_rate": 2.6191269469560547e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233411, "epoch": 3.2898848997637016, "step": 43160}, {"loss": 0.04076177477836609, "token_acc": 0.9853285137146502, "grad_norm": 0.4903081953525543, "learning_rate": 2.6180741293971628e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233418, "epoch": 3.2902660263739616, "step": 43165}, {"loss": 0.0523238480091095, "token_acc": 0.9791755206119847, "grad_norm": 1.1328871250152588, "learning_rate": 2.6170214484306653e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233422, "epoch": 3.290647152984221, "step": 43170}, {"loss": 0.07925750613212586, "token_acc": 0.9724179283465747, "grad_norm": 1.3890408277511597, "learning_rate": 2.615968904116932e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233426, "epoch": 3.291028279594481, "step": 43175}, {"loss": 0.05045233368873596, "token_acc": 0.9827351203998183, "grad_norm": 1.4719852209091187, "learning_rate": 2.6149164965163166e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233432, "epoch": 3.291409406204741, "step": 43180}, {"loss": 0.032188969850540164, "token_acc": 0.9832369942196532, "grad_norm": 1.1074665784835815, "learning_rate": 2.6138642256891722e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23344, "epoch": 3.2917905328150012, "step": 43185}, {"loss": 0.02745142877101898, "token_acc": 0.9853889127632144, "grad_norm": 0.06933192908763885, "learning_rate": 2.612812091695843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233448, "epoch": 3.2921716594252612, "step": 43190}, {"loss": 0.08856772780418395, "token_acc": 0.9716408856536245, "grad_norm": 0.8318012356758118, "learning_rate": 2.6117600945966608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233452, "epoch": 3.292552786035521, "step": 43195}, {"loss": 0.0589733898639679, "token_acc": 0.9795094226742447, "grad_norm": 1.1519464254379272, "learning_rate": 2.610708234451954e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233455, "epoch": 3.292933912645781, "step": 43200}, {"eval_loss": 0.06555566936731339, "eval_token_acc": 0.9729910848744051, "eval_runtime": 218.1299, "eval_samples_per_second": 2.43, "eval_steps_per_second": 2.43, "epoch": 3.292933912645781, "step": 43200}, {"loss": 0.04675832092761993, "token_acc": 0.9734317130047433, "grad_norm": 1.306340217590332, "learning_rate": 2.609656511322045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233185, "epoch": 3.293315039256041, "step": 43205}, {"loss": 0.07079951763153076, "token_acc": 0.9763202405562864, "grad_norm": 1.379501223564148, "learning_rate": 2.6086049252672396e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23319, "epoch": 3.293696165866301, "step": 43210}, {"loss": 0.0443683922290802, "token_acc": 0.9776526482491642, "grad_norm": 0.8375155329704285, "learning_rate": 2.6075534763478447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233195, "epoch": 3.294077292476561, "step": 43215}, {"loss": 0.12098459005355836, "token_acc": 0.9515850144092219, "grad_norm": 1.8716472387313843, "learning_rate": 2.606502164624156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233203, "epoch": 3.2944584190868205, "step": 43220}, {"loss": 0.07459107637405396, "token_acc": 0.9662162162162162, "grad_norm": 1.555069923400879, "learning_rate": 2.6054509901564607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233212, "epoch": 3.2948395456970805, "step": 43225}, {"loss": 0.044482851028442384, "token_acc": 0.9835620810724545, "grad_norm": 1.3115854263305664, "learning_rate": 2.604399953005041e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233216, "epoch": 3.2952206723073405, "step": 43230}, {"loss": 0.08005259037017823, "token_acc": 0.9717094703049759, "grad_norm": 0.593228280544281, "learning_rate": 2.6033490532301654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233222, "epoch": 3.2956017989176005, "step": 43235}, {"loss": 0.055846214294433594, "token_acc": 0.9850673194614443, "grad_norm": 0.5631779432296753, "learning_rate": 2.6022982908920988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233227, "epoch": 3.2959829255278605, "step": 43240}, {"loss": 0.07757140398025512, "token_acc": 0.9692240052758848, "grad_norm": 1.0380909442901611, "learning_rate": 2.6012476660511013e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233234, "epoch": 3.29636405213812, "step": 43245}, {"loss": 0.07173245549201965, "token_acc": 0.9790849673202614, "grad_norm": 0.9685123562812805, "learning_rate": 2.6001971787674166e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233235, "epoch": 3.29674517874838, "step": 43250}, {"loss": 0.05635181665420532, "token_acc": 0.9789901129943502, "grad_norm": 2.2753586769104004, "learning_rate": 2.5991468291012876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233239, "epoch": 3.29712630535864, "step": 43255}, {"loss": 0.04113634824752808, "token_acc": 0.9793379717478389, "grad_norm": 0.6287574768066406, "learning_rate": 2.598096617112948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233244, "epoch": 3.2975074319689, "step": 43260}, {"loss": 0.07683411836624146, "token_acc": 0.9761207826220921, "grad_norm": 0.3938201069831848, "learning_rate": 2.597046542862619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233247, "epoch": 3.29788855857916, "step": 43265}, {"loss": 0.0613761305809021, "token_acc": 0.974191931846655, "grad_norm": 0.5408012866973877, "learning_rate": 2.59599660641052e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233254, "epoch": 3.2982696851894198, "step": 43270}, {"loss": 0.04948974847793579, "token_acc": 0.978796992481203, "grad_norm": 0.8508277535438538, "learning_rate": 2.594946807816862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233258, "epoch": 3.29865081179968, "step": 43275}, {"loss": 0.05962207317352295, "token_acc": 0.9804921586127757, "grad_norm": 0.41940754652023315, "learning_rate": 2.5938971471418417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233261, "epoch": 3.29903193840994, "step": 43280}, {"loss": 0.059108293056488036, "token_acc": 0.97837122048113, "grad_norm": 1.1734434366226196, "learning_rate": 2.592847624445654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233268, "epoch": 3.2994130650202, "step": 43285}, {"loss": 0.05860029458999634, "token_acc": 0.9783856159143076, "grad_norm": 1.3188318014144897, "learning_rate": 2.5917982397884866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233273, "epoch": 3.2997941916304594, "step": 43290}, {"loss": 0.05869206786155701, "token_acc": 0.9773143066227589, "grad_norm": 0.9537093043327332, "learning_rate": 2.590748993230513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233277, "epoch": 3.3001753182407194, "step": 43295}, {"loss": 0.05696225166320801, "token_acc": 0.98104929051531, "grad_norm": 0.5334658026695251, "learning_rate": 2.589699884831904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233279, "epoch": 3.3005564448509794, "step": 43300}, {"loss": 0.07813243269920349, "token_acc": 0.9738089299077076, "grad_norm": 0.5653412938117981, "learning_rate": 2.588650914652823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233284, "epoch": 3.3009375714612395, "step": 43305}, {"loss": 0.07212315201759338, "token_acc": 0.9771428571428571, "grad_norm": 1.1537421941757202, "learning_rate": 2.5876020827534207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233289, "epoch": 3.3013186980714995, "step": 43310}, {"loss": 0.03707319498062134, "token_acc": 0.984241083771081, "grad_norm": 1.065189003944397, "learning_rate": 2.586553389193846e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233293, "epoch": 3.3016998246817595, "step": 43315}, {"loss": 0.04096525311470032, "token_acc": 0.9840487238979119, "grad_norm": 1.0739792585372925, "learning_rate": 2.5855048340342324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2333, "epoch": 3.302080951292019, "step": 43320}, {"loss": 0.10850030183792114, "token_acc": 0.9724137931034482, "grad_norm": 1.3751819133758545, "learning_rate": 2.5844564173347124e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233306, "epoch": 3.302462077902279, "step": 43325}, {"loss": 0.06470043659210205, "token_acc": 0.9786336059087312, "grad_norm": 0.600742757320404, "learning_rate": 2.5834081391554087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233311, "epoch": 3.302843204512539, "step": 43330}, {"loss": 0.06740909814834595, "token_acc": 0.9738562091503268, "grad_norm": 1.007386565208435, "learning_rate": 2.582359999556433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233314, "epoch": 3.303224331122799, "step": 43335}, {"loss": 0.07285399436950683, "token_acc": 0.9758847478860007, "grad_norm": 0.8662719130516052, "learning_rate": 2.581311998597891e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233321, "epoch": 3.3036054577330587, "step": 43340}, {"loss": 0.06057997941970825, "token_acc": 0.9798829553767374, "grad_norm": 1.238338589668274, "learning_rate": 2.5802641363398837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233327, "epoch": 3.3039865843433187, "step": 43345}, {"loss": 0.06359029412269593, "token_acc": 0.9710620525059666, "grad_norm": 0.5237149596214294, "learning_rate": 2.579216412842498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23333, "epoch": 3.3043677109535787, "step": 43350}, {"loss": 0.053119432926177976, "token_acc": 0.9806900918012029, "grad_norm": 2.287907838821411, "learning_rate": 2.5781688281658172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233333, "epoch": 3.3047488375638387, "step": 43355}, {"loss": 0.06950249671936035, "token_acc": 0.9687947323217865, "grad_norm": 0.8908995389938354, "learning_rate": 2.577121382369915e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233341, "epoch": 3.3051299641740988, "step": 43360}, {"loss": 0.06057101488113403, "token_acc": 0.9773796597900832, "grad_norm": 1.611815333366394, "learning_rate": 2.5760740755148583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233348, "epoch": 3.305511090784359, "step": 43365}, {"loss": 0.05794335603713989, "token_acc": 0.9748618292030665, "grad_norm": 0.7775827646255493, "learning_rate": 2.575026907660707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233352, "epoch": 3.3058922173946184, "step": 43370}, {"loss": 0.048687133193016055, "token_acc": 0.9825119236883942, "grad_norm": 0.530635416507721, "learning_rate": 2.573979878867507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233358, "epoch": 3.3062733440048784, "step": 43375}, {"loss": 0.049078845977783205, "token_acc": 0.9792082027912276, "grad_norm": 1.5021804571151733, "learning_rate": 2.572932989195303e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233365, "epoch": 3.3066544706151384, "step": 43380}, {"loss": 0.03942302763462067, "token_acc": 0.9836588282184137, "grad_norm": 0.9418014883995056, "learning_rate": 2.571886238704131e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233373, "epoch": 3.3070355972253984, "step": 43385}, {"loss": 0.059057211875915526, "token_acc": 0.9816313823163139, "grad_norm": 2.5579335689544678, "learning_rate": 2.5708396274540138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233381, "epoch": 3.307416723835658, "step": 43390}, {"loss": 0.05392873287200928, "token_acc": 0.9806237558062375, "grad_norm": 0.7712226510047913, "learning_rate": 2.5697931555049704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233382, "epoch": 3.307797850445918, "step": 43395}, {"loss": 0.0674196720123291, "token_acc": 0.9765372168284789, "grad_norm": 0.812745988368988, "learning_rate": 2.5687468229170148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233388, "epoch": 3.308178977056178, "step": 43400}, {"eval_loss": 0.06446022540330887, "eval_token_acc": 0.9732245045479188, "eval_runtime": 218.51, "eval_samples_per_second": 2.426, "eval_steps_per_second": 2.426, "epoch": 3.308178977056178, "step": 43400}, {"loss": 0.04314883053302765, "token_acc": 0.9733470813830143, "grad_norm": 0.8570162653923035, "learning_rate": 2.567700629750144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233123, "epoch": 3.308560103666438, "step": 43405}, {"loss": 0.06737207174301148, "token_acc": 0.9742103158736506, "grad_norm": 2.0318408012390137, "learning_rate": 2.566654576064355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233127, "epoch": 3.308941230276698, "step": 43410}, {"loss": 0.05435967445373535, "token_acc": 0.9772030651340996, "grad_norm": 1.230647325515747, "learning_rate": 2.5656086619196363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233132, "epoch": 3.309322356886958, "step": 43415}, {"loss": 0.06132686138153076, "token_acc": 0.9769553072625698, "grad_norm": 1.8972312211990356, "learning_rate": 2.5645628873759616e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233135, "epoch": 3.3097034834972177, "step": 43420}, {"loss": 0.0614313006401062, "token_acc": 0.9772603633989773, "grad_norm": 0.8500514030456543, "learning_rate": 2.5635172524933038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233135, "epoch": 3.3100846101074777, "step": 43425}, {"loss": 0.06796914935112, "token_acc": 0.9776013031969049, "grad_norm": 1.096959114074707, "learning_rate": 2.5624717573316258e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23314, "epoch": 3.3104657367177377, "step": 43430}, {"loss": 0.0526293158531189, "token_acc": 0.9756592292089249, "grad_norm": 1.077849268913269, "learning_rate": 2.5614264019508803e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233144, "epoch": 3.3108468633279977, "step": 43435}, {"loss": 0.06116398572921753, "token_acc": 0.9727534713125491, "grad_norm": 1.8198542594909668, "learning_rate": 2.5603811864110138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233151, "epoch": 3.3112279899382573, "step": 43440}, {"loss": 0.06380571126937866, "token_acc": 0.9816411682892907, "grad_norm": 0.9005258679389954, "learning_rate": 2.559336110771967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23316, "epoch": 3.3116091165485173, "step": 43445}, {"loss": 0.05601559281349182, "token_acc": 0.981694560669456, "grad_norm": 0.8317550420761108, "learning_rate": 2.5582911750936665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23317, "epoch": 3.3119902431587773, "step": 43450}, {"loss": 0.05815284848213196, "token_acc": 0.9714015151515152, "grad_norm": 1.4843950271606445, "learning_rate": 2.5572463794360358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233176, "epoch": 3.3123713697690373, "step": 43455}, {"loss": 0.056556212902069095, "token_acc": 0.9816058861164427, "grad_norm": 0.469039648771286, "learning_rate": 2.556201723858992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23318, "epoch": 3.3127524963792974, "step": 43460}, {"loss": 0.08724916577339173, "token_acc": 0.9674442896935933, "grad_norm": 0.8462313413619995, "learning_rate": 2.5551572084224363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233184, "epoch": 3.313133622989557, "step": 43465}, {"loss": 0.06701802611351013, "token_acc": 0.9760826236637072, "grad_norm": 2.011833906173706, "learning_rate": 2.554112833186269e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23319, "epoch": 3.313514749599817, "step": 43470}, {"loss": 0.07009115815162659, "token_acc": 0.9732163472639114, "grad_norm": 1.0637280941009521, "learning_rate": 2.553068598210383e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233196, "epoch": 3.313895876210077, "step": 43475}, {"loss": 0.06631782650947571, "token_acc": 0.9696428571428571, "grad_norm": 1.1840953826904297, "learning_rate": 2.5520245035546554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233204, "epoch": 3.314277002820337, "step": 43480}, {"loss": 0.056482553482055664, "token_acc": 0.9774514167037531, "grad_norm": 1.1116892099380493, "learning_rate": 2.550980549278964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233207, "epoch": 3.314658129430597, "step": 43485}, {"loss": 0.051216882467269895, "token_acc": 0.9792288894922617, "grad_norm": 0.6869076490402222, "learning_rate": 2.5499367354431702e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23321, "epoch": 3.3150392560408566, "step": 43490}, {"loss": 0.044657614827156064, "token_acc": 0.9763084212793453, "grad_norm": 0.8409478068351746, "learning_rate": 2.5488930621071365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233217, "epoch": 3.3154203826511166, "step": 43495}, {"loss": 0.08092774152755737, "token_acc": 0.973302822273074, "grad_norm": 1.3125985860824585, "learning_rate": 2.547849529330713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233225, "epoch": 3.3158015092613766, "step": 43500}, {"loss": 0.05103256106376648, "token_acc": 0.9829492224095934, "grad_norm": 0.6294171810150146, "learning_rate": 2.5468061371737384e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233227, "epoch": 3.3161826358716366, "step": 43505}, {"loss": 0.053104615211486815, "token_acc": 0.9780192640158064, "grad_norm": 1.7856898307800293, "learning_rate": 2.545762885696047e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233234, "epoch": 3.3165637624818967, "step": 43510}, {"loss": 0.046107977628707886, "token_acc": 0.981372671583948, "grad_norm": 0.7250064611434937, "learning_rate": 2.544719774957467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233238, "epoch": 3.3169448890921562, "step": 43515}, {"loss": 0.0446925550699234, "token_acc": 0.9754283866795991, "grad_norm": 0.6059370636940002, "learning_rate": 2.5436768050178116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233245, "epoch": 3.3173260157024163, "step": 43520}, {"loss": 0.06653455495834351, "token_acc": 0.9708945260347129, "grad_norm": 1.5341695547103882, "learning_rate": 2.5426339759368955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233251, "epoch": 3.3177071423126763, "step": 43525}, {"loss": 0.07075355052947999, "token_acc": 0.9738175675675675, "grad_norm": 0.8813326358795166, "learning_rate": 2.541591287774515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233254, "epoch": 3.3180882689229363, "step": 43530}, {"loss": 0.05609139204025269, "token_acc": 0.9809885931558935, "grad_norm": 1.3796311616897583, "learning_rate": 2.540548740590466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233257, "epoch": 3.3184693955331963, "step": 43535}, {"loss": 0.06280604004859924, "token_acc": 0.9773599386032233, "grad_norm": 1.9510160684585571, "learning_rate": 2.539506334444535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233263, "epoch": 3.318850522143456, "step": 43540}, {"loss": 0.03851305544376373, "token_acc": 0.9832344596337375, "grad_norm": 0.8234132528305054, "learning_rate": 2.5384640693964963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233271, "epoch": 3.319231648753716, "step": 43545}, {"loss": 0.037763357162475586, "token_acc": 0.98430468664252, "grad_norm": 0.7227919101715088, "learning_rate": 2.5374219455061197e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23327, "epoch": 3.319612775363976, "step": 43550}, {"loss": 0.06556554436683655, "token_acc": 0.9763132452465356, "grad_norm": 1.1076167821884155, "learning_rate": 2.5363799628331693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233272, "epoch": 3.319993901974236, "step": 43555}, {"loss": 0.09332822561264038, "token_acc": 0.9721025641025641, "grad_norm": 2.2598764896392822, "learning_rate": 2.5353381214373927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233279, "epoch": 3.320375028584496, "step": 43560}, {"loss": 0.06744717955589294, "token_acc": 0.976939856653163, "grad_norm": 0.7781385779380798, "learning_rate": 2.534296421378538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233286, "epoch": 3.3207561551947555, "step": 43565}, {"loss": 0.054049670696258545, "token_acc": 0.9658081705150977, "grad_norm": 3.371396541595459, "learning_rate": 2.533254862716343e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233295, "epoch": 3.3211372818050156, "step": 43570}, {"loss": 0.08739669919013977, "token_acc": 0.9639123942259831, "grad_norm": 1.1022162437438965, "learning_rate": 2.532213445510533e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233302, "epoch": 3.3215184084152756, "step": 43575}, {"loss": 0.054278111457824706, "token_acc": 0.9728958630527818, "grad_norm": 1.2815632820129395, "learning_rate": 2.531172169820829e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233307, "epoch": 3.3218995350255356, "step": 43580}, {"loss": 0.05037150979042053, "token_acc": 0.9795418527589684, "grad_norm": 0.8798713684082031, "learning_rate": 2.5301310357069475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233309, "epoch": 3.322280661635795, "step": 43585}, {"loss": 0.044535106420516966, "token_acc": 0.9793137016305671, "grad_norm": 1.9138996601104736, "learning_rate": 2.529090043228587e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233314, "epoch": 3.322661788246055, "step": 43590}, {"loss": 0.06682538986206055, "token_acc": 0.9700292397660819, "grad_norm": 1.3547956943511963, "learning_rate": 2.5280491924454457e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233322, "epoch": 3.323042914856315, "step": 43595}, {"loss": 0.050530529022216795, "token_acc": 0.9805208553885243, "grad_norm": 1.511224389076233, "learning_rate": 2.527008483417214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233327, "epoch": 3.323424041466575, "step": 43600}, {"eval_loss": 0.06466751545667648, "eval_token_acc": 0.9741883019095235, "eval_runtime": 219.6808, "eval_samples_per_second": 2.413, "eval_steps_per_second": 2.413, "epoch": 3.323424041466575, "step": 43600}, {"loss": 0.05153728723526001, "token_acc": 0.9745424444584745, "grad_norm": 0.644939124584198, "learning_rate": 2.5259679162035682e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233053, "epoch": 3.3238051680768352, "step": 43605}, {"loss": 0.0776296854019165, "token_acc": 0.9636752136752137, "grad_norm": 1.3360873460769653, "learning_rate": 2.5249274908641812e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23306, "epoch": 3.3241862946870953, "step": 43610}, {"loss": 0.06167711615562439, "token_acc": 0.9751322751322752, "grad_norm": 1.2155892848968506, "learning_rate": 2.523887207458719e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233067, "epoch": 3.324567421297355, "step": 43615}, {"loss": 0.0626868486404419, "token_acc": 0.9670972459176213, "grad_norm": 1.2589771747589111, "learning_rate": 2.5228470660468305e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233075, "epoch": 3.324948547907615, "step": 43620}, {"loss": 0.041295981407165526, "token_acc": 0.9863325740318907, "grad_norm": 0.4537317156791687, "learning_rate": 2.521807066688172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233081, "epoch": 3.325329674517875, "step": 43625}, {"loss": 0.09216393232345581, "token_acc": 0.9686690833764888, "grad_norm": 1.1126576662063599, "learning_rate": 2.5207672094423756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233089, "epoch": 3.325710801128135, "step": 43630}, {"loss": 0.0681134045124054, "token_acc": 0.9817895683453237, "grad_norm": 0.6229046583175659, "learning_rate": 2.5197274943690752e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233096, "epoch": 3.3260919277383945, "step": 43635}, {"loss": 0.03471006155014038, "token_acc": 0.9793250950570342, "grad_norm": 0.3182755410671234, "learning_rate": 2.518687921527894e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233103, "epoch": 3.3264730543486545, "step": 43640}, {"loss": 0.06595907807350158, "token_acc": 0.9788359788359788, "grad_norm": 1.8050720691680908, "learning_rate": 2.517648490978445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233111, "epoch": 3.3268541809589145, "step": 43645}, {"loss": 0.0583000898361206, "token_acc": 0.9747957992998834, "grad_norm": 1.124678611755371, "learning_rate": 2.5166092027803346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233114, "epoch": 3.3272353075691745, "step": 43650}, {"loss": 0.06635286808013915, "token_acc": 0.9694753577106519, "grad_norm": 1.6982529163360596, "learning_rate": 2.5155700569931645e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233123, "epoch": 3.3276164341794345, "step": 43655}, {"loss": 0.04445186853408813, "token_acc": 0.9820333041191937, "grad_norm": 1.554481863975525, "learning_rate": 2.514531053676521e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233132, "epoch": 3.3279975607896946, "step": 43660}, {"loss": 0.06762505769729614, "token_acc": 0.9712844392704696, "grad_norm": 1.8577653169631958, "learning_rate": 2.5134921928899867e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23314, "epoch": 3.328378687399954, "step": 43665}, {"loss": 0.06840322613716125, "token_acc": 0.9751098096632503, "grad_norm": 0.5590760111808777, "learning_rate": 2.5124534746931382e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233146, "epoch": 3.328759814010214, "step": 43670}, {"loss": 0.051205897331237794, "token_acc": 0.97265625, "grad_norm": 0.6067086458206177, "learning_rate": 2.5114148991455384e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233155, "epoch": 3.329140940620474, "step": 43675}, {"loss": 0.06961935758590698, "token_acc": 0.9749689054726368, "grad_norm": 1.2094911336898804, "learning_rate": 2.5103764663067454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233161, "epoch": 3.329522067230734, "step": 43680}, {"loss": 0.05126116871833801, "token_acc": 0.9824538258575198, "grad_norm": 0.9792380928993225, "learning_rate": 2.50933817623631e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233166, "epoch": 3.3299031938409938, "step": 43685}, {"loss": 0.06261124610900878, "token_acc": 0.9779156327543425, "grad_norm": 0.6729854941368103, "learning_rate": 2.5083000289937708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233167, "epoch": 3.3302843204512538, "step": 43690}, {"loss": 0.05964975953102112, "token_acc": 0.9791271347248577, "grad_norm": 0.6824474930763245, "learning_rate": 2.5072620246386637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233175, "epoch": 3.330665447061514, "step": 43695}, {"loss": 0.07836387157440186, "token_acc": 0.9704772475027746, "grad_norm": 1.7649608850479126, "learning_rate": 2.5062241632305095e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23318, "epoch": 3.331046573671774, "step": 43700}, {"loss": 0.049796459078788755, "token_acc": 0.9822603719599428, "grad_norm": 1.373166561126709, "learning_rate": 2.5051864448288275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233183, "epoch": 3.331427700282034, "step": 43705}, {"loss": 0.035978260636329654, "token_acc": 0.9845840605002909, "grad_norm": 0.14401856064796448, "learning_rate": 2.5041488694931276e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23319, "epoch": 3.331808826892294, "step": 43710}, {"loss": 0.06637260913848878, "token_acc": 0.9768734712030243, "grad_norm": 1.4736273288726807, "learning_rate": 2.5031114372829056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233195, "epoch": 3.3321899535025534, "step": 43715}, {"loss": 0.06989907622337341, "token_acc": 0.9763560500695411, "grad_norm": 0.6535669565200806, "learning_rate": 2.502074148257656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233204, "epoch": 3.3325710801128134, "step": 43720}, {"loss": 0.04076791107654572, "token_acc": 0.9864111498257839, "grad_norm": 0.6371797919273376, "learning_rate": 2.5010370024768637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233208, "epoch": 3.3329522067230735, "step": 43725}, {"loss": 0.06601820588111877, "token_acc": 0.9746660525103639, "grad_norm": 1.5498253107070923, "learning_rate": 2.500000000000001e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233217, "epoch": 3.3333333333333335, "step": 43730}, {"loss": 0.040820419788360596, "token_acc": 0.9806691449814127, "grad_norm": 0.5761213898658752, "learning_rate": 2.4989631408865372e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233221, "epoch": 3.333714459943593, "step": 43735}, {"loss": 0.04720512926578522, "token_acc": 0.9809791082008107, "grad_norm": 1.5061615705490112, "learning_rate": 2.4979264251959323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233228, "epoch": 3.334095586553853, "step": 43740}, {"loss": 0.049436911940574646, "token_acc": 0.983424336973479, "grad_norm": 0.8082138299942017, "learning_rate": 2.4968898529876343e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233233, "epoch": 3.334476713164113, "step": 43745}, {"loss": 0.0780949592590332, "token_acc": 0.9708881883923605, "grad_norm": 1.275333046913147, "learning_rate": 2.4958534243210875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233238, "epoch": 3.334857839774373, "step": 43750}, {"loss": 0.08842989206314086, "token_acc": 0.9711286089238845, "grad_norm": 1.8342673778533936, "learning_rate": 2.4948171392557264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233245, "epoch": 3.335238966384633, "step": 43755}, {"loss": 0.060745644569396975, "token_acc": 0.9733475479744137, "grad_norm": 0.925440788269043, "learning_rate": 2.4937809978509762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233251, "epoch": 3.335620092994893, "step": 43760}, {"loss": 0.06560834646224975, "token_acc": 0.9685752330226365, "grad_norm": 0.919176459312439, "learning_rate": 2.4927450001662578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233252, "epoch": 3.3360012196051527, "step": 43765}, {"loss": 0.061206763982772826, "token_acc": 0.9792511328404484, "grad_norm": 0.5483986735343933, "learning_rate": 2.4917091462609766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233258, "epoch": 3.3363823462154127, "step": 43770}, {"loss": 0.04695393443107605, "token_acc": 0.9817733990147783, "grad_norm": 1.5045193433761597, "learning_rate": 2.490673436194536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233263, "epoch": 3.3367634728256728, "step": 43775}, {"loss": 0.0520973801612854, "token_acc": 0.9780181437543615, "grad_norm": 1.1470825672149658, "learning_rate": 2.489637870026331e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23327, "epoch": 3.337144599435933, "step": 43780}, {"loss": 0.08785345554351806, "token_acc": 0.9741460357254779, "grad_norm": 1.266113042831421, "learning_rate": 2.4886024478157428e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233274, "epoch": 3.3375257260461924, "step": 43785}, {"loss": 0.05536339282989502, "token_acc": 0.9774627408215194, "grad_norm": 2.385178804397583, "learning_rate": 2.4875671696221496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233278, "epoch": 3.3379068526564524, "step": 43790}, {"loss": 0.05363719463348389, "token_acc": 0.9811912225705329, "grad_norm": 1.0440956354141235, "learning_rate": 2.4865320355049227e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23328, "epoch": 3.3382879792667124, "step": 43795}, {"loss": 0.04497693777084351, "token_acc": 0.9807174887892377, "grad_norm": 0.24311289191246033, "learning_rate": 2.485497045523417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233289, "epoch": 3.3386691058769724, "step": 43800}, {"eval_loss": 0.06455516070127487, "eval_token_acc": 0.9738419372326969, "eval_runtime": 219.0885, "eval_samples_per_second": 2.419, "eval_steps_per_second": 2.419, "epoch": 3.3386691058769724, "step": 43800}, {"loss": 0.08300713896751404, "token_acc": 0.9737081613187422, "grad_norm": 1.2025376558303833, "learning_rate": 2.4844621997369877e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233022, "epoch": 3.3390502324872324, "step": 43805}, {"loss": 0.04550257921218872, "token_acc": 0.9825441850316387, "grad_norm": 0.6402226686477661, "learning_rate": 2.483427498204979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233028, "epoch": 3.339431359097492, "step": 43810}, {"loss": 0.05181613564491272, "token_acc": 0.9828945411274729, "grad_norm": 0.9381176233291626, "learning_rate": 2.4823929409867236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233031, "epoch": 3.339812485707752, "step": 43815}, {"loss": 0.08114227056503295, "token_acc": 0.9712115860120099, "grad_norm": 1.7082713842391968, "learning_rate": 2.4813585281415497e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233035, "epoch": 3.340193612318012, "step": 43820}, {"loss": 0.05699493288993836, "token_acc": 0.9744801512287334, "grad_norm": 1.5848287343978882, "learning_rate": 2.4803242597287778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233043, "epoch": 3.340574738928272, "step": 43825}, {"loss": 0.07841584086418152, "token_acc": 0.9766601833842734, "grad_norm": 1.319579839706421, "learning_rate": 2.4792901358077158e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23305, "epoch": 3.340955865538532, "step": 43830}, {"loss": 0.032730591297149655, "token_acc": 0.9812738853503185, "grad_norm": 0.6124122142791748, "learning_rate": 2.4782561564376666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233052, "epoch": 3.3413369921487917, "step": 43835}, {"loss": 0.06582072973251343, "token_acc": 0.970780993992354, "grad_norm": 0.9673547148704529, "learning_rate": 2.477222321677926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233059, "epoch": 3.3417181187590517, "step": 43840}, {"loss": 0.04536490738391876, "token_acc": 0.9828478083310646, "grad_norm": 1.5894330739974976, "learning_rate": 2.4761886315877762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233067, "epoch": 3.3420992453693117, "step": 43845}, {"loss": 0.06523984670639038, "token_acc": 0.9682937956204379, "grad_norm": 0.10198890417814255, "learning_rate": 2.4751550862264973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233074, "epoch": 3.3424803719795717, "step": 43850}, {"loss": 0.058815276622772215, "token_acc": 0.9795617361989043, "grad_norm": 1.8042820692062378, "learning_rate": 2.4741216856533587e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233078, "epoch": 3.3428614985898317, "step": 43855}, {"loss": 0.06321935653686524, "token_acc": 0.9771487542385375, "grad_norm": 1.149338722229004, "learning_rate": 2.4730884299276185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233081, "epoch": 3.3432426252000913, "step": 43860}, {"loss": 0.05889768600463867, "token_acc": 0.9737724916132967, "grad_norm": 0.9939195513725281, "learning_rate": 2.47205531910853e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233088, "epoch": 3.3436237518103513, "step": 43865}, {"loss": 0.12778213024139404, "token_acc": 0.9476942123181678, "grad_norm": 4.7021870613098145, "learning_rate": 2.47102235325534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233095, "epoch": 3.3440048784206113, "step": 43870}, {"loss": 0.06970478296279907, "token_acc": 0.9732685297691372, "grad_norm": 1.4087525606155396, "learning_rate": 2.4699895324272805e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233105, "epoch": 3.3443860050308714, "step": 43875}, {"loss": 0.051277446746826175, "token_acc": 0.9765912677538138, "grad_norm": 0.9756368398666382, "learning_rate": 2.4689568566835825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233113, "epoch": 3.3447671316411314, "step": 43880}, {"loss": 0.07531914710998536, "token_acc": 0.9674067076051016, "grad_norm": 0.9426102638244629, "learning_rate": 2.467924326083461e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233115, "epoch": 3.345148258251391, "step": 43885}, {"loss": 0.06596051454544068, "token_acc": 0.9757437684266953, "grad_norm": 0.6925322413444519, "learning_rate": 2.4668919406861274e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23312, "epoch": 3.345529384861651, "step": 43890}, {"loss": 0.055578690767288205, "token_acc": 0.9760694968038026, "grad_norm": 1.156816005706787, "learning_rate": 2.46585970055079e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233126, "epoch": 3.345910511471911, "step": 43895}, {"loss": 0.05713763236999512, "token_acc": 0.981371231035145, "grad_norm": 1.7518346309661865, "learning_rate": 2.4648276057366364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233132, "epoch": 3.346291638082171, "step": 43900}, {"loss": 0.05599833726882934, "token_acc": 0.9818529130850048, "grad_norm": 1.5152511596679688, "learning_rate": 2.4637956563028553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233139, "epoch": 3.346672764692431, "step": 43905}, {"loss": 0.06549359560012817, "token_acc": 0.9740717029449424, "grad_norm": 0.5966803431510925, "learning_rate": 2.462763852308626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233147, "epoch": 3.3470538913026906, "step": 43910}, {"loss": 0.05900737047195435, "token_acc": 0.9774281805745554, "grad_norm": 2.56820011138916, "learning_rate": 2.4617321938131137e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233151, "epoch": 3.3474350179129506, "step": 43915}, {"loss": 0.054902517795562746, "token_acc": 0.9818181818181818, "grad_norm": 0.8917888402938843, "learning_rate": 2.460700680875483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233157, "epoch": 3.3478161445232106, "step": 43920}, {"loss": 0.05599033236503601, "token_acc": 0.9743497757847533, "grad_norm": 1.3632572889328003, "learning_rate": 2.459669313554882e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233163, "epoch": 3.3481972711334707, "step": 43925}, {"loss": 0.04724599719047547, "token_acc": 0.9778704297626684, "grad_norm": 1.5159212350845337, "learning_rate": 2.458638091910458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23317, "epoch": 3.3485783977437302, "step": 43930}, {"loss": 0.0532284140586853, "token_acc": 0.9757623143080532, "grad_norm": 1.1915700435638428, "learning_rate": 2.4576070160013477e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233175, "epoch": 3.3489595243539902, "step": 43935}, {"loss": 0.08379313945770264, "token_acc": 0.9747245625405055, "grad_norm": 2.301565170288086, "learning_rate": 2.4565760858866745e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23318, "epoch": 3.3493406509642503, "step": 43940}, {"loss": 0.08312181830406189, "token_acc": 0.9655963302752294, "grad_norm": 1.1230695247650146, "learning_rate": 2.4555453016255603e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233181, "epoch": 3.3497217775745103, "step": 43945}, {"loss": 0.03673867881298065, "token_acc": 0.9789951268694337, "grad_norm": 0.053981512784957886, "learning_rate": 2.454514663277117e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233187, "epoch": 3.3501029041847703, "step": 43950}, {"loss": 0.040092259645462036, "token_acc": 0.9821098087600246, "grad_norm": 1.3009376525878906, "learning_rate": 2.4534841709004436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233194, "epoch": 3.3504840307950303, "step": 43955}, {"loss": 0.04388972222805023, "token_acc": 0.9778051787916153, "grad_norm": 0.7206600904464722, "learning_rate": 2.4524538245546357e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233198, "epoch": 3.35086515740529, "step": 43960}, {"loss": 0.061567765474319455, "token_acc": 0.9660112359550562, "grad_norm": 1.75179922580719, "learning_rate": 2.4514236242987808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233206, "epoch": 3.35124628401555, "step": 43965}, {"loss": 0.040321967005729674, "token_acc": 0.9861224489795918, "grad_norm": 0.9129390716552734, "learning_rate": 2.4503935701919524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233208, "epoch": 3.35162741062581, "step": 43970}, {"loss": 0.059191399812698366, "token_acc": 0.9771829749890303, "grad_norm": 0.6605785489082336, "learning_rate": 2.4493636622932208e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233217, "epoch": 3.35200853723607, "step": 43975}, {"loss": 0.06732171177864074, "token_acc": 0.9726520331054336, "grad_norm": 0.7959014177322388, "learning_rate": 2.448333900661649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233223, "epoch": 3.3523896638463295, "step": 43980}, {"loss": 0.06435588002204895, "token_acc": 0.975882558545963, "grad_norm": 0.7398163080215454, "learning_rate": 2.447304285356285e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233231, "epoch": 3.3527707904565895, "step": 43985}, {"loss": 0.0635388195514679, "token_acc": 0.9767640526225867, "grad_norm": 0.6480658650398254, "learning_rate": 2.4462748164361743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233236, "epoch": 3.3531519170668496, "step": 43990}, {"loss": 0.05610812902450561, "token_acc": 0.9802955665024631, "grad_norm": 1.9184963703155518, "learning_rate": 2.4452454939603536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233246, "epoch": 3.3535330436771096, "step": 43995}, {"loss": 0.049541366100311277, "token_acc": 0.9808856926570779, "grad_norm": 0.8690956234931946, "learning_rate": 2.4442163179878468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233251, "epoch": 3.3539141702873696, "step": 44000}, {"eval_loss": 0.0641208291053772, "eval_token_acc": 0.9739247635684597, "eval_runtime": 219.9004, "eval_samples_per_second": 2.41, "eval_steps_per_second": 2.41, "epoch": 3.3539141702873696, "step": 44000}, {"loss": 0.06798668503761292, "token_acc": 0.9738963052214736, "grad_norm": 2.7612063884735107, "learning_rate": 2.4431872885776735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232986, "epoch": 3.3542952968976296, "step": 44005}, {"loss": 0.06509630680084229, "token_acc": 0.9722135007849294, "grad_norm": 0.7698947191238403, "learning_rate": 2.4421584057888464e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23299, "epoch": 3.354676423507889, "step": 44010}, {"loss": 0.05350332260131836, "token_acc": 0.9818941504178273, "grad_norm": 0.890510082244873, "learning_rate": 2.441129669680363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232992, "epoch": 3.355057550118149, "step": 44015}, {"loss": 0.057432925701141356, "token_acc": 0.9717532467532467, "grad_norm": 1.143143892288208, "learning_rate": 2.4401010803112185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233, "epoch": 3.3554386767284092, "step": 44020}, {"loss": 0.08503876924514771, "token_acc": 0.9662146632957941, "grad_norm": 1.5885876417160034, "learning_rate": 2.439072637740397e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233007, "epoch": 3.3558198033386692, "step": 44025}, {"loss": 0.03536791205406189, "token_acc": 0.9831291888144211, "grad_norm": 1.3217629194259644, "learning_rate": 2.4380443420268762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233013, "epoch": 3.356200929948929, "step": 44030}, {"loss": 0.07088247537612916, "token_acc": 0.9761339662447257, "grad_norm": 1.4449936151504517, "learning_rate": 2.4370161932296255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233016, "epoch": 3.356582056559189, "step": 44035}, {"loss": 0.0628083348274231, "token_acc": 0.969220475075276, "grad_norm": 1.4985376596450806, "learning_rate": 2.4359881914076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233023, "epoch": 3.356963183169449, "step": 44040}, {"loss": 0.055997252464294434, "token_acc": 0.9791870372957117, "grad_norm": 0.505158007144928, "learning_rate": 2.4349603366197533e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233026, "epoch": 3.357344309779709, "step": 44045}, {"loss": 0.04296434819698334, "token_acc": 0.9802990325417766, "grad_norm": 0.823479175567627, "learning_rate": 2.4339326289250303e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233031, "epoch": 3.357725436389969, "step": 44050}, {"loss": 0.07562910318374634, "token_acc": 0.9578721885041057, "grad_norm": 0.8842217922210693, "learning_rate": 2.4329050683823607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233039, "epoch": 3.358106563000229, "step": 44055}, {"loss": 0.049786347150802615, "token_acc": 0.9859555555555556, "grad_norm": 0.40543967485427856, "learning_rate": 2.431877655050673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233044, "epoch": 3.3584876896104885, "step": 44060}, {"loss": 0.07160642743110657, "token_acc": 0.9768583450210379, "grad_norm": 1.4748872518539429, "learning_rate": 2.430850388988886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233047, "epoch": 3.3588688162207485, "step": 44065}, {"loss": 0.05800718665122986, "token_acc": 0.9756055953599454, "grad_norm": 1.589954137802124, "learning_rate": 2.429823270255905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233052, "epoch": 3.3592499428310085, "step": 44070}, {"loss": 0.06516411304473876, "token_acc": 0.971699604743083, "grad_norm": 1.0199363231658936, "learning_rate": 2.4287962989106327e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233058, "epoch": 3.3596310694412685, "step": 44075}, {"loss": 0.07612704038619995, "token_acc": 0.9848853370396108, "grad_norm": 0.8284401893615723, "learning_rate": 2.427769475011962e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233061, "epoch": 3.360012196051528, "step": 44080}, {"loss": 0.040493893623352054, "token_acc": 0.9844164456233422, "grad_norm": 1.637305498123169, "learning_rate": 2.426742798618774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233069, "epoch": 3.360393322661788, "step": 44085}, {"loss": 0.038423779606819156, "token_acc": 0.9804956402019275, "grad_norm": 0.9701366424560547, "learning_rate": 2.4257162697899466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233076, "epoch": 3.360774449272048, "step": 44090}, {"loss": 0.049733692407608034, "token_acc": 0.9767744332961724, "grad_norm": 1.2129161357879639, "learning_rate": 2.424689888584344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233083, "epoch": 3.361155575882308, "step": 44095}, {"loss": 0.05670593380928039, "token_acc": 0.9710460772104608, "grad_norm": 1.0093894004821777, "learning_rate": 2.4236636550608244e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23309, "epoch": 3.361536702492568, "step": 44100}, {"loss": 0.09026939868927002, "token_acc": 0.9615223755750731, "grad_norm": 1.3244441747665405, "learning_rate": 2.4226375692782404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233095, "epoch": 3.3619178291028278, "step": 44105}, {"loss": 0.04120635986328125, "token_acc": 0.9817100044072279, "grad_norm": 0.5751805901527405, "learning_rate": 2.42161163129543e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233101, "epoch": 3.362298955713088, "step": 44110}, {"loss": 0.04508569836616516, "token_acc": 0.9821490268340435, "grad_norm": 0.4790802597999573, "learning_rate": 2.4205858411712273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233102, "epoch": 3.362680082323348, "step": 44115}, {"loss": 0.04757298529148102, "token_acc": 0.9741326216382673, "grad_norm": 0.9648776054382324, "learning_rate": 2.4195601989644583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233109, "epoch": 3.363061208933608, "step": 44120}, {"loss": 0.04893730282783508, "token_acc": 0.9796817625458997, "grad_norm": 1.3644541501998901, "learning_rate": 2.4185347047339356e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233116, "epoch": 3.363442335543868, "step": 44125}, {"loss": 0.04947633445262909, "token_acc": 0.9790098436595251, "grad_norm": 1.0198274850845337, "learning_rate": 2.417509358538468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233118, "epoch": 3.3638234621541274, "step": 44130}, {"loss": 0.07878044247627258, "token_acc": 0.9683597002497918, "grad_norm": 1.2192336320877075, "learning_rate": 2.416484160436856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233126, "epoch": 3.3642045887643874, "step": 44135}, {"loss": 0.07246209979057312, "token_acc": 0.9737939249553306, "grad_norm": 1.2690094709396362, "learning_rate": 2.415459110487887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233132, "epoch": 3.3645857153746475, "step": 44140}, {"loss": 0.041126078367233275, "token_acc": 0.9823505267478452, "grad_norm": 0.7593148946762085, "learning_rate": 2.414434208750344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233132, "epoch": 3.3649668419849075, "step": 44145}, {"loss": 0.06483138203620911, "token_acc": 0.974955729825449, "grad_norm": 0.5682486891746521, "learning_rate": 2.413409455283003e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233136, "epoch": 3.3653479685951675, "step": 44150}, {"loss": 0.06908537149429321, "token_acc": 0.9738276990185387, "grad_norm": 2.1568024158477783, "learning_rate": 2.412384850144622e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233145, "epoch": 3.365729095205427, "step": 44155}, {"loss": 0.03600887060165405, "token_acc": 0.977892621303474, "grad_norm": 0.8953927755355835, "learning_rate": 2.411360393393966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233153, "epoch": 3.366110221815687, "step": 44160}, {"loss": 0.04886245131492615, "token_acc": 0.9808743169398907, "grad_norm": 2.8665616512298584, "learning_rate": 2.4103360850897773e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233161, "epoch": 3.366491348425947, "step": 44165}, {"loss": 0.048656615614891055, "token_acc": 0.9839242788461539, "grad_norm": 0.6728200912475586, "learning_rate": 2.4093119252907958e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233163, "epoch": 3.366872475036207, "step": 44170}, {"loss": 0.06595627665519714, "token_acc": 0.9753886010362695, "grad_norm": 1.1258678436279297, "learning_rate": 2.408287914055755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23317, "epoch": 3.367253601646467, "step": 44175}, {"loss": 0.11055407524108887, "token_acc": 0.9563586771224003, "grad_norm": 2.0387094020843506, "learning_rate": 2.407264051443374e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233177, "epoch": 3.3676347282567267, "step": 44180}, {"loss": 0.05765061974525452, "token_acc": 0.9784463403682083, "grad_norm": 1.042396068572998, "learning_rate": 2.4062403375123676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233186, "epoch": 3.3680158548669867, "step": 44185}, {"loss": 0.04889840483665466, "token_acc": 0.9818481848184818, "grad_norm": 1.14240562915802, "learning_rate": 2.405216772321443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233191, "epoch": 3.3683969814772468, "step": 44190}, {"loss": 0.06059239506721496, "token_acc": 0.9804798698657992, "grad_norm": 1.8351939916610718, "learning_rate": 2.404193355929294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233196, "epoch": 3.3687781080875068, "step": 44195}, {"loss": 0.03774245381355286, "token_acc": 0.9772459788152217, "grad_norm": 0.1520765721797943, "learning_rate": 2.4031700883946097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233204, "epoch": 3.369159234697767, "step": 44200}, {"eval_loss": 0.06408892571926117, "eval_token_acc": 0.9735859285585206, "eval_runtime": 220.4716, "eval_samples_per_second": 2.404, "eval_steps_per_second": 2.404, "epoch": 3.369159234697767, "step": 44200}, {"loss": 0.06829191446304321, "token_acc": 0.9736034825289237, "grad_norm": 1.700217604637146, "learning_rate": 2.402146969776072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232939, "epoch": 3.3695403613080264, "step": 44205}, {"loss": 0.05858136415481567, "token_acc": 0.9777562862669246, "grad_norm": 0.7346890568733215, "learning_rate": 2.4011240001323476e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232942, "epoch": 3.3699214879182864, "step": 44210}, {"loss": 0.05694189667701721, "token_acc": 0.9747093023255814, "grad_norm": 0.6547887325286865, "learning_rate": 2.4001011795221022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232945, "epoch": 3.3703026145285464, "step": 44215}, {"loss": 0.07741057872772217, "token_acc": 0.9734939759036144, "grad_norm": 0.5810291171073914, "learning_rate": 2.3990785080039907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232952, "epoch": 3.3706837411388064, "step": 44220}, {"loss": 0.09234346151351928, "token_acc": 0.953625081645983, "grad_norm": 1.0284430980682373, "learning_rate": 2.3980559856366552e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232958, "epoch": 3.371064867749066, "step": 44225}, {"loss": 0.05481499433517456, "token_acc": 0.977871786527823, "grad_norm": 1.5088107585906982, "learning_rate": 2.3970336124787345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232966, "epoch": 3.371445994359326, "step": 44230}, {"loss": 0.057309466600418094, "token_acc": 0.9788091068301226, "grad_norm": 0.9391525983810425, "learning_rate": 2.396011388588859e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23297, "epoch": 3.371827120969586, "step": 44235}, {"loss": 0.038518857955932614, "token_acc": 0.9835381405054486, "grad_norm": 1.015039324760437, "learning_rate": 2.3949893140256442e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232976, "epoch": 3.372208247579846, "step": 44240}, {"loss": 0.05093239545822144, "token_acc": 0.9800115041702617, "grad_norm": 1.1808701753616333, "learning_rate": 2.3939673888477033e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23298, "epoch": 3.372589374190106, "step": 44245}, {"loss": 0.0771709680557251, "token_acc": 0.9698705707617229, "grad_norm": 1.8549648523330688, "learning_rate": 2.3929456131136413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232986, "epoch": 3.372970500800366, "step": 44250}, {"loss": 0.07730629444122314, "token_acc": 0.9627064464571125, "grad_norm": 0.854964554309845, "learning_rate": 2.3919239868820488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232995, "epoch": 3.3733516274106257, "step": 44255}, {"loss": 0.038231202960014345, "token_acc": 0.9803050782004248, "grad_norm": 0.8983915448188782, "learning_rate": 2.390902510211514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232999, "epoch": 3.3737327540208857, "step": 44260}, {"loss": 0.05808987021446228, "token_acc": 0.9792494481236204, "grad_norm": 0.8731570243835449, "learning_rate": 2.3898811831606105e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233006, "epoch": 3.3741138806311457, "step": 44265}, {"loss": 0.07657701969146728, "token_acc": 0.9704268292682927, "grad_norm": 1.7751328945159912, "learning_rate": 2.388860005787909e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233014, "epoch": 3.3744950072414057, "step": 44270}, {"loss": 0.10320591926574707, "token_acc": 0.9769230769230769, "grad_norm": 1.0858352184295654, "learning_rate": 2.387838978151971e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23302, "epoch": 3.3748761338516653, "step": 44275}, {"loss": 0.07092752456665039, "token_acc": 0.9658561821003622, "grad_norm": 1.4126191139221191, "learning_rate": 2.3868181003113437e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233026, "epoch": 3.3752572604619253, "step": 44280}, {"loss": 0.07554703950881958, "token_acc": 0.9714943342776204, "grad_norm": 1.0985511541366577, "learning_rate": 2.3857973723245713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233032, "epoch": 3.3756383870721853, "step": 44285}, {"loss": 0.06717325448989868, "token_acc": 0.967930029154519, "grad_norm": 0.8714030385017395, "learning_rate": 2.384776794250189e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23304, "epoch": 3.3760195136824453, "step": 44290}, {"loss": 0.061321109533309937, "token_acc": 0.9774297558728696, "grad_norm": 0.5048011541366577, "learning_rate": 2.383756366146721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233045, "epoch": 3.3764006402927054, "step": 44295}, {"loss": 0.03653908371925354, "token_acc": 0.9810204081632653, "grad_norm": 0.4765639901161194, "learning_rate": 2.3827360880726846e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233051, "epoch": 3.3767817669029654, "step": 44300}, {"loss": 0.04256724417209625, "token_acc": 0.9799511002444988, "grad_norm": 1.22962486743927, "learning_rate": 2.3817159600865895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233058, "epoch": 3.377162893513225, "step": 44305}, {"loss": 0.06137362718582153, "token_acc": 0.9686366545764882, "grad_norm": 0.23830270767211914, "learning_rate": 2.3806959822469326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233064, "epoch": 3.377544020123485, "step": 44310}, {"loss": 0.07580691576004028, "token_acc": 0.9746967795901297, "grad_norm": 1.6633967161178589, "learning_rate": 2.3796761546122076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233068, "epoch": 3.377925146733745, "step": 44315}, {"loss": 0.08400588035583496, "token_acc": 0.9582863585118376, "grad_norm": 1.3423500061035156, "learning_rate": 2.378656477240893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233076, "epoch": 3.378306273344005, "step": 44320}, {"loss": 0.060811054706573484, "token_acc": 0.9693593314763231, "grad_norm": 1.6682664155960083, "learning_rate": 2.3776369501914652e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233083, "epoch": 3.3786873999542646, "step": 44325}, {"loss": 0.05179721713066101, "token_acc": 0.9758675356702484, "grad_norm": 0.8014829158782959, "learning_rate": 2.376617573522392e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233088, "epoch": 3.3790685265645246, "step": 44330}, {"loss": 0.05385288000106812, "token_acc": 0.9801496411665903, "grad_norm": 1.2506321668624878, "learning_rate": 2.3755983472921233e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233092, "epoch": 3.3794496531747846, "step": 44335}, {"loss": 0.04675308167934418, "token_acc": 0.98080531101169, "grad_norm": 0.7814849615097046, "learning_rate": 2.374579271559112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233096, "epoch": 3.3798307797850446, "step": 44340}, {"loss": 0.05378847122192383, "token_acc": 0.9711668014012396, "grad_norm": 0.940844714641571, "learning_rate": 2.3735603463817974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233103, "epoch": 3.3802119063953047, "step": 44345}, {"loss": 0.07434041500091552, "token_acc": 0.9719383336220336, "grad_norm": 1.644495964050293, "learning_rate": 2.3725415718186066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233107, "epoch": 3.3805930330055647, "step": 44350}, {"loss": 0.060552734136581424, "token_acc": 0.9777846343721074, "grad_norm": 1.661731481552124, "learning_rate": 2.3715229479279643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233115, "epoch": 3.3809741596158243, "step": 44355}, {"loss": 0.0710341453552246, "token_acc": 0.9756055061857466, "grad_norm": 0.6413809657096863, "learning_rate": 2.3705044747682848e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23312, "epoch": 3.3813552862260843, "step": 44360}, {"loss": 0.051879340410232545, "token_acc": 0.9697278911564626, "grad_norm": 1.5539230108261108, "learning_rate": 2.36948615239797e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233127, "epoch": 3.3817364128363443, "step": 44365}, {"loss": 0.04319285750389099, "token_acc": 0.9829358552631579, "grad_norm": 1.1427555084228516, "learning_rate": 2.368467980875417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233133, "epoch": 3.3821175394466043, "step": 44370}, {"loss": 0.06274941563606262, "token_acc": 0.9696880517951736, "grad_norm": 1.2070260047912598, "learning_rate": 2.367449960259015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23314, "epoch": 3.382498666056864, "step": 44375}, {"loss": 0.04153009951114654, "token_acc": 0.9817272552413926, "grad_norm": 0.9306278228759766, "learning_rate": 2.3664320906071396e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233145, "epoch": 3.382879792667124, "step": 44380}, {"loss": 0.07101226449012757, "token_acc": 0.9673260724605468, "grad_norm": 1.7035466432571411, "learning_rate": 2.3654143719781624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23315, "epoch": 3.383260919277384, "step": 44385}, {"loss": 0.019391766190528868, "token_acc": 0.9932918064206996, "grad_norm": 0.5381147265434265, "learning_rate": 2.364396804430447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23316, "epoch": 3.383642045887644, "step": 44390}, {"loss": 0.059366679191589354, "token_acc": 0.9758564437194127, "grad_norm": 1.138839840888977, "learning_rate": 2.3633793880223427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233167, "epoch": 3.384023172497904, "step": 44395}, {"loss": 0.0722284734249115, "token_acc": 0.9767841788478074, "grad_norm": 4.064382076263428, "learning_rate": 2.362362122812195e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233167, "epoch": 3.3844042991081635, "step": 44400}, {"eval_loss": 0.06438811123371124, "eval_token_acc": 0.973367568218782, "eval_runtime": 219.0412, "eval_samples_per_second": 2.42, "eval_steps_per_second": 2.42, "epoch": 3.3844042991081635, "step": 44400}, {"loss": 0.05603752732276916, "token_acc": 0.9735083375331419, "grad_norm": 0.6649875640869141, "learning_rate": 2.361345008858341e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232906, "epoch": 3.3847854257184236, "step": 44405}, {"loss": 0.053580445051193235, "token_acc": 0.9830335934848999, "grad_norm": 0.6038417220115662, "learning_rate": 2.360328046219104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232913, "epoch": 3.3851665523286836, "step": 44410}, {"loss": 0.05416521430015564, "token_acc": 0.9803921568627451, "grad_norm": 0.7689390182495117, "learning_rate": 2.359311234952804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232918, "epoch": 3.3855476789389436, "step": 44415}, {"loss": 0.05461370348930359, "token_acc": 0.9790059982862039, "grad_norm": 1.3844144344329834, "learning_rate": 2.3582945751177522e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232923, "epoch": 3.3859288055492036, "step": 44420}, {"loss": 0.03764788508415222, "token_acc": 0.9779302117506711, "grad_norm": 1.824751853942871, "learning_rate": 2.357278066772244e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23293, "epoch": 3.386309932159463, "step": 44425}, {"loss": 0.07451211810111999, "token_acc": 0.9700570342205324, "grad_norm": 1.689367651939392, "learning_rate": 2.3562617099745787e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232935, "epoch": 3.386691058769723, "step": 44430}, {"loss": 0.04728330373764038, "token_acc": 0.9817843096667357, "grad_norm": 1.4828636646270752, "learning_rate": 2.3552455047830337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23294, "epoch": 3.3870721853799832, "step": 44435}, {"loss": 0.07907824516296387, "token_acc": 0.9786614936954413, "grad_norm": 1.3174493312835693, "learning_rate": 2.354229451255886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232947, "epoch": 3.3874533119902432, "step": 44440}, {"loss": 0.07729455232620239, "token_acc": 0.9800386349001932, "grad_norm": 2.8016281127929688, "learning_rate": 2.3532135494514034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232951, "epoch": 3.3878344386005033, "step": 44445}, {"loss": 0.0666947066783905, "token_acc": 0.9727235438884332, "grad_norm": 1.230957269668579, "learning_rate": 2.3521977994278393e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232955, "epoch": 3.388215565210763, "step": 44450}, {"loss": 0.0478197306394577, "token_acc": 0.9793008279668813, "grad_norm": 1.1610887050628662, "learning_rate": 2.3511822012434438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23296, "epoch": 3.388596691821023, "step": 44455}, {"loss": 0.037169459462165835, "token_acc": 0.9853128991060025, "grad_norm": 0.6149753332138062, "learning_rate": 2.3501667549564594e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232962, "epoch": 3.388977818431283, "step": 44460}, {"loss": 0.046656680107116696, "token_acc": 0.9807764794572182, "grad_norm": 1.625767707824707, "learning_rate": 2.3491514606251125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232967, "epoch": 3.389358945041543, "step": 44465}, {"loss": 0.05168574452400208, "token_acc": 0.9795471945750848, "grad_norm": 0.43805819749832153, "learning_rate": 2.3481363183076275e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232968, "epoch": 3.389740071651803, "step": 44470}, {"loss": 0.07009706497192383, "token_acc": 0.9712021941185434, "grad_norm": 1.2422552108764648, "learning_rate": 2.347121328062221e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232973, "epoch": 3.3901211982620625, "step": 44475}, {"loss": 0.05807647705078125, "token_acc": 0.9796278158667973, "grad_norm": 1.927981972694397, "learning_rate": 2.346106489947094e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23298, "epoch": 3.3905023248723225, "step": 44480}, {"loss": 0.0405582070350647, "token_acc": 0.9836617011052379, "grad_norm": 1.162038803100586, "learning_rate": 2.3450918040204455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232986, "epoch": 3.3908834514825825, "step": 44485}, {"loss": 0.09555755257606506, "token_acc": 0.9676239253704042, "grad_norm": 1.7091064453125, "learning_rate": 2.34407727034046e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232991, "epoch": 3.3912645780928425, "step": 44490}, {"loss": 0.031143051385879517, "token_acc": 0.9809814510448462, "grad_norm": 1.7709009647369385, "learning_rate": 2.3430628889653184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232998, "epoch": 3.3916457047031026, "step": 44495}, {"loss": 0.06386517882347106, "token_acc": 0.9631171921475312, "grad_norm": 1.318396806716919, "learning_rate": 2.3420486599531915e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233006, "epoch": 3.392026831313362, "step": 44500}, {"loss": 0.06996110081672668, "token_acc": 0.9790957705396208, "grad_norm": 1.3138341903686523, "learning_rate": 2.341034583362238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233011, "epoch": 3.392407957923622, "step": 44505}, {"loss": 0.040217968821525577, "token_acc": 0.9828839011787502, "grad_norm": 0.4875327944755554, "learning_rate": 2.3400206592506123e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233016, "epoch": 3.392789084533882, "step": 44510}, {"loss": 0.07296997904777527, "token_acc": 0.9795141937371964, "grad_norm": 0.45836466550827026, "learning_rate": 2.3390068876764604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233022, "epoch": 3.393170211144142, "step": 44515}, {"loss": 0.07423176765441894, "token_acc": 0.9729537366548042, "grad_norm": 1.0286352634429932, "learning_rate": 2.3379932686979123e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233027, "epoch": 3.3935513377544018, "step": 44520}, {"loss": 0.051657605171203616, "token_acc": 0.9825691549829481, "grad_norm": 0.9243927001953125, "learning_rate": 2.3369798023730972e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233032, "epoch": 3.393932464364662, "step": 44525}, {"loss": 0.06637429594993591, "token_acc": 0.9671870022300095, "grad_norm": 1.279689908027649, "learning_rate": 2.335966488760134e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233039, "epoch": 3.394313590974922, "step": 44530}, {"loss": 0.039176279306411745, "token_acc": 0.9850794680506001, "grad_norm": 0.7261753082275391, "learning_rate": 2.3349533279171286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233042, "epoch": 3.394694717585182, "step": 44535}, {"loss": 0.06909368038177491, "token_acc": 0.9739649249683602, "grad_norm": 1.3711705207824707, "learning_rate": 2.3339403199021826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233048, "epoch": 3.395075844195442, "step": 44540}, {"loss": 0.05773085355758667, "token_acc": 0.9776085982982534, "grad_norm": 1.6918468475341797, "learning_rate": 2.332927464773389e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233057, "epoch": 3.395456970805702, "step": 44545}, {"loss": 0.044738557934761045, "token_acc": 0.9836300976450316, "grad_norm": 1.0890835523605347, "learning_rate": 2.3319147625888264e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233064, "epoch": 3.3958380974159614, "step": 44550}, {"loss": 0.056627899408340454, "token_acc": 0.978617536309844, "grad_norm": 1.2164998054504395, "learning_rate": 2.3309022134065712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233064, "epoch": 3.3962192240262215, "step": 44555}, {"loss": 0.03355591595172882, "token_acc": 0.9856304985337243, "grad_norm": 1.1534357070922852, "learning_rate": 2.3298898172846877e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233071, "epoch": 3.3966003506364815, "step": 44560}, {"loss": 0.0567701518535614, "token_acc": 0.9792214988225516, "grad_norm": 0.9010620713233948, "learning_rate": 2.3288775742812324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233076, "epoch": 3.3969814772467415, "step": 44565}, {"loss": 0.0632942795753479, "token_acc": 0.9731432858214554, "grad_norm": 0.809363603591919, "learning_rate": 2.3278654844542547e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233078, "epoch": 3.397362603857001, "step": 44570}, {"loss": 0.05552844405174255, "token_acc": 0.9792147806004619, "grad_norm": 0.9402106404304504, "learning_rate": 2.3268535478617893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233085, "epoch": 3.397743730467261, "step": 44575}, {"loss": 0.06237365603446961, "token_acc": 0.9800218938149973, "grad_norm": 0.7543808221817017, "learning_rate": 2.3258417645618674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233086, "epoch": 3.398124857077521, "step": 44580}, {"loss": 0.06986541748046875, "token_acc": 0.9720018665422305, "grad_norm": 0.9666885137557983, "learning_rate": 2.3248301346125135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23309, "epoch": 3.398505983687781, "step": 44585}, {"loss": 0.052738016843795775, "token_acc": 0.9815950920245399, "grad_norm": 1.6397019624710083, "learning_rate": 2.3238186580717348e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2331, "epoch": 3.398887110298041, "step": 44590}, {"loss": 0.05521996021270752, "token_acc": 0.9803921568627451, "grad_norm": 1.0383042097091675, "learning_rate": 2.322807334997537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233104, "epoch": 3.399268236908301, "step": 44595}, {"loss": 0.03698550760746002, "token_acc": 0.9846725499303298, "grad_norm": 0.8956355452537537, "learning_rate": 2.3217961654479163e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233111, "epoch": 3.3996493635185607, "step": 44600}, {"eval_loss": 0.06424329429864883, "eval_token_acc": 0.973450394554545, "eval_runtime": 219.2037, "eval_samples_per_second": 2.418, "eval_steps_per_second": 2.418, "epoch": 3.3996493635185607, "step": 44600}, {"loss": 0.024296510219573974, "token_acc": 0.9737302457971359, "grad_norm": 2.0473475456237793, "learning_rate": 2.3207851494808565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232853, "epoch": 3.4000304901288207, "step": 44605}, {"loss": 0.06062343716621399, "token_acc": 0.9787767379679144, "grad_norm": 0.5832228064537048, "learning_rate": 2.3197742871543345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232859, "epoch": 3.4004116167390808, "step": 44610}, {"loss": 0.07031776905059814, "token_acc": 0.9700626595497795, "grad_norm": 1.1779603958129883, "learning_rate": 2.3187635785263206e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232866, "epoch": 3.400792743349341, "step": 44615}, {"loss": 0.0815818190574646, "token_acc": 0.9799003055153561, "grad_norm": 2.6449520587921143, "learning_rate": 2.317753023654772e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232871, "epoch": 3.4011738699596004, "step": 44620}, {"loss": 0.08742862343788146, "token_acc": 0.9743685687558465, "grad_norm": 0.7098424434661865, "learning_rate": 2.3167426225976402e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232875, "epoch": 3.4015549965698604, "step": 44625}, {"loss": 0.04337025582790375, "token_acc": 0.9842406876790831, "grad_norm": 2.295198917388916, "learning_rate": 2.315732375412869e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232883, "epoch": 3.4019361231801204, "step": 44630}, {"loss": 0.04487159848213196, "token_acc": 0.9841269841269841, "grad_norm": 1.45408296585083, "learning_rate": 2.3147222821583874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232888, "epoch": 3.4023172497903804, "step": 44635}, {"loss": 0.08425554633140564, "token_acc": 0.9567985447930878, "grad_norm": 2.845858097076416, "learning_rate": 2.313712342892122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232896, "epoch": 3.4026983764006404, "step": 44640}, {"loss": 0.07356293201446533, "token_acc": 0.9684353741496599, "grad_norm": 1.8757227659225464, "learning_rate": 2.31270255767199e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232904, "epoch": 3.4030795030109005, "step": 44645}, {"loss": 0.054344451427459715, "token_acc": 0.9767814251401121, "grad_norm": 0.8478085994720459, "learning_rate": 2.3116929265558935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232911, "epoch": 3.40346062962116, "step": 44650}, {"loss": 0.06884437203407287, "token_acc": 0.9750132908027644, "grad_norm": 0.5739855170249939, "learning_rate": 2.3106834496017344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23292, "epoch": 3.40384175623142, "step": 44655}, {"loss": 0.04070296883583069, "token_acc": 0.9835298196948682, "grad_norm": 0.537789523601532, "learning_rate": 2.3096741268673976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232925, "epoch": 3.40422288284168, "step": 44660}, {"loss": 0.06397372484207153, "token_acc": 0.9731792411687745, "grad_norm": 1.2702643871307373, "learning_rate": 2.308664958410765e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232931, "epoch": 3.40460400945194, "step": 44665}, {"loss": 0.08050659894943238, "token_acc": 0.961701069385725, "grad_norm": 0.27819111943244934, "learning_rate": 2.3076559442897095e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232937, "epoch": 3.4049851360621997, "step": 44670}, {"loss": 0.08782613873481751, "token_acc": 0.9735306377657357, "grad_norm": 0.7483713626861572, "learning_rate": 2.3066470845620897e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232943, "epoch": 3.4053662626724597, "step": 44675}, {"loss": 0.06701287031173705, "token_acc": 0.9723346828609987, "grad_norm": 1.4012302160263062, "learning_rate": 2.305638379285761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232946, "epoch": 3.4057473892827197, "step": 44680}, {"loss": 0.06266499757766723, "token_acc": 0.9767929330738134, "grad_norm": 1.098692774772644, "learning_rate": 2.3046298285185698e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232949, "epoch": 3.4061285158929797, "step": 44685}, {"loss": 0.041795593500137326, "token_acc": 0.980859375, "grad_norm": 1.6917115449905396, "learning_rate": 2.303621432318346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232956, "epoch": 3.4065096425032397, "step": 44690}, {"loss": 0.05653186440467835, "token_acc": 0.9776007215874924, "grad_norm": 0.7055837512016296, "learning_rate": 2.3026131907429237e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23296, "epoch": 3.4068907691134998, "step": 44695}, {"loss": 0.04407854676246643, "token_acc": 0.9869190091845255, "grad_norm": 0.46868836879730225, "learning_rate": 2.301605103850116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232967, "epoch": 3.4072718957237593, "step": 44700}, {"loss": 0.06622194051742554, "token_acc": 0.9634630659253376, "grad_norm": 1.6238206624984741, "learning_rate": 2.3005971716977337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232977, "epoch": 3.4076530223340193, "step": 44705}, {"loss": 0.05243744254112244, "token_acc": 0.9852765618782332, "grad_norm": 1.2246685028076172, "learning_rate": 2.299589394343579e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232985, "epoch": 3.4080341489442794, "step": 44710}, {"loss": 0.042613485455513, "token_acc": 0.9824299065420561, "grad_norm": 1.1716135740280151, "learning_rate": 2.298581771845439e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232989, "epoch": 3.4084152755545394, "step": 44715}, {"loss": 0.05059970617294311, "token_acc": 0.977378408948096, "grad_norm": 0.6542361378669739, "learning_rate": 2.2975743042610977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232993, "epoch": 3.408796402164799, "step": 44720}, {"loss": 0.07727769613265992, "token_acc": 0.9697048837816662, "grad_norm": 2.0905284881591797, "learning_rate": 2.2965669916483318e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232997, "epoch": 3.409177528775059, "step": 44725}, {"loss": 0.05204898118972778, "token_acc": 0.9790776152980878, "grad_norm": 1.3643220663070679, "learning_rate": 2.295559834064901e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233003, "epoch": 3.409558655385319, "step": 44730}, {"loss": 0.03355906307697296, "token_acc": 0.9840962819686224, "grad_norm": 0.2761351764202118, "learning_rate": 2.2945528315685638e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23301, "epoch": 3.409939781995579, "step": 44735}, {"loss": 0.04756622910499573, "token_acc": 0.9825769284811016, "grad_norm": 1.6953786611557007, "learning_rate": 2.2935459842170692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233013, "epoch": 3.410320908605839, "step": 44740}, {"loss": 0.06822892427444457, "token_acc": 0.97456, "grad_norm": 2.618507146835327, "learning_rate": 2.2925392920681504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233018, "epoch": 3.4107020352160986, "step": 44745}, {"loss": 0.04379658401012421, "token_acc": 0.9806362378976486, "grad_norm": 0.8660376667976379, "learning_rate": 2.2915327551795396e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233027, "epoch": 3.4110831618263586, "step": 44750}, {"loss": 0.05059828758239746, "token_acc": 0.9840686274509803, "grad_norm": 0.5510324835777283, "learning_rate": 2.2905263736089583e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233029, "epoch": 3.4114642884366186, "step": 44755}, {"loss": 0.06807131171226502, "token_acc": 0.9775641025641025, "grad_norm": 2.3085544109344482, "learning_rate": 2.2895201474141136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233036, "epoch": 3.4118454150468787, "step": 44760}, {"loss": 0.047981977462768555, "token_acc": 0.9772897897897898, "grad_norm": 0.8581545352935791, "learning_rate": 2.288514076652711e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233043, "epoch": 3.4122265416571387, "step": 44765}, {"loss": 0.06051156520843506, "token_acc": 0.979670522257273, "grad_norm": 1.0957971811294556, "learning_rate": 2.2875081613824447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233046, "epoch": 3.4126076682673983, "step": 44770}, {"loss": 0.06653358936309814, "token_acc": 0.9742331288343559, "grad_norm": 1.3230106830596924, "learning_rate": 2.2865024016609958e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233053, "epoch": 3.4129887948776583, "step": 44775}, {"loss": 0.05562456846237183, "token_acc": 0.9821830841695679, "grad_norm": 0.681696891784668, "learning_rate": 2.2854967975460422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233058, "epoch": 3.4133699214879183, "step": 44780}, {"loss": 0.051200473308563234, "token_acc": 0.979376340537865, "grad_norm": 1.0680263042449951, "learning_rate": 2.2844913490952525e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233063, "epoch": 3.4137510480981783, "step": 44785}, {"loss": 0.08175615072250367, "token_acc": 0.980682213713888, "grad_norm": 1.4870893955230713, "learning_rate": 2.2834860563662802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233065, "epoch": 3.4141321747084383, "step": 44790}, {"loss": 0.04437652826309204, "token_acc": 0.9822245688137979, "grad_norm": 0.9734242558479309, "learning_rate": 2.2824809194167768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233069, "epoch": 3.414513301318698, "step": 44795}, {"loss": 0.04275440275669098, "token_acc": 0.9801868556701031, "grad_norm": 0.7441583275794983, "learning_rate": 2.281475938304383e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233073, "epoch": 3.414894427928958, "step": 44800}, {"eval_loss": 0.06318888813257217, "eval_token_acc": 0.9737139328956087, "eval_runtime": 220.8465, "eval_samples_per_second": 2.4, "eval_steps_per_second": 2.4, "epoch": 3.414894427928958, "step": 44800}, {"loss": 0.05879397392272949, "token_acc": 0.9735094644489642, "grad_norm": 0.9297592043876648, "learning_rate": 2.280471113086728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232808, "epoch": 3.415275554539218, "step": 44805}, {"loss": 0.0679441213607788, "token_acc": 0.9684862127180641, "grad_norm": 1.7653663158416748, "learning_rate": 2.2794664438214337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232818, "epoch": 3.415656681149478, "step": 44810}, {"loss": 0.06415926218032837, "token_acc": 0.978063900810682, "grad_norm": 2.3909811973571777, "learning_rate": 2.278461930566116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232827, "epoch": 3.416037807759738, "step": 44815}, {"loss": 0.03789882957935333, "token_acc": 0.9859042127182445, "grad_norm": 0.9707624316215515, "learning_rate": 2.277457573378375e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232829, "epoch": 3.4164189343699976, "step": 44820}, {"loss": 0.04155534207820892, "token_acc": 0.9839751873869217, "grad_norm": 0.9600762128829956, "learning_rate": 2.276453372315808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232836, "epoch": 3.4168000609802576, "step": 44825}, {"loss": 0.03346228897571564, "token_acc": 0.9816020379281064, "grad_norm": 0.3185662031173706, "learning_rate": 2.2754493274360017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232843, "epoch": 3.4171811875905176, "step": 44830}, {"loss": 0.08135819435119629, "token_acc": 0.9704668148618609, "grad_norm": 1.7086162567138672, "learning_rate": 2.274445438796533e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232851, "epoch": 3.4175623142007776, "step": 44835}, {"loss": 0.09969144463539123, "token_acc": 0.9610187110187111, "grad_norm": 2.2745068073272705, "learning_rate": 2.2734417064549718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232859, "epoch": 3.4179434408110376, "step": 44840}, {"loss": 0.05807327032089234, "token_acc": 0.9757199322416714, "grad_norm": 0.8496828079223633, "learning_rate": 2.2724381304688742e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232866, "epoch": 3.418324567421297, "step": 44845}, {"loss": 0.09426398277282715, "token_acc": 0.9654680817361001, "grad_norm": 2.07663893699646, "learning_rate": 2.271434710895793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23287, "epoch": 3.418705694031557, "step": 44850}, {"loss": 0.11339769363403321, "token_acc": 0.9586669552045012, "grad_norm": 1.3196810483932495, "learning_rate": 2.2704314477932696e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232876, "epoch": 3.4190868206418172, "step": 44855}, {"loss": 0.04080787897109985, "token_acc": 0.9808673469387755, "grad_norm": 0.8061447739601135, "learning_rate": 2.269428341218835e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232881, "epoch": 3.4194679472520773, "step": 44860}, {"loss": 0.059151333570480344, "token_acc": 0.9819587628865979, "grad_norm": 0.9080660343170166, "learning_rate": 2.2684253912300136e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232885, "epoch": 3.419849073862337, "step": 44865}, {"loss": 0.039825713634490965, "token_acc": 0.9854705186686941, "grad_norm": 1.1304931640625, "learning_rate": 2.2674225978843216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232889, "epoch": 3.420230200472597, "step": 44870}, {"loss": 0.07359997034072877, "token_acc": 0.9754464285714286, "grad_norm": 1.8925048112869263, "learning_rate": 2.2664199612392613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232895, "epoch": 3.420611327082857, "step": 44875}, {"loss": 0.05020250678062439, "token_acc": 0.9820489012689569, "grad_norm": 1.00221586227417, "learning_rate": 2.2654174813523327e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232902, "epoch": 3.420992453693117, "step": 44880}, {"loss": 0.06331337690353393, "token_acc": 0.9719488188976378, "grad_norm": 1.0710502862930298, "learning_rate": 2.2644151582810193e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232907, "epoch": 3.421373580303377, "step": 44885}, {"loss": 0.0546191930770874, "token_acc": 0.9761774868157846, "grad_norm": 0.7516010403633118, "learning_rate": 2.2634129920828023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232912, "epoch": 3.421754706913637, "step": 44890}, {"loss": 0.06684125661849975, "token_acc": 0.9703389830508474, "grad_norm": 1.692085862159729, "learning_rate": 2.2624109828151523e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23292, "epoch": 3.4221358335238965, "step": 44895}, {"loss": 0.049228453636169435, "token_acc": 0.9806172374858864, "grad_norm": 1.6461995840072632, "learning_rate": 2.2614091305355272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232925, "epoch": 3.4225169601341565, "step": 44900}, {"loss": 0.06725164651870727, "token_acc": 0.9743431221020092, "grad_norm": 1.7640323638916016, "learning_rate": 2.2604074353013793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232933, "epoch": 3.4228980867444165, "step": 44905}, {"loss": 0.056569886207580564, "token_acc": 0.9832775919732442, "grad_norm": 2.2136282920837402, "learning_rate": 2.2594058971701536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23294, "epoch": 3.4232792133546766, "step": 44910}, {"loss": 0.06861868500709534, "token_acc": 0.9728621016093405, "grad_norm": 1.5948423147201538, "learning_rate": 2.2584045161992807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232947, "epoch": 3.423660339964936, "step": 44915}, {"loss": 0.04585750699043274, "token_acc": 0.982085732565579, "grad_norm": 1.0242313146591187, "learning_rate": 2.257403292446185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232954, "epoch": 3.424041466575196, "step": 44920}, {"loss": 0.05965622663497925, "token_acc": 0.9817518248175182, "grad_norm": 1.5753129720687866, "learning_rate": 2.256402225968286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232959, "epoch": 3.424422593185456, "step": 44925}, {"loss": 0.036798608303070066, "token_acc": 0.9867829021372329, "grad_norm": 0.8447466492652893, "learning_rate": 2.255401316822986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232965, "epoch": 3.424803719795716, "step": 44930}, {"loss": 0.07781851291656494, "token_acc": 0.9718866171003717, "grad_norm": 1.3980082273483276, "learning_rate": 2.254400565067683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23297, "epoch": 3.425184846405976, "step": 44935}, {"loss": 0.050400960445404056, "token_acc": 0.976544289044289, "grad_norm": 1.13558030128479, "learning_rate": 2.2533999707597686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232975, "epoch": 3.425565973016236, "step": 44940}, {"loss": 0.07354960441589356, "token_acc": 0.9775811209439528, "grad_norm": 2.0734434127807617, "learning_rate": 2.2523995339566184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232979, "epoch": 3.425947099626496, "step": 44945}, {"loss": 0.0476239413022995, "token_acc": 0.9750118990956688, "grad_norm": 0.9540282487869263, "learning_rate": 2.251399254715605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232985, "epoch": 3.426328226236756, "step": 44950}, {"loss": 0.04844440817832947, "token_acc": 0.9855232100708103, "grad_norm": 0.47220560908317566, "learning_rate": 2.2503991330940887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232989, "epoch": 3.426709352847016, "step": 44955}, {"loss": 0.04848337471485138, "token_acc": 0.987051206592113, "grad_norm": 1.7117893695831299, "learning_rate": 2.2493991691494222e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232995, "epoch": 3.427090479457276, "step": 44960}, {"loss": 0.05712783336639404, "token_acc": 0.9769277474195507, "grad_norm": 1.13459312915802, "learning_rate": 2.248399362938951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232999, "epoch": 3.4274716060675354, "step": 44965}, {"loss": 0.05551947951316834, "token_acc": 0.9778945064565551, "grad_norm": 0.9561129808425903, "learning_rate": 2.247399714520006e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233005, "epoch": 3.4278527326777954, "step": 44970}, {"loss": 0.038078561425209045, "token_acc": 0.9841746794871795, "grad_norm": 0.9765750765800476, "learning_rate": 2.246400223949913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233009, "epoch": 3.4282338592880555, "step": 44975}, {"loss": 0.030833399295806883, "token_acc": 0.9848688634835239, "grad_norm": 0.7561149597167969, "learning_rate": 2.2454008912859914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233014, "epoch": 3.4286149858983155, "step": 44980}, {"loss": 0.04865076541900635, "token_acc": 0.9775570272259014, "grad_norm": 1.4561941623687744, "learning_rate": 2.2444017165855435e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233021, "epoch": 3.4289961125085755, "step": 44985}, {"loss": 0.05438899397850037, "token_acc": 0.9785443836769037, "grad_norm": 2.5909974575042725, "learning_rate": 2.24340269990587e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233029, "epoch": 3.4293772391188355, "step": 44990}, {"loss": 0.06821859478950501, "token_acc": 0.9699556723033984, "grad_norm": 0.9542593359947205, "learning_rate": 2.2424038413042608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233034, "epoch": 3.429758365729095, "step": 44995}, {"loss": 0.05988548398017883, "token_acc": 0.978806907378336, "grad_norm": 2.1722631454467773, "learning_rate": 2.2414051408379933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.233041, "epoch": 3.430139492339355, "step": 45000}, {"eval_loss": 0.06367901712656021, "eval_token_acc": 0.973872055900247, "eval_runtime": 222.2072, "eval_samples_per_second": 2.385, "eval_steps_per_second": 2.385, "epoch": 3.430139492339355, "step": 45000}, {"loss": 0.05831748843193054, "token_acc": 0.9740004401731348, "grad_norm": 1.0729546546936035, "learning_rate": 2.240406598564339e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232778, "epoch": 3.430520618949615, "step": 45005}, {"loss": 0.08225314617156983, "token_acc": 0.973874862788145, "grad_norm": 0.830093502998352, "learning_rate": 2.239408214540562e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232784, "epoch": 3.430901745559875, "step": 45010}, {"loss": 0.06296311020851135, "token_acc": 0.9763644845280671, "grad_norm": 0.7935507297515869, "learning_rate": 2.238409988823912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232787, "epoch": 3.4312828721701347, "step": 45015}, {"loss": 0.078467458486557, "token_acc": 0.9752932368355378, "grad_norm": 1.4880785942077637, "learning_rate": 2.2374119214716332e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232794, "epoch": 3.4316639987803947, "step": 45020}, {"loss": 0.049119746685028075, "token_acc": 0.9826796735018913, "grad_norm": 1.2265498638153076, "learning_rate": 2.2364140125409626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2328, "epoch": 3.4320451253906548, "step": 45025}, {"loss": 0.058259105682373045, "token_acc": 0.9774774774774775, "grad_norm": 0.8574033379554749, "learning_rate": 2.2354162620891223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232806, "epoch": 3.432426252000915, "step": 45030}, {"loss": 0.06164218187332153, "token_acc": 0.9798792756539235, "grad_norm": 1.60665762424469, "learning_rate": 2.23441867017333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23281, "epoch": 3.432807378611175, "step": 45035}, {"loss": 0.03807723224163055, "token_acc": 0.980641164627536, "grad_norm": 0.6134791374206543, "learning_rate": 2.2334212368507945e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232814, "epoch": 3.4331885052214344, "step": 45040}, {"loss": 0.049556410312652587, "token_acc": 0.9817927170868347, "grad_norm": 1.401603102684021, "learning_rate": 2.2324239621787112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232822, "epoch": 3.4335696318316944, "step": 45045}, {"loss": 0.05769633650779724, "token_acc": 0.9779836015791072, "grad_norm": 0.8441397547721863, "learning_rate": 2.2314268462142724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232824, "epoch": 3.4339507584419544, "step": 45050}, {"loss": 0.05947350859642029, "token_acc": 0.9789661319073084, "grad_norm": 0.9169077277183533, "learning_rate": 2.2304298890146542e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232832, "epoch": 3.4343318850522144, "step": 45055}, {"loss": 0.07941017746925354, "token_acc": 0.9668008048289738, "grad_norm": 1.506417989730835, "learning_rate": 2.2294330906370292e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23284, "epoch": 3.4347130116624744, "step": 45060}, {"loss": 0.07426203489303589, "token_acc": 0.9754385964912281, "grad_norm": 1.879273533821106, "learning_rate": 2.228436451138562e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232846, "epoch": 3.435094138272734, "step": 45065}, {"loss": 0.06896369457244873, "token_acc": 0.9730406097144807, "grad_norm": 0.7355198860168457, "learning_rate": 2.2274399705764005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232847, "epoch": 3.435475264882994, "step": 45070}, {"loss": 0.07325604557991028, "token_acc": 0.9702244617498855, "grad_norm": 1.0533682107925415, "learning_rate": 2.22644364900769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232853, "epoch": 3.435856391493254, "step": 45075}, {"loss": 0.05115926265716553, "token_acc": 0.9828240824444042, "grad_norm": 0.8070945739746094, "learning_rate": 2.225447486489568e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232857, "epoch": 3.436237518103514, "step": 45080}, {"loss": 0.047272658348083495, "token_acc": 0.9838398813936249, "grad_norm": 0.9233098030090332, "learning_rate": 2.2244514830791546e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23286, "epoch": 3.436618644713774, "step": 45085}, {"loss": 0.06077989935874939, "token_acc": 0.9765347238682153, "grad_norm": 1.5134053230285645, "learning_rate": 2.2234556388335694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232866, "epoch": 3.4369997713240337, "step": 45090}, {"loss": 0.061869841814041135, "token_acc": 0.9816687737041719, "grad_norm": 1.0293810367584229, "learning_rate": 2.222459953809918e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232873, "epoch": 3.4373808979342937, "step": 45095}, {"loss": 0.03280588984489441, "token_acc": 0.9848966613672496, "grad_norm": 0.07360219210386276, "learning_rate": 2.2214644280652986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232877, "epoch": 3.4377620245445537, "step": 45100}, {"loss": 0.061108851432800294, "token_acc": 0.9719311377245509, "grad_norm": 3.419821262359619, "learning_rate": 2.2204690616568025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232885, "epoch": 3.4381431511548137, "step": 45105}, {"loss": 0.07432513833045959, "token_acc": 0.970640344216654, "grad_norm": 0.939553439617157, "learning_rate": 2.219473854641505e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232892, "epoch": 3.4385242777650737, "step": 45110}, {"loss": 0.05283675193786621, "token_acc": 0.9798251513113652, "grad_norm": 0.8780707716941833, "learning_rate": 2.218478807076479e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232896, "epoch": 3.4389054043753333, "step": 45115}, {"loss": 0.04531490206718445, "token_acc": 0.9808641232398604, "grad_norm": 1.3269312381744385, "learning_rate": 2.2174839190187875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232899, "epoch": 3.4392865309855933, "step": 45120}, {"loss": 0.036972776055336, "token_acc": 0.9843096234309623, "grad_norm": 1.7130590677261353, "learning_rate": 2.2164891905254787e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232906, "epoch": 3.4396676575958534, "step": 45125}, {"loss": 0.05062277317047119, "token_acc": 0.9833333333333333, "grad_norm": 0.14971446990966797, "learning_rate": 2.2154946216535976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232909, "epoch": 3.4400487842061134, "step": 45130}, {"loss": 0.06038525104522705, "token_acc": 0.9653164556962025, "grad_norm": 1.5663849115371704, "learning_rate": 2.2145002124601804e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232916, "epoch": 3.4404299108163734, "step": 45135}, {"loss": 0.07549288272857665, "token_acc": 0.9703021882598124, "grad_norm": 1.0063234567642212, "learning_rate": 2.213505963002248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232919, "epoch": 3.440811037426633, "step": 45140}, {"loss": 0.05870128870010376, "token_acc": 0.979000884173298, "grad_norm": 1.3275728225708008, "learning_rate": 2.212511873336818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232925, "epoch": 3.441192164036893, "step": 45145}, {"loss": 0.07459087371826172, "token_acc": 0.9666075650118203, "grad_norm": 3.0689945220947266, "learning_rate": 2.2115179435208978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232933, "epoch": 3.441573290647153, "step": 45150}, {"loss": 0.05880054831504822, "token_acc": 0.9732388823297914, "grad_norm": 1.1504340171813965, "learning_rate": 2.210524173611481e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232941, "epoch": 3.441954417257413, "step": 45155}, {"loss": 0.07028623819351196, "token_acc": 0.9726832133940373, "grad_norm": 1.1274086236953735, "learning_rate": 2.2095305636655593e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232943, "epoch": 3.4423355438676726, "step": 45160}, {"loss": 0.03891247510910034, "token_acc": 0.9859284890426759, "grad_norm": 1.664359211921692, "learning_rate": 2.208537113740112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23295, "epoch": 3.4427166704779326, "step": 45165}, {"loss": 0.06343857645988464, "token_acc": 0.974569536423841, "grad_norm": 1.985236644744873, "learning_rate": 2.2075438238921048e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232957, "epoch": 3.4430977970881926, "step": 45170}, {"loss": 0.056367266178131106, "token_acc": 0.9805302402651201, "grad_norm": 0.987095832824707, "learning_rate": 2.2065506941785008e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232962, "epoch": 3.4434789236984527, "step": 45175}, {"loss": 0.07741478681564332, "token_acc": 0.972812781858008, "grad_norm": 1.616195797920227, "learning_rate": 2.2055577246562536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232965, "epoch": 3.4438600503087127, "step": 45180}, {"loss": 0.06621620059013367, "token_acc": 0.9794893861158921, "grad_norm": 1.8417623043060303, "learning_rate": 2.204564915382301e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232968, "epoch": 3.4442411769189727, "step": 45185}, {"loss": 0.04340148270130158, "token_acc": 0.9822981366459628, "grad_norm": 1.9196538925170898, "learning_rate": 2.2035722664135783e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232974, "epoch": 3.4446223035292323, "step": 45190}, {"loss": 0.05473848581314087, "token_acc": 0.9822411649795774, "grad_norm": 2.3200559616088867, "learning_rate": 2.2025797778070107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232978, "epoch": 3.4450034301394923, "step": 45195}, {"loss": 0.0591754674911499, "token_acc": 0.9814015277316506, "grad_norm": 0.5618265867233276, "learning_rate": 2.2015874496195095e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232981, "epoch": 3.4453845567497523, "step": 45200}, {"eval_loss": 0.06219211965799332, "eval_token_acc": 0.974391602915487, "eval_runtime": 221.2737, "eval_samples_per_second": 2.395, "eval_steps_per_second": 2.395, "epoch": 3.4453845567497523, "step": 45200}, {"loss": 0.043881377577781676, "token_acc": 0.9745452156393261, "grad_norm": 0.8313685655593872, "learning_rate": 2.2005952819079818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232721, "epoch": 3.4457656833600123, "step": 45205}, {"loss": 0.07583792805671692, "token_acc": 0.9749754661432777, "grad_norm": 0.4827812612056732, "learning_rate": 2.199603274729326e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232724, "epoch": 3.446146809970272, "step": 45210}, {"loss": 0.050187486410140994, "token_acc": 0.9791955617198336, "grad_norm": 1.0161316394805908, "learning_rate": 2.1986114281404248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23273, "epoch": 3.446527936580532, "step": 45215}, {"loss": 0.05433968901634216, "token_acc": 0.9793200689331035, "grad_norm": 1.4389375448226929, "learning_rate": 2.19761974219816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232736, "epoch": 3.446909063190792, "step": 45220}, {"loss": 0.06922097206115722, "token_acc": 0.9723994894703255, "grad_norm": 1.0110160112380981, "learning_rate": 2.196628216959395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232741, "epoch": 3.447290189801052, "step": 45225}, {"loss": 0.05955634117126465, "token_acc": 0.981827111984283, "grad_norm": 1.3081225156784058, "learning_rate": 2.195636852480994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232749, "epoch": 3.447671316411312, "step": 45230}, {"loss": 0.06339813470840454, "token_acc": 0.9752304147465438, "grad_norm": 1.3090782165527344, "learning_rate": 2.1946456488198075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232758, "epoch": 3.448052443021572, "step": 45235}, {"loss": 0.06343318223953247, "token_acc": 0.9739450580572075, "grad_norm": 1.515677571296692, "learning_rate": 2.1936546060326728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232766, "epoch": 3.4484335696318316, "step": 45240}, {"loss": 0.03897995352745056, "token_acc": 0.979509119567665, "grad_norm": 1.0709668397903442, "learning_rate": 2.1926637241764236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232771, "epoch": 3.4488146962420916, "step": 45245}, {"loss": 0.06364188194274903, "token_acc": 0.9677320221266134, "grad_norm": 1.2891544103622437, "learning_rate": 2.191673003307884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232779, "epoch": 3.4491958228523516, "step": 45250}, {"loss": 0.06384528875350952, "token_acc": 0.9762057877813505, "grad_norm": 1.6605703830718994, "learning_rate": 2.1906824434838635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232782, "epoch": 3.4495769494626116, "step": 45255}, {"loss": 0.06739249229431152, "token_acc": 0.9699907663896583, "grad_norm": 1.2980294227600098, "learning_rate": 2.1896920447611696e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232791, "epoch": 3.449958076072871, "step": 45260}, {"loss": 0.06596599817276001, "token_acc": 0.9740345327533939, "grad_norm": 2.117784023284912, "learning_rate": 2.1887018071965944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232794, "epoch": 3.450339202683131, "step": 45265}, {"loss": 0.03947869241237641, "token_acc": 0.9853589196872778, "grad_norm": 0.9883667230606079, "learning_rate": 2.187711730846924e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232796, "epoch": 3.4507203292933912, "step": 45270}, {"loss": 0.0524524450302124, "token_acc": 0.9790655339805825, "grad_norm": 1.3558802604675293, "learning_rate": 2.186721815768937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232803, "epoch": 3.4511014559036512, "step": 45275}, {"loss": 0.08758134245872498, "token_acc": 0.9680032401782098, "grad_norm": 0.8608250021934509, "learning_rate": 2.1857320620193973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232811, "epoch": 3.4514825825139113, "step": 45280}, {"loss": 0.06350049376487732, "token_acc": 0.9799670044779637, "grad_norm": 0.9818025231361389, "learning_rate": 2.1847424696550635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232816, "epoch": 3.4518637091241713, "step": 45285}, {"loss": 0.06039189696311951, "token_acc": 0.9720394736842105, "grad_norm": 1.0767451524734497, "learning_rate": 2.1837530387326867e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232824, "epoch": 3.452244835734431, "step": 45290}, {"loss": 0.055663669109344484, "token_acc": 0.9634936881610372, "grad_norm": 1.5162702798843384, "learning_rate": 2.1827637693090024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232831, "epoch": 3.452625962344691, "step": 45295}, {"loss": 0.06623818278312683, "token_acc": 0.9801728520589731, "grad_norm": 1.8333370685577393, "learning_rate": 2.1817746614407426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232837, "epoch": 3.453007088954951, "step": 45300}, {"loss": 0.08530397415161133, "token_acc": 0.9635719706551986, "grad_norm": 1.1191003322601318, "learning_rate": 2.180785715184629e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232843, "epoch": 3.453388215565211, "step": 45305}, {"loss": 0.04689441025257111, "token_acc": 0.9837513246202755, "grad_norm": 1.371564269065857, "learning_rate": 2.1797969305973704e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232851, "epoch": 3.4537693421754705, "step": 45310}, {"loss": 0.05835524797439575, "token_acc": 0.9711067580803134, "grad_norm": 0.9433755278587341, "learning_rate": 2.178808307735671e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232854, "epoch": 3.4541504687857305, "step": 45315}, {"loss": 0.040848612785339355, "token_acc": 0.985, "grad_norm": 0.9724857807159424, "learning_rate": 2.1778198466562243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232859, "epoch": 3.4545315953959905, "step": 45320}, {"loss": 0.05940612554550171, "token_acc": 0.9756711409395973, "grad_norm": 2.2537782192230225, "learning_rate": 2.1768315474157115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232867, "epoch": 3.4549127220062505, "step": 45325}, {"loss": 0.06856381893157959, "token_acc": 0.9735491512041058, "grad_norm": 1.354131817817688, "learning_rate": 2.1758434100708082e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232876, "epoch": 3.4552938486165106, "step": 45330}, {"loss": 0.06634034514427185, "token_acc": 0.9688888888888889, "grad_norm": 1.0650523900985718, "learning_rate": 2.174855434678181e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232883, "epoch": 3.45567497522677, "step": 45335}, {"loss": 0.035853144526481626, "token_acc": 0.9855813953488373, "grad_norm": 0.8153066039085388, "learning_rate": 2.1738676212944832e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232889, "epoch": 3.45605610183703, "step": 45340}, {"loss": 0.04423660635948181, "token_acc": 0.9831600831600832, "grad_norm": 0.632796585559845, "learning_rate": 2.172879969976362e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232894, "epoch": 3.45643722844729, "step": 45345}, {"loss": 0.06785483360290527, "token_acc": 0.9761464807660003, "grad_norm": 0.5279809832572937, "learning_rate": 2.171892480780457e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232898, "epoch": 3.45681835505755, "step": 45350}, {"loss": 0.062383002042770384, "token_acc": 0.9754651737197432, "grad_norm": 1.1810177564620972, "learning_rate": 2.1709051537633927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232902, "epoch": 3.45719948166781, "step": 45355}, {"loss": 0.049132540822029114, "token_acc": 0.9794786466999446, "grad_norm": 0.7604886293411255, "learning_rate": 2.169917988981789e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232908, "epoch": 3.45758060827807, "step": 45360}, {"loss": 0.03613582849502563, "token_acc": 0.9844585561497327, "grad_norm": 0.7514955401420593, "learning_rate": 2.168930986492255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23291, "epoch": 3.45796173488833, "step": 45365}, {"loss": 0.07789779901504516, "token_acc": 0.9728201782996303, "grad_norm": 0.9083470106124878, "learning_rate": 2.167944146351392e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232914, "epoch": 3.45834286149859, "step": 45370}, {"loss": 0.03419223427772522, "token_acc": 0.9835325365205844, "grad_norm": 0.6812936067581177, "learning_rate": 2.1669574686157913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232915, "epoch": 3.45872398810885, "step": 45375}, {"loss": 0.0678126037120819, "token_acc": 0.9752057717711615, "grad_norm": 0.8549937009811401, "learning_rate": 2.165970953342031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232915, "epoch": 3.45910511471911, "step": 45380}, {"loss": 0.0690489649772644, "token_acc": 0.9755694948827996, "grad_norm": 1.6441999673843384, "learning_rate": 2.164984600586685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23292, "epoch": 3.4594862413293694, "step": 45385}, {"loss": 0.07576008439064026, "token_acc": 0.9674074074074074, "grad_norm": 0.9395938515663147, "learning_rate": 2.1639984104063184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232928, "epoch": 3.4598673679396295, "step": 45390}, {"loss": 0.040801575779914855, "token_acc": 0.9776018861569552, "grad_norm": 0.5714975595474243, "learning_rate": 2.16301238285748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232934, "epoch": 3.4602484945498895, "step": 45395}, {"loss": 0.061686772108078006, "token_acc": 0.9794776119402985, "grad_norm": 1.669095754623413, "learning_rate": 2.1620265179967157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232939, "epoch": 3.4606296211601495, "step": 45400}, {"eval_loss": 0.06145572289824486, "eval_token_acc": 0.9746250225890006, "eval_runtime": 220.7587, "eval_samples_per_second": 2.401, "eval_steps_per_second": 2.401, "epoch": 3.4606296211601495, "step": 45400}, {"loss": 0.05769317746162415, "token_acc": 0.974868738880773, "grad_norm": 0.871698260307312, "learning_rate": 2.1610408158805634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232681, "epoch": 3.4610107477704095, "step": 45405}, {"loss": 0.05424030423164368, "token_acc": 0.9814251401120897, "grad_norm": 0.8524215817451477, "learning_rate": 2.160055276565544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232684, "epoch": 3.461391874380669, "step": 45410}, {"loss": 0.06508281230926513, "token_acc": 0.9786971830985915, "grad_norm": 0.7810723185539246, "learning_rate": 2.1590699001081753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232689, "epoch": 3.461773000990929, "step": 45415}, {"loss": 0.0689714014530182, "token_acc": 0.9701103309929789, "grad_norm": 1.4505157470703125, "learning_rate": 2.1580846865649662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232694, "epoch": 3.462154127601189, "step": 45420}, {"loss": 0.06275312900543213, "token_acc": 0.9775943396226415, "grad_norm": 1.13093900680542, "learning_rate": 2.1570996359924106e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2327, "epoch": 3.462535254211449, "step": 45425}, {"loss": 0.05117926597595215, "token_acc": 0.9761653659565492, "grad_norm": 0.9029223322868347, "learning_rate": 2.156114748446998e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232706, "epoch": 3.462916380821709, "step": 45430}, {"loss": 0.06647626161575318, "token_acc": 0.9789029535864979, "grad_norm": 1.1034107208251953, "learning_rate": 2.1551300239852095e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232715, "epoch": 3.4632975074319687, "step": 45435}, {"loss": 0.058794498443603516, "token_acc": 0.971644264408028, "grad_norm": 2.064685583114624, "learning_rate": 2.1541454626635098e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23272, "epoch": 3.4636786340422288, "step": 45440}, {"loss": 0.031951296329498294, "token_acc": 0.9867054424594931, "grad_norm": 0.7677899599075317, "learning_rate": 2.153161064538364e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232726, "epoch": 3.4640597606524888, "step": 45445}, {"loss": 0.052821391820907594, "token_acc": 0.9757952097326068, "grad_norm": 0.7323102355003357, "learning_rate": 2.152176829666218e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232731, "epoch": 3.464440887262749, "step": 45450}, {"loss": 0.07341600060462952, "token_acc": 0.973542041834049, "grad_norm": 1.2035472393035889, "learning_rate": 2.1511927581035153e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232733, "epoch": 3.4648220138730084, "step": 45455}, {"loss": 0.05518950223922729, "token_acc": 0.9774960380348653, "grad_norm": 1.3000563383102417, "learning_rate": 2.1502088499066896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232738, "epoch": 3.4652031404832684, "step": 45460}, {"loss": 0.11701295375823975, "token_acc": 0.9611846533542742, "grad_norm": 1.2549231052398682, "learning_rate": 2.1492251051321598e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232745, "epoch": 3.4655842670935284, "step": 45465}, {"loss": 0.06862907409667969, "token_acc": 0.9718161618524149, "grad_norm": 1.00435471534729, "learning_rate": 2.1482415238363417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232745, "epoch": 3.4659653937037884, "step": 45470}, {"loss": 0.04723505973815918, "token_acc": 0.9796468123316372, "grad_norm": 0.9796452522277832, "learning_rate": 2.1472581060756396e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232748, "epoch": 3.4663465203140484, "step": 45475}, {"loss": 0.06765291094779968, "token_acc": 0.9749113716934824, "grad_norm": 0.9445042610168457, "learning_rate": 2.146274851906445e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232756, "epoch": 3.4667276469243085, "step": 45480}, {"loss": 0.06539470553398133, "token_acc": 0.9767590618336887, "grad_norm": 0.6449015140533447, "learning_rate": 2.1452917613851454e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23276, "epoch": 3.467108773534568, "step": 45485}, {"loss": 0.05540565252304077, "token_acc": 0.9736456808199122, "grad_norm": 0.6671376824378967, "learning_rate": 2.144308834568115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232765, "epoch": 3.467489900144828, "step": 45490}, {"loss": 0.055988460779190063, "token_acc": 0.9821383647798743, "grad_norm": 1.652592658996582, "learning_rate": 2.143326071511721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232773, "epoch": 3.467871026755088, "step": 45495}, {"loss": 0.04629412889480591, "token_acc": 0.9782041242495432, "grad_norm": 0.8878817558288574, "learning_rate": 2.1423434722723224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232774, "epoch": 3.468252153365348, "step": 45500}, {"loss": 0.042269963026046756, "token_acc": 0.9791579824927052, "grad_norm": 0.8809770345687866, "learning_rate": 2.1413610369062625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23278, "epoch": 3.4686332799756077, "step": 45505}, {"loss": 0.06449523568153381, "token_acc": 0.9739361702127659, "grad_norm": 0.8297970294952393, "learning_rate": 2.1403787654698813e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232787, "epoch": 3.4690144065858677, "step": 45510}, {"loss": 0.10312068462371826, "token_acc": 0.9580301235403622, "grad_norm": 2.358611822128296, "learning_rate": 2.1393966580195095e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232791, "epoch": 3.4693955331961277, "step": 45515}, {"loss": 0.047816476225852965, "token_acc": 0.9799700702198688, "grad_norm": 0.45927196741104126, "learning_rate": 2.138414714611463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232792, "epoch": 3.4697766598063877, "step": 45520}, {"loss": 0.04691123068332672, "token_acc": 0.9864018994172242, "grad_norm": 0.9601935148239136, "learning_rate": 2.1374329353020533e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232797, "epoch": 3.4701577864166477, "step": 45525}, {"loss": 0.07405023574829102, "token_acc": 0.9706441029183215, "grad_norm": 1.2984322309494019, "learning_rate": 2.1364513201475823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232802, "epoch": 3.4705389130269078, "step": 45530}, {"loss": 0.046726527810096743, "token_acc": 0.9778573754477369, "grad_norm": 1.2576429843902588, "learning_rate": 2.135469869204338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232808, "epoch": 3.4709200396371673, "step": 45535}, {"loss": 0.05680583715438843, "token_acc": 0.9753937007874016, "grad_norm": 0.718582272529602, "learning_rate": 2.134488582528604e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232814, "epoch": 3.4713011662474273, "step": 45540}, {"loss": 0.06901566982269287, "token_acc": 0.9793771482137278, "grad_norm": 0.7944990396499634, "learning_rate": 2.133507460176653e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232814, "epoch": 3.4716822928576874, "step": 45545}, {"loss": 0.04543834924697876, "token_acc": 0.982368832646097, "grad_norm": 0.8480201959609985, "learning_rate": 2.132526502204746e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232818, "epoch": 3.4720634194679474, "step": 45550}, {"loss": 0.054096716642379764, "token_acc": 0.9741206030150754, "grad_norm": 0.5613117814064026, "learning_rate": 2.131545708669137e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232823, "epoch": 3.472444546078207, "step": 45555}, {"loss": 0.040168476104736325, "token_acc": 0.9802405498281787, "grad_norm": 0.5866463780403137, "learning_rate": 2.1305650796260723e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232829, "epoch": 3.472825672688467, "step": 45560}, {"loss": 0.0351487398147583, "token_acc": 0.9848377997179125, "grad_norm": 0.7897183299064636, "learning_rate": 2.1295846151317828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232834, "epoch": 3.473206799298727, "step": 45565}, {"loss": 0.04257303774356842, "token_acc": 0.9800705467372134, "grad_norm": 0.7294285893440247, "learning_rate": 2.128604315242495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232839, "epoch": 3.473587925908987, "step": 45570}, {"loss": 0.05803642868995666, "token_acc": 0.9778129952456418, "grad_norm": 1.8372489213943481, "learning_rate": 2.127624180014427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232842, "epoch": 3.473969052519247, "step": 45575}, {"loss": 0.05881203413009643, "token_acc": 0.9764832793959007, "grad_norm": 1.463348388671875, "learning_rate": 2.126644209503781e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232848, "epoch": 3.474350179129507, "step": 45580}, {"loss": 0.04949098229408264, "token_acc": 0.9859985261606485, "grad_norm": 2.5429534912109375, "learning_rate": 2.125664403766755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232853, "epoch": 3.4747313057397666, "step": 45585}, {"loss": 0.06389384865760803, "token_acc": 0.9766536964980544, "grad_norm": 1.1219232082366943, "learning_rate": 2.124684762859539e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232859, "epoch": 3.4751124323500266, "step": 45590}, {"loss": 0.07849932312965394, "token_acc": 0.9697041420118343, "grad_norm": 1.3053443431854248, "learning_rate": 2.1237052868383072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232866, "epoch": 3.4754935589602867, "step": 45595}, {"loss": 0.06763590574264526, "token_acc": 0.9749869723814487, "grad_norm": 0.9387605786323547, "learning_rate": 2.1227259757592293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232873, "epoch": 3.4758746855705467, "step": 45600}, {"eval_loss": 0.06129448488354683, "eval_token_acc": 0.974896090596952, "eval_runtime": 222.3326, "eval_samples_per_second": 2.384, "eval_steps_per_second": 2.384, "epoch": 3.4758746855705467, "step": 45600}, {"loss": 0.0323899507522583, "token_acc": 0.9753155842002437, "grad_norm": 0.5404269099235535, "learning_rate": 2.1217468296784665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232612, "epoch": 3.4762558121808063, "step": 45605}, {"loss": 0.05108104348182678, "token_acc": 0.9772526891200847, "grad_norm": 1.279731273651123, "learning_rate": 2.1207678486521644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232618, "epoch": 3.4766369387910663, "step": 45610}, {"loss": 0.07645491361618043, "token_acc": 0.9725274725274725, "grad_norm": 2.9462409019470215, "learning_rate": 2.1197890327364666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232625, "epoch": 3.4770180654013263, "step": 45615}, {"loss": 0.05076541900634766, "token_acc": 0.9736748488082533, "grad_norm": 1.1436007022857666, "learning_rate": 2.1188103819875004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232633, "epoch": 3.4773991920115863, "step": 45620}, {"loss": 0.06473852396011352, "token_acc": 0.9764434643143545, "grad_norm": 0.48035794496536255, "learning_rate": 2.1178318964613862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232633, "epoch": 3.4777803186218463, "step": 45625}, {"loss": 0.048590391874313354, "token_acc": 0.9784665579119086, "grad_norm": 0.05489281192421913, "learning_rate": 2.1168535762142422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23264, "epoch": 3.4781614452321064, "step": 45630}, {"loss": 0.060788053274154666, "token_acc": 0.9698204036289576, "grad_norm": 1.382334589958191, "learning_rate": 2.1158754213021643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232644, "epoch": 3.478542571842366, "step": 45635}, {"loss": 0.06498830914497375, "token_acc": 0.9651810584958217, "grad_norm": 1.0205919742584229, "learning_rate": 2.1148974317812463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232651, "epoch": 3.478923698452626, "step": 45640}, {"loss": 0.04394850730895996, "token_acc": 0.9830981547526748, "grad_norm": 0.428172767162323, "learning_rate": 2.113919607707574e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232655, "epoch": 3.479304825062886, "step": 45645}, {"loss": 0.05586216449737549, "token_acc": 0.9781503107929931, "grad_norm": 1.0690404176712036, "learning_rate": 2.1129419491372178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232659, "epoch": 3.479685951673146, "step": 45650}, {"loss": 0.04871627688407898, "token_acc": 0.9806608801583676, "grad_norm": 0.6871334910392761, "learning_rate": 2.1119644561262446e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232663, "epoch": 3.4800670782834056, "step": 45655}, {"loss": 0.06148748397827149, "token_acc": 0.9763690070438537, "grad_norm": 0.6085583567619324, "learning_rate": 2.1109871287307064e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232668, "epoch": 3.4804482048936656, "step": 45660}, {"loss": 0.07246443033218383, "token_acc": 0.9734776725304466, "grad_norm": 0.9081423282623291, "learning_rate": 2.1100099670066493e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232672, "epoch": 3.4808293315039256, "step": 45665}, {"loss": 0.044239723682403566, "token_acc": 0.9837032874402922, "grad_norm": 1.0667616128921509, "learning_rate": 2.1090329710101113e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232678, "epoch": 3.4812104581141856, "step": 45670}, {"loss": 0.06769940853118897, "token_acc": 0.977577834904313, "grad_norm": 0.9836214184761047, "learning_rate": 2.108056140797115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23268, "epoch": 3.4815915847244456, "step": 45675}, {"loss": 0.0731998085975647, "token_acc": 0.9744688142563399, "grad_norm": 0.6712965369224548, "learning_rate": 2.107079476423679e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232686, "epoch": 3.481972711334705, "step": 45680}, {"loss": 0.05543010234832764, "token_acc": 0.9739724414085502, "grad_norm": 0.7678058743476868, "learning_rate": 2.1061029779458112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232689, "epoch": 3.4823538379449652, "step": 45685}, {"loss": 0.10301198959350585, "token_acc": 0.965526247061896, "grad_norm": 3.574603796005249, "learning_rate": 2.1051266454195072e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232694, "epoch": 3.4827349645552252, "step": 45690}, {"loss": 0.05302752256393432, "token_acc": 0.9825923312161844, "grad_norm": 1.8791759014129639, "learning_rate": 2.104150478900756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2327, "epoch": 3.4831160911654853, "step": 45695}, {"loss": 0.07178840041160583, "token_acc": 0.9773844641101278, "grad_norm": 0.6351460218429565, "learning_rate": 2.1031744784455387e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232702, "epoch": 3.4834972177757453, "step": 45700}, {"loss": 0.0454012542963028, "token_acc": 0.9759450171821306, "grad_norm": 0.8995490670204163, "learning_rate": 2.1021986441098196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232709, "epoch": 3.483878344386005, "step": 45705}, {"loss": 0.06787364482879639, "token_acc": 0.9738601823708206, "grad_norm": 1.6305568218231201, "learning_rate": 2.101222975949561e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232713, "epoch": 3.484259470996265, "step": 45710}, {"loss": 0.07315539717674255, "token_acc": 0.9667411268304791, "grad_norm": 1.3048747777938843, "learning_rate": 2.100247474020715e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23272, "epoch": 3.484640597606525, "step": 45715}, {"loss": 0.05162966251373291, "token_acc": 0.9789932112206994, "grad_norm": 1.1352070569992065, "learning_rate": 2.099272138379218e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232721, "epoch": 3.485021724216785, "step": 45720}, {"loss": 0.05077582597732544, "token_acc": 0.9775183744055339, "grad_norm": 1.1906036138534546, "learning_rate": 2.0982969690810023e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23273, "epoch": 3.485402850827045, "step": 45725}, {"loss": 0.06823775172233582, "token_acc": 0.9712320200125079, "grad_norm": 1.115087866783142, "learning_rate": 2.097321966181992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232734, "epoch": 3.4857839774373045, "step": 45730}, {"loss": 0.05600858926773071, "token_acc": 0.979443115075049, "grad_norm": 1.0002802610397339, "learning_rate": 2.0963471297380953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232733, "epoch": 3.4861651040475645, "step": 45735}, {"loss": 0.06474840641021729, "token_acc": 0.9806228373702423, "grad_norm": 3.488795518875122, "learning_rate": 2.095372459805216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232739, "epoch": 3.4865462306578245, "step": 45740}, {"loss": 0.07057619094848633, "token_acc": 0.9705704495061479, "grad_norm": 1.491994857788086, "learning_rate": 2.0943979564392487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232745, "epoch": 3.4869273572680846, "step": 45745}, {"loss": 0.037183725833892824, "token_acc": 0.9853254734729713, "grad_norm": 0.9350032210350037, "learning_rate": 2.0934236196960733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232747, "epoch": 3.4873084838783446, "step": 45750}, {"loss": 0.05650555491447449, "token_acc": 0.9750659314313115, "grad_norm": 1.668515920639038, "learning_rate": 2.0924494496315648e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232753, "epoch": 3.487689610488604, "step": 45755}, {"loss": 0.041441628336906434, "token_acc": 0.9842133913990201, "grad_norm": 0.781704843044281, "learning_rate": 2.091475446301588e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23276, "epoch": 3.488070737098864, "step": 45760}, {"loss": 0.054609501361846925, "token_acc": 0.9759812536613942, "grad_norm": 1.0339933633804321, "learning_rate": 2.090501609761997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232765, "epoch": 3.488451863709124, "step": 45765}, {"loss": 0.07173210382461548, "token_acc": 0.9688270912760709, "grad_norm": 1.1245914697647095, "learning_rate": 2.089527940068639e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232769, "epoch": 3.488832990319384, "step": 45770}, {"loss": 0.0313246488571167, "token_acc": 0.9873307121013543, "grad_norm": 1.0721688270568848, "learning_rate": 2.0885544372773453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232778, "epoch": 3.4892141169296442, "step": 45775}, {"loss": 0.04572803974151611, "token_acc": 0.9787685774946921, "grad_norm": 0.7294628620147705, "learning_rate": 2.087581101443944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232783, "epoch": 3.489595243539904, "step": 45780}, {"loss": 0.0652586579322815, "token_acc": 0.9694624555532315, "grad_norm": 1.3219822645187378, "learning_rate": 2.0866079326242528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23279, "epoch": 3.489976370150164, "step": 45785}, {"loss": 0.06442931294441223, "token_acc": 0.9791487532244196, "grad_norm": 0.719188928604126, "learning_rate": 2.085634930874075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232796, "epoch": 3.490357496760424, "step": 45790}, {"loss": 0.08720421195030212, "token_acc": 0.9729931085863289, "grad_norm": 0.75143963098526, "learning_rate": 2.0846620962492102e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232802, "epoch": 3.490738623370684, "step": 45795}, {"loss": 0.10561884641647339, "token_acc": 0.9567338282078472, "grad_norm": 0.9573978185653687, "learning_rate": 2.083689428805447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232808, "epoch": 3.4911197499809434, "step": 45800}, {"eval_loss": 0.06182347238063812, "eval_token_acc": 0.9751596289380158, "eval_runtime": 226.3186, "eval_samples_per_second": 2.342, "eval_steps_per_second": 2.342, "epoch": 3.4911197499809434, "step": 45800}, {"loss": 0.04437752068042755, "token_acc": 0.975398123186164, "grad_norm": 0.5485325455665588, "learning_rate": 2.08271692859856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232548, "epoch": 3.4915008765912035, "step": 45805}, {"loss": 0.03662385046482086, "token_acc": 0.985014619883041, "grad_norm": 0.8883798122406006, "learning_rate": 2.081744595684319e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232554, "epoch": 3.4918820032014635, "step": 45810}, {"loss": 0.043571746349334715, "token_acc": 0.9822148881554822, "grad_norm": 0.5619946122169495, "learning_rate": 2.080772430118485e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232557, "epoch": 3.4922631298117235, "step": 45815}, {"loss": 0.0764374554157257, "token_acc": 0.9696127799965272, "grad_norm": 1.2625367641448975, "learning_rate": 2.0798004319568032e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232561, "epoch": 3.4926442564219835, "step": 45820}, {"loss": 0.05671080946922302, "token_acc": 0.9698919197117859, "grad_norm": 1.3199982643127441, "learning_rate": 2.0788286012550173e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232567, "epoch": 3.4930253830322435, "step": 45825}, {"loss": 0.07261161208152771, "token_acc": 0.9713932908005762, "grad_norm": 0.8210570812225342, "learning_rate": 2.0778569380688533e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23257, "epoch": 3.493406509642503, "step": 45830}, {"loss": 0.061373007297515866, "token_acc": 0.9731467473524962, "grad_norm": 0.9715078473091125, "learning_rate": 2.076885442454034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232576, "epoch": 3.493787636252763, "step": 45835}, {"loss": 0.04735950231552124, "token_acc": 0.9789439585357953, "grad_norm": 1.3919907808303833, "learning_rate": 2.075914114466271e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232583, "epoch": 3.494168762863023, "step": 45840}, {"loss": 0.04717410802841186, "token_acc": 0.9783762786481937, "grad_norm": 0.8763614296913147, "learning_rate": 2.0749429541612624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232585, "epoch": 3.494549889473283, "step": 45845}, {"loss": 0.05147503018379211, "token_acc": 0.9775530340404539, "grad_norm": 1.2443774938583374, "learning_rate": 2.073971961594701e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232593, "epoch": 3.4949310160835427, "step": 45850}, {"loss": 0.05053727030754089, "token_acc": 0.9802748585286984, "grad_norm": 0.8994700312614441, "learning_rate": 2.0730011368222718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232597, "epoch": 3.4953121426938027, "step": 45855}, {"loss": 0.04194928705692291, "token_acc": 0.976937984496124, "grad_norm": 1.186975121498108, "learning_rate": 2.072030479899642e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232602, "epoch": 3.4956932693040628, "step": 45860}, {"loss": 0.05754992961883545, "token_acc": 0.9786419207541611, "grad_norm": 1.6463955640792847, "learning_rate": 2.0710599908824775e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232606, "epoch": 3.496074395914323, "step": 45865}, {"loss": 0.047250676155090335, "token_acc": 0.9777863627583543, "grad_norm": 0.9804288148880005, "learning_rate": 2.0700896698264315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232611, "epoch": 3.496455522524583, "step": 45870}, {"loss": 0.054424136877059937, "token_acc": 0.9794903666873834, "grad_norm": 0.5005662441253662, "learning_rate": 2.0691195167871453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232617, "epoch": 3.496836649134843, "step": 45875}, {"loss": 0.06093894839286804, "token_acc": 0.9743279244369096, "grad_norm": 1.174930453300476, "learning_rate": 2.0681495318202538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232624, "epoch": 3.4972177757451024, "step": 45880}, {"loss": 0.06457515954971313, "token_acc": 0.9804255319148936, "grad_norm": 1.3117767572402954, "learning_rate": 2.0671797149813826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232632, "epoch": 3.4975989023553624, "step": 45885}, {"loss": 0.05853534340858459, "token_acc": 0.9781094527363184, "grad_norm": 3.543818235397339, "learning_rate": 2.0662100663261418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232641, "epoch": 3.4979800289656224, "step": 45890}, {"loss": 0.05648674368858338, "token_acc": 0.977856860419138, "grad_norm": 2.7436232566833496, "learning_rate": 2.0652405859101425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232649, "epoch": 3.4983611555758825, "step": 45895}, {"loss": 0.05645543336868286, "token_acc": 0.9795201872440024, "grad_norm": 1.3570802211761475, "learning_rate": 2.0642712737889748e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232657, "epoch": 3.498742282186142, "step": 45900}, {"loss": 0.051719683408737185, "token_acc": 0.9800995024875622, "grad_norm": 1.8019976615905762, "learning_rate": 2.063302130018226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232663, "epoch": 3.499123408796402, "step": 45905}, {"loss": 0.06969367265701294, "token_acc": 0.979606595313856, "grad_norm": 1.906590223312378, "learning_rate": 2.0623331546534742e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232667, "epoch": 3.499504535406662, "step": 45910}, {"loss": 0.06738216876983642, "token_acc": 0.9777530589543938, "grad_norm": 0.7500190138816833, "learning_rate": 2.0613643477502813e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232674, "epoch": 3.499885662016922, "step": 45915}, {"loss": 0.06168020963668823, "token_acc": 0.9781445138269402, "grad_norm": 2.2650322914123535, "learning_rate": 2.0603957093642068e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23268, "epoch": 3.500266788627182, "step": 45920}, {"loss": 0.03812500238418579, "token_acc": 0.9849837662337663, "grad_norm": 0.7972579002380371, "learning_rate": 2.0594272395507985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232689, "epoch": 3.500647915237442, "step": 45925}, {"loss": 0.06808693408966064, "token_acc": 0.9768292682926829, "grad_norm": 1.9578025341033936, "learning_rate": 2.05845893836559e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232693, "epoch": 3.5010290418477017, "step": 45930}, {"loss": 0.048974961042404175, "token_acc": 0.9843908629441624, "grad_norm": 1.0077353715896606, "learning_rate": 2.057490805864111e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232694, "epoch": 3.5014101684579617, "step": 45935}, {"loss": 0.058753442764282224, "token_acc": 0.9793466807165437, "grad_norm": 2.153729200363159, "learning_rate": 2.0565228421018818e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2327, "epoch": 3.5017912950682217, "step": 45940}, {"loss": 0.06040411591529846, "token_acc": 0.9706242350061199, "grad_norm": 0.014175181277096272, "learning_rate": 2.0555550471344054e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232706, "epoch": 3.5021724216784818, "step": 45945}, {"loss": 0.07539054751396179, "token_acc": 0.9686411149825784, "grad_norm": 1.1168289184570312, "learning_rate": 2.054587421017184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232712, "epoch": 3.5025535482887413, "step": 45950}, {"loss": 0.07214447855949402, "token_acc": 0.9767566123430403, "grad_norm": 1.7553696632385254, "learning_rate": 2.053619963805707e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232713, "epoch": 3.5029346748990013, "step": 45955}, {"loss": 0.06568965911865235, "token_acc": 0.9710848459265513, "grad_norm": 1.647191047668457, "learning_rate": 2.0526526755554502e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232718, "epoch": 3.5033158015092614, "step": 45960}, {"loss": 0.051267361640930174, "token_acc": 0.9748013620885357, "grad_norm": 1.2985783815383911, "learning_rate": 2.0516855563218858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232724, "epoch": 3.5036969281195214, "step": 45965}, {"loss": 0.04899776577949524, "token_acc": 0.9792133686570206, "grad_norm": 0.7569097876548767, "learning_rate": 2.0507186061604738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232725, "epoch": 3.5040780547297814, "step": 45970}, {"loss": 0.0999957025051117, "token_acc": 0.9600298841987299, "grad_norm": 1.3438225984573364, "learning_rate": 2.0497518251266622e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232732, "epoch": 3.5044591813400414, "step": 45975}, {"loss": 0.05862660408020019, "token_acc": 0.9765296431963099, "grad_norm": 0.6926179528236389, "learning_rate": 2.048785213275893e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232735, "epoch": 3.504840307950301, "step": 45980}, {"loss": 0.050265824794769286, "token_acc": 0.9771807140228193, "grad_norm": 0.16106900572776794, "learning_rate": 2.0478187706635977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232743, "epoch": 3.505221434560561, "step": 45985}, {"loss": 0.04796984195709229, "token_acc": 0.9813501699854298, "grad_norm": 0.5569798350334167, "learning_rate": 2.046852497345194e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232742, "epoch": 3.505602561170821, "step": 45990}, {"loss": 0.03199462592601776, "token_acc": 0.9819102749638206, "grad_norm": 1.264333724975586, "learning_rate": 2.0458863933760973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23275, "epoch": 3.5059836877810806, "step": 45995}, {"loss": 0.05693466067314148, "token_acc": 0.9753280839895013, "grad_norm": 0.7602733373641968, "learning_rate": 2.044920458811706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232757, "epoch": 3.5063648143913406, "step": 46000}, {"eval_loss": 0.06152508407831192, "eval_token_acc": 0.9749262092645021, "eval_runtime": 224.0345, "eval_samples_per_second": 2.366, "eval_steps_per_second": 2.366, "epoch": 3.5063648143913406, "step": 46000}, {"loss": 0.074873948097229, "token_acc": 0.975016762382299, "grad_norm": 0.6322149038314819, "learning_rate": 2.0439546937074127e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232496, "epoch": 3.5067459410016006, "step": 46005}, {"loss": 0.07756444215774536, "token_acc": 0.9678099252730408, "grad_norm": 1.7046021223068237, "learning_rate": 2.0429890981186017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232501, "epoch": 3.5071270676118607, "step": 46010}, {"loss": 0.07456346750259399, "token_acc": 0.9743505425846761, "grad_norm": 1.5571244955062866, "learning_rate": 2.0420236721006418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232508, "epoch": 3.5075081942221207, "step": 46015}, {"loss": 0.054862552881240846, "token_acc": 0.9746628524724152, "grad_norm": 1.1427301168441772, "learning_rate": 2.041058415708898e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232514, "epoch": 3.5078893208323807, "step": 46020}, {"loss": 0.0648173987865448, "token_acc": 0.979019330504479, "grad_norm": 0.7011398077011108, "learning_rate": 2.040093328998723e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232515, "epoch": 3.5082704474426407, "step": 46025}, {"loss": 0.059105384349823, "token_acc": 0.9775767853778029, "grad_norm": 0.8604607582092285, "learning_rate": 2.0391284120254594e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23252, "epoch": 3.5086515740529003, "step": 46030}, {"loss": 0.04441819489002228, "token_acc": 0.9822762814943528, "grad_norm": 0.6817874312400818, "learning_rate": 2.0381636648444413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232525, "epoch": 3.5090327006631603, "step": 46035}, {"loss": 0.05625681877136231, "token_acc": 0.9767296904217744, "grad_norm": 2.0082995891571045, "learning_rate": 2.0371990875109948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232532, "epoch": 3.5094138272734203, "step": 46040}, {"loss": 0.059069865942001344, "token_acc": 0.9749936208216382, "grad_norm": 0.5969873666763306, "learning_rate": 2.0362346800804294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232538, "epoch": 3.50979495388368, "step": 46045}, {"loss": 0.05012603998184204, "token_acc": 0.9789612097304405, "grad_norm": 0.8075672388076782, "learning_rate": 2.035270442608053e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23254, "epoch": 3.51017608049394, "step": 46050}, {"loss": 0.05600680112838745, "token_acc": 0.9744479495268139, "grad_norm": 0.8069801926612854, "learning_rate": 2.0343063751491575e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232548, "epoch": 3.5105572071042, "step": 46055}, {"loss": 0.10414590835571289, "token_acc": 0.9685990338164251, "grad_norm": 0.88272625207901, "learning_rate": 2.033342477759029e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232551, "epoch": 3.51093833371446, "step": 46060}, {"loss": 0.04015759825706482, "token_acc": 0.9871092491137609, "grad_norm": 0.7826039791107178, "learning_rate": 2.0323787504929433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232559, "epoch": 3.51131946032472, "step": 46065}, {"loss": 0.06349260210990906, "token_acc": 0.975020587427944, "grad_norm": 2.4727163314819336, "learning_rate": 2.0314151934061637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232562, "epoch": 3.51170058693498, "step": 46070}, {"loss": 0.05157172679901123, "token_acc": 0.9753761969904241, "grad_norm": 1.177433729171753, "learning_rate": 2.0304518065539467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232568, "epoch": 3.5120817135452396, "step": 46075}, {"loss": 0.08985299468040467, "token_acc": 0.9770612768687841, "grad_norm": 0.8229337930679321, "learning_rate": 2.02948858999154e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232568, "epoch": 3.5124628401554996, "step": 46080}, {"loss": 0.07765599489212036, "token_acc": 0.9769404672192916, "grad_norm": 0.8853925466537476, "learning_rate": 2.0285255437741756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232573, "epoch": 3.5128439667657596, "step": 46085}, {"loss": 0.0519239604473114, "token_acc": 0.9794431433775697, "grad_norm": 1.4233826398849487, "learning_rate": 2.0275626679570824e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23258, "epoch": 3.5132250933760196, "step": 46090}, {"loss": 0.04199601411819458, "token_acc": 0.9777236338322312, "grad_norm": 0.6709772348403931, "learning_rate": 2.0265999625954786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232583, "epoch": 3.513606219986279, "step": 46095}, {"loss": 0.0628137469291687, "token_acc": 0.9793618034608668, "grad_norm": 0.608588695526123, "learning_rate": 2.0256374277445662e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232586, "epoch": 3.513987346596539, "step": 46100}, {"loss": 0.06833767890930176, "token_acc": 0.9739417387346382, "grad_norm": 1.5200026035308838, "learning_rate": 2.024675063459545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232587, "epoch": 3.5143684732067992, "step": 46105}, {"loss": 0.05672979950904846, "token_acc": 0.9761258817145958, "grad_norm": 1.4021960496902466, "learning_rate": 2.0237128697956033e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23259, "epoch": 3.5147495998170593, "step": 46110}, {"loss": 0.04986168742179871, "token_acc": 0.9807524059492564, "grad_norm": 0.07328073680400848, "learning_rate": 2.022750846807915e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232596, "epoch": 3.5151307264273193, "step": 46115}, {"loss": 0.06388010382652283, "token_acc": 0.9756790903348074, "grad_norm": 0.8316476345062256, "learning_rate": 2.02178899455165e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232599, "epoch": 3.5155118530375793, "step": 46120}, {"loss": 0.054142999649047854, "token_acc": 0.9763903462749213, "grad_norm": 0.879058837890625, "learning_rate": 2.0208273130819665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232604, "epoch": 3.515892979647839, "step": 46125}, {"loss": 0.03327067792415619, "token_acc": 0.9822703200552614, "grad_norm": 0.9695757031440735, "learning_rate": 2.0198658024540102e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232611, "epoch": 3.516274106258099, "step": 46130}, {"loss": 0.05499972701072693, "token_acc": 0.9828411811652035, "grad_norm": 1.2468252182006836, "learning_rate": 2.018904462722921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232616, "epoch": 3.516655232868359, "step": 46135}, {"loss": 0.055069136619567874, "token_acc": 0.9771428571428571, "grad_norm": 0.7676615118980408, "learning_rate": 2.017943293943828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232619, "epoch": 3.517036359478619, "step": 46140}, {"loss": 0.05534220933914184, "token_acc": 0.9800214822771214, "grad_norm": 0.6986245512962341, "learning_rate": 2.0169822961718476e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232627, "epoch": 3.5174174860888785, "step": 46145}, {"loss": 0.07410275936126709, "token_acc": 0.9769295302013423, "grad_norm": 1.2194929122924805, "learning_rate": 2.0160214694620887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232635, "epoch": 3.5177986126991385, "step": 46150}, {"loss": 0.051240730285644534, "token_acc": 0.9822473270123059, "grad_norm": 0.7096107006072998, "learning_rate": 2.0150608138696538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232641, "epoch": 3.5181797393093985, "step": 46155}, {"loss": 0.04515378773212433, "token_acc": 0.9822380106571936, "grad_norm": 1.469334602355957, "learning_rate": 2.0141003294496253e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232648, "epoch": 3.5185608659196586, "step": 46160}, {"loss": 0.050509297847747804, "token_acc": 0.9814029809927526, "grad_norm": 1.4720138311386108, "learning_rate": 2.0131400162570907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23265, "epoch": 3.5189419925299186, "step": 46165}, {"loss": 0.03953019380569458, "token_acc": 0.9827364081422314, "grad_norm": 2.2241880893707275, "learning_rate": 2.012179874347113e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232657, "epoch": 3.5193231191401786, "step": 46170}, {"loss": 0.09225237369537354, "token_acc": 0.966791199667912, "grad_norm": 3.7867226600646973, "learning_rate": 2.0112199037747553e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232664, "epoch": 3.519704245750438, "step": 46175}, {"loss": 0.06710940599441528, "token_acc": 0.9732595666205625, "grad_norm": 1.2564043998718262, "learning_rate": 2.0102601045950676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232667, "epoch": 3.520085372360698, "step": 46180}, {"loss": 0.053464758396148684, "token_acc": 0.9812332439678284, "grad_norm": 2.2581868171691895, "learning_rate": 2.009300476863087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232676, "epoch": 3.520466498970958, "step": 46185}, {"loss": 0.08877884149551392, "token_acc": 0.9693308550185874, "grad_norm": 1.5457837581634521, "learning_rate": 2.0083410206338455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23268, "epoch": 3.520847625581218, "step": 46190}, {"loss": 0.0888767421245575, "token_acc": 0.967429177397364, "grad_norm": 1.5769003629684448, "learning_rate": 2.0073817359623654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232685, "epoch": 3.521228752191478, "step": 46195}, {"loss": 0.058543580770492556, "token_acc": 0.9751920614596671, "grad_norm": 0.8570423126220703, "learning_rate": 2.0064226229036538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232689, "epoch": 3.521609878801738, "step": 46200}, {"eval_loss": 0.06178486719727516, "eval_token_acc": 0.9748584422625143, "eval_runtime": 220.9613, "eval_samples_per_second": 2.399, "eval_steps_per_second": 2.399, "epoch": 3.521609878801738, "step": 46200}, {"loss": 0.03944112658500672, "token_acc": 0.9749647519486876, "grad_norm": 0.9546840786933899, "learning_rate": 2.0054636815127125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232437, "epoch": 3.521991005411998, "step": 46205}, {"loss": 0.04989332556724548, "token_acc": 0.980319803198032, "grad_norm": 1.3733474016189575, "learning_rate": 2.0045049118445346e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232444, "epoch": 3.522372132022258, "step": 46210}, {"loss": 0.06647968292236328, "token_acc": 0.9831610044313146, "grad_norm": 4.39862060546875, "learning_rate": 2.003546313954097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232451, "epoch": 3.522753258632518, "step": 46215}, {"loss": 0.05379894971847534, "token_acc": 0.9757350842135313, "grad_norm": 1.4540331363677979, "learning_rate": 2.0025878878963756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232458, "epoch": 3.523134385242778, "step": 46220}, {"loss": 0.04057295620441437, "token_acc": 0.9811029032812232, "grad_norm": 0.8511389493942261, "learning_rate": 2.0016296337263267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232465, "epoch": 3.5235155118530375, "step": 46225}, {"loss": 0.04477899372577667, "token_acc": 0.985838779956427, "grad_norm": 2.454878568649292, "learning_rate": 2.000671551498905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23247, "epoch": 3.5238966384632975, "step": 46230}, {"loss": 0.07031739354133607, "token_acc": 0.9813147845062739, "grad_norm": 0.788938581943512, "learning_rate": 1.999713641269052e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232473, "epoch": 3.5242777650735575, "step": 46235}, {"loss": 0.1013608455657959, "token_acc": 0.9573542210617929, "grad_norm": 2.132746934890747, "learning_rate": 1.9987559030916976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232481, "epoch": 3.5246588916838175, "step": 46240}, {"loss": 0.05814366936683655, "token_acc": 0.981555333998006, "grad_norm": 0.6466344594955444, "learning_rate": 1.9977983370217645e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232484, "epoch": 3.525040018294077, "step": 46245}, {"loss": 0.05039224624633789, "token_acc": 0.9778787280268616, "grad_norm": 0.9116997718811035, "learning_rate": 1.9968409431141666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232489, "epoch": 3.525421144904337, "step": 46250}, {"loss": 0.05010125637054443, "token_acc": 0.979548845782498, "grad_norm": 0.8482143878936768, "learning_rate": 1.9958837214238025e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232487, "epoch": 3.525802271514597, "step": 46255}, {"loss": 0.04483374655246734, "token_acc": 0.9866666666666667, "grad_norm": 0.45206859707832336, "learning_rate": 1.994926672005566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23249, "epoch": 3.526183398124857, "step": 46260}, {"loss": 0.0769361436367035, "token_acc": 0.9678462061925825, "grad_norm": 1.170863151550293, "learning_rate": 1.9939697949143416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232494, "epoch": 3.526564524735117, "step": 46265}, {"loss": 0.05903710126876831, "token_acc": 0.9813333333333333, "grad_norm": 1.2434415817260742, "learning_rate": 1.9930130902049976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2325, "epoch": 3.526945651345377, "step": 46270}, {"loss": 0.05915390253067017, "token_acc": 0.9734111543450065, "grad_norm": 1.469412088394165, "learning_rate": 1.992056557932399e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232505, "epoch": 3.5273267779556368, "step": 46275}, {"loss": 0.03972023129463196, "token_acc": 0.9821131447587355, "grad_norm": 1.3485966920852661, "learning_rate": 1.9911001981514006e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232511, "epoch": 3.527707904565897, "step": 46280}, {"loss": 0.04189539849758148, "token_acc": 0.9807907080634354, "grad_norm": 0.7872074842453003, "learning_rate": 1.99014401091684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232517, "epoch": 3.528089031176157, "step": 46285}, {"loss": 0.05509365200996399, "token_acc": 0.9760493241640977, "grad_norm": 2.1449637413024902, "learning_rate": 1.9891879962835535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232523, "epoch": 3.5284701577864164, "step": 46290}, {"loss": 0.053091973066329956, "token_acc": 0.9742424242424242, "grad_norm": 0.8847402334213257, "learning_rate": 1.9882321543063636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23253, "epoch": 3.5288512843966764, "step": 46295}, {"loss": 0.060461944341659545, "token_acc": 0.9769487412799515, "grad_norm": 0.6113286018371582, "learning_rate": 1.9872764850400834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232533, "epoch": 3.5292324110069364, "step": 46300}, {"loss": 0.030284661054611205, "token_acc": 0.9895498392282959, "grad_norm": 1.4088778495788574, "learning_rate": 1.986320988539518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232542, "epoch": 3.5296135376171964, "step": 46305}, {"loss": 0.07856906652450561, "token_acc": 0.9668759471747131, "grad_norm": 1.830336332321167, "learning_rate": 1.9853656648594567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232547, "epoch": 3.5299946642274564, "step": 46310}, {"loss": 0.04973042011260986, "token_acc": 0.9810184579133394, "grad_norm": 0.8462036848068237, "learning_rate": 1.984410514054684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232549, "epoch": 3.5303757908377165, "step": 46315}, {"loss": 0.06579681634902954, "token_acc": 0.9766835626357712, "grad_norm": 0.9528764486312866, "learning_rate": 1.983455536179977e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232552, "epoch": 3.5307569174479765, "step": 46320}, {"loss": 0.0813897967338562, "token_acc": 0.9710720363017583, "grad_norm": 2.5461556911468506, "learning_rate": 1.982500731290095e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23256, "epoch": 3.531138044058236, "step": 46325}, {"loss": 0.06899614334106445, "token_acc": 0.97420063126115, "grad_norm": 0.8801552057266235, "learning_rate": 1.9815460994397928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232562, "epoch": 3.531519170668496, "step": 46330}, {"loss": 0.056531739234924314, "token_acc": 0.9674716609167078, "grad_norm": 1.2618391513824463, "learning_rate": 1.980591640683816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232569, "epoch": 3.531900297278756, "step": 46335}, {"loss": 0.056615781784057614, "token_acc": 0.9803964757709251, "grad_norm": 1.9378024339675903, "learning_rate": 1.9796373550768952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232576, "epoch": 3.5322814238890157, "step": 46340}, {"loss": 0.05144315361976624, "token_acc": 0.9781138790035587, "grad_norm": 1.0068256855010986, "learning_rate": 1.9786832426737563e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232581, "epoch": 3.5326625504992757, "step": 46345}, {"loss": 0.058718568086624144, "token_acc": 0.9738496354035705, "grad_norm": 0.8637687563896179, "learning_rate": 1.977729303529114e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232581, "epoch": 3.5330436771095357, "step": 46350}, {"loss": 0.04716317653656006, "token_acc": 0.9793125397835774, "grad_norm": 1.7702547311782837, "learning_rate": 1.97677553769767e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232588, "epoch": 3.5334248037197957, "step": 46355}, {"loss": 0.05220912098884582, "token_acc": 0.9802806219188471, "grad_norm": 1.024194359779358, "learning_rate": 1.9758219452341186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232596, "epoch": 3.5338059303300557, "step": 46360}, {"loss": 0.04159487783908844, "token_acc": 0.9841459766676638, "grad_norm": 0.9323307871818542, "learning_rate": 1.974868526193147e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232603, "epoch": 3.5341870569403158, "step": 46365}, {"loss": 0.04836551249027252, "token_acc": 0.9749334168886103, "grad_norm": 0.8474838137626648, "learning_rate": 1.973915280629425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232609, "epoch": 3.5345681835505753, "step": 46370}, {"loss": 0.03494167029857635, "token_acc": 0.9838411819021238, "grad_norm": 1.1813925504684448, "learning_rate": 1.9729622085976197e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232617, "epoch": 3.5349493101608354, "step": 46375}, {"loss": 0.04111408293247223, "token_acc": 0.9858718792335979, "grad_norm": 0.7246534824371338, "learning_rate": 1.9720093101523857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232621, "epoch": 3.5353304367710954, "step": 46380}, {"loss": 0.04697161316871643, "token_acc": 0.9745620350371971, "grad_norm": 0.320162296295166, "learning_rate": 1.9710565853483643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232627, "epoch": 3.5357115633813554, "step": 46385}, {"loss": 0.05758148431777954, "token_acc": 0.9713163064833006, "grad_norm": 1.055559515953064, "learning_rate": 1.9701040342401938e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232634, "epoch": 3.536092689991615, "step": 46390}, {"loss": 0.04179710447788239, "token_acc": 0.9821720398157777, "grad_norm": 1.1093605756759644, "learning_rate": 1.969151656882495e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232639, "epoch": 3.536473816601875, "step": 46395}, {"loss": 0.03223057985305786, "token_acc": 0.9883570504527813, "grad_norm": 1.3724945783615112, "learning_rate": 1.968199453329883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232646, "epoch": 3.536854943212135, "step": 46400}, {"eval_loss": 0.06018233671784401, "eval_token_acc": 0.9755361122823927, "eval_runtime": 220.4067, "eval_samples_per_second": 2.405, "eval_steps_per_second": 2.405, "epoch": 3.536854943212135, "step": 46400}, {"loss": 0.0579162061214447, "token_acc": 0.9755937061300889, "grad_norm": 1.3051786422729492, "learning_rate": 1.9672474236369654e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232396, "epoch": 3.537236069822395, "step": 46405}, {"loss": 0.04800903797149658, "token_acc": 0.9753782260456838, "grad_norm": 1.0037888288497925, "learning_rate": 1.9662955678583324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232403, "epoch": 3.537617196432655, "step": 46410}, {"loss": 0.03647419810295105, "token_acc": 0.9793055874913773, "grad_norm": 0.9799992442131042, "learning_rate": 1.9653438860485705e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232409, "epoch": 3.537998323042915, "step": 46415}, {"loss": 0.04175435304641724, "token_acc": 0.9847942754919499, "grad_norm": 1.5945441722869873, "learning_rate": 1.964392378262256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232415, "epoch": 3.5383794496531746, "step": 46420}, {"loss": 0.060189032554626466, "token_acc": 0.972972972972973, "grad_norm": 2.349905014038086, "learning_rate": 1.963441044553948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232422, "epoch": 3.5387605762634347, "step": 46425}, {"loss": 0.06092397570610046, "token_acc": 0.9802140117100747, "grad_norm": 1.5676814317703247, "learning_rate": 1.962489884978207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232428, "epoch": 3.5391417028736947, "step": 46430}, {"loss": 0.03606921434402466, "token_acc": 0.9817596566523605, "grad_norm": 1.7719299793243408, "learning_rate": 1.9615388995895768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232438, "epoch": 3.5395228294839547, "step": 46435}, {"loss": 0.044089436531066895, "token_acc": 0.9846938775510204, "grad_norm": 0.8293426632881165, "learning_rate": 1.9605880884425888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232442, "epoch": 3.5399039560942143, "step": 46440}, {"loss": 0.05848800539970398, "token_acc": 0.9779210629152012, "grad_norm": 0.9187294244766235, "learning_rate": 1.959637451591771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232441, "epoch": 3.5402850827044743, "step": 46445}, {"loss": 0.07417986392974854, "token_acc": 0.9689922480620154, "grad_norm": 1.5700602531433105, "learning_rate": 1.9586869890916344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232448, "epoch": 3.5406662093147343, "step": 46450}, {"loss": 0.04246101379394531, "token_acc": 0.9816969696969697, "grad_norm": 0.452915757894516, "learning_rate": 1.9577367009966857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232447, "epoch": 3.5410473359249943, "step": 46455}, {"loss": 0.07409543991088867, "token_acc": 0.9790446841294299, "grad_norm": 1.6963430643081665, "learning_rate": 1.9567865873614217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232454, "epoch": 3.5414284625352543, "step": 46460}, {"loss": 0.05037371516227722, "token_acc": 0.9775280898876404, "grad_norm": 0.8971818089485168, "learning_rate": 1.9558366482403223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232461, "epoch": 3.5418095891455144, "step": 46465}, {"loss": 0.0497003048658371, "token_acc": 0.982296867907399, "grad_norm": 0.7752423286437988, "learning_rate": 1.9548868836878643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232462, "epoch": 3.542190715755774, "step": 46470}, {"loss": 0.03642245829105377, "token_acc": 0.9853562801932367, "grad_norm": 0.4826826751232147, "learning_rate": 1.9539372937585148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232464, "epoch": 3.542571842366034, "step": 46475}, {"loss": 0.06577748656272889, "token_acc": 0.9779804270462633, "grad_norm": 1.7694352865219116, "learning_rate": 1.952987878506724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23247, "epoch": 3.542952968976294, "step": 46480}, {"loss": 0.051110750436782836, "token_acc": 0.9731400047539814, "grad_norm": 0.9567990303039551, "learning_rate": 1.9520386379869383e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232477, "epoch": 3.543334095586554, "step": 46485}, {"loss": 0.03891555070877075, "token_acc": 0.9800386349001932, "grad_norm": 0.8953652381896973, "learning_rate": 1.9510895722535943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232483, "epoch": 3.5437152221968136, "step": 46490}, {"loss": 0.05440452098846436, "token_acc": 0.980661658941985, "grad_norm": 0.751865804195404, "learning_rate": 1.9501406813611134e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232487, "epoch": 3.5440963488070736, "step": 46495}, {"loss": 0.05926657915115356, "token_acc": 0.9764376996805112, "grad_norm": 2.1480767726898193, "learning_rate": 1.9491919653639107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232492, "epoch": 3.5444774754173336, "step": 46500}, {"loss": 0.053774744272232056, "token_acc": 0.9793584793584793, "grad_norm": 0.8232603669166565, "learning_rate": 1.9482434243163933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232495, "epoch": 3.5448586020275936, "step": 46505}, {"loss": 0.08111108541488647, "token_acc": 0.9816910785619174, "grad_norm": 3.2298083305358887, "learning_rate": 1.947295058272952e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232501, "epoch": 3.5452397286378536, "step": 46510}, {"loss": 0.05054931044578552, "token_acc": 0.9842051630434783, "grad_norm": 0.484810471534729, "learning_rate": 1.9463468672879724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232503, "epoch": 3.5456208552481137, "step": 46515}, {"loss": 0.0615386962890625, "token_acc": 0.9810665825181445, "grad_norm": 0.7116111516952515, "learning_rate": 1.9453988514158317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232509, "epoch": 3.5460019818583732, "step": 46520}, {"loss": 0.0754745602607727, "token_acc": 0.9763194551926946, "grad_norm": 1.34740149974823, "learning_rate": 1.94445101071089e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232514, "epoch": 3.5463831084686332, "step": 46525}, {"loss": 0.06733548641204834, "token_acc": 0.9711445198836082, "grad_norm": 1.9555062055587769, "learning_rate": 1.943503345227503e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232519, "epoch": 3.5467642350788933, "step": 46530}, {"loss": 0.07735669016838073, "token_acc": 0.9782788580885395, "grad_norm": 3.080296516418457, "learning_rate": 1.942555855020017e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232522, "epoch": 3.5471453616891533, "step": 46535}, {"loss": 0.06380118727684021, "token_acc": 0.9750851788756388, "grad_norm": 1.4671250581741333, "learning_rate": 1.9416085401427624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232528, "epoch": 3.547526488299413, "step": 46540}, {"loss": 0.07913438081741334, "token_acc": 0.96875, "grad_norm": 2.0047996044158936, "learning_rate": 1.9406614006500663e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232535, "epoch": 3.547907614909673, "step": 46545}, {"loss": 0.0686512291431427, "token_acc": 0.9667226890756303, "grad_norm": 1.2483727931976318, "learning_rate": 1.9397144365962426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232542, "epoch": 3.548288741519933, "step": 46550}, {"loss": 0.03189200162887573, "token_acc": 0.9844717538344289, "grad_norm": 0.5558659434318542, "learning_rate": 1.9387676480355934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232541, "epoch": 3.548669868130193, "step": 46555}, {"loss": 0.08162121772766114, "token_acc": 0.9652288732394366, "grad_norm": 3.1626100540161133, "learning_rate": 1.9378210350224137e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23255, "epoch": 3.549050994740453, "step": 46560}, {"loss": 0.03679351806640625, "token_acc": 0.9865347622973344, "grad_norm": 0.6716939806938171, "learning_rate": 1.9368745976109868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232557, "epoch": 3.549432121350713, "step": 46565}, {"loss": 0.09341654777526856, "token_acc": 0.9655762973111834, "grad_norm": 1.5060303211212158, "learning_rate": 1.9359283358555873e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232562, "epoch": 3.5498132479609725, "step": 46570}, {"loss": 0.05068185329437256, "token_acc": 0.9803632793323515, "grad_norm": 1.1053876876831055, "learning_rate": 1.934982249810481e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232571, "epoch": 3.5501943745712325, "step": 46575}, {"loss": 0.0559003472328186, "token_acc": 0.9755043227665706, "grad_norm": 1.6908422708511353, "learning_rate": 1.934036339529917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232575, "epoch": 3.5505755011814926, "step": 46580}, {"loss": 0.05929225087165833, "token_acc": 0.9795753829615694, "grad_norm": 1.6736327409744263, "learning_rate": 1.9330906050681415e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232582, "epoch": 3.5509566277917526, "step": 46585}, {"loss": 0.06202995777130127, "token_acc": 0.9728813559322034, "grad_norm": 1.9404592514038086, "learning_rate": 1.9321450464793888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232588, "epoch": 3.551337754402012, "step": 46590}, {"loss": 0.05335569381713867, "token_acc": 0.9766587024444036, "grad_norm": 1.0544624328613281, "learning_rate": 1.9311996638178797e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232594, "epoch": 3.551718881012272, "step": 46595}, {"loss": 0.038326188921928406, "token_acc": 0.9825384904243335, "grad_norm": 1.229246735572815, "learning_rate": 1.930254457137829e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232599, "epoch": 3.552100007622532, "step": 46600}, {"eval_loss": 0.06004065275192261, "eval_token_acc": 0.9757318836214686, "eval_runtime": 220.0813, "eval_samples_per_second": 2.408, "eval_steps_per_second": 2.408, "epoch": 3.552100007622532, "step": 46600}, {"loss": 0.0706146240234375, "token_acc": 0.9756352013258949, "grad_norm": 0.4382794499397278, "learning_rate": 1.9293094264934413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232351, "epoch": 3.552481134232792, "step": 46605}, {"loss": 0.047273358702659606, "token_acc": 0.9785211267605634, "grad_norm": 1.7722821235656738, "learning_rate": 1.9283645719389066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232356, "epoch": 3.5528622608430522, "step": 46610}, {"loss": 0.04250532388687134, "token_acc": 0.9838756536897153, "grad_norm": 0.5163552165031433, "learning_rate": 1.9274198935284114e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232359, "epoch": 3.5532433874533123, "step": 46615}, {"loss": 0.055315279960632326, "token_acc": 0.9764049764049764, "grad_norm": 2.0309224128723145, "learning_rate": 1.926475391316125e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232367, "epoch": 3.553624514063572, "step": 46620}, {"loss": 0.055416280031204225, "token_acc": 0.9780375487070493, "grad_norm": 1.0391697883605957, "learning_rate": 1.925531065356212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232372, "epoch": 3.554005640673832, "step": 46625}, {"loss": 0.06594306230545044, "token_acc": 0.9752918287937743, "grad_norm": 1.0408554077148438, "learning_rate": 1.9245869157028267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232378, "epoch": 3.554386767284092, "step": 46630}, {"loss": 0.057189762592315674, "token_acc": 0.9725412778176598, "grad_norm": 0.5788599848747253, "learning_rate": 1.923642942410109e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232384, "epoch": 3.5547678938943514, "step": 46635}, {"loss": 0.04145443737506867, "token_acc": 0.9794640621086902, "grad_norm": 2.3125197887420654, "learning_rate": 1.922699145532192e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232389, "epoch": 3.5551490205046115, "step": 46640}, {"loss": 0.02923901379108429, "token_acc": 0.986416148279802, "grad_norm": 1.3623069524765015, "learning_rate": 1.9217555251232e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232392, "epoch": 3.5555301471148715, "step": 46645}, {"loss": 0.04972193837165832, "token_acc": 0.978772378516624, "grad_norm": 1.2559106349945068, "learning_rate": 1.9208120812372428e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232399, "epoch": 3.5559112737251315, "step": 46650}, {"loss": 0.060518664121627805, "token_acc": 0.9792416860834569, "grad_norm": 0.7354571223258972, "learning_rate": 1.9198688139284228e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232403, "epoch": 3.5562924003353915, "step": 46655}, {"loss": 0.048020491003990175, "token_acc": 0.9787701317715959, "grad_norm": 0.9055386781692505, "learning_rate": 1.918925723250835e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232408, "epoch": 3.5566735269456515, "step": 46660}, {"loss": 0.06707985401153564, "token_acc": 0.9754886751473782, "grad_norm": 3.669761896133423, "learning_rate": 1.9179828092585572e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232415, "epoch": 3.5570546535559115, "step": 46665}, {"loss": 0.04676980376243591, "token_acc": 0.9815289438798056, "grad_norm": 0.694337785243988, "learning_rate": 1.9170400720056632e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232415, "epoch": 3.557435780166171, "step": 46670}, {"loss": 0.04263062179088593, "token_acc": 0.9835572024085225, "grad_norm": 1.0258665084838867, "learning_rate": 1.916097511546216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23242, "epoch": 3.557816906776431, "step": 46675}, {"loss": 0.05471775531768799, "token_acc": 0.9797388563710041, "grad_norm": 1.4888147115707397, "learning_rate": 1.9151551279342634e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232426, "epoch": 3.558198033386691, "step": 46680}, {"loss": 0.08222234845161439, "token_acc": 0.9745783427034955, "grad_norm": 1.089923620223999, "learning_rate": 1.914212921223849e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232432, "epoch": 3.5585791599969507, "step": 46685}, {"loss": 0.0498701274394989, "token_acc": 0.9777080581241744, "grad_norm": 0.7181756496429443, "learning_rate": 1.9132708914690055e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232437, "epoch": 3.5589602866072108, "step": 46690}, {"loss": 0.04854249060153961, "token_acc": 0.9809913378248316, "grad_norm": 1.48860502243042, "learning_rate": 1.912329038723749e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232444, "epoch": 3.5593414132174708, "step": 46695}, {"loss": 0.06345379948616028, "token_acc": 0.9810597766586381, "grad_norm": 1.5654714107513428, "learning_rate": 1.911387363042097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232445, "epoch": 3.559722539827731, "step": 46700}, {"loss": 0.053161400556564334, "token_acc": 0.9793103448275862, "grad_norm": 0.860392689704895, "learning_rate": 1.9104458644780448e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232451, "epoch": 3.560103666437991, "step": 46705}, {"loss": 0.07290263772010804, "token_acc": 0.977366529090667, "grad_norm": 0.7851295471191406, "learning_rate": 1.909504543085585e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232452, "epoch": 3.560484793048251, "step": 46710}, {"loss": 0.06825804114341735, "token_acc": 0.9701935301596271, "grad_norm": 1.3623138666152954, "learning_rate": 1.9085633989187003e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232457, "epoch": 3.5608659196585104, "step": 46715}, {"loss": 0.06235749125480652, "token_acc": 0.9779980657640233, "grad_norm": 1.5112305879592896, "learning_rate": 1.9076224320313564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232459, "epoch": 3.5612470462687704, "step": 46720}, {"loss": 0.06584340333938599, "token_acc": 0.976878612716763, "grad_norm": 1.3388617038726807, "learning_rate": 1.9066816424775157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232465, "epoch": 3.5616281728790304, "step": 46725}, {"loss": 0.057466650009155275, "token_acc": 0.9781653197221041, "grad_norm": 0.8380825519561768, "learning_rate": 1.9057410303111295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232467, "epoch": 3.5620092994892905, "step": 46730}, {"loss": 0.03178880214691162, "token_acc": 0.9853973602920528, "grad_norm": 1.2624478340148926, "learning_rate": 1.9048005955861348e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232474, "epoch": 3.56239042609955, "step": 46735}, {"loss": 0.04137397110462189, "token_acc": 0.9808749175642999, "grad_norm": 0.6632423400878906, "learning_rate": 1.9038603383564622e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232475, "epoch": 3.56277155270981, "step": 46740}, {"loss": 0.07065856456756592, "token_acc": 0.9693486590038314, "grad_norm": 1.4044800996780396, "learning_rate": 1.9029202586760335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232483, "epoch": 3.56315267932007, "step": 46745}, {"loss": 0.048653244972229004, "token_acc": 0.983561998446803, "grad_norm": 0.7929338812828064, "learning_rate": 1.9019803565987536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232486, "epoch": 3.56353380593033, "step": 46750}, {"loss": 0.08200629353523255, "token_acc": 0.9781810326204364, "grad_norm": 0.7877162098884583, "learning_rate": 1.901040632178524e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23249, "epoch": 3.56391493254059, "step": 46755}, {"loss": 0.056585633754730226, "token_acc": 0.9777680906713164, "grad_norm": 0.8441221117973328, "learning_rate": 1.9001010854692348e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232494, "epoch": 3.56429605915085, "step": 46760}, {"loss": 0.09119502305984498, "token_acc": 0.9760647263737499, "grad_norm": 1.3324960470199585, "learning_rate": 1.899161716524761e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232497, "epoch": 3.5646771857611097, "step": 46765}, {"loss": 0.0670171856880188, "token_acc": 0.9759829968119023, "grad_norm": 0.6199893355369568, "learning_rate": 1.8982225253989732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232501, "epoch": 3.5650583123713697, "step": 46770}, {"loss": 0.07434442043304443, "token_acc": 0.9776442307692308, "grad_norm": 1.3446202278137207, "learning_rate": 1.8972835121457316e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232508, "epoch": 3.5654394389816297, "step": 46775}, {"loss": 0.04837429821491242, "token_acc": 0.9753265602322206, "grad_norm": 0.8536604642868042, "learning_rate": 1.8963446768188808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232514, "epoch": 3.5658205655918898, "step": 46780}, {"loss": 0.03368062376976013, "token_acc": 0.9848665870171247, "grad_norm": 0.6545916199684143, "learning_rate": 1.895406019472261e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232517, "epoch": 3.5662016922021493, "step": 46785}, {"loss": 0.05305518507957459, "token_acc": 0.9764243614931237, "grad_norm": 1.2157056331634521, "learning_rate": 1.894467540159698e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232523, "epoch": 3.5665828188124094, "step": 46790}, {"loss": 0.045314455032348634, "token_acc": 0.9830148619957537, "grad_norm": 0.5284175872802734, "learning_rate": 1.8935292389350095e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232532, "epoch": 3.5669639454226694, "step": 46795}, {"loss": 0.05562052130699158, "token_acc": 0.9822499400335812, "grad_norm": 2.2114906311035156, "learning_rate": 1.8925911158520056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232536, "epoch": 3.5673450720329294, "step": 46800}, {"eval_loss": 0.05934963747859001, "eval_token_acc": 0.9757620022890188, "eval_runtime": 225.4803, "eval_samples_per_second": 2.351, "eval_steps_per_second": 2.351, "epoch": 3.5673450720329294, "step": 46800}, {"loss": 0.06269552111625672, "token_acc": 0.9759651151656219, "grad_norm": 1.445575475692749, "learning_rate": 1.8916531709644785e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232283, "epoch": 3.5677261986431894, "step": 46805}, {"loss": 0.06412315964698792, "token_acc": 0.9733428367783321, "grad_norm": 0.9567502737045288, "learning_rate": 1.8907154043262182e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232285, "epoch": 3.5681073252534494, "step": 46810}, {"loss": 0.049033185839653014, "token_acc": 0.9812274368231046, "grad_norm": 2.387922763824463, "learning_rate": 1.8897778159910022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232292, "epoch": 3.568488451863709, "step": 46815}, {"loss": 0.061077868938446044, "token_acc": 0.9791802212101497, "grad_norm": 0.9654027223587036, "learning_rate": 1.8888404060125937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232295, "epoch": 3.568869578473969, "step": 46820}, {"loss": 0.04631061851978302, "token_acc": 0.9819653179190752, "grad_norm": 2.002194881439209, "learning_rate": 1.88790317444475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232302, "epoch": 3.569250705084229, "step": 46825}, {"loss": 0.04250850081443787, "token_acc": 0.9836481981266868, "grad_norm": 1.6122676134109497, "learning_rate": 1.8869661213412177e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232305, "epoch": 3.569631831694489, "step": 46830}, {"loss": 0.05037444233894348, "token_acc": 0.9829931972789115, "grad_norm": 1.1179932355880737, "learning_rate": 1.8860292467557323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232313, "epoch": 3.5700129583047486, "step": 46835}, {"loss": 0.06316714882850646, "token_acc": 0.9788812785388128, "grad_norm": 0.6762893795967102, "learning_rate": 1.8850925507420204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232316, "epoch": 3.5703940849150086, "step": 46840}, {"loss": 0.03417057991027832, "token_acc": 0.9841864336246359, "grad_norm": 1.1523724794387817, "learning_rate": 1.884156033353794e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232324, "epoch": 3.5707752115252687, "step": 46845}, {"loss": 0.04842900633811951, "token_acc": 0.9810233005044439, "grad_norm": 1.4642258882522583, "learning_rate": 1.88321969464476e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232328, "epoch": 3.5711563381355287, "step": 46850}, {"loss": 0.05420316457748413, "token_acc": 0.9803828206837444, "grad_norm": 1.0618579387664795, "learning_rate": 1.882283534668614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232327, "epoch": 3.5715374647457887, "step": 46855}, {"loss": 0.062465840578079225, "token_acc": 0.9780353874313605, "grad_norm": 0.6396664977073669, "learning_rate": 1.8813475534790382e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232332, "epoch": 3.5719185913560487, "step": 46860}, {"loss": 0.06518712043762206, "token_acc": 0.9736356446084893, "grad_norm": 1.0759085416793823, "learning_rate": 1.880411751129708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232339, "epoch": 3.5722997179663083, "step": 46865}, {"loss": 0.08465058207511902, "token_acc": 0.9679874048806087, "grad_norm": 2.05277156829834, "learning_rate": 1.8794761276742884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232345, "epoch": 3.5726808445765683, "step": 46870}, {"loss": 0.0397034227848053, "token_acc": 0.9817732468334878, "grad_norm": 0.9153910279273987, "learning_rate": 1.8785406831664305e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232353, "epoch": 3.5730619711868283, "step": 46875}, {"loss": 0.05024414658546448, "token_acc": 0.9723623601667032, "grad_norm": 1.124255895614624, "learning_rate": 1.877605417659779e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232359, "epoch": 3.5734430977970884, "step": 46880}, {"loss": 0.05106344819068909, "token_acc": 0.9827665441176471, "grad_norm": 0.704498827457428, "learning_rate": 1.8766703312079693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232363, "epoch": 3.573824224407348, "step": 46885}, {"loss": 0.044501110911369324, "token_acc": 0.9830637007077856, "grad_norm": 0.635569155216217, "learning_rate": 1.8757354238646195e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232371, "epoch": 3.574205351017608, "step": 46890}, {"loss": 0.07547378540039062, "token_acc": 0.9784370698883621, "grad_norm": 1.60356605052948, "learning_rate": 1.8748006956833453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232374, "epoch": 3.574586477627868, "step": 46895}, {"loss": 0.05892327427864075, "token_acc": 0.9782768237193601, "grad_norm": 0.8736376762390137, "learning_rate": 1.8738661467177502e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232376, "epoch": 3.574967604238128, "step": 46900}, {"loss": 0.07203641533851624, "token_acc": 0.978563015312132, "grad_norm": 2.3551392555236816, "learning_rate": 1.872931777021423e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232384, "epoch": 3.575348730848388, "step": 46905}, {"loss": 0.061588054895401, "token_acc": 0.9720354523227384, "grad_norm": 1.2258864641189575, "learning_rate": 1.8719975866479467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232388, "epoch": 3.575729857458648, "step": 46910}, {"loss": 0.053876572847366334, "token_acc": 0.9796407185628743, "grad_norm": 0.7664706110954285, "learning_rate": 1.871063575650895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232393, "epoch": 3.5761109840689076, "step": 46915}, {"loss": 0.08210026025772095, "token_acc": 0.9716334164588528, "grad_norm": 1.612284779548645, "learning_rate": 1.8701297440838255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232397, "epoch": 3.5764921106791676, "step": 46920}, {"loss": 0.05902968049049377, "token_acc": 0.9787444389520514, "grad_norm": 1.2753187417984009, "learning_rate": 1.8691960920002905e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2324, "epoch": 3.5768732372894276, "step": 46925}, {"loss": 0.0838977575302124, "token_acc": 0.9741750358680057, "grad_norm": 1.8052647113800049, "learning_rate": 1.868262619453833e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232405, "epoch": 3.577254363899687, "step": 46930}, {"loss": 0.043978333473205566, "token_acc": 0.9810269537720223, "grad_norm": 0.6171461939811707, "learning_rate": 1.867329326497979e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23241, "epoch": 3.5776354905099472, "step": 46935}, {"loss": 0.044922256469726564, "token_acc": 0.9790832220738763, "grad_norm": 0.6597920656204224, "learning_rate": 1.866396213186251e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232414, "epoch": 3.5780166171202072, "step": 46940}, {"loss": 0.043079647421836856, "token_acc": 0.9848305752561072, "grad_norm": 1.5426667928695679, "learning_rate": 1.8654632795721606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232418, "epoch": 3.5783977437304673, "step": 46945}, {"loss": 0.08024131059646607, "token_acc": 0.9701865423051299, "grad_norm": 1.4843192100524902, "learning_rate": 1.8645305257092033e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232423, "epoch": 3.5787788703407273, "step": 46950}, {"loss": 0.06362650394439698, "token_acc": 0.9773175542406312, "grad_norm": 1.2520023584365845, "learning_rate": 1.8635979516508716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232428, "epoch": 3.5791599969509873, "step": 46955}, {"loss": 0.0647797167301178, "token_acc": 0.9693165969316597, "grad_norm": 1.5821611881256104, "learning_rate": 1.862665557450639e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232437, "epoch": 3.5795411235612473, "step": 46960}, {"loss": 0.06424868106842041, "token_acc": 0.9721743412952475, "grad_norm": 0.8349012732505798, "learning_rate": 1.8617333431619793e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232443, "epoch": 3.579922250171507, "step": 46965}, {"loss": 0.04805622398853302, "token_acc": 0.9792161520190024, "grad_norm": 2.1380057334899902, "learning_rate": 1.8608013088383515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232451, "epoch": 3.580303376781767, "step": 46970}, {"loss": 0.06654325127601624, "token_acc": 0.9720683287165282, "grad_norm": 1.549740195274353, "learning_rate": 1.8598694545331984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232457, "epoch": 3.580684503392027, "step": 46975}, {"loss": 0.06904310584068299, "token_acc": 0.981242436466317, "grad_norm": 1.0449352264404297, "learning_rate": 1.8589377802999606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232462, "epoch": 3.5810656300022865, "step": 46980}, {"loss": 0.033990538120269774, "token_acc": 0.986126224156692, "grad_norm": 0.9228067994117737, "learning_rate": 1.858006286192066e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23247, "epoch": 3.5814467566125465, "step": 46985}, {"loss": 0.032961130142211914, "token_acc": 0.9821741206430049, "grad_norm": 1.631448745727539, "learning_rate": 1.8570749722629295e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232474, "epoch": 3.5818278832228065, "step": 46990}, {"loss": 0.061360675096511844, "token_acc": 0.9734345351043643, "grad_norm": 1.1341471672058105, "learning_rate": 1.8561438385659592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232479, "epoch": 3.5822090098330666, "step": 46995}, {"loss": 0.05981239080429077, "token_acc": 0.9752860411899313, "grad_norm": 0.9918317198753357, "learning_rate": 1.8552128851545493e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232481, "epoch": 3.5825901364433266, "step": 47000}, {"eval_loss": 0.05900820717215538, "eval_token_acc": 0.9757921209565689, "eval_runtime": 221.918, "eval_samples_per_second": 2.388, "eval_steps_per_second": 2.388, "epoch": 3.5825901364433266, "step": 47000}, {"loss": 0.03040274977684021, "token_acc": 0.9762360537706605, "grad_norm": 0.7144765853881836, "learning_rate": 1.8542821120820863e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232229, "epoch": 3.5829712630535866, "step": 47005}, {"loss": 0.06989901065826416, "token_acc": 0.9806931844615027, "grad_norm": 3.652787446975708, "learning_rate": 1.8533515194019486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232233, "epoch": 3.583352389663846, "step": 47010}, {"loss": 0.05056637525558472, "token_acc": 0.981000802782981, "grad_norm": 1.489815354347229, "learning_rate": 1.8524211071674967e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232236, "epoch": 3.583733516274106, "step": 47015}, {"loss": 0.04124007225036621, "token_acc": 0.9846030793841232, "grad_norm": 0.7473633289337158, "learning_rate": 1.851490875432088e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232241, "epoch": 3.584114642884366, "step": 47020}, {"loss": 0.0627809464931488, "token_acc": 0.9699606380774808, "grad_norm": 1.7853816747665405, "learning_rate": 1.8505608242490686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232247, "epoch": 3.5844957694946262, "step": 47025}, {"loss": 0.05734219551086426, "token_acc": 0.9812179016874542, "grad_norm": 0.7042953968048096, "learning_rate": 1.8496309536717686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232249, "epoch": 3.584876896104886, "step": 47030}, {"loss": 0.05341324806213379, "token_acc": 0.9751764973810066, "grad_norm": 1.3742696046829224, "learning_rate": 1.8487012637535144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232255, "epoch": 3.585258022715146, "step": 47035}, {"loss": 0.04224950075149536, "token_acc": 0.9801421917136554, "grad_norm": 1.2992419004440308, "learning_rate": 1.847771754547621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232262, "epoch": 3.585639149325406, "step": 47040}, {"loss": 0.042961719632148745, "token_acc": 0.9802660753880266, "grad_norm": 1.1067533493041992, "learning_rate": 1.846842426107387e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232267, "epoch": 3.586020275935666, "step": 47045}, {"loss": 0.03731703758239746, "token_acc": 0.9837837837837838, "grad_norm": 1.7166286706924438, "learning_rate": 1.8459132784861073e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232276, "epoch": 3.586401402545926, "step": 47050}, {"loss": 0.0366670548915863, "token_acc": 0.9834983498349835, "grad_norm": 0.6317066550254822, "learning_rate": 1.8449843117370664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232281, "epoch": 3.586782529156186, "step": 47055}, {"loss": 0.07504984140396118, "token_acc": 0.979417268110131, "grad_norm": 1.8171716928482056, "learning_rate": 1.844055525913532e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232288, "epoch": 3.5871636557664455, "step": 47060}, {"loss": 0.06833293437957763, "token_acc": 0.9765616111047901, "grad_norm": 1.2058758735656738, "learning_rate": 1.8431269210687685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232289, "epoch": 3.5875447823767055, "step": 47065}, {"loss": 0.05005948543548584, "token_acc": 0.9724592707525214, "grad_norm": 1.2428706884384155, "learning_rate": 1.8421984972560276e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232297, "epoch": 3.5879259089869655, "step": 47070}, {"loss": 0.06922175884246826, "token_acc": 0.9771948129378447, "grad_norm": 1.1434329748153687, "learning_rate": 1.8412702545285472e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232298, "epoch": 3.5883070355972255, "step": 47075}, {"loss": 0.029758870601654053, "token_acc": 0.985827664399093, "grad_norm": 1.4985953569412231, "learning_rate": 1.8403421929395597e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232308, "epoch": 3.588688162207485, "step": 47080}, {"loss": 0.04621181488037109, "token_acc": 0.9810606060606061, "grad_norm": 2.395111083984375, "learning_rate": 1.8394143125422864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232313, "epoch": 3.589069288817745, "step": 47085}, {"loss": 0.03152124285697937, "token_acc": 0.9848134697920106, "grad_norm": 1.20294988155365, "learning_rate": 1.8384866133899335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23232, "epoch": 3.589450415428005, "step": 47090}, {"loss": 0.07433818578720093, "token_acc": 0.9772357723577236, "grad_norm": 1.6464755535125732, "learning_rate": 1.837559095535702e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232324, "epoch": 3.589831542038265, "step": 47095}, {"loss": 0.060637271404266356, "token_acc": 0.9817715019255455, "grad_norm": 0.6206871867179871, "learning_rate": 1.8366317590327816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23233, "epoch": 3.590212668648525, "step": 47100}, {"loss": 0.06033395528793335, "token_acc": 0.9732722413134784, "grad_norm": 0.4666770100593567, "learning_rate": 1.835704603934349e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232339, "epoch": 3.590593795258785, "step": 47105}, {"loss": 0.040096724033355714, "token_acc": 0.9815795045521915, "grad_norm": 0.9988734126091003, "learning_rate": 1.8347776302935755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232345, "epoch": 3.5909749218690448, "step": 47110}, {"loss": 0.05620102882385254, "token_acc": 0.9775464857911356, "grad_norm": 1.224653959274292, "learning_rate": 1.833850838163615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232346, "epoch": 3.591356048479305, "step": 47115}, {"loss": 0.05222952365875244, "token_acc": 0.9843302697001657, "grad_norm": 1.6122561693191528, "learning_rate": 1.8329242275976154e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232349, "epoch": 3.591737175089565, "step": 47120}, {"loss": 0.06638657450675964, "token_acc": 0.9768054823405377, "grad_norm": 1.1553281545639038, "learning_rate": 1.831997798648717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232356, "epoch": 3.592118301699825, "step": 47125}, {"loss": 0.06013938784599304, "token_acc": 0.9765549312148808, "grad_norm": 0.8611319661140442, "learning_rate": 1.8310715513700412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232359, "epoch": 3.5924994283100844, "step": 47130}, {"loss": 0.044680291414260866, "token_acc": 0.9810979847116053, "grad_norm": 0.928214430809021, "learning_rate": 1.8301454858147065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232361, "epoch": 3.5928805549203444, "step": 47135}, {"loss": 0.0658108115196228, "token_acc": 0.9657802964254577, "grad_norm": 0.9823131561279297, "learning_rate": 1.82921960203582e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232367, "epoch": 3.5932616815306044, "step": 47140}, {"loss": 0.04294630289077759, "token_acc": 0.9869894099848714, "grad_norm": 0.4703455865383148, "learning_rate": 1.828293900086473e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232369, "epoch": 3.5936428081408645, "step": 47145}, {"loss": 0.05068590044975281, "token_acc": 0.9843808107103013, "grad_norm": 1.4363523721694946, "learning_rate": 1.827368380019753e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232375, "epoch": 3.5940239347511245, "step": 47150}, {"loss": 0.06382756829261779, "token_acc": 0.9737015121630507, "grad_norm": 1.2436727285385132, "learning_rate": 1.8264430418887347e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23238, "epoch": 3.5944050613613845, "step": 47155}, {"loss": 0.04905833005905151, "token_acc": 0.9853747714808044, "grad_norm": 0.9764981269836426, "learning_rate": 1.8255178857464796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232388, "epoch": 3.594786187971644, "step": 47160}, {"loss": 0.04492635130882263, "token_acc": 0.9805346127484579, "grad_norm": 0.7267060279846191, "learning_rate": 1.824592911646042e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232392, "epoch": 3.595167314581904, "step": 47165}, {"loss": 0.07157142162322998, "token_acc": 0.9739683763979946, "grad_norm": 2.544975757598877, "learning_rate": 1.823668119640467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232396, "epoch": 3.595548441192164, "step": 47170}, {"loss": 0.041348579525947574, "token_acc": 0.9815270935960592, "grad_norm": 1.6592223644256592, "learning_rate": 1.822743509782784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232401, "epoch": 3.595929567802424, "step": 47175}, {"loss": 0.05678023099899292, "token_acc": 0.9798689138576779, "grad_norm": 1.409091830253601, "learning_rate": 1.8218190821260178e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232409, "epoch": 3.5963106944126837, "step": 47180}, {"loss": 0.07048658132553101, "token_acc": 0.9730085582620145, "grad_norm": 1.4399526119232178, "learning_rate": 1.820894836723177e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232415, "epoch": 3.5966918210229437, "step": 47185}, {"loss": 0.05799223184585571, "token_acc": 0.9809111324991979, "grad_norm": 1.274295449256897, "learning_rate": 1.8199707736272643e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232417, "epoch": 3.5970729476332037, "step": 47190}, {"loss": 0.0732722520828247, "token_acc": 0.9721213881225498, "grad_norm": 0.9154659509658813, "learning_rate": 1.8190468928912723e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232419, "epoch": 3.5974540742434638, "step": 47195}, {"loss": 0.06106681227684021, "token_acc": 0.9771508510142224, "grad_norm": 1.6220835447311401, "learning_rate": 1.8181231945681782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232424, "epoch": 3.5978352008537238, "step": 47200}, {"eval_loss": 0.0594787560403347, "eval_token_acc": 0.9756716462863683, "eval_runtime": 219.1843, "eval_samples_per_second": 2.418, "eval_steps_per_second": 2.418, "epoch": 3.5978352008537238, "step": 47200}, {"loss": 0.04851398468017578, "token_acc": 0.9758176269969485, "grad_norm": 1.8037583827972412, "learning_rate": 1.817199678710953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232177, "epoch": 3.598216327463984, "step": 47205}, {"loss": 0.03791375160217285, "token_acc": 0.9847009735744089, "grad_norm": 1.1298267841339111, "learning_rate": 1.8162763453725586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232186, "epoch": 3.5985974540742434, "step": 47210}, {"loss": 0.0533711850643158, "token_acc": 0.9774600504625736, "grad_norm": 0.8652254343032837, "learning_rate": 1.815353194605939e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232184, "epoch": 3.5989785806845034, "step": 47215}, {"loss": 0.0678840696811676, "token_acc": 0.9744655581947743, "grad_norm": 1.8170115947723389, "learning_rate": 1.814430226464035e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232191, "epoch": 3.5993597072947634, "step": 47220}, {"loss": 0.05981945991516113, "token_acc": 0.9757004711133151, "grad_norm": 0.9284037947654724, "learning_rate": 1.8135074409997764e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232198, "epoch": 3.599740833905023, "step": 47225}, {"loss": 0.06271784901618957, "token_acc": 0.975729034595182, "grad_norm": 1.2877708673477173, "learning_rate": 1.812584838266076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232203, "epoch": 3.600121960515283, "step": 47230}, {"loss": 0.051410382986068724, "token_acc": 0.9796802131912059, "grad_norm": 0.989707887172699, "learning_rate": 1.8116624183158472e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232207, "epoch": 3.600503087125543, "step": 47235}, {"loss": 0.053725212812423706, "token_acc": 0.9758981355161437, "grad_norm": 0.9919970631599426, "learning_rate": 1.810740181201981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232213, "epoch": 3.600884213735803, "step": 47240}, {"loss": 0.020884917676448823, "token_acc": 0.9896994496966276, "grad_norm": 1.095314621925354, "learning_rate": 1.8098181269773655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232216, "epoch": 3.601265340346063, "step": 47245}, {"loss": 0.0473389208316803, "token_acc": 0.9808585503166783, "grad_norm": 0.9280776977539062, "learning_rate": 1.808896255694878e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232219, "epoch": 3.601646466956323, "step": 47250}, {"loss": 0.051980823278427124, "token_acc": 0.9792582176129373, "grad_norm": 0.8161941170692444, "learning_rate": 1.8079745674073795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232224, "epoch": 3.602027593566583, "step": 47255}, {"loss": 0.05582446455955505, "token_acc": 0.9851345922057051, "grad_norm": 2.988579511642456, "learning_rate": 1.807053062167727e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232231, "epoch": 3.6024087201768427, "step": 47260}, {"loss": 0.04419417381286621, "token_acc": 0.9815414964069326, "grad_norm": 1.264708161354065, "learning_rate": 1.8061317400287665e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232236, "epoch": 3.6027898467871027, "step": 47265}, {"loss": 0.04226417541503906, "token_acc": 0.9858323494687131, "grad_norm": 0.5623130202293396, "learning_rate": 1.8052106010433267e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232242, "epoch": 3.6031709733973627, "step": 47270}, {"loss": 0.08083772659301758, "token_acc": 0.9679554162312783, "grad_norm": 1.45103120803833, "learning_rate": 1.8042896452642344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232246, "epoch": 3.6035521000076223, "step": 47275}, {"loss": 0.04851097464561462, "token_acc": 0.9784285714285714, "grad_norm": 0.28289496898651123, "learning_rate": 1.8033688727443022e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232247, "epoch": 3.6039332266178823, "step": 47280}, {"loss": 0.03840899765491486, "token_acc": 0.9843689695098418, "grad_norm": 1.2884248495101929, "learning_rate": 1.8024482835363287e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232252, "epoch": 3.6043143532281423, "step": 47285}, {"loss": 0.03828598260879516, "token_acc": 0.9742742916739092, "grad_norm": 0.7698943018913269, "learning_rate": 1.8015278776931084e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232258, "epoch": 3.6046954798384023, "step": 47290}, {"loss": 0.05516451597213745, "token_acc": 0.9760016270083384, "grad_norm": 0.9557726979255676, "learning_rate": 1.8006076552674234e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232264, "epoch": 3.6050766064486623, "step": 47295}, {"loss": 0.05986540317535401, "token_acc": 0.9769004619907602, "grad_norm": 1.8380497694015503, "learning_rate": 1.79968761631204e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23227, "epoch": 3.6054577330589224, "step": 47300}, {"loss": 0.053400707244873044, "token_acc": 0.9818294445591575, "grad_norm": 0.7367437481880188, "learning_rate": 1.798767760879721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232274, "epoch": 3.605838859669182, "step": 47305}, {"loss": 0.06602771282196045, "token_acc": 0.9771808579997392, "grad_norm": 0.8276212215423584, "learning_rate": 1.797848089023217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232278, "epoch": 3.606219986279442, "step": 47310}, {"loss": 0.07041627168655396, "token_acc": 0.9725330620549338, "grad_norm": 1.6977864503860474, "learning_rate": 1.7969286007952636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23228, "epoch": 3.606601112889702, "step": 47315}, {"loss": 0.04533239901065826, "token_acc": 0.9820182183840057, "grad_norm": 0.8128845691680908, "learning_rate": 1.796009296248591e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232283, "epoch": 3.606982239499962, "step": 47320}, {"loss": 0.0728375792503357, "token_acc": 0.9739069111424542, "grad_norm": 1.160190463066101, "learning_rate": 1.7950901754359185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232289, "epoch": 3.6073633661102216, "step": 47325}, {"loss": 0.04795294106006622, "token_acc": 0.9832434514637904, "grad_norm": 0.9889615774154663, "learning_rate": 1.79417123840995e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232294, "epoch": 3.6077444927204816, "step": 47330}, {"loss": 0.0460934042930603, "token_acc": 0.9794225024892134, "grad_norm": 2.9192662239074707, "learning_rate": 1.7932524852233845e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232302, "epoch": 3.6081256193307416, "step": 47335}, {"loss": 0.045385292172431944, "token_acc": 0.9801295896328294, "grad_norm": 1.1166999340057373, "learning_rate": 1.7923339159289094e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232307, "epoch": 3.6085067459410016, "step": 47340}, {"loss": 0.05092054009437561, "token_acc": 0.9796782387806944, "grad_norm": 0.3596144914627075, "learning_rate": 1.7914155305791968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232313, "epoch": 3.6088878725512616, "step": 47345}, {"loss": 0.04205400943756103, "token_acc": 0.9751369574378423, "grad_norm": 0.9796237349510193, "learning_rate": 1.790497329226916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232319, "epoch": 3.6092689991615217, "step": 47350}, {"loss": 0.04233803749084473, "token_acc": 0.9851422815411736, "grad_norm": 0.7389909029006958, "learning_rate": 1.7895793119247172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232325, "epoch": 3.6096501257717812, "step": 47355}, {"loss": 0.038258200883865355, "token_acc": 0.9810450819672131, "grad_norm": 1.139735460281372, "learning_rate": 1.788661478725246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232334, "epoch": 3.6100312523820413, "step": 47360}, {"loss": 0.031751468777656555, "token_acc": 0.9817559863169898, "grad_norm": 0.41071707010269165, "learning_rate": 1.787743829681139e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232341, "epoch": 3.6104123789923013, "step": 47365}, {"loss": 0.0705912947654724, "token_acc": 0.9737092176116566, "grad_norm": 1.9983606338500977, "learning_rate": 1.7868263648450157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232348, "epoch": 3.6107935056025613, "step": 47370}, {"loss": 0.03917264938354492, "token_acc": 0.9853192215773301, "grad_norm": 1.2292011976242065, "learning_rate": 1.7859090842694887e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232355, "epoch": 3.611174632212821, "step": 47375}, {"loss": 0.06175339221954346, "token_acc": 0.9779843444227005, "grad_norm": 1.748838186264038, "learning_rate": 1.7849919880071625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23236, "epoch": 3.611555758823081, "step": 47380}, {"loss": 0.04176511764526367, "token_acc": 0.9818682579756713, "grad_norm": 0.7711045742034912, "learning_rate": 1.7840750761106246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232365, "epoch": 3.611936885433341, "step": 47385}, {"loss": 0.06046620011329651, "token_acc": 0.9765491535952787, "grad_norm": 0.7081757187843323, "learning_rate": 1.7831583486324594e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23237, "epoch": 3.612318012043601, "step": 47390}, {"loss": 0.061809098720550536, "token_acc": 0.9704286489419425, "grad_norm": 1.0125676393508911, "learning_rate": 1.7822418056252325e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232376, "epoch": 3.612699138653861, "step": 47395}, {"loss": 0.05391446352005005, "token_acc": 0.9803411860276198, "grad_norm": 0.8500528931617737, "learning_rate": 1.781325447141507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23238, "epoch": 3.613080265264121, "step": 47400}, {"eval_loss": 0.05899503454566002, "eval_token_acc": 0.9760481296307452, "eval_runtime": 223.6561, "eval_samples_per_second": 2.37, "eval_steps_per_second": 2.37, "epoch": 3.613080265264121, "step": 47400}, {"loss": 0.03917487859725952, "token_acc": 0.9762316742081448, "grad_norm": 0.7402609586715698, "learning_rate": 1.7804092732338312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23213, "epoch": 3.6134613918743805, "step": 47405}, {"loss": 0.07701539993286133, "token_acc": 0.970783015192832, "grad_norm": 1.134986162185669, "learning_rate": 1.7794932839547418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232137, "epoch": 3.6138425184846406, "step": 47410}, {"loss": 0.045980268716812135, "token_acc": 0.9791039156626506, "grad_norm": 0.90165114402771, "learning_rate": 1.7785774793567673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232142, "epoch": 3.6142236450949006, "step": 47415}, {"loss": 0.04720664620399475, "token_acc": 0.9821344616831218, "grad_norm": 1.128702163696289, "learning_rate": 1.777661859492427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232147, "epoch": 3.6146047717051606, "step": 47420}, {"loss": 0.03528856337070465, "token_acc": 0.9819347319347319, "grad_norm": 0.4910225570201874, "learning_rate": 1.776746424414224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232156, "epoch": 3.61498589831542, "step": 47425}, {"loss": 0.025632518529891967, "token_acc": 0.9868977176669484, "grad_norm": 0.8407129049301147, "learning_rate": 1.775831174174655e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232161, "epoch": 3.61536702492568, "step": 47430}, {"loss": 0.052316421270370485, "token_acc": 0.9684252597921663, "grad_norm": 1.3456968069076538, "learning_rate": 1.774916108826209e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232169, "epoch": 3.61574815153594, "step": 47435}, {"loss": 0.044124957919120786, "token_acc": 0.9784770669437435, "grad_norm": 0.7614882588386536, "learning_rate": 1.774001228421356e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232173, "epoch": 3.6161292781462, "step": 47440}, {"loss": 0.04821193218231201, "token_acc": 0.9781255892890817, "grad_norm": 1.2382704019546509, "learning_rate": 1.7730865330125617e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232179, "epoch": 3.6165104047564602, "step": 47445}, {"loss": 0.062191063165664674, "token_acc": 0.9796722009365687, "grad_norm": 1.0875635147094727, "learning_rate": 1.772172022652282e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232181, "epoch": 3.6168915313667203, "step": 47450}, {"loss": 0.06152011156082153, "token_acc": 0.9779661016949153, "grad_norm": 1.3738534450531006, "learning_rate": 1.7712576973929557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232186, "epoch": 3.61727265797698, "step": 47455}, {"loss": 0.02621033489704132, "token_acc": 0.9877650897226754, "grad_norm": 0.548699676990509, "learning_rate": 1.7703435572870174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232194, "epoch": 3.61765378458724, "step": 47460}, {"loss": 0.05066499710083008, "token_acc": 0.9796938456732271, "grad_norm": 1.2715814113616943, "learning_rate": 1.7694296023868907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232197, "epoch": 3.6180349111975, "step": 47465}, {"loss": 0.06140434741973877, "token_acc": 0.9739079448841982, "grad_norm": 1.4759024381637573, "learning_rate": 1.768515832744983e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232203, "epoch": 3.61841603780776, "step": 47470}, {"loss": 0.09284164905548095, "token_acc": 0.9698365185355745, "grad_norm": 0.786737859249115, "learning_rate": 1.767602248413696e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232208, "epoch": 3.6187971644180195, "step": 47475}, {"loss": 0.05211270451545715, "token_acc": 0.9845417740154582, "grad_norm": 1.1604071855545044, "learning_rate": 1.766688849445422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232216, "epoch": 3.6191782910282795, "step": 47480}, {"loss": 0.07560851573944091, "token_acc": 0.9802011313639221, "grad_norm": 2.387571096420288, "learning_rate": 1.7657756358925358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232221, "epoch": 3.6195594176385395, "step": 47485}, {"loss": 0.07603476643562317, "token_acc": 0.9752024291497976, "grad_norm": 1.6118093729019165, "learning_rate": 1.7648626078074086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232229, "epoch": 3.6199405442487995, "step": 47490}, {"loss": 0.054453814029693605, "token_acc": 0.9759233926128591, "grad_norm": 1.0152109861373901, "learning_rate": 1.763949765242398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232232, "epoch": 3.6203216708590595, "step": 47495}, {"loss": 0.0884295403957367, "token_acc": 0.975249500998004, "grad_norm": 0.5905246138572693, "learning_rate": 1.7630371082498516e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232236, "epoch": 3.6207027974693196, "step": 47500}, {"loss": 0.047768494486808775, "token_acc": 0.9804221995233231, "grad_norm": 0.6929469108581543, "learning_rate": 1.7621246368821065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232239, "epoch": 3.621083924079579, "step": 47505}, {"loss": 0.07661871910095215, "token_acc": 0.9713306325958242, "grad_norm": 1.5383646488189697, "learning_rate": 1.7612123511914868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232246, "epoch": 3.621465050689839, "step": 47510}, {"loss": 0.06505971550941467, "token_acc": 0.9698033707865169, "grad_norm": 2.2604787349700928, "learning_rate": 1.760300251230309e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232253, "epoch": 3.621846177300099, "step": 47515}, {"loss": 0.051475238800048825, "token_acc": 0.976831091180867, "grad_norm": 1.6242302656173706, "learning_rate": 1.759388337050879e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232259, "epoch": 3.622227303910359, "step": 47520}, {"loss": 0.04905773401260376, "token_acc": 0.9858537557282328, "grad_norm": 1.0099433660507202, "learning_rate": 1.7584766087054884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232263, "epoch": 3.6226084305206188, "step": 47525}, {"loss": 0.04197709858417511, "token_acc": 0.9851354591225125, "grad_norm": 0.9047166705131531, "learning_rate": 1.7575650662464216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23227, "epoch": 3.622989557130879, "step": 47530}, {"loss": 0.04675836265087128, "token_acc": 0.9841552782729254, "grad_norm": 1.2369072437286377, "learning_rate": 1.7566537097259535e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232274, "epoch": 3.623370683741139, "step": 47535}, {"loss": 0.03423279523849487, "token_acc": 0.9799927246271372, "grad_norm": 0.10166900604963303, "learning_rate": 1.7557425391963416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232282, "epoch": 3.623751810351399, "step": 47540}, {"loss": 0.055977606773376466, "token_acc": 0.9767853194782224, "grad_norm": 1.497053623199463, "learning_rate": 1.7548315547098405e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232288, "epoch": 3.624132936961659, "step": 47545}, {"loss": 0.044962641596794126, "token_acc": 0.9828003875968992, "grad_norm": 0.9703657031059265, "learning_rate": 1.753920756318692e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232293, "epoch": 3.624514063571919, "step": 47550}, {"loss": 0.05316944122314453, "token_acc": 0.9823717948717948, "grad_norm": 1.365577220916748, "learning_rate": 1.753010144075123e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2323, "epoch": 3.6248951901821784, "step": 47555}, {"loss": 0.04015655219554901, "token_acc": 0.9799509913120963, "grad_norm": 1.003524899482727, "learning_rate": 1.7520997180313557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232306, "epoch": 3.6252763167924384, "step": 47560}, {"loss": 0.06435790657997131, "token_acc": 0.9783793946230495, "grad_norm": 1.932751178741455, "learning_rate": 1.751189478239596e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232311, "epoch": 3.6256574434026985, "step": 47565}, {"loss": 0.06235827207565307, "token_acc": 0.9788262370540851, "grad_norm": 0.6418894529342651, "learning_rate": 1.7502794247520433e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232318, "epoch": 3.626038570012958, "step": 47570}, {"loss": 0.07291669249534607, "token_acc": 0.9704060564349621, "grad_norm": 2.1610803604125977, "learning_rate": 1.7493695576208868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232327, "epoch": 3.626419696623218, "step": 47575}, {"loss": 0.07093042731285096, "token_acc": 0.975103734439834, "grad_norm": 1.0146440267562866, "learning_rate": 1.7484598768982994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232333, "epoch": 3.626800823233478, "step": 47580}, {"loss": 0.05369055867195129, "token_acc": 0.9805115712545676, "grad_norm": 1.301300048828125, "learning_rate": 1.7475503826364493e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23234, "epoch": 3.627181949843738, "step": 47585}, {"loss": 0.0951920747756958, "token_acc": 0.9684986595174263, "grad_norm": 1.1104676723480225, "learning_rate": 1.7466410748874934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232347, "epoch": 3.627563076453998, "step": 47590}, {"loss": 0.06986138820648194, "token_acc": 0.9810606060606061, "grad_norm": 1.8204164505004883, "learning_rate": 1.7457319537035726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232355, "epoch": 3.627944203064258, "step": 47595}, {"loss": 0.05152398347854614, "token_acc": 0.9800796812749004, "grad_norm": 1.9393055438995361, "learning_rate": 1.7448230191368225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23236, "epoch": 3.628325329674518, "step": 47600}, {"eval_loss": 0.05922512710094452, "eval_token_acc": 0.9759050659598819, "eval_runtime": 220.0247, "eval_samples_per_second": 2.409, "eval_steps_per_second": 2.409, "epoch": 3.628325329674518, "step": 47600}, {"loss": 0.056246399879455566, "token_acc": 0.9760454908512681, "grad_norm": 0.9465760588645935, "learning_rate": 1.743914271239368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232119, "epoch": 3.6287064562847777, "step": 47605}, {"loss": 0.05463117957115173, "token_acc": 0.9755294117647059, "grad_norm": 0.9288109540939331, "learning_rate": 1.7430057100633186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232124, "epoch": 3.6290875828950377, "step": 47610}, {"loss": 0.0666085124015808, "token_acc": 0.9722500835840856, "grad_norm": 0.9820647835731506, "learning_rate": 1.7420973356607773e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232132, "epoch": 3.6294687095052978, "step": 47615}, {"loss": 0.07623971104621888, "token_acc": 0.973404255319149, "grad_norm": 1.0574134588241577, "learning_rate": 1.7411891480838365e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23214, "epoch": 3.6298498361155573, "step": 47620}, {"loss": 0.09845021367073059, "token_acc": 0.965098299094323, "grad_norm": 2.0081863403320312, "learning_rate": 1.7402811473845744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232146, "epoch": 3.6302309627258174, "step": 47625}, {"loss": 0.040968358516693115, "token_acc": 0.9839338994721138, "grad_norm": 0.7158924341201782, "learning_rate": 1.7393733336150615e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232145, "epoch": 3.6306120893360774, "step": 47630}, {"loss": 0.07067152261734008, "token_acc": 0.9708924705316334, "grad_norm": 1.9703623056411743, "learning_rate": 1.7384657068273565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232151, "epoch": 3.6309932159463374, "step": 47635}, {"loss": 0.0656814455986023, "token_acc": 0.9744302390216787, "grad_norm": 1.917624831199646, "learning_rate": 1.7375582670735075e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232155, "epoch": 3.6313743425565974, "step": 47640}, {"loss": 0.056943339109420774, "token_acc": 0.9783741120757695, "grad_norm": 1.3861640691757202, "learning_rate": 1.736651014405554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23216, "epoch": 3.6317554691668574, "step": 47645}, {"loss": 0.05863676071166992, "token_acc": 0.9752716373173473, "grad_norm": 1.6887177228927612, "learning_rate": 1.73574394887552e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232167, "epoch": 3.632136595777117, "step": 47650}, {"loss": 0.049505564570426944, "token_acc": 0.9796274738067521, "grad_norm": 0.30417925119400024, "learning_rate": 1.734837070535422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232171, "epoch": 3.632517722387377, "step": 47655}, {"loss": 0.053939664363861085, "token_acc": 0.9815624406006462, "grad_norm": 1.6731693744659424, "learning_rate": 1.733930379437268e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232176, "epoch": 3.632898848997637, "step": 47660}, {"loss": 0.03941224217414856, "token_acc": 0.9848484848484849, "grad_norm": 1.265807867050171, "learning_rate": 1.733023875633048e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232184, "epoch": 3.633279975607897, "step": 47665}, {"loss": 0.05610345602035523, "token_acc": 0.9758922240605058, "grad_norm": 1.2417453527450562, "learning_rate": 1.7321175591747484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232189, "epoch": 3.6336611022181566, "step": 47670}, {"loss": 0.04406516551971436, "token_acc": 0.9831876260928043, "grad_norm": 1.828171730041504, "learning_rate": 1.731211430114344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232197, "epoch": 3.6340422288284167, "step": 47675}, {"loss": 0.0656819462776184, "token_acc": 0.9718258324185877, "grad_norm": 0.6655412912368774, "learning_rate": 1.7303054885037928e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232204, "epoch": 3.6344233554386767, "step": 47680}, {"loss": 0.06071552038192749, "token_acc": 0.9823857302118172, "grad_norm": 0.9383029937744141, "learning_rate": 1.729399734395049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232209, "epoch": 3.6348044820489367, "step": 47685}, {"loss": 0.057598966360092166, "token_acc": 0.9810459810459811, "grad_norm": 0.6466847062110901, "learning_rate": 1.7284941678400546e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232214, "epoch": 3.6351856086591967, "step": 47690}, {"loss": 0.06998350620269775, "token_acc": 0.9810864306135914, "grad_norm": 0.9205085635185242, "learning_rate": 1.7275887888907362e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232218, "epoch": 3.6355667352694567, "step": 47695}, {"loss": 0.06631748676300049, "token_acc": 0.9800913838120104, "grad_norm": 0.7856445908546448, "learning_rate": 1.7266835975990154e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232226, "epoch": 3.6359478618797163, "step": 47700}, {"loss": 0.058634668588638306, "token_acc": 0.9800847457627119, "grad_norm": 0.8880451917648315, "learning_rate": 1.7257785940168013e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232231, "epoch": 3.6363289884899763, "step": 47705}, {"loss": 0.054058611392974854, "token_acc": 0.9840848806366048, "grad_norm": 0.8842060565948486, "learning_rate": 1.724873778195989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232234, "epoch": 3.6367101151002363, "step": 47710}, {"loss": 0.037414976954460145, "token_acc": 0.983343319352906, "grad_norm": 0.753688633441925, "learning_rate": 1.723969150188467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232237, "epoch": 3.6370912417104964, "step": 47715}, {"loss": 0.047268688678741455, "token_acc": 0.9836233367451381, "grad_norm": 1.6569169759750366, "learning_rate": 1.723064710046114e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232245, "epoch": 3.637472368320756, "step": 47720}, {"loss": 0.05992996096611023, "token_acc": 0.9790794979079498, "grad_norm": 2.77325701713562, "learning_rate": 1.7221604578207908e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23225, "epoch": 3.637853494931016, "step": 47725}, {"loss": 0.06100462675094605, "token_acc": 0.9776048284625158, "grad_norm": 1.5017508268356323, "learning_rate": 1.7212563935643538e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232254, "epoch": 3.638234621541276, "step": 47730}, {"loss": 0.04228924810886383, "token_acc": 0.9826532838751909, "grad_norm": 1.0390727519989014, "learning_rate": 1.72035251732865e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232254, "epoch": 3.638615748151536, "step": 47735}, {"loss": 0.06521302461624146, "token_acc": 0.9771769662921348, "grad_norm": 1.3094216585159302, "learning_rate": 1.7194488291655077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23226, "epoch": 3.638996874761796, "step": 47740}, {"loss": 0.03874517679214477, "token_acc": 0.9821200510855683, "grad_norm": 1.7683950662612915, "learning_rate": 1.7185453291267534e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232268, "epoch": 3.639378001372056, "step": 47745}, {"loss": 0.06403992772102356, "token_acc": 0.9739616957176673, "grad_norm": 1.4274749755859375, "learning_rate": 1.717642017264195e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232274, "epoch": 3.6397591279823156, "step": 47750}, {"loss": 0.05742988586425781, "token_acc": 0.979750039550704, "grad_norm": 1.5095325708389282, "learning_rate": 1.7167388936296347e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232279, "epoch": 3.6401402545925756, "step": 47755}, {"loss": 0.037418439984321594, "token_acc": 0.9882396177875781, "grad_norm": 0.8805214762687683, "learning_rate": 1.7158359582748638e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232286, "epoch": 3.6405213812028356, "step": 47760}, {"loss": 0.0330279529094696, "token_acc": 0.9812372283113505, "grad_norm": 0.7769801616668701, "learning_rate": 1.714933211251658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232291, "epoch": 3.6409025078130957, "step": 47765}, {"loss": 0.031880933046340945, "token_acc": 0.9864537977745524, "grad_norm": 0.5937682390213013, "learning_rate": 1.714030652611789e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232293, "epoch": 3.6412836344233552, "step": 47770}, {"loss": 0.05185995101928711, "token_acc": 0.9717013296965564, "grad_norm": 0.9511445164680481, "learning_rate": 1.713128282407015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2323, "epoch": 3.6416647610336152, "step": 47775}, {"loss": 0.04885266721248627, "token_acc": 0.9826493159826493, "grad_norm": 2.344233989715576, "learning_rate": 1.71222610068908e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232307, "epoch": 3.6420458876438753, "step": 47780}, {"loss": 0.07625150084495544, "token_acc": 0.9671175373134329, "grad_norm": 1.4126336574554443, "learning_rate": 1.711324107509722e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232313, "epoch": 3.6424270142541353, "step": 47785}, {"loss": 0.0352380633354187, "token_acc": 0.9769530588035926, "grad_norm": 0.5987164974212646, "learning_rate": 1.7104223029206635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232317, "epoch": 3.6428081408643953, "step": 47790}, {"loss": 0.060283929109573364, "token_acc": 0.9799627213420317, "grad_norm": 0.7462478280067444, "learning_rate": 1.7095206869736207e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232321, "epoch": 3.6431892674746553, "step": 47795}, {"loss": 0.07239018678665161, "token_acc": 0.9699140401146131, "grad_norm": 0.7728898525238037, "learning_rate": 1.7086192597202982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232327, "epoch": 3.643570394084915, "step": 47800}, {"eval_loss": 0.05931966379284859, "eval_token_acc": 0.9758297692910066, "eval_runtime": 218.1075, "eval_samples_per_second": 2.43, "eval_steps_per_second": 2.43, "epoch": 3.643570394084915, "step": 47800}, {"loss": 0.05890887975692749, "token_acc": 0.975807727148547, "grad_norm": 1.1376514434814453, "learning_rate": 1.7077180212123862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232085, "epoch": 3.643951520695175, "step": 47805}, {"loss": 0.05574790835380554, "token_acc": 0.9793878825733916, "grad_norm": 1.5291908979415894, "learning_rate": 1.7068169715015668e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232087, "epoch": 3.644332647305435, "step": 47810}, {"loss": 0.04272624552249908, "token_acc": 0.9838395096127055, "grad_norm": 1.2032731771469116, "learning_rate": 1.705916110639514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232094, "epoch": 3.644713773915695, "step": 47815}, {"loss": 0.05284435153007507, "token_acc": 0.9724875811998471, "grad_norm": 1.470335602760315, "learning_rate": 1.7050154386778844e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2321, "epoch": 3.6450949005259545, "step": 47820}, {"loss": 0.05055549740791321, "token_acc": 0.9793769197016235, "grad_norm": 2.282376527786255, "learning_rate": 1.7041149556683283e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232105, "epoch": 3.6454760271362145, "step": 47825}, {"loss": 0.04864290058612823, "token_acc": 0.980962840929892, "grad_norm": 1.719781756401062, "learning_rate": 1.7032146616624866e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23211, "epoch": 3.6458571537464746, "step": 47830}, {"loss": 0.03226599097251892, "token_acc": 0.9794392523364486, "grad_norm": 0.9051420092582703, "learning_rate": 1.7023145567119837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232117, "epoch": 3.6462382803567346, "step": 47835}, {"loss": 0.05465726256370544, "token_acc": 0.9796493425172198, "grad_norm": 1.8147262334823608, "learning_rate": 1.7014146408684374e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232124, "epoch": 3.6466194069669946, "step": 47840}, {"loss": 0.06274861097335815, "token_acc": 0.9802749551703527, "grad_norm": 2.54840350151062, "learning_rate": 1.7005149141834557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232133, "epoch": 3.6470005335772546, "step": 47845}, {"loss": 0.056211167573928834, "token_acc": 0.972972972972973, "grad_norm": 1.830100655555725, "learning_rate": 1.6996153767086308e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23214, "epoch": 3.647381660187514, "step": 47850}, {"loss": 0.06042122840881348, "token_acc": 0.9843652282676673, "grad_norm": 0.33382993936538696, "learning_rate": 1.6987160284955483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232143, "epoch": 3.647762786797774, "step": 47855}, {"loss": 0.03632608950138092, "token_acc": 0.9804166666666667, "grad_norm": 1.338073968887329, "learning_rate": 1.6978168695957837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232151, "epoch": 3.6481439134080342, "step": 47860}, {"loss": 0.04478556215763092, "token_acc": 0.9845639032815199, "grad_norm": 0.549271285533905, "learning_rate": 1.696917900060896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23215, "epoch": 3.648525040018294, "step": 47865}, {"loss": 0.03317604064941406, "token_acc": 0.9839525553811268, "grad_norm": 1.0777959823608398, "learning_rate": 1.696019119942438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232155, "epoch": 3.648906166628554, "step": 47870}, {"loss": 0.032970663905143735, "token_acc": 0.9856850715746421, "grad_norm": 1.1444809436798096, "learning_rate": 1.695120529291953e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23216, "epoch": 3.649287293238814, "step": 47875}, {"loss": 0.04201326966285705, "token_acc": 0.9796206618240516, "grad_norm": 1.6117008924484253, "learning_rate": 1.6942221281609675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232164, "epoch": 3.649668419849074, "step": 47880}, {"loss": 0.07109785079956055, "token_acc": 0.9692242833052277, "grad_norm": 2.267258882522583, "learning_rate": 1.6933239166010024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232171, "epoch": 3.650049546459334, "step": 47885}, {"loss": 0.03970286250114441, "token_acc": 0.9798294863797047, "grad_norm": 1.2512543201446533, "learning_rate": 1.6924258946635675e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232177, "epoch": 3.650430673069594, "step": 47890}, {"loss": 0.05653139352798462, "token_acc": 0.9793792959800042, "grad_norm": 1.6166025400161743, "learning_rate": 1.691528062400155e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232183, "epoch": 3.650811799679854, "step": 47895}, {"loss": 0.08742517232894897, "token_acc": 0.9707859958265709, "grad_norm": 1.0473705530166626, "learning_rate": 1.6906304198622584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232189, "epoch": 3.6511929262901135, "step": 47900}, {"loss": 0.03909661173820496, "token_acc": 0.9825829773250082, "grad_norm": 0.5780665278434753, "learning_rate": 1.6897329671013484e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232191, "epoch": 3.6515740529003735, "step": 47905}, {"loss": 0.0636956512928009, "token_acc": 0.9761176641910587, "grad_norm": 1.2663543224334717, "learning_rate": 1.6888357041688907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232193, "epoch": 3.6519551795106335, "step": 47910}, {"loss": 0.02992349863052368, "token_acc": 0.982831825733801, "grad_norm": 1.2166259288787842, "learning_rate": 1.687938631116342e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232195, "epoch": 3.652336306120893, "step": 47915}, {"loss": 0.05300288200378418, "token_acc": 0.9795087923266967, "grad_norm": 1.6655292510986328, "learning_rate": 1.6870417479951406e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2322, "epoch": 3.652717432731153, "step": 47920}, {"loss": 0.06861122250556946, "token_acc": 0.9706452506230961, "grad_norm": 1.3579692840576172, "learning_rate": 1.6861450548567215e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232206, "epoch": 3.653098559341413, "step": 47925}, {"loss": 0.05292418599128723, "token_acc": 0.9740458015267176, "grad_norm": 0.7963428497314453, "learning_rate": 1.685248551752507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232211, "epoch": 3.653479685951673, "step": 47930}, {"loss": 0.05075922608375549, "token_acc": 0.9789306300934207, "grad_norm": 1.220557689666748, "learning_rate": 1.6843522387339035e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232216, "epoch": 3.653860812561933, "step": 47935}, {"loss": 0.09971869587898255, "token_acc": 0.9608987452582434, "grad_norm": 2.1784205436706543, "learning_rate": 1.683456115852313e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232222, "epoch": 3.654241939172193, "step": 47940}, {"loss": 0.0449992448091507, "token_acc": 0.9798183652875883, "grad_norm": 2.614711046218872, "learning_rate": 1.6825601831591252e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232227, "epoch": 3.6546230657824528, "step": 47945}, {"loss": 0.05405691862106323, "token_acc": 0.9850489774875408, "grad_norm": 2.7913143634796143, "learning_rate": 1.6816644407057148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232233, "epoch": 3.655004192392713, "step": 47950}, {"loss": 0.045831909775733946, "token_acc": 0.9820804195804196, "grad_norm": 1.4592957496643066, "learning_rate": 1.680768888543451e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232238, "epoch": 3.655385319002973, "step": 47955}, {"loss": 0.06353203058242798, "token_acc": 0.969782034346103, "grad_norm": 1.7272624969482422, "learning_rate": 1.6798735267236863e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232242, "epoch": 3.655766445613233, "step": 47960}, {"loss": 0.0625275731086731, "token_acc": 0.9825895875591616, "grad_norm": 1.8976670503616333, "learning_rate": 1.6789783552977684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232244, "epoch": 3.6561475722234924, "step": 47965}, {"loss": 0.03540968894958496, "token_acc": 0.9835684943739954, "grad_norm": 0.9626296758651733, "learning_rate": 1.6780833743170317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23225, "epoch": 3.6565286988337524, "step": 47970}, {"loss": 0.05199010968208313, "token_acc": 0.978915001098177, "grad_norm": 0.08254506438970566, "learning_rate": 1.6771885838327966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232254, "epoch": 3.6569098254440124, "step": 47975}, {"loss": 0.03660974204540253, "token_acc": 0.984390837218731, "grad_norm": 1.2929847240447998, "learning_rate": 1.676293983896376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232258, "epoch": 3.6572909520542725, "step": 47980}, {"loss": 0.07228717803955079, "token_acc": 0.9651682048228639, "grad_norm": 1.5124449729919434, "learning_rate": 1.6753995745590735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232264, "epoch": 3.6576720786645325, "step": 47985}, {"loss": 0.060631567239761354, "token_acc": 0.979784996494508, "grad_norm": 1.233964204788208, "learning_rate": 1.674505355872175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232266, "epoch": 3.6580532052747925, "step": 47990}, {"loss": 0.07084540128707886, "token_acc": 0.9644619940769991, "grad_norm": 1.5195633172988892, "learning_rate": 1.673611327886963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232274, "epoch": 3.658434331885052, "step": 47995}, {"loss": 0.051998329162597653, "token_acc": 0.9802062344435226, "grad_norm": 0.7902447581291199, "learning_rate": 1.6727174906547065e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232277, "epoch": 3.658815458495312, "step": 48000}, {"eval_loss": 0.05878680199384689, "eval_token_acc": 0.9764170833082344, "eval_runtime": 220.4197, "eval_samples_per_second": 2.405, "eval_steps_per_second": 2.405, "epoch": 3.658815458495312, "step": 48000}, {"loss": 0.03565287292003631, "token_acc": 0.9766207635613422, "grad_norm": 1.1177029609680176, "learning_rate": 1.6718238442266597e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232035, "epoch": 3.659196585105572, "step": 48005}, {"loss": 0.06048480272293091, "token_acc": 0.9723979298447384, "grad_norm": 1.1681771278381348, "learning_rate": 1.6709303886540706e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232044, "epoch": 3.659577711715832, "step": 48010}, {"loss": 0.032705605030059814, "token_acc": 0.9816360601001669, "grad_norm": 2.0282559394836426, "learning_rate": 1.6700371239881768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23205, "epoch": 3.6599588383260917, "step": 48015}, {"loss": 0.04945161640644073, "token_acc": 0.9846205282514209, "grad_norm": 1.0503597259521484, "learning_rate": 1.6691440502801997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232058, "epoch": 3.6603399649363517, "step": 48020}, {"loss": 0.04196532964706421, "token_acc": 0.9836563156665888, "grad_norm": 0.771257221698761, "learning_rate": 1.668251167581354e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232064, "epoch": 3.6607210915466117, "step": 48025}, {"loss": 0.06518191695213318, "token_acc": 0.977404098791382, "grad_norm": 1.7336751222610474, "learning_rate": 1.6673584759428424e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232072, "epoch": 3.6611022181568718, "step": 48030}, {"loss": 0.03973201513290405, "token_acc": 0.9828715365239294, "grad_norm": 1.8255970478057861, "learning_rate": 1.6664659754158567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232079, "epoch": 3.6614833447671318, "step": 48035}, {"loss": 0.03886716961860657, "token_acc": 0.9844246662428481, "grad_norm": 1.28916597366333, "learning_rate": 1.6655736660515803e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232086, "epoch": 3.661864471377392, "step": 48040}, {"loss": 0.06824996471405029, "token_acc": 0.9810309278350515, "grad_norm": 0.8008208870887756, "learning_rate": 1.6646815479011778e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232094, "epoch": 3.6622455979876514, "step": 48045}, {"loss": 0.03955523669719696, "token_acc": 0.9793684210526316, "grad_norm": 1.26068913936615, "learning_rate": 1.6637896210158115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232102, "epoch": 3.6626267245979114, "step": 48050}, {"loss": 0.038085955381393435, "token_acc": 0.9872039205009528, "grad_norm": 1.0715631246566772, "learning_rate": 1.6628978854466304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232108, "epoch": 3.6630078512081714, "step": 48055}, {"loss": 0.05656273365020752, "token_acc": 0.9772033746185604, "grad_norm": 0.7420515418052673, "learning_rate": 1.6620063412447673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232113, "epoch": 3.6633889778184314, "step": 48060}, {"loss": 0.05292450785636902, "token_acc": 0.9797492767598843, "grad_norm": 2.2701187133789062, "learning_rate": 1.6611149884613504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232122, "epoch": 3.663770104428691, "step": 48065}, {"loss": 0.04687563478946686, "token_acc": 0.9811419591409115, "grad_norm": 1.5229096412658691, "learning_rate": 1.6602238271474963e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232128, "epoch": 3.664151231038951, "step": 48070}, {"loss": 0.06040109395980835, "token_acc": 0.9721526908635795, "grad_norm": 1.0770761966705322, "learning_rate": 1.659332857354306e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232136, "epoch": 3.664532357649211, "step": 48075}, {"loss": 0.03707034587860107, "token_acc": 0.9853421912896763, "grad_norm": 0.6295843124389648, "learning_rate": 1.658442079132873e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232133, "epoch": 3.664913484259471, "step": 48080}, {"loss": 0.050472313165664674, "token_acc": 0.9704813805631244, "grad_norm": 1.371564269065857, "learning_rate": 1.6575514925342823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232141, "epoch": 3.665294610869731, "step": 48085}, {"loss": 0.06933038234710694, "token_acc": 0.9730392156862745, "grad_norm": 2.668579578399658, "learning_rate": 1.656661097609601e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232148, "epoch": 3.665675737479991, "step": 48090}, {"loss": 0.05955277681350708, "token_acc": 0.9751080024686278, "grad_norm": 0.8513806462287903, "learning_rate": 1.6557708944098906e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232154, "epoch": 3.6660568640902507, "step": 48095}, {"loss": 0.060566335916519165, "token_acc": 0.9750075278530563, "grad_norm": 0.7242007851600647, "learning_rate": 1.6548808829862016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232161, "epoch": 3.6664379907005107, "step": 48100}, {"loss": 0.03421060442924499, "token_acc": 0.984986812740921, "grad_norm": 0.9351616501808167, "learning_rate": 1.6539910633895695e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232165, "epoch": 3.6668191173107707, "step": 48105}, {"loss": 0.052091628313064575, "token_acc": 0.9860349127182045, "grad_norm": 1.6127039194107056, "learning_rate": 1.6531014356710222e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232172, "epoch": 3.6672002439210307, "step": 48110}, {"loss": 0.0549412727355957, "token_acc": 0.9784539044136851, "grad_norm": 2.268441677093506, "learning_rate": 1.6522119998815784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232175, "epoch": 3.6675813705312903, "step": 48115}, {"loss": 0.04528163075447082, "token_acc": 0.9831018905805589, "grad_norm": 1.273640513420105, "learning_rate": 1.6513227560722384e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232178, "epoch": 3.6679624971415503, "step": 48120}, {"loss": 0.05279173851013184, "token_acc": 0.9795591182364729, "grad_norm": 0.7694916129112244, "learning_rate": 1.6504337042940005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232182, "epoch": 3.6683436237518103, "step": 48125}, {"loss": 0.050432682037353516, "token_acc": 0.9807750991760756, "grad_norm": 0.8424879908561707, "learning_rate": 1.6495448445978438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232186, "epoch": 3.6687247503620704, "step": 48130}, {"loss": 0.08307241797447204, "token_acc": 0.9675509756632318, "grad_norm": 1.6479442119598389, "learning_rate": 1.6486561770347425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232192, "epoch": 3.6691058769723304, "step": 48135}, {"loss": 0.04499098062515259, "token_acc": 0.9807295251204404, "grad_norm": 0.8473480343818665, "learning_rate": 1.647767701655659e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232194, "epoch": 3.6694870035825904, "step": 48140}, {"loss": 0.05598995089530945, "token_acc": 0.9819018404907975, "grad_norm": 0.6770869493484497, "learning_rate": 1.64687941851154e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232201, "epoch": 3.66986813019285, "step": 48145}, {"loss": 0.03256575465202331, "token_acc": 0.9871420222092344, "grad_norm": 0.5390996336936951, "learning_rate": 1.6459913276533262e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232208, "epoch": 3.67024925680311, "step": 48150}, {"loss": 0.05319755077362061, "token_acc": 0.9796817625458997, "grad_norm": 2.0292603969573975, "learning_rate": 1.645103429131946e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232209, "epoch": 3.67063038341337, "step": 48155}, {"loss": 0.05296671390533447, "token_acc": 0.9805203650728783, "grad_norm": 1.1795772314071655, "learning_rate": 1.6442157229983146e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232212, "epoch": 3.6710115100236296, "step": 48160}, {"loss": 0.04531992673873901, "token_acc": 0.9848927038626609, "grad_norm": 1.208998203277588, "learning_rate": 1.643328209303337e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232215, "epoch": 3.6713926366338896, "step": 48165}, {"loss": 0.065830397605896, "token_acc": 0.9768591327791507, "grad_norm": 1.4459234476089478, "learning_rate": 1.642440888097913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23222, "epoch": 3.6717737632441496, "step": 48170}, {"loss": 0.0465308278799057, "token_acc": 0.9807603152526657, "grad_norm": 0.921940267086029, "learning_rate": 1.6415537594329216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232226, "epoch": 3.6721548898544096, "step": 48175}, {"loss": 0.04490221738815307, "token_acc": 0.9856938483547926, "grad_norm": 2.3774189949035645, "learning_rate": 1.640666823359238e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232232, "epoch": 3.6725360164646697, "step": 48180}, {"loss": 0.05760207176208496, "token_acc": 0.9720554272517321, "grad_norm": 1.6197043657302856, "learning_rate": 1.639780079927722e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232239, "epoch": 3.6729171430749297, "step": 48185}, {"loss": 0.035894864797592164, "token_acc": 0.9816023738872404, "grad_norm": 0.8382560610771179, "learning_rate": 1.638893529189225e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232243, "epoch": 3.6732982696851897, "step": 48190}, {"loss": 0.054339814186096194, "token_acc": 0.9830144055041926, "grad_norm": 1.9648873805999756, "learning_rate": 1.6380071711945876e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23225, "epoch": 3.6736793962954493, "step": 48195}, {"loss": 0.05863473415374756, "token_acc": 0.9764988897113249, "grad_norm": 1.6480191946029663, "learning_rate": 1.637121005994637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232253, "epoch": 3.6740605229057093, "step": 48200}, {"eval_loss": 0.05810040235519409, "eval_token_acc": 0.9762740196373713, "eval_runtime": 222.2027, "eval_samples_per_second": 2.385, "eval_steps_per_second": 2.385, "epoch": 3.6740605229057093, "step": 48200}, {"loss": 0.029051649570465087, "token_acc": 0.9767053934622926, "grad_norm": 0.7535433173179626, "learning_rate": 1.63623503364019e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232012, "epoch": 3.6744416495159693, "step": 48205}, {"loss": 0.049265730381011966, "token_acc": 0.9812775330396476, "grad_norm": 1.3645621538162231, "learning_rate": 1.635349254182056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232018, "epoch": 3.674822776126229, "step": 48210}, {"loss": 0.09498717784881591, "token_acc": 0.9653353428786737, "grad_norm": 1.8363505601882935, "learning_rate": 1.6344636676710262e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232025, "epoch": 3.675203902736489, "step": 48215}, {"loss": 0.05635427236557007, "token_acc": 0.983358547655068, "grad_norm": 2.8972411155700684, "learning_rate": 1.633578274157888e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232032, "epoch": 3.675585029346749, "step": 48220}, {"loss": 0.06921446323394775, "token_acc": 0.9770966655439542, "grad_norm": 0.8019871115684509, "learning_rate": 1.6326930736934148e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232039, "epoch": 3.675966155957009, "step": 48225}, {"loss": 0.052753770351409913, "token_acc": 0.9803103620891039, "grad_norm": 0.8099725842475891, "learning_rate": 1.6318080663283658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232041, "epoch": 3.676347282567269, "step": 48230}, {"loss": 0.07401596307754517, "token_acc": 0.9819537073362102, "grad_norm": 2.132075548171997, "learning_rate": 1.6309232521134944e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232045, "epoch": 3.676728409177529, "step": 48235}, {"loss": 0.04916301369667053, "token_acc": 0.9757418747056052, "grad_norm": 0.9877547025680542, "learning_rate": 1.6300386310995413e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232051, "epoch": 3.6771095357877885, "step": 48240}, {"loss": 0.033946821093559267, "token_acc": 0.9782637863947403, "grad_norm": 0.06091378256678581, "learning_rate": 1.6291542033372325e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232056, "epoch": 3.6774906623980486, "step": 48245}, {"loss": 0.025692084431648256, "token_acc": 0.9873577749683944, "grad_norm": 0.8548510670661926, "learning_rate": 1.6282699688772877e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232062, "epoch": 3.6778717890083086, "step": 48250}, {"loss": 0.03849512934684753, "token_acc": 0.9800159872102319, "grad_norm": 0.9286959171295166, "learning_rate": 1.627385927770415e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232069, "epoch": 3.6782529156185686, "step": 48255}, {"loss": 0.09634953141212463, "token_acc": 0.96037804434751, "grad_norm": 2.155122756958008, "learning_rate": 1.626502080067307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232077, "epoch": 3.678634042228828, "step": 48260}, {"loss": 0.04620637893676758, "token_acc": 0.9821134868421053, "grad_norm": 0.6940560936927795, "learning_rate": 1.6256184258186496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232081, "epoch": 3.679015168839088, "step": 48265}, {"loss": 0.05696791410446167, "token_acc": 0.9786928908010654, "grad_norm": 2.0207934379577637, "learning_rate": 1.624734965075118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232087, "epoch": 3.679396295449348, "step": 48270}, {"loss": 0.07894476056098938, "token_acc": 0.9774350185661239, "grad_norm": 1.522004246711731, "learning_rate": 1.6238516978873718e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232093, "epoch": 3.6797774220596082, "step": 48275}, {"loss": 0.0616912841796875, "token_acc": 0.9776303317535545, "grad_norm": 0.6156745553016663, "learning_rate": 1.622968624306063e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232097, "epoch": 3.6801585486698682, "step": 48280}, {"loss": 0.06718974113464356, "token_acc": 0.9766233766233766, "grad_norm": 1.5485402345657349, "learning_rate": 1.6220857443818344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232102, "epoch": 3.6805396752801283, "step": 48285}, {"loss": 0.044635072350502014, "token_acc": 0.9846385039238604, "grad_norm": 0.7601261734962463, "learning_rate": 1.621203058165311e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232107, "epoch": 3.680920801890388, "step": 48290}, {"loss": 0.050914764404296875, "token_acc": 0.9859355527861848, "grad_norm": 1.6727445125579834, "learning_rate": 1.6203205657071126e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23211, "epoch": 3.681301928500648, "step": 48295}, {"loss": 0.045072078704833984, "token_acc": 0.9838152105593966, "grad_norm": 1.0336617231369019, "learning_rate": 1.619438267057846e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232113, "epoch": 3.681683055110908, "step": 48300}, {"loss": 0.07241759300231934, "token_acc": 0.9777660137638963, "grad_norm": 2.1194939613342285, "learning_rate": 1.618556162268107e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23212, "epoch": 3.682064181721168, "step": 48305}, {"loss": 0.030112722516059877, "token_acc": 0.98532874479261, "grad_norm": 0.9463962912559509, "learning_rate": 1.6176742513884825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232123, "epoch": 3.6824453083314275, "step": 48310}, {"loss": 0.08415945172309876, "token_acc": 0.9642782097079219, "grad_norm": 1.7319163084030151, "learning_rate": 1.6167925344695416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232128, "epoch": 3.6828264349416875, "step": 48315}, {"loss": 0.07805742621421814, "token_acc": 0.9715811965811966, "grad_norm": 1.8599900007247925, "learning_rate": 1.6159110115618493e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232135, "epoch": 3.6832075615519475, "step": 48320}, {"loss": 0.039122378826141356, "token_acc": 0.9856099180872261, "grad_norm": 0.5375562906265259, "learning_rate": 1.6150296827159578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232139, "epoch": 3.6835886881622075, "step": 48325}, {"loss": 0.048486185073852536, "token_acc": 0.9821673525377229, "grad_norm": 1.6492680311203003, "learning_rate": 1.6141485479824043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232142, "epoch": 3.6839698147724675, "step": 48330}, {"loss": 0.05629817247390747, "token_acc": 0.9771442614893094, "grad_norm": 0.8854400515556335, "learning_rate": 1.6132676074117192e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232149, "epoch": 3.6843509413827276, "step": 48335}, {"loss": 0.047524815797805785, "token_acc": 0.9818103074924209, "grad_norm": 0.6061491370201111, "learning_rate": 1.6123868610544217e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23215, "epoch": 3.684732067992987, "step": 48340}, {"loss": 0.0627691090106964, "token_acc": 0.9785313001605136, "grad_norm": 2.0609936714172363, "learning_rate": 1.611506308961016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232155, "epoch": 3.685113194603247, "step": 48345}, {"loss": 0.05459084510803223, "token_acc": 0.980650277557494, "grad_norm": 2.329880952835083, "learning_rate": 1.610625951182001e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232159, "epoch": 3.685494321213507, "step": 48350}, {"loss": 0.03923773467540741, "token_acc": 0.9884514435695538, "grad_norm": 0.4827536940574646, "learning_rate": 1.6097457877678567e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23216, "epoch": 3.685875447823767, "step": 48355}, {"loss": 0.03520242273807526, "token_acc": 0.9847583643122677, "grad_norm": 0.7513619661331177, "learning_rate": 1.608865818769059e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232167, "epoch": 3.6862565744340268, "step": 48360}, {"loss": 0.040508699417114255, "token_acc": 0.9853039412157648, "grad_norm": 1.3567614555358887, "learning_rate": 1.6079860442360716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232174, "epoch": 3.686637701044287, "step": 48365}, {"loss": 0.04824328422546387, "token_acc": 0.9768073032321737, "grad_norm": 1.4228169918060303, "learning_rate": 1.6071064642193422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232181, "epoch": 3.687018827654547, "step": 48370}, {"loss": 0.05991653800010681, "token_acc": 0.9743669896842764, "grad_norm": 0.6925344467163086, "learning_rate": 1.6062270787693117e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232189, "epoch": 3.687399954264807, "step": 48375}, {"loss": 0.029550814628601076, "token_acc": 0.988592014410087, "grad_norm": 1.335773229598999, "learning_rate": 1.6053478879364115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232196, "epoch": 3.687781080875067, "step": 48380}, {"loss": 0.06762516498565674, "token_acc": 0.972351357964277, "grad_norm": 2.7997865676879883, "learning_rate": 1.604468891771054e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232201, "epoch": 3.688162207485327, "step": 48385}, {"loss": 0.040023711323738095, "token_acc": 0.9837476099426387, "grad_norm": 0.809954047203064, "learning_rate": 1.6035900903236494e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232204, "epoch": 3.6885433340955864, "step": 48390}, {"loss": 0.04361325800418854, "token_acc": 0.9815570136549033, "grad_norm": 0.8898844718933105, "learning_rate": 1.6027114836445933e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232208, "epoch": 3.6889244607058465, "step": 48395}, {"loss": 0.05757214426994324, "token_acc": 0.9790705924086556, "grad_norm": 0.6146228909492493, "learning_rate": 1.6018330717842666e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232212, "epoch": 3.6893055873161065, "step": 48400}, {"eval_loss": 0.059177279472351074, "eval_token_acc": 0.9762589603035962, "eval_runtime": 222.1724, "eval_samples_per_second": 2.386, "eval_steps_per_second": 2.386, "epoch": 3.6893055873161065, "step": 48400}, {"loss": 0.046514520049095155, "token_acc": 0.9765289757704477, "grad_norm": 0.8625184297561646, "learning_rate": 1.6009548547930436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231969, "epoch": 3.6896867139263665, "step": 48405}, {"loss": 0.046875306963920595, "token_acc": 0.9797682863565623, "grad_norm": 0.6489352583885193, "learning_rate": 1.6000768327212883e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231973, "epoch": 3.690067840536626, "step": 48410}, {"loss": 0.0655810534954071, "token_acc": 0.9719864176570459, "grad_norm": 1.4069807529449463, "learning_rate": 1.5991990056193468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231978, "epoch": 3.690448967146886, "step": 48415}, {"loss": 0.04664726853370667, "token_acc": 0.9809797236676835, "grad_norm": 1.0049433708190918, "learning_rate": 1.5983213735375613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231982, "epoch": 3.690830093757146, "step": 48420}, {"loss": 0.04738571941852569, "token_acc": 0.9804131054131054, "grad_norm": 1.188881516456604, "learning_rate": 1.5974439365262607e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231987, "epoch": 3.691211220367406, "step": 48425}, {"loss": 0.060292786359786986, "token_acc": 0.9755333432791288, "grad_norm": 0.9814119338989258, "learning_rate": 1.596566694635757e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231989, "epoch": 3.691592346977666, "step": 48430}, {"loss": 0.07547932863235474, "token_acc": 0.9730596536241181, "grad_norm": 1.616642951965332, "learning_rate": 1.595689647916363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231996, "epoch": 3.691973473587926, "step": 48435}, {"loss": 0.03916893303394318, "token_acc": 0.9858841010401189, "grad_norm": 0.7356760501861572, "learning_rate": 1.5948127964183683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232, "epoch": 3.6923546001981857, "step": 48440}, {"loss": 0.05226744413375854, "token_acc": 0.9823490956635432, "grad_norm": 1.3649760484695435, "learning_rate": 1.593936140192057e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232006, "epoch": 3.6927357268084458, "step": 48445}, {"loss": 0.05172572135925293, "token_acc": 0.9792243767313019, "grad_norm": 1.1437256336212158, "learning_rate": 1.5930596792877044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232012, "epoch": 3.6931168534187058, "step": 48450}, {"loss": 0.04258478581905365, "token_acc": 0.9819254185692542, "grad_norm": 0.8684987425804138, "learning_rate": 1.5921834137555674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232016, "epoch": 3.693497980028966, "step": 48455}, {"loss": 0.05748317241668701, "token_acc": 0.9784681636419563, "grad_norm": 1.192156195640564, "learning_rate": 1.5913073436458976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232024, "epoch": 3.6938791066392254, "step": 48460}, {"loss": 0.06327325701713563, "token_acc": 0.9771197846567967, "grad_norm": 1.1472495794296265, "learning_rate": 1.5904314690089344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232031, "epoch": 3.6942602332494854, "step": 48465}, {"loss": 0.05184919238090515, "token_acc": 0.9808030715085586, "grad_norm": 0.9456011056900024, "learning_rate": 1.5895557898949026e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232034, "epoch": 3.6946413598597454, "step": 48470}, {"loss": 0.028860560059547423, "token_acc": 0.9860440150295223, "grad_norm": 1.0404905080795288, "learning_rate": 1.58868030635402e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232041, "epoch": 3.6950224864700054, "step": 48475}, {"loss": 0.05596458911895752, "token_acc": 0.9756549965221424, "grad_norm": 0.8925660252571106, "learning_rate": 1.587805018436493e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232047, "epoch": 3.6954036130802654, "step": 48480}, {"loss": 0.06573118567466736, "token_acc": 0.9774040313262293, "grad_norm": 0.6341900825500488, "learning_rate": 1.586929926192512e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232049, "epoch": 3.6957847396905255, "step": 48485}, {"loss": 0.050352704524993894, "token_acc": 0.9796411318150449, "grad_norm": 1.0370584726333618, "learning_rate": 1.586055029672261e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232054, "epoch": 3.696165866300785, "step": 48490}, {"loss": 0.06879176497459412, "token_acc": 0.9704565801253358, "grad_norm": 1.1615376472473145, "learning_rate": 1.585180328925913e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232059, "epoch": 3.696546992911045, "step": 48495}, {"loss": 0.060592269897460936, "token_acc": 0.9784984138174128, "grad_norm": 1.0408551692962646, "learning_rate": 1.584305824003625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232063, "epoch": 3.696928119521305, "step": 48500}, {"loss": 0.05862908959388733, "token_acc": 0.9704375246353961, "grad_norm": 1.666353702545166, "learning_rate": 1.5834315149555477e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232068, "epoch": 3.6973092461315646, "step": 48505}, {"loss": 0.07606738805770874, "token_acc": 0.9726277372262774, "grad_norm": 1.731019139289856, "learning_rate": 1.5825574018318194e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232075, "epoch": 3.6976903727418247, "step": 48510}, {"loss": 0.05146102905273438, "token_acc": 0.9812583668005355, "grad_norm": 1.8112565279006958, "learning_rate": 1.5816834846825635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232082, "epoch": 3.6980714993520847, "step": 48515}, {"loss": 0.0400552898645401, "token_acc": 0.9830985915492958, "grad_norm": 0.990960955619812, "learning_rate": 1.5808097635578982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232088, "epoch": 3.6984526259623447, "step": 48520}, {"loss": 0.05660185217857361, "token_acc": 0.981578593518892, "grad_norm": 0.8230341076850891, "learning_rate": 1.5799362385079253e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232092, "epoch": 3.6988337525726047, "step": 48525}, {"loss": 0.0644965946674347, "token_acc": 0.9787928221859706, "grad_norm": 1.6877230405807495, "learning_rate": 1.579062909582737e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232098, "epoch": 3.6992148791828647, "step": 48530}, {"loss": 0.07666466236114503, "token_acc": 0.9740932642487047, "grad_norm": 2.41813325881958, "learning_rate": 1.5781897768324183e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232107, "epoch": 3.6995960057931248, "step": 48535}, {"loss": 0.051493358612060544, "token_acc": 0.9833178869323448, "grad_norm": 2.337859869003296, "learning_rate": 1.5773168403070344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232115, "epoch": 3.6999771324033843, "step": 48540}, {"loss": 0.051285314559936526, "token_acc": 0.9841149773071104, "grad_norm": 1.8415247201919556, "learning_rate": 1.5764441000566472e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232123, "epoch": 3.7003582590136443, "step": 48545}, {"loss": 0.09091821312904358, "token_acc": 0.9717271051014137, "grad_norm": 1.3859657049179077, "learning_rate": 1.5755715561313044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23213, "epoch": 3.7007393856239044, "step": 48550}, {"loss": 0.05651033520698547, "token_acc": 0.9835989190196627, "grad_norm": 0.5118578672409058, "learning_rate": 1.574699208581041e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232129, "epoch": 3.701120512234164, "step": 48555}, {"loss": 0.03484681248664856, "token_acc": 0.982740021574973, "grad_norm": 0.5589068531990051, "learning_rate": 1.5738270574558816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232128, "epoch": 3.701501638844424, "step": 48560}, {"loss": 0.04082508683204651, "token_acc": 0.9813641446142378, "grad_norm": 0.9829323291778564, "learning_rate": 1.5729551028058416e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232128, "epoch": 3.701882765454684, "step": 48565}, {"loss": 0.03534108996391296, "token_acc": 0.9846153846153847, "grad_norm": 1.311590313911438, "learning_rate": 1.572083344680923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232136, "epoch": 3.702263892064944, "step": 48570}, {"loss": 0.06841142177581787, "token_acc": 0.9767116091752758, "grad_norm": 1.2769992351531982, "learning_rate": 1.5712117831311184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23214, "epoch": 3.702645018675204, "step": 48575}, {"loss": 0.05462930202484131, "token_acc": 0.9797375851187511, "grad_norm": 1.2119688987731934, "learning_rate": 1.570340418206405e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232144, "epoch": 3.703026145285464, "step": 48580}, {"loss": 0.08060967922210693, "token_acc": 0.9753040914117214, "grad_norm": 0.69859778881073, "learning_rate": 1.5694692499567536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232148, "epoch": 3.7034072718957236, "step": 48585}, {"loss": 0.09155261516571045, "token_acc": 0.9645913743916764, "grad_norm": 1.3780245780944824, "learning_rate": 1.5685982784321222e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232152, "epoch": 3.7037883985059836, "step": 48590}, {"loss": 0.03502265214920044, "token_acc": 0.9842200180342651, "grad_norm": 2.224315643310547, "learning_rate": 1.5677275036824545e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232158, "epoch": 3.7041695251162436, "step": 48595}, {"loss": 0.043917950987815854, "token_acc": 0.9837054918527459, "grad_norm": 1.0141119956970215, "learning_rate": 1.5668569257576864e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232162, "epoch": 3.7045506517265037, "step": 48600}, {"eval_loss": 0.05847746133804321, "eval_token_acc": 0.9763041383049214, "eval_runtime": 219.9746, "eval_samples_per_second": 2.409, "eval_steps_per_second": 2.409, "epoch": 3.7045506517265037, "step": 48600}, {"loss": 0.07246212363243103, "token_acc": 0.9763993438973668, "grad_norm": 1.41921067237854, "learning_rate": 1.5659865447077444e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231924, "epoch": 3.7049317783367632, "step": 48605}, {"loss": 0.0285037100315094, "token_acc": 0.9877467665078284, "grad_norm": 0.5053153038024902, "learning_rate": 1.565116360582536e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231931, "epoch": 3.7053129049470233, "step": 48610}, {"loss": 0.021909546852111817, "token_acc": 0.9866030881017257, "grad_norm": 0.16861605644226074, "learning_rate": 1.564246373431964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231937, "epoch": 3.7056940315572833, "step": 48615}, {"loss": 0.06947723627090455, "token_acc": 0.9796276782578153, "grad_norm": 0.5869128704071045, "learning_rate": 1.563376583305921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231941, "epoch": 3.7060751581675433, "step": 48620}, {"loss": 0.06591216921806335, "token_acc": 0.9660478749389351, "grad_norm": 1.1670022010803223, "learning_rate": 1.5625069902542817e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231947, "epoch": 3.7064562847778033, "step": 48625}, {"loss": 0.0645624816417694, "token_acc": 0.9797464665598135, "grad_norm": 1.151626467704773, "learning_rate": 1.561637594326914e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23195, "epoch": 3.7068374113880633, "step": 48630}, {"loss": 0.061853927373886106, "token_acc": 0.9847454512038228, "grad_norm": 0.7558711767196655, "learning_rate": 1.5607683955736758e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231956, "epoch": 3.707218537998323, "step": 48635}, {"loss": 0.07868604063987732, "token_acc": 0.9739084132055378, "grad_norm": 2.431062936782837, "learning_rate": 1.559899394044409e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23196, "epoch": 3.707599664608583, "step": 48640}, {"loss": 0.04711296260356903, "token_acc": 0.975213927412216, "grad_norm": 4.60565710067749, "learning_rate": 1.559030589788948e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231966, "epoch": 3.707980791218843, "step": 48645}, {"loss": 0.05967831611633301, "token_acc": 0.9775086505190311, "grad_norm": 1.2648577690124512, "learning_rate": 1.5581619828571158e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231975, "epoch": 3.708361917829103, "step": 48650}, {"loss": 0.06603884696960449, "token_acc": 0.9714285714285714, "grad_norm": 1.837645411491394, "learning_rate": 1.5572935732987205e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231984, "epoch": 3.7087430444393625, "step": 48655}, {"loss": 0.05600627660751343, "token_acc": 0.9777350192413414, "grad_norm": 0.6567006707191467, "learning_rate": 1.556425361163562e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231984, "epoch": 3.7091241710496226, "step": 48660}, {"loss": 0.04251473248004913, "token_acc": 0.9876112371313907, "grad_norm": 0.47729143500328064, "learning_rate": 1.5555573465014312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231988, "epoch": 3.7095052976598826, "step": 48665}, {"loss": 0.05678543448448181, "token_acc": 0.9777002133023075, "grad_norm": 1.1041089296340942, "learning_rate": 1.5546895293621005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231992, "epoch": 3.7098864242701426, "step": 48670}, {"loss": 0.04241708517074585, "token_acc": 0.9830429732868757, "grad_norm": 1.3040434122085571, "learning_rate": 1.553821909795338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231998, "epoch": 3.7102675508804026, "step": 48675}, {"loss": 0.046774637699127194, "token_acc": 0.9839791356184798, "grad_norm": 1.4824509620666504, "learning_rate": 1.5529544878508974e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232006, "epoch": 3.7106486774906626, "step": 48680}, {"loss": 0.05612778067588806, "token_acc": 0.9832359274069518, "grad_norm": 2.039973497390747, "learning_rate": 1.552087263578519e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232009, "epoch": 3.711029804100922, "step": 48685}, {"loss": 0.053490346670150755, "token_acc": 0.9702053079619429, "grad_norm": 0.8245639801025391, "learning_rate": 1.5512202370279378e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232015, "epoch": 3.711410930711182, "step": 48690}, {"loss": 0.027326157689094542, "token_acc": 0.987606963706108, "grad_norm": 0.18117906153202057, "learning_rate": 1.5503534082488698e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232022, "epoch": 3.7117920573214422, "step": 48695}, {"loss": 0.05360459685325623, "token_acc": 0.9771323652144884, "grad_norm": 0.6940703988075256, "learning_rate": 1.5494867772910242e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232026, "epoch": 3.7121731839317023, "step": 48700}, {"loss": 0.04373975992202759, "token_acc": 0.9832134292565947, "grad_norm": 1.626269817352295, "learning_rate": 1.5486203442041026e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23203, "epoch": 3.712554310541962, "step": 48705}, {"loss": 0.04266671538352966, "token_acc": 0.983764705882353, "grad_norm": 0.900880753993988, "learning_rate": 1.547754109037786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232036, "epoch": 3.712935437152222, "step": 48710}, {"loss": 0.04690352976322174, "token_acc": 0.9843155893536122, "grad_norm": 1.058880090713501, "learning_rate": 1.5468880718417515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232038, "epoch": 3.713316563762482, "step": 48715}, {"loss": 0.06237162351608276, "token_acc": 0.974937343358396, "grad_norm": 2.736949920654297, "learning_rate": 1.546022232665663e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232043, "epoch": 3.713697690372742, "step": 48720}, {"loss": 0.05568807125091553, "token_acc": 0.9780242779405609, "grad_norm": 0.6298825740814209, "learning_rate": 1.54515659155917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232049, "epoch": 3.714078816983002, "step": 48725}, {"loss": 0.04889516830444336, "token_acc": 0.9799414960300877, "grad_norm": 1.2206292152404785, "learning_rate": 1.5442911485719132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232054, "epoch": 3.714459943593262, "step": 48730}, {"loss": 0.03863396942615509, "token_acc": 0.9841300940438872, "grad_norm": 1.0809626579284668, "learning_rate": 1.5434259037535242e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23206, "epoch": 3.7148410702035215, "step": 48735}, {"loss": 0.035721606016159056, "token_acc": 0.9865426479319216, "grad_norm": 0.8796589374542236, "learning_rate": 1.542560857153618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232064, "epoch": 3.7152221968137815, "step": 48740}, {"loss": 0.06162925958633423, "token_acc": 0.9856495468277946, "grad_norm": 1.1689856052398682, "learning_rate": 1.5416960088218036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232073, "epoch": 3.7156033234240415, "step": 48745}, {"loss": 0.0512096107006073, "token_acc": 0.9799735499716606, "grad_norm": 1.5225716829299927, "learning_rate": 1.540831358807673e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232076, "epoch": 3.7159844500343016, "step": 48750}, {"loss": 0.06712403893470764, "token_acc": 0.9795721409039729, "grad_norm": 0.8682401776313782, "learning_rate": 1.5399669071608114e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232081, "epoch": 3.716365576644561, "step": 48755}, {"loss": 0.05284461975097656, "token_acc": 0.979905005480453, "grad_norm": 1.4565927982330322, "learning_rate": 1.5391026539307927e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232087, "epoch": 3.716746703254821, "step": 48760}, {"loss": 0.0832652509212494, "token_acc": 0.9787716739588397, "grad_norm": 0.9094082117080688, "learning_rate": 1.538238599167175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23209, "epoch": 3.717127829865081, "step": 48765}, {"loss": 0.04529339075088501, "token_acc": 0.980956411341515, "grad_norm": 0.9550985097885132, "learning_rate": 1.537374742919509e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232095, "epoch": 3.717508956475341, "step": 48770}, {"loss": 0.05505893230438232, "token_acc": 0.979767014101778, "grad_norm": 2.0775845050811768, "learning_rate": 1.5365110852373345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232101, "epoch": 3.717890083085601, "step": 48775}, {"loss": 0.06241623759269714, "token_acc": 0.9793291731669267, "grad_norm": 1.3295663595199585, "learning_rate": 1.535647626170175e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232107, "epoch": 3.7182712096958612, "step": 48780}, {"loss": 0.056697767972946164, "token_acc": 0.9806635456950946, "grad_norm": 0.767246425151825, "learning_rate": 1.5347843657675476e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232111, "epoch": 3.718652336306121, "step": 48785}, {"loss": 0.080640310049057, "token_acc": 0.9802391232148788, "grad_norm": 1.235554814338684, "learning_rate": 1.533921304078958e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232114, "epoch": 3.719033462916381, "step": 48790}, {"loss": 0.05586666464805603, "token_acc": 0.9806609547123623, "grad_norm": 0.4389704465866089, "learning_rate": 1.5330584411538955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232121, "epoch": 3.719414589526641, "step": 48795}, {"loss": 0.07089146971702576, "token_acc": 0.975984796129924, "grad_norm": 0.7085950374603271, "learning_rate": 1.5321957770418427e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232125, "epoch": 3.7197957161369004, "step": 48800}, {"eval_loss": 0.05823696032166481, "eval_token_acc": 0.9762363713029335, "eval_runtime": 218.6123, "eval_samples_per_second": 2.424, "eval_steps_per_second": 2.424, "epoch": 3.7197957161369004, "step": 48800}, {"loss": 0.05939228534698486, "token_acc": 0.9761647745796235, "grad_norm": 0.9154613614082336, "learning_rate": 1.5313333117922712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231888, "epoch": 3.7201768427471604, "step": 48805}, {"loss": 0.03069949746131897, "token_acc": 0.9858447488584475, "grad_norm": 1.0025330781936646, "learning_rate": 1.5304710454546357e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231894, "epoch": 3.7205579693574204, "step": 48810}, {"loss": 0.05340126156806946, "token_acc": 0.9762789368390968, "grad_norm": 0.9321764707565308, "learning_rate": 1.5296089780783855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2319, "epoch": 3.7209390959676805, "step": 48815}, {"loss": 0.041927629709243776, "token_acc": 0.985516645049719, "grad_norm": 1.1412880420684814, "learning_rate": 1.5287471097129573e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231905, "epoch": 3.7213202225779405, "step": 48820}, {"loss": 0.07262083888053894, "token_acc": 0.9736566382278102, "grad_norm": 0.6852235198020935, "learning_rate": 1.5278854404077726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231909, "epoch": 3.7217013491882005, "step": 48825}, {"loss": 0.04360325932502747, "token_acc": 0.9819881754434209, "grad_norm": 1.4083611965179443, "learning_rate": 1.5270239702122447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231912, "epoch": 3.7220824757984605, "step": 48830}, {"loss": 0.03207942843437195, "token_acc": 0.9864130434782609, "grad_norm": 0.8190171718597412, "learning_rate": 1.5261626991757756e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231917, "epoch": 3.72246360240872, "step": 48835}, {"loss": 0.032633519172668456, "token_acc": 0.988931460195828, "grad_norm": 0.8472197651863098, "learning_rate": 1.5253016273477555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231923, "epoch": 3.72284472901898, "step": 48840}, {"loss": 0.0774518072605133, "token_acc": 0.9765984890363, "grad_norm": 1.227094054222107, "learning_rate": 1.5244407547775641e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231927, "epoch": 3.72322585562924, "step": 48845}, {"loss": 0.04026959836483002, "token_acc": 0.9831819060506476, "grad_norm": 1.451130747795105, "learning_rate": 1.523580081514565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231932, "epoch": 3.7236069822394997, "step": 48850}, {"loss": 0.05356399416923523, "token_acc": 0.97508038585209, "grad_norm": 1.4702320098876953, "learning_rate": 1.5227196076081158e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23194, "epoch": 3.7239881088497597, "step": 48855}, {"loss": 0.05711514949798584, "token_acc": 0.9701216287678477, "grad_norm": 1.2157304286956787, "learning_rate": 1.521859333107562e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231946, "epoch": 3.7243692354600197, "step": 48860}, {"loss": 0.04022566676139831, "token_acc": 0.983475951608144, "grad_norm": 1.1650246381759644, "learning_rate": 1.5209992580622334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231949, "epoch": 3.7247503620702798, "step": 48865}, {"loss": 0.05265583992004395, "token_acc": 0.9764705882352941, "grad_norm": 0.16441799700260162, "learning_rate": 1.5201393825214528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231958, "epoch": 3.72513148868054, "step": 48870}, {"loss": 0.028566893935203553, "token_acc": 0.9871391076115485, "grad_norm": 0.9477109909057617, "learning_rate": 1.5192797065345315e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231964, "epoch": 3.7255126152908, "step": 48875}, {"loss": 0.046809914708137515, "token_acc": 0.9770047169811321, "grad_norm": 1.0979293584823608, "learning_rate": 1.5184202301507649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231972, "epoch": 3.7258937419010594, "step": 48880}, {"loss": 0.03163527846336365, "token_acc": 0.9876556347770565, "grad_norm": 0.9250083565711975, "learning_rate": 1.5175609534194419e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231973, "epoch": 3.7262748685113194, "step": 48885}, {"loss": 0.07032080292701721, "token_acc": 0.9794190285781489, "grad_norm": 1.5738561153411865, "learning_rate": 1.5167018763898395e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231977, "epoch": 3.7266559951215794, "step": 48890}, {"loss": 0.061708831787109376, "token_acc": 0.9799082769163573, "grad_norm": 1.9003453254699707, "learning_rate": 1.5158429991112177e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231983, "epoch": 3.7270371217318394, "step": 48895}, {"loss": 0.053540974855422974, "token_acc": 0.9785932721712538, "grad_norm": 1.8850990533828735, "learning_rate": 1.5149843216328325e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23199, "epoch": 3.727418248342099, "step": 48900}, {"loss": 0.045809459686279294, "token_acc": 0.9786795048143053, "grad_norm": 0.7754955291748047, "learning_rate": 1.5141258440039246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231995, "epoch": 3.727799374952359, "step": 48905}, {"loss": 0.04675309062004089, "token_acc": 0.9845545977011494, "grad_norm": 0.9432021379470825, "learning_rate": 1.5132675662737223e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232002, "epoch": 3.728180501562619, "step": 48910}, {"loss": 0.05537645816802979, "token_acc": 0.9665358397025408, "grad_norm": 1.0406442880630493, "learning_rate": 1.5124094884914453e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232007, "epoch": 3.728561628172879, "step": 48915}, {"loss": 0.04712205529212952, "token_acc": 0.9845852703694642, "grad_norm": 1.1862291097640991, "learning_rate": 1.5115516107062988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232014, "epoch": 3.728942754783139, "step": 48920}, {"loss": 0.08562690019607544, "token_acc": 0.9679783950617284, "grad_norm": 1.9611831903457642, "learning_rate": 1.510693932967479e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232021, "epoch": 3.729323881393399, "step": 48925}, {"loss": 0.058075320720672605, "token_acc": 0.9765441751368257, "grad_norm": 0.6685274839401245, "learning_rate": 1.5098364553241712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232026, "epoch": 3.7297050080036587, "step": 48930}, {"loss": 0.04090987741947174, "token_acc": 0.9805515239477504, "grad_norm": 0.7071112990379333, "learning_rate": 1.5089791778255452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232032, "epoch": 3.7300861346139187, "step": 48935}, {"loss": 0.03296991586685181, "token_acc": 0.986940780967158, "grad_norm": 0.3011295795440674, "learning_rate": 1.5081221005207624e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232035, "epoch": 3.7304672612241787, "step": 48940}, {"loss": 0.04842948317527771, "token_acc": 0.9835882727852135, "grad_norm": 0.9027917981147766, "learning_rate": 1.5072652234589752e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232037, "epoch": 3.7308483878344387, "step": 48945}, {"loss": 0.07208556532859803, "token_acc": 0.9711538461538461, "grad_norm": 1.7066742181777954, "learning_rate": 1.5064085466893169e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232044, "epoch": 3.7312295144446983, "step": 48950}, {"loss": 0.070688796043396, "token_acc": 0.9800268868830421, "grad_norm": 0.6871095895767212, "learning_rate": 1.5055520702609166e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232049, "epoch": 3.7316106410549583, "step": 48955}, {"loss": 0.06227047443389892, "token_acc": 0.9738035264483628, "grad_norm": 1.0584282875061035, "learning_rate": 1.50469579422289e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232055, "epoch": 3.7319917676652183, "step": 48960}, {"loss": 0.04112919569015503, "token_acc": 0.9830461750516885, "grad_norm": 0.7508059740066528, "learning_rate": 1.5038397186243363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232058, "epoch": 3.7323728942754784, "step": 48965}, {"loss": 0.06964746117591858, "token_acc": 0.9748427672955975, "grad_norm": 0.7023333311080933, "learning_rate": 1.5029838435143544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232062, "epoch": 3.7327540208857384, "step": 48970}, {"loss": 0.05047510266304016, "token_acc": 0.9724803431022159, "grad_norm": 0.11623256653547287, "learning_rate": 1.5021281689420186e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232066, "epoch": 3.7331351474959984, "step": 48975}, {"loss": 0.032633939385414125, "token_acc": 0.9890438247011952, "grad_norm": 1.4545999765396118, "learning_rate": 1.5012726949564004e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232075, "epoch": 3.733516274106258, "step": 48980}, {"loss": 0.04062047600746155, "token_acc": 0.9838345864661654, "grad_norm": 1.1644946336746216, "learning_rate": 1.5004174216065592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232079, "epoch": 3.733897400716518, "step": 48985}, {"loss": 0.02991829514503479, "token_acc": 0.9871981379109689, "grad_norm": 0.8848966956138611, "learning_rate": 1.4995623489415366e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232086, "epoch": 3.734278527326778, "step": 48990}, {"loss": 0.06936917304992676, "token_acc": 0.9732914375490966, "grad_norm": 1.7558376789093018, "learning_rate": 1.4987074770103694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232091, "epoch": 3.734659653937038, "step": 48995}, {"loss": 0.07226569056510926, "token_acc": 0.9713608532490619, "grad_norm": 3.1976816654205322, "learning_rate": 1.4978528058620822e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232097, "epoch": 3.7350407805472976, "step": 49000}, {"eval_loss": 0.057013314217329025, "eval_token_acc": 0.9768236853201614, "eval_runtime": 220.1882, "eval_samples_per_second": 2.407, "eval_steps_per_second": 2.407, "epoch": 3.7350407805472976, "step": 49000}, {"loss": 0.0424824595451355, "token_acc": 0.9769970907438755, "grad_norm": 0.5227184295654297, "learning_rate": 1.496998335545683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231861, "epoch": 3.7354219071575576, "step": 49005}, {"loss": 0.054729503393173215, "token_acc": 0.9753593429158111, "grad_norm": 1.1877198219299316, "learning_rate": 1.4961440661101732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231865, "epoch": 3.7358030337678176, "step": 49010}, {"loss": 0.06321409940719605, "token_acc": 0.9730751062824752, "grad_norm": 1.735164761543274, "learning_rate": 1.4952899976045426e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23187, "epoch": 3.7361841603780777, "step": 49015}, {"loss": 0.07832803726196289, "token_acc": 0.9698080023450095, "grad_norm": 0.9821336269378662, "learning_rate": 1.494436130077766e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231874, "epoch": 3.7365652869883377, "step": 49020}, {"loss": 0.04839940667152405, "token_acc": 0.9828662930344275, "grad_norm": 0.6912567615509033, "learning_rate": 1.4935824635788088e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231878, "epoch": 3.7369464135985977, "step": 49025}, {"loss": 0.05730386972427368, "token_acc": 0.9844626672421234, "grad_norm": 1.6851619482040405, "learning_rate": 1.4927289981566277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231884, "epoch": 3.7373275402088573, "step": 49030}, {"loss": 0.03656271696090698, "token_acc": 0.9838403041825095, "grad_norm": 1.0678712129592896, "learning_rate": 1.4918757338601608e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231889, "epoch": 3.7377086668191173, "step": 49035}, {"loss": 0.06931053400039673, "token_acc": 0.9786892758936755, "grad_norm": 4.605990409851074, "learning_rate": 1.4910226707383412e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231895, "epoch": 3.7380897934293773, "step": 49040}, {"loss": 0.07509937286376953, "token_acc": 0.9782683093771389, "grad_norm": 3.1493732929229736, "learning_rate": 1.4901698088400895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231898, "epoch": 3.7384709200396373, "step": 49045}, {"loss": 0.04620593786239624, "token_acc": 0.9803229998143679, "grad_norm": 0.0008121732389554381, "learning_rate": 1.4893171482143097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231903, "epoch": 3.738852046649897, "step": 49050}, {"loss": 0.04439484477043152, "token_acc": 0.9883527454242929, "grad_norm": 1.2293556928634644, "learning_rate": 1.4884646889098996e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231906, "epoch": 3.739233173260157, "step": 49055}, {"loss": 0.07393454909324645, "token_acc": 0.97143840330351, "grad_norm": 1.7414129972457886, "learning_rate": 1.4876124309757466e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231913, "epoch": 3.739614299870417, "step": 49060}, {"loss": 0.05280392169952393, "token_acc": 0.9816377906115801, "grad_norm": 1.1627411842346191, "learning_rate": 1.4867603744607189e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231916, "epoch": 3.739995426480677, "step": 49065}, {"loss": 0.046751323342323306, "token_acc": 0.9836372720459655, "grad_norm": 0.54014652967453, "learning_rate": 1.4859085194136808e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231918, "epoch": 3.740376553090937, "step": 49070}, {"loss": 0.047150492668151855, "token_acc": 0.9819477434679335, "grad_norm": 1.5349016189575195, "learning_rate": 1.4850568658834829e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231925, "epoch": 3.740757679701197, "step": 49075}, {"loss": 0.049671322107315063, "token_acc": 0.9804847340258105, "grad_norm": 2.01247501373291, "learning_rate": 1.484205413918961e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231932, "epoch": 3.7411388063114566, "step": 49080}, {"loss": 0.0807680368423462, "token_acc": 0.9705454138201366, "grad_norm": 0.9363377094268799, "learning_rate": 1.4833541635689447e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231931, "epoch": 3.7415199329217166, "step": 49085}, {"loss": 0.06936993598937988, "token_acc": 0.981835264641403, "grad_norm": 2.3982794284820557, "learning_rate": 1.4825031148822465e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231938, "epoch": 3.7419010595319766, "step": 49090}, {"loss": 0.06697304248809814, "token_acc": 0.9739592884650651, "grad_norm": 2.4877123832702637, "learning_rate": 1.4816522679076717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231944, "epoch": 3.742282186142236, "step": 49095}, {"loss": 0.05782181620597839, "token_acc": 0.9733091474475253, "grad_norm": 1.0323090553283691, "learning_rate": 1.4808016226940118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23195, "epoch": 3.742663312752496, "step": 49100}, {"loss": 0.08327438235282898, "token_acc": 0.9762724837351703, "grad_norm": 1.2188265323638916, "learning_rate": 1.4799511792900477e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231958, "epoch": 3.743044439362756, "step": 49105}, {"loss": 0.07091230154037476, "token_acc": 0.9773341338937256, "grad_norm": 1.1094975471496582, "learning_rate": 1.4791009377445487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23196, "epoch": 3.7434255659730162, "step": 49110}, {"loss": 0.04426900744438171, "token_acc": 0.9842637071393076, "grad_norm": 0.5982166528701782, "learning_rate": 1.4782508981062738e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231964, "epoch": 3.7438066925832763, "step": 49115}, {"loss": 0.03176187574863434, "token_acc": 0.9852132049518569, "grad_norm": 1.735591173171997, "learning_rate": 1.4774010604239652e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231971, "epoch": 3.7441878191935363, "step": 49120}, {"loss": 0.07998481988906861, "token_acc": 0.9730789802103762, "grad_norm": 2.5108978748321533, "learning_rate": 1.4765514247463602e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231975, "epoch": 3.7445689458037963, "step": 49125}, {"loss": 0.11357120275497437, "token_acc": 0.9707252162341983, "grad_norm": 1.5338020324707031, "learning_rate": 1.4757019911221787e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231979, "epoch": 3.744950072414056, "step": 49130}, {"loss": 0.06728856563568116, "token_acc": 0.9715528175394094, "grad_norm": 1.333380937576294, "learning_rate": 1.4748527596001333e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231984, "epoch": 3.745331199024316, "step": 49135}, {"loss": 0.03741539716720581, "token_acc": 0.9848182181382341, "grad_norm": 1.9847711324691772, "learning_rate": 1.4740037302289256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231992, "epoch": 3.745712325634576, "step": 49140}, {"loss": 0.038103365898132326, "token_acc": 0.9882926829268293, "grad_norm": 0.6527532339096069, "learning_rate": 1.4731549030572389e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231998, "epoch": 3.7460934522448355, "step": 49145}, {"loss": 0.053105777502059935, "token_acc": 0.9795032776290278, "grad_norm": 0.9204108119010925, "learning_rate": 1.4723062781337527e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231998, "epoch": 3.7464745788550955, "step": 49150}, {"loss": 0.08305364847183228, "token_acc": 0.9648586707410237, "grad_norm": 1.6908094882965088, "learning_rate": 1.4714578555071318e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232006, "epoch": 3.7468557054653555, "step": 49155}, {"loss": 0.06048931479454041, "token_acc": 0.9812371134020619, "grad_norm": 0.6499575972557068, "learning_rate": 1.4706096352260273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232012, "epoch": 3.7472368320756155, "step": 49160}, {"loss": 0.05918506383895874, "token_acc": 0.97906209665854, "grad_norm": 1.4950976371765137, "learning_rate": 1.469761617339082e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232015, "epoch": 3.7476179586858755, "step": 49165}, {"loss": 0.03078022599220276, "token_acc": 0.9867267124911117, "grad_norm": 1.3800337314605713, "learning_rate": 1.4689138018949273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232021, "epoch": 3.7479990852961356, "step": 49170}, {"loss": 0.06265894174575806, "token_acc": 0.9810151878497202, "grad_norm": 1.0513643026351929, "learning_rate": 1.4680661889421776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232025, "epoch": 3.748380211906395, "step": 49175}, {"loss": 0.07429357767105102, "token_acc": 0.9727784026996625, "grad_norm": 1.272114872932434, "learning_rate": 1.4672187785294423e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232031, "epoch": 3.748761338516655, "step": 49180}, {"loss": 0.05489050149917603, "token_acc": 0.9815754841135552, "grad_norm": 2.0578062534332275, "learning_rate": 1.4663715707053171e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232034, "epoch": 3.749142465126915, "step": 49185}, {"loss": 0.07350223064422608, "token_acc": 0.9711379879054426, "grad_norm": 1.948913335800171, "learning_rate": 1.465524565518383e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23204, "epoch": 3.749523591737175, "step": 49190}, {"loss": 0.042332953214645384, "token_acc": 0.9851257075161248, "grad_norm": 0.42155614495277405, "learning_rate": 1.4646777630172132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232042, "epoch": 3.7499047183474348, "step": 49195}, {"loss": 0.05472139716148376, "token_acc": 0.9774398395721925, "grad_norm": 2.1088130474090576, "learning_rate": 1.4638311632503693e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232047, "epoch": 3.750285844957695, "step": 49200}, {"eval_loss": 0.05730169266462326, "eval_token_acc": 0.976831214987049, "eval_runtime": 220.6745, "eval_samples_per_second": 2.402, "eval_steps_per_second": 2.402, "epoch": 3.750285844957695, "step": 49200}, {"loss": 0.04340276420116425, "token_acc": 0.9771390015453484, "grad_norm": 3.634643077850342, "learning_rate": 1.462984766266397e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231812, "epoch": 3.750666971567955, "step": 49205}, {"loss": 0.07287706136703491, "token_acc": 0.9738219895287958, "grad_norm": 1.1849124431610107, "learning_rate": 1.4621385721138341e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231818, "epoch": 3.751048098178215, "step": 49210}, {"loss": 0.0424186110496521, "token_acc": 0.9785320568610386, "grad_norm": 1.2348345518112183, "learning_rate": 1.461292580841208e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231825, "epoch": 3.751429224788475, "step": 49215}, {"loss": 0.040815478563308714, "token_acc": 0.9877003354453969, "grad_norm": 1.1550379991531372, "learning_rate": 1.4604467924970294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231828, "epoch": 3.751810351398735, "step": 49220}, {"loss": 0.0467542827129364, "token_acc": 0.9850236966824645, "grad_norm": 2.527832269668579, "learning_rate": 1.4596012071298021e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231832, "epoch": 3.7521914780089944, "step": 49225}, {"loss": 0.04871063530445099, "token_acc": 0.9798439531859557, "grad_norm": 1.4194464683532715, "learning_rate": 1.4587558247880156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231839, "epoch": 3.7525726046192545, "step": 49230}, {"loss": 0.04832919239997864, "token_acc": 0.9788543897216274, "grad_norm": 0.900928258895874, "learning_rate": 1.4579106455201491e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231841, "epoch": 3.7529537312295145, "step": 49235}, {"loss": 0.06057637929916382, "token_acc": 0.9755902360944377, "grad_norm": 1.3773133754730225, "learning_rate": 1.457065669374672e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231846, "epoch": 3.7533348578397745, "step": 49240}, {"loss": 0.04279967844486236, "token_acc": 0.9776796664213883, "grad_norm": 0.9474126100540161, "learning_rate": 1.4562208964000352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231853, "epoch": 3.753715984450034, "step": 49245}, {"loss": 0.04951457977294922, "token_acc": 0.9795557302929034, "grad_norm": 0.9218318462371826, "learning_rate": 1.4553763266446851e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231858, "epoch": 3.754097111060294, "step": 49250}, {"loss": 0.08016550540924072, "token_acc": 0.9577613516367476, "grad_norm": 0.5153103470802307, "learning_rate": 1.4545319601570556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231866, "epoch": 3.754478237670554, "step": 49255}, {"loss": 0.054098653793334964, "token_acc": 0.9751895244658856, "grad_norm": 1.8108398914337158, "learning_rate": 1.4536877969855633e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231872, "epoch": 3.754859364280814, "step": 49260}, {"loss": 0.05782237648963928, "token_acc": 0.9786532726416575, "grad_norm": 0.6787075996398926, "learning_rate": 1.452843837178619e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231877, "epoch": 3.755240490891074, "step": 49265}, {"loss": 0.0693245768547058, "token_acc": 0.979259686014691, "grad_norm": 3.2243194580078125, "learning_rate": 1.4520000807846213e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231878, "epoch": 3.755621617501334, "step": 49270}, {"loss": 0.08610450625419616, "token_acc": 0.9642643242164105, "grad_norm": 1.021813988685608, "learning_rate": 1.4511565278519523e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231884, "epoch": 3.7560027441115937, "step": 49275}, {"loss": 0.04096458554267883, "token_acc": 0.9848999622499056, "grad_norm": 0.956100583076477, "learning_rate": 1.4503131784289886e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231892, "epoch": 3.7563838707218538, "step": 49280}, {"loss": 0.06224585175514221, "token_acc": 0.9734623015873016, "grad_norm": 2.196608543395996, "learning_rate": 1.4494700325640926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231897, "epoch": 3.7567649973321138, "step": 49285}, {"loss": 0.04344974756240845, "token_acc": 0.9819456617002629, "grad_norm": 1.330375075340271, "learning_rate": 1.448627090305612e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231901, "epoch": 3.757146123942374, "step": 49290}, {"loss": 0.036493897438049316, "token_acc": 0.9846077457795432, "grad_norm": 1.4644325971603394, "learning_rate": 1.4477843517018897e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231909, "epoch": 3.7575272505526334, "step": 49295}, {"loss": 0.0472178190946579, "token_acc": 0.98001223740567, "grad_norm": 1.576104760169983, "learning_rate": 1.4469418168012483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231915, "epoch": 3.7579083771628934, "step": 49300}, {"loss": 0.05116929411888123, "token_acc": 0.9780120481927711, "grad_norm": 1.7189468145370483, "learning_rate": 1.4460994856520055e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231921, "epoch": 3.7582895037731534, "step": 49305}, {"loss": 0.03652292191982269, "token_acc": 0.9861259338313767, "grad_norm": 0.8280119895935059, "learning_rate": 1.445257358302467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231927, "epoch": 3.7586706303834134, "step": 49310}, {"loss": 0.07219944000244141, "token_acc": 0.970890785729919, "grad_norm": 1.176550030708313, "learning_rate": 1.4444154348009215e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231933, "epoch": 3.7590517569936734, "step": 49315}, {"loss": 0.063514244556427, "token_acc": 0.9756181912502162, "grad_norm": 1.1383305788040161, "learning_rate": 1.4435737151956507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231937, "epoch": 3.7594328836039335, "step": 49320}, {"loss": 0.09212472438812255, "token_acc": 0.9628571428571429, "grad_norm": 2.173473834991455, "learning_rate": 1.4427321995349247e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231945, "epoch": 3.759814010214193, "step": 49325}, {"loss": 0.0803191065788269, "token_acc": 0.9717429357339334, "grad_norm": 1.7989131212234497, "learning_rate": 1.4418908878669984e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231951, "epoch": 3.760195136824453, "step": 49330}, {"loss": 0.0729818344116211, "token_acc": 0.9670596393897365, "grad_norm": 2.313945770263672, "learning_rate": 1.4410497802401174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231959, "epoch": 3.760576263434713, "step": 49335}, {"loss": 0.0304873526096344, "token_acc": 0.9856566562079785, "grad_norm": 1.0201239585876465, "learning_rate": 1.4402088767025179e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231965, "epoch": 3.760957390044973, "step": 49340}, {"loss": 0.06002195477485657, "token_acc": 0.9776220005392289, "grad_norm": 0.7694002389907837, "learning_rate": 1.4393681773024188e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231967, "epoch": 3.7613385166552327, "step": 49345}, {"loss": 0.051539909839630124, "token_acc": 0.9804618117229129, "grad_norm": 1.7079490423202515, "learning_rate": 1.4385276820880306e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231972, "epoch": 3.7617196432654927, "step": 49350}, {"loss": 0.04232952892780304, "token_acc": 0.9780746831106544, "grad_norm": 0.257594496011734, "learning_rate": 1.4376873911075544e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231978, "epoch": 3.7621007698757527, "step": 49355}, {"loss": 0.05914462804794311, "token_acc": 0.9829987709954936, "grad_norm": 1.9846243858337402, "learning_rate": 1.4368473044091735e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231984, "epoch": 3.7624818964860127, "step": 49360}, {"loss": 0.044481754302978516, "token_acc": 0.9779298168174796, "grad_norm": 1.3557640314102173, "learning_rate": 1.4360074220410647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231991, "epoch": 3.7628630230962727, "step": 49365}, {"loss": 0.064264315366745, "token_acc": 0.9796945505032975, "grad_norm": 1.5696619749069214, "learning_rate": 1.4351677440513911e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231994, "epoch": 3.7632441497065328, "step": 49370}, {"loss": 0.03702512681484223, "token_acc": 0.9881849062176931, "grad_norm": 0.6067826747894287, "learning_rate": 1.4343282704883049e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231997, "epoch": 3.7636252763167923, "step": 49375}, {"loss": 0.038163980841636656, "token_acc": 0.9825904432646005, "grad_norm": 1.1257916688919067, "learning_rate": 1.4334890013999469e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231999, "epoch": 3.7640064029270524, "step": 49380}, {"loss": 0.08483254909515381, "token_acc": 0.9729570840681951, "grad_norm": 1.9523323774337769, "learning_rate": 1.4326499368344432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232006, "epoch": 3.7643875295373124, "step": 49385}, {"loss": 0.07311153411865234, "token_acc": 0.9790611279972982, "grad_norm": 1.9997837543487549, "learning_rate": 1.4318110768399101e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232013, "epoch": 3.7647686561475724, "step": 49390}, {"loss": 0.04350111782550812, "token_acc": 0.9850212089077413, "grad_norm": 1.5989100933074951, "learning_rate": 1.4309724214644554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232017, "epoch": 3.765149782757832, "step": 49395}, {"loss": 0.042566624283790586, "token_acc": 0.9821005917159763, "grad_norm": 1.6443607807159424, "learning_rate": 1.4301339707561684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232019, "epoch": 3.765530909368092, "step": 49400}, {"eval_loss": 0.05675838515162468, "eval_token_acc": 0.9771926389976507, "eval_runtime": 222.0971, "eval_samples_per_second": 2.386, "eval_steps_per_second": 2.386, "epoch": 3.765530909368092, "step": 49400}, {"loss": 0.04719987511634827, "token_acc": 0.9775235787590424, "grad_norm": 0.6239147782325745, "learning_rate": 1.4292957247631323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231778, "epoch": 3.765912035978352, "step": 49405}, {"loss": 0.027698755264282227, "token_acc": 0.9891572879494922, "grad_norm": 1.1191984415054321, "learning_rate": 1.4284576835334173e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231782, "epoch": 3.766293162588612, "step": 49410}, {"loss": 0.04538663327693939, "token_acc": 0.987409200968523, "grad_norm": 1.0212314128875732, "learning_rate": 1.4276198471150786e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23179, "epoch": 3.766674289198872, "step": 49415}, {"loss": 0.040771621465682986, "token_acc": 0.9877839691384483, "grad_norm": 0.5518254041671753, "learning_rate": 1.4267822155561644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231795, "epoch": 3.767055415809132, "step": 49420}, {"loss": 0.05148004293441773, "token_acc": 0.9774798005844937, "grad_norm": 1.2289819717407227, "learning_rate": 1.4259447889047096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231799, "epoch": 3.7674365424193916, "step": 49425}, {"loss": 0.03582529127597809, "token_acc": 0.9820305480682839, "grad_norm": 1.1270025968551636, "learning_rate": 1.4251075672087338e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231803, "epoch": 3.7678176690296517, "step": 49430}, {"loss": 0.05199323892593384, "token_acc": 0.9783018867924528, "grad_norm": 1.6252589225769043, "learning_rate": 1.4242705505162496e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231809, "epoch": 3.7681987956399117, "step": 49435}, {"loss": 0.06835298538208008, "token_acc": 0.9721964782205746, "grad_norm": 2.368750810623169, "learning_rate": 1.4234337388752578e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231817, "epoch": 3.7685799222501712, "step": 49440}, {"loss": 0.08151073455810547, "token_acc": 0.9708215297450425, "grad_norm": 2.875704050064087, "learning_rate": 1.4225971323337417e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231824, "epoch": 3.7689610488604313, "step": 49445}, {"loss": 0.04797639846801758, "token_acc": 0.980875691997987, "grad_norm": 0.9627692103385925, "learning_rate": 1.421760730939679e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23183, "epoch": 3.7693421754706913, "step": 49450}, {"loss": 0.03799420297145843, "token_acc": 0.9789915966386554, "grad_norm": 1.330607533454895, "learning_rate": 1.4209245347410349e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231837, "epoch": 3.7697233020809513, "step": 49455}, {"loss": 0.03309817314147949, "token_acc": 0.9821251241310824, "grad_norm": 1.0230084657669067, "learning_rate": 1.4200885437857586e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231844, "epoch": 3.7701044286912113, "step": 49460}, {"loss": 0.059177052974700925, "token_acc": 0.9773512476007677, "grad_norm": 1.5670970678329468, "learning_rate": 1.4192527581217912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231849, "epoch": 3.7704855553014713, "step": 49465}, {"loss": 0.05547956824302673, "token_acc": 0.9806275579809004, "grad_norm": 0.8811646699905396, "learning_rate": 1.4184171777970629e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231851, "epoch": 3.770866681911731, "step": 49470}, {"loss": 0.045135363936424255, "token_acc": 0.9824069749338316, "grad_norm": 1.314267635345459, "learning_rate": 1.4175818028594873e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231854, "epoch": 3.771247808521991, "step": 49475}, {"loss": 0.04235619902610779, "token_acc": 0.9834331337325349, "grad_norm": 0.7771315574645996, "learning_rate": 1.416746633356973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231858, "epoch": 3.771628935132251, "step": 49480}, {"loss": 0.044371843338012695, "token_acc": 0.9798278644432491, "grad_norm": 1.3125030994415283, "learning_rate": 1.4159116693374086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23186, "epoch": 3.772010061742511, "step": 49485}, {"loss": 0.04144091308116913, "token_acc": 0.9876638396299152, "grad_norm": 1.270327091217041, "learning_rate": 1.4150769108486782e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231862, "epoch": 3.7723911883527705, "step": 49490}, {"loss": 0.05821223258972168, "token_acc": 0.9805124011992369, "grad_norm": 1.0295872688293457, "learning_rate": 1.4142423579386521e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231863, "epoch": 3.7727723149630306, "step": 49495}, {"loss": 0.07778084874153138, "token_acc": 0.9728240910760191, "grad_norm": 2.1801817417144775, "learning_rate": 1.413408010655184e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231871, "epoch": 3.7731534415732906, "step": 49500}, {"loss": 0.03599921464920044, "token_acc": 0.982546608488695, "grad_norm": 2.154778003692627, "learning_rate": 1.4125738690461243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231877, "epoch": 3.7735345681835506, "step": 49505}, {"loss": 0.055577391386032106, "token_acc": 0.9765957446808511, "grad_norm": 1.1936566829681396, "learning_rate": 1.4117399331593067e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231883, "epoch": 3.7739156947938106, "step": 49510}, {"loss": 0.06513239741325379, "token_acc": 0.9710564399421129, "grad_norm": 1.3995211124420166, "learning_rate": 1.4109062030425513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231889, "epoch": 3.7742968214040706, "step": 49515}, {"loss": 0.06409629583358764, "token_acc": 0.9754355898314767, "grad_norm": 0.7792954444885254, "learning_rate": 1.4100726787436708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231893, "epoch": 3.77467794801433, "step": 49520}, {"loss": 0.03858259320259094, "token_acc": 0.9846574690770694, "grad_norm": 1.000656008720398, "learning_rate": 1.4092393603104614e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231896, "epoch": 3.7750590746245902, "step": 49525}, {"loss": 0.07007834315299988, "token_acc": 0.9701723376049491, "grad_norm": 1.1591041088104248, "learning_rate": 1.4084062477907118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231901, "epoch": 3.7754402012348502, "step": 49530}, {"loss": 0.08525997400283813, "token_acc": 0.972382956338769, "grad_norm": 2.4687910079956055, "learning_rate": 1.4075733412321985e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231908, "epoch": 3.7758213278451103, "step": 49535}, {"loss": 0.1047576904296875, "token_acc": 0.9691004236232246, "grad_norm": 0.9665534496307373, "learning_rate": 1.4067406406826816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231913, "epoch": 3.77620245445537, "step": 49540}, {"loss": 0.03984101414680481, "token_acc": 0.9858035207268597, "grad_norm": 0.43288248777389526, "learning_rate": 1.4059081461899137e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231915, "epoch": 3.77658358106563, "step": 49545}, {"loss": 0.060120928287506106, "token_acc": 0.9831362667183563, "grad_norm": 1.1039576530456543, "learning_rate": 1.405075857801637e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23192, "epoch": 3.77696470767589, "step": 49550}, {"loss": 0.052438211441040036, "token_acc": 0.9731691919191919, "grad_norm": 1.1502867937088013, "learning_rate": 1.4042437755655757e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231928, "epoch": 3.77734583428615, "step": 49555}, {"loss": 0.05944451093673706, "token_acc": 0.9805391894304588, "grad_norm": 1.764073133468628, "learning_rate": 1.4034118995294477e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231931, "epoch": 3.77772696089641, "step": 49560}, {"loss": 0.057460206747055056, "token_acc": 0.9803743961352657, "grad_norm": 1.3907653093338013, "learning_rate": 1.4025802297409584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231938, "epoch": 3.77810808750667, "step": 49565}, {"loss": 0.045544058084487915, "token_acc": 0.9789092458457606, "grad_norm": 0.9711343050003052, "learning_rate": 1.4017487662477973e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231942, "epoch": 3.7784892141169295, "step": 49570}, {"loss": 0.05266235470771789, "token_acc": 0.9761362112883765, "grad_norm": 0.3694034516811371, "learning_rate": 1.4009175090976463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231946, "epoch": 3.7788703407271895, "step": 49575}, {"loss": 0.05924941301345825, "token_acc": 0.9772528433945756, "grad_norm": 0.7384228706359863, "learning_rate": 1.4000864583381762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231951, "epoch": 3.7792514673374495, "step": 49580}, {"loss": 0.06198549270629883, "token_acc": 0.9722042663219134, "grad_norm": 1.696331262588501, "learning_rate": 1.3992556140170404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231957, "epoch": 3.7796325939477096, "step": 49585}, {"loss": 0.06167426109313965, "token_acc": 0.974195418962018, "grad_norm": 2.579899787902832, "learning_rate": 1.3984249761818858e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231963, "epoch": 3.780013720557969, "step": 49590}, {"loss": 0.03826078176498413, "token_acc": 0.9810897435897435, "grad_norm": 1.5736339092254639, "learning_rate": 1.3975945448803474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231971, "epoch": 3.780394847168229, "step": 49595}, {"loss": 0.05459545254707336, "token_acc": 0.979517271922055, "grad_norm": 0.8955866098403931, "learning_rate": 1.3967643201600422e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23197, "epoch": 3.780775973778489, "step": 49600}, {"eval_loss": 0.05507699400186539, "eval_token_acc": 0.9773658213360641, "eval_runtime": 219.5756, "eval_samples_per_second": 2.414, "eval_steps_per_second": 2.414, "epoch": 3.780775973778489, "step": 49600}, {"loss": 0.06899356842041016, "token_acc": 0.9772331028069972, "grad_norm": 1.163751482963562, "learning_rate": 1.3959343020685828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231737, "epoch": 3.781157100388749, "step": 49605}, {"loss": 0.06851338744163513, "token_acc": 0.9791817711030554, "grad_norm": 0.48156222701072693, "learning_rate": 1.3951044906535676e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231738, "epoch": 3.781538226999009, "step": 49610}, {"loss": 0.0483797550201416, "token_acc": 0.9779567613395507, "grad_norm": 1.197718620300293, "learning_rate": 1.3942748859625799e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231746, "epoch": 3.7819193536092692, "step": 49615}, {"loss": 0.030302512645721435, "token_acc": 0.9869811320754717, "grad_norm": 1.1512904167175293, "learning_rate": 1.393445488043194e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23175, "epoch": 3.782300480219529, "step": 49620}, {"loss": 0.03919914960861206, "token_acc": 0.9826109525045419, "grad_norm": 1.7169764041900635, "learning_rate": 1.3926162969429752e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231755, "epoch": 3.782681606829789, "step": 49625}, {"loss": 0.04687936007976532, "token_acc": 0.9869791666666666, "grad_norm": 1.241289496421814, "learning_rate": 1.3917873127094699e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231761, "epoch": 3.783062733440049, "step": 49630}, {"loss": 0.056233108043670654, "token_acc": 0.9773282176491106, "grad_norm": 1.361514925956726, "learning_rate": 1.3909585353902177e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231765, "epoch": 3.783443860050309, "step": 49635}, {"loss": 0.03161362707614899, "token_acc": 0.9863072314933675, "grad_norm": 0.46829554438591003, "learning_rate": 1.3901299650327459e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23177, "epoch": 3.7838249866605684, "step": 49640}, {"loss": 0.0428810179233551, "token_acc": 0.9865157717312786, "grad_norm": 1.360326886177063, "learning_rate": 1.3893016016845689e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231776, "epoch": 3.7842061132708285, "step": 49645}, {"loss": 0.06506238579750061, "token_acc": 0.974511672224869, "grad_norm": 1.6945706605911255, "learning_rate": 1.3884734453931903e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231783, "epoch": 3.7845872398810885, "step": 49650}, {"loss": 0.04251969456672668, "token_acc": 0.9836516004945735, "grad_norm": 0.7082275152206421, "learning_rate": 1.3876454962060986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231786, "epoch": 3.7849683664913485, "step": 49655}, {"loss": 0.06598026752471924, "token_acc": 0.9796049806784027, "grad_norm": 1.0649880170822144, "learning_rate": 1.386817754170775e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23179, "epoch": 3.7853494931016085, "step": 49660}, {"loss": 0.05464975237846374, "token_acc": 0.9777310924369748, "grad_norm": 1.4562768936157227, "learning_rate": 1.385990219334687e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231798, "epoch": 3.7857306197118685, "step": 49665}, {"loss": 0.05058342218399048, "token_acc": 0.9796539961013645, "grad_norm": 1.3175218105316162, "learning_rate": 1.3851628917452874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2318, "epoch": 3.786111746322128, "step": 49670}, {"loss": 0.054574775695800784, "token_acc": 0.9794283239497618, "grad_norm": 0.7989910840988159, "learning_rate": 1.384335771450021e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231805, "epoch": 3.786492872932388, "step": 49675}, {"loss": 0.0649226188659668, "token_acc": 0.970972097209721, "grad_norm": 1.9526698589324951, "learning_rate": 1.3835088584963208e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231811, "epoch": 3.786873999542648, "step": 49680}, {"loss": 0.036125478148460385, "token_acc": 0.9861546499477534, "grad_norm": 0.7702149748802185, "learning_rate": 1.3826821529316036e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231816, "epoch": 3.787255126152908, "step": 49685}, {"loss": 0.06690528392791747, "token_acc": 0.9752083778585168, "grad_norm": 1.7919747829437256, "learning_rate": 1.3818556548032802e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231821, "epoch": 3.7876362527631677, "step": 49690}, {"loss": 0.028903329372406007, "token_acc": 0.9873301785986872, "grad_norm": 1.5046727657318115, "learning_rate": 1.381029364158743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231825, "epoch": 3.7880173793734278, "step": 49695}, {"loss": 0.047303909063339235, "token_acc": 0.9850460789427925, "grad_norm": 0.5665990114212036, "learning_rate": 1.380203281045378e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231829, "epoch": 3.7883985059836878, "step": 49700}, {"loss": 0.0611092746257782, "token_acc": 0.9763549823430063, "grad_norm": 0.8633244037628174, "learning_rate": 1.3793774055105579e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231832, "epoch": 3.788779632593948, "step": 49705}, {"loss": 0.05788120031356812, "token_acc": 0.9751618443651737, "grad_norm": 1.460031509399414, "learning_rate": 1.378551737601641e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231835, "epoch": 3.789160759204208, "step": 49710}, {"loss": 0.048944252729415896, "token_acc": 0.9807493984187006, "grad_norm": 0.9067478179931641, "learning_rate": 1.377726277365976e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231843, "epoch": 3.789541885814468, "step": 49715}, {"loss": 0.028213325142860412, "token_acc": 0.9888849682427664, "grad_norm": 0.41892266273498535, "learning_rate": 1.3769010248509011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231846, "epoch": 3.7899230124247274, "step": 49720}, {"loss": 0.06556029319763183, "token_acc": 0.9861205145565335, "grad_norm": 2.878065347671509, "learning_rate": 1.3760759801037376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231853, "epoch": 3.7903041390349874, "step": 49725}, {"loss": 0.08724913597106934, "token_acc": 0.9692168401991852, "grad_norm": 4.586342811584473, "learning_rate": 1.3752511431718002e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23186, "epoch": 3.7906852656452474, "step": 49730}, {"loss": 0.051538360118865964, "token_acc": 0.9793759915388683, "grad_norm": 0.8645709156990051, "learning_rate": 1.3744265141023899e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231861, "epoch": 3.791066392255507, "step": 49735}, {"loss": 0.04985419809818268, "token_acc": 0.9812402915521568, "grad_norm": 0.8297973871231079, "learning_rate": 1.3736020929427923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231862, "epoch": 3.791447518865767, "step": 49740}, {"loss": 0.03648805916309357, "token_acc": 0.9883551673944687, "grad_norm": 0.7368699312210083, "learning_rate": 1.3727778797402869e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231867, "epoch": 3.791828645476027, "step": 49745}, {"loss": 0.09566297531127929, "token_acc": 0.9699895615866388, "grad_norm": 0.6735879182815552, "learning_rate": 1.371953874542139e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23187, "epoch": 3.792209772086287, "step": 49750}, {"loss": 0.04835646748542786, "token_acc": 0.9876574307304786, "grad_norm": 1.4900367259979248, "learning_rate": 1.3711300773955981e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231875, "epoch": 3.792590898696547, "step": 49755}, {"loss": 0.038391613960266115, "token_acc": 0.9884126762529666, "grad_norm": 1.1711376905441284, "learning_rate": 1.3703064883479083e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231877, "epoch": 3.792972025306807, "step": 49760}, {"loss": 0.03946090936660766, "token_acc": 0.986125385405961, "grad_norm": 2.4208757877349854, "learning_rate": 1.3694831074462966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231883, "epoch": 3.793353151917067, "step": 49765}, {"loss": 0.04355248808860779, "token_acc": 0.9843196762771876, "grad_norm": 0.8947399854660034, "learning_rate": 1.3686599347379819e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23189, "epoch": 3.7937342785273267, "step": 49770}, {"loss": 0.03071017563343048, "token_acc": 0.9875801282051282, "grad_norm": 0.46912530064582825, "learning_rate": 1.3678369702701694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231897, "epoch": 3.7941154051375867, "step": 49775}, {"loss": 0.05704330205917359, "token_acc": 0.9768563162970106, "grad_norm": 1.2033329010009766, "learning_rate": 1.36701421409005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231904, "epoch": 3.7944965317478467, "step": 49780}, {"loss": 0.026459187269210815, "token_acc": 0.9902676399026764, "grad_norm": 0.4610370695590973, "learning_rate": 1.366191666244806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231913, "epoch": 3.7948776583581063, "step": 49785}, {"loss": 0.03316831290721893, "token_acc": 0.9831419851765731, "grad_norm": 0.7197744846343994, "learning_rate": 1.3653693267816092e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231916, "epoch": 3.7952587849683663, "step": 49790}, {"loss": 0.059509378671646115, "token_acc": 0.9748412310698583, "grad_norm": 0.6361710429191589, "learning_rate": 1.364547195747613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231917, "epoch": 3.7956399115786263, "step": 49795}, {"loss": 0.05207591056823731, "token_acc": 0.9833723044946739, "grad_norm": 1.292320728302002, "learning_rate": 1.3637252731899641e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231923, "epoch": 3.7960210381888864, "step": 49800}, {"eval_loss": 0.05494461953639984, "eval_token_acc": 0.977252876332751, "eval_runtime": 220.123, "eval_samples_per_second": 2.408, "eval_steps_per_second": 2.408, "epoch": 3.7960210381888864, "step": 49800}, {"loss": 0.050142991542816165, "token_acc": 0.9771282526535281, "grad_norm": 1.0038409233093262, "learning_rate": 1.3629035591557982e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23169, "epoch": 3.7964021647991464, "step": 49805}, {"loss": 0.057119280099868774, "token_acc": 0.9730193769928869, "grad_norm": 1.495643138885498, "learning_rate": 1.3620820536922335e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231696, "epoch": 3.7967832914094064, "step": 49810}, {"loss": 0.03344021439552307, "token_acc": 0.9831622176591376, "grad_norm": 1.7586190700531006, "learning_rate": 1.3612607568463814e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231703, "epoch": 3.797164418019666, "step": 49815}, {"loss": 0.0762170672416687, "token_acc": 0.9709302325581395, "grad_norm": 0.8871007561683655, "learning_rate": 1.3604396686653404e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231707, "epoch": 3.797545544629926, "step": 49820}, {"loss": 0.05691769123077393, "token_acc": 0.9787365813377374, "grad_norm": 1.6857911348342896, "learning_rate": 1.3596187891961926e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231714, "epoch": 3.797926671240186, "step": 49825}, {"loss": 0.04956548810005188, "token_acc": 0.9785942006983452, "grad_norm": 1.3018244504928589, "learning_rate": 1.3587981184860144e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231715, "epoch": 3.798307797850446, "step": 49830}, {"loss": 0.03993641436100006, "token_acc": 0.9842215424247304, "grad_norm": 1.0196419954299927, "learning_rate": 1.3579776565818686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231718, "epoch": 3.7986889244607056, "step": 49835}, {"loss": 0.041711249947547914, "token_acc": 0.9850723299476762, "grad_norm": 0.999539315700531, "learning_rate": 1.357157403530801e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23172, "epoch": 3.7990700510709656, "step": 49840}, {"loss": 0.03190929293632507, "token_acc": 0.9860248447204969, "grad_norm": 0.5577094554901123, "learning_rate": 1.3563373593798518e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231726, "epoch": 3.7994511776812256, "step": 49845}, {"loss": 0.04737975597381592, "token_acc": 0.9837288135593221, "grad_norm": 1.3178467750549316, "learning_rate": 1.3555175241760481e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231732, "epoch": 3.7998323042914857, "step": 49850}, {"loss": 0.03942444622516632, "token_acc": 0.9792648444863337, "grad_norm": 0.04409927502274513, "learning_rate": 1.3546978979664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23174, "epoch": 3.8002134309017457, "step": 49855}, {"loss": 0.04871741533279419, "token_acc": 0.9821717990275527, "grad_norm": 3.179527997970581, "learning_rate": 1.3538784807979132e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231747, "epoch": 3.8005945575120057, "step": 49860}, {"loss": 0.03760620057582855, "token_acc": 0.9874421678783873, "grad_norm": 1.6907007694244385, "learning_rate": 1.3530592727175734e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231753, "epoch": 3.8009756841222653, "step": 49865}, {"loss": 0.079800283908844, "token_acc": 0.9686132488305417, "grad_norm": 1.661289930343628, "learning_rate": 1.3522402737723605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231757, "epoch": 3.8013568107325253, "step": 49870}, {"loss": 0.03937745690345764, "token_acc": 0.9893088015912481, "grad_norm": 1.5284230709075928, "learning_rate": 1.351421484009242e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231762, "epoch": 3.8017379373427853, "step": 49875}, {"loss": 0.04361860752105713, "token_acc": 0.9833784306146115, "grad_norm": 0.5144834518432617, "learning_rate": 1.3506029034751683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231767, "epoch": 3.8021190639530453, "step": 49880}, {"loss": 0.06879715919494629, "token_acc": 0.975603217158177, "grad_norm": 1.584444284439087, "learning_rate": 1.3497845322170833e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231773, "epoch": 3.802500190563305, "step": 49885}, {"loss": 0.06735858917236329, "token_acc": 0.9841591453306318, "grad_norm": 0.9943462014198303, "learning_rate": 1.3489663702819172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231776, "epoch": 3.802881317173565, "step": 49890}, {"loss": 0.04314205348491669, "token_acc": 0.9831428017826003, "grad_norm": 1.1590137481689453, "learning_rate": 1.3481484177165854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231781, "epoch": 3.803262443783825, "step": 49895}, {"loss": 0.024588119983673096, "token_acc": 0.991775950211158, "grad_norm": 0.7390767931938171, "learning_rate": 1.3473306745679936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231787, "epoch": 3.803643570394085, "step": 49900}, {"loss": 0.054437047243118285, "token_acc": 0.9824964131994262, "grad_norm": 1.6639763116836548, "learning_rate": 1.3465131408830405e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231793, "epoch": 3.804024697004345, "step": 49905}, {"loss": 0.039322075247764585, "token_acc": 0.9860769860769861, "grad_norm": 1.025344967842102, "learning_rate": 1.3456958167086031e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2318, "epoch": 3.804405823614605, "step": 49910}, {"loss": 0.05250083208084107, "token_acc": 0.9779375309866137, "grad_norm": 0.869002103805542, "learning_rate": 1.3448787020915537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231806, "epoch": 3.8047869502248646, "step": 49915}, {"loss": 0.037960395216941833, "token_acc": 0.987240356083086, "grad_norm": 0.6119213104248047, "learning_rate": 1.3440617970787478e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231811, "epoch": 3.8051680768351246, "step": 49920}, {"loss": 0.05246716141700745, "token_acc": 0.9811278364412491, "grad_norm": 0.7159050107002258, "learning_rate": 1.3432451017170317e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231816, "epoch": 3.8055492034453846, "step": 49925}, {"loss": 0.06867601871490478, "token_acc": 0.9779339972661589, "grad_norm": 2.2820262908935547, "learning_rate": 1.3424286160532418e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231819, "epoch": 3.8059303300556446, "step": 49930}, {"loss": 0.06933952569961548, "token_acc": 0.9763313609467456, "grad_norm": 1.4799386262893677, "learning_rate": 1.341612340134195e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231823, "epoch": 3.806311456665904, "step": 49935}, {"loss": 0.042849200963974, "token_acc": 0.9832098765432099, "grad_norm": 0.6729950904846191, "learning_rate": 1.3407962740067042e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231823, "epoch": 3.806692583276164, "step": 49940}, {"loss": 0.050516313314437865, "token_acc": 0.9781243670245088, "grad_norm": 1.329359769821167, "learning_rate": 1.3399804177175678e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231828, "epoch": 3.8070737098864242, "step": 49945}, {"loss": 0.042109829187393186, "token_acc": 0.9841199432221434, "grad_norm": 1.0247658491134644, "learning_rate": 1.3391647713135686e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231828, "epoch": 3.8074548364966843, "step": 49950}, {"loss": 0.029956707358360292, "token_acc": 0.9873116574147502, "grad_norm": 1.1890708208084106, "learning_rate": 1.3383493348414811e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231834, "epoch": 3.8078359631069443, "step": 49955}, {"loss": 0.03179272711277008, "token_acc": 0.9836503169836504, "grad_norm": 0.976090669631958, "learning_rate": 1.3375341083480685e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231839, "epoch": 3.8082170897172043, "step": 49960}, {"loss": 0.0809582769870758, "token_acc": 0.9679293516151523, "grad_norm": 0.41821831464767456, "learning_rate": 1.3367190918800776e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231845, "epoch": 3.808598216327464, "step": 49965}, {"loss": 0.06757027506828309, "token_acc": 0.969311377245509, "grad_norm": 2.1224887371063232, "learning_rate": 1.3359042854842474e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231852, "epoch": 3.808979342937724, "step": 49970}, {"loss": 0.019587448239326476, "token_acc": 0.9920391916717698, "grad_norm": 0.3155832886695862, "learning_rate": 1.3350896892073038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231859, "epoch": 3.809360469547984, "step": 49975}, {"loss": 0.04049122929573059, "token_acc": 0.9804265264387964, "grad_norm": 1.3085591793060303, "learning_rate": 1.3342753030959581e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231866, "epoch": 3.809741596158244, "step": 49980}, {"loss": 0.0388145923614502, "token_acc": 0.9830970556161396, "grad_norm": 0.7166280150413513, "learning_rate": 1.3334611271969128e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231872, "epoch": 3.8101227227685035, "step": 49985}, {"loss": 0.029179111123085022, "token_acc": 0.9851936218678815, "grad_norm": 0.09663061797618866, "learning_rate": 1.3326471615568581e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231878, "epoch": 3.8105038493787635, "step": 49990}, {"loss": 0.038890546560287474, "token_acc": 0.9839883551673945, "grad_norm": 2.3255820274353027, "learning_rate": 1.3318334062224691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231884, "epoch": 3.8108849759890235, "step": 49995}, {"loss": 0.0442691445350647, "token_acc": 0.9847473784556721, "grad_norm": 1.0345311164855957, "learning_rate": 1.3310198612404112e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231888, "epoch": 3.8112661025992836, "step": 50000}, {"eval_loss": 0.05524379014968872, "eval_token_acc": 0.9774561773387145, "eval_runtime": 222.7516, "eval_samples_per_second": 2.379, "eval_steps_per_second": 2.379, "epoch": 3.8112661025992836, "step": 50000}, {"loss": 0.07331587076187134, "token_acc": 0.9774667268700682, "grad_norm": 2.6850016117095947, "learning_rate": 1.3302065266573405e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231651, "epoch": 3.8116472292095436, "step": 50005}, {"loss": 0.05926549434661865, "token_acc": 0.9771709937332139, "grad_norm": 1.2834588289260864, "learning_rate": 1.3293934025198935e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231655, "epoch": 3.8120283558198036, "step": 50010}, {"loss": 0.03558054864406586, "token_acc": 0.988903115663679, "grad_norm": 2.1027579307556152, "learning_rate": 1.3285804888747011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23166, "epoch": 3.812409482430063, "step": 50015}, {"loss": 0.07080695629119874, "token_acc": 0.9731100963977676, "grad_norm": 1.9584769010543823, "learning_rate": 1.3277677857683823e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231666, "epoch": 3.812790609040323, "step": 50020}, {"loss": 0.0422286331653595, "token_acc": 0.9808205470313542, "grad_norm": 1.242777943611145, "learning_rate": 1.3269552932475376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23167, "epoch": 3.813171735650583, "step": 50025}, {"loss": 0.02251770794391632, "token_acc": 0.9887061620764811, "grad_norm": 0.5136341452598572, "learning_rate": 1.326143011358762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231676, "epoch": 3.813552862260843, "step": 50030}, {"loss": 0.05027662515640259, "token_acc": 0.983366124128063, "grad_norm": 1.0055211782455444, "learning_rate": 1.3253309401486363e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231682, "epoch": 3.813933988871103, "step": 50035}, {"loss": 0.03682913184165955, "token_acc": 0.9871164604170198, "grad_norm": 1.600035548210144, "learning_rate": 1.324519079663728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231686, "epoch": 3.814315115481363, "step": 50040}, {"loss": 0.08231832385063172, "token_acc": 0.9784837362359196, "grad_norm": 1.106581211090088, "learning_rate": 1.3237074299505964e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231689, "epoch": 3.814696242091623, "step": 50045}, {"loss": 0.03619283437728882, "token_acc": 0.9851851851851852, "grad_norm": 1.1743078231811523, "learning_rate": 1.3228959910557814e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231697, "epoch": 3.815077368701883, "step": 50050}, {"loss": 0.05162625908851624, "token_acc": 0.9793706293706294, "grad_norm": 1.2885369062423706, "learning_rate": 1.3220847630258176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231704, "epoch": 3.815458495312143, "step": 50055}, {"loss": 0.02626628875732422, "token_acc": 0.9852176293457432, "grad_norm": 1.2468609809875488, "learning_rate": 1.3212737459072272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23171, "epoch": 3.815839621922403, "step": 50060}, {"loss": 0.06692988872528076, "token_acc": 0.9757402782732786, "grad_norm": 1.3957470655441284, "learning_rate": 1.320462939746514e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231716, "epoch": 3.8162207485326625, "step": 50065}, {"loss": 0.06845216751098633, "token_acc": 0.9749216300940439, "grad_norm": 1.1560328006744385, "learning_rate": 1.319652344590176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231721, "epoch": 3.8166018751429225, "step": 50070}, {"loss": 0.0760522186756134, "token_acc": 0.9719154307352477, "grad_norm": 0.979686975479126, "learning_rate": 1.3188419604846986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231726, "epoch": 3.8169830017531825, "step": 50075}, {"loss": 0.0569574773311615, "token_acc": 0.9736123748862603, "grad_norm": 1.4192699193954468, "learning_rate": 1.3180317874765507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231733, "epoch": 3.817364128363442, "step": 50080}, {"loss": 0.03558612465858459, "token_acc": 0.9832966226138032, "grad_norm": 0.502214789390564, "learning_rate": 1.3172218256121955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231737, "epoch": 3.817745254973702, "step": 50085}, {"loss": 0.04386135637760162, "token_acc": 0.9827110538900129, "grad_norm": 1.0302854776382446, "learning_rate": 1.316412074938076e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23174, "epoch": 3.818126381583962, "step": 50090}, {"loss": 0.05602890849113464, "token_acc": 0.9782108332054626, "grad_norm": 1.518978238105774, "learning_rate": 1.3156025355006307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231744, "epoch": 3.818507508194222, "step": 50095}, {"loss": 0.05863426923751831, "token_acc": 0.982227696639099, "grad_norm": 1.2702674865722656, "learning_rate": 1.3147932073462838e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231746, "epoch": 3.818888634804482, "step": 50100}, {"loss": 0.04744421243667603, "token_acc": 0.9742083758937692, "grad_norm": 1.2628086805343628, "learning_rate": 1.313984090521443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231752, "epoch": 3.819269761414742, "step": 50105}, {"loss": 0.041048911213874814, "token_acc": 0.9840612049729041, "grad_norm": 1.8796530961990356, "learning_rate": 1.3131751850725099e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231758, "epoch": 3.8196508880250017, "step": 50110}, {"loss": 0.049628537893295285, "token_acc": 0.9815490461795059, "grad_norm": 1.7758311033248901, "learning_rate": 1.3123664910458721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231759, "epoch": 3.8200320146352618, "step": 50115}, {"loss": 0.03725181519985199, "token_acc": 0.9857277501009829, "grad_norm": 0.49286091327667236, "learning_rate": 1.311558008487902e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23176, "epoch": 3.820413141245522, "step": 50120}, {"loss": 0.053812050819396974, "token_acc": 0.9721788058768365, "grad_norm": 1.3215802907943726, "learning_rate": 1.3107497374449635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231768, "epoch": 3.820794267855782, "step": 50125}, {"loss": 0.06591414809226989, "token_acc": 0.9741298212605832, "grad_norm": 0.902652382850647, "learning_rate": 1.3099416779634087e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231771, "epoch": 3.8211753944660414, "step": 50130}, {"loss": 0.05505663752555847, "token_acc": 0.9773109243697479, "grad_norm": 1.4655357599258423, "learning_rate": 1.3091338300895739e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231775, "epoch": 3.8215565210763014, "step": 50135}, {"loss": 0.06160370111465454, "token_acc": 0.9724284199363733, "grad_norm": 1.7618012428283691, "learning_rate": 1.3083261938697856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23178, "epoch": 3.8219376476865614, "step": 50140}, {"loss": 0.046582365036010744, "token_acc": 0.9793780687397708, "grad_norm": 1.2222771644592285, "learning_rate": 1.3075187693503605e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231787, "epoch": 3.8223187742968214, "step": 50145}, {"loss": 0.03838630318641663, "token_acc": 0.9771952817824378, "grad_norm": 1.2998663187026978, "learning_rate": 1.3067115565775972e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231793, "epoch": 3.8226999009070814, "step": 50150}, {"loss": 0.040126532316207886, "token_acc": 0.9807692307692307, "grad_norm": 0.6511032581329346, "learning_rate": 1.3059045555977872e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231798, "epoch": 3.8230810275173415, "step": 50155}, {"loss": 0.040518027544021604, "token_acc": 0.9868220983274202, "grad_norm": 1.7681851387023926, "learning_rate": 1.3050977664572096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231806, "epoch": 3.823462154127601, "step": 50160}, {"loss": 0.03782053291797638, "token_acc": 0.9806823492755881, "grad_norm": 0.4970746338367462, "learning_rate": 1.3042911892021254e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231808, "epoch": 3.823843280737861, "step": 50165}, {"loss": 0.08099828958511353, "token_acc": 0.9760578226170757, "grad_norm": 1.6196839809417725, "learning_rate": 1.303484823878795e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231809, "epoch": 3.824224407348121, "step": 50170}, {"loss": 0.04769757688045502, "token_acc": 0.9828788839568802, "grad_norm": 1.2537882328033447, "learning_rate": 1.3026786705334537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231816, "epoch": 3.824605533958381, "step": 50175}, {"loss": 0.059003764390945436, "token_acc": 0.9778325123152709, "grad_norm": 2.3369550704956055, "learning_rate": 1.3018727292123334e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231823, "epoch": 3.8249866605686407, "step": 50180}, {"loss": 0.08383334279060364, "token_acc": 0.9652974504249292, "grad_norm": 1.4287701845169067, "learning_rate": 1.3010669999616526e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231829, "epoch": 3.8253677871789007, "step": 50185}, {"loss": 0.05775566697120667, "token_acc": 0.9832585949177878, "grad_norm": 1.0411577224731445, "learning_rate": 1.3002614828276122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231832, "epoch": 3.8257489137891607, "step": 50190}, {"loss": 0.044123786687850955, "token_acc": 0.9819447465738526, "grad_norm": 1.0609766244888306, "learning_rate": 1.2994561778564068e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231836, "epoch": 3.8261300403994207, "step": 50195}, {"loss": 0.041119879484176634, "token_acc": 0.9836453868711933, "grad_norm": 0.6275467872619629, "learning_rate": 1.2986510850942185e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231837, "epoch": 3.8265111670096807, "step": 50200}, {"eval_loss": 0.054529547691345215, "eval_token_acc": 0.9774561773387145, "eval_runtime": 223.4058, "eval_samples_per_second": 2.372, "eval_steps_per_second": 2.372, "epoch": 3.8265111670096807, "step": 50200}, {"loss": 0.06607415080070496, "token_acc": 0.9772941873998111, "grad_norm": 1.837175726890564, "learning_rate": 1.297846204587213e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231605, "epoch": 3.8268922936199408, "step": 50205}, {"loss": 0.0311565637588501, "token_acc": 0.9861846649781257, "grad_norm": 0.9577572345733643, "learning_rate": 1.2970415363815475e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23161, "epoch": 3.8272734202302003, "step": 50210}, {"loss": 0.05382999777793884, "token_acc": 0.9743886000385134, "grad_norm": 0.6684634685516357, "learning_rate": 1.296237080523367e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231615, "epoch": 3.8276545468404604, "step": 50215}, {"loss": 0.03891924321651459, "token_acc": 0.9843695727683224, "grad_norm": 1.3922325372695923, "learning_rate": 1.2954328370588015e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231623, "epoch": 3.8280356734507204, "step": 50220}, {"loss": 0.03998846709728241, "token_acc": 0.9775040171397965, "grad_norm": 1.273092269897461, "learning_rate": 1.2946288060339712e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23163, "epoch": 3.8284168000609804, "step": 50225}, {"loss": 0.054901331663131714, "token_acc": 0.9794967381174278, "grad_norm": 2.2335104942321777, "learning_rate": 1.2938249874949854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231635, "epoch": 3.82879792667124, "step": 50230}, {"loss": 0.050800710916519165, "token_acc": 0.9808469250336675, "grad_norm": 0.6577880382537842, "learning_rate": 1.293021381487936e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231638, "epoch": 3.8291790532815, "step": 50235}, {"loss": 0.06396810412406921, "token_acc": 0.9757854712827697, "grad_norm": 1.5287013053894043, "learning_rate": 1.2922179880589086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231644, "epoch": 3.82956017989176, "step": 50240}, {"loss": 0.05395234227180481, "token_acc": 0.9825057430641456, "grad_norm": 3.622328758239746, "learning_rate": 1.2914148072539744e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231647, "epoch": 3.82994130650202, "step": 50245}, {"loss": 0.052785396575927734, "token_acc": 0.9737559645535105, "grad_norm": 1.4119079113006592, "learning_rate": 1.2906118391191896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231654, "epoch": 3.83032243311228, "step": 50250}, {"loss": 0.03671661615371704, "token_acc": 0.984251968503937, "grad_norm": 0.6147369742393494, "learning_rate": 1.2898090837006038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231656, "epoch": 3.83070355972254, "step": 50255}, {"loss": 0.05837686657905579, "token_acc": 0.9811320754716981, "grad_norm": 1.0340203046798706, "learning_rate": 1.289006541044248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231661, "epoch": 3.8310846863327996, "step": 50260}, {"loss": 0.05537484884262085, "token_acc": 0.9755529685681025, "grad_norm": 0.7703333497047424, "learning_rate": 1.2882042111961462e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231667, "epoch": 3.8314658129430597, "step": 50265}, {"loss": 0.07648813724517822, "token_acc": 0.9766025641025641, "grad_norm": 2.469041347503662, "learning_rate": 1.2874020942023097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231673, "epoch": 3.8318469395533197, "step": 50270}, {"loss": 0.050579124689102174, "token_acc": 0.9781583085794164, "grad_norm": 1.2361959218978882, "learning_rate": 1.2866001901087322e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231678, "epoch": 3.8322280661635797, "step": 50275}, {"loss": 0.04226187467575073, "token_acc": 0.9817920459990417, "grad_norm": 0.8420367240905762, "learning_rate": 1.2857984989614024e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231682, "epoch": 3.8326091927738393, "step": 50280}, {"loss": 0.03464614450931549, "token_acc": 0.9823116064938212, "grad_norm": 1.238662600517273, "learning_rate": 1.2849970208062939e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231688, "epoch": 3.8329903193840993, "step": 50285}, {"loss": 0.0631529688835144, "token_acc": 0.9718430034129693, "grad_norm": 1.0784966945648193, "learning_rate": 1.2841957556893647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231695, "epoch": 3.8333714459943593, "step": 50290}, {"loss": 0.049244260787963866, "token_acc": 0.9753336029114436, "grad_norm": 1.1249167919158936, "learning_rate": 1.2833947036565658e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231703, "epoch": 3.8337525726046193, "step": 50295}, {"loss": 0.05893604159355163, "token_acc": 0.9773138254150913, "grad_norm": 0.712184727191925, "learning_rate": 1.2825938647538332e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231708, "epoch": 3.8341336992148793, "step": 50300}, {"loss": 0.017243072390556335, "token_acc": 0.9950338600451467, "grad_norm": 0.38783806562423706, "learning_rate": 1.281793239027092e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231716, "epoch": 3.8345148258251394, "step": 50305}, {"loss": 0.0383542537689209, "token_acc": 0.9843729652298476, "grad_norm": 1.0081361532211304, "learning_rate": 1.2809928265222554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231718, "epoch": 3.834895952435399, "step": 50310}, {"loss": 0.03889622688293457, "token_acc": 0.9866611087953314, "grad_norm": 1.1456215381622314, "learning_rate": 1.2801926272852199e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231722, "epoch": 3.835277079045659, "step": 50315}, {"loss": 0.03886204957962036, "token_acc": 0.9875389408099688, "grad_norm": 0.7214980721473694, "learning_rate": 1.2793926413618757e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231726, "epoch": 3.835658205655919, "step": 50320}, {"loss": 0.0425072968006134, "token_acc": 0.9834270944199484, "grad_norm": 0.6265476942062378, "learning_rate": 1.278592868798099e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23173, "epoch": 3.8360393322661785, "step": 50325}, {"loss": 0.034013029932975766, "token_acc": 0.986396126354623, "grad_norm": 0.5224049091339111, "learning_rate": 1.277793309639751e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231735, "epoch": 3.8364204588764386, "step": 50330}, {"loss": 0.05904126167297363, "token_acc": 0.9786036036036037, "grad_norm": 2.4455761909484863, "learning_rate": 1.2769939639326827e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231738, "epoch": 3.8368015854866986, "step": 50335}, {"loss": 0.048549768328666684, "token_acc": 0.9821143404663047, "grad_norm": 1.0649834871292114, "learning_rate": 1.2761948317227358e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231745, "epoch": 3.8371827120969586, "step": 50340}, {"loss": 0.050873303413391115, "token_acc": 0.9839534223232036, "grad_norm": 1.1620073318481445, "learning_rate": 1.275395913055733e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231748, "epoch": 3.8375638387072186, "step": 50345}, {"loss": 0.04831646978855133, "token_acc": 0.9786804308797128, "grad_norm": 2.0194294452667236, "learning_rate": 1.2745972079774904e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231753, "epoch": 3.8379449653174786, "step": 50350}, {"loss": 0.04964113235473633, "token_acc": 0.9806317044100119, "grad_norm": 2.040729284286499, "learning_rate": 1.273798716533811e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231759, "epoch": 3.8383260919277387, "step": 50355}, {"loss": 0.04545291662216187, "token_acc": 0.9796147372358331, "grad_norm": 1.0265144109725952, "learning_rate": 1.2730004387704825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231762, "epoch": 3.8387072185379982, "step": 50360}, {"loss": 0.07213475108146668, "token_acc": 0.9637069162291714, "grad_norm": 1.0641820430755615, "learning_rate": 1.2722023747332833e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231768, "epoch": 3.8390883451482583, "step": 50365}, {"loss": 0.04391777515411377, "token_acc": 0.980544747081712, "grad_norm": 1.0204219818115234, "learning_rate": 1.2714045244679806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231773, "epoch": 3.8394694717585183, "step": 50370}, {"loss": 0.03606230914592743, "token_acc": 0.9892818863879957, "grad_norm": 0.5755395293235779, "learning_rate": 1.2706068880203236e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231778, "epoch": 3.839850598368778, "step": 50375}, {"loss": 0.047356894612312316, "token_acc": 0.9740178431679449, "grad_norm": 1.0163038969039917, "learning_rate": 1.2698094654360555e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231782, "epoch": 3.840231724979038, "step": 50380}, {"loss": 0.047880321741104126, "token_acc": 0.9834502608382802, "grad_norm": 1.3595225811004639, "learning_rate": 1.2690122567609059e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231785, "epoch": 3.840612851589298, "step": 50385}, {"loss": 0.057951098680496214, "token_acc": 0.9804315775365232, "grad_norm": 0.5920113325119019, "learning_rate": 1.2682152620405874e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231788, "epoch": 3.840993978199558, "step": 50390}, {"loss": 0.05411117672920227, "token_acc": 0.9793250950570342, "grad_norm": 2.133126735687256, "learning_rate": 1.2674184813208068e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231794, "epoch": 3.841375104809818, "step": 50395}, {"loss": 0.05299661755561828, "token_acc": 0.9759270044651523, "grad_norm": 2.7965588569641113, "learning_rate": 1.2666219146472557e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2318, "epoch": 3.841756231420078, "step": 50400}, {"eval_loss": 0.054623786360025406, "eval_token_acc": 0.9776971266791157, "eval_runtime": 220.0874, "eval_samples_per_second": 2.408, "eval_steps_per_second": 2.408, "epoch": 3.841756231420078, "step": 50400}, {"loss": 0.04121063351631164, "token_acc": 0.9782739545415461, "grad_norm": 0.5320430994033813, "learning_rate": 1.2658255620656117e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231569, "epoch": 3.8421373580303375, "step": 50405}, {"loss": 0.0697929322719574, "token_acc": 0.9733137213700357, "grad_norm": 1.309600591659546, "learning_rate": 1.2650294236215432e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231575, "epoch": 3.8425184846405975, "step": 50410}, {"loss": 0.04842133224010468, "token_acc": 0.9818415784958536, "grad_norm": 0.7350257635116577, "learning_rate": 1.2642334993607063e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231578, "epoch": 3.8428996112508576, "step": 50415}, {"loss": 0.03530073761940002, "token_acc": 0.9884720184447705, "grad_norm": 0.8174954652786255, "learning_rate": 1.2634377893287403e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231582, "epoch": 3.8432807378611176, "step": 50420}, {"loss": 0.05299175977706909, "token_acc": 0.9764921946740128, "grad_norm": 0.9605221152305603, "learning_rate": 1.2626422935712789e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231586, "epoch": 3.843661864471377, "step": 50425}, {"loss": 0.03995031714439392, "token_acc": 0.9841605068637803, "grad_norm": 1.2505054473876953, "learning_rate": 1.2618470121339376e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231591, "epoch": 3.844042991081637, "step": 50430}, {"loss": 0.04857286810874939, "token_acc": 0.981544140264534, "grad_norm": 0.6629741787910461, "learning_rate": 1.261051945062321e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231593, "epoch": 3.844424117691897, "step": 50435}, {"loss": 0.03470602631568909, "token_acc": 0.9855044074436826, "grad_norm": 0.8947486877441406, "learning_rate": 1.2602570924020273e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231598, "epoch": 3.844805244302157, "step": 50440}, {"loss": 0.031058016419410705, "token_acc": 0.9891803764636135, "grad_norm": 0.47205042839050293, "learning_rate": 1.2594624541986339e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231599, "epoch": 3.845186370912417, "step": 50445}, {"loss": 0.04694036841392517, "token_acc": 0.9803682848881449, "grad_norm": 1.2140752077102661, "learning_rate": 1.25866803049771e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231604, "epoch": 3.8455674975226772, "step": 50450}, {"loss": 0.036681875586509705, "token_acc": 0.9833829753879918, "grad_norm": 0.003274702001363039, "learning_rate": 1.2578738213448143e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231606, "epoch": 3.845948624132937, "step": 50455}, {"loss": 0.03365403413772583, "token_acc": 0.9860966284323949, "grad_norm": 0.10779248923063278, "learning_rate": 1.2570798267854884e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231609, "epoch": 3.846329750743197, "step": 50460}, {"loss": 0.0636795163154602, "token_acc": 0.968167701863354, "grad_norm": 2.4534904956817627, "learning_rate": 1.2562860468652644e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231615, "epoch": 3.846710877353457, "step": 50465}, {"loss": 0.043748652935028075, "token_acc": 0.9859293193717278, "grad_norm": 0.9723173379898071, "learning_rate": 1.2554924816296649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231622, "epoch": 3.847092003963717, "step": 50470}, {"loss": 0.03537192940711975, "token_acc": 0.9830567081604425, "grad_norm": 1.9841580390930176, "learning_rate": 1.2546991311241929e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231628, "epoch": 3.8474731305739764, "step": 50475}, {"loss": 0.0454510897397995, "token_acc": 0.9842476914720261, "grad_norm": 1.233746886253357, "learning_rate": 1.2539059953943467e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231636, "epoch": 3.8478542571842365, "step": 50480}, {"loss": 0.042274254560470584, "token_acc": 0.9791666666666666, "grad_norm": 1.1865620613098145, "learning_rate": 1.2531130744856067e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231641, "epoch": 3.8482353837944965, "step": 50485}, {"loss": 0.04155125319957733, "token_acc": 0.9820042925540696, "grad_norm": 1.7750579118728638, "learning_rate": 1.2523203684434436e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231647, "epoch": 3.8486165104047565, "step": 50490}, {"loss": 0.08918528556823731, "token_acc": 0.9704907161803713, "grad_norm": 2.894789934158325, "learning_rate": 1.2515278773133182e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231654, "epoch": 3.8489976370150165, "step": 50495}, {"loss": 0.051129841804504396, "token_acc": 0.9799225931301403, "grad_norm": 0.7696786522865295, "learning_rate": 1.2507356011406723e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231659, "epoch": 3.8493787636252765, "step": 50500}, {"loss": 0.06380079984664917, "token_acc": 0.9777494331065759, "grad_norm": 1.1662195920944214, "learning_rate": 1.2499435399709408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23166, "epoch": 3.849759890235536, "step": 50505}, {"loss": 0.061128705739974976, "token_acc": 0.9751833051325437, "grad_norm": 0.8223883509635925, "learning_rate": 1.2491516938495463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231665, "epoch": 3.850141016845796, "step": 50510}, {"loss": 0.06262748241424561, "token_acc": 0.9693586698337292, "grad_norm": 1.410601258277893, "learning_rate": 1.248360062821895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231671, "epoch": 3.850522143456056, "step": 50515}, {"loss": 0.03176690340042114, "token_acc": 0.9865277071682765, "grad_norm": 1.096531867980957, "learning_rate": 1.2475686469333841e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231677, "epoch": 3.850903270066316, "step": 50520}, {"loss": 0.03707926869392395, "token_acc": 0.9806747461513265, "grad_norm": 1.2234106063842773, "learning_rate": 1.2467774462293991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231684, "epoch": 3.8512843966765757, "step": 50525}, {"loss": 0.029794687032699586, "token_acc": 0.9893238434163701, "grad_norm": 0.5723353028297424, "learning_rate": 1.2459864607553096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231689, "epoch": 3.8516655232868358, "step": 50530}, {"loss": 0.03475046753883362, "token_acc": 0.9834203254528707, "grad_norm": 1.2064529657363892, "learning_rate": 1.2451956905564755e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231695, "epoch": 3.8520466498970958, "step": 50535}, {"loss": 0.07004474401473999, "token_acc": 0.9701001644490955, "grad_norm": 1.2407851219177246, "learning_rate": 1.2444051356782455e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231697, "epoch": 3.852427776507356, "step": 50540}, {"loss": 0.06073113083839417, "token_acc": 0.9776651651651652, "grad_norm": 0.719999372959137, "learning_rate": 1.2436147961659517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231697, "epoch": 3.852808903117616, "step": 50545}, {"loss": 0.05611024498939514, "token_acc": 0.9811676082862524, "grad_norm": 0.8959406614303589, "learning_rate": 1.2428246720649172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231701, "epoch": 3.853190029727876, "step": 50550}, {"loss": 0.05178274512290955, "token_acc": 0.97809475292919, "grad_norm": 1.5606818199157715, "learning_rate": 1.2420347634204537e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231707, "epoch": 3.8535711563381354, "step": 50555}, {"loss": 0.04377864897251129, "token_acc": 0.9810113931641016, "grad_norm": 1.0501048564910889, "learning_rate": 1.2412450702778566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231713, "epoch": 3.8539522829483954, "step": 50560}, {"loss": 0.03580373525619507, "token_acc": 0.9839164317691925, "grad_norm": 0.630512535572052, "learning_rate": 1.2404555926824118e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231716, "epoch": 3.8543334095586554, "step": 50565}, {"loss": 0.05785633325576782, "token_acc": 0.9810201660735468, "grad_norm": 2.592733860015869, "learning_rate": 1.239666330679392e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231722, "epoch": 3.8547145361689155, "step": 50570}, {"loss": 0.041939917206764224, "token_acc": 0.9870197300103842, "grad_norm": 0.7212926149368286, "learning_rate": 1.2388772843140584e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231724, "epoch": 3.855095662779175, "step": 50575}, {"loss": 0.05555415153503418, "token_acc": 0.9797221179121292, "grad_norm": 0.7076135873794556, "learning_rate": 1.23808845363166e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231731, "epoch": 3.855476789389435, "step": 50580}, {"loss": 0.042618751525878906, "token_acc": 0.9807219807219807, "grad_norm": 1.2575916051864624, "learning_rate": 1.2372998386774298e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231736, "epoch": 3.855857915999695, "step": 50585}, {"loss": 0.038021552562713626, "token_acc": 0.9815285153544216, "grad_norm": 0.8107590675354004, "learning_rate": 1.2365114394965932e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231742, "epoch": 3.856239042609955, "step": 50590}, {"loss": 0.04489204287528992, "token_acc": 0.9780734170978074, "grad_norm": 1.006014347076416, "learning_rate": 1.2357232561343618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231748, "epoch": 3.856620169220215, "step": 50595}, {"loss": 0.07172273397445679, "token_acc": 0.9739359947212142, "grad_norm": 2.5384278297424316, "learning_rate": 1.2349352886359323e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231755, "epoch": 3.857001295830475, "step": 50600}, {"eval_loss": 0.053873609751462936, "eval_token_acc": 0.977870309017529, "eval_runtime": 221.2011, "eval_samples_per_second": 2.396, "eval_steps_per_second": 2.396, "epoch": 3.857001295830475, "step": 50600}, {"loss": 0.042777815461158754, "token_acc": 0.9780546364887418, "grad_norm": 0.8978815078735352, "learning_rate": 1.2341475370464917e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231526, "epoch": 3.8573824224407347, "step": 50605}, {"loss": 0.07047960758209229, "token_acc": 0.9777422170497527, "grad_norm": 1.1799349784851074, "learning_rate": 1.2333600014112157e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23153, "epoch": 3.8577635490509947, "step": 50610}, {"loss": 0.04615117311477661, "token_acc": 0.9820350675481461, "grad_norm": 1.5920661687850952, "learning_rate": 1.232572681775263e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231532, "epoch": 3.8581446756612547, "step": 50615}, {"loss": 0.0571999728679657, "token_acc": 0.9767636397434706, "grad_norm": 0.6277801394462585, "learning_rate": 1.2317855781837839e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231532, "epoch": 3.8585258022715148, "step": 50620}, {"loss": 0.05024533271789551, "token_acc": 0.9787753568745304, "grad_norm": 0.7721825838088989, "learning_rate": 1.2309986906819166e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231536, "epoch": 3.8589069288817743, "step": 50625}, {"loss": 0.07870106101036071, "token_acc": 0.9649631190727082, "grad_norm": 1.871994972229004, "learning_rate": 1.2302120193147825e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231542, "epoch": 3.8592880554920344, "step": 50630}, {"loss": 0.04648490250110626, "token_acc": 0.9835255354200988, "grad_norm": 1.865006685256958, "learning_rate": 1.2294255641274955e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23155, "epoch": 3.8596691821022944, "step": 50635}, {"loss": 0.026169970631599426, "token_acc": 0.9845094664371773, "grad_norm": 0.7912378907203674, "learning_rate": 1.2286393251651556e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231557, "epoch": 3.8600503087125544, "step": 50640}, {"loss": 0.05565265417098999, "token_acc": 0.9776688453159041, "grad_norm": 1.1479448080062866, "learning_rate": 1.2278533024728483e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231564, "epoch": 3.8604314353228144, "step": 50645}, {"loss": 0.06507146954536439, "token_acc": 0.9775878748790713, "grad_norm": 0.6022094488143921, "learning_rate": 1.2270674960956507e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231566, "epoch": 3.8608125619330744, "step": 50650}, {"loss": 0.03653512299060822, "token_acc": 0.9841918294849024, "grad_norm": 0.8231168389320374, "learning_rate": 1.2262819060786218e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23157, "epoch": 3.861193688543334, "step": 50655}, {"loss": 0.06345218420028687, "token_acc": 0.9820491109229467, "grad_norm": 2.8083908557891846, "learning_rate": 1.2254965324668138e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231574, "epoch": 3.861574815153594, "step": 50660}, {"loss": 0.03618188202381134, "token_acc": 0.981965734896303, "grad_norm": 1.2472611665725708, "learning_rate": 1.2247113753052647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23158, "epoch": 3.861955941763854, "step": 50665}, {"loss": 0.02652047574520111, "token_acc": 0.9903677758318739, "grad_norm": 1.028941035270691, "learning_rate": 1.2239264346389978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231586, "epoch": 3.8623370683741136, "step": 50670}, {"loss": 0.028298863768577577, "token_acc": 0.9871970736168267, "grad_norm": 0.7729822397232056, "learning_rate": 1.2231417105130266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231592, "epoch": 3.8627181949843736, "step": 50675}, {"loss": 0.04896172285079956, "token_acc": 0.9805664668182758, "grad_norm": 0.704942524433136, "learning_rate": 1.2223572029723529e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231592, "epoch": 3.8630993215946337, "step": 50680}, {"loss": 0.040435203909873964, "token_acc": 0.9852296705080344, "grad_norm": 0.6823765635490417, "learning_rate": 1.2215729120619618e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231595, "epoch": 3.8634804482048937, "step": 50685}, {"loss": 0.03195061683654785, "token_acc": 0.9808342728297632, "grad_norm": 1.554443359375, "learning_rate": 1.2207888378268307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2316, "epoch": 3.8638615748151537, "step": 50690}, {"loss": 0.0860534131526947, "token_acc": 0.9693783434790629, "grad_norm": 1.6847525835037231, "learning_rate": 1.220004980311923e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231604, "epoch": 3.8642427014254137, "step": 50695}, {"loss": 0.04797317087650299, "token_acc": 0.9790209790209791, "grad_norm": 1.5640285015106201, "learning_rate": 1.2192213395621855e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231612, "epoch": 3.8646238280356737, "step": 50700}, {"loss": 0.05932672023773193, "token_acc": 0.9789653212052303, "grad_norm": 0.6152635812759399, "learning_rate": 1.2184379156225617e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231615, "epoch": 3.8650049546459333, "step": 50705}, {"loss": 0.03722996711730957, "token_acc": 0.9832649194821598, "grad_norm": 1.6026955842971802, "learning_rate": 1.2176547085379742e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231621, "epoch": 3.8653860812561933, "step": 50710}, {"loss": 0.05179585218429565, "token_acc": 0.9789410348977136, "grad_norm": 1.8729532957077026, "learning_rate": 1.2168717183533362e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231628, "epoch": 3.8657672078664533, "step": 50715}, {"loss": 0.044823139905929565, "token_acc": 0.9774155995343422, "grad_norm": 1.4397335052490234, "learning_rate": 1.216088945113551e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231633, "epoch": 3.866148334476713, "step": 50720}, {"loss": 0.040431654453277587, "token_acc": 0.9797270955165692, "grad_norm": 1.4942536354064941, "learning_rate": 1.2153063888635041e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231641, "epoch": 3.866529461086973, "step": 50725}, {"loss": 0.033487001061439516, "token_acc": 0.985979381443299, "grad_norm": 2.241635322570801, "learning_rate": 1.2145240496480725e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231649, "epoch": 3.866910587697233, "step": 50730}, {"loss": 0.027337872982025148, "token_acc": 0.9891846921797005, "grad_norm": 0.06870398670434952, "learning_rate": 1.2137419275121214e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231657, "epoch": 3.867291714307493, "step": 50735}, {"loss": 0.07602840662002563, "token_acc": 0.9785114280132838, "grad_norm": 3.028458833694458, "learning_rate": 1.2129600225004988e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231661, "epoch": 3.867672840917753, "step": 50740}, {"loss": 0.03140731155872345, "token_acc": 0.9865601162368326, "grad_norm": 0.7322419285774231, "learning_rate": 1.212178334658045e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231665, "epoch": 3.868053967528013, "step": 50745}, {"loss": 0.04693405330181122, "token_acc": 0.9813499111900533, "grad_norm": 0.9080843925476074, "learning_rate": 1.2113968640295875e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23167, "epoch": 3.8684350941382726, "step": 50750}, {"loss": 0.06899999976158142, "token_acc": 0.9712202609363009, "grad_norm": 1.4741376638412476, "learning_rate": 1.210615610659937e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231677, "epoch": 3.8688162207485326, "step": 50755}, {"loss": 0.054275786876678465, "token_acc": 0.9799502642213243, "grad_norm": 0.6803414225578308, "learning_rate": 1.2098345745938966e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23168, "epoch": 3.8691973473587926, "step": 50760}, {"loss": 0.045914024114608765, "token_acc": 0.9799873604381715, "grad_norm": 0.913201093673706, "learning_rate": 1.209053755876256e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231684, "epoch": 3.8695784739690526, "step": 50765}, {"loss": 0.05198081135749817, "token_acc": 0.9824052240159623, "grad_norm": 0.6526231169700623, "learning_rate": 1.2082731545517895e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231687, "epoch": 3.869959600579312, "step": 50770}, {"loss": 0.03176849484443665, "token_acc": 0.9872262773722628, "grad_norm": 1.2886043787002563, "learning_rate": 1.207492770665261e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231691, "epoch": 3.8703407271895722, "step": 50775}, {"loss": 0.03694923520088196, "token_acc": 0.9858724704085529, "grad_norm": 2.394361972808838, "learning_rate": 1.2067126042614246e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231698, "epoch": 3.8707218537998322, "step": 50780}, {"loss": 0.07671515941619873, "token_acc": 0.9794961136424551, "grad_norm": 1.184927225112915, "learning_rate": 1.205932655385016e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231703, "epoch": 3.8711029804100923, "step": 50785}, {"loss": 0.057587307691574094, "token_acc": 0.9838199739631764, "grad_norm": 1.7796183824539185, "learning_rate": 1.2051529240807629e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231707, "epoch": 3.8714841070203523, "step": 50790}, {"loss": 0.03489675521850586, "token_acc": 0.9839008142116951, "grad_norm": 0.7957043051719666, "learning_rate": 1.2043734103933807e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231712, "epoch": 3.8718652336306123, "step": 50795}, {"loss": 0.03947655260562897, "token_acc": 0.9883002497699487, "grad_norm": 0.5677091479301453, "learning_rate": 1.2035941143675683e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231716, "epoch": 3.872246360240872, "step": 50800}, {"eval_loss": 0.05374591425061226, "eval_token_acc": 0.9776745376784531, "eval_runtime": 222.1801, "eval_samples_per_second": 2.385, "eval_steps_per_second": 2.385, "epoch": 3.872246360240872, "step": 50800}, {"loss": 0.05138644576072693, "token_acc": 0.9778390717139053, "grad_norm": 0.7231343388557434, "learning_rate": 1.2028150360480156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231488, "epoch": 3.872627486851132, "step": 50805}, {"loss": 0.08195708990097046, "token_acc": 0.9795379537953796, "grad_norm": 1.0189954042434692, "learning_rate": 1.2020361754794013e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231494, "epoch": 3.873008613461392, "step": 50810}, {"loss": 0.07244129776954651, "token_acc": 0.9780294759825328, "grad_norm": 2.8948137760162354, "learning_rate": 1.2012575327063857e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231497, "epoch": 3.873389740071652, "step": 50815}, {"loss": 0.043086308240890506, "token_acc": 0.9824317272569143, "grad_norm": 1.1089445352554321, "learning_rate": 1.2004791077736243e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231501, "epoch": 3.8737708666819115, "step": 50820}, {"loss": 0.058171427249908446, "token_acc": 0.9741723409250997, "grad_norm": 1.0985496044158936, "learning_rate": 1.1997009007257526e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231507, "epoch": 3.8741519932921715, "step": 50825}, {"loss": 0.060480648279190065, "token_acc": 0.9791027327195675, "grad_norm": 0.9506089687347412, "learning_rate": 1.1989229116073986e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231509, "epoch": 3.8745331199024315, "step": 50830}, {"loss": 0.035020798444747925, "token_acc": 0.9866131191432396, "grad_norm": 0.8551661372184753, "learning_rate": 1.198145140463176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231517, "epoch": 3.8749142465126916, "step": 50835}, {"loss": 0.058391904830932616, "token_acc": 0.9714219330855018, "grad_norm": 0.9135546088218689, "learning_rate": 1.1973675873376877e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231523, "epoch": 3.8752953731229516, "step": 50840}, {"loss": 0.04699152708053589, "token_acc": 0.9839417889850709, "grad_norm": 1.0209782123565674, "learning_rate": 1.1965902522755212e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231526, "epoch": 3.8756764997332116, "step": 50845}, {"loss": 0.05000759363174438, "token_acc": 0.9833546734955185, "grad_norm": 2.583638906478882, "learning_rate": 1.1958131353212554e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231529, "epoch": 3.876057626343471, "step": 50850}, {"loss": 0.04222618043422699, "token_acc": 0.9863523573200993, "grad_norm": 0.8220499157905579, "learning_rate": 1.1950362365194517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231533, "epoch": 3.876438752953731, "step": 50855}, {"loss": 0.04008788764476776, "token_acc": 0.9837894369879728, "grad_norm": 1.7526018619537354, "learning_rate": 1.1942595559146636e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231538, "epoch": 3.876819879563991, "step": 50860}, {"loss": 0.0301837682723999, "token_acc": 0.9886557005104935, "grad_norm": 0.9718064069747925, "learning_rate": 1.193483093551428e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231544, "epoch": 3.8772010061742512, "step": 50865}, {"loss": 0.06250406503677368, "token_acc": 0.9765353418308227, "grad_norm": 2.552469491958618, "learning_rate": 1.192706849474272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231551, "epoch": 3.877582132784511, "step": 50870}, {"loss": 0.05207157731056213, "token_acc": 0.9823705926481621, "grad_norm": 2.704773426055908, "learning_rate": 1.1919308237277122e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231558, "epoch": 3.877963259394771, "step": 50875}, {"loss": 0.030077582597732543, "token_acc": 0.98408005458267, "grad_norm": 1.0245305299758911, "learning_rate": 1.1911550163562463e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231563, "epoch": 3.878344386005031, "step": 50880}, {"loss": 0.03201265931129456, "token_acc": 0.9864864864864865, "grad_norm": 1.131682276725769, "learning_rate": 1.1903794274043656e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231567, "epoch": 3.878725512615291, "step": 50885}, {"loss": 0.05604674220085144, "token_acc": 0.9813181712694361, "grad_norm": 0.7311287522315979, "learning_rate": 1.1896040569165468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23157, "epoch": 3.879106639225551, "step": 50890}, {"loss": 0.04089726805686951, "token_acc": 0.9834084391642769, "grad_norm": 0.9750102758407593, "learning_rate": 1.1888289049372515e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231575, "epoch": 3.879487765835811, "step": 50895}, {"loss": 0.036645087599754336, "token_acc": 0.9798614118666089, "grad_norm": 0.00010794557601911947, "learning_rate": 1.1880539715109328e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231579, "epoch": 3.8798688924460705, "step": 50900}, {"loss": 0.04651977419853211, "token_acc": 0.9851309889072457, "grad_norm": 0.7706751227378845, "learning_rate": 1.1872792566820307e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231584, "epoch": 3.8802500190563305, "step": 50905}, {"loss": 0.042199867963790896, "token_acc": 0.9824328803447133, "grad_norm": 0.8303752541542053, "learning_rate": 1.1865047604949687e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231591, "epoch": 3.8806311456665905, "step": 50910}, {"loss": 0.04063507318496704, "token_acc": 0.9839857651245552, "grad_norm": 0.624332845211029, "learning_rate": 1.1857304829941613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231596, "epoch": 3.8810122722768505, "step": 50915}, {"loss": 0.05069692730903626, "token_acc": 0.9796718972895863, "grad_norm": 0.8333251476287842, "learning_rate": 1.1849564242240124e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231601, "epoch": 3.88139339888711, "step": 50920}, {"loss": 0.0485095739364624, "token_acc": 0.9779980657640233, "grad_norm": 1.3167705535888672, "learning_rate": 1.1841825842289067e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231607, "epoch": 3.88177452549737, "step": 50925}, {"loss": 0.04263681173324585, "token_acc": 0.9803331326510134, "grad_norm": 0.3416613042354584, "learning_rate": 1.1834089630532224e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231612, "epoch": 3.88215565210763, "step": 50930}, {"loss": 0.04147031903266907, "token_acc": 0.9848997656860192, "grad_norm": 1.8198941946029663, "learning_rate": 1.1826355607413242e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231618, "epoch": 3.88253677871789, "step": 50935}, {"loss": 0.04862704873085022, "token_acc": 0.9775888717156105, "grad_norm": 1.8757859468460083, "learning_rate": 1.181862377337561e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231625, "epoch": 3.88291790532815, "step": 50940}, {"loss": 0.0254100501537323, "token_acc": 0.9910567621828801, "grad_norm": 0.8514116406440735, "learning_rate": 1.1810894128862715e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23163, "epoch": 3.88329903193841, "step": 50945}, {"loss": 0.05464458465576172, "token_acc": 0.9800593276203032, "grad_norm": 1.5140398740768433, "learning_rate": 1.180316667431784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231631, "epoch": 3.8836801585486698, "step": 50950}, {"loss": 0.06644083261489868, "token_acc": 0.9717439293598233, "grad_norm": 1.453948736190796, "learning_rate": 1.1795441410184088e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231638, "epoch": 3.88406128515893, "step": 50955}, {"loss": 0.042607882618904115, "token_acc": 0.9776806258628624, "grad_norm": 0.9811369180679321, "learning_rate": 1.178771833690448e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231644, "epoch": 3.88444241176919, "step": 50960}, {"loss": 0.045253926515579225, "token_acc": 0.9813874788494078, "grad_norm": 1.1525174379348755, "learning_rate": 1.177999745492191e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231648, "epoch": 3.8848235383794494, "step": 50965}, {"loss": 0.03565104007720947, "token_acc": 0.9833655705996132, "grad_norm": 1.4365228414535522, "learning_rate": 1.1772278764679096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231656, "epoch": 3.8852046649897094, "step": 50970}, {"loss": 0.0359194278717041, "token_acc": 0.9859062602425435, "grad_norm": 0.9353759288787842, "learning_rate": 1.1764562266618728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231663, "epoch": 3.8855857915999694, "step": 50975}, {"loss": 0.04315637350082398, "token_acc": 0.9836605794315529, "grad_norm": 1.4310956001281738, "learning_rate": 1.1756847961183265e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231666, "epoch": 3.8859669182102294, "step": 50980}, {"loss": 0.049867621064186095, "token_acc": 0.9773111612175873, "grad_norm": 1.1176003217697144, "learning_rate": 1.1749135848815096e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231669, "epoch": 3.8863480448204895, "step": 50985}, {"loss": 0.035209599137306216, "token_acc": 0.9851244687310261, "grad_norm": 0.2627639174461365, "learning_rate": 1.1741425929956501e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231676, "epoch": 3.8867291714307495, "step": 50990}, {"loss": 0.05008125901222229, "token_acc": 0.9791744142804016, "grad_norm": 1.8006067276000977, "learning_rate": 1.1733718205049572e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231681, "epoch": 3.8871102980410095, "step": 50995}, {"loss": 0.05130969882011414, "token_acc": 0.9749578617866602, "grad_norm": 1.288939356803894, "learning_rate": 1.1726012674536324e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231687, "epoch": 3.887491424651269, "step": 51000}, {"eval_loss": 0.05311594903469086, "eval_token_acc": 0.9778176013493163, "eval_runtime": 218.5585, "eval_samples_per_second": 2.425, "eval_steps_per_second": 2.425, "epoch": 3.887491424651269, "step": 51000}, {"loss": 0.029017600417137145, "token_acc": 0.9782115133736476, "grad_norm": 0.9098899960517883, "learning_rate": 1.1718309338858652e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231459, "epoch": 3.887872551261529, "step": 51005}, {"loss": 0.033893316984176636, "token_acc": 0.9896769896769897, "grad_norm": 1.2698729038238525, "learning_rate": 1.1710608198458277e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231463, "epoch": 3.888253677871789, "step": 51010}, {"loss": 0.07047884464263916, "token_acc": 0.9754925516578568, "grad_norm": 1.236098289489746, "learning_rate": 1.1702909253776833e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231472, "epoch": 3.8886348044820487, "step": 51015}, {"loss": 0.052772504091262815, "token_acc": 0.9811197916666666, "grad_norm": 1.316372275352478, "learning_rate": 1.1695212505255843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231476, "epoch": 3.8890159310923087, "step": 51020}, {"loss": 0.05011090040206909, "token_acc": 0.9772043691625771, "grad_norm": 0.8841883540153503, "learning_rate": 1.1687517953336647e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231481, "epoch": 3.8893970577025687, "step": 51025}, {"loss": 0.062026846408844, "token_acc": 0.9765540976554098, "grad_norm": 0.8805028200149536, "learning_rate": 1.1679825598460498e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231486, "epoch": 3.8897781843128287, "step": 51030}, {"loss": 0.05953688621520996, "token_acc": 0.9783783783783784, "grad_norm": 1.5380381345748901, "learning_rate": 1.1672135441068543e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231494, "epoch": 3.8901593109230888, "step": 51035}, {"loss": 0.04035902619361877, "token_acc": 0.9852348993288591, "grad_norm": 0.9594656825065613, "learning_rate": 1.1664447481601743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231496, "epoch": 3.8905404375333488, "step": 51040}, {"loss": 0.052445799112319946, "token_acc": 0.9752593774940144, "grad_norm": 1.4335561990737915, "learning_rate": 1.1656761720500992e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231501, "epoch": 3.8909215641436083, "step": 51045}, {"loss": 0.051173895597457886, "token_acc": 0.9805108798486282, "grad_norm": 1.507562279701233, "learning_rate": 1.1649078158207011e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231506, "epoch": 3.8913026907538684, "step": 51050}, {"loss": 0.04765793085098267, "token_acc": 0.9880581516095535, "grad_norm": 1.8570027351379395, "learning_rate": 1.1641396795160425e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23151, "epoch": 3.8916838173641284, "step": 51055}, {"loss": 0.05437748432159424, "token_acc": 0.9668587896253602, "grad_norm": 2.058049201965332, "learning_rate": 1.1633717631801743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231517, "epoch": 3.8920649439743884, "step": 51060}, {"loss": 0.05362914204597473, "token_acc": 0.9801548886737658, "grad_norm": 1.4154777526855469, "learning_rate": 1.1626040668571297e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231521, "epoch": 3.892446070584648, "step": 51065}, {"loss": 0.04689092934131622, "token_acc": 0.9808984789529537, "grad_norm": 2.4187586307525635, "learning_rate": 1.1618365905909345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231526, "epoch": 3.892827197194908, "step": 51070}, {"loss": 0.0476244330406189, "token_acc": 0.9771041599484037, "grad_norm": 1.185403823852539, "learning_rate": 1.1610693344256007e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23153, "epoch": 3.893208323805168, "step": 51075}, {"loss": 0.040831688046455386, "token_acc": 0.9845846417356552, "grad_norm": 2.115180015563965, "learning_rate": 1.1603022984051249e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231536, "epoch": 3.893589450415428, "step": 51080}, {"loss": 0.054538500308990476, "token_acc": 0.9801023308698124, "grad_norm": 1.393379807472229, "learning_rate": 1.1595354825734934e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231542, "epoch": 3.893970577025688, "step": 51085}, {"loss": 0.03399237096309662, "token_acc": 0.984282506634007, "grad_norm": 0.9205566048622131, "learning_rate": 1.1587688869746815e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231548, "epoch": 3.894351703635948, "step": 51090}, {"loss": 0.03806195855140686, "token_acc": 0.9779830941615884, "grad_norm": 1.4186513423919678, "learning_rate": 1.1580025116526471e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231553, "epoch": 3.8947328302462076, "step": 51095}, {"loss": 0.07277161478996277, "token_acc": 0.971900826446281, "grad_norm": 3.177903413772583, "learning_rate": 1.1572363566513394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231559, "epoch": 3.8951139568564677, "step": 51100}, {"loss": 0.06425299048423767, "token_acc": 0.9743295897318359, "grad_norm": 1.3590837717056274, "learning_rate": 1.1564704220146943e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231566, "epoch": 3.8954950834667277, "step": 51105}, {"loss": 0.03801352679729462, "token_acc": 0.9839482510781026, "grad_norm": 1.6509969234466553, "learning_rate": 1.1557047077866344e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231572, "epoch": 3.8958762100769877, "step": 51110}, {"loss": 0.028181520104408265, "token_acc": 0.9876962926987211, "grad_norm": 1.049997091293335, "learning_rate": 1.154939214011071e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231576, "epoch": 3.8962573366872473, "step": 51115}, {"loss": 0.05747435688972473, "token_acc": 0.979788593332559, "grad_norm": 0.8251073956489563, "learning_rate": 1.1541739407318991e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231579, "epoch": 3.8966384632975073, "step": 51120}, {"loss": 0.054938048124313354, "token_acc": 0.984936268829664, "grad_norm": 1.4332162141799927, "learning_rate": 1.153408887993005e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231582, "epoch": 3.8970195899077673, "step": 51125}, {"loss": 0.044423246383666994, "token_acc": 0.9827111984282908, "grad_norm": 1.4718397855758667, "learning_rate": 1.1526440558382623e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231587, "epoch": 3.8974007165180273, "step": 51130}, {"loss": 0.05169561505317688, "token_acc": 0.9852177387135438, "grad_norm": 0.5809102654457092, "learning_rate": 1.1518794443115272e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231594, "epoch": 3.8977818431282873, "step": 51135}, {"loss": 0.05654230713844299, "token_acc": 0.9722552516845026, "grad_norm": 1.5529612302780151, "learning_rate": 1.151115053456649e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231601, "epoch": 3.8981629697385474, "step": 51140}, {"loss": 0.03676256239414215, "token_acc": 0.9871441689623508, "grad_norm": 1.0147632360458374, "learning_rate": 1.1503508833174625e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231602, "epoch": 3.898544096348807, "step": 51145}, {"loss": 0.04628669023513794, "token_acc": 0.9777275100052201, "grad_norm": 2.011085033416748, "learning_rate": 1.1495869339377873e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231607, "epoch": 3.898925222959067, "step": 51150}, {"loss": 0.03952302634716034, "token_acc": 0.9845679012345679, "grad_norm": 1.2669404745101929, "learning_rate": 1.1488232053614328e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231614, "epoch": 3.899306349569327, "step": 51155}, {"loss": 0.044951322674751285, "token_acc": 0.9772612430520465, "grad_norm": 0.8548936247825623, "learning_rate": 1.1480596976321978e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23162, "epoch": 3.899687476179587, "step": 51160}, {"loss": 0.06704039573669433, "token_acc": 0.9804910127137221, "grad_norm": 1.1155694723129272, "learning_rate": 1.1472964107938621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231625, "epoch": 3.9000686027898466, "step": 51165}, {"loss": 0.043098649382591246, "token_acc": 0.9807157057654076, "grad_norm": 1.451248049736023, "learning_rate": 1.1465333448901989e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23163, "epoch": 3.9004497294001066, "step": 51170}, {"loss": 0.04352582097053528, "token_acc": 0.9858263730701088, "grad_norm": 0.5247163772583008, "learning_rate": 1.1457704999649671e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231632, "epoch": 3.9008308560103666, "step": 51175}, {"loss": 0.04322465360164642, "token_acc": 0.9830682401231401, "grad_norm": 1.5003371238708496, "learning_rate": 1.1450078760619104e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231638, "epoch": 3.9012119826206266, "step": 51180}, {"loss": 0.038314545154571535, "token_acc": 0.9871647509578544, "grad_norm": 2.6836729049682617, "learning_rate": 1.144245473224762e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231642, "epoch": 3.9015931092308866, "step": 51185}, {"loss": 0.051983559131622316, "token_acc": 0.9785714285714285, "grad_norm": 0.5687052607536316, "learning_rate": 1.1434832914972449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231649, "epoch": 3.9019742358411467, "step": 51190}, {"loss": 0.07160993814468383, "token_acc": 0.9756167527251864, "grad_norm": 1.2287739515304565, "learning_rate": 1.1427213309230628e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231656, "epoch": 3.9023553624514062, "step": 51195}, {"loss": 0.053579843044281004, "token_acc": 0.9790276453765491, "grad_norm": 1.0907610654830933, "learning_rate": 1.1419595915459124e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231662, "epoch": 3.9027364890616663, "step": 51200}, {"eval_loss": 0.053008563816547394, "eval_token_acc": 0.9779154870188543, "eval_runtime": 219.7162, "eval_samples_per_second": 2.412, "eval_steps_per_second": 2.412, "epoch": 3.9027364890616663, "step": 51200}, {"loss": 0.08436903357505798, "token_acc": 0.9778990068541055, "grad_norm": 0.7461091876029968, "learning_rate": 1.1411980734094774e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231437, "epoch": 3.9031176156719263, "step": 51205}, {"loss": 0.05356778502464295, "token_acc": 0.9805668016194332, "grad_norm": 1.4322257041931152, "learning_rate": 1.1404367765574248e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23144, "epoch": 3.9034987422821863, "step": 51210}, {"loss": 0.04214376509189606, "token_acc": 0.9843426203085425, "grad_norm": 2.317495107650757, "learning_rate": 1.1396757010334135e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231446, "epoch": 3.903879868892446, "step": 51215}, {"loss": 0.03748279511928558, "token_acc": 0.9852841906304847, "grad_norm": 1.395789384841919, "learning_rate": 1.1389148468810856e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231447, "epoch": 3.904260995502706, "step": 51220}, {"loss": 0.04581472873687744, "token_acc": 0.9837948194462167, "grad_norm": 2.0328028202056885, "learning_rate": 1.1381542141440732e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231451, "epoch": 3.904642122112966, "step": 51225}, {"loss": 0.04009149670600891, "token_acc": 0.9839935163610577, "grad_norm": 0.7982304692268372, "learning_rate": 1.137393802865997e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231449, "epoch": 3.905023248723226, "step": 51230}, {"loss": 0.028140330314636232, "token_acc": 0.9893265565438374, "grad_norm": 1.2761579751968384, "learning_rate": 1.1366336130904587e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231454, "epoch": 3.905404375333486, "step": 51235}, {"loss": 0.046469300985336304, "token_acc": 0.9844533600802408, "grad_norm": 1.148417592048645, "learning_rate": 1.1358736448610564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231461, "epoch": 3.905785501943746, "step": 51240}, {"loss": 0.058275991678237916, "token_acc": 0.9797449362340586, "grad_norm": 2.168182849884033, "learning_rate": 1.1351138982213694e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231467, "epoch": 3.9061666285540055, "step": 51245}, {"loss": 0.0684902548789978, "token_acc": 0.9672008387000149, "grad_norm": 1.2552767992019653, "learning_rate": 1.1343543732149642e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231471, "epoch": 3.9065477551642656, "step": 51250}, {"loss": 0.02990352511405945, "token_acc": 0.9873743880443184, "grad_norm": 1.5456522703170776, "learning_rate": 1.133595069885398e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231477, "epoch": 3.9069288817745256, "step": 51255}, {"loss": 0.054629212617874144, "token_acc": 0.9793735676088617, "grad_norm": 1.1134836673736572, "learning_rate": 1.1328359882762113e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231483, "epoch": 3.907310008384785, "step": 51260}, {"loss": 0.03724370300769806, "token_acc": 0.9844789356984479, "grad_norm": 1.4255874156951904, "learning_rate": 1.1320771284309345e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231489, "epoch": 3.907691134995045, "step": 51265}, {"loss": 0.05358842611312866, "token_acc": 0.9751209398756047, "grad_norm": 5.712593078613281, "learning_rate": 1.1313184903930862e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231498, "epoch": 3.908072261605305, "step": 51270}, {"loss": 0.051426428556442264, "token_acc": 0.9827362969356928, "grad_norm": 2.1062941551208496, "learning_rate": 1.1305600742061684e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231503, "epoch": 3.908453388215565, "step": 51275}, {"loss": 0.04892503023147583, "token_acc": 0.9764038231780168, "grad_norm": 1.4906612634658813, "learning_rate": 1.129801879913674e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231509, "epoch": 3.9088345148258252, "step": 51280}, {"loss": 0.04102218151092529, "token_acc": 0.9801025641025641, "grad_norm": 0.10082317888736725, "learning_rate": 1.1290439075590836e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231514, "epoch": 3.9092156414360852, "step": 51285}, {"loss": 0.048112761974334714, "token_acc": 0.9796057104010877, "grad_norm": 1.5681967735290527, "learning_rate": 1.1282861571858599e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23152, "epoch": 3.9095967680463453, "step": 51290}, {"loss": 0.0785984754562378, "token_acc": 0.9702881152460985, "grad_norm": 1.4931796789169312, "learning_rate": 1.1275286288374581e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231526, "epoch": 3.909977894656605, "step": 51295}, {"loss": 0.04576157927513123, "token_acc": 0.9844399938376214, "grad_norm": 0.976799488067627, "learning_rate": 1.1267713225573206e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231529, "epoch": 3.910359021266865, "step": 51300}, {"loss": 0.06883474588394164, "token_acc": 0.9673684210526315, "grad_norm": 0.919019341468811, "learning_rate": 1.1260142383888722e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231534, "epoch": 3.910740147877125, "step": 51305}, {"loss": 0.052004379034042356, "token_acc": 0.9814642228435332, "grad_norm": 1.0799696445465088, "learning_rate": 1.1252573763755298e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231534, "epoch": 3.9111212744873844, "step": 51310}, {"loss": 0.060817569494247437, "token_acc": 0.9795879435330027, "grad_norm": 1.803115963935852, "learning_rate": 1.1245007365606968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23154, "epoch": 3.9115024010976445, "step": 51315}, {"loss": 0.04532873034477234, "token_acc": 0.9793753682969947, "grad_norm": 0.7082263231277466, "learning_rate": 1.1237443189877617e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231545, "epoch": 3.9118835277079045, "step": 51320}, {"loss": 0.0660049319267273, "token_acc": 0.9727291367644043, "grad_norm": 3.6490819454193115, "learning_rate": 1.1229881237001012e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23155, "epoch": 3.9122646543181645, "step": 51325}, {"loss": 0.06788381338119506, "token_acc": 0.9756934088875634, "grad_norm": 0.8894729018211365, "learning_rate": 1.1222321507410816e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231553, "epoch": 3.9126457809284245, "step": 51330}, {"loss": 0.04652920663356781, "token_acc": 0.9821498626912515, "grad_norm": 1.0234318971633911, "learning_rate": 1.1214764001540517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231558, "epoch": 3.9130269075386845, "step": 51335}, {"loss": 0.03425142168998718, "token_acc": 0.9834963325183375, "grad_norm": 0.9867760539054871, "learning_rate": 1.120720871982352e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231564, "epoch": 3.913408034148944, "step": 51340}, {"loss": 0.06629308462142944, "token_acc": 0.9703968770331816, "grad_norm": 1.7054564952850342, "learning_rate": 1.1199655662693093e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231571, "epoch": 3.913789160759204, "step": 51345}, {"loss": 0.027672985196113588, "token_acc": 0.9899355877616747, "grad_norm": 0.6134839057922363, "learning_rate": 1.1192104830582351e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231578, "epoch": 3.914170287369464, "step": 51350}, {"loss": 0.056738758087158205, "token_acc": 0.9758735440931781, "grad_norm": 2.081172227859497, "learning_rate": 1.1184556223924297e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231583, "epoch": 3.914551413979724, "step": 51355}, {"loss": 0.05511375665664673, "token_acc": 0.9795795795795795, "grad_norm": 1.5878934860229492, "learning_rate": 1.1177009843151837e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231588, "epoch": 3.9149325405899837, "step": 51360}, {"loss": 0.038293454051017764, "token_acc": 0.9828975820719481, "grad_norm": 1.1041063070297241, "learning_rate": 1.116946568869769e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231594, "epoch": 3.9153136672002438, "step": 51365}, {"loss": 0.05265974998474121, "token_acc": 0.9811268387454899, "grad_norm": 1.291707992553711, "learning_rate": 1.1161923760994487e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231599, "epoch": 3.915694793810504, "step": 51370}, {"loss": 0.04529010951519012, "token_acc": 0.9808182590749059, "grad_norm": 1.2475241422653198, "learning_rate": 1.1154384060474726e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231602, "epoch": 3.916075920420764, "step": 51375}, {"loss": 0.03453406095504761, "token_acc": 0.9849942913064753, "grad_norm": 1.1012896299362183, "learning_rate": 1.114684658757077e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231605, "epoch": 3.916457047031024, "step": 51380}, {"loss": 0.03687165379524231, "token_acc": 0.9829059829059829, "grad_norm": 0.8994232416152954, "learning_rate": 1.113931134271488e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231608, "epoch": 3.916838173641284, "step": 51385}, {"loss": 0.03025192618370056, "token_acc": 0.9866814650388457, "grad_norm": 2.0076653957366943, "learning_rate": 1.1131778326339137e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231615, "epoch": 3.9172193002515434, "step": 51390}, {"loss": 0.046755677461624144, "token_acc": 0.9794344473007712, "grad_norm": 1.0626367330551147, "learning_rate": 1.1124247538875532e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231622, "epoch": 3.9176004268618034, "step": 51395}, {"loss": 0.06878650188446045, "token_acc": 0.969429747207525, "grad_norm": 2.0421643257141113, "learning_rate": 1.1116718980755942e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231629, "epoch": 3.9179815534720634, "step": 51400}, {"eval_loss": 0.05257737636566162, "eval_token_acc": 0.9780133726883923, "eval_runtime": 220.9896, "eval_samples_per_second": 2.398, "eval_steps_per_second": 2.398, "epoch": 3.9179815534720634, "step": 51400}, {"loss": 0.04086217284202576, "token_acc": 0.9784263959390863, "grad_norm": 1.408014178276062, "learning_rate": 1.1109192652412059e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231402, "epoch": 3.9183626800823235, "step": 51405}, {"loss": 0.06661374568939209, "token_acc": 0.9768330546930977, "grad_norm": 1.550033450126648, "learning_rate": 1.1101668554275508e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231407, "epoch": 3.918743806692583, "step": 51410}, {"loss": 0.0392835259437561, "token_acc": 0.9867689069312885, "grad_norm": 1.3014525175094604, "learning_rate": 1.1094146686777763e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231411, "epoch": 3.919124933302843, "step": 51415}, {"loss": 0.039171481132507326, "token_acc": 0.983147297001532, "grad_norm": 0.6724214553833008, "learning_rate": 1.1086627050350151e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231412, "epoch": 3.919506059913103, "step": 51420}, {"loss": 0.07114088535308838, "token_acc": 0.9791381148165068, "grad_norm": 0.6644142270088196, "learning_rate": 1.1079109645423907e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231416, "epoch": 3.919887186523363, "step": 51425}, {"loss": 0.06058574318885803, "token_acc": 0.9778796870785001, "grad_norm": 1.8837106227874756, "learning_rate": 1.1071594472430102e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231421, "epoch": 3.920268313133623, "step": 51430}, {"loss": 0.03802376091480255, "token_acc": 0.9829614604462474, "grad_norm": 0.7438315153121948, "learning_rate": 1.1064081531799703e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231429, "epoch": 3.920649439743883, "step": 51435}, {"loss": 0.05174833536148071, "token_acc": 0.9779411764705882, "grad_norm": 1.2031162977218628, "learning_rate": 1.1056570823963552e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231435, "epoch": 3.9210305663541427, "step": 51440}, {"loss": 0.04820125699043274, "token_acc": 0.9766600920447074, "grad_norm": 0.10071277618408203, "learning_rate": 1.1049062349352336e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231442, "epoch": 3.9214116929644027, "step": 51445}, {"loss": 0.044291707873344424, "token_acc": 0.9827140329386144, "grad_norm": 1.1043941974639893, "learning_rate": 1.1041556108396638e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231443, "epoch": 3.9217928195746627, "step": 51450}, {"loss": 0.054172462224960326, "token_acc": 0.9819680577022154, "grad_norm": 0.8910601139068604, "learning_rate": 1.1034052101526921e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231445, "epoch": 3.9221739461849228, "step": 51455}, {"loss": 0.03422315120697021, "token_acc": 0.9862989941033645, "grad_norm": 1.6487476825714111, "learning_rate": 1.102655032917348e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231449, "epoch": 3.9225550727951823, "step": 51460}, {"loss": 0.0621816098690033, "token_acc": 0.9814537840263237, "grad_norm": 1.0805476903915405, "learning_rate": 1.1019050791766517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231455, "epoch": 3.9229361994054424, "step": 51465}, {"loss": 0.036056673526763915, "token_acc": 0.9872237569060773, "grad_norm": 1.8110241889953613, "learning_rate": 1.1011553489736115e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231462, "epoch": 3.9233173260157024, "step": 51470}, {"loss": 0.07609274983406067, "token_acc": 0.9721831536177528, "grad_norm": 0.46087411046028137, "learning_rate": 1.1004058423512176e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231465, "epoch": 3.9236984526259624, "step": 51475}, {"loss": 0.022237707674503327, "token_acc": 0.9883369330453564, "grad_norm": 0.8722853660583496, "learning_rate": 1.099656559352452e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231473, "epoch": 3.9240795792362224, "step": 51480}, {"loss": 0.06658769845962524, "token_acc": 0.9856304391823517, "grad_norm": 2.878053665161133, "learning_rate": 1.0989075000202842e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231478, "epoch": 3.9244607058464824, "step": 51485}, {"loss": 0.025000414252281188, "token_acc": 0.98999648999649, "grad_norm": 0.7139894962310791, "learning_rate": 1.0981586643976671e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231481, "epoch": 3.924841832456742, "step": 51490}, {"loss": 0.03789767920970917, "token_acc": 0.9830178666194941, "grad_norm": 0.6842798590660095, "learning_rate": 1.0974100525275438e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231484, "epoch": 3.925222959067002, "step": 51495}, {"loss": 0.06948559880256652, "token_acc": 0.9748723989006675, "grad_norm": 1.6741456985473633, "learning_rate": 1.0966616644528449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231492, "epoch": 3.925604085677262, "step": 51500}, {"loss": 0.043907192349433896, "token_acc": 0.9808660624370594, "grad_norm": 0.7664462327957153, "learning_rate": 1.0959135002164834e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231496, "epoch": 3.925985212287522, "step": 51505}, {"loss": 0.04117330014705658, "token_acc": 0.984737707914458, "grad_norm": 0.7637376189231873, "learning_rate": 1.095165559861368e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231495, "epoch": 3.9263663388977816, "step": 51510}, {"loss": 0.049929994344711306, "token_acc": 0.9834744054816607, "grad_norm": 0.6985693573951721, "learning_rate": 1.094417843430386e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231497, "epoch": 3.9267474655080417, "step": 51515}, {"loss": 0.034011447429656984, "token_acc": 0.985117618819011, "grad_norm": 0.5670239925384521, "learning_rate": 1.0936703509664159e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231502, "epoch": 3.9271285921183017, "step": 51520}, {"loss": 0.0678870677947998, "token_acc": 0.9740484429065744, "grad_norm": 2.0490834712982178, "learning_rate": 1.0929230825123255e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231504, "epoch": 3.9275097187285617, "step": 51525}, {"loss": 0.04360925555229187, "token_acc": 0.9836007758772704, "grad_norm": 1.2141438722610474, "learning_rate": 1.0921760381109635e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231508, "epoch": 3.9278908453388217, "step": 51530}, {"loss": 0.0237454354763031, "token_acc": 0.9881118881118881, "grad_norm": 1.3209927082061768, "learning_rate": 1.0914292178051716e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231514, "epoch": 3.9282719719490817, "step": 51535}, {"loss": 0.03431702852249145, "token_acc": 0.9859564164648911, "grad_norm": 2.245532512664795, "learning_rate": 1.0906826216377775e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231522, "epoch": 3.9286530985593413, "step": 51540}, {"loss": 0.04398788511753082, "token_acc": 0.9842435367905767, "grad_norm": 0.9160019755363464, "learning_rate": 1.089936249651592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231525, "epoch": 3.9290342251696013, "step": 51545}, {"loss": 0.021248626708984374, "token_acc": 0.9887155658811816, "grad_norm": 1.311905026435852, "learning_rate": 1.0891901018894174e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231529, "epoch": 3.9294153517798613, "step": 51550}, {"loss": 0.0502490758895874, "token_acc": 0.9834892680242158, "grad_norm": 0.8772106170654297, "learning_rate": 1.088444178394044e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231535, "epoch": 3.9297964783901214, "step": 51555}, {"loss": 0.040133881568908694, "token_acc": 0.9794646131279795, "grad_norm": 0.9306280612945557, "learning_rate": 1.0876984792082434e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231542, "epoch": 3.930177605000381, "step": 51560}, {"loss": 0.06817114353179932, "token_acc": 0.9660724554341575, "grad_norm": 1.2149715423583984, "learning_rate": 1.08695300437478e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231548, "epoch": 3.930558731610641, "step": 51565}, {"loss": 0.06333566308021546, "token_acc": 0.9688249400479616, "grad_norm": 1.9617668390274048, "learning_rate": 1.0862077539364041e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231554, "epoch": 3.930939858220901, "step": 51570}, {"loss": 0.048711493611335754, "token_acc": 0.9846067415730337, "grad_norm": 0.9159767031669617, "learning_rate": 1.0854627279358503e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231554, "epoch": 3.931320984831161, "step": 51575}, {"loss": 0.04200442135334015, "token_acc": 0.9856648541769649, "grad_norm": 1.0922186374664307, "learning_rate": 1.084717926415843e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231559, "epoch": 3.931702111441421, "step": 51580}, {"loss": 0.029459795355796813, "token_acc": 0.9848959817611855, "grad_norm": 1.1889369487762451, "learning_rate": 1.083973349419095e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231565, "epoch": 3.932083238051681, "step": 51585}, {"loss": 0.051018184423446654, "token_acc": 0.9805825242718447, "grad_norm": 1.732568383216858, "learning_rate": 1.0832289969883014e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231571, "epoch": 3.9324643646619406, "step": 51590}, {"loss": 0.05173635482788086, "token_acc": 0.9799977008851593, "grad_norm": 0.6986112594604492, "learning_rate": 1.0824848691661504e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231572, "epoch": 3.9328454912722006, "step": 51595}, {"loss": 0.05944143533706665, "token_acc": 0.9763522012578616, "grad_norm": 1.0006242990493774, "learning_rate": 1.0817409659953116e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231577, "epoch": 3.9332266178824606, "step": 51600}, {"eval_loss": 0.05234023556113243, "eval_token_acc": 0.9784124450334317, "eval_runtime": 219.6408, "eval_samples_per_second": 2.413, "eval_steps_per_second": 2.413, "epoch": 3.9332266178824606, "step": 51600}, {"loss": 0.061411821842193605, "token_acc": 0.9782702631444035, "grad_norm": 2.0854735374450684, "learning_rate": 1.0809972875184448e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231355, "epoch": 3.93360774449272, "step": 51605}, {"loss": 0.05167187452316284, "token_acc": 0.9753770390889505, "grad_norm": 1.075013518333435, "learning_rate": 1.0802538337781987e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231359, "epoch": 3.9339888711029802, "step": 51610}, {"loss": 0.034136056900024414, "token_acc": 0.98614913834756, "grad_norm": 0.7805740237236023, "learning_rate": 1.0795106048172038e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231363, "epoch": 3.9343699977132403, "step": 51615}, {"loss": 0.035671192407608035, "token_acc": 0.9840146430750457, "grad_norm": 1.0014081001281738, "learning_rate": 1.0787676006780828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231365, "epoch": 3.9347511243235003, "step": 51620}, {"loss": 0.04408842325210571, "token_acc": 0.9836267605633803, "grad_norm": 1.7826968431472778, "learning_rate": 1.0780248214034443e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231368, "epoch": 3.9351322509337603, "step": 51625}, {"loss": 0.04615304470062256, "token_acc": 0.981547064305685, "grad_norm": 0.838721752166748, "learning_rate": 1.0772822670358806e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231372, "epoch": 3.9355133775440203, "step": 51630}, {"loss": 0.0484409749507904, "token_acc": 0.9815809669992326, "grad_norm": 0.7518568634986877, "learning_rate": 1.0765399376179747e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231377, "epoch": 3.9358945041542803, "step": 51635}, {"loss": 0.05204703807830811, "token_acc": 0.9860476305027664, "grad_norm": 2.641598701477051, "learning_rate": 1.075797833192298e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231383, "epoch": 3.93627563076454, "step": 51640}, {"loss": 0.049748319387435916, "token_acc": 0.9767100678525582, "grad_norm": 1.3421415090560913, "learning_rate": 1.0750559538014043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231388, "epoch": 3.9366567573748, "step": 51645}, {"loss": 0.03908743560314178, "token_acc": 0.9846119536128457, "grad_norm": 1.5012662410736084, "learning_rate": 1.0743142994878391e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231394, "epoch": 3.93703788398506, "step": 51650}, {"loss": 0.03732075095176697, "token_acc": 0.9856353591160221, "grad_norm": 0.8360908031463623, "learning_rate": 1.0735728702941294e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231401, "epoch": 3.9374190105953195, "step": 51655}, {"loss": 0.04428608417510986, "token_acc": 0.9805068226120858, "grad_norm": 1.7296096086502075, "learning_rate": 1.0728316662627951e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231407, "epoch": 3.9378001372055795, "step": 51660}, {"loss": 0.03089710772037506, "token_acc": 0.9865253595760787, "grad_norm": 0.5920084714889526, "learning_rate": 1.0720906874363423e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231409, "epoch": 3.9381812638158396, "step": 51665}, {"loss": 0.061361676454544066, "token_acc": 0.9872192099147947, "grad_norm": 1.2517850399017334, "learning_rate": 1.0713499338572592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231412, "epoch": 3.9385623904260996, "step": 51670}, {"loss": 0.03922918140888214, "token_acc": 0.9854309285588907, "grad_norm": 0.7913892865180969, "learning_rate": 1.070609405568026e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231418, "epoch": 3.9389435170363596, "step": 51675}, {"loss": 0.039030084013938905, "token_acc": 0.9865194505071254, "grad_norm": 0.5058150887489319, "learning_rate": 1.0698691026111102e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231417, "epoch": 3.9393246436466196, "step": 51680}, {"loss": 0.05009523034095764, "token_acc": 0.970620239390642, "grad_norm": 1.0301601886749268, "learning_rate": 1.0691290250289621e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231422, "epoch": 3.939705770256879, "step": 51685}, {"loss": 0.03854672610759735, "token_acc": 0.9847130457313124, "grad_norm": 1.6405121088027954, "learning_rate": 1.0683891728640228e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231425, "epoch": 3.940086896867139, "step": 51690}, {"loss": 0.0485937237739563, "token_acc": 0.9816784869976359, "grad_norm": 1.2215406894683838, "learning_rate": 1.067649546158721e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231432, "epoch": 3.940468023477399, "step": 51695}, {"loss": 0.07070796489715576, "token_acc": 0.974581166955517, "grad_norm": 1.7016386985778809, "learning_rate": 1.066910144955468e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231437, "epoch": 3.9408491500876592, "step": 51700}, {"loss": 0.03360549807548523, "token_acc": 0.9873598855234915, "grad_norm": 0.7805156707763672, "learning_rate": 1.0661709692966664e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231442, "epoch": 3.941230276697919, "step": 51705}, {"loss": 0.034000718593597413, "token_acc": 0.9879955773179593, "grad_norm": 1.9319251775741577, "learning_rate": 1.0654320192247059e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231445, "epoch": 3.941611403308179, "step": 51710}, {"loss": 0.033000203967094424, "token_acc": 0.9823788546255506, "grad_norm": 0.9692011475563049, "learning_rate": 1.0646932947819587e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231451, "epoch": 3.941992529918439, "step": 51715}, {"loss": 0.03381035327911377, "token_acc": 0.9863835305560058, "grad_norm": 1.5332063436508179, "learning_rate": 1.0639547960107899e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231454, "epoch": 3.942373656528699, "step": 51720}, {"loss": 0.03223088681697846, "token_acc": 0.9871428571428571, "grad_norm": 0.6465722918510437, "learning_rate": 1.063216522953549e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231461, "epoch": 3.942754783138959, "step": 51725}, {"loss": 0.031005209684371947, "token_acc": 0.9843235260706578, "grad_norm": 0.7959275841712952, "learning_rate": 1.0624784756525701e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231462, "epoch": 3.943135909749219, "step": 51730}, {"loss": 0.06455446481704712, "token_acc": 0.9746252958190902, "grad_norm": 1.3401457071304321, "learning_rate": 1.0617406541501784e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231463, "epoch": 3.9435170363594785, "step": 51735}, {"loss": 0.04050070643424988, "token_acc": 0.9845585324006862, "grad_norm": 2.1830432415008545, "learning_rate": 1.0610030584886854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231465, "epoch": 3.9438981629697385, "step": 51740}, {"loss": 0.03611060976982117, "token_acc": 0.9864511916421809, "grad_norm": 1.2484813928604126, "learning_rate": 1.0602656887103868e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231469, "epoch": 3.9442792895799985, "step": 51745}, {"loss": 0.039570951461791994, "token_acc": 0.9879718947243064, "grad_norm": 0.4281339645385742, "learning_rate": 1.0595285448575687e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231472, "epoch": 3.9446604161902585, "step": 51750}, {"loss": 0.06450716257095337, "token_acc": 0.977027027027027, "grad_norm": 1.1534343957901, "learning_rate": 1.0587916269725034e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231475, "epoch": 3.945041542800518, "step": 51755}, {"loss": 0.06625234484672546, "token_acc": 0.9686985172981878, "grad_norm": 0.9747397303581238, "learning_rate": 1.0580549350974479e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231483, "epoch": 3.945422669410778, "step": 51760}, {"loss": 0.06825854182243347, "token_acc": 0.9766905737704918, "grad_norm": 1.5018455982208252, "learning_rate": 1.0573184692746486e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231488, "epoch": 3.945803796021038, "step": 51765}, {"loss": 0.04838410019874573, "token_acc": 0.9789833822091887, "grad_norm": 1.1772207021713257, "learning_rate": 1.056582229546339e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231494, "epoch": 3.946184922631298, "step": 51770}, {"loss": 0.030829030275344848, "token_acc": 0.9857964152857626, "grad_norm": 1.1979572772979736, "learning_rate": 1.0558462159547389e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231497, "epoch": 3.946566049241558, "step": 51775}, {"loss": 0.04400015771389008, "token_acc": 0.9807721888940163, "grad_norm": 1.2399595975875854, "learning_rate": 1.055110428542056e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231502, "epoch": 3.946947175851818, "step": 51780}, {"loss": 0.0615730345249176, "token_acc": 0.975879854368932, "grad_norm": 1.0038831233978271, "learning_rate": 1.0543748673504828e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231505, "epoch": 3.9473283024620778, "step": 51785}, {"loss": 0.030491346120834352, "token_acc": 0.9812946616225304, "grad_norm": 0.7944331169128418, "learning_rate": 1.0536395324222009e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231511, "epoch": 3.947709429072338, "step": 51790}, {"loss": 0.06050439476966858, "token_acc": 0.9773513139695712, "grad_norm": 1.9916739463806152, "learning_rate": 1.0529044237993796e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231515, "epoch": 3.948090555682598, "step": 51795}, {"loss": 0.05459884405136108, "token_acc": 0.9812302125734962, "grad_norm": 0.6426489949226379, "learning_rate": 1.0521695415241717e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231521, "epoch": 3.948471682292858, "step": 51800}, {"eval_loss": 0.051885321736335754, "eval_token_acc": 0.9780510210228299, "eval_runtime": 220.269, "eval_samples_per_second": 2.406, "eval_steps_per_second": 2.406, "epoch": 3.948471682292858, "step": 51800}, {"loss": 0.03791236877441406, "token_acc": 0.9781844898196711, "grad_norm": 0.7423007488250732, "learning_rate": 1.0514348856387201e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231298, "epoch": 3.9488528089031174, "step": 51805}, {"loss": 0.03876354694366455, "token_acc": 0.9872565082832696, "grad_norm": 0.6932759881019592, "learning_rate": 1.0507004561851564e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231303, "epoch": 3.9492339355133774, "step": 51810}, {"loss": 0.05160326361656189, "token_acc": 0.9796631712742294, "grad_norm": 0.807320237159729, "learning_rate": 1.049966253205592e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231307, "epoch": 3.9496150621236374, "step": 51815}, {"loss": 0.03879555761814117, "token_acc": 0.9815989847715736, "grad_norm": 1.0938657522201538, "learning_rate": 1.0492322767421347e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231316, "epoch": 3.9499961887338975, "step": 51820}, {"loss": 0.06141721606254578, "token_acc": 0.9819895287958115, "grad_norm": 1.008934736251831, "learning_rate": 1.0484985268368713e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23132, "epoch": 3.9503773153441575, "step": 51825}, {"loss": 0.026409924030303955, "token_acc": 0.9861849096705633, "grad_norm": 1.0706039667129517, "learning_rate": 1.0477650035318798e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231328, "epoch": 3.9507584419544175, "step": 51830}, {"loss": 0.039687278866767886, "token_acc": 0.9825641025641025, "grad_norm": 1.1000930070877075, "learning_rate": 1.0470317068692265e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231333, "epoch": 3.951139568564677, "step": 51835}, {"loss": 0.035385462641716006, "token_acc": 0.9845719661335842, "grad_norm": 0.6287328600883484, "learning_rate": 1.0462986368909589e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231337, "epoch": 3.951520695174937, "step": 51840}, {"loss": 0.03518474400043488, "token_acc": 0.981680353758686, "grad_norm": 0.9958593249320984, "learning_rate": 1.0455657936391172e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231343, "epoch": 3.951901821785197, "step": 51845}, {"loss": 0.05206428170204162, "token_acc": 0.976867151354924, "grad_norm": 1.5637940168380737, "learning_rate": 1.044833177155728e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231346, "epoch": 3.952282948395457, "step": 51850}, {"loss": 0.03954291641712189, "token_acc": 0.9789562289562289, "grad_norm": 0.9323400259017944, "learning_rate": 1.0441007874828001e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231349, "epoch": 3.9526640750057167, "step": 51855}, {"loss": 0.0673100471496582, "token_acc": 0.9746709434797036, "grad_norm": 0.8563870787620544, "learning_rate": 1.0433686246623353e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23135, "epoch": 3.9530452016159767, "step": 51860}, {"loss": 0.04936817288398743, "token_acc": 0.9783573060895282, "grad_norm": 0.9309912323951721, "learning_rate": 1.0426366887363192e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231353, "epoch": 3.9534263282262367, "step": 51865}, {"loss": 0.028842097520828246, "token_acc": 0.9886769964243146, "grad_norm": 0.6812136173248291, "learning_rate": 1.041904979746724e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231358, "epoch": 3.9538074548364968, "step": 51870}, {"loss": 0.046016883850097653, "token_acc": 0.9751443635450665, "grad_norm": 0.8967809081077576, "learning_rate": 1.0411734977355097e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231364, "epoch": 3.954188581446757, "step": 51875}, {"loss": 0.048521846532821655, "token_acc": 0.9807381029459372, "grad_norm": 1.5125707387924194, "learning_rate": 1.040442242744626e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231368, "epoch": 3.954569708057017, "step": 51880}, {"loss": 0.043768495321273804, "token_acc": 0.9799051704673741, "grad_norm": 1.210307240486145, "learning_rate": 1.0397112148160037e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231374, "epoch": 3.9549508346672764, "step": 51885}, {"loss": 0.049902024865150454, "token_acc": 0.9800505050505051, "grad_norm": 0.8649747371673584, "learning_rate": 1.038980413991565e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23138, "epoch": 3.9553319612775364, "step": 51890}, {"loss": 0.03775314688682556, "token_acc": 0.9850016302575807, "grad_norm": 0.8206137418746948, "learning_rate": 1.0382498403132196e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231384, "epoch": 3.9557130878877964, "step": 51895}, {"loss": 0.05034189820289612, "token_acc": 0.9784817692767483, "grad_norm": 0.5441038012504578, "learning_rate": 1.03751949382286e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231388, "epoch": 3.956094214498056, "step": 51900}, {"loss": 0.04422245621681213, "token_acc": 0.9798616761594793, "grad_norm": 1.1318910121917725, "learning_rate": 1.0367893745623691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231393, "epoch": 3.956475341108316, "step": 51905}, {"loss": 0.036324572563171384, "token_acc": 0.9834061135371179, "grad_norm": 1.0274479389190674, "learning_rate": 1.0360594825736158e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231396, "epoch": 3.956856467718576, "step": 51910}, {"loss": 0.05979503989219666, "token_acc": 0.9805676855895197, "grad_norm": 0.5659840106964111, "learning_rate": 1.0353298178984566e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231403, "epoch": 3.957237594328836, "step": 51915}, {"loss": 0.037833505868911745, "token_acc": 0.9815778066753359, "grad_norm": 1.268605351448059, "learning_rate": 1.0346003805787353e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231408, "epoch": 3.957618720939096, "step": 51920}, {"loss": 0.03937556743621826, "token_acc": 0.9804994868286008, "grad_norm": 0.6005387306213379, "learning_rate": 1.0338711706562792e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231411, "epoch": 3.957999847549356, "step": 51925}, {"loss": 0.039437723159790036, "token_acc": 0.9829151094500801, "grad_norm": 1.0626050233840942, "learning_rate": 1.0331421881729058e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231419, "epoch": 3.958380974159616, "step": 51930}, {"loss": 0.053370773792266846, "token_acc": 0.9813343923749007, "grad_norm": 1.4974427223205566, "learning_rate": 1.0324134331704216e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231422, "epoch": 3.9587621007698757, "step": 51935}, {"loss": 0.038925981521606444, "token_acc": 0.9840442852491045, "grad_norm": 0.387844979763031, "learning_rate": 1.031684905690613e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231428, "epoch": 3.9591432273801357, "step": 51940}, {"loss": 0.02247331291437149, "token_acc": 0.9821428571428571, "grad_norm": 0.5271110534667969, "learning_rate": 1.0309566057752606e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231436, "epoch": 3.9595243539903957, "step": 51945}, {"loss": 0.05033569931983948, "token_acc": 0.9820239680426098, "grad_norm": 1.087931752204895, "learning_rate": 1.0302285334661293e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231441, "epoch": 3.9599054806006553, "step": 51950}, {"loss": 0.03238977491855621, "token_acc": 0.9886613021214338, "grad_norm": 1.1501922607421875, "learning_rate": 1.029500688804968e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231444, "epoch": 3.9602866072109153, "step": 51955}, {"loss": 0.05202380418777466, "token_acc": 0.9831127339114559, "grad_norm": 0.6964325904846191, "learning_rate": 1.028773071833517e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231449, "epoch": 3.9606677338211753, "step": 51960}, {"loss": 0.06012837290763855, "token_acc": 0.9805589307411907, "grad_norm": 1.5785268545150757, "learning_rate": 1.028045682593503e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231456, "epoch": 3.9610488604314353, "step": 51965}, {"loss": 0.04425489604473114, "token_acc": 0.9854721549636803, "grad_norm": 0.774085521697998, "learning_rate": 1.0273185211266355e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23146, "epoch": 3.9614299870416954, "step": 51970}, {"loss": 0.038875934481620786, "token_acc": 0.9839111281363724, "grad_norm": 0.6649735569953918, "learning_rate": 1.0265915874746156e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231466, "epoch": 3.9618111136519554, "step": 51975}, {"loss": 0.04392178952693939, "token_acc": 0.9830888697152718, "grad_norm": 0.8553614020347595, "learning_rate": 1.0258648816791304e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231468, "epoch": 3.962192240262215, "step": 51980}, {"loss": 0.04258418083190918, "token_acc": 0.9788732394366197, "grad_norm": 1.1966474056243896, "learning_rate": 1.0251384037818506e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231474, "epoch": 3.962573366872475, "step": 51985}, {"loss": 0.03567745089530945, "token_acc": 0.9826319305277221, "grad_norm": 0.07907971739768982, "learning_rate": 1.0244121538244394e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231478, "epoch": 3.962954493482735, "step": 51990}, {"loss": 0.026393452286720277, "token_acc": 0.9918319719953326, "grad_norm": 0.9896934032440186, "learning_rate": 1.0236861318485408e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231483, "epoch": 3.963335620092995, "step": 51995}, {"loss": 0.04906064569950104, "token_acc": 0.9786839666357738, "grad_norm": 2.1618473529815674, "learning_rate": 1.0229603378957896e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231491, "epoch": 3.9637167467032546, "step": 52000}, {"eval_loss": 0.052068110555410385, "eval_token_acc": 0.9781037286910427, "eval_runtime": 220.3243, "eval_samples_per_second": 2.406, "eval_steps_per_second": 2.406, "epoch": 3.9637167467032546, "step": 52000}, {"loss": 0.03789832293987274, "token_acc": 0.978345701357466, "grad_norm": 0.8084425330162048, "learning_rate": 1.0222347720078091e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231267, "epoch": 3.9640978733135146, "step": 52005}, {"loss": 0.05342034101486206, "token_acc": 0.9774703557312253, "grad_norm": 1.9557433128356934, "learning_rate": 1.0215094342262043e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231274, "epoch": 3.9644789999237746, "step": 52010}, {"loss": 0.04574134051799774, "token_acc": 0.9801115692456949, "grad_norm": 1.251144289970398, "learning_rate": 1.0207843245925708e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231279, "epoch": 3.9648601265340346, "step": 52015}, {"loss": 0.029428154230117798, "token_acc": 0.9861690034103827, "grad_norm": 0.7612956762313843, "learning_rate": 1.0200594431484916e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231283, "epoch": 3.9652412531442947, "step": 52020}, {"loss": 0.053851211071014406, "token_acc": 0.9768511648612553, "grad_norm": 1.0472052097320557, "learning_rate": 1.0193347899355327e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231287, "epoch": 3.9656223797545547, "step": 52025}, {"loss": 0.04001335799694061, "token_acc": 0.9871814671814672, "grad_norm": 2.2214648723602295, "learning_rate": 1.0186103649952511e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23129, "epoch": 3.9660035063648142, "step": 52030}, {"loss": 0.014670448005199432, "token_acc": 0.9941205291523763, "grad_norm": 0.04819333553314209, "learning_rate": 1.017886168369191e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231295, "epoch": 3.9663846329750743, "step": 52035}, {"loss": 0.05781666040420532, "token_acc": 0.974083264405845, "grad_norm": 1.8379377126693726, "learning_rate": 1.0171622000988768e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231302, "epoch": 3.9667657595853343, "step": 52040}, {"loss": 0.06383656859397888, "token_acc": 0.9777622132726318, "grad_norm": 0.8667842745780945, "learning_rate": 1.0164384602258303e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231305, "epoch": 3.9671468861955943, "step": 52045}, {"loss": 0.04119675159454346, "token_acc": 0.9826230864708316, "grad_norm": 1.0237388610839844, "learning_rate": 1.0157149487915513e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231312, "epoch": 3.967528012805854, "step": 52050}, {"loss": 0.03821527063846588, "token_acc": 0.9841860465116279, "grad_norm": 0.6886779069900513, "learning_rate": 1.0149916658375303e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231315, "epoch": 3.967909139416114, "step": 52055}, {"loss": 0.040331804752349855, "token_acc": 0.9840174966352625, "grad_norm": 0.8850218057632446, "learning_rate": 1.0142686114052458e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231319, "epoch": 3.968290266026374, "step": 52060}, {"loss": 0.050896954536437986, "token_acc": 0.9835343672219031, "grad_norm": 2.8142495155334473, "learning_rate": 1.013545785536159e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231324, "epoch": 3.968671392636634, "step": 52065}, {"loss": 0.06547519564628601, "token_acc": 0.9754990925589837, "grad_norm": 1.0718529224395752, "learning_rate": 1.0128231882717226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23133, "epoch": 3.969052519246894, "step": 52070}, {"loss": 0.048174649477005005, "token_acc": 0.9839489126682776, "grad_norm": 0.5022848844528198, "learning_rate": 1.0121008196533743e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231335, "epoch": 3.969433645857154, "step": 52075}, {"loss": 0.0500415027141571, "token_acc": 0.9840240796480667, "grad_norm": 0.7463897466659546, "learning_rate": 1.0113786797225367e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231341, "epoch": 3.9698147724674135, "step": 52080}, {"loss": 0.03578961789608002, "token_acc": 0.9858042217010246, "grad_norm": 0.8613776564598083, "learning_rate": 1.0106567685206226e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231342, "epoch": 3.9701958990776736, "step": 52085}, {"loss": 0.035759395360946654, "token_acc": 0.9853862212943633, "grad_norm": 0.7708094716072083, "learning_rate": 1.0099350860890312e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231348, "epoch": 3.9705770256879336, "step": 52090}, {"loss": 0.0493901401758194, "token_acc": 0.9781362007168459, "grad_norm": 0.9581434726715088, "learning_rate": 1.0092136324691449e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231353, "epoch": 3.9709581522981936, "step": 52095}, {"loss": 0.029024749994277954, "token_acc": 0.9868686868686869, "grad_norm": 1.3640735149383545, "learning_rate": 1.0084924077023377e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231359, "epoch": 3.971339278908453, "step": 52100}, {"loss": 0.05831056237220764, "token_acc": 0.9759211376858435, "grad_norm": 1.0566426515579224, "learning_rate": 1.0077714118299691e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231363, "epoch": 3.971720405518713, "step": 52105}, {"loss": 0.037541437149047854, "token_acc": 0.9814621409921671, "grad_norm": 0.635669469833374, "learning_rate": 1.0070506448933826e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231369, "epoch": 3.972101532128973, "step": 52110}, {"loss": 0.05409092307090759, "token_acc": 0.982108626198083, "grad_norm": 1.0232336521148682, "learning_rate": 1.006330106933912e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231372, "epoch": 3.9724826587392332, "step": 52115}, {"loss": 0.04729689359664917, "token_acc": 0.98229939312205, "grad_norm": 1.3512825965881348, "learning_rate": 1.005609797992878e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231375, "epoch": 3.9728637853494932, "step": 52120}, {"loss": 0.04070386588573456, "token_acc": 0.9869383490073145, "grad_norm": 0.8771897554397583, "learning_rate": 1.0048897181115852e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231381, "epoch": 3.9732449119597533, "step": 52125}, {"loss": 0.030161169171333314, "token_acc": 0.9877750611246944, "grad_norm": 1.3175917863845825, "learning_rate": 1.0041698673313266e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231387, "epoch": 3.973626038570013, "step": 52130}, {"loss": 0.034717094898223874, "token_acc": 0.983675094565001, "grad_norm": 1.3232738971710205, "learning_rate": 1.0034502456933854e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231392, "epoch": 3.974007165180273, "step": 52135}, {"loss": 0.05440279245376587, "token_acc": 0.9781134999031571, "grad_norm": 0.08836917579174042, "learning_rate": 1.0027308532390245e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231395, "epoch": 3.974388291790533, "step": 52140}, {"loss": 0.03706251382827759, "token_acc": 0.985494880546075, "grad_norm": 1.4353477954864502, "learning_rate": 1.0020116900094994e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231402, "epoch": 3.974769418400793, "step": 52145}, {"loss": 0.06395893096923828, "token_acc": 0.9809230769230769, "grad_norm": 1.1868644952774048, "learning_rate": 1.0012927560460528e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231407, "epoch": 3.9751505450110525, "step": 52150}, {"loss": 0.04365535378456116, "token_acc": 0.9838541666666667, "grad_norm": 1.139275312423706, "learning_rate": 1.0005740513899086e-05, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23141, "epoch": 3.9755316716213125, "step": 52155}, {"loss": 0.04032517075538635, "token_acc": 0.984739121468344, "grad_norm": 0.5248676538467407, "learning_rate": 9.998555760822842e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231415, "epoch": 3.9759127982315725, "step": 52160}, {"loss": 0.04140601754188537, "token_acc": 0.9861563517915309, "grad_norm": 0.5345430970191956, "learning_rate": 9.991373301643786e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231419, "epoch": 3.9762939248418325, "step": 52165}, {"loss": 0.05934844613075256, "token_acc": 0.9791883454734651, "grad_norm": 0.6809677481651306, "learning_rate": 9.984193136773796e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231421, "epoch": 3.9766750514520925, "step": 52170}, {"loss": 0.05623188614845276, "token_acc": 0.9790658276863504, "grad_norm": 0.6744194030761719, "learning_rate": 9.977015266624656e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231422, "epoch": 3.9770561780623526, "step": 52175}, {"loss": 0.08316723704338073, "token_acc": 0.9680522780903975, "grad_norm": 1.3594963550567627, "learning_rate": 9.969839691607952e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231426, "epoch": 3.977437304672612, "step": 52180}, {"loss": 0.03742876648902893, "token_acc": 0.9808052434456929, "grad_norm": 1.1234586238861084, "learning_rate": 9.962666412135174e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231432, "epoch": 3.977818431282872, "step": 52185}, {"loss": 0.052267223596572876, "token_acc": 0.9736766398158804, "grad_norm": 1.0699101686477661, "learning_rate": 9.9554954286177e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231435, "epoch": 3.978199557893132, "step": 52190}, {"loss": 0.03406568765640259, "token_acc": 0.9878787878787879, "grad_norm": 1.2316360473632812, "learning_rate": 9.948326741466718e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231439, "epoch": 3.9785806845033918, "step": 52195}, {"loss": 0.028819751739501954, "token_acc": 0.9879897913226242, "grad_norm": 0.9024779796600342, "learning_rate": 9.941160351093337e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231443, "epoch": 3.9789618111136518, "step": 52200}, {"eval_loss": 0.0524248369038105, "eval_token_acc": 0.9782543220287935, "eval_runtime": 220.1603, "eval_samples_per_second": 2.407, "eval_steps_per_second": 2.407, "epoch": 3.9789618111136518, "step": 52200}, {"loss": 0.04976873993873596, "token_acc": 0.9785043722399321, "grad_norm": 3.3543455600738525, "learning_rate": 9.933996257908523e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231223, "epoch": 3.979342937723912, "step": 52205}, {"loss": 0.04307752251625061, "token_acc": 0.9809885931558935, "grad_norm": 1.0124200582504272, "learning_rate": 9.926834462323087e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231227, "epoch": 3.979724064334172, "step": 52210}, {"loss": 0.0473435640335083, "token_acc": 0.9802547770700637, "grad_norm": 1.0676136016845703, "learning_rate": 9.919674964747738e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231232, "epoch": 3.980105190944432, "step": 52215}, {"loss": 0.02982659637928009, "token_acc": 0.9865390367932995, "grad_norm": 0.7769216299057007, "learning_rate": 9.912517765593027e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231238, "epoch": 3.980486317554692, "step": 52220}, {"loss": 0.035853061079978946, "token_acc": 0.983389504092441, "grad_norm": 0.9657455682754517, "learning_rate": 9.905362865269397e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231243, "epoch": 3.980867444164952, "step": 52225}, {"loss": 0.06978020668029786, "token_acc": 0.9780477408354646, "grad_norm": 1.7645196914672852, "learning_rate": 9.898210264187152e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231248, "epoch": 3.9812485707752114, "step": 52230}, {"loss": 0.037666457891464236, "token_acc": 0.9847144006436042, "grad_norm": 0.6699644327163696, "learning_rate": 9.891059962756439e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231251, "epoch": 3.9816296973854715, "step": 52235}, {"loss": 0.06290179491043091, "token_acc": 0.9740786457414918, "grad_norm": 1.351041316986084, "learning_rate": 9.88391196138731e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231256, "epoch": 3.9820108239957315, "step": 52240}, {"loss": 0.05096173882484436, "token_acc": 0.9804602692140686, "grad_norm": 1.368553638458252, "learning_rate": 9.876766260489684e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231264, "epoch": 3.982391950605991, "step": 52245}, {"loss": 0.0750480055809021, "token_acc": 0.9730122231634999, "grad_norm": 0.9188441038131714, "learning_rate": 9.869622860473305e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231266, "epoch": 3.982773077216251, "step": 52250}, {"loss": 0.0332461416721344, "token_acc": 0.9852650494159928, "grad_norm": 0.7882497310638428, "learning_rate": 9.862481761747828e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231269, "epoch": 3.983154203826511, "step": 52255}, {"loss": 0.05221565365791321, "token_acc": 0.9777397260273972, "grad_norm": 1.2733711004257202, "learning_rate": 9.855342964722775e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231274, "epoch": 3.983535330436771, "step": 52260}, {"loss": 0.02698550224304199, "token_acc": 0.9857775705292608, "grad_norm": 0.9677417874336243, "learning_rate": 9.848206469807491e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23128, "epoch": 3.983916457047031, "step": 52265}, {"loss": 0.05232709050178528, "token_acc": 0.9837690318873887, "grad_norm": 0.9833138585090637, "learning_rate": 9.84107227741124e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231282, "epoch": 3.984297583657291, "step": 52270}, {"loss": 0.061308807134628295, "token_acc": 0.9804423748544819, "grad_norm": 1.6058319807052612, "learning_rate": 9.833940387943152e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231288, "epoch": 3.9846787102675507, "step": 52275}, {"loss": 0.051849716901779176, "token_acc": 0.9789603960396039, "grad_norm": 0.9021174311637878, "learning_rate": 9.82681080181217e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231293, "epoch": 3.9850598368778107, "step": 52280}, {"loss": 0.04443131983280182, "token_acc": 0.9827216140802747, "grad_norm": 0.8129973411560059, "learning_rate": 9.819683519427165e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231293, "epoch": 3.9854409634880708, "step": 52285}, {"loss": 0.02956903576850891, "token_acc": 0.9895620603585206, "grad_norm": 0.78498375415802, "learning_rate": 9.812558541196865e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231298, "epoch": 3.9858220900983308, "step": 52290}, {"loss": 0.040596958994865415, "token_acc": 0.9839261285909713, "grad_norm": 1.4261513948440552, "learning_rate": 9.805435867529827e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2313, "epoch": 3.9862032167085903, "step": 52295}, {"loss": 0.055164217948913574, "token_acc": 0.9772944877581726, "grad_norm": 1.0671530961990356, "learning_rate": 9.798315498834515e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231302, "epoch": 3.9865843433188504, "step": 52300}, {"loss": 0.03828292489051819, "token_acc": 0.9788947514579284, "grad_norm": 0.18717144429683685, "learning_rate": 9.791197435519251e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231308, "epoch": 3.9869654699291104, "step": 52305}, {"loss": 0.035008400678634644, "token_acc": 0.9824528998891762, "grad_norm": 1.0860241651535034, "learning_rate": 9.784081677992223e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231312, "epoch": 3.9873465965393704, "step": 52310}, {"loss": 0.04426567256450653, "token_acc": 0.9829512051734274, "grad_norm": 0.7023165822029114, "learning_rate": 9.776968226661497e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231319, "epoch": 3.9877277231496304, "step": 52315}, {"loss": 0.025460779666900635, "token_acc": 0.9885024840312279, "grad_norm": 1.2209738492965698, "learning_rate": 9.769857081934974e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231322, "epoch": 3.9881088497598904, "step": 52320}, {"loss": 0.03195506632328034, "token_acc": 0.9872068230277186, "grad_norm": 0.8744321465492249, "learning_rate": 9.76274824422046e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231323, "epoch": 3.98848997637015, "step": 52325}, {"loss": 0.049174898862838747, "token_acc": 0.9800718719372754, "grad_norm": 2.0720646381378174, "learning_rate": 9.755641713925617e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23133, "epoch": 3.98887110298041, "step": 52330}, {"loss": 0.062190836668014525, "token_acc": 0.9833497954000282, "grad_norm": 0.9131937026977539, "learning_rate": 9.748537491457955e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231332, "epoch": 3.98925222959067, "step": 52335}, {"loss": 0.0502646803855896, "token_acc": 0.9845947756195579, "grad_norm": 2.9445643424987793, "learning_rate": 9.741435577224878e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231336, "epoch": 3.98963335620093, "step": 52340}, {"loss": 0.02771223783493042, "token_acc": 0.9893369523070957, "grad_norm": 0.7924624085426331, "learning_rate": 9.734335971633662e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23134, "epoch": 3.9900144828111896, "step": 52345}, {"loss": 0.046906685829162596, "token_acc": 0.9803171131765992, "grad_norm": 1.7174787521362305, "learning_rate": 9.72723867509141e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231345, "epoch": 3.9903956094214497, "step": 52350}, {"loss": 0.0658511221408844, "token_acc": 0.9753224901850813, "grad_norm": 0.8441598415374756, "learning_rate": 9.720143688005128e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231351, "epoch": 3.9907767360317097, "step": 52355}, {"loss": 0.06748469471931458, "token_acc": 0.9716504153123872, "grad_norm": 1.2509552240371704, "learning_rate": 9.713051010781704e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231354, "epoch": 3.9911578626419697, "step": 52360}, {"loss": 0.04807915687561035, "token_acc": 0.9817704310211648, "grad_norm": 0.5328667163848877, "learning_rate": 9.705960643827833e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231356, "epoch": 3.9915389892522297, "step": 52365}, {"loss": 0.04576430320739746, "token_acc": 0.9806167400881057, "grad_norm": 1.6722440719604492, "learning_rate": 9.698872587550128e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231363, "epoch": 3.9919201158624897, "step": 52370}, {"loss": 0.05106406807899475, "token_acc": 0.9808843406062947, "grad_norm": 0.8203909397125244, "learning_rate": 9.691786842355083e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231367, "epoch": 3.9923012424727493, "step": 52375}, {"loss": 0.04249335825443268, "token_acc": 0.9825626959247649, "grad_norm": 1.065798282623291, "learning_rate": 9.684703408648988e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231371, "epoch": 3.9926823690830093, "step": 52380}, {"loss": 0.036745432019233706, "token_acc": 0.9813534464697256, "grad_norm": 2.0104737281799316, "learning_rate": 9.677622286838084e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231376, "epoch": 3.9930634956932693, "step": 52385}, {"loss": 0.031999999284744264, "token_acc": 0.9876748834110592, "grad_norm": 0.6745442748069763, "learning_rate": 9.670543477328408e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231382, "epoch": 3.9934446223035294, "step": 52390}, {"loss": 0.06186319589614868, "token_acc": 0.9740684793554885, "grad_norm": 1.8348498344421387, "learning_rate": 9.66346698052591e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231387, "epoch": 3.993825748913789, "step": 52395}, {"loss": 0.04645383059978485, "token_acc": 0.9853675945753033, "grad_norm": 1.2472491264343262, "learning_rate": 9.65639279683641e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231394, "epoch": 3.994206875524049, "step": 52400}, {"eval_loss": 0.05157297104597092, "eval_token_acc": 0.9785856273718451, "eval_runtime": 220.0832, "eval_samples_per_second": 2.408, "eval_steps_per_second": 2.408, "epoch": 3.994206875524049, "step": 52400}, {"loss": 0.05233796238899231, "token_acc": 0.978604177279674, "grad_norm": 0.7042508125305176, "learning_rate": 9.649320926665556e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231173, "epoch": 3.994588002134309, "step": 52405}, {"loss": 0.03458074927330017, "token_acc": 0.9832095576364224, "grad_norm": 1.1837080717086792, "learning_rate": 9.642251370418897e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231177, "epoch": 3.994969128744569, "step": 52410}, {"loss": 0.022986891865730285, "token_acc": 0.9906925814399123, "grad_norm": 0.5049640536308289, "learning_rate": 9.63518412850185e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231182, "epoch": 3.995350255354829, "step": 52415}, {"loss": 0.04311366379261017, "token_acc": 0.9823844779167731, "grad_norm": 0.5596652030944824, "learning_rate": 9.62811920131967e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231185, "epoch": 3.995731381965089, "step": 52420}, {"loss": 0.03890994191169739, "token_acc": 0.9862756157172401, "grad_norm": 1.036960482597351, "learning_rate": 9.621056589277499e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231189, "epoch": 3.9961125085753486, "step": 52425}, {"loss": 0.036190399527549745, "token_acc": 0.9857539315448659, "grad_norm": 0.7521655559539795, "learning_rate": 9.613996292780364e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231194, "epoch": 3.9964936351856086, "step": 52430}, {"loss": 0.05431786775588989, "token_acc": 0.9772627896808046, "grad_norm": 2.9914731979370117, "learning_rate": 9.606938312233116e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2312, "epoch": 3.9968747617958686, "step": 52435}, {"loss": 0.0526716411113739, "token_acc": 0.9807429664026223, "grad_norm": 1.124068260192871, "learning_rate": 9.599882648040508e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231202, "epoch": 3.9972558884061287, "step": 52440}, {"loss": 0.04529925584793091, "token_acc": 0.9821804943475761, "grad_norm": 1.107591152191162, "learning_rate": 9.592829300607153e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231206, "epoch": 3.9976370150163882, "step": 52445}, {"loss": 0.044786930084228516, "token_acc": 0.9856658848058379, "grad_norm": 1.6571974754333496, "learning_rate": 9.585778270337525e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231211, "epoch": 3.9980181416266483, "step": 52450}, {"loss": 0.04959052801132202, "token_acc": 0.9773944080904223, "grad_norm": 0.7616850137710571, "learning_rate": 9.578729557635985e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231216, "epoch": 3.9983992682369083, "step": 52455}, {"loss": 0.051061820983886716, "token_acc": 0.9807450816241106, "grad_norm": 1.9440596103668213, "learning_rate": 9.571683162906708e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231223, "epoch": 3.9987803948471683, "step": 52460}, {"loss": 0.06869486570358277, "token_acc": 0.973489932885906, "grad_norm": 2.2631521224975586, "learning_rate": 9.564639086553796e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231229, "epoch": 3.9991615214574283, "step": 52465}, {"loss": 0.03535140454769135, "token_acc": 0.9858429858429858, "grad_norm": 0.7974331974983215, "learning_rate": 9.5575973289812e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231236, "epoch": 3.9995426480676883, "step": 52470}, {"loss": 0.07691041231155396, "token_acc": 0.9736927573887626, "grad_norm": 0.9307478070259094, "learning_rate": 9.55055789059271e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23124, "epoch": 3.999923774677948, "step": 52475}, {"loss": 0.04244367480278015, "token_acc": 0.9822140447715425, "grad_norm": 1.0575389862060547, "learning_rate": 9.543520771792014e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231246, "epoch": 4.000304901288208, "step": 52480}, {"loss": 0.033648896217346194, "token_acc": 0.9908561928512053, "grad_norm": 0.8628977537155151, "learning_rate": 9.536485972982672e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231254, "epoch": 4.0006860278984675, "step": 52485}, {"loss": 0.040229016542434694, "token_acc": 0.9832869080779945, "grad_norm": 0.8735003471374512, "learning_rate": 9.52945349456808e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231257, "epoch": 4.0010671545087275, "step": 52490}, {"loss": 0.049483183026313785, "token_acc": 0.983601579107197, "grad_norm": 1.905502200126648, "learning_rate": 9.52242333695152e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231261, "epoch": 4.0014482811189875, "step": 52495}, {"loss": 0.04007861912250519, "token_acc": 0.9848050458715596, "grad_norm": 0.6449739933013916, "learning_rate": 9.515395500536151e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231267, "epoch": 4.001829407729248, "step": 52500}, {"loss": 0.037059095501899716, "token_acc": 0.9825988273122754, "grad_norm": 0.7868517637252808, "learning_rate": 9.508369985724974e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231271, "epoch": 4.002210534339508, "step": 52505}, {"loss": 0.023155105113983155, "token_acc": 0.9927774130006566, "grad_norm": 0.8574061393737793, "learning_rate": 9.501346792920868e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231279, "epoch": 4.002591660949768, "step": 52510}, {"loss": 0.027729725837707518, "token_acc": 0.9887567567567568, "grad_norm": 0.9241961240768433, "learning_rate": 9.494325922526603e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231283, "epoch": 4.002972787560028, "step": 52515}, {"loss": 0.03582266867160797, "token_acc": 0.9867307692307692, "grad_norm": 2.3248424530029297, "learning_rate": 9.487307374944759e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231289, "epoch": 4.003353914170288, "step": 52520}, {"loss": 0.04143195152282715, "token_acc": 0.9836156315731208, "grad_norm": 0.6458215713500977, "learning_rate": 9.480291150577842e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23129, "epoch": 4.003735040780548, "step": 52525}, {"loss": 0.05110546350479126, "token_acc": 0.9810704071905216, "grad_norm": 1.8587514162063599, "learning_rate": 9.473277249828205e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231293, "epoch": 4.004116167390808, "step": 52530}, {"loss": 0.03483415544033051, "token_acc": 0.987059122050241, "grad_norm": 0.9258203506469727, "learning_rate": 9.466265673098035e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231299, "epoch": 4.004497294001067, "step": 52535}, {"loss": 0.04018638730049133, "token_acc": 0.9865370231862378, "grad_norm": 0.756892204284668, "learning_rate": 9.459256420789431e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231303, "epoch": 4.004878420611327, "step": 52540}, {"loss": 0.027907297015190125, "token_acc": 0.9879032258064516, "grad_norm": 1.9269832372665405, "learning_rate": 9.45224949330435e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231307, "epoch": 4.005259547221587, "step": 52545}, {"loss": 0.014520229399204254, "token_acc": 0.9940789473684211, "grad_norm": 0.42333465814590454, "learning_rate": 9.445244891044585e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231312, "epoch": 4.005640673831847, "step": 52550}, {"loss": 0.03380066752433777, "token_acc": 0.985322625311548, "grad_norm": 0.36797037720680237, "learning_rate": 9.43824261441184e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231318, "epoch": 4.006021800442107, "step": 52555}, {"loss": 0.026766780018806457, "token_acc": 0.9855899945622622, "grad_norm": 1.61696457862854, "learning_rate": 9.431242663807637e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231324, "epoch": 4.006402927052367, "step": 52560}, {"loss": 0.044380050897598264, "token_acc": 0.9849445324881141, "grad_norm": 2.2351014614105225, "learning_rate": 9.424245039633412e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23133, "epoch": 4.006784053662627, "step": 52565}, {"loss": 0.029748895764350893, "token_acc": 0.988805373420758, "grad_norm": 0.7728040814399719, "learning_rate": 9.417249742290435e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231334, "epoch": 4.007165180272887, "step": 52570}, {"loss": 0.028595021367073058, "token_acc": 0.9888755261575466, "grad_norm": 1.172136664390564, "learning_rate": 9.410256772179855e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231341, "epoch": 4.007546306883147, "step": 52575}, {"loss": 0.02559528350830078, "token_acc": 0.9901795735129069, "grad_norm": 0.769741952419281, "learning_rate": 9.403266129702693e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231346, "epoch": 4.007927433493406, "step": 52580}, {"loss": 0.047275102138519286, "token_acc": 0.9802631578947368, "grad_norm": 1.5403199195861816, "learning_rate": 9.39627781525984e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231352, "epoch": 4.008308560103666, "step": 52585}, {"loss": 0.026291093230247496, "token_acc": 0.9876520457058606, "grad_norm": 1.063826084136963, "learning_rate": 9.389291829252017e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231355, "epoch": 4.008689686713926, "step": 52590}, {"loss": 0.03373496830463409, "token_acc": 0.987216180118298, "grad_norm": 2.3337764739990234, "learning_rate": 9.382308172079863e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231361, "epoch": 4.009070813324186, "step": 52595}, {"loss": 0.02250351458787918, "token_acc": 0.9919583727530747, "grad_norm": 1.2811906337738037, "learning_rate": 9.375326844143834e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231368, "epoch": 4.009451939934446, "step": 52600}, {"eval_loss": 0.05211297422647476, "eval_token_acc": 0.9785253900367448, "eval_runtime": 220.6454, "eval_samples_per_second": 2.402, "eval_steps_per_second": 2.402, "epoch": 4.009451939934446, "step": 52600}, {"loss": 0.03164151012897491, "token_acc": 0.978727790826958, "grad_norm": 1.6037710905075073, "learning_rate": 9.368347845844289e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231151, "epoch": 4.009833066544706, "step": 52605}, {"loss": 0.02856963872909546, "token_acc": 0.9898305084745763, "grad_norm": 0.621146559715271, "learning_rate": 9.361371177581452e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231153, "epoch": 4.010214193154966, "step": 52610}, {"loss": 0.05135803818702698, "token_acc": 0.9801283378182571, "grad_norm": 0.9620033502578735, "learning_rate": 9.354396839755381e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231158, "epoch": 4.010595319765226, "step": 52615}, {"loss": 0.04842477738857269, "token_acc": 0.9825161535537819, "grad_norm": 1.2322100400924683, "learning_rate": 9.347424832766033e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231162, "epoch": 4.010976446375486, "step": 52620}, {"loss": 0.042334234714508055, "token_acc": 0.9886122077133314, "grad_norm": 0.17829051613807678, "learning_rate": 9.340455157013234e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231165, "epoch": 4.011357572985746, "step": 52625}, {"loss": 0.03622499108314514, "token_acc": 0.9854323308270677, "grad_norm": 1.175032377243042, "learning_rate": 9.33348781289663e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231169, "epoch": 4.011738699596005, "step": 52630}, {"loss": 0.037969177961349486, "token_acc": 0.9876444798724592, "grad_norm": 1.075997233390808, "learning_rate": 9.32652280081579e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231176, "epoch": 4.012119826206265, "step": 52635}, {"loss": 0.031634360551834106, "token_acc": 0.9906311637080868, "grad_norm": 0.8281236290931702, "learning_rate": 9.319560121170128e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231182, "epoch": 4.012500952816525, "step": 52640}, {"loss": 0.04577980041503906, "token_acc": 0.9895551257253384, "grad_norm": 0.5977849364280701, "learning_rate": 9.312599774358905e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231189, "epoch": 4.012882079426785, "step": 52645}, {"loss": 0.018539050221443178, "token_acc": 0.9931818181818182, "grad_norm": 1.2979042530059814, "learning_rate": 9.30564176078127e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231196, "epoch": 4.0132632060370454, "step": 52650}, {"loss": 0.05117917060852051, "token_acc": 0.9786075457020614, "grad_norm": 1.9136297702789307, "learning_rate": 9.298686080836243e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231201, "epoch": 4.0136443326473055, "step": 52655}, {"loss": 0.031728506088256836, "token_acc": 0.991012789491877, "grad_norm": 0.8746251463890076, "learning_rate": 9.291732734922687e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231205, "epoch": 4.0140254592575655, "step": 52660}, {"loss": 0.03233384490013123, "token_acc": 0.9819482288828338, "grad_norm": 1.1615842580795288, "learning_rate": 9.284781723439345e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231212, "epoch": 4.0144065858678255, "step": 52665}, {"loss": 0.03689364194869995, "token_acc": 0.9854414823218, "grad_norm": 0.8384132981300354, "learning_rate": 9.27783304678484e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231215, "epoch": 4.0147877124780855, "step": 52670}, {"loss": 0.04921550154685974, "token_acc": 0.9835459419486042, "grad_norm": 2.815319776535034, "learning_rate": 9.270886705357628e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231219, "epoch": 4.0151688390883455, "step": 52675}, {"loss": 0.029552119970321655, "token_acc": 0.9868268113134444, "grad_norm": 1.7892332077026367, "learning_rate": 9.263942699556055e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231224, "epoch": 4.015549965698605, "step": 52680}, {"loss": 0.045057058334350586, "token_acc": 0.9823104693140794, "grad_norm": 0.6579239964485168, "learning_rate": 9.257001029778345e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231231, "epoch": 4.015931092308865, "step": 52685}, {"loss": 0.04920731484889984, "token_acc": 0.9800494350282486, "grad_norm": 1.3548557758331299, "learning_rate": 9.25006169642254e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231236, "epoch": 4.016312218919125, "step": 52690}, {"loss": 0.040825659036636354, "token_acc": 0.98503861003861, "grad_norm": 2.1456661224365234, "learning_rate": 9.24312469988659e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231241, "epoch": 4.016693345529385, "step": 52695}, {"loss": 0.03416224718093872, "token_acc": 0.9877020379479972, "grad_norm": 1.2055604457855225, "learning_rate": 9.23619004056832e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231246, "epoch": 4.017074472139645, "step": 52700}, {"loss": 0.025059786438941956, "token_acc": 0.9892793329362716, "grad_norm": 2.144286632537842, "learning_rate": 9.229257718865364e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231251, "epoch": 4.017455598749905, "step": 52705}, {"loss": 0.04777849018573761, "token_acc": 0.9774738535800482, "grad_norm": 1.7947875261306763, "learning_rate": 9.222327735175296e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231256, "epoch": 4.017836725360165, "step": 52710}, {"loss": 0.024596858024597167, "token_acc": 0.9857943925233645, "grad_norm": 0.9490551352500916, "learning_rate": 9.215400089895493e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231262, "epoch": 4.018217851970425, "step": 52715}, {"loss": 0.04006710350513458, "token_acc": 0.985188724319159, "grad_norm": 0.7532852292060852, "learning_rate": 9.208474783423226e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231267, "epoch": 4.018598978580685, "step": 52720}, {"loss": 0.03552758097648621, "token_acc": 0.98580375782881, "grad_norm": 0.9161026477813721, "learning_rate": 9.201551816155651e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231273, "epoch": 4.018980105190945, "step": 52725}, {"loss": 0.037670907378196714, "token_acc": 0.9873417721518988, "grad_norm": 2.725898504257202, "learning_rate": 9.194631188489738e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231279, "epoch": 4.019361231801204, "step": 52730}, {"loss": 0.05828405618667602, "token_acc": 0.9860671310956302, "grad_norm": 1.4505983591079712, "learning_rate": 9.187712900822365e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231285, "epoch": 4.019742358411464, "step": 52735}, {"loss": 0.05228818655014038, "token_acc": 0.9856442577030813, "grad_norm": 0.42199647426605225, "learning_rate": 9.18079695355028e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231289, "epoch": 4.020123485021724, "step": 52740}, {"loss": 0.029672500491142274, "token_acc": 0.9882874327318771, "grad_norm": 1.055625081062317, "learning_rate": 9.173883347070057e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231295, "epoch": 4.020504611631984, "step": 52745}, {"loss": 0.036816665530204774, "token_acc": 0.985521392549211, "grad_norm": 0.857467532157898, "learning_rate": 9.166972081778158e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231297, "epoch": 4.020885738242244, "step": 52750}, {"loss": 0.030226004123687745, "token_acc": 0.9898465171192444, "grad_norm": 0.9585351943969727, "learning_rate": 9.160063158070942e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231303, "epoch": 4.021266864852504, "step": 52755}, {"loss": 0.04881899058818817, "token_acc": 0.9809983411250188, "grad_norm": 2.1639039516448975, "learning_rate": 9.153156576344569e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231306, "epoch": 4.021647991462764, "step": 52760}, {"loss": 0.0409344345331192, "token_acc": 0.9866200082338411, "grad_norm": 0.7601252794265747, "learning_rate": 9.146252336995109e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23131, "epoch": 4.022029118073024, "step": 52765}, {"loss": 0.02981950342655182, "token_acc": 0.9881993467495522, "grad_norm": 0.7425379753112793, "learning_rate": 9.139350440418509e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231309, "epoch": 4.022410244683284, "step": 52770}, {"loss": 0.04118178188800812, "token_acc": 0.9866484080794249, "grad_norm": 0.780762791633606, "learning_rate": 9.13245088701053e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231313, "epoch": 4.022791371293544, "step": 52775}, {"loss": 0.032666510343551634, "token_acc": 0.9894561598224195, "grad_norm": 0.5330446362495422, "learning_rate": 9.125553677166859e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231312, "epoch": 4.023172497903803, "step": 52780}, {"loss": 0.025646737217903136, "token_acc": 0.9900178253119429, "grad_norm": 1.3616729974746704, "learning_rate": 9.118658811282993e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231316, "epoch": 4.023553624514063, "step": 52785}, {"loss": 0.0417491465806961, "token_acc": 0.9841964502796012, "grad_norm": 0.8428962230682373, "learning_rate": 9.111766289754332e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231321, "epoch": 4.023934751124323, "step": 52790}, {"loss": 0.02027701139450073, "token_acc": 0.988759367194005, "grad_norm": 0.49344757199287415, "learning_rate": 9.10487611297614e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231327, "epoch": 4.024315877734583, "step": 52795}, {"loss": 0.04298911094665527, "token_acc": 0.983631812054689, "grad_norm": 1.8129373788833618, "learning_rate": 9.097988281343512e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231331, "epoch": 4.024697004344843, "step": 52800}, {"eval_loss": 0.05186690390110016, "eval_token_acc": 0.9786533943738329, "eval_runtime": 220.2868, "eval_samples_per_second": 2.406, "eval_steps_per_second": 2.406, "epoch": 4.024697004344843, "step": 52800}, {"loss": 0.02953561842441559, "token_acc": 0.9789085918595832, "grad_norm": 1.1553587913513184, "learning_rate": 9.091102795251449e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231112, "epoch": 4.025078130955103, "step": 52805}, {"loss": 0.04932044148445129, "token_acc": 0.9797297297297297, "grad_norm": 0.5298164486885071, "learning_rate": 9.084219655094811e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231116, "epoch": 4.025459257565363, "step": 52810}, {"loss": 0.03824707567691803, "token_acc": 0.9827879704936637, "grad_norm": 0.8931410908699036, "learning_rate": 9.077338861268297e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231121, "epoch": 4.025840384175623, "step": 52815}, {"loss": 0.03925137221813202, "token_acc": 0.9829104091144485, "grad_norm": 1.2847628593444824, "learning_rate": 9.070460414166488e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231126, "epoch": 4.026221510785883, "step": 52820}, {"loss": 0.041063731908798216, "token_acc": 0.9848240232483048, "grad_norm": 1.064353346824646, "learning_rate": 9.063584314183853e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231129, "epoch": 4.026602637396143, "step": 52825}, {"loss": 0.02412194311618805, "token_acc": 0.9892397248191921, "grad_norm": 0.736677348613739, "learning_rate": 9.056710561714676e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231133, "epoch": 4.026983764006403, "step": 52830}, {"loss": 0.028969168663024902, "token_acc": 0.9873760987469609, "grad_norm": 0.5586956739425659, "learning_rate": 9.049839157153151e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231133, "epoch": 4.027364890616663, "step": 52835}, {"loss": 0.017596770823001862, "token_acc": 0.9917555771096024, "grad_norm": 1.1764249801635742, "learning_rate": 9.042970100893316e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231136, "epoch": 4.027746017226923, "step": 52840}, {"loss": 0.030722448229789735, "token_acc": 0.9882449989688595, "grad_norm": 0.44791701436042786, "learning_rate": 9.036103393329088e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231141, "epoch": 4.028127143837183, "step": 52845}, {"loss": 0.027278134226799013, "token_acc": 0.9891623391284714, "grad_norm": 0.9655575156211853, "learning_rate": 9.029239034854237e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231146, "epoch": 4.028508270447443, "step": 52850}, {"loss": 0.025722548365592957, "token_acc": 0.989084293511219, "grad_norm": 1.5153733491897583, "learning_rate": 9.022377025862393e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231151, "epoch": 4.028889397057703, "step": 52855}, {"loss": 0.05787222981452942, "token_acc": 0.9813407049067036, "grad_norm": 1.8711496591567993, "learning_rate": 9.015517366747067e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231155, "epoch": 4.029270523667963, "step": 52860}, {"loss": 0.020999494194984435, "token_acc": 0.9904789382573572, "grad_norm": 1.5364397764205933, "learning_rate": 9.00866005790164e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231162, "epoch": 4.029651650278223, "step": 52865}, {"loss": 0.0368925541639328, "token_acc": 0.9848094009744912, "grad_norm": 1.2968932390213013, "learning_rate": 9.001805099719323e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231168, "epoch": 4.030032776888483, "step": 52870}, {"loss": 0.0196207731962204, "token_acc": 0.9891135303265941, "grad_norm": 0.9926802515983582, "learning_rate": 8.994952492593233e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231174, "epoch": 4.030413903498742, "step": 52875}, {"loss": 0.04368800222873688, "token_acc": 0.9848629700446144, "grad_norm": 1.4596511125564575, "learning_rate": 8.98810223691634e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231177, "epoch": 4.030795030109002, "step": 52880}, {"loss": 0.026919472217559814, "token_acc": 0.9865916955017301, "grad_norm": 0.6576618552207947, "learning_rate": 8.981254333081452e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231184, "epoch": 4.031176156719262, "step": 52885}, {"loss": 0.033433538675308225, "token_acc": 0.9882284832111154, "grad_norm": 0.49424320459365845, "learning_rate": 8.974408781481281e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231189, "epoch": 4.031557283329522, "step": 52890}, {"loss": 0.046914076805114745, "token_acc": 0.9871071716357775, "grad_norm": 2.1049458980560303, "learning_rate": 8.967565582508391e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231193, "epoch": 4.031938409939782, "step": 52895}, {"loss": 0.035204410552978516, "token_acc": 0.984281971898071, "grad_norm": 1.4354501962661743, "learning_rate": 8.960724736555193e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231198, "epoch": 4.032319536550042, "step": 52900}, {"loss": 0.035275721549987794, "token_acc": 0.9882102272727272, "grad_norm": 0.6713777780532837, "learning_rate": 8.95388624401398e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231201, "epoch": 4.032700663160302, "step": 52905}, {"loss": 0.030578497052192687, "token_acc": 0.9885337039610841, "grad_norm": 1.236171841621399, "learning_rate": 8.947050105276933e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231207, "epoch": 4.033081789770562, "step": 52910}, {"loss": 0.02444092631340027, "token_acc": 0.9901057659501876, "grad_norm": 1.452757716178894, "learning_rate": 8.940216320736039e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231215, "epoch": 4.033462916380822, "step": 52915}, {"loss": 0.05692403316497803, "token_acc": 0.9814514259216323, "grad_norm": 0.6699374318122864, "learning_rate": 8.933384890783203e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23122, "epoch": 4.033844042991082, "step": 52920}, {"loss": 0.04884012341499329, "token_acc": 0.9855351976856316, "grad_norm": 0.6010960936546326, "learning_rate": 8.926555815810178e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231227, "epoch": 4.034225169601341, "step": 52925}, {"loss": 0.02285350263118744, "token_acc": 0.9936693450206964, "grad_norm": 0.8342729806900024, "learning_rate": 8.919729096208562e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231233, "epoch": 4.034606296211601, "step": 52930}, {"loss": 0.03307653665542602, "token_acc": 0.9874330068379228, "grad_norm": 0.803972065448761, "learning_rate": 8.912904732369843e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231238, "epoch": 4.034987422821861, "step": 52935}, {"loss": 0.03402678668498993, "token_acc": 0.9827973074046372, "grad_norm": 0.9190524816513062, "learning_rate": 8.90608272468539e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231244, "epoch": 4.035368549432121, "step": 52940}, {"loss": 0.029283356666564942, "token_acc": 0.9840883564208162, "grad_norm": 1.2139225006103516, "learning_rate": 8.899263073546372e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231249, "epoch": 4.035749676042381, "step": 52945}, {"loss": 0.037607702612876895, "token_acc": 0.9819684447783621, "grad_norm": 1.508159875869751, "learning_rate": 8.892445779343905e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231253, "epoch": 4.036130802652641, "step": 52950}, {"loss": 0.03434442281723023, "token_acc": 0.9890354952611039, "grad_norm": 1.4129163026809692, "learning_rate": 8.885630842468895e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231257, "epoch": 4.036511929262901, "step": 52955}, {"loss": 0.021105292439460754, "token_acc": 0.9895769466584917, "grad_norm": 1.096596360206604, "learning_rate": 8.878818263312162e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231263, "epoch": 4.036893055873161, "step": 52960}, {"loss": 0.02561710774898529, "token_acc": 0.9901348240710293, "grad_norm": 1.415649652481079, "learning_rate": 8.87200804226439e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231267, "epoch": 4.037274182483421, "step": 52965}, {"loss": 0.019358985126018524, "token_acc": 0.9905743095133713, "grad_norm": 0.21034996211528778, "learning_rate": 8.865200179716088e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231273, "epoch": 4.037655309093681, "step": 52970}, {"loss": 0.053246313333511354, "token_acc": 0.977765799757445, "grad_norm": 1.1209895610809326, "learning_rate": 8.858394676057651e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231278, "epoch": 4.03803643570394, "step": 52975}, {"loss": 0.05748300552368164, "token_acc": 0.9787327662070988, "grad_norm": 1.2059059143066406, "learning_rate": 8.851591531679388e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23128, "epoch": 4.0384175623142005, "step": 52980}, {"loss": 0.04434276819229126, "token_acc": 0.9810040705563093, "grad_norm": 1.4252771139144897, "learning_rate": 8.844790746971381e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231287, "epoch": 4.0387986889244605, "step": 52985}, {"loss": 0.04305590391159057, "token_acc": 0.9827586206896551, "grad_norm": 1.4893980026245117, "learning_rate": 8.837992322323662e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231291, "epoch": 4.0391798155347205, "step": 52990}, {"loss": 0.03009539544582367, "token_acc": 0.9858236461582081, "grad_norm": 1.1045618057250977, "learning_rate": 8.83119625812605e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231296, "epoch": 4.0395609421449805, "step": 52995}, {"loss": 0.0452409565448761, "token_acc": 0.9841392649903288, "grad_norm": 1.0398067235946655, "learning_rate": 8.824402554768285e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231303, "epoch": 4.0399420687552405, "step": 53000}, {"eval_loss": 0.05224674195051193, "eval_token_acc": 0.9785856273718451, "eval_runtime": 219.9296, "eval_samples_per_second": 2.41, "eval_steps_per_second": 2.41, "epoch": 4.0399420687552405, "step": 53000}, {"loss": 0.03864647448062897, "token_acc": 0.978709658473556, "grad_norm": 1.356574296951294, "learning_rate": 8.81761121263997e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231086, "epoch": 4.0403231953655006, "step": 53005}, {"loss": 0.010471545904874802, "token_acc": 0.9960604070912672, "grad_norm": 0.5915005207061768, "learning_rate": 8.810822232130528e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231094, "epoch": 4.040704321975761, "step": 53010}, {"loss": 0.03934223651885986, "token_acc": 0.9815262430939227, "grad_norm": 1.3761918544769287, "learning_rate": 8.804035613629292e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231099, "epoch": 4.041085448586021, "step": 53015}, {"loss": 0.033416959643363955, "token_acc": 0.9858726752503576, "grad_norm": 0.7884155511856079, "learning_rate": 8.797251357525455e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231103, "epoch": 4.041466575196281, "step": 53020}, {"loss": 0.04065491259098053, "token_acc": 0.9816585365853658, "grad_norm": 1.1501128673553467, "learning_rate": 8.790469464208035e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231108, "epoch": 4.04184770180654, "step": 53025}, {"loss": 0.04552753269672394, "token_acc": 0.9810536044362292, "grad_norm": 0.6345053911209106, "learning_rate": 8.783689934065952e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231112, "epoch": 4.0422288284168, "step": 53030}, {"loss": 0.017389115691184998, "token_acc": 0.9907949790794979, "grad_norm": 0.43020302057266235, "learning_rate": 8.776912767487999e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231119, "epoch": 4.04260995502706, "step": 53035}, {"loss": 0.02597871422767639, "token_acc": 0.9887359198998749, "grad_norm": 0.5120699405670166, "learning_rate": 8.77013796486279e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231122, "epoch": 4.04299108163732, "step": 53040}, {"loss": 0.024728354811668397, "token_acc": 0.9900629347466048, "grad_norm": 0.7692918181419373, "learning_rate": 8.763365526578837e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231127, "epoch": 4.04337220824758, "step": 53045}, {"loss": 0.032284015417099, "token_acc": 0.9880047505938242, "grad_norm": 0.658352255821228, "learning_rate": 8.756595453024518e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23113, "epoch": 4.04375333485784, "step": 53050}, {"loss": 0.02693096101284027, "token_acc": 0.9934608468203368, "grad_norm": 1.997514009475708, "learning_rate": 8.749827744588052e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231133, "epoch": 4.0441344614681, "step": 53055}, {"loss": 0.03569806218147278, "token_acc": 0.9873417721518988, "grad_norm": 3.6627326011657715, "learning_rate": 8.743062401657537e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231139, "epoch": 4.04451558807836, "step": 53060}, {"loss": 0.04225233793258667, "token_acc": 0.9857464366091523, "grad_norm": 1.630851149559021, "learning_rate": 8.736299424620947e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231145, "epoch": 4.04489671468862, "step": 53065}, {"loss": 0.026925182342529295, "token_acc": 0.9847694554558731, "grad_norm": 0.6519677639007568, "learning_rate": 8.729538813866089e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231151, "epoch": 4.04527784129888, "step": 53070}, {"loss": 0.05754987001419067, "token_acc": 0.9784200385356455, "grad_norm": 1.7253156900405884, "learning_rate": 8.722780569780664e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231155, "epoch": 4.045658967909139, "step": 53075}, {"loss": 0.023372572660446168, "token_acc": 0.9883981274170568, "grad_norm": 0.16876214742660522, "learning_rate": 8.716024692752233e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231159, "epoch": 4.046040094519399, "step": 53080}, {"loss": 0.026538684964179993, "token_acc": 0.9892844797787763, "grad_norm": 1.674110770225525, "learning_rate": 8.709271183168194e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231163, "epoch": 4.046421221129659, "step": 53085}, {"loss": 0.023627695441246033, "token_acc": 0.9928111056023797, "grad_norm": 1.0725077390670776, "learning_rate": 8.70252004141584e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231169, "epoch": 4.046802347739919, "step": 53090}, {"loss": 0.03949707746505737, "token_acc": 0.9871692060946271, "grad_norm": 1.0882399082183838, "learning_rate": 8.69577126788233e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231177, "epoch": 4.047183474350179, "step": 53095}, {"loss": 0.03811323642730713, "token_acc": 0.9849766443630855, "grad_norm": 0.6568900346755981, "learning_rate": 8.689024862954648e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231179, "epoch": 4.047564600960439, "step": 53100}, {"loss": 0.01258133351802826, "token_acc": 0.9931159420289855, "grad_norm": 0.9856979846954346, "learning_rate": 8.682280827019685e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231186, "epoch": 4.047945727570699, "step": 53105}, {"loss": 0.013389815390110017, "token_acc": 0.9936235098419739, "grad_norm": 0.5124707818031311, "learning_rate": 8.67553916046418e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231192, "epoch": 4.048326854180959, "step": 53110}, {"loss": 0.03569466471672058, "token_acc": 0.9864029666254636, "grad_norm": 0.8272969126701355, "learning_rate": 8.668799863674737e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231197, "epoch": 4.048707980791219, "step": 53115}, {"loss": 0.022727158665657044, "token_acc": 0.9920264488525865, "grad_norm": 1.3075565099716187, "learning_rate": 8.662062937037829e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231203, "epoch": 4.049089107401479, "step": 53120}, {"loss": 0.027509018778800964, "token_acc": 0.9894255050505051, "grad_norm": 0.5649165511131287, "learning_rate": 8.65532838093977e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231208, "epoch": 4.049470234011738, "step": 53125}, {"loss": 0.028896409273147582, "token_acc": 0.9861337683523654, "grad_norm": 0.6870656609535217, "learning_rate": 8.648596195766768e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231209, "epoch": 4.049851360621998, "step": 53130}, {"loss": 0.047933027148246765, "token_acc": 0.9862548384548543, "grad_norm": 0.6646307706832886, "learning_rate": 8.641866381904889e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231204, "epoch": 4.050232487232258, "step": 53135}, {"loss": 0.04202830195426941, "token_acc": 0.9820998278829605, "grad_norm": 1.2498652935028076, "learning_rate": 8.63513893974004e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231209, "epoch": 4.050613613842518, "step": 53140}, {"loss": 0.03059517443180084, "token_acc": 0.9900693273374555, "grad_norm": 1.074800729751587, "learning_rate": 8.628413869658015e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231213, "epoch": 4.050994740452778, "step": 53145}, {"loss": 0.03114011287689209, "token_acc": 0.9886008457437029, "grad_norm": 0.8095026016235352, "learning_rate": 8.621691172044477e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231218, "epoch": 4.051375867063038, "step": 53150}, {"loss": 0.03933379054069519, "token_acc": 0.9846775316896503, "grad_norm": 2.2080652713775635, "learning_rate": 8.61497084728492e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231221, "epoch": 4.0517569936732984, "step": 53155}, {"loss": 0.03951936364173889, "token_acc": 0.9870598218073823, "grad_norm": 2.1587748527526855, "learning_rate": 8.608252895764746e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231225, "epoch": 4.0521381202835585, "step": 53160}, {"loss": 0.021104463934898378, "token_acc": 0.988896442329481, "grad_norm": 0.42987459897994995, "learning_rate": 8.60153731786918e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23123, "epoch": 4.0525192468938185, "step": 53165}, {"loss": 0.025954097509384155, "token_acc": 0.9878072013716899, "grad_norm": 0.5726818442344666, "learning_rate": 8.59482411398333e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231234, "epoch": 4.0529003735040785, "step": 53170}, {"loss": 0.04424841105937958, "token_acc": 0.9875248086192231, "grad_norm": 2.883495330810547, "learning_rate": 8.588113284492189e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23124, "epoch": 4.053281500114338, "step": 53175}, {"loss": 0.04005302786827088, "token_acc": 0.9822064056939501, "grad_norm": 1.4618080854415894, "learning_rate": 8.581404829780565e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231246, "epoch": 4.053662626724598, "step": 53180}, {"loss": 0.03989262580871582, "token_acc": 0.9827988957315779, "grad_norm": 1.9108951091766357, "learning_rate": 8.574698750233167e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23125, "epoch": 4.054043753334858, "step": 53185}, {"loss": 0.030484318733215332, "token_acc": 0.989200579481101, "grad_norm": 1.3731409311294556, "learning_rate": 8.567995046234573e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231253, "epoch": 4.054424879945118, "step": 53190}, {"loss": 0.044208687543869016, "token_acc": 0.9897214360196633, "grad_norm": 0.591969907283783, "learning_rate": 8.561293718169178e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231257, "epoch": 4.054806006555378, "step": 53195}, {"loss": 0.03007746934890747, "token_acc": 0.9892086330935251, "grad_norm": 0.8106030225753784, "learning_rate": 8.554594766421292e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231262, "epoch": 4.055187133165638, "step": 53200}, {"eval_loss": 0.05240277573466301, "eval_token_acc": 0.9788868140473466, "eval_runtime": 218.1698, "eval_samples_per_second": 2.429, "eval_steps_per_second": 2.429, "epoch": 4.055187133165638, "step": 53200}, {"loss": 0.03104727864265442, "token_acc": 0.9790889326321356, "grad_norm": 1.2380765676498413, "learning_rate": 8.547898191375081e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231049, "epoch": 4.055568259775898, "step": 53205}, {"loss": 0.03162429332733154, "token_acc": 0.9813278008298755, "grad_norm": 0.8753826022148132, "learning_rate": 8.541203993414532e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231057, "epoch": 4.055949386386158, "step": 53210}, {"loss": 0.03210289180278778, "token_acc": 0.9890025575447571, "grad_norm": 2.360689401626587, "learning_rate": 8.534512172923542e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231063, "epoch": 4.056330512996418, "step": 53215}, {"loss": 0.016955195367336272, "token_acc": 0.9931192660550459, "grad_norm": 0.8924784064292908, "learning_rate": 8.527822730285868e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23107, "epoch": 4.056711639606677, "step": 53220}, {"loss": 0.06728230714797974, "token_acc": 0.981806506849315, "grad_norm": 0.5738916993141174, "learning_rate": 8.521135665885093e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231074, "epoch": 4.057092766216937, "step": 53225}, {"loss": 0.03531339764595032, "token_acc": 0.9840168243953733, "grad_norm": 1.5071732997894287, "learning_rate": 8.514450980104704e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23108, "epoch": 4.057473892827197, "step": 53230}, {"loss": 0.041410624980926514, "token_acc": 0.9856072555205048, "grad_norm": 1.4378939867019653, "learning_rate": 8.507768673328043e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231085, "epoch": 4.057855019437457, "step": 53235}, {"loss": 0.044384732842445374, "token_acc": 0.9866817795409465, "grad_norm": 1.4626617431640625, "learning_rate": 8.501088745938279e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231091, "epoch": 4.058236146047717, "step": 53240}, {"loss": 0.023798835277557374, "token_acc": 0.9924912397797431, "grad_norm": 0.7525442242622375, "learning_rate": 8.494411198318526e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231094, "epoch": 4.058617272657977, "step": 53245}, {"loss": 0.031070145964622497, "token_acc": 0.9906524227394125, "grad_norm": 0.5148133635520935, "learning_rate": 8.487736030851663e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2311, "epoch": 4.058998399268237, "step": 53250}, {"loss": 0.04555312395095825, "token_acc": 0.9835575485799701, "grad_norm": 0.7038024067878723, "learning_rate": 8.481063243920501e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231103, "epoch": 4.059379525878497, "step": 53255}, {"loss": 0.02903330624103546, "token_acc": 0.9904717275851297, "grad_norm": 1.9048726558685303, "learning_rate": 8.474392837907702e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231108, "epoch": 4.059760652488757, "step": 53260}, {"loss": 0.03546475172042847, "token_acc": 0.98701504354711, "grad_norm": 0.6985657215118408, "learning_rate": 8.467724813195759e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23111, "epoch": 4.060141779099017, "step": 53265}, {"loss": 0.033675378561019896, "token_acc": 0.9856874706710465, "grad_norm": 1.0427576303482056, "learning_rate": 8.461059170167068e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231116, "epoch": 4.060522905709276, "step": 53270}, {"loss": 0.032632702589035036, "token_acc": 0.9883374689826303, "grad_norm": 0.665774405002594, "learning_rate": 8.454395909203878e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231119, "epoch": 4.060904032319536, "step": 53275}, {"loss": 0.03675309419631958, "token_acc": 0.9826580724370779, "grad_norm": 1.0452651977539062, "learning_rate": 8.447735030688276e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231122, "epoch": 4.061285158929796, "step": 53280}, {"loss": 0.023718342185020447, "token_acc": 0.9897844948222781, "grad_norm": 0.8064104318618774, "learning_rate": 8.441076535002241e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231126, "epoch": 4.061666285540056, "step": 53285}, {"loss": 0.02847830057144165, "token_acc": 0.9829692706405035, "grad_norm": 1.2988775968551636, "learning_rate": 8.434420422527629e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231133, "epoch": 4.062047412150316, "step": 53290}, {"loss": 0.049191564321517944, "token_acc": 0.9882489241972857, "grad_norm": 0.4753057360649109, "learning_rate": 8.4277666936461e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231136, "epoch": 4.062428538760576, "step": 53295}, {"loss": 0.02386294901371002, "token_acc": 0.9875717017208413, "grad_norm": 0.5510156750679016, "learning_rate": 8.421115348739234e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23114, "epoch": 4.062809665370836, "step": 53300}, {"loss": 0.019723328948020934, "token_acc": 0.9934691745036572, "grad_norm": 2.717634677886963, "learning_rate": 8.414466388188463e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231145, "epoch": 4.063190791981096, "step": 53305}, {"loss": 0.018288759887218474, "token_acc": 0.9907114991640349, "grad_norm": 0.6676408052444458, "learning_rate": 8.407819812375056e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231149, "epoch": 4.063571918591356, "step": 53310}, {"loss": 0.05622974634170532, "token_acc": 0.9844789356984479, "grad_norm": 1.963147521018982, "learning_rate": 8.401175621680169e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231154, "epoch": 4.063953045201616, "step": 53315}, {"loss": 0.018751341104507446, "token_acc": 0.9933895921237693, "grad_norm": 0.5998033881187439, "learning_rate": 8.394533816484829e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231157, "epoch": 4.0643341718118755, "step": 53320}, {"loss": 0.026675844192504884, "token_acc": 0.988036047234307, "grad_norm": 0.8937817215919495, "learning_rate": 8.387894397169893e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231161, "epoch": 4.0647152984221355, "step": 53325}, {"loss": 0.029454955458641054, "token_acc": 0.9879072892173328, "grad_norm": 1.4597535133361816, "learning_rate": 8.381257364116108e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231168, "epoch": 4.0650964250323955, "step": 53330}, {"loss": 0.022602570056915284, "token_acc": 0.99, "grad_norm": 0.5223109126091003, "learning_rate": 8.374622717704089e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231175, "epoch": 4.065477551642656, "step": 53335}, {"loss": 0.03715379238128662, "token_acc": 0.9838964319545311, "grad_norm": 0.717375636100769, "learning_rate": 8.367990458314284e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231182, "epoch": 4.065858678252916, "step": 53340}, {"loss": 0.04933002591133118, "token_acc": 0.985711410746629, "grad_norm": 0.6229118704795837, "learning_rate": 8.361360586327038e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231187, "epoch": 4.066239804863176, "step": 53345}, {"loss": 0.03992566764354706, "token_acc": 0.982779827798278, "grad_norm": 1.1808123588562012, "learning_rate": 8.354733102122526e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231195, "epoch": 4.066620931473436, "step": 53350}, {"loss": 0.02659507393836975, "token_acc": 0.992021834977955, "grad_norm": 3.0427260398864746, "learning_rate": 8.348108006080813e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2312, "epoch": 4.067002058083696, "step": 53355}, {"loss": 0.027014097571372984, "token_acc": 0.9877400295420975, "grad_norm": 0.9793557524681091, "learning_rate": 8.341485298581825e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231202, "epoch": 4.067383184693956, "step": 53360}, {"loss": 0.03523969948291779, "token_acc": 0.9872296952153925, "grad_norm": 0.8872125744819641, "learning_rate": 8.33486498000533e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231206, "epoch": 4.067764311304216, "step": 53365}, {"loss": 0.036752229928970336, "token_acc": 0.9873129472999349, "grad_norm": 1.3278154134750366, "learning_rate": 8.328247050730975e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231213, "epoch": 4.068145437914475, "step": 53370}, {"loss": 0.03112640678882599, "token_acc": 0.9854912474373128, "grad_norm": 1.6728018522262573, "learning_rate": 8.321631511138273e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231216, "epoch": 4.068526564524735, "step": 53375}, {"loss": 0.01882137656211853, "token_acc": 0.9873392282958199, "grad_norm": 0.9841048717498779, "learning_rate": 8.315018361606592e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23122, "epoch": 4.068907691134995, "step": 53380}, {"loss": 0.02473374754190445, "token_acc": 0.9876850207223209, "grad_norm": 0.26417994499206543, "learning_rate": 8.308407602515178e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231223, "epoch": 4.069288817745255, "step": 53385}, {"loss": 0.031085497140884398, "token_acc": 0.989125142022399, "grad_norm": 0.7888450622558594, "learning_rate": 8.301799234243102e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231225, "epoch": 4.069669944355515, "step": 53390}, {"loss": 0.03586641550064087, "token_acc": 0.9869653767820774, "grad_norm": 1.1668246984481812, "learning_rate": 8.295193257169337e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231228, "epoch": 4.070051070965775, "step": 53395}, {"loss": 0.03670423328876495, "token_acc": 0.9897619047619047, "grad_norm": 1.795162320137024, "learning_rate": 8.288589671672714e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231233, "epoch": 4.070432197576035, "step": 53400}, {"eval_loss": 0.053026169538497925, "eval_token_acc": 0.9788341063791338, "eval_runtime": 219.5226, "eval_samples_per_second": 2.414, "eval_steps_per_second": 2.414, "epoch": 4.070432197576035, "step": 53400}, {"loss": 0.02527101933956146, "token_acc": 0.9795536672124668, "grad_norm": 0.8011142611503601, "learning_rate": 8.281988478131903e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231015, "epoch": 4.070813324186295, "step": 53405}, {"loss": 0.054383504390716556, "token_acc": 0.9824312836497592, "grad_norm": 0.6893752217292786, "learning_rate": 8.275389676925455e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23102, "epoch": 4.071194450796555, "step": 53410}, {"loss": 0.020154780149459837, "token_acc": 0.9882842025699169, "grad_norm": 1.7618376016616821, "learning_rate": 8.268793268431795e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231026, "epoch": 4.071575577406815, "step": 53415}, {"loss": 0.04073074758052826, "token_acc": 0.9843470483005367, "grad_norm": 3.4751136302948, "learning_rate": 8.262199253029174e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231031, "epoch": 4.071956704017074, "step": 53420}, {"loss": 0.04213403463363648, "token_acc": 0.9883720930232558, "grad_norm": 0.5998041033744812, "learning_rate": 8.255607631095735e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231037, "epoch": 4.072337830627334, "step": 53425}, {"loss": 0.0281173437833786, "token_acc": 0.9862674470959027, "grad_norm": 0.7269887328147888, "learning_rate": 8.249018403009495e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231037, "epoch": 4.072718957237594, "step": 53430}, {"loss": 0.039331698417663576, "token_acc": 0.9856181860357226, "grad_norm": 0.6967656016349792, "learning_rate": 8.24243156914829e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231043, "epoch": 4.073100083847854, "step": 53435}, {"loss": 0.04511374831199646, "token_acc": 0.9866262482168331, "grad_norm": 0.882792592048645, "learning_rate": 8.235847129889851e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231047, "epoch": 4.073481210458114, "step": 53440}, {"loss": 0.03662592470645905, "token_acc": 0.9836501124054772, "grad_norm": 0.8683498501777649, "learning_rate": 8.229265085611787e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231051, "epoch": 4.073862337068374, "step": 53445}, {"loss": 0.032275530695915225, "token_acc": 0.984635761589404, "grad_norm": 0.8746306300163269, "learning_rate": 8.222685436691518e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231057, "epoch": 4.074243463678634, "step": 53450}, {"loss": 0.04014216065406799, "token_acc": 0.9790165324289953, "grad_norm": 1.040813684463501, "learning_rate": 8.216108183506365e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231062, "epoch": 4.074624590288894, "step": 53455}, {"loss": 0.030856555700302123, "token_acc": 0.9863238512035011, "grad_norm": 1.6044697761535645, "learning_rate": 8.209533326433527e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231067, "epoch": 4.075005716899154, "step": 53460}, {"loss": 0.02630636990070343, "token_acc": 0.9905540417801998, "grad_norm": 1.2756956815719604, "learning_rate": 8.20296086585e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231069, "epoch": 4.075386843509413, "step": 53465}, {"loss": 0.030326515436172485, "token_acc": 0.9841991341991342, "grad_norm": 0.7860857248306274, "learning_rate": 8.196390802132714e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231074, "epoch": 4.075767970119673, "step": 53470}, {"loss": 0.04276342391967773, "token_acc": 0.9858140549978176, "grad_norm": 1.081770658493042, "learning_rate": 8.189823135658425e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231079, "epoch": 4.076149096729933, "step": 53475}, {"loss": 0.021331661939620973, "token_acc": 0.9912241224122412, "grad_norm": 0.7403837442398071, "learning_rate": 8.18325786680375e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231085, "epoch": 4.076530223340193, "step": 53480}, {"loss": 0.038110336661338805, "token_acc": 0.9896237029628704, "grad_norm": 2.343557834625244, "learning_rate": 8.176694995945183e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231087, "epoch": 4.0769113499504535, "step": 53485}, {"loss": 0.013844710588455201, "token_acc": 0.9944289693593314, "grad_norm": 0.7029040455818176, "learning_rate": 8.170134523459088e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231093, "epoch": 4.0772924765607135, "step": 53490}, {"loss": 0.027145785093307496, "token_acc": 0.9883460331689825, "grad_norm": 0.7062538266181946, "learning_rate": 8.163576449721649e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231095, "epoch": 4.0776736031709735, "step": 53495}, {"loss": 0.036024004220962524, "token_acc": 0.988713607797871, "grad_norm": 1.0219961404800415, "learning_rate": 8.157020775108959e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231098, "epoch": 4.0780547297812335, "step": 53500}, {"loss": 0.03481810688972473, "token_acc": 0.9867382380802021, "grad_norm": 0.681365430355072, "learning_rate": 8.15046749999695e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231099, "epoch": 4.0784358563914935, "step": 53505}, {"loss": 0.03670762181282043, "token_acc": 0.9853900709219858, "grad_norm": 1.1691502332687378, "learning_rate": 8.143916624761421e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231102, "epoch": 4.0788169830017535, "step": 53510}, {"loss": 0.03153424859046936, "token_acc": 0.9891254049051366, "grad_norm": 0.7338285446166992, "learning_rate": 8.137368149778051e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231105, "epoch": 4.079198109612013, "step": 53515}, {"loss": 0.026994779706001282, "token_acc": 0.988280369619112, "grad_norm": 0.8982493877410889, "learning_rate": 8.130822075422345e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231111, "epoch": 4.079579236222273, "step": 53520}, {"loss": 0.03664886653423309, "token_acc": 0.988009592326139, "grad_norm": 0.738635241985321, "learning_rate": 8.12427840206969e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231116, "epoch": 4.079960362832533, "step": 53525}, {"loss": 0.04072945415973663, "token_acc": 0.9833752174753528, "grad_norm": 0.9056589007377625, "learning_rate": 8.11773713009536e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231121, "epoch": 4.080341489442793, "step": 53530}, {"loss": 0.03644640445709228, "token_acc": 0.9864948773672773, "grad_norm": 0.6400207877159119, "learning_rate": 8.11119825987443e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231124, "epoch": 4.080722616053053, "step": 53535}, {"loss": 0.03788108229637146, "token_acc": 0.9837526205450734, "grad_norm": 0.5714262127876282, "learning_rate": 8.104661791781892e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231129, "epoch": 4.081103742663313, "step": 53540}, {"loss": 0.039311110973358154, "token_acc": 0.9867713004484305, "grad_norm": 2.682532548904419, "learning_rate": 8.0981277261926e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231134, "epoch": 4.081484869273573, "step": 53545}, {"loss": 0.03971518576145172, "token_acc": 0.9803563270899954, "grad_norm": 1.2106550931930542, "learning_rate": 8.091596063481216e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231141, "epoch": 4.081865995883833, "step": 53550}, {"loss": 0.03414474725723267, "token_acc": 0.9856658848058379, "grad_norm": 0.41928523778915405, "learning_rate": 8.085066804022334e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231148, "epoch": 4.082247122494093, "step": 53555}, {"loss": 0.022182604670524596, "token_acc": 0.9910821884791516, "grad_norm": 0.8104530572891235, "learning_rate": 8.07853994819035e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231154, "epoch": 4.082628249104353, "step": 53560}, {"loss": 0.047208189964294434, "token_acc": 0.9860254829428688, "grad_norm": 0.5085285902023315, "learning_rate": 8.072015496359558e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231155, "epoch": 4.083009375714612, "step": 53565}, {"loss": 0.025645425915718077, "token_acc": 0.9909407665505227, "grad_norm": 1.3026195764541626, "learning_rate": 8.065493448904121e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231161, "epoch": 4.083390502324872, "step": 53570}, {"loss": 0.02001785933971405, "token_acc": 0.9914122137404581, "grad_norm": 2.5795958042144775, "learning_rate": 8.058973806198027e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231168, "epoch": 4.083771628935132, "step": 53575}, {"loss": 0.06772407293319702, "token_acc": 0.9761285748050106, "grad_norm": 0.7809562683105469, "learning_rate": 8.052456568615151e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231174, "epoch": 4.084152755545392, "step": 53580}, {"loss": 0.02488071918487549, "token_acc": 0.9893731711073463, "grad_norm": 0.7935867309570312, "learning_rate": 8.045941736529245e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231177, "epoch": 4.084533882155652, "step": 53585}, {"loss": 0.028624522686004638, "token_acc": 0.9886768036234228, "grad_norm": 0.675284206867218, "learning_rate": 8.039429310313873e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231181, "epoch": 4.084915008765912, "step": 53590}, {"loss": 0.015855300426483154, "token_acc": 0.9930579072130037, "grad_norm": 1.3259645700454712, "learning_rate": 8.03291929034251e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231185, "epoch": 4.085296135376172, "step": 53595}, {"loss": 0.02930956780910492, "token_acc": 0.9882024216081962, "grad_norm": 0.9246994853019714, "learning_rate": 8.026411676988493e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231185, "epoch": 4.085677261986432, "step": 53600}, {"eval_loss": 0.05279500037431717, "eval_token_acc": 0.9790072887175472, "eval_runtime": 218.6534, "eval_samples_per_second": 2.424, "eval_steps_per_second": 2.424, "epoch": 4.085677261986432, "step": 53600}, {"loss": 0.02873707711696625, "token_acc": 0.9795518445940189, "grad_norm": 0.694756805896759, "learning_rate": 8.019906470624966e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230971, "epoch": 4.086058388596692, "step": 53605}, {"loss": 0.028007540106773376, "token_acc": 0.9897056167599784, "grad_norm": 1.1546965837478638, "learning_rate": 8.013403671624997e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230975, "epoch": 4.086439515206952, "step": 53610}, {"loss": 0.02544459104537964, "token_acc": 0.9903123192596877, "grad_norm": 0.9607802033424377, "learning_rate": 8.006903280361495e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230977, "epoch": 4.086820641817211, "step": 53615}, {"loss": 0.016901905834674835, "token_acc": 0.9903753609239654, "grad_norm": 1.1476333141326904, "learning_rate": 8.000405297207203e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230983, "epoch": 4.087201768427471, "step": 53620}, {"loss": 0.05038233995437622, "token_acc": 0.9853039412157648, "grad_norm": 1.364572286605835, "learning_rate": 7.99390972253477e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23099, "epoch": 4.087582895037731, "step": 53625}, {"loss": 0.04407536685466766, "token_acc": 0.9785977859778597, "grad_norm": 0.8113613128662109, "learning_rate": 7.987416556716692e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230996, "epoch": 4.087964021647991, "step": 53630}, {"loss": 0.03821252584457398, "token_acc": 0.9838220424671386, "grad_norm": 0.12593957781791687, "learning_rate": 7.9809258001253e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231001, "epoch": 4.088345148258251, "step": 53635}, {"loss": 0.03481042981147766, "token_acc": 0.979050279329609, "grad_norm": 0.7749133706092834, "learning_rate": 7.974437453132822e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231008, "epoch": 4.088726274868511, "step": 53640}, {"loss": 0.03387185335159302, "token_acc": 0.9784817692767483, "grad_norm": 1.2731785774230957, "learning_rate": 7.967951516111332e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231015, "epoch": 4.089107401478771, "step": 53645}, {"loss": 0.036557677388191226, "token_acc": 0.9780168381665107, "grad_norm": 0.22433635592460632, "learning_rate": 7.961467989432775e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231023, "epoch": 4.089488528089031, "step": 53650}, {"loss": 0.03944132328033447, "token_acc": 0.9828466408004901, "grad_norm": 0.7858422994613647, "learning_rate": 7.954986873468957e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231027, "epoch": 4.089869654699291, "step": 53655}, {"loss": 0.051181286573410034, "token_acc": 0.9790314528207689, "grad_norm": 0.6636209487915039, "learning_rate": 7.948508168591512e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23103, "epoch": 4.090250781309551, "step": 53660}, {"loss": 0.03244549036026001, "token_acc": 0.9906331959535406, "grad_norm": 0.7979147434234619, "learning_rate": 7.942031875171984e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231036, "epoch": 4.090631907919811, "step": 53665}, {"loss": 0.03304027318954468, "token_acc": 0.9861469828598263, "grad_norm": 1.002500295639038, "learning_rate": 7.935557993581766e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231042, "epoch": 4.091013034530071, "step": 53670}, {"loss": 0.03809280395507812, "token_acc": 0.9895370128171593, "grad_norm": 1.3841630220413208, "learning_rate": 7.929086524192086e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231049, "epoch": 4.091394161140331, "step": 53675}, {"loss": 0.036685997247695924, "token_acc": 0.9858712715855573, "grad_norm": 1.7976726293563843, "learning_rate": 7.922617467374055e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231054, "epoch": 4.091775287750591, "step": 53680}, {"loss": 0.018627819418907166, "token_acc": 0.9936672423719056, "grad_norm": 0.43824440240859985, "learning_rate": 7.916150823498664e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23106, "epoch": 4.092156414360851, "step": 53685}, {"loss": 0.026407596468925477, "token_acc": 0.9893559444344218, "grad_norm": 0.527538537979126, "learning_rate": 7.909686592936722e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231065, "epoch": 4.092537540971111, "step": 53690}, {"loss": 0.03354440033435822, "token_acc": 0.9902272727272727, "grad_norm": 0.6890683770179749, "learning_rate": 7.903224776058926e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23107, "epoch": 4.092918667581371, "step": 53695}, {"loss": 0.036010253429412845, "token_acc": 0.9846342962507683, "grad_norm": 1.2874864339828491, "learning_rate": 7.896765373235854e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231075, "epoch": 4.093299794191631, "step": 53700}, {"loss": 0.031852534413337706, "token_acc": 0.9921341337197268, "grad_norm": 7.508488178253174, "learning_rate": 7.890308384837886e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23108, "epoch": 4.093680920801891, "step": 53705}, {"loss": 0.03546325266361237, "token_acc": 0.9867848025229013, "grad_norm": 0.7551389932632446, "learning_rate": 7.88385381123532e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231082, "epoch": 4.094062047412151, "step": 53710}, {"loss": 0.053396481275558474, "token_acc": 0.9789336801040313, "grad_norm": 1.030689001083374, "learning_rate": 7.87740165279831e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231088, "epoch": 4.09444317402241, "step": 53715}, {"loss": 0.027251020073890686, "token_acc": 0.9860637968411273, "grad_norm": 0.4042191207408905, "learning_rate": 7.870951909896835e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231094, "epoch": 4.09482430063267, "step": 53720}, {"loss": 0.03986426293849945, "token_acc": 0.9886334933063905, "grad_norm": 0.8790942430496216, "learning_rate": 7.864504582900768e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2311, "epoch": 4.09520542724293, "step": 53725}, {"loss": 0.030221787095069886, "token_acc": 0.9846534653465346, "grad_norm": 1.1553378105163574, "learning_rate": 7.858059672179824e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231106, "epoch": 4.09558655385319, "step": 53730}, {"loss": 0.018299080431461334, "token_acc": 0.991754336081888, "grad_norm": 0.5655634999275208, "learning_rate": 7.851617178103593e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231113, "epoch": 4.09596768046345, "step": 53735}, {"loss": 0.04715578556060791, "token_acc": 0.9852231604342582, "grad_norm": 2.504856824874878, "learning_rate": 7.84517710104154e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231119, "epoch": 4.09634880707371, "step": 53740}, {"loss": 0.026138490438461302, "token_acc": 0.9893428063943162, "grad_norm": 1.7584342956542969, "learning_rate": 7.838739441362941e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231126, "epoch": 4.09672993368397, "step": 53745}, {"loss": 0.025195032358169556, "token_acc": 0.9902516436182272, "grad_norm": 1.1171385049819946, "learning_rate": 7.832304199436984e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231131, "epoch": 4.09711106029423, "step": 53750}, {"loss": 0.05708370804786682, "token_acc": 0.9770830573585906, "grad_norm": 1.6106984615325928, "learning_rate": 7.825871375632715e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231133, "epoch": 4.09749218690449, "step": 53755}, {"loss": 0.043789854645729064, "token_acc": 0.9802110817941952, "grad_norm": 1.3594685792922974, "learning_rate": 7.819440970318997e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23114, "epoch": 4.09787331351475, "step": 53760}, {"loss": 0.024878399074077608, "token_acc": 0.9892294946147473, "grad_norm": 0.8795149922370911, "learning_rate": 7.813012983864598e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231145, "epoch": 4.098254440125009, "step": 53765}, {"loss": 0.0688150703907013, "token_acc": 0.9755425979915776, "grad_norm": 0.6909263730049133, "learning_rate": 7.80658741663814e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231149, "epoch": 4.098635566735269, "step": 53770}, {"loss": 0.04026476740837097, "token_acc": 0.9861405197305101, "grad_norm": 0.6710997223854065, "learning_rate": 7.800164269008076e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231154, "epoch": 4.099016693345529, "step": 53775}, {"loss": 0.03635070323944092, "token_acc": 0.9841129744042365, "grad_norm": 1.270875096321106, "learning_rate": 7.793743541342779e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23116, "epoch": 4.099397819955789, "step": 53780}, {"loss": 0.028926479816436767, "token_acc": 0.9853892715508245, "grad_norm": 0.5816462635993958, "learning_rate": 7.787325234010418e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231164, "epoch": 4.099778946566049, "step": 53785}, {"loss": 0.03998096585273743, "token_acc": 0.983073798239675, "grad_norm": 1.7469606399536133, "learning_rate": 7.780909347379062e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231169, "epoch": 4.100160073176309, "step": 53790}, {"loss": 0.03090856075286865, "token_acc": 0.9904015141273489, "grad_norm": 1.1025497913360596, "learning_rate": 7.774495881816651e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231172, "epoch": 4.100541199786569, "step": 53795}, {"loss": 0.04579300284385681, "token_acc": 0.9818616703209089, "grad_norm": 1.6296333074569702, "learning_rate": 7.768084837690937e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231176, "epoch": 4.100922326396829, "step": 53800}, {"eval_loss": 0.05166026949882507, "eval_token_acc": 0.9789846997168845, "eval_runtime": 218.5188, "eval_samples_per_second": 2.425, "eval_steps_per_second": 2.425, "epoch": 4.100922326396829, "step": 53800}, {"loss": 0.04452953338623047, "token_acc": 0.9790921132553221, "grad_norm": 1.020552396774292, "learning_rate": 7.761676215369574e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230965, "epoch": 4.101303453007089, "step": 53805}, {"loss": 0.047821244597434996, "token_acc": 0.9867411025819958, "grad_norm": 1.2697105407714844, "learning_rate": 7.755270015220084e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230972, "epoch": 4.1016845796173484, "step": 53810}, {"loss": 0.030826157331466673, "token_acc": 0.9866425992779784, "grad_norm": 0.7875304818153381, "learning_rate": 7.74886623760981e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230975, "epoch": 4.1020657062276085, "step": 53815}, {"loss": 0.025532180070877077, "token_acc": 0.9876095497129042, "grad_norm": 0.8725568056106567, "learning_rate": 7.742464882905986e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230979, "epoch": 4.1024468328378685, "step": 53820}, {"loss": 0.03532339334487915, "token_acc": 0.9861145549218944, "grad_norm": 1.5663493871688843, "learning_rate": 7.736065951475718e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230984, "epoch": 4.1028279594481285, "step": 53825}, {"loss": 0.0271576851606369, "token_acc": 0.9888327979195349, "grad_norm": 1.0225768089294434, "learning_rate": 7.729669443685922e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230988, "epoch": 4.1032090860583885, "step": 53830}, {"loss": 0.029180806875228883, "token_acc": 0.9884551116512228, "grad_norm": 2.8433539867401123, "learning_rate": 7.723275359903426e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230992, "epoch": 4.1035902126686485, "step": 53835}, {"loss": 0.06217254996299744, "token_acc": 0.9817637840148169, "grad_norm": 0.8787396550178528, "learning_rate": 7.716883700494915e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230995, "epoch": 4.103971339278909, "step": 53840}, {"loss": 0.04986308217048645, "token_acc": 0.9843357184297041, "grad_norm": 3.0368027687072754, "learning_rate": 7.71049446582689e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231, "epoch": 4.104352465889169, "step": 53845}, {"loss": 0.03122726082801819, "token_acc": 0.9921457744266415, "grad_norm": 1.3620330095291138, "learning_rate": 7.704107656265763e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231006, "epoch": 4.104733592499429, "step": 53850}, {"loss": 0.04136313199996948, "token_acc": 0.9860292512551845, "grad_norm": 0.9558029770851135, "learning_rate": 7.697723272177799e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231012, "epoch": 4.105114719109689, "step": 53855}, {"loss": 0.035866305232048035, "token_acc": 0.9869125520523498, "grad_norm": 1.2579799890518188, "learning_rate": 7.69134131392908e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231015, "epoch": 4.105495845719948, "step": 53860}, {"loss": 0.026746928691864014, "token_acc": 0.9867509172441908, "grad_norm": 0.9869985580444336, "learning_rate": 7.684961781885602e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23102, "epoch": 4.105876972330208, "step": 53865}, {"loss": 0.029116681218147276, "token_acc": 0.9880917377241988, "grad_norm": 0.5660719275474548, "learning_rate": 7.67858467641322e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231023, "epoch": 4.106258098940468, "step": 53870}, {"loss": 0.03430209457874298, "token_acc": 0.9852783725910065, "grad_norm": 1.6719486713409424, "learning_rate": 7.672209997877588e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231028, "epoch": 4.106639225550728, "step": 53875}, {"loss": 0.02699875831604004, "token_acc": 0.9935691318327974, "grad_norm": 0.4053094983100891, "learning_rate": 7.665837746644295e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231035, "epoch": 4.107020352160988, "step": 53880}, {"loss": 0.01684492826461792, "token_acc": 0.9933802234174597, "grad_norm": 0.4183003008365631, "learning_rate": 7.659467923078767e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23104, "epoch": 4.107401478771248, "step": 53885}, {"loss": 0.046040239930152896, "token_acc": 0.9830028328611898, "grad_norm": 0.8496479988098145, "learning_rate": 7.653100527546253e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231043, "epoch": 4.107782605381508, "step": 53890}, {"loss": 0.023174448311328887, "token_acc": 0.9893882646691635, "grad_norm": 0.6237499117851257, "learning_rate": 7.646735560411923e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231048, "epoch": 4.108163731991768, "step": 53895}, {"loss": 0.016917130351066588, "token_acc": 0.9915094339622641, "grad_norm": 0.8521115183830261, "learning_rate": 7.640373022040753e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231056, "epoch": 4.108544858602028, "step": 53900}, {"loss": 0.0219974085688591, "token_acc": 0.9889088729016786, "grad_norm": 0.571546196937561, "learning_rate": 7.634012912797617e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231058, "epoch": 4.108925985212288, "step": 53905}, {"loss": 0.027530187368392946, "token_acc": 0.9872155458961902, "grad_norm": 0.8993967771530151, "learning_rate": 7.627655233047237e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231063, "epoch": 4.109307111822547, "step": 53910}, {"loss": 0.04079717993736267, "token_acc": 0.985969387755102, "grad_norm": 0.7479774951934814, "learning_rate": 7.621299983154201e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231065, "epoch": 4.109688238432807, "step": 53915}, {"loss": 0.02245510518550873, "token_acc": 0.9910504003768252, "grad_norm": 0.8657191395759583, "learning_rate": 7.614947163482949e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23107, "epoch": 4.110069365043067, "step": 53920}, {"loss": 0.031218892335891722, "token_acc": 0.9862454655380894, "grad_norm": 0.888566255569458, "learning_rate": 7.608596774397797e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231072, "epoch": 4.110450491653327, "step": 53925}, {"loss": 0.017646652460098267, "token_acc": 0.9916083916083916, "grad_norm": 1.1260439157485962, "learning_rate": 7.602248816262891e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231075, "epoch": 4.110831618263587, "step": 53930}, {"loss": 0.02998282015323639, "token_acc": 0.9886363636363636, "grad_norm": 0.44401630759239197, "learning_rate": 7.595903289442263e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231083, "epoch": 4.111212744873847, "step": 53935}, {"loss": 0.04052813947200775, "token_acc": 0.9829326923076923, "grad_norm": 1.7398289442062378, "learning_rate": 7.589560194299816e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231088, "epoch": 4.111593871484107, "step": 53940}, {"loss": 0.036061665415763854, "token_acc": 0.9877430262045647, "grad_norm": 0.6649186611175537, "learning_rate": 7.583219531199271e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231091, "epoch": 4.111974998094367, "step": 53945}, {"loss": 0.032847973704338077, "token_acc": 0.9886547811993517, "grad_norm": 2.760192632675171, "learning_rate": 7.576881300504257e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231097, "epoch": 4.112356124704627, "step": 53950}, {"loss": 0.03666276931762695, "token_acc": 0.9839968774395004, "grad_norm": 2.153844118118286, "learning_rate": 7.570545502578224e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231104, "epoch": 4.112737251314887, "step": 53955}, {"loss": 0.03232462704181671, "token_acc": 0.9875551987153753, "grad_norm": 1.1987278461456299, "learning_rate": 7.56421213778451e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231107, "epoch": 4.113118377925146, "step": 53960}, {"loss": 0.02597138285636902, "token_acc": 0.9885100537030098, "grad_norm": 0.6834537982940674, "learning_rate": 7.557881206486317e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231109, "epoch": 4.113499504535406, "step": 53965}, {"loss": 0.026524096727371216, "token_acc": 0.9906962785114045, "grad_norm": 1.0592851638793945, "learning_rate": 7.5515527090466666e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231115, "epoch": 4.113880631145666, "step": 53970}, {"loss": 0.032077175378799436, "token_acc": 0.9844182321246542, "grad_norm": 0.88997882604599, "learning_rate": 7.545226645828485e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231119, "epoch": 4.114261757755926, "step": 53975}, {"loss": 0.043998444080352785, "token_acc": 0.988351776354106, "grad_norm": 0.4282940626144409, "learning_rate": 7.538903017194548e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231122, "epoch": 4.114642884366186, "step": 53980}, {"loss": 0.055157136917114255, "token_acc": 0.9817813765182186, "grad_norm": 2.0474283695220947, "learning_rate": 7.532581823507473e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231127, "epoch": 4.115024010976446, "step": 53985}, {"loss": 0.04826726317405701, "token_acc": 0.9766847652507186, "grad_norm": 1.3407340049743652, "learning_rate": 7.526263065129757e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231134, "epoch": 4.1154051375867065, "step": 53990}, {"loss": 0.03424661159515381, "token_acc": 0.9889994761655317, "grad_norm": 1.2001365423202515, "learning_rate": 7.519946742423761e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23114, "epoch": 4.1157862641969665, "step": 53995}, {"loss": 0.03057123124599457, "token_acc": 0.9875996457041629, "grad_norm": 1.344584345817566, "learning_rate": 7.513632855751679e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231146, "epoch": 4.1161673908072265, "step": 54000}, {"eval_loss": 0.05280463770031929, "eval_token_acc": 0.9787286910427083, "eval_runtime": 195.5238, "eval_samples_per_second": 2.711, "eval_steps_per_second": 2.711, "epoch": 4.1161673908072265, "step": 54000}, {"loss": 0.02602834105491638, "token_acc": 0.9791785572372936, "grad_norm": 1.1232130527496338, "learning_rate": 7.507321405475593e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230956, "epoch": 4.1165485174174865, "step": 54005}, {"loss": 0.03814407587051392, "token_acc": 0.9869550858652576, "grad_norm": 1.1146057844161987, "learning_rate": 7.501012391957446e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230961, "epoch": 4.116929644027746, "step": 54010}, {"loss": 0.048566070199012754, "token_acc": 0.9827439646378783, "grad_norm": 0.8726955652236938, "learning_rate": 7.494705815559005e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230963, "epoch": 4.117310770638006, "step": 54015}, {"loss": 0.03790769577026367, "token_acc": 0.98385934572705, "grad_norm": 1.1162950992584229, "learning_rate": 7.488401676641937e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230965, "epoch": 4.117691897248266, "step": 54020}, {"loss": 0.024767863750457763, "token_acc": 0.991093326448948, "grad_norm": 0.887414813041687, "learning_rate": 7.482099975567763e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230968, "epoch": 4.118073023858526, "step": 54025}, {"loss": 0.03337015509605408, "token_acc": 0.9882667286245354, "grad_norm": 1.1256111860275269, "learning_rate": 7.475800712697845e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23097, "epoch": 4.118454150468786, "step": 54030}, {"loss": 0.019051040709018707, "token_acc": 0.9912795871151451, "grad_norm": 0.9180206656455994, "learning_rate": 7.4695038883934145e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230975, "epoch": 4.118835277079046, "step": 54035}, {"loss": 0.049337157607078554, "token_acc": 0.9833729216152018, "grad_norm": 1.0820484161376953, "learning_rate": 7.463209503015567e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230981, "epoch": 4.119216403689306, "step": 54040}, {"loss": 0.021539323031902313, "token_acc": 0.9906485671191554, "grad_norm": 0.7786101698875427, "learning_rate": 7.4569175569252635e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230987, "epoch": 4.119597530299566, "step": 54045}, {"loss": 0.02544601559638977, "token_acc": 0.9887024991441288, "grad_norm": 2.0482399463653564, "learning_rate": 7.450628050483327e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230994, "epoch": 4.119978656909826, "step": 54050}, {"loss": 0.031000304222106933, "token_acc": 0.9897552646556631, "grad_norm": 0.7718355059623718, "learning_rate": 7.444340984050407e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231001, "epoch": 4.120359783520086, "step": 54055}, {"loss": 0.024207308888435364, "token_acc": 0.9922547332185886, "grad_norm": 0.9473495483398438, "learning_rate": 7.438056357987044e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231007, "epoch": 4.120740910130345, "step": 54060}, {"loss": 0.042241919040679934, "token_acc": 0.9837784696051123, "grad_norm": 0.958797037601471, "learning_rate": 7.431774172653655e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231013, "epoch": 4.121122036740605, "step": 54065}, {"loss": 0.043928790092468264, "token_acc": 0.9849296718017415, "grad_norm": 0.6725132465362549, "learning_rate": 7.425494428410462e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231013, "epoch": 4.121503163350865, "step": 54070}, {"loss": 0.022415055334568022, "token_acc": 0.9887420460107684, "grad_norm": 1.009594202041626, "learning_rate": 7.419217125617595e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231021, "epoch": 4.121884289961125, "step": 54075}, {"loss": 0.04991730749607086, "token_acc": 0.974937343358396, "grad_norm": 1.5367140769958496, "learning_rate": 7.4129422646350365e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231027, "epoch": 4.122265416571385, "step": 54080}, {"loss": 0.0196261391043663, "token_acc": 0.991674595623216, "grad_norm": 0.8611154556274414, "learning_rate": 7.406669845822606e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231032, "epoch": 4.122646543181645, "step": 54085}, {"loss": 0.028351446986198424, "token_acc": 0.9905350589144292, "grad_norm": 0.6574738621711731, "learning_rate": 7.4003998695399926e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231038, "epoch": 4.123027669791905, "step": 54090}, {"loss": 0.044778579473495485, "token_acc": 0.9848731294729993, "grad_norm": 1.796790361404419, "learning_rate": 7.39413233614678e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231043, "epoch": 4.123408796402165, "step": 54095}, {"loss": 0.05924106240272522, "token_acc": 0.9868727503705272, "grad_norm": 0.4545847773551941, "learning_rate": 7.387867246002345e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231049, "epoch": 4.123789923012425, "step": 54100}, {"loss": 0.0516531229019165, "token_acc": 0.9864066193853428, "grad_norm": 2.6126229763031006, "learning_rate": 7.381604599465986e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231055, "epoch": 4.124171049622685, "step": 54105}, {"loss": 0.0358661025762558, "token_acc": 0.9854935351624093, "grad_norm": 1.7979004383087158, "learning_rate": 7.375344396896833e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231063, "epoch": 4.124552176232944, "step": 54110}, {"loss": 0.016060033440589906, "token_acc": 0.9943490054249547, "grad_norm": 0.5016605854034424, "learning_rate": 7.369086638653872e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231068, "epoch": 4.124933302843204, "step": 54115}, {"loss": 0.03062770962715149, "token_acc": 0.9860043063672717, "grad_norm": 0.6997796893119812, "learning_rate": 7.362831325095971e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231072, "epoch": 4.125314429453464, "step": 54120}, {"loss": 0.04019281566143036, "token_acc": 0.9855960772295433, "grad_norm": 1.515255331993103, "learning_rate": 7.356578456581814e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231078, "epoch": 4.125695556063724, "step": 54125}, {"loss": 0.023660190403461456, "token_acc": 0.9901048589573179, "grad_norm": 0.49438560009002686, "learning_rate": 7.35032803347e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231082, "epoch": 4.126076682673984, "step": 54130}, {"loss": 0.032107359170913695, "token_acc": 0.987489574645538, "grad_norm": 0.9157177805900574, "learning_rate": 7.344080056118963e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231088, "epoch": 4.126457809284244, "step": 54135}, {"loss": 0.04277883172035217, "token_acc": 0.9780693533270853, "grad_norm": 0.9151263236999512, "learning_rate": 7.337834524886977e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231095, "epoch": 4.126838935894504, "step": 54140}, {"loss": 0.029391607642173766, "token_acc": 0.9881470730527334, "grad_norm": 0.6187189221382141, "learning_rate": 7.331591440132207e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231098, "epoch": 4.127220062504764, "step": 54145}, {"loss": 0.04067699313163757, "token_acc": 0.9811373092926491, "grad_norm": 1.037352204322815, "learning_rate": 7.325350802212672e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231106, "epoch": 4.127601189115024, "step": 54150}, {"loss": 0.046956110000610354, "token_acc": 0.9811616954474097, "grad_norm": 1.283240556716919, "learning_rate": 7.319112611486217e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23111, "epoch": 4.1279823157252835, "step": 54155}, {"loss": 0.046372953057289126, "token_acc": 0.9832912988650694, "grad_norm": 1.8908188343048096, "learning_rate": 7.312876868310597e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231117, "epoch": 4.1283634423355435, "step": 54160}, {"loss": 0.02255253493785858, "token_acc": 0.9904327027614699, "grad_norm": 1.1729605197906494, "learning_rate": 7.306643573043409e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231122, "epoch": 4.1287445689458036, "step": 54165}, {"loss": 0.049557891488075254, "token_acc": 0.980883735506111, "grad_norm": 1.2502931356430054, "learning_rate": 7.3004127260420715e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231127, "epoch": 4.129125695556064, "step": 54170}, {"loss": 0.025493612885475157, "token_acc": 0.9853202846975089, "grad_norm": 1.143985390663147, "learning_rate": 7.294184327663922e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231132, "epoch": 4.129506822166324, "step": 54175}, {"loss": 0.03591393232345581, "token_acc": 0.9833822091886608, "grad_norm": 1.2726123332977295, "learning_rate": 7.287958378266119e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231139, "epoch": 4.129887948776584, "step": 54180}, {"loss": 0.024769186973571777, "token_acc": 0.9910637566592198, "grad_norm": 0.586693286895752, "learning_rate": 7.281734878205692e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231145, "epoch": 4.130269075386844, "step": 54185}, {"loss": 0.027529072761535645, "token_acc": 0.9871852517985612, "grad_norm": 1.287660002708435, "learning_rate": 7.275513827839547e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231151, "epoch": 4.130650201997104, "step": 54190}, {"loss": 0.02406333088874817, "token_acc": 0.9913544668587896, "grad_norm": 1.3025212287902832, "learning_rate": 7.269295227524403e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231157, "epoch": 4.131031328607364, "step": 54195}, {"loss": 0.03414790332317352, "token_acc": 0.9884481255448997, "grad_norm": 1.9282519817352295, "learning_rate": 7.263079077616886e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231162, "epoch": 4.131412455217624, "step": 54200}, {"eval_loss": 0.05176291614770889, "eval_token_acc": 0.9791503523884103, "eval_runtime": 175.9374, "eval_samples_per_second": 3.012, "eval_steps_per_second": 3.012, "epoch": 4.131412455217624, "step": 54200}, {"loss": 0.031965500116348265, "token_acc": 0.9794315846947426, "grad_norm": 0.47848907113075256, "learning_rate": 7.2568653784734706e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230992, "epoch": 4.131793581827883, "step": 54205}, {"loss": 0.021611602604389192, "token_acc": 0.9939485627836612, "grad_norm": 1.4010511636734009, "learning_rate": 7.250654130450468e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.230999, "epoch": 4.132174708438143, "step": 54210}, {"loss": 0.025626558065414428, "token_acc": 0.9917563930013459, "grad_norm": 0.5484176278114319, "learning_rate": 7.244445333904065e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231004, "epoch": 4.132555835048403, "step": 54215}, {"loss": 0.034170085191726686, "token_acc": 0.9839158676152181, "grad_norm": 0.08235243707895279, "learning_rate": 7.238238989190321e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231011, "epoch": 4.132936961658663, "step": 54220}, {"loss": 0.04423507750034332, "token_acc": 0.9879920960632315, "grad_norm": 1.7296148538589478, "learning_rate": 7.232035096665124e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231015, "epoch": 4.133318088268923, "step": 54225}, {"loss": 0.024519374966621398, "token_acc": 0.9919177075679647, "grad_norm": 1.0189650058746338, "learning_rate": 7.225833656684245e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231021, "epoch": 4.133699214879183, "step": 54230}, {"loss": 0.03509757220745087, "token_acc": 0.9862784471218207, "grad_norm": 1.2092605829238892, "learning_rate": 7.21963466960332e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231028, "epoch": 4.134080341489443, "step": 54235}, {"loss": 0.030011487007141114, "token_acc": 0.9860681114551083, "grad_norm": 0.9455986618995667, "learning_rate": 7.213438135777817e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231033, "epoch": 4.134461468099703, "step": 54240}, {"loss": 0.015232709050178529, "token_acc": 0.9937810945273632, "grad_norm": 1.5073325634002686, "learning_rate": 7.207244055563072e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231041, "epoch": 4.134842594709963, "step": 54245}, {"loss": 0.03927369117736816, "token_acc": 0.9873046875, "grad_norm": 1.2452137470245361, "learning_rate": 7.20105242931432e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231048, "epoch": 4.135223721320223, "step": 54250}, {"loss": 0.040998023748397824, "token_acc": 0.9868593955321945, "grad_norm": 1.4517422914505005, "learning_rate": 7.19486325738658e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231054, "epoch": 4.135604847930482, "step": 54255}, {"loss": 0.027133870124816894, "token_acc": 0.9888261975882288, "grad_norm": 0.7554478645324707, "learning_rate": 7.188676540134798e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231054, "epoch": 4.135985974540742, "step": 54260}, {"loss": 0.03869348764419556, "token_acc": 0.9841535686678691, "grad_norm": 1.12729811668396, "learning_rate": 7.182492277913755e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231056, "epoch": 4.136367101151002, "step": 54265}, {"loss": 0.0330334484577179, "token_acc": 0.9871662181742911, "grad_norm": 1.4737827777862549, "learning_rate": 7.176310471078073e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231062, "epoch": 4.136748227761262, "step": 54270}, {"loss": 0.029538795351982117, "token_acc": 0.9859215941087286, "grad_norm": 1.3278594017028809, "learning_rate": 7.170131119982259e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231069, "epoch": 4.137129354371522, "step": 54275}, {"loss": 0.03545851111412048, "token_acc": 0.9866666666666667, "grad_norm": 1.4173715114593506, "learning_rate": 7.163954224980679e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231072, "epoch": 4.137510480981782, "step": 54280}, {"loss": 0.02106224447488785, "token_acc": 0.9904878797177048, "grad_norm": 0.0008639300358481705, "learning_rate": 7.157779786427532e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231076, "epoch": 4.137891607592042, "step": 54285}, {"loss": 0.03654558658599853, "token_acc": 0.9849424269264836, "grad_norm": 0.7476704716682434, "learning_rate": 7.151607804676913e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231082, "epoch": 4.138272734202302, "step": 54290}, {"loss": 0.021607619524002076, "token_acc": 0.9888505980133793, "grad_norm": 0.8115509748458862, "learning_rate": 7.145438280082739e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231088, "epoch": 4.138653860812562, "step": 54295}, {"loss": 0.031310233473777774, "token_acc": 0.9843406593406593, "grad_norm": 1.6072876453399658, "learning_rate": 7.139271212998805e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231094, "epoch": 4.139034987422822, "step": 54300}, {"loss": 0.029432064294815062, "token_acc": 0.985831729928284, "grad_norm": 0.79038405418396, "learning_rate": 7.133106603778777e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231098, "epoch": 4.139416114033081, "step": 54305}, {"loss": 0.0330751359462738, "token_acc": 0.9854333576110706, "grad_norm": 0.9858720898628235, "learning_rate": 7.126944452776141e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231102, "epoch": 4.139797240643341, "step": 54310}, {"loss": 0.025164368748664855, "token_acc": 0.9873486354599674, "grad_norm": 0.8208244442939758, "learning_rate": 7.1207847603442955e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231106, "epoch": 4.140178367253601, "step": 54315}, {"loss": 0.024252060055732726, "token_acc": 0.9920032807053516, "grad_norm": 2.3016769886016846, "learning_rate": 7.11462752683647e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231112, "epoch": 4.1405594938638615, "step": 54320}, {"loss": 0.05321881175041199, "token_acc": 0.9767736486486487, "grad_norm": 0.8271681666374207, "learning_rate": 7.108472752605738e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231116, "epoch": 4.1409406204741215, "step": 54325}, {"loss": 0.02521146535873413, "token_acc": 0.9847773279352227, "grad_norm": 1.162315845489502, "learning_rate": 7.1023204380050445e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231122, "epoch": 4.1413217470843815, "step": 54330}, {"loss": 0.05417289733886719, "token_acc": 0.9793575321813754, "grad_norm": 1.1290749311447144, "learning_rate": 7.096170583387224e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231127, "epoch": 4.1417028736946415, "step": 54335}, {"loss": 0.02608681619167328, "token_acc": 0.9907407407407407, "grad_norm": 1.4262025356292725, "learning_rate": 7.090023189104905e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231133, "epoch": 4.1420840003049015, "step": 54340}, {"loss": 0.03740245997905731, "token_acc": 0.9861040929762507, "grad_norm": 0.7504939436912537, "learning_rate": 7.083878255510639e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23114, "epoch": 4.1424651269151616, "step": 54345}, {"loss": 0.019555152952671052, "token_acc": 0.9946969696969697, "grad_norm": 1.5690531730651855, "learning_rate": 7.077735782956796e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231148, "epoch": 4.142846253525422, "step": 54350}, {"loss": 0.027711158990859984, "token_acc": 0.9876328165824769, "grad_norm": 1.5397980213165283, "learning_rate": 7.071595771795614e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231152, "epoch": 4.143227380135681, "step": 54355}, {"loss": 0.02970227599143982, "token_acc": 0.9889454726120979, "grad_norm": 1.072394609451294, "learning_rate": 7.065458222379217e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231155, "epoch": 4.143608506745941, "step": 54360}, {"loss": 0.044575875997543334, "token_acc": 0.9818773234200744, "grad_norm": 0.9242489337921143, "learning_rate": 7.059323135059542e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231162, "epoch": 4.143989633356201, "step": 54365}, {"loss": 0.058882874250411985, "token_acc": 0.9786453119786453, "grad_norm": 1.4162697792053223, "learning_rate": 7.0531905101884125e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231166, "epoch": 4.144370759966461, "step": 54370}, {"loss": 0.0292243093252182, "token_acc": 0.9910008181074448, "grad_norm": 0.9566333889961243, "learning_rate": 7.047060348117524e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231171, "epoch": 4.144751886576721, "step": 54375}, {"loss": 0.032679778337478635, "token_acc": 0.9908096280087527, "grad_norm": 0.7626445889472961, "learning_rate": 7.040932649198384e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231176, "epoch": 4.145133013186981, "step": 54380}, {"loss": 0.013089582324028015, "token_acc": 0.9936020473448497, "grad_norm": 1.1416856050491333, "learning_rate": 7.034807413782407e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231185, "epoch": 4.145514139797241, "step": 54385}, {"loss": 0.03626088500022888, "token_acc": 0.9837084313066846, "grad_norm": 0.8329086303710938, "learning_rate": 7.02868464222085e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231189, "epoch": 4.145895266407501, "step": 54390}, {"loss": 0.031080877780914305, "token_acc": 0.9886130296807915, "grad_norm": 1.4032717943191528, "learning_rate": 7.022564334864806e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231193, "epoch": 4.146276393017761, "step": 54395}, {"loss": 0.037841585278511045, "token_acc": 0.9827691369319914, "grad_norm": 1.0799059867858887, "learning_rate": 7.01644649206526e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231198, "epoch": 4.14665751962802, "step": 54400}, {"eval_loss": 0.05173661559820175, "eval_token_acc": 0.9790675260526475, "eval_runtime": 175.3335, "eval_samples_per_second": 3.023, "eval_steps_per_second": 3.023, "epoch": 4.14665751962802, "step": 54400}, {"loss": 0.016247971355915068, "token_acc": 0.9793069336168202, "grad_norm": 0.9243777990341187, "learning_rate": 7.010331114173047e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231035, "epoch": 4.14703864623828, "step": 54405}, {"loss": 0.03287810683250427, "token_acc": 0.984984984984985, "grad_norm": 0.6836816072463989, "learning_rate": 7.004218201538837e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231042, "epoch": 4.14741977284854, "step": 54410}, {"loss": 0.03759737312793732, "token_acc": 0.9842300556586271, "grad_norm": 1.482722282409668, "learning_rate": 6.998107754513189e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231049, "epoch": 4.1478008994588, "step": 54415}, {"loss": 0.03176992833614349, "token_acc": 0.9894212818917237, "grad_norm": 0.6378282904624939, "learning_rate": 6.991999773446523e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231056, "epoch": 4.14818202606906, "step": 54420}, {"loss": 0.03512975573539734, "token_acc": 0.9876365134968061, "grad_norm": 1.6748992204666138, "learning_rate": 6.9858942586890745e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231061, "epoch": 4.14856315267932, "step": 54425}, {"loss": 0.03512915372848511, "token_acc": 0.9826200304149467, "grad_norm": 1.337565302848816, "learning_rate": 6.9797912105909806e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231067, "epoch": 4.14894427928958, "step": 54430}, {"loss": 0.02770017981529236, "token_acc": 0.9881411206640972, "grad_norm": 1.323195219039917, "learning_rate": 6.973690629502233e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231073, "epoch": 4.14932540589984, "step": 54435}, {"loss": 0.020978583395481108, "token_acc": 0.9932885906040269, "grad_norm": 0.6644495129585266, "learning_rate": 6.9675925157726415e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23108, "epoch": 4.1497065325101, "step": 54440}, {"loss": 0.05959935784339905, "token_acc": 0.9796475552246215, "grad_norm": 0.9146669507026672, "learning_rate": 6.961496869751943e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231087, "epoch": 4.15008765912036, "step": 54445}, {"loss": 0.03274225890636444, "token_acc": 0.9856602270464051, "grad_norm": 0.9155683517456055, "learning_rate": 6.95540369178967e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231092, "epoch": 4.15046878573062, "step": 54450}, {"loss": 0.028896591067314147, "token_acc": 0.9909701037217816, "grad_norm": 1.105959177017212, "learning_rate": 6.94931298223524e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231095, "epoch": 4.150849912340879, "step": 54455}, {"loss": 0.02106776535511017, "token_acc": 0.9887921783712889, "grad_norm": 0.6945962309837341, "learning_rate": 6.943224741437943e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231097, "epoch": 4.151231038951139, "step": 54460}, {"loss": 0.030979758501052855, "token_acc": 0.9877338239803741, "grad_norm": 1.1662766933441162, "learning_rate": 6.937138969746887e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231101, "epoch": 4.151612165561399, "step": 54465}, {"loss": 0.035133495926856995, "token_acc": 0.9900714161295942, "grad_norm": 2.59840989112854, "learning_rate": 6.9310556675110775e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231105, "epoch": 4.151993292171659, "step": 54470}, {"loss": 0.035858321189880374, "token_acc": 0.9847741935483871, "grad_norm": 0.9418238401412964, "learning_rate": 6.924974835079368e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23111, "epoch": 4.152374418781919, "step": 54475}, {"loss": 0.04519959092140198, "token_acc": 0.9881386861313869, "grad_norm": 3.405599594116211, "learning_rate": 6.918896472800451e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231116, "epoch": 4.152755545392179, "step": 54480}, {"loss": 0.032913050055503844, "token_acc": 0.988956587966489, "grad_norm": 0.9627317786216736, "learning_rate": 6.9128205810229e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231124, "epoch": 4.153136672002439, "step": 54485}, {"loss": 0.02143979221582413, "token_acc": 0.9918062636562273, "grad_norm": 0.8504566550254822, "learning_rate": 6.906747160095151e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231127, "epoch": 4.153517798612699, "step": 54490}, {"loss": 0.027364462614059448, "token_acc": 0.9872262773722628, "grad_norm": 1.230493426322937, "learning_rate": 6.900676210365464e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231136, "epoch": 4.1538989252229594, "step": 54495}, {"loss": 0.027772486209869385, "token_acc": 0.9895908980876301, "grad_norm": 0.7406442761421204, "learning_rate": 6.894607732181996e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231142, "epoch": 4.154280051833219, "step": 54500}, {"loss": 0.03033764362335205, "token_acc": 0.9910087103118853, "grad_norm": 0.4464856684207916, "learning_rate": 6.888541725892745e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231146, "epoch": 4.154661178443479, "step": 54505}, {"loss": 0.03171315789222717, "token_acc": 0.9839525553811268, "grad_norm": 1.106855869293213, "learning_rate": 6.882478191845559e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231151, "epoch": 4.155042305053739, "step": 54510}, {"loss": 0.0354744017124176, "token_acc": 0.9899637580150543, "grad_norm": 0.9480795860290527, "learning_rate": 6.876417130388163e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231157, "epoch": 4.155423431663999, "step": 54515}, {"loss": 0.03855787217617035, "token_acc": 0.9847274018824365, "grad_norm": 1.1103415489196777, "learning_rate": 6.870358541868121e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23116, "epoch": 4.155804558274259, "step": 54520}, {"loss": 0.036573287844657895, "token_acc": 0.9908355795148248, "grad_norm": 2.3169593811035156, "learning_rate": 6.864302426632868e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231167, "epoch": 4.156185684884519, "step": 54525}, {"loss": 0.03983940482139588, "token_acc": 0.9829835507657402, "grad_norm": 1.2677106857299805, "learning_rate": 6.858248785029708e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231171, "epoch": 4.156566811494779, "step": 54530}, {"loss": 0.028627288341522217, "token_acc": 0.9822569198012775, "grad_norm": 1.3369802236557007, "learning_rate": 6.85219761740577e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231178, "epoch": 4.156947938105039, "step": 54535}, {"loss": 0.029270190000534057, "token_acc": 0.9867790207758245, "grad_norm": 2.0361244678497314, "learning_rate": 6.84614892410807e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231183, "epoch": 4.157329064715299, "step": 54540}, {"loss": 0.036707690358161925, "token_acc": 0.9826440677966102, "grad_norm": 0.16237960755825043, "learning_rate": 6.840102705483475e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231186, "epoch": 4.157710191325559, "step": 54545}, {"loss": 0.03798233270645142, "token_acc": 0.9834278238116005, "grad_norm": 0.8695746064186096, "learning_rate": 6.834058961878698e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231188, "epoch": 4.158091317935818, "step": 54550}, {"loss": 0.04469782710075378, "token_acc": 0.9850470430107527, "grad_norm": 0.6707727909088135, "learning_rate": 6.828017693640321e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231193, "epoch": 4.158472444546078, "step": 54555}, {"loss": 0.04296365976333618, "token_acc": 0.9816525871172123, "grad_norm": 1.0692318677902222, "learning_rate": 6.821978901114801e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231198, "epoch": 4.158853571156338, "step": 54560}, {"loss": 0.04258651733398437, "token_acc": 0.9891678975873953, "grad_norm": 0.7580469846725464, "learning_rate": 6.815942584648405e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231203, "epoch": 4.159234697766598, "step": 54565}, {"loss": 0.06607654690742493, "token_acc": 0.9729023832843617, "grad_norm": 2.616116762161255, "learning_rate": 6.8099087445873066e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231209, "epoch": 4.159615824376858, "step": 54570}, {"loss": 0.02296465039253235, "token_acc": 0.9887540692512578, "grad_norm": 1.5488783121109009, "learning_rate": 6.803877381277518e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231215, "epoch": 4.159996950987118, "step": 54575}, {"loss": 0.01964803785085678, "token_acc": 0.9887073203135379, "grad_norm": 0.585402250289917, "learning_rate": 6.797848495064901e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231217, "epoch": 4.160378077597378, "step": 54580}, {"loss": 0.02271225452423096, "token_acc": 0.9908060067422617, "grad_norm": 0.5063278675079346, "learning_rate": 6.791822086295208e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231223, "epoch": 4.160759204207638, "step": 54585}, {"loss": 0.045292556285858154, "token_acc": 0.9814222932481023, "grad_norm": 2.842499256134033, "learning_rate": 6.785798155313994e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231229, "epoch": 4.161140330817898, "step": 54590}, {"loss": 0.03026381731033325, "token_acc": 0.9881376037959668, "grad_norm": 1.359418272972107, "learning_rate": 6.779776702466717e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231232, "epoch": 4.161521457428158, "step": 54595}, {"loss": 0.059599530696868894, "token_acc": 0.9865962632006499, "grad_norm": 0.7124122381210327, "learning_rate": 6.77375772809869e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231234, "epoch": 4.161902584038417, "step": 54600}, {"eval_loss": 0.0517476387321949, "eval_token_acc": 0.9789319920486718, "eval_runtime": 193.2245, "eval_samples_per_second": 2.743, "eval_steps_per_second": 2.743, "epoch": 4.161902584038417, "step": 54600}, {"loss": 0.027543526887893677, "token_acc": 0.9793137211919272, "grad_norm": 2.0789377689361572, "learning_rate": 6.767741232555052e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231052, "epoch": 4.162283710648677, "step": 54605}, {"loss": 0.026502731442451476, "token_acc": 0.9875776397515528, "grad_norm": 1.2224832773208618, "learning_rate": 6.76172721618083e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231059, "epoch": 4.162664837258937, "step": 54610}, {"loss": 0.03591226041316986, "token_acc": 0.9860174781523097, "grad_norm": 1.1668221950531006, "learning_rate": 6.755715679320917e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231063, "epoch": 4.163045963869197, "step": 54615}, {"loss": 0.03442449569702148, "token_acc": 0.9855678446182897, "grad_norm": 1.0242559909820557, "learning_rate": 6.749706622320018e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231066, "epoch": 4.163427090479457, "step": 54620}, {"loss": 0.046162641048431395, "token_acc": 0.9858375039931849, "grad_norm": 2.1899735927581787, "learning_rate": 6.743700045522744e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231066, "epoch": 4.163808217089717, "step": 54625}, {"loss": 0.053904712200164795, "token_acc": 0.9836927223719677, "grad_norm": 5.031675815582275, "learning_rate": 6.737695949273543e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231069, "epoch": 4.164189343699977, "step": 54630}, {"loss": 0.03001103699207306, "token_acc": 0.9888027562446167, "grad_norm": 0.9666539430618286, "learning_rate": 6.731694333916711e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231075, "epoch": 4.164570470310237, "step": 54635}, {"loss": 0.035966315865516664, "token_acc": 0.9860041987403779, "grad_norm": 0.9933744668960571, "learning_rate": 6.725695199796417e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231079, "epoch": 4.164951596920497, "step": 54640}, {"loss": 0.03507736027240753, "token_acc": 0.9862238158143046, "grad_norm": 0.8784541487693787, "learning_rate": 6.719698547256698e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231084, "epoch": 4.165332723530757, "step": 54645}, {"loss": 0.033890119194984435, "token_acc": 0.9874522640480087, "grad_norm": 0.5878980755805969, "learning_rate": 6.713704376641411e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23109, "epoch": 4.1657138501410165, "step": 54650}, {"loss": 0.029639309644699095, "token_acc": 0.9911330049261083, "grad_norm": 1.054348111152649, "learning_rate": 6.707712688294305e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231098, "epoch": 4.1660949767512765, "step": 54655}, {"loss": 0.020953820645809175, "token_acc": 0.9897172236503856, "grad_norm": 0.6264936327934265, "learning_rate": 6.701723482558986e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231104, "epoch": 4.1664761033615365, "step": 54660}, {"loss": 0.033331677317619324, "token_acc": 0.9867345855884538, "grad_norm": 1.2187527418136597, "learning_rate": 6.695736759778887e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231106, "epoch": 4.1668572299717965, "step": 54665}, {"loss": 0.031467437744140625, "token_acc": 0.9875283446712018, "grad_norm": 0.8396475911140442, "learning_rate": 6.689752520297327e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231111, "epoch": 4.1672383565820565, "step": 54670}, {"loss": 0.0423812985420227, "token_acc": 0.9834219580857053, "grad_norm": 2.053088903427124, "learning_rate": 6.683770764457486e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231117, "epoch": 4.167619483192317, "step": 54675}, {"loss": 0.020427481830120088, "token_acc": 0.9897033586663397, "grad_norm": 1.0360718965530396, "learning_rate": 6.67779149260237e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231123, "epoch": 4.168000609802577, "step": 54680}, {"loss": 0.04196591079235077, "token_acc": 0.9903951102379394, "grad_norm": 1.8894308805465698, "learning_rate": 6.671814705074886e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231129, "epoch": 4.168381736412837, "step": 54685}, {"loss": 0.03107260465621948, "token_acc": 0.988279554333671, "grad_norm": 1.1052526235580444, "learning_rate": 6.665840402217749e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231132, "epoch": 4.168762863023097, "step": 54690}, {"loss": 0.017465430498123168, "token_acc": 0.9932633247473747, "grad_norm": 1.0564314126968384, "learning_rate": 6.6598685843735686e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231136, "epoch": 4.169143989633357, "step": 54695}, {"loss": 0.034402850270271304, "token_acc": 0.984597904305012, "grad_norm": 0.47773563861846924, "learning_rate": 6.6538992518848156e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231139, "epoch": 4.169525116243616, "step": 54700}, {"loss": 0.02724473476409912, "token_acc": 0.9905542869005605, "grad_norm": 0.5369814038276672, "learning_rate": 6.647932405093777e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231139, "epoch": 4.169906242853876, "step": 54705}, {"loss": 0.024917681515216828, "token_acc": 0.98755432635322, "grad_norm": 0.8509847521781921, "learning_rate": 6.641968044342622e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231145, "epoch": 4.170287369464136, "step": 54710}, {"loss": 0.03420963287353516, "token_acc": 0.9878618113912232, "grad_norm": 0.5657125115394592, "learning_rate": 6.636006169973419e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231151, "epoch": 4.170668496074396, "step": 54715}, {"loss": 0.026455551385879517, "token_acc": 0.9839291078401923, "grad_norm": 1.2188407182693481, "learning_rate": 6.63004678232802e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231155, "epoch": 4.171049622684656, "step": 54720}, {"loss": 0.033232647180557254, "token_acc": 0.9853240929474113, "grad_norm": 1.5461846590042114, "learning_rate": 6.624089881748186e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23116, "epoch": 4.171430749294916, "step": 54725}, {"loss": 0.04893189072608948, "token_acc": 0.9821428571428571, "grad_norm": 1.133164405822754, "learning_rate": 6.6181354685754984e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231165, "epoch": 4.171811875905176, "step": 54730}, {"loss": 0.03853365182876587, "token_acc": 0.9832944832944833, "grad_norm": 3.197770595550537, "learning_rate": 6.612183543151423e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231173, "epoch": 4.172193002515436, "step": 54735}, {"loss": 0.04893515110015869, "token_acc": 0.984768812330009, "grad_norm": 1.0084818601608276, "learning_rate": 6.6062341058172884e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231178, "epoch": 4.172574129125696, "step": 54740}, {"loss": 0.025204026699066163, "token_acc": 0.9892497453887066, "grad_norm": 0.5432860851287842, "learning_rate": 6.600287156914248e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231182, "epoch": 4.172955255735955, "step": 54745}, {"loss": 0.02753123939037323, "token_acc": 0.9915655214976342, "grad_norm": 0.9724192023277283, "learning_rate": 6.59434269678334e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231188, "epoch": 4.173336382346215, "step": 54750}, {"loss": 0.03821151852607727, "token_acc": 0.9848706686188384, "grad_norm": 1.2906368970870972, "learning_rate": 6.588400725765459e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231195, "epoch": 4.173717508956475, "step": 54755}, {"loss": 0.03382004797458649, "token_acc": 0.9832285115303984, "grad_norm": 3.309770345687866, "learning_rate": 6.582461244201333e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2312, "epoch": 4.174098635566735, "step": 54760}, {"loss": 0.02366660684347153, "token_acc": 0.9903560830860534, "grad_norm": 1.2762328386306763, "learning_rate": 6.576524252431571e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231209, "epoch": 4.174479762176995, "step": 54765}, {"loss": 0.03071948289871216, "token_acc": 0.9913984461709212, "grad_norm": 0.8107351064682007, "learning_rate": 6.570589750796646e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231216, "epoch": 4.174860888787255, "step": 54770}, {"loss": 0.039465463161468504, "token_acc": 0.9835245660488379, "grad_norm": 1.5567125082015991, "learning_rate": 6.564657739636854e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231222, "epoch": 4.175242015397515, "step": 54775}, {"loss": 0.033269578218460084, "token_acc": 0.9867354458364038, "grad_norm": 1.2282888889312744, "learning_rate": 6.558728219292371e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231228, "epoch": 4.175623142007775, "step": 54780}, {"loss": 0.021567100286483766, "token_acc": 0.9905825373335128, "grad_norm": 0.6444400548934937, "learning_rate": 6.552801190103242e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231232, "epoch": 4.176004268618035, "step": 54785}, {"loss": 0.02855568528175354, "token_acc": 0.9848704663212435, "grad_norm": 0.056426819413900375, "learning_rate": 6.546876652409339e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231236, "epoch": 4.176385395228295, "step": 54790}, {"loss": 0.027732658386230468, "token_acc": 0.9864352683024137, "grad_norm": 0.8473888635635376, "learning_rate": 6.540954606550409e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231242, "epoch": 4.176766521838554, "step": 54795}, {"loss": 0.035870373249053955, "token_acc": 0.9854957805907173, "grad_norm": 0.7704639434814453, "learning_rate": 6.535035052866073e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231245, "epoch": 4.177147648448814, "step": 54800}, {"eval_loss": 0.051189910620450974, "eval_token_acc": 0.9790599963857599, "eval_runtime": 190.3811, "eval_samples_per_second": 2.784, "eval_steps_per_second": 2.784, "epoch": 4.177147648448814, "step": 54800}, {"loss": 0.029172462224960328, "token_acc": 0.9794094594891554, "grad_norm": 2.586639881134033, "learning_rate": 6.52911799169576e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231065, "epoch": 4.177528775059074, "step": 54805}, {"loss": 0.03639890253543854, "token_acc": 0.9824677912073316, "grad_norm": 0.9541264176368713, "learning_rate": 6.523203423378804e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231068, "epoch": 4.177909901669334, "step": 54810}, {"loss": 0.041938316822052, "token_acc": 0.9836552748885586, "grad_norm": 1.9563854932785034, "learning_rate": 6.517291348254384e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231074, "epoch": 4.178291028279594, "step": 54815}, {"loss": 0.035060420632362366, "token_acc": 0.989520295202952, "grad_norm": 1.45810866355896, "learning_rate": 6.511381766661512e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231076, "epoch": 4.178672154889854, "step": 54820}, {"loss": 0.0458139032125473, "token_acc": 0.9840418020053665, "grad_norm": 0.7520869374275208, "learning_rate": 6.505474678939077e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231078, "epoch": 4.1790532815001145, "step": 54825}, {"loss": 0.025092512369155884, "token_acc": 0.9900363380611886, "grad_norm": 0.9215095043182373, "learning_rate": 6.499570085425849e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23108, "epoch": 4.1794344081103745, "step": 54830}, {"loss": 0.03135313391685486, "token_acc": 0.983352144469526, "grad_norm": 0.23009540140628815, "learning_rate": 6.4936679864603945e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231087, "epoch": 4.1798155347206345, "step": 54835}, {"loss": 0.036047089099884036, "token_acc": 0.9864901746724891, "grad_norm": 2.343182325363159, "learning_rate": 6.4877683823811875e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23109, "epoch": 4.1801966613308945, "step": 54840}, {"loss": 0.037367862462997434, "token_acc": 0.9885003520300399, "grad_norm": 0.7468942999839783, "learning_rate": 6.481871273526541e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231095, "epoch": 4.180577787941154, "step": 54845}, {"loss": 0.03636122941970825, "token_acc": 0.9857870173949936, "grad_norm": 1.840085744857788, "learning_rate": 6.475976660234628e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231099, "epoch": 4.180958914551414, "step": 54850}, {"loss": 0.048007601499557497, "token_acc": 0.9838004628439188, "grad_norm": 2.1490564346313477, "learning_rate": 6.470084542843491e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231104, "epoch": 4.181340041161674, "step": 54855}, {"loss": 0.031872743368148805, "token_acc": 0.9833178869323448, "grad_norm": 1.1590602397918701, "learning_rate": 6.464194921690991e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231112, "epoch": 4.181721167771934, "step": 54860}, {"loss": 0.023981976509094238, "token_acc": 0.9904052376114686, "grad_norm": 0.9347841739654541, "learning_rate": 6.458307797114882e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231113, "epoch": 4.182102294382194, "step": 54865}, {"loss": 0.018899552524089813, "token_acc": 0.9916502946954814, "grad_norm": 0.7410144805908203, "learning_rate": 6.45242316945277e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231121, "epoch": 4.182483420992454, "step": 54870}, {"loss": 0.023883605003356935, "token_acc": 0.9899127061105722, "grad_norm": 0.5737892985343933, "learning_rate": 6.446541039042098e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231126, "epoch": 4.182864547602714, "step": 54875}, {"loss": 0.03671302199363709, "token_acc": 0.9890096470875565, "grad_norm": 0.907258152961731, "learning_rate": 6.440661406220178e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231127, "epoch": 4.183245674212974, "step": 54880}, {"loss": 0.034452444314956664, "token_acc": 0.9891511229539398, "grad_norm": 1.6771100759506226, "learning_rate": 6.434784271324201e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231131, "epoch": 4.183626800823234, "step": 54885}, {"loss": 0.01819142997264862, "token_acc": 0.9928587882976273, "grad_norm": 0.9216017127037048, "learning_rate": 6.428909634691172e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231136, "epoch": 4.184007927433494, "step": 54890}, {"loss": 0.023944091796875, "token_acc": 0.9921487603305785, "grad_norm": 0.02054188773036003, "learning_rate": 6.423037496657985e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231144, "epoch": 4.184389054043753, "step": 54895}, {"loss": 0.03430234789848328, "token_acc": 0.9884148064424979, "grad_norm": 3.067049264907837, "learning_rate": 6.4171678575613685e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231151, "epoch": 4.184770180654013, "step": 54900}, {"loss": 0.024421411752700805, "token_acc": 0.9880862329803328, "grad_norm": 0.8045777082443237, "learning_rate": 6.411300717737922e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231157, "epoch": 4.185151307264273, "step": 54905}, {"loss": 0.022075673937797545, "token_acc": 0.9901690238013108, "grad_norm": 0.6312374472618103, "learning_rate": 6.405436077524119e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23116, "epoch": 4.185532433874533, "step": 54910}, {"loss": 0.03671598136425018, "token_acc": 0.9809286898839138, "grad_norm": 1.7158222198486328, "learning_rate": 6.399573937256242e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231168, "epoch": 4.185913560484793, "step": 54915}, {"loss": 0.027919429540634155, "token_acc": 0.9882866329811667, "grad_norm": 0.5945406556129456, "learning_rate": 6.39371429727047e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231167, "epoch": 4.186294687095053, "step": 54920}, {"loss": 0.0436959832906723, "token_acc": 0.9777777777777777, "grad_norm": 1.8890838623046875, "learning_rate": 6.387857157902833e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231175, "epoch": 4.186675813705313, "step": 54925}, {"loss": 0.026330041885375976, "token_acc": 0.9910485933503836, "grad_norm": 0.11291039735078812, "learning_rate": 6.382002519489194e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231182, "epoch": 4.187056940315573, "step": 54930}, {"loss": 0.045445045828819274, "token_acc": 0.9884845693228926, "grad_norm": 0.7063408493995667, "learning_rate": 6.376150382365292e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231189, "epoch": 4.187438066925833, "step": 54935}, {"loss": 0.05207285284996033, "token_acc": 0.9844033369604642, "grad_norm": 0.556076169013977, "learning_rate": 6.370300746866747e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231192, "epoch": 4.187819193536093, "step": 54940}, {"loss": 0.035344472527503966, "token_acc": 0.9855210819411296, "grad_norm": 0.8586413860321045, "learning_rate": 6.364453613328969e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231195, "epoch": 4.188200320146352, "step": 54945}, {"loss": 0.03208433985710144, "token_acc": 0.9886874064215605, "grad_norm": 0.8107700943946838, "learning_rate": 6.358608982087289e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231198, "epoch": 4.188581446756612, "step": 54950}, {"loss": 0.025044241547584535, "token_acc": 0.9884102339820686, "grad_norm": 0.9293810725212097, "learning_rate": 6.3527668534768655e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231204, "epoch": 4.188962573366872, "step": 54955}, {"loss": 0.039822322130203244, "token_acc": 0.9862637362637363, "grad_norm": 0.7914187908172607, "learning_rate": 6.34692722783271e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231212, "epoch": 4.189343699977132, "step": 54960}, {"loss": 0.01835901141166687, "token_acc": 0.9898389095415118, "grad_norm": 0.7814209461212158, "learning_rate": 6.3410901054897055e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231214, "epoch": 4.189724826587392, "step": 54965}, {"loss": 0.028802937269210814, "token_acc": 0.9886881647813608, "grad_norm": 1.356967806816101, "learning_rate": 6.335255486782587e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23122, "epoch": 4.190105953197652, "step": 54970}, {"loss": 0.04461093544960022, "token_acc": 0.984071821604402, "grad_norm": 0.04713306948542595, "learning_rate": 6.329423372045917e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231227, "epoch": 4.190487079807912, "step": 54975}, {"loss": 0.024878785014152527, "token_acc": 0.9877646411877922, "grad_norm": 0.9351802468299866, "learning_rate": 6.323593761614182e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23123, "epoch": 4.190868206418172, "step": 54980}, {"loss": 0.021574102342128754, "token_acc": 0.9841666666666666, "grad_norm": 2.1892201900482178, "learning_rate": 6.317766655821656e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231237, "epoch": 4.191249333028432, "step": 54985}, {"loss": 0.03560173213481903, "token_acc": 0.9841775029553514, "grad_norm": 0.8994430303573608, "learning_rate": 6.311942055002496e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231238, "epoch": 4.1916304596386915, "step": 54990}, {"loss": 0.0353665828704834, "token_acc": 0.9858839731451197, "grad_norm": 1.5805320739746094, "learning_rate": 6.306119959490731e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231242, "epoch": 4.1920115862489515, "step": 54995}, {"loss": 0.0247516930103302, "token_acc": 0.9891921102404756, "grad_norm": 1.027337670326233, "learning_rate": 6.300300369620216e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231249, "epoch": 4.192392712859212, "step": 55000}, {"eval_loss": 0.05095803737640381, "eval_token_acc": 0.9794364797301367, "eval_runtime": 187.9616, "eval_samples_per_second": 2.82, "eval_steps_per_second": 2.82, "epoch": 4.192392712859212, "step": 55000}, {"loss": 0.02491881251335144, "token_acc": 0.9795640427815403, "grad_norm": 0.13975584506988525, "learning_rate": 6.294483285724678e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231073, "epoch": 4.192773839469472, "step": 55005}, {"loss": 0.03555134236812592, "token_acc": 0.9843164794007491, "grad_norm": 1.201179027557373, "learning_rate": 6.288668708137724e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231079, "epoch": 4.193154966079732, "step": 55010}, {"loss": 0.030637761950492857, "token_acc": 0.988155668358714, "grad_norm": 1.5541774034500122, "learning_rate": 6.282856637192757e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231084, "epoch": 4.193536092689992, "step": 55015}, {"loss": 0.03712287843227387, "token_acc": 0.9820822331195775, "grad_norm": 1.1531987190246582, "learning_rate": 6.277047073223091e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231089, "epoch": 4.193917219300252, "step": 55020}, {"loss": 0.026881766319274903, "token_acc": 0.9877474081055608, "grad_norm": 1.0331188440322876, "learning_rate": 6.271240016561886e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231093, "epoch": 4.194298345910512, "step": 55025}, {"loss": 0.029098203778266905, "token_acc": 0.9860034991252187, "grad_norm": 1.0743449926376343, "learning_rate": 6.26543546754213e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2311, "epoch": 4.194679472520772, "step": 55030}, {"loss": 0.035451951622962954, "token_acc": 0.9904692082111437, "grad_norm": 1.3197851181030273, "learning_rate": 6.259633426496697e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231105, "epoch": 4.195060599131032, "step": 55035}, {"loss": 0.0414112389087677, "token_acc": 0.9862542955326461, "grad_norm": 0.7696093320846558, "learning_rate": 6.253833893758321e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23111, "epoch": 4.195441725741292, "step": 55040}, {"loss": 0.06911444067955017, "token_acc": 0.9714605484051483, "grad_norm": 4.2469563484191895, "learning_rate": 6.2480368696595455e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231116, "epoch": 4.195822852351551, "step": 55045}, {"loss": 0.019406017661094666, "token_acc": 0.990684575389948, "grad_norm": 0.7596127986907959, "learning_rate": 6.242242354532829e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231121, "epoch": 4.196203978961811, "step": 55050}, {"loss": 0.022197966277599335, "token_acc": 0.9920832039739211, "grad_norm": 0.6448656916618347, "learning_rate": 6.23645034871046e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231123, "epoch": 4.196585105572071, "step": 55055}, {"loss": 0.04089439511299133, "token_acc": 0.986031746031746, "grad_norm": 2.6731629371643066, "learning_rate": 6.230660852524567e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23113, "epoch": 4.196966232182331, "step": 55060}, {"loss": 0.02771533727645874, "token_acc": 0.9906943450250537, "grad_norm": 2.1330859661102295, "learning_rate": 6.224873866307157e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231136, "epoch": 4.197347358792591, "step": 55065}, {"loss": 0.03573443591594696, "token_acc": 0.9916036943744753, "grad_norm": 2.1169981956481934, "learning_rate": 6.219089390390098e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231142, "epoch": 4.197728485402851, "step": 55070}, {"loss": 0.01675720661878586, "token_acc": 0.9943052391799544, "grad_norm": 1.6034080982208252, "learning_rate": 6.213307425105092e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231147, "epoch": 4.198109612013111, "step": 55075}, {"loss": 0.028781816363334656, "token_acc": 0.9884493213976321, "grad_norm": 1.5714973211288452, "learning_rate": 6.207527970783711e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231153, "epoch": 4.198490738623371, "step": 55080}, {"loss": 0.03417149782180786, "token_acc": 0.9875187969924812, "grad_norm": 1.1748396158218384, "learning_rate": 6.2017510277573745e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231157, "epoch": 4.198871865233631, "step": 55085}, {"loss": 0.04178975224494934, "token_acc": 0.9854891168376282, "grad_norm": 1.5857776403427124, "learning_rate": 6.1959765963573664e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231163, "epoch": 4.19925299184389, "step": 55090}, {"loss": 0.03885223269462586, "token_acc": 0.9887837364178058, "grad_norm": 3.191985845565796, "learning_rate": 6.190204676914835e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231171, "epoch": 4.19963411845415, "step": 55095}, {"loss": 0.030042463541030885, "token_acc": 0.9862135687507558, "grad_norm": 0.7045013308525085, "learning_rate": 6.184435269760752e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231172, "epoch": 4.20001524506441, "step": 55100}, {"loss": 0.042986491322517396, "token_acc": 0.9820661783278606, "grad_norm": 3.2799274921417236, "learning_rate": 6.1786683752259824e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231179, "epoch": 4.20039637167467, "step": 55105}, {"loss": 0.04853796064853668, "token_acc": 0.9838752312979117, "grad_norm": 1.387196660041809, "learning_rate": 6.172903993641221e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231185, "epoch": 4.20077749828493, "step": 55110}, {"loss": 0.03077118396759033, "token_acc": 0.9857142857142858, "grad_norm": 0.9536697864532471, "learning_rate": 6.167142125337034e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231189, "epoch": 4.20115862489519, "step": 55115}, {"loss": 0.04011464416980744, "token_acc": 0.9850837760523089, "grad_norm": 0.9758539795875549, "learning_rate": 6.161382770643842e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231194, "epoch": 4.20153975150545, "step": 55120}, {"loss": 0.022836048901081086, "token_acc": 0.9882196781151485, "grad_norm": 1.7224823236465454, "learning_rate": 6.155625929891906e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231199, "epoch": 4.20192087811571, "step": 55125}, {"loss": 0.03307593166828156, "token_acc": 0.9856733524355301, "grad_norm": 0.8979042172431946, "learning_rate": 6.149871603411361e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231202, "epoch": 4.20230200472597, "step": 55130}, {"loss": 0.03842396438121796, "token_acc": 0.986848676544032, "grad_norm": 1.689898133277893, "learning_rate": 6.144119791532205e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231208, "epoch": 4.20268313133623, "step": 55135}, {"loss": 0.030379849672317504, "token_acc": 0.9894527667380006, "grad_norm": 1.1496270895004272, "learning_rate": 6.138370494584245e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231213, "epoch": 4.203064257946489, "step": 55140}, {"loss": 0.034192973375320436, "token_acc": 0.9864284098620222, "grad_norm": 1.3549721240997314, "learning_rate": 6.132623712897195e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23122, "epoch": 4.203445384556749, "step": 55145}, {"loss": 0.036942070722579955, "token_acc": 0.9855827477586625, "grad_norm": 1.1207005977630615, "learning_rate": 6.1268794468006205e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231222, "epoch": 4.2038265111670094, "step": 55150}, {"loss": 0.03591034412384033, "token_acc": 0.9874285714285714, "grad_norm": 1.0955843925476074, "learning_rate": 6.121137696623897e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231229, "epoch": 4.2042076377772695, "step": 55155}, {"loss": 0.02268853783607483, "token_acc": 0.9904699309891555, "grad_norm": 0.6937577128410339, "learning_rate": 6.115398462696309e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23123, "epoch": 4.2045887643875295, "step": 55160}, {"loss": 0.025661033391952515, "token_acc": 0.9890909090909091, "grad_norm": 1.0608017444610596, "learning_rate": 6.109661745346978e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231235, "epoch": 4.2049698909977895, "step": 55165}, {"loss": 0.03372465968132019, "token_acc": 0.986171410194565, "grad_norm": 1.2367222309112549, "learning_rate": 6.103927544904858e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23124, "epoch": 4.2053510176080495, "step": 55170}, {"loss": 0.028401729464530946, "token_acc": 0.9843564356435643, "grad_norm": 1.0857067108154297, "learning_rate": 6.098195861698797e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231245, "epoch": 4.2057321442183095, "step": 55175}, {"loss": 0.049645066261291504, "token_acc": 0.9839799749687109, "grad_norm": 1.0472482442855835, "learning_rate": 6.0924666960574805e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231252, "epoch": 4.20611327082857, "step": 55180}, {"loss": 0.026069051027297972, "token_acc": 0.9889724310776943, "grad_norm": 0.5535577535629272, "learning_rate": 6.0867400483094306e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231259, "epoch": 4.20649439743883, "step": 55185}, {"loss": 0.032494640350341795, "token_acc": 0.9859433340654513, "grad_norm": 0.5371598601341248, "learning_rate": 6.081015918783056e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231264, "epoch": 4.206875524049089, "step": 55190}, {"loss": 0.028981700539588928, "token_acc": 0.9896514161220044, "grad_norm": 1.0634384155273438, "learning_rate": 6.0752943078066226e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231268, "epoch": 4.207256650659349, "step": 55195}, {"loss": 0.04638499617576599, "token_acc": 0.9774879023774459, "grad_norm": 1.4177008867263794, "learning_rate": 6.069575215708212e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231273, "epoch": 4.207637777269609, "step": 55200}, {"eval_loss": 0.05128999426960945, "eval_token_acc": 0.9795569544003373, "eval_runtime": 188.2748, "eval_samples_per_second": 2.815, "eval_steps_per_second": 2.815, "epoch": 4.207637777269609, "step": 55200}, {"loss": 0.028097471594810484, "token_acc": 0.9800147444179239, "grad_norm": 0.5684129595756531, "learning_rate": 6.0638586428158064e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231096, "epoch": 4.208018903879869, "step": 55205}, {"loss": 0.016154921054840087, "token_acc": 0.9938618925831202, "grad_norm": 0.7357848286628723, "learning_rate": 6.058144589457226e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231104, "epoch": 4.208400030490129, "step": 55210}, {"loss": 0.05158147811889648, "token_acc": 0.9875940614195647, "grad_norm": 1.7192988395690918, "learning_rate": 6.052433055960127e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231108, "epoch": 4.208781157100389, "step": 55215}, {"loss": 0.016115473210811616, "token_acc": 0.9913983237759153, "grad_norm": 0.7445062398910522, "learning_rate": 6.0467240426520526e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231115, "epoch": 4.209162283710649, "step": 55220}, {"loss": 0.02891588807106018, "token_acc": 0.9884203626829802, "grad_norm": 2.424006938934326, "learning_rate": 6.041017549860395e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231121, "epoch": 4.209543410320909, "step": 55225}, {"loss": 0.042253345251083374, "token_acc": 0.9836393383021269, "grad_norm": 0.7885124087333679, "learning_rate": 6.035313577912377e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231126, "epoch": 4.209924536931169, "step": 55230}, {"loss": 0.03578483760356903, "token_acc": 0.990482664853841, "grad_norm": 1.1044069528579712, "learning_rate": 6.029612127135104e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23113, "epoch": 4.210305663541429, "step": 55235}, {"loss": 0.019311246275901795, "token_acc": 0.99258811072455, "grad_norm": 0.7533672451972961, "learning_rate": 6.023913197855535e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231134, "epoch": 4.210686790151688, "step": 55240}, {"loss": 0.03279012143611908, "token_acc": 0.9869035269709544, "grad_norm": 1.5038245916366577, "learning_rate": 6.018216790400455e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231136, "epoch": 4.211067916761948, "step": 55245}, {"loss": 0.025078490376472473, "token_acc": 0.9903273809523809, "grad_norm": 0.497211217880249, "learning_rate": 6.012522905096557e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231145, "epoch": 4.211449043372208, "step": 55250}, {"loss": 0.026688313484191893, "token_acc": 0.9856517509727627, "grad_norm": 0.9427999258041382, "learning_rate": 6.006831542270336e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231151, "epoch": 4.211830169982468, "step": 55255}, {"loss": 0.04322470426559448, "token_acc": 0.9858934169278997, "grad_norm": 0.8263587355613708, "learning_rate": 6.001142702248175e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231157, "epoch": 4.212211296592728, "step": 55260}, {"loss": 0.03127419352531433, "token_acc": 0.9857813362782993, "grad_norm": 0.749843955039978, "learning_rate": 5.995456385356307e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23116, "epoch": 4.212592423202988, "step": 55265}, {"loss": 0.02349926233291626, "token_acc": 0.9886018237082067, "grad_norm": 0.8890780806541443, "learning_rate": 5.9897725919208e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231165, "epoch": 4.212973549813248, "step": 55270}, {"loss": 0.04700961410999298, "token_acc": 0.9714190761050183, "grad_norm": 0.42937788367271423, "learning_rate": 5.9840913222676045e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231172, "epoch": 4.213354676423508, "step": 55275}, {"loss": 0.05711854100227356, "token_acc": 0.9797015961138098, "grad_norm": 1.2323603630065918, "learning_rate": 5.97841257672252e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231175, "epoch": 4.213735803033768, "step": 55280}, {"loss": 0.012025836855173111, "token_acc": 0.9976762199845082, "grad_norm": 0.15172363817691803, "learning_rate": 5.97273635561118e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231184, "epoch": 4.214116929644028, "step": 55285}, {"loss": 0.024781396985054015, "token_acc": 0.991, "grad_norm": 1.4292503595352173, "learning_rate": 5.967062659259109e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231192, "epoch": 4.214498056254287, "step": 55290}, {"loss": 0.025586360692977907, "token_acc": 0.9883875248838753, "grad_norm": 0.6128196716308594, "learning_rate": 5.961391487991646e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231196, "epoch": 4.214879182864547, "step": 55295}, {"loss": 0.03917216360569, "token_acc": 0.9878542510121457, "grad_norm": 0.7270740270614624, "learning_rate": 5.95572284213402e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231202, "epoch": 4.215260309474807, "step": 55300}, {"loss": 0.03055128753185272, "token_acc": 0.9916107382550335, "grad_norm": 1.8320974111557007, "learning_rate": 5.950056722011305e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231208, "epoch": 4.215641436085067, "step": 55305}, {"loss": 0.03373225331306458, "token_acc": 0.9875618374558304, "grad_norm": 0.6406719088554382, "learning_rate": 5.944393127948411e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231212, "epoch": 4.216022562695327, "step": 55310}, {"loss": 0.02096572667360306, "token_acc": 0.9937214611872146, "grad_norm": 1.390854835510254, "learning_rate": 5.93873206027013e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231218, "epoch": 4.216403689305587, "step": 55315}, {"loss": 0.028709876537322997, "token_acc": 0.9904100529100529, "grad_norm": 0.853208065032959, "learning_rate": 5.933073519301103e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231219, "epoch": 4.216784815915847, "step": 55320}, {"loss": 0.02685352861881256, "token_acc": 0.9867160278745645, "grad_norm": 2.4721550941467285, "learning_rate": 5.927417505365807e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231225, "epoch": 4.217165942526107, "step": 55325}, {"loss": 0.027258116006851196, "token_acc": 0.9881011403073872, "grad_norm": 0.938816487789154, "learning_rate": 5.921764018788595e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231227, "epoch": 4.2175470691363675, "step": 55330}, {"loss": 0.033673858642578124, "token_acc": 0.9846057832327855, "grad_norm": 1.3245903253555298, "learning_rate": 5.916113059893674e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231231, "epoch": 4.217928195746627, "step": 55335}, {"loss": 0.02315828800201416, "token_acc": 0.9878987898789879, "grad_norm": 0.898905336856842, "learning_rate": 5.910464629005091e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231234, "epoch": 4.218309322356887, "step": 55340}, {"loss": 0.01832747757434845, "token_acc": 0.9908306364617044, "grad_norm": 0.8714662194252014, "learning_rate": 5.904818726446759e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231241, "epoch": 4.218690448967147, "step": 55345}, {"loss": 0.05176819562911987, "token_acc": 0.9824959481361426, "grad_norm": 1.1509640216827393, "learning_rate": 5.899175352542457e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231247, "epoch": 4.219071575577407, "step": 55350}, {"loss": 0.042900896072387694, "token_acc": 0.9816940738442445, "grad_norm": 1.6465777158737183, "learning_rate": 5.893534507615783e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231253, "epoch": 4.219452702187667, "step": 55355}, {"loss": 0.02973032891750336, "token_acc": 0.9887751083103584, "grad_norm": 0.7855560779571533, "learning_rate": 5.8878961919902275e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231259, "epoch": 4.219833828797927, "step": 55360}, {"loss": 0.04169154167175293, "token_acc": 0.9815059445178336, "grad_norm": 1.3315565586090088, "learning_rate": 5.882260405989132e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231266, "epoch": 4.220214955408187, "step": 55365}, {"loss": 0.023150771856307983, "token_acc": 0.9901389511429852, "grad_norm": 1.2262063026428223, "learning_rate": 5.87662714993566e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231272, "epoch": 4.220596082018447, "step": 55370}, {"loss": 0.05374323129653931, "token_acc": 0.9746865959498554, "grad_norm": 0.9751487970352173, "learning_rate": 5.870996424152864e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231278, "epoch": 4.220977208628707, "step": 55375}, {"loss": 0.04377599060535431, "token_acc": 0.9834311356575768, "grad_norm": 0.8549553155899048, "learning_rate": 5.865368228963636e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231283, "epoch": 4.221358335238967, "step": 55380}, {"loss": 0.061805224418640135, "token_acc": 0.9770303527481542, "grad_norm": 1.7336773872375488, "learning_rate": 5.859742564690735e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231287, "epoch": 4.221739461849226, "step": 55385}, {"loss": 0.03314964771270752, "token_acc": 0.9857603949117144, "grad_norm": 0.7327417135238647, "learning_rate": 5.8541194316567684e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231293, "epoch": 4.222120588459486, "step": 55390}, {"loss": 0.03203316032886505, "token_acc": 0.9813053460150869, "grad_norm": 1.0110148191452026, "learning_rate": 5.848498830184179e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231299, "epoch": 4.222501715069746, "step": 55395}, {"loss": 0.03214051127433777, "token_acc": 0.9889949830069591, "grad_norm": 0.5330761671066284, "learning_rate": 5.842880760595298e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231303, "epoch": 4.222882841680006, "step": 55400}, {"eval_loss": 0.05143863335251808, "eval_token_acc": 0.9796849587374254, "eval_runtime": 190.6969, "eval_samples_per_second": 2.779, "eval_steps_per_second": 2.779, "epoch": 4.222882841680006, "step": 55400}, {"loss": 0.05170719623565674, "token_acc": 0.9796420937084753, "grad_norm": 1.4159185886383057, "learning_rate": 5.837265223212302e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231124, "epoch": 4.223263968290266, "step": 55405}, {"loss": 0.014931032061576843, "token_acc": 0.9941646191646192, "grad_norm": 0.7959277033805847, "learning_rate": 5.831652218357192e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23113, "epoch": 4.223645094900526, "step": 55410}, {"loss": 0.034714192152023315, "token_acc": 0.9873740956163994, "grad_norm": 0.5972065925598145, "learning_rate": 5.826041746351863e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231134, "epoch": 4.224026221510786, "step": 55415}, {"loss": 0.04720616042613983, "token_acc": 0.9861751152073732, "grad_norm": 3.350816249847412, "learning_rate": 5.820433807518055e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231142, "epoch": 4.224407348121046, "step": 55420}, {"loss": 0.03379968106746674, "token_acc": 0.9885540761504321, "grad_norm": 2.4044203758239746, "learning_rate": 5.814828402177342e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231147, "epoch": 4.224788474731306, "step": 55425}, {"loss": 0.041115564107894895, "token_acc": 0.9797837329572168, "grad_norm": 1.9135187864303589, "learning_rate": 5.809225530651175e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23115, "epoch": 4.225169601341566, "step": 55430}, {"loss": 0.0339178740978241, "token_acc": 0.9907054337464252, "grad_norm": 0.9383395314216614, "learning_rate": 5.803625193260864e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231156, "epoch": 4.225550727951825, "step": 55435}, {"loss": 0.037212294340133664, "token_acc": 0.9819196428571428, "grad_norm": 1.1289457082748413, "learning_rate": 5.798027390327543e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231162, "epoch": 4.225931854562085, "step": 55440}, {"loss": 0.03086470365524292, "token_acc": 0.9887580299785867, "grad_norm": 1.9063247442245483, "learning_rate": 5.792432122172231e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231168, "epoch": 4.226312981172345, "step": 55445}, {"loss": 0.04246129095554352, "token_acc": 0.9835234474017744, "grad_norm": 0.5388110876083374, "learning_rate": 5.786839389115794e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231173, "epoch": 4.226694107782605, "step": 55450}, {"loss": 0.031179898977279664, "token_acc": 0.9897585954645208, "grad_norm": 0.1315968781709671, "learning_rate": 5.781249191478938e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23118, "epoch": 4.227075234392865, "step": 55455}, {"loss": 0.049688971042633055, "token_acc": 0.982310372554275, "grad_norm": 1.5521327257156372, "learning_rate": 5.775661529582249e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231186, "epoch": 4.227456361003125, "step": 55460}, {"loss": 0.034239640831947325, "token_acc": 0.9853691731881592, "grad_norm": 0.6377988457679749, "learning_rate": 5.770076403746133e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231192, "epoch": 4.227837487613385, "step": 55465}, {"loss": 0.03402649760246277, "token_acc": 0.9851757729775519, "grad_norm": 1.3450336456298828, "learning_rate": 5.764493814290883e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231196, "epoch": 4.228218614223645, "step": 55470}, {"loss": 0.02172076404094696, "token_acc": 0.9931124959002952, "grad_norm": 0.7203817963600159, "learning_rate": 5.75891376153665e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231202, "epoch": 4.228599740833905, "step": 55475}, {"loss": 0.02292395383119583, "token_acc": 0.988398415393322, "grad_norm": 0.10536673665046692, "learning_rate": 5.753336245803398e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231209, "epoch": 4.228980867444165, "step": 55480}, {"loss": 0.03022457957267761, "token_acc": 0.9877594465141033, "grad_norm": 1.3946874141693115, "learning_rate": 5.747761267410978e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231217, "epoch": 4.2293619940544245, "step": 55485}, {"loss": 0.03815813958644867, "token_acc": 0.9863657733897508, "grad_norm": 0.3025609850883484, "learning_rate": 5.742188826679107e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231221, "epoch": 4.2297431206646845, "step": 55490}, {"loss": 0.02344596982002258, "token_acc": 0.9883870967741936, "grad_norm": 0.31161943078041077, "learning_rate": 5.736618923927317e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231224, "epoch": 4.2301242472749445, "step": 55495}, {"loss": 0.018935438990592957, "token_acc": 0.9910019455252919, "grad_norm": 0.16098657250404358, "learning_rate": 5.7310515594750205e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23123, "epoch": 4.2305053738852045, "step": 55500}, {"loss": 0.02893900275230408, "token_acc": 0.988589766446782, "grad_norm": 1.453188180923462, "learning_rate": 5.725486733641494e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231234, "epoch": 4.2308865004954646, "step": 55505}, {"loss": 0.025292667746543884, "token_acc": 0.989634748272458, "grad_norm": 0.9316104650497437, "learning_rate": 5.719924446745828e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231239, "epoch": 4.231267627105725, "step": 55510}, {"loss": 0.03176144957542419, "token_acc": 0.9916652775462577, "grad_norm": 2.1183507442474365, "learning_rate": 5.7143646991070275e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231244, "epoch": 4.231648753715985, "step": 55515}, {"loss": 0.050456440448760985, "token_acc": 0.9871934604904632, "grad_norm": 1.5971215963363647, "learning_rate": 5.708807491043894e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23125, "epoch": 4.232029880326245, "step": 55520}, {"loss": 0.07084723114967346, "token_acc": 0.9782405968293441, "grad_norm": 0.4628068804740906, "learning_rate": 5.703252822875116e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231253, "epoch": 4.232411006936505, "step": 55525}, {"loss": 0.032654482126235965, "token_acc": 0.9898334794040315, "grad_norm": 0.42939600348472595, "learning_rate": 5.697700694919234e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231257, "epoch": 4.232792133546765, "step": 55530}, {"loss": 0.024700118601322173, "token_acc": 0.9896907216494846, "grad_norm": 0.1929548680782318, "learning_rate": 5.69215110749462e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231265, "epoch": 4.233173260157024, "step": 55535}, {"loss": 0.020641586184501647, "token_acc": 0.988249694002448, "grad_norm": 0.7563052177429199, "learning_rate": 5.686604060919526e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23127, "epoch": 4.233554386767284, "step": 55540}, {"loss": 0.03583637475967407, "token_acc": 0.9830102374210412, "grad_norm": 0.9931066036224365, "learning_rate": 5.681059555512058e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231276, "epoch": 4.233935513377544, "step": 55545}, {"loss": 0.050568246841430665, "token_acc": 0.979702300405954, "grad_norm": 2.455418586730957, "learning_rate": 5.675517591590152e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231282, "epoch": 4.234316639987804, "step": 55550}, {"loss": 0.024629752337932586, "token_acc": 0.9918908956874309, "grad_norm": 0.5062316060066223, "learning_rate": 5.6699781694716185e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231285, "epoch": 4.234697766598064, "step": 55555}, {"loss": 0.03336159586906433, "token_acc": 0.9817454363590897, "grad_norm": 0.9456076622009277, "learning_rate": 5.6644412894741314e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231291, "epoch": 4.235078893208324, "step": 55560}, {"loss": 0.05252414345741272, "token_acc": 0.9820816864295125, "grad_norm": 0.27335476875305176, "learning_rate": 5.658906951915188e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231296, "epoch": 4.235460019818584, "step": 55565}, {"loss": 0.027564799785614012, "token_acc": 0.9915480427046264, "grad_norm": 0.8343319296836853, "learning_rate": 5.653375157112156e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231302, "epoch": 4.235841146428844, "step": 55570}, {"loss": 0.04632106423377991, "token_acc": 0.982182084452038, "grad_norm": 1.1917659044265747, "learning_rate": 5.6478459053822816e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231307, "epoch": 4.236222273039104, "step": 55575}, {"loss": 0.020627635717391967, "token_acc": 0.9877908646940534, "grad_norm": 0.9330425262451172, "learning_rate": 5.642319197042611e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231312, "epoch": 4.236603399649364, "step": 55580}, {"loss": 0.0322589099407196, "token_acc": 0.9878682842287695, "grad_norm": 1.00416898727417, "learning_rate": 5.6367950324100975e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231317, "epoch": 4.236984526259623, "step": 55585}, {"loss": 0.021205219626426696, "token_acc": 0.9887857695282289, "grad_norm": 1.6256523132324219, "learning_rate": 5.6312734118015185e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231321, "epoch": 4.237365652869883, "step": 55590}, {"loss": 0.062058103084564206, "token_acc": 0.9818627450980392, "grad_norm": 1.8889739513397217, "learning_rate": 5.625754335533512e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231329, "epoch": 4.237746779480143, "step": 55595}, {"loss": 0.025379469990730284, "token_acc": 0.991161441789808, "grad_norm": 0.8898444771766663, "learning_rate": 5.620237803922568e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231333, "epoch": 4.238127906090403, "step": 55600}, {"eval_loss": 0.051023125648498535, "eval_token_acc": 0.9797150774049757, "eval_runtime": 186.7651, "eval_samples_per_second": 2.838, "eval_steps_per_second": 2.838, "epoch": 4.238127906090403, "step": 55600}, {"loss": 0.03135631680488586, "token_acc": 0.9798871791842642, "grad_norm": 1.6823430061340332, "learning_rate": 5.61472381728505e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23116, "epoch": 4.238509032700663, "step": 55605}, {"loss": 0.0784042239189148, "token_acc": 0.9674906874365052, "grad_norm": 0.6572668552398682, "learning_rate": 5.609212375937134e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231167, "epoch": 4.238890159310923, "step": 55610}, {"loss": 0.029264092445373535, "token_acc": 0.985897435897436, "grad_norm": 0.9683722257614136, "learning_rate": 5.603703480194894e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231171, "epoch": 4.239271285921183, "step": 55615}, {"loss": 0.04463421702384949, "token_acc": 0.9825842696629213, "grad_norm": 0.35510164499282837, "learning_rate": 5.598197130374244e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231178, "epoch": 4.239652412531443, "step": 55620}, {"loss": 0.031641560792922976, "token_acc": 0.9881221719457014, "grad_norm": 0.8370898962020874, "learning_rate": 5.592693326790932e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231183, "epoch": 4.240033539141703, "step": 55625}, {"loss": 0.020558997988700867, "token_acc": 0.9952254641909815, "grad_norm": 0.9573915600776672, "learning_rate": 5.5871920697605775e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231191, "epoch": 4.240414665751963, "step": 55630}, {"loss": 0.04411880671977997, "token_acc": 0.9800214822771214, "grad_norm": 0.9567024111747742, "learning_rate": 5.581693359598672e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231195, "epoch": 4.240795792362222, "step": 55635}, {"loss": 0.024760468304157256, "token_acc": 0.9895417379729987, "grad_norm": 0.9903087019920349, "learning_rate": 5.576197196620514e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2312, "epoch": 4.241176918972482, "step": 55640}, {"loss": 0.031729042530059814, "token_acc": 0.9842922028766087, "grad_norm": 3.717097520828247, "learning_rate": 5.570703581141295e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231206, "epoch": 4.241558045582742, "step": 55645}, {"loss": 0.023640228807926177, "token_acc": 0.9935537533790809, "grad_norm": 0.4493067264556885, "learning_rate": 5.565212513476048e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231212, "epoch": 4.241939172193002, "step": 55650}, {"loss": 0.031138277053833006, "token_acc": 0.988427143608627, "grad_norm": 1.25039803981781, "learning_rate": 5.559723993939664e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231218, "epoch": 4.2423202988032624, "step": 55655}, {"loss": 0.04189582467079163, "token_acc": 0.9845063458051755, "grad_norm": 0.9705250263214111, "learning_rate": 5.554238022846886e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231222, "epoch": 4.2427014254135225, "step": 55660}, {"loss": 0.04755587577819824, "token_acc": 0.9806896551724138, "grad_norm": 1.6370806694030762, "learning_rate": 5.548754600512301e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231228, "epoch": 4.2430825520237825, "step": 55665}, {"loss": 0.03403976559638977, "token_acc": 0.9843487041400202, "grad_norm": 0.9621847867965698, "learning_rate": 5.543273727250353e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231232, "epoch": 4.2434636786340425, "step": 55670}, {"loss": 0.02431725710630417, "token_acc": 0.9909584086799277, "grad_norm": 1.2499693632125854, "learning_rate": 5.537795403375368e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231239, "epoch": 4.2438448052443025, "step": 55675}, {"loss": 0.030416026711463928, "token_acc": 0.988401808531551, "grad_norm": 1.286186933517456, "learning_rate": 5.532319629201471e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231244, "epoch": 4.244225931854562, "step": 55680}, {"loss": 0.031170442700386047, "token_acc": 0.9872367581365666, "grad_norm": 0.8849012851715088, "learning_rate": 5.526846405042701e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231249, "epoch": 4.244607058464822, "step": 55685}, {"loss": 0.02484828680753708, "token_acc": 0.9896947307019249, "grad_norm": 0.7004885077476501, "learning_rate": 5.521375731212902e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231254, "epoch": 4.244988185075082, "step": 55690}, {"loss": 0.031246325373649596, "token_acc": 0.9868829823955816, "grad_norm": 1.2400579452514648, "learning_rate": 5.515907608025794e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231261, "epoch": 4.245369311685342, "step": 55695}, {"loss": 0.043377363681793214, "token_acc": 0.9848823226249785, "grad_norm": 0.5791195034980774, "learning_rate": 5.510442035794966e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231265, "epoch": 4.245750438295602, "step": 55700}, {"loss": 0.059115856885910034, "token_acc": 0.9694706073400454, "grad_norm": 1.2839840650558472, "learning_rate": 5.504979014833822e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231271, "epoch": 4.246131564905862, "step": 55705}, {"loss": 0.040796682238578796, "token_acc": 0.9812313379781032, "grad_norm": 1.0479323863983154, "learning_rate": 5.4995185454556456e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231274, "epoch": 4.246512691516122, "step": 55710}, {"loss": 0.03109516203403473, "token_acc": 0.9867744305657604, "grad_norm": 0.6933945417404175, "learning_rate": 5.494060627973585e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23128, "epoch": 4.246893818126382, "step": 55715}, {"loss": 0.04874084591865539, "token_acc": 0.9775987918449535, "grad_norm": 1.0038052797317505, "learning_rate": 5.488605262700602e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231286, "epoch": 4.247274944736642, "step": 55720}, {"loss": 0.03826970756053925, "token_acc": 0.9842843326885881, "grad_norm": 2.268214702606201, "learning_rate": 5.483152449949552e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231291, "epoch": 4.247656071346902, "step": 55725}, {"loss": 0.052023154497146604, "token_acc": 0.9833380803189974, "grad_norm": 1.2620925903320312, "learning_rate": 5.477702190033135e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231294, "epoch": 4.248037197957161, "step": 55730}, {"loss": 0.040706795454025266, "token_acc": 0.9811240721102863, "grad_norm": 0.6020711064338684, "learning_rate": 5.472254483263883e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231298, "epoch": 4.248418324567421, "step": 55735}, {"loss": 0.035697543621063234, "token_acc": 0.9864399483426604, "grad_norm": 0.8475333452224731, "learning_rate": 5.466809329954198e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231303, "epoch": 4.248799451177681, "step": 55740}, {"loss": 0.03310554027557373, "token_acc": 0.9853848652159792, "grad_norm": 1.0141565799713135, "learning_rate": 5.461366730416345e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23131, "epoch": 4.249180577787941, "step": 55745}, {"loss": 0.023779386281967164, "token_acc": 0.9915555555555555, "grad_norm": 0.9373081922531128, "learning_rate": 5.45592668496242e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231318, "epoch": 4.249561704398201, "step": 55750}, {"loss": 0.022957149147987365, "token_acc": 0.9862700228832952, "grad_norm": 0.9089663624763489, "learning_rate": 5.4504891939043904e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231324, "epoch": 4.249942831008461, "step": 55755}, {"loss": 0.037996339797973636, "token_acc": 0.989563765393446, "grad_norm": 0.7605732679367065, "learning_rate": 5.4450542575540774e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231327, "epoch": 4.250323957618721, "step": 55760}, {"loss": 0.03594544529914856, "token_acc": 0.984437350359138, "grad_norm": 1.0327438116073608, "learning_rate": 5.439621876223139e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231332, "epoch": 4.250705084228981, "step": 55765}, {"loss": 0.03485516607761383, "token_acc": 0.9847623966942148, "grad_norm": 0.9550861716270447, "learning_rate": 5.434192050223092e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231338, "epoch": 4.251086210839241, "step": 55770}, {"loss": 0.04105111360549927, "token_acc": 0.9839867476532302, "grad_norm": 0.9575262665748596, "learning_rate": 5.428764779865336e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231344, "epoch": 4.251467337449501, "step": 55775}, {"loss": 0.03346918225288391, "token_acc": 0.9884769539078156, "grad_norm": 1.4627716541290283, "learning_rate": 5.423340065461063e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231349, "epoch": 4.25184846405976, "step": 55780}, {"loss": 0.034051910042762756, "token_acc": 0.9858417377812257, "grad_norm": 1.3987767696380615, "learning_rate": 5.417917907321396e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231353, "epoch": 4.25222959067002, "step": 55785}, {"loss": 0.04685159325599671, "token_acc": 0.9805912212600776, "grad_norm": 2.2202696800231934, "learning_rate": 5.412498305757241e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231355, "epoch": 4.25261071728028, "step": 55790}, {"loss": 0.03173722624778748, "token_acc": 0.9837973528069375, "grad_norm": 2.2798538208007812, "learning_rate": 5.407081261079394e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231361, "epoch": 4.25299184389054, "step": 55795}, {"loss": 0.0327546238899231, "token_acc": 0.9857414448669202, "grad_norm": 1.3044331073760986, "learning_rate": 5.401666773598513e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231367, "epoch": 4.2533729705008, "step": 55800}, {"eval_loss": 0.05061187222599983, "eval_token_acc": 0.9797226070718631, "eval_runtime": 186.1415, "eval_samples_per_second": 2.847, "eval_steps_per_second": 2.847, "epoch": 4.2533729705008, "step": 55800}, {"loss": 0.03288579285144806, "token_acc": 0.9799062587789984, "grad_norm": 0.10742887854576111, "learning_rate": 5.396254843625071e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231195, "epoch": 4.25375409711106, "step": 55805}, {"loss": 0.03049021363258362, "token_acc": 0.9873943945286309, "grad_norm": 0.8881111145019531, "learning_rate": 5.39084547146943e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231198, "epoch": 4.25413522372132, "step": 55810}, {"loss": 0.027132943272590637, "token_acc": 0.9867817147053424, "grad_norm": 1.100844144821167, "learning_rate": 5.385438657441794e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231202, "epoch": 4.25451635033158, "step": 55815}, {"loss": 0.016745986044406892, "token_acc": 0.992717643164515, "grad_norm": 1.0397592782974243, "learning_rate": 5.380034401852207e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231209, "epoch": 4.25489747694184, "step": 55820}, {"loss": 0.027237117290496826, "token_acc": 0.98842476094615, "grad_norm": 0.923952043056488, "learning_rate": 5.374632705010585e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231214, "epoch": 4.2552786035521, "step": 55825}, {"loss": 0.027714183926582335, "token_acc": 0.9886363636363636, "grad_norm": 1.0628695487976074, "learning_rate": 5.3692335672267e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231219, "epoch": 4.2556597301623595, "step": 55830}, {"loss": 0.03212621808052063, "token_acc": 0.9869011976047904, "grad_norm": 0.8408164381980896, "learning_rate": 5.363836988810145e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231224, "epoch": 4.25604085677262, "step": 55835}, {"loss": 0.02750459611415863, "token_acc": 0.9896670493685419, "grad_norm": 0.7279913425445557, "learning_rate": 5.3584429700704046e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23123, "epoch": 4.25642198338288, "step": 55840}, {"loss": 0.042927712202072144, "token_acc": 0.9851592664092664, "grad_norm": 0.979219377040863, "learning_rate": 5.3530515113168085e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231231, "epoch": 4.25680310999314, "step": 55845}, {"loss": 0.02330757975578308, "token_acc": 0.9895052473763118, "grad_norm": 0.6738657355308533, "learning_rate": 5.347662612858512e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231233, "epoch": 4.2571842366034, "step": 55850}, {"loss": 0.04608000218868256, "token_acc": 0.9884083816317432, "grad_norm": 0.6510804295539856, "learning_rate": 5.34227627500456e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23124, "epoch": 4.25756536321366, "step": 55855}, {"loss": 0.03260180950164795, "token_acc": 0.9863539445628998, "grad_norm": 2.241509199142456, "learning_rate": 5.3368924980638165e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231246, "epoch": 4.25794648982392, "step": 55860}, {"loss": 0.027350258827209473, "token_acc": 0.9913587604290822, "grad_norm": 0.7324682474136353, "learning_rate": 5.331511282345025e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231253, "epoch": 4.25832761643418, "step": 55865}, {"loss": 0.03706401884555817, "token_acc": 0.9880788053708119, "grad_norm": 0.8822376132011414, "learning_rate": 5.326132628156788e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231254, "epoch": 4.25870874304444, "step": 55870}, {"loss": 0.027686327695846558, "token_acc": 0.9904171364148816, "grad_norm": 0.7976823449134827, "learning_rate": 5.320756535807519e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23126, "epoch": 4.2590898696547, "step": 55875}, {"loss": 0.022088515758514404, "token_acc": 0.9890792694407833, "grad_norm": 0.9616652727127075, "learning_rate": 5.315383005605529e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231265, "epoch": 4.259470996264959, "step": 55880}, {"loss": 0.04564012289047241, "token_acc": 0.98528, "grad_norm": 3.0265095233917236, "learning_rate": 5.310012037858969e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231271, "epoch": 4.259852122875219, "step": 55885}, {"loss": 0.03886063694953919, "token_acc": 0.983341045812124, "grad_norm": 0.5774654150009155, "learning_rate": 5.304643632875822e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231276, "epoch": 4.260233249485479, "step": 55890}, {"loss": 0.01950731873512268, "token_acc": 0.9930091657604474, "grad_norm": 0.5466727614402771, "learning_rate": 5.299277790963953e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231281, "epoch": 4.260614376095739, "step": 55895}, {"loss": 0.015646776556968688, "token_acc": 0.9910098264687435, "grad_norm": 1.1077451705932617, "learning_rate": 5.293914512431075e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231286, "epoch": 4.260995502705999, "step": 55900}, {"loss": 0.02945254147052765, "token_acc": 0.9900779588944011, "grad_norm": 0.2987518012523651, "learning_rate": 5.288553797584728e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231292, "epoch": 4.261376629316259, "step": 55905}, {"loss": 0.038922616839408876, "token_acc": 0.9833107803337844, "grad_norm": 2.2152915000915527, "learning_rate": 5.2831956467323305e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231299, "epoch": 4.261757755926519, "step": 55910}, {"loss": 0.024721261858940125, "token_acc": 0.9938434476693052, "grad_norm": 1.480915904045105, "learning_rate": 5.277840060181155e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231307, "epoch": 4.262138882536779, "step": 55915}, {"loss": 0.027003493905067445, "token_acc": 0.9855623100303952, "grad_norm": 0.8018785715103149, "learning_rate": 5.272487038238317e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231312, "epoch": 4.262520009147039, "step": 55920}, {"loss": 0.04031466841697693, "token_acc": 0.9853095487932844, "grad_norm": 0.8384920358657837, "learning_rate": 5.267136581210796e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231317, "epoch": 4.262901135757298, "step": 55925}, {"loss": 0.035682350397109985, "token_acc": 0.9914666666666667, "grad_norm": 2.0321948528289795, "learning_rate": 5.261788689405394e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231323, "epoch": 4.263282262367558, "step": 55930}, {"loss": 0.04486962854862213, "token_acc": 0.9882171141587792, "grad_norm": 0.5227847695350647, "learning_rate": 5.256443363128805e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231326, "epoch": 4.263663388977818, "step": 55935}, {"loss": 0.043025851249694824, "token_acc": 0.9867619247741122, "grad_norm": 2.0290746688842773, "learning_rate": 5.2511006026875585e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23133, "epoch": 4.264044515588078, "step": 55940}, {"loss": 0.034803324937820436, "token_acc": 0.9866049280635025, "grad_norm": 1.4065628051757812, "learning_rate": 5.245760408388023e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231334, "epoch": 4.264425642198338, "step": 55945}, {"loss": 0.025256389379501344, "token_acc": 0.9913935176707562, "grad_norm": 0.663159966468811, "learning_rate": 5.240422780536441e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231339, "epoch": 4.264806768808598, "step": 55950}, {"loss": 0.05578843355178833, "token_acc": 0.9779296875, "grad_norm": 1.8307753801345825, "learning_rate": 5.235087719438919e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231344, "epoch": 4.265187895418858, "step": 55955}, {"loss": 0.03542043566703797, "token_acc": 0.9826415094339622, "grad_norm": 1.1265560388565063, "learning_rate": 5.229755225401367e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231351, "epoch": 4.265569022029118, "step": 55960}, {"loss": 0.02178962379693985, "token_acc": 0.9921985815602837, "grad_norm": 0.4838615655899048, "learning_rate": 5.2244252987295965e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231355, "epoch": 4.265950148639378, "step": 55965}, {"loss": 0.035409939289093015, "token_acc": 0.9895300706111517, "grad_norm": 2.8898351192474365, "learning_rate": 5.219097939729256e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231362, "epoch": 4.266331275249638, "step": 55970}, {"loss": 0.03228876888751984, "token_acc": 0.9907825772636906, "grad_norm": 0.9155134558677673, "learning_rate": 5.213773148705836e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231367, "epoch": 4.266712401859898, "step": 55975}, {"loss": 0.027496135234832762, "token_acc": 0.9881261595547309, "grad_norm": 0.9192335605621338, "learning_rate": 5.208450925964687e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231371, "epoch": 4.267093528470157, "step": 55980}, {"loss": 0.04288991689682007, "token_acc": 0.9870100273473108, "grad_norm": 2.3140456676483154, "learning_rate": 5.203131271811035e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231377, "epoch": 4.2674746550804175, "step": 55985}, {"loss": 0.025165802240371703, "token_acc": 0.9907001228285665, "grad_norm": 1.1888647079467773, "learning_rate": 5.19781418654991e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231381, "epoch": 4.2678557816906775, "step": 55990}, {"loss": 0.03362097442150116, "token_acc": 0.9871134020618557, "grad_norm": 0.706360399723053, "learning_rate": 5.192499670486228e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231386, "epoch": 4.2682369083009375, "step": 55995}, {"loss": 0.030249857902526857, "token_acc": 0.9830508474576272, "grad_norm": 1.821107268333435, "learning_rate": 5.187187723924774e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231392, "epoch": 4.2686180349111975, "step": 56000}, {"eval_loss": 0.050435010343790054, "eval_token_acc": 0.9797301367387506, "eval_runtime": 186.1172, "eval_samples_per_second": 2.848, "eval_steps_per_second": 2.848, "epoch": 4.2686180349111975, "step": 56000}, {"loss": 0.029318276047706603, "token_acc": 0.9800358166189111, "grad_norm": 0.7955253720283508, "learning_rate": 5.181878347170132e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231218, "epoch": 4.2689991615214575, "step": 56005}, {"loss": 0.039894679188728334, "token_acc": 0.9817785700138641, "grad_norm": 0.5767116546630859, "learning_rate": 5.176571540526792e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231224, "epoch": 4.2693802881317175, "step": 56010}, {"loss": 0.02735731899738312, "token_acc": 0.9882422104644327, "grad_norm": 0.8838576674461365, "learning_rate": 5.171267304299071e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231232, "epoch": 4.269761414741978, "step": 56015}, {"loss": 0.03018256425857544, "token_acc": 0.9875518672199171, "grad_norm": 0.8391122221946716, "learning_rate": 5.165965638791137e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231238, "epoch": 4.270142541352238, "step": 56020}, {"loss": 0.03469514846801758, "token_acc": 0.98900595510765, "grad_norm": 1.3880473375320435, "learning_rate": 5.160666544307024e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231243, "epoch": 4.270523667962497, "step": 56025}, {"loss": 0.0213482066988945, "token_acc": 0.990025223572575, "grad_norm": 0.8367213010787964, "learning_rate": 5.155370021150596e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231248, "epoch": 4.270904794572757, "step": 56030}, {"loss": 0.02963692247867584, "token_acc": 0.9889842632331902, "grad_norm": 1.4721362590789795, "learning_rate": 5.150076069625587e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231249, "epoch": 4.271285921183017, "step": 56035}, {"loss": 0.034291785955429074, "token_acc": 0.9893981405969663, "grad_norm": 1.4627041816711426, "learning_rate": 5.144784690035604e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231253, "epoch": 4.271667047793277, "step": 56040}, {"loss": 0.02333555817604065, "token_acc": 0.9921609076843734, "grad_norm": 0.9179987907409668, "learning_rate": 5.139495882684042e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231254, "epoch": 4.272048174403537, "step": 56045}, {"loss": 0.029423293471336365, "token_acc": 0.9926881720430107, "grad_norm": 1.3345279693603516, "learning_rate": 5.134209647874222e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231261, "epoch": 4.272429301013797, "step": 56050}, {"loss": 0.030446305871009827, "token_acc": 0.9899592944369063, "grad_norm": 1.6184276342391968, "learning_rate": 5.128925985909289e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231265, "epoch": 4.272810427624057, "step": 56055}, {"loss": 0.04707072675228119, "token_acc": 0.9856837606837607, "grad_norm": 1.2767040729522705, "learning_rate": 5.1236448970922115e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23127, "epoch": 4.273191554234317, "step": 56060}, {"loss": 0.03010045289993286, "token_acc": 0.9867947178871549, "grad_norm": 2.884556293487549, "learning_rate": 5.118366381725848e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231277, "epoch": 4.273572680844577, "step": 56065}, {"loss": 0.05185847878456116, "token_acc": 0.982716513244411, "grad_norm": 2.132399082183838, "learning_rate": 5.1130904401129055e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231282, "epoch": 4.273953807454837, "step": 56070}, {"loss": 0.03215884566307068, "token_acc": 0.9864308214199177, "grad_norm": 0.8832416534423828, "learning_rate": 5.107817072555915e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231288, "epoch": 4.274334934065096, "step": 56075}, {"loss": 0.023228850960731507, "token_acc": 0.9906984906984907, "grad_norm": 0.526527464389801, "learning_rate": 5.102546279357301e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231292, "epoch": 4.274716060675356, "step": 56080}, {"loss": 0.03415350317955017, "token_acc": 0.9870603848706039, "grad_norm": 3.236386775970459, "learning_rate": 5.097278060819299e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231299, "epoch": 4.275097187285616, "step": 56085}, {"loss": 0.028768056631088258, "token_acc": 0.990990990990991, "grad_norm": 2.2770841121673584, "learning_rate": 5.0920124172440295e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231306, "epoch": 4.275478313895876, "step": 56090}, {"loss": 0.030387488007545472, "token_acc": 0.9821570182394924, "grad_norm": 1.090156078338623, "learning_rate": 5.086749348933456e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231312, "epoch": 4.275859440506136, "step": 56095}, {"loss": 0.04598428606987, "token_acc": 0.9845581395348837, "grad_norm": 4.913140296936035, "learning_rate": 5.08148885618937e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231316, "epoch": 4.276240567116396, "step": 56100}, {"loss": 0.033177369832992555, "token_acc": 0.9844167408726625, "grad_norm": 1.187787413597107, "learning_rate": 5.076230939313459e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231321, "epoch": 4.276621693726656, "step": 56105}, {"loss": 0.03173680603504181, "token_acc": 0.9890338438268104, "grad_norm": 1.08171546459198, "learning_rate": 5.070975598607236e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231327, "epoch": 4.277002820336916, "step": 56110}, {"loss": 0.028880318999290465, "token_acc": 0.987602840076637, "grad_norm": 0.7866901159286499, "learning_rate": 5.065722834372055e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231328, "epoch": 4.277383946947176, "step": 56115}, {"loss": 0.04040428102016449, "token_acc": 0.9813639968279143, "grad_norm": 1.2954652309417725, "learning_rate": 5.060472646909154e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231333, "epoch": 4.277765073557436, "step": 56120}, {"loss": 0.028511819243431092, "token_acc": 0.9905325443786982, "grad_norm": 0.7754842042922974, "learning_rate": 5.055225036519612e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231341, "epoch": 4.278146200167695, "step": 56125}, {"loss": 0.03959351181983948, "token_acc": 0.983982683982684, "grad_norm": 1.3386951684951782, "learning_rate": 5.049980003504329e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231347, "epoch": 4.278527326777955, "step": 56130}, {"loss": 0.038133054971694946, "token_acc": 0.9865223155103845, "grad_norm": 1.1254962682724, "learning_rate": 5.044737548164102e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231353, "epoch": 4.278908453388215, "step": 56135}, {"loss": 0.026303672790527345, "token_acc": 0.9891072697134738, "grad_norm": 0.7885187864303589, "learning_rate": 5.03949767079957e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23136, "epoch": 4.279289579998475, "step": 56140}, {"loss": 0.03664742112159729, "token_acc": 0.9864885152379522, "grad_norm": 1.0124826431274414, "learning_rate": 5.0342603717111965e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231365, "epoch": 4.279670706608735, "step": 56145}, {"loss": 0.05330157876014709, "token_acc": 0.9823985680190931, "grad_norm": 2.797420024871826, "learning_rate": 5.029025651199321e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231372, "epoch": 4.280051833218995, "step": 56150}, {"loss": 0.03743847012519837, "token_acc": 0.9856020942408377, "grad_norm": 1.333232045173645, "learning_rate": 5.023793509564145e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231379, "epoch": 4.280432959829255, "step": 56155}, {"loss": 0.01651999056339264, "token_acc": 0.9918573943661971, "grad_norm": 0.6326130032539368, "learning_rate": 5.018563947105686e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231381, "epoch": 4.280814086439515, "step": 56160}, {"loss": 0.027526196837425233, "token_acc": 0.9864195265186273, "grad_norm": 2.9814226627349854, "learning_rate": 5.013336964123844e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231387, "epoch": 4.2811952130497755, "step": 56165}, {"loss": 0.0338642954826355, "token_acc": 0.9838957055214724, "grad_norm": 1.218881607055664, "learning_rate": 5.008112560918371e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231395, "epoch": 4.2815763396600355, "step": 56170}, {"loss": 0.028844505548477173, "token_acc": 0.9888156580786899, "grad_norm": 1.0354249477386475, "learning_rate": 5.002890737788851e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2314, "epoch": 4.281957466270295, "step": 56175}, {"loss": 0.062215662002563475, "token_acc": 0.9790304396843292, "grad_norm": 1.47127366065979, "learning_rate": 4.997671495034728e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231407, "epoch": 4.282338592880555, "step": 56180}, {"loss": 0.023804795742034913, "token_acc": 0.9903578315834584, "grad_norm": 3.424586296081543, "learning_rate": 4.992454832955318e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231414, "epoch": 4.282719719490815, "step": 56185}, {"loss": 0.03785799145698547, "token_acc": 0.9852858744394619, "grad_norm": 1.097609281539917, "learning_rate": 4.987240751849753e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231417, "epoch": 4.283100846101075, "step": 56190}, {"loss": 0.0590688943862915, "token_acc": 0.9768465365480291, "grad_norm": 2.096236228942871, "learning_rate": 4.982029252017062e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231423, "epoch": 4.283481972711335, "step": 56195}, {"loss": 0.023588380217552184, "token_acc": 0.9905596763317599, "grad_norm": 0.8003596067428589, "learning_rate": 4.976820333756071e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231429, "epoch": 4.283863099321595, "step": 56200}, {"eval_loss": 0.05034811794757843, "eval_token_acc": 0.9797301367387506, "eval_runtime": 162.042, "eval_samples_per_second": 3.271, "eval_steps_per_second": 3.271, "epoch": 4.283863099321595, "step": 56200}, {"loss": 0.028111782670021058, "token_acc": 0.979880349610432, "grad_norm": 2.373654842376709, "learning_rate": 4.971613997365504e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231283, "epoch": 4.284244225931855, "step": 56205}, {"loss": 0.024873843789100646, "token_acc": 0.9884479224892864, "grad_norm": 0.951248288154602, "learning_rate": 4.9664102431439266e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231288, "epoch": 4.284625352542115, "step": 56210}, {"loss": 0.03191918134689331, "token_acc": 0.9832402234636871, "grad_norm": 1.2183493375778198, "learning_rate": 4.961209071389727e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231295, "epoch": 4.285006479152375, "step": 56215}, {"loss": 0.01554737687110901, "token_acc": 0.9926058704907014, "grad_norm": 0.6407907009124756, "learning_rate": 4.9560104824011855e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2313, "epoch": 4.285387605762635, "step": 56220}, {"loss": 0.026825445890426635, "token_acc": 0.9886113152094048, "grad_norm": 0.7040459513664246, "learning_rate": 4.950814476476423e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231305, "epoch": 4.285768732372894, "step": 56225}, {"loss": 0.030958375334739684, "token_acc": 0.9907730673316708, "grad_norm": 0.8625585436820984, "learning_rate": 4.945621053913385e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231311, "epoch": 4.286149858983154, "step": 56230}, {"loss": 0.04194161295890808, "token_acc": 0.9852348993288591, "grad_norm": 1.4686434268951416, "learning_rate": 4.9404302150099e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231317, "epoch": 4.286530985593414, "step": 56235}, {"loss": 0.01748828887939453, "token_acc": 0.992377420683972, "grad_norm": 0.7705807685852051, "learning_rate": 4.935241960063652e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231324, "epoch": 4.286912112203674, "step": 56240}, {"loss": 0.033521583676338194, "token_acc": 0.9873382104670794, "grad_norm": 0.8479730486869812, "learning_rate": 4.930056289372143e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231331, "epoch": 4.287293238813934, "step": 56245}, {"loss": 0.02181389629840851, "token_acc": 0.9881563363600474, "grad_norm": 1.7344906330108643, "learning_rate": 4.924873203232766e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231338, "epoch": 4.287674365424194, "step": 56250}, {"loss": 0.03527817726135254, "token_acc": 0.9851587450685704, "grad_norm": 0.8991094827651978, "learning_rate": 4.919692701942724e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231344, "epoch": 4.288055492034454, "step": 56255}, {"loss": 0.024499839544296263, "token_acc": 0.9921829762594094, "grad_norm": 0.5780420303344727, "learning_rate": 4.914514785799107e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231347, "epoch": 4.288436618644714, "step": 56260}, {"loss": 0.01602325141429901, "token_acc": 0.9924199355694523, "grad_norm": 0.516294538974762, "learning_rate": 4.909339455098855e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231352, "epoch": 4.288817745254974, "step": 56265}, {"loss": 0.04259299635887146, "token_acc": 0.9876044969731911, "grad_norm": 1.0164282321929932, "learning_rate": 4.90416671013873e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23136, "epoch": 4.289198871865233, "step": 56270}, {"loss": 0.033911556005477905, "token_acc": 0.9829749103942652, "grad_norm": 1.803491234779358, "learning_rate": 4.898996551215379e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231363, "epoch": 4.289579998475493, "step": 56275}, {"loss": 0.025949466228485107, "token_acc": 0.9891334633602675, "grad_norm": 0.8840876817703247, "learning_rate": 4.893828978625287e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23137, "epoch": 4.289961125085753, "step": 56280}, {"loss": 0.022670072317123414, "token_acc": 0.9907970906931869, "grad_norm": 1.0328891277313232, "learning_rate": 4.888663992664771e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231374, "epoch": 4.290342251696013, "step": 56285}, {"loss": 0.02787022292613983, "token_acc": 0.9889898860581232, "grad_norm": 1.0483834743499756, "learning_rate": 4.883501593630035e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231378, "epoch": 4.290723378306273, "step": 56290}, {"loss": 0.01933097392320633, "token_acc": 0.9939255884586181, "grad_norm": 1.2503665685653687, "learning_rate": 4.87834178181713e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231386, "epoch": 4.291104504916533, "step": 56295}, {"loss": 0.041626283526420595, "token_acc": 0.9814945613787258, "grad_norm": 1.8338510990142822, "learning_rate": 4.8731845575219205e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231391, "epoch": 4.291485631526793, "step": 56300}, {"loss": 0.028496125340461732, "token_acc": 0.9932523616734144, "grad_norm": 1.3895814418792725, "learning_rate": 4.868029921040168e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231399, "epoch": 4.291866758137053, "step": 56305}, {"loss": 0.021399299800395965, "token_acc": 0.991800878477306, "grad_norm": 0.9830102324485779, "learning_rate": 4.862877872667465e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231405, "epoch": 4.292247884747313, "step": 56310}, {"loss": 0.038104474544525146, "token_acc": 0.983739837398374, "grad_norm": 1.5869462490081787, "learning_rate": 4.857728412699236e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231412, "epoch": 4.292629011357573, "step": 56315}, {"loss": 0.022610053420066833, "token_acc": 0.9926870429401837, "grad_norm": 2.220918893814087, "learning_rate": 4.852581541430818e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231418, "epoch": 4.293010137967833, "step": 56320}, {"loss": 0.03175105154514313, "token_acc": 0.9881324172392255, "grad_norm": 1.1566609144210815, "learning_rate": 4.847437259157328e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231425, "epoch": 4.2933912645780925, "step": 56325}, {"loss": 0.04431872069835663, "token_acc": 0.9849669272399278, "grad_norm": 1.0312066078186035, "learning_rate": 4.842295566173782e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23143, "epoch": 4.2937723911883525, "step": 56330}, {"loss": 0.025273922085762023, "token_acc": 0.9890532544378698, "grad_norm": 0.6221259832382202, "learning_rate": 4.837156462775033e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231434, "epoch": 4.2941535177986125, "step": 56335}, {"loss": 0.04114666879177094, "token_acc": 0.9869186046511628, "grad_norm": 0.02295490726828575, "learning_rate": 4.8320199492557674e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231439, "epoch": 4.294534644408873, "step": 56340}, {"loss": 0.03767063319683075, "token_acc": 0.9824986537425956, "grad_norm": 0.7442665100097656, "learning_rate": 4.8268860259105595e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231441, "epoch": 4.294915771019133, "step": 56345}, {"loss": 0.022991889715194704, "token_acc": 0.9898150072749948, "grad_norm": 1.0683692693710327, "learning_rate": 4.821754693033814e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231446, "epoch": 4.295296897629393, "step": 56350}, {"loss": 0.041716134548187254, "token_acc": 0.9801849405548216, "grad_norm": 1.0162808895111084, "learning_rate": 4.816625950919779e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231452, "epoch": 4.295678024239653, "step": 56355}, {"loss": 0.02901039719581604, "token_acc": 0.9873657612128869, "grad_norm": 1.8937252759933472, "learning_rate": 4.811499799862562e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231456, "epoch": 4.296059150849913, "step": 56360}, {"loss": 0.02855513393878937, "token_acc": 0.9898111332007953, "grad_norm": 1.30540132522583, "learning_rate": 4.806376240156146e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231463, "epoch": 4.296440277460173, "step": 56365}, {"loss": 0.05185282230377197, "token_acc": 0.9815416420555227, "grad_norm": 1.186202883720398, "learning_rate": 4.8012552720943184e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231468, "epoch": 4.296821404070432, "step": 56370}, {"loss": 0.032538068294525144, "token_acc": 0.9856346121345276, "grad_norm": 0.8980030417442322, "learning_rate": 4.796136895970754e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231473, "epoch": 4.297202530680692, "step": 56375}, {"loss": 0.0286103755235672, "token_acc": 0.9900656946002243, "grad_norm": 0.536116898059845, "learning_rate": 4.791021112078975e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231478, "epoch": 4.297583657290952, "step": 56380}, {"loss": 0.0465530127286911, "token_acc": 0.9841947210368263, "grad_norm": 1.0454872846603394, "learning_rate": 4.7859079207123294e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231482, "epoch": 4.297964783901212, "step": 56385}, {"loss": 0.02104971706867218, "token_acc": 0.9915325994919559, "grad_norm": 0.9710280895233154, "learning_rate": 4.780797322164049e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231489, "epoch": 4.298345910511472, "step": 56390}, {"loss": 0.012664739787578583, "token_acc": 0.9934754240974336, "grad_norm": 0.23185372352600098, "learning_rate": 4.775689316727205e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231498, "epoch": 4.298727037121732, "step": 56395}, {"loss": 0.028618121147155763, "token_acc": 0.9903813122638269, "grad_norm": 1.638534426689148, "learning_rate": 4.770583904694709e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231505, "epoch": 4.299108163731992, "step": 56400}, {"eval_loss": 0.05009985715150833, "eval_token_acc": 0.9798732004096139, "eval_runtime": 157.5861, "eval_samples_per_second": 3.363, "eval_steps_per_second": 3.363, "epoch": 4.299108163731992, "step": 56400}, {"loss": 0.029828649759292603, "token_acc": 0.9801406883106492, "grad_norm": 1.3606458902359009, "learning_rate": 4.765481086359331e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231362, "epoch": 4.299489290342252, "step": 56405}, {"loss": 0.02670426368713379, "token_acc": 0.9867408741201505, "grad_norm": 0.8846539258956909, "learning_rate": 4.760380862013708e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231367, "epoch": 4.299870416952512, "step": 56410}, {"loss": 0.03298570215702057, "token_acc": 0.9896592244418332, "grad_norm": 1.2048697471618652, "learning_rate": 4.755283231950297e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231374, "epoch": 4.300251543562772, "step": 56415}, {"loss": 0.027601492404937745, "token_acc": 0.9817450495049505, "grad_norm": 0.44583770632743835, "learning_rate": 4.750188196461441e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231382, "epoch": 4.300632670173031, "step": 56420}, {"loss": 0.02856728732585907, "token_acc": 0.9865685372585097, "grad_norm": 1.3444002866744995, "learning_rate": 4.745095755839296e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231387, "epoch": 4.301013796783291, "step": 56425}, {"loss": 0.025354331731796263, "token_acc": 0.9893758300132802, "grad_norm": 0.7602562308311462, "learning_rate": 4.7400059103759e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231394, "epoch": 4.301394923393551, "step": 56430}, {"loss": 0.029451555013656615, "token_acc": 0.9875577675079986, "grad_norm": 0.9740633368492126, "learning_rate": 4.7349186603631464e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231402, "epoch": 4.301776050003811, "step": 56435}, {"loss": 0.024903278052806854, "token_acc": 0.988491316174932, "grad_norm": 1.1155682802200317, "learning_rate": 4.729834006092742e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231407, "epoch": 4.302157176614071, "step": 56440}, {"loss": 0.02688722014427185, "token_acc": 0.9904775440591245, "grad_norm": 1.5005555152893066, "learning_rate": 4.724751947856265e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231408, "epoch": 4.302538303224331, "step": 56445}, {"loss": 0.0447279155254364, "token_acc": 0.9801801801801802, "grad_norm": 0.9731636047363281, "learning_rate": 4.719672485945181e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231416, "epoch": 4.302919429834591, "step": 56450}, {"loss": 0.03467515707015991, "token_acc": 0.9882424797679035, "grad_norm": 0.7500284910202026, "learning_rate": 4.714595620650747e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231421, "epoch": 4.303300556444851, "step": 56455}, {"loss": 0.03794448971748352, "token_acc": 0.9813963668198731, "grad_norm": 0.6046462655067444, "learning_rate": 4.709521352264112e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231428, "epoch": 4.303681683055111, "step": 56460}, {"loss": 0.03026048243045807, "token_acc": 0.9906143344709898, "grad_norm": 0.9128597974777222, "learning_rate": 4.704449681076245e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231434, "epoch": 4.304062809665371, "step": 56465}, {"loss": 0.021975766122341155, "token_acc": 0.9922598803799695, "grad_norm": 0.6909599900245667, "learning_rate": 4.699380607377996e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231437, "epoch": 4.30444393627563, "step": 56470}, {"loss": 0.02790490388870239, "token_acc": 0.9894736842105263, "grad_norm": 1.0626152753829956, "learning_rate": 4.694314131460048e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231443, "epoch": 4.30482506288589, "step": 56475}, {"loss": 0.03643999397754669, "token_acc": 0.9852317790236566, "grad_norm": 0.7717025279998779, "learning_rate": 4.689250253612937e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231446, "epoch": 4.30520618949615, "step": 56480}, {"loss": 0.027820149064064027, "token_acc": 0.9867201549315258, "grad_norm": 0.44502148032188416, "learning_rate": 4.6841889741270575e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231451, "epoch": 4.30558731610641, "step": 56485}, {"loss": 0.048440805077552794, "token_acc": 0.9868467204489653, "grad_norm": 0.9880298376083374, "learning_rate": 4.679130293292655e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231456, "epoch": 4.3059684427166705, "step": 56490}, {"loss": 0.02590230107307434, "token_acc": 0.9876499647141849, "grad_norm": 1.061919093132019, "learning_rate": 4.674074211399809e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231464, "epoch": 4.3063495693269305, "step": 56495}, {"loss": 0.029977703094482423, "token_acc": 0.987886724504829, "grad_norm": 1.260136604309082, "learning_rate": 4.669020728738472e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231469, "epoch": 4.3067306959371905, "step": 56500}, {"loss": 0.030046704411506652, "token_acc": 0.9878903760356915, "grad_norm": 1.5586352348327637, "learning_rate": 4.663969845598437e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231475, "epoch": 4.3071118225474505, "step": 56505}, {"loss": 0.0444591611623764, "token_acc": 0.9801111436092425, "grad_norm": 1.5927186012268066, "learning_rate": 4.658921562269342e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231478, "epoch": 4.3074929491577105, "step": 56510}, {"loss": 0.030528730154037474, "token_acc": 0.9876985014538134, "grad_norm": 0.886110246181488, "learning_rate": 4.653875879040686e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231484, "epoch": 4.30787407576797, "step": 56515}, {"loss": 0.03859785795211792, "token_acc": 0.9849744245524297, "grad_norm": 1.7657686471939087, "learning_rate": 4.6488327962018245e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231492, "epoch": 4.30825520237823, "step": 56520}, {"loss": 0.027880534529685974, "token_acc": 0.9889780759554331, "grad_norm": 1.267701506614685, "learning_rate": 4.643792314041939e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231493, "epoch": 4.30863632898849, "step": 56525}, {"loss": 0.01989876925945282, "token_acc": 0.9910699241786015, "grad_norm": 0.6529945731163025, "learning_rate": 4.63875443285009e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231498, "epoch": 4.30901745559875, "step": 56530}, {"loss": 0.03992711901664734, "token_acc": 0.985852683376903, "grad_norm": 1.4095760583877563, "learning_rate": 4.633719152915173e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231503, "epoch": 4.30939858220901, "step": 56535}, {"loss": 0.027997109293937682, "token_acc": 0.9904420549581839, "grad_norm": 1.404532551765442, "learning_rate": 4.628686474525934e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23151, "epoch": 4.30977970881927, "step": 56540}, {"loss": 0.031526225805282596, "token_acc": 0.9917929292929293, "grad_norm": 0.6581978797912598, "learning_rate": 4.623656397970977e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231515, "epoch": 4.31016083542953, "step": 56545}, {"loss": 0.03007081151008606, "token_acc": 0.9855805717176828, "grad_norm": 0.9870343208312988, "learning_rate": 4.618628923538759e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231522, "epoch": 4.31054196203979, "step": 56550}, {"loss": 0.03478447198867798, "token_acc": 0.9866298811544991, "grad_norm": 0.45915722846984863, "learning_rate": 4.6136040515175724e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231529, "epoch": 4.31092308865005, "step": 56555}, {"loss": 0.032695254683494566, "token_acc": 0.986712777575537, "grad_norm": 1.6996009349822998, "learning_rate": 4.60858178219557e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231534, "epoch": 4.31130421526031, "step": 56560}, {"loss": 0.03146355450153351, "token_acc": 0.9896981745888307, "grad_norm": 2.0134456157684326, "learning_rate": 4.603562115860771e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231538, "epoch": 4.31168534187057, "step": 56565}, {"loss": 0.029457780718803405, "token_acc": 0.9871215544509715, "grad_norm": 0.9508880376815796, "learning_rate": 4.5985450528010124e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231544, "epoch": 4.312066468480829, "step": 56570}, {"loss": 0.04024452865123749, "token_acc": 0.9890534449452673, "grad_norm": 0.8441643714904785, "learning_rate": 4.593530593304007e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231553, "epoch": 4.312447595091089, "step": 56575}, {"loss": 0.027288484573364257, "token_acc": 0.9886492622020431, "grad_norm": 0.7354947328567505, "learning_rate": 4.58851873765731e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231557, "epoch": 4.312828721701349, "step": 56580}, {"loss": 0.029281842708587646, "token_acc": 0.9891720586293411, "grad_norm": 0.7304196953773499, "learning_rate": 4.583509486148324e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23156, "epoch": 4.313209848311609, "step": 56585}, {"loss": 0.04082332849502564, "token_acc": 0.9853801169590644, "grad_norm": 0.9571777582168579, "learning_rate": 4.578502839064325e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231564, "epoch": 4.313590974921869, "step": 56590}, {"loss": 0.03275468349456787, "token_acc": 0.9845258375922771, "grad_norm": 1.1139880418777466, "learning_rate": 4.573498796692393e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231567, "epoch": 4.313972101532129, "step": 56595}, {"loss": 0.04082944393157959, "token_acc": 0.9874939874939875, "grad_norm": 2.072366237640381, "learning_rate": 4.5684973593195066e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231573, "epoch": 4.314353228142389, "step": 56600}, {"eval_loss": 0.050422653555870056, "eval_token_acc": 0.9798957894102764, "eval_runtime": 159.7732, "eval_samples_per_second": 3.317, "eval_steps_per_second": 3.317, "epoch": 4.314353228142389, "step": 56600}, {"loss": 0.03235548734664917, "token_acc": 0.9799590489939015, "grad_norm": 1.5450422763824463, "learning_rate": 4.563498527232474e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231429, "epoch": 4.314734354752649, "step": 56605}, {"loss": 0.029085662961006165, "token_acc": 0.9883879781420765, "grad_norm": 0.8790038824081421, "learning_rate": 4.5585023007179425e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231437, "epoch": 4.315115481362909, "step": 56610}, {"loss": 0.037862366437911986, "token_acc": 0.9844626672421234, "grad_norm": 2.1348702907562256, "learning_rate": 4.553508680062424e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231442, "epoch": 4.315496607973168, "step": 56615}, {"loss": 0.03170434534549713, "token_acc": 0.9897990726429675, "grad_norm": 0.885884165763855, "learning_rate": 4.548517665552299e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231449, "epoch": 4.315877734583428, "step": 56620}, {"loss": 0.024867814779281617, "token_acc": 0.9915458937198067, "grad_norm": 0.7388194799423218, "learning_rate": 4.543529257473755e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231451, "epoch": 4.316258861193688, "step": 56625}, {"loss": 0.022394607961177825, "token_acc": 0.9864864864864865, "grad_norm": 1.0172159671783447, "learning_rate": 4.5385434561128645e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231457, "epoch": 4.316639987803948, "step": 56630}, {"loss": 0.029089680314064024, "token_acc": 0.9838333033950063, "grad_norm": 0.9668006896972656, "learning_rate": 4.533560261755554e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231464, "epoch": 4.317021114414208, "step": 56635}, {"loss": 0.03749719262123108, "token_acc": 0.9836100468284377, "grad_norm": 0.16417518258094788, "learning_rate": 4.528579674687555e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23147, "epoch": 4.317402241024468, "step": 56640}, {"loss": 0.042767000198364255, "token_acc": 0.9847915242652084, "grad_norm": 1.5132347345352173, "learning_rate": 4.523601695194513e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231474, "epoch": 4.317783367634728, "step": 56645}, {"loss": 0.04277833998203277, "token_acc": 0.9887400504756358, "grad_norm": 1.5520461797714233, "learning_rate": 4.518626323561864e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231479, "epoch": 4.318164494244988, "step": 56650}, {"loss": 0.03450406789779663, "token_acc": 0.9869053339740509, "grad_norm": 0.68074631690979, "learning_rate": 4.513653560074943e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231483, "epoch": 4.318545620855248, "step": 56655}, {"loss": 0.03410144746303558, "token_acc": 0.9883095627776479, "grad_norm": 0.6428031921386719, "learning_rate": 4.5086834050189096e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231489, "epoch": 4.318926747465508, "step": 56660}, {"loss": 0.03771767318248749, "token_acc": 0.9883749690823646, "grad_norm": 1.3498306274414062, "learning_rate": 4.50371585867877e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231495, "epoch": 4.319307874075768, "step": 56665}, {"loss": 0.02689318358898163, "token_acc": 0.9908015768725361, "grad_norm": 1.3586755990982056, "learning_rate": 4.498750921339401e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231502, "epoch": 4.319689000686028, "step": 56670}, {"loss": 0.036771321296691896, "token_acc": 0.9887887447790723, "grad_norm": 0.4459330141544342, "learning_rate": 4.493788593285519e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231508, "epoch": 4.320070127296288, "step": 56675}, {"loss": 0.026561135053634645, "token_acc": 0.9882121807465619, "grad_norm": 1.7902473211288452, "learning_rate": 4.4888288748016816e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231515, "epoch": 4.320451253906548, "step": 56680}, {"loss": 0.031094864010810852, "token_acc": 0.9933903576982893, "grad_norm": 1.2405246496200562, "learning_rate": 4.483871766172309e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231523, "epoch": 4.320832380516808, "step": 56685}, {"loss": 0.033961498737335206, "token_acc": 0.9860788863109049, "grad_norm": 2.102415084838867, "learning_rate": 4.478917267681682e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23153, "epoch": 4.321213507127068, "step": 56690}, {"loss": 0.03399845063686371, "token_acc": 0.9862700228832952, "grad_norm": 1.4777919054031372, "learning_rate": 4.473965379613893e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231536, "epoch": 4.321594633737328, "step": 56695}, {"loss": 0.021122771501541137, "token_acc": 0.9894996911673872, "grad_norm": 0.5477937459945679, "learning_rate": 4.469016102252927e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23154, "epoch": 4.321975760347588, "step": 56700}, {"loss": 0.03244448900222778, "token_acc": 0.9898544331715924, "grad_norm": 0.5334409475326538, "learning_rate": 4.464069435882601e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231547, "epoch": 4.322356886957848, "step": 56705}, {"loss": 0.026854994893074035, "token_acc": 0.9895918606010993, "grad_norm": 1.236446499824524, "learning_rate": 4.459125380786577e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231548, "epoch": 4.322738013568108, "step": 56710}, {"loss": 0.036658179759979245, "token_acc": 0.9823943661971831, "grad_norm": 1.4728659391403198, "learning_rate": 4.454183937248374e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231555, "epoch": 4.323119140178367, "step": 56715}, {"loss": 0.023862193524837493, "token_acc": 0.9863620866007501, "grad_norm": 1.3209854364395142, "learning_rate": 4.449245105551364e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231562, "epoch": 4.323500266788627, "step": 56720}, {"loss": 0.023098348081111907, "token_acc": 0.9890543692804593, "grad_norm": 1.103216290473938, "learning_rate": 4.444308885978765e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231568, "epoch": 4.323881393398887, "step": 56725}, {"loss": 0.03125913441181183, "token_acc": 0.9911807937285644, "grad_norm": 1.09901762008667, "learning_rate": 4.439375278813657e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231576, "epoch": 4.324262520009147, "step": 56730}, {"loss": 0.034559914469718934, "token_acc": 0.9811719906917706, "grad_norm": 0.3981832265853882, "learning_rate": 4.43444428433894e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231583, "epoch": 4.324643646619407, "step": 56735}, {"loss": 0.030220368504524232, "token_acc": 0.9841842397336293, "grad_norm": 0.9162402749061584, "learning_rate": 4.4295159028373945e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231589, "epoch": 4.325024773229667, "step": 56740}, {"loss": 0.03574210107326507, "token_acc": 0.9850008823010411, "grad_norm": 0.8675771951675415, "learning_rate": 4.42459013459165e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231595, "epoch": 4.325405899839927, "step": 56745}, {"loss": 0.025450804829597475, "token_acc": 0.9886808881149325, "grad_norm": 1.582871675491333, "learning_rate": 4.4196669798841575e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231601, "epoch": 4.325787026450187, "step": 56750}, {"loss": 0.042752915620803834, "token_acc": 0.9821664464993395, "grad_norm": 1.7442567348480225, "learning_rate": 4.414746438997242e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231608, "epoch": 4.326168153060447, "step": 56755}, {"loss": 0.02404576390981674, "token_acc": 0.9903325599381284, "grad_norm": 1.5975000858306885, "learning_rate": 4.409828512213082e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231616, "epoch": 4.326549279670707, "step": 56760}, {"loss": 0.057933861017227174, "token_acc": 0.9804660726525017, "grad_norm": 1.3463395833969116, "learning_rate": 4.404913199813687e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231622, "epoch": 4.326930406280966, "step": 56765}, {"loss": 0.0376004308462143, "token_acc": 0.9880416213697779, "grad_norm": 0.6645733118057251, "learning_rate": 4.400000502080936e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231627, "epoch": 4.327311532891226, "step": 56770}, {"loss": 0.062117534875869754, "token_acc": 0.9764075067024128, "grad_norm": 2.9712092876434326, "learning_rate": 4.395090419296549e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231635, "epoch": 4.327692659501486, "step": 56775}, {"loss": 0.029206568002700807, "token_acc": 0.9886510558827755, "grad_norm": 1.65714430809021, "learning_rate": 4.3901829517420885e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23164, "epoch": 4.328073786111746, "step": 56780}, {"loss": 0.026852670311927795, "token_acc": 0.986232790988736, "grad_norm": 1.311539649963379, "learning_rate": 4.3852780996989805e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231645, "epoch": 4.328454912722006, "step": 56785}, {"loss": 0.03580468595027923, "token_acc": 0.9857682899710919, "grad_norm": 1.1189994812011719, "learning_rate": 4.380375863448505e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231651, "epoch": 4.328836039332266, "step": 56790}, {"loss": 0.02525656223297119, "token_acc": 0.9911786786786787, "grad_norm": 0.11035322397947311, "learning_rate": 4.375476243271765e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231656, "epoch": 4.329217165942526, "step": 56795}, {"loss": 0.0252657413482666, "token_acc": 0.9850980392156863, "grad_norm": 1.3669482469558716, "learning_rate": 4.3705792394497346e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231664, "epoch": 4.329598292552786, "step": 56800}, {"eval_loss": 0.05016002804040909, "eval_token_acc": 0.9797150774049757, "eval_runtime": 157.8678, "eval_samples_per_second": 3.357, "eval_steps_per_second": 3.357, "epoch": 4.329598292552786, "step": 56800}, {"loss": 0.032298633456230165, "token_acc": 0.9800191735203593, "grad_norm": 0.8016194701194763, "learning_rate": 4.365684852263252e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231519, "epoch": 4.329979419163046, "step": 56805}, {"loss": 0.02681463062763214, "token_acc": 0.9857111453066608, "grad_norm": 1.410971999168396, "learning_rate": 4.3607930819929645e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231525, "epoch": 4.330360545773306, "step": 56810}, {"loss": 0.028167355060577392, "token_acc": 0.9840619307832422, "grad_norm": 1.290440559387207, "learning_rate": 4.3559039289194085e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231534, "epoch": 4.330741672383565, "step": 56815}, {"loss": 0.02801782488822937, "token_acc": 0.9869825566258786, "grad_norm": 1.3759077787399292, "learning_rate": 4.351017393322937e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231541, "epoch": 4.3311227989938255, "step": 56820}, {"loss": 0.03208264112472534, "token_acc": 0.9856242118537201, "grad_norm": 1.0497753620147705, "learning_rate": 4.346133475483782e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231548, "epoch": 4.3315039256040855, "step": 56825}, {"loss": 0.023679612576961516, "token_acc": 0.9899425287356322, "grad_norm": 0.6383605003356934, "learning_rate": 4.341252175682026e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231551, "epoch": 4.3318850522143455, "step": 56830}, {"loss": 0.04364684522151947, "token_acc": 0.9823067935236187, "grad_norm": 1.1624906063079834, "learning_rate": 4.33637349419756e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231556, "epoch": 4.3322661788246055, "step": 56835}, {"loss": 0.03822368383407593, "token_acc": 0.984759671746776, "grad_norm": 1.170672059059143, "learning_rate": 4.331497431310172e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231562, "epoch": 4.3326473054348655, "step": 56840}, {"loss": 0.023332826793193817, "token_acc": 0.9873543268038681, "grad_norm": 0.6033211350440979, "learning_rate": 4.326623987299477e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23157, "epoch": 4.3330284320451256, "step": 56845}, {"loss": 0.026081454753875733, "token_acc": 0.9901194852941176, "grad_norm": 0.6579980254173279, "learning_rate": 4.321753162444952e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231577, "epoch": 4.333409558655386, "step": 56850}, {"loss": 0.025949698686599732, "token_acc": 0.9903366583541147, "grad_norm": 0.5874403715133667, "learning_rate": 4.316884957025913e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231582, "epoch": 4.333790685265646, "step": 56855}, {"loss": 0.03357393443584442, "token_acc": 0.9874199955859634, "grad_norm": 1.035077452659607, "learning_rate": 4.312019371321518e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231589, "epoch": 4.334171811875905, "step": 56860}, {"loss": 0.01783519983291626, "token_acc": 0.9952012796587577, "grad_norm": 0.9752175211906433, "learning_rate": 4.307156405610796e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231596, "epoch": 4.334552938486165, "step": 56865}, {"loss": 0.02231002151966095, "token_acc": 0.9929411764705882, "grad_norm": 0.7628051042556763, "learning_rate": 4.302296060172623e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231602, "epoch": 4.334934065096425, "step": 56870}, {"loss": 0.03773881494998932, "token_acc": 0.9842940973420781, "grad_norm": 0.9223611950874329, "learning_rate": 4.297438335285692e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231606, "epoch": 4.335315191706685, "step": 56875}, {"loss": 0.031791788339614865, "token_acc": 0.9861517976031957, "grad_norm": 0.9382603168487549, "learning_rate": 4.292583231228592e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231613, "epoch": 4.335696318316945, "step": 56880}, {"loss": 0.0247573122382164, "token_acc": 0.9878364389233955, "grad_norm": 0.5173014998435974, "learning_rate": 4.287730748279744e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231619, "epoch": 4.336077444927205, "step": 56885}, {"loss": 0.021451196074485777, "token_acc": 0.991858098284385, "grad_norm": 0.17217504978179932, "learning_rate": 4.2828808867174e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231625, "epoch": 4.336458571537465, "step": 56890}, {"loss": 0.038912123441696166, "token_acc": 0.9874702959602506, "grad_norm": 0.5322732925415039, "learning_rate": 4.2780336468196795e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231633, "epoch": 4.336839698147725, "step": 56895}, {"loss": 0.036540687084198, "token_acc": 0.9869461298032727, "grad_norm": 1.4924726486206055, "learning_rate": 4.273189028864566e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231638, "epoch": 4.337220824757985, "step": 56900}, {"loss": 0.030013051629066468, "token_acc": 0.9900145243282498, "grad_norm": 0.8098247647285461, "learning_rate": 4.268347033129849e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231642, "epoch": 4.337601951368245, "step": 56905}, {"loss": 0.03570747971534729, "token_acc": 0.9874963224477787, "grad_norm": 0.891287624835968, "learning_rate": 4.263507659893212e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231646, "epoch": 4.337983077978505, "step": 56910}, {"loss": 0.01868680864572525, "token_acc": 0.9872080916257623, "grad_norm": 0.13738885521888733, "learning_rate": 4.258670909432177e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231652, "epoch": 4.338364204588764, "step": 56915}, {"loss": 0.02780998945236206, "token_acc": 0.9917686318131257, "grad_norm": 2.4237728118896484, "learning_rate": 4.253836782024095e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231657, "epoch": 4.338745331199024, "step": 56920}, {"loss": 0.03003830313682556, "token_acc": 0.990765679107349, "grad_norm": 2.1395299434661865, "learning_rate": 4.249005277946177e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231665, "epoch": 4.339126457809284, "step": 56925}, {"loss": 0.031600204110145566, "token_acc": 0.9919331604724864, "grad_norm": 3.5259904861450195, "learning_rate": 4.244176397475513e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231672, "epoch": 4.339507584419544, "step": 56930}, {"loss": 0.028476014733314514, "token_acc": 0.9902680866691149, "grad_norm": 0.797493577003479, "learning_rate": 4.239350140888987e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231677, "epoch": 4.339888711029804, "step": 56935}, {"loss": 0.026389342546463013, "token_acc": 0.9892737430167597, "grad_norm": 0.845337450504303, "learning_rate": 4.234526508463371e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231682, "epoch": 4.340269837640064, "step": 56940}, {"loss": 0.022658462822437286, "token_acc": 0.9916149068322981, "grad_norm": 0.6613597869873047, "learning_rate": 4.229705500475295e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231686, "epoch": 4.340650964250324, "step": 56945}, {"loss": 0.033138760924339296, "token_acc": 0.9876387487386479, "grad_norm": 2.4841151237487793, "learning_rate": 4.224887117201198e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231693, "epoch": 4.341032090860584, "step": 56950}, {"loss": 0.017836572229862215, "token_acc": 0.9870987098709871, "grad_norm": 1.0868453979492188, "learning_rate": 4.2200713589174046e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2317, "epoch": 4.341413217470844, "step": 56955}, {"loss": 0.034357988834381105, "token_acc": 0.9823446327683616, "grad_norm": 0.6126849055290222, "learning_rate": 4.2152582259000814e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231706, "epoch": 4.341794344081103, "step": 56960}, {"loss": 0.03803393840789795, "token_acc": 0.9838323353293413, "grad_norm": 0.9399639368057251, "learning_rate": 4.210447718425226e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231711, "epoch": 4.342175470691363, "step": 56965}, {"loss": 0.041442877054214476, "token_acc": 0.9829625457617572, "grad_norm": 0.676488995552063, "learning_rate": 4.205639836768699e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231715, "epoch": 4.342556597301623, "step": 56970}, {"loss": 0.026723092794418334, "token_acc": 0.9879953954941622, "grad_norm": 1.228368878364563, "learning_rate": 4.200834581206231e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231719, "epoch": 4.342937723911883, "step": 56975}, {"loss": 0.03198819160461426, "token_acc": 0.9892974753018661, "grad_norm": 1.7128833532333374, "learning_rate": 4.196031952013341e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231725, "epoch": 4.343318850522143, "step": 56980}, {"loss": 0.03973855972290039, "token_acc": 0.9831052542659233, "grad_norm": 0.8593846559524536, "learning_rate": 4.191231949465485e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231731, "epoch": 4.343699977132403, "step": 56985}, {"loss": 0.029904705286026, "token_acc": 0.9882690302398331, "grad_norm": 1.1370562314987183, "learning_rate": 4.186434573837883e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231738, "epoch": 4.344081103742663, "step": 56990}, {"loss": 0.02946779429912567, "token_acc": 0.9910820451843044, "grad_norm": 0.47150859236717224, "learning_rate": 4.181639825405664e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231739, "epoch": 4.3444622303529234, "step": 56995}, {"loss": 0.03758901655673981, "token_acc": 0.9865102639296187, "grad_norm": 0.9129472374916077, "learning_rate": 4.1768477044437815e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231743, "epoch": 4.3448433569631835, "step": 57000}, {"eval_loss": 0.05087516829371452, "eval_token_acc": 0.9796623697367628, "eval_runtime": 160.7345, "eval_samples_per_second": 3.297, "eval_steps_per_second": 3.297, "epoch": 4.3448433569631835, "step": 57000}, {"loss": 0.05784919261932373, "token_acc": 0.979751963379499, "grad_norm": 2.7259042263031006, "learning_rate": 4.1720582112270315e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231598, "epoch": 4.3452244835734435, "step": 57005}, {"loss": 0.01622035950422287, "token_acc": 0.9943492183085327, "grad_norm": 0.16044487059116364, "learning_rate": 4.167271346030077e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231601, "epoch": 4.345605610183703, "step": 57010}, {"loss": 0.029871591925621034, "token_acc": 0.9841027208804647, "grad_norm": 0.8297127485275269, "learning_rate": 4.162487109127428e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231609, "epoch": 4.345986736793963, "step": 57015}, {"loss": 0.031971073150634764, "token_acc": 0.9851380042462845, "grad_norm": 0.9313675761222839, "learning_rate": 4.157705500793424e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231614, "epoch": 4.346367863404223, "step": 57020}, {"loss": 0.03501693606376648, "token_acc": 0.9825647710607789, "grad_norm": 0.9252403974533081, "learning_rate": 4.15292652130228e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23162, "epoch": 4.346748990014483, "step": 57025}, {"loss": 0.020332756638526916, "token_acc": 0.9904823707549211, "grad_norm": 1.4747933149337769, "learning_rate": 4.148150170928039e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231625, "epoch": 4.347130116624743, "step": 57030}, {"loss": 0.036401450634002686, "token_acc": 0.9850871665616467, "grad_norm": 0.9133774042129517, "learning_rate": 4.143376449944608e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231626, "epoch": 4.347511243235003, "step": 57035}, {"loss": 0.03411855399608612, "token_acc": 0.9878478337442762, "grad_norm": 1.055947184562683, "learning_rate": 4.138605358625741e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231632, "epoch": 4.347892369845263, "step": 57040}, {"loss": 0.02385149598121643, "token_acc": 0.9891764705882353, "grad_norm": 1.7831945419311523, "learning_rate": 4.13383689724503e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231641, "epoch": 4.348273496455523, "step": 57045}, {"loss": 0.056249606609344485, "token_acc": 0.978098142500693, "grad_norm": 2.0175955295562744, "learning_rate": 4.129071066075924e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231648, "epoch": 4.348654623065783, "step": 57050}, {"loss": 0.03970653116703034, "token_acc": 0.988272921108742, "grad_norm": 1.5738128423690796, "learning_rate": 4.1243078653917355e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231654, "epoch": 4.349035749676043, "step": 57055}, {"loss": 0.0346729576587677, "token_acc": 0.9906357811729917, "grad_norm": 0.7045892477035522, "learning_rate": 4.119547295465592e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231658, "epoch": 4.349416876286302, "step": 57060}, {"loss": 0.03057208061218262, "token_acc": 0.9887272727272727, "grad_norm": 0.9246518015861511, "learning_rate": 4.114789356570503e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231664, "epoch": 4.349798002896562, "step": 57065}, {"loss": 0.028766649961471557, "token_acc": 0.9893153937475268, "grad_norm": 1.2600059509277344, "learning_rate": 4.110034048979317e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231667, "epoch": 4.350179129506822, "step": 57070}, {"loss": 0.041221892833709715, "token_acc": 0.9849864632045287, "grad_norm": 0.23422418534755707, "learning_rate": 4.105281372964715e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231671, "epoch": 4.350560256117082, "step": 57075}, {"loss": 0.04339967370033264, "token_acc": 0.981163666806195, "grad_norm": 2.01975417137146, "learning_rate": 4.100531328799245e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231676, "epoch": 4.350941382727342, "step": 57080}, {"loss": 0.030268388986587524, "token_acc": 0.982957669048928, "grad_norm": 2.1346895694732666, "learning_rate": 4.095783916755319e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231685, "epoch": 4.351322509337602, "step": 57085}, {"loss": 0.04486008882522583, "token_acc": 0.9860975609756097, "grad_norm": 1.1857895851135254, "learning_rate": 4.091039137105152e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231692, "epoch": 4.351703635947862, "step": 57090}, {"loss": 0.017622722685337065, "token_acc": 0.9926082365364308, "grad_norm": 1.5839109420776367, "learning_rate": 4.0862969901208416e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231698, "epoch": 4.352084762558122, "step": 57095}, {"loss": 0.026409608125686646, "token_acc": 0.9896338404949006, "grad_norm": 1.3125064373016357, "learning_rate": 4.0815574760743495e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231702, "epoch": 4.352465889168382, "step": 57100}, {"loss": 0.03371442556381225, "token_acc": 0.9893048128342246, "grad_norm": 0.0983426496386528, "learning_rate": 4.076820595237435e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231709, "epoch": 4.352847015778641, "step": 57105}, {"loss": 0.02735028266906738, "token_acc": 0.9900130264871906, "grad_norm": 1.8781272172927856, "learning_rate": 4.072086347881754e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231716, "epoch": 4.353228142388901, "step": 57110}, {"loss": 0.019203273952007292, "token_acc": 0.9914356898162566, "grad_norm": 1.0089811086654663, "learning_rate": 4.067354734278789e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231721, "epoch": 4.353609268999161, "step": 57115}, {"loss": 0.02814592719078064, "token_acc": 0.9856834143706105, "grad_norm": 0.13944296538829803, "learning_rate": 4.062625754699873e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231728, "epoch": 4.353990395609421, "step": 57120}, {"loss": 0.019051577150821685, "token_acc": 0.9948994049305753, "grad_norm": 0.5130220651626587, "learning_rate": 4.0578994094162045e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231736, "epoch": 4.354371522219681, "step": 57125}, {"loss": 0.02947595715522766, "token_acc": 0.9899533548618586, "grad_norm": 0.6363046169281006, "learning_rate": 4.053175698698802e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231741, "epoch": 4.354752648829941, "step": 57130}, {"loss": 0.038931792974472045, "token_acc": 0.9811698717948718, "grad_norm": 1.192973256111145, "learning_rate": 4.048454622818548e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231749, "epoch": 4.355133775440201, "step": 57135}, {"loss": 0.032477089762687684, "token_acc": 0.9882948790095667, "grad_norm": 1.1527025699615479, "learning_rate": 4.043736182046193e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231751, "epoch": 4.355514902050461, "step": 57140}, {"loss": 0.026650914549827577, "token_acc": 0.9901787151827403, "grad_norm": 0.8629696369171143, "learning_rate": 4.0390203766522975e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231754, "epoch": 4.355896028660721, "step": 57145}, {"loss": 0.019665509462356567, "token_acc": 0.9892255892255892, "grad_norm": 0.050860777497291565, "learning_rate": 4.034307206907295e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231763, "epoch": 4.356277155270981, "step": 57150}, {"loss": 0.02328375428915024, "token_acc": 0.9890185312285518, "grad_norm": 0.37209731340408325, "learning_rate": 4.029596673081476e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23177, "epoch": 4.356658281881241, "step": 57155}, {"loss": 0.042275351285934445, "token_acc": 0.9854642539305843, "grad_norm": 0.917543888092041, "learning_rate": 4.024888775444951e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231775, "epoch": 4.3570394084915005, "step": 57160}, {"loss": 0.02508768141269684, "token_acc": 0.9865889212827988, "grad_norm": 1.1013929843902588, "learning_rate": 4.020183514267706e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231783, "epoch": 4.3574205351017605, "step": 57165}, {"loss": 0.039225584268569945, "token_acc": 0.9793189889283476, "grad_norm": 1.4473906755447388, "learning_rate": 4.0154808898195725e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23179, "epoch": 4.3578016617120205, "step": 57170}, {"loss": 0.034545397758483885, "token_acc": 0.9875920370875375, "grad_norm": 0.8847504258155823, "learning_rate": 4.0107809023702035e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231791, "epoch": 4.358182788322281, "step": 57175}, {"loss": 0.04050042331218719, "token_acc": 0.990588803088803, "grad_norm": 0.4996013939380646, "learning_rate": 4.006083552189138e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231798, "epoch": 4.358563914932541, "step": 57180}, {"loss": 0.025456950068473816, "token_acc": 0.9870205629283944, "grad_norm": 0.9691295027732849, "learning_rate": 4.00138883954575e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231802, "epoch": 4.358945041542801, "step": 57185}, {"loss": 0.02466481626033783, "token_acc": 0.9898209898209899, "grad_norm": 0.9959986805915833, "learning_rate": 3.996696764709246e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231807, "epoch": 4.359326168153061, "step": 57190}, {"loss": 0.033452349901199344, "token_acc": 0.9853492733239568, "grad_norm": 0.6335867643356323, "learning_rate": 3.992007327948705e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231809, "epoch": 4.359707294763321, "step": 57195}, {"loss": 0.02715916037559509, "token_acc": 0.9893543956043956, "grad_norm": 0.9419013261795044, "learning_rate": 3.987320529533034e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231817, "epoch": 4.360088421373581, "step": 57200}, {"eval_loss": 0.049890827387571335, "eval_token_acc": 0.980001204746702, "eval_runtime": 158.8278, "eval_samples_per_second": 3.337, "eval_steps_per_second": 3.337, "epoch": 4.360088421373581, "step": 57200}, {"loss": 0.03638900816440582, "token_acc": 0.9801233171585976, "grad_norm": 1.2357265949249268, "learning_rate": 3.982636369731008e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231675, "epoch": 4.36046954798384, "step": 57205}, {"loss": 0.0355132520198822, "token_acc": 0.9915190350546551, "grad_norm": 5.209682941436768, "learning_rate": 3.977954848811244e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23168, "epoch": 4.3608506745941, "step": 57210}, {"loss": 0.022060906887054442, "token_acc": 0.9886973180076628, "grad_norm": 0.46227043867111206, "learning_rate": 3.973275967042195e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231684, "epoch": 4.36123180120436, "step": 57215}, {"loss": 0.02524166405200958, "token_acc": 0.9908123791102514, "grad_norm": 0.3112508952617645, "learning_rate": 3.968599724692179e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231692, "epoch": 4.36161292781462, "step": 57220}, {"loss": 0.025917065143585206, "token_acc": 0.982880658436214, "grad_norm": 1.2877916097640991, "learning_rate": 3.963926122029366e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231697, "epoch": 4.36199405442488, "step": 57225}, {"loss": 0.034145128726959226, "token_acc": 0.9883192731992213, "grad_norm": 2.360616683959961, "learning_rate": 3.9592551593217455e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231704, "epoch": 4.36237518103514, "step": 57230}, {"loss": 0.03972390294075012, "token_acc": 0.9876417233560091, "grad_norm": 0.660440981388092, "learning_rate": 3.954586836837187e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231706, "epoch": 4.3627563076454, "step": 57235}, {"loss": 0.03664419949054718, "token_acc": 0.9859116399945288, "grad_norm": 0.8386480212211609, "learning_rate": 3.949921154843411e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231709, "epoch": 4.36313743425566, "step": 57240}, {"loss": 0.03508492112159729, "token_acc": 0.9897049784880148, "grad_norm": 1.1973665952682495, "learning_rate": 3.945258113607941e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231713, "epoch": 4.36351856086592, "step": 57245}, {"loss": 0.03675018846988678, "token_acc": 0.9825897714907508, "grad_norm": 0.9854652285575867, "learning_rate": 3.940597713398203e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231719, "epoch": 4.36389968747618, "step": 57250}, {"loss": 0.05017796754837036, "token_acc": 0.9896777442094663, "grad_norm": 1.2451251745224, "learning_rate": 3.935939954481443e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231726, "epoch": 4.36428081408644, "step": 57255}, {"loss": 0.026048028469085695, "token_acc": 0.9894453642384106, "grad_norm": 0.9345805048942566, "learning_rate": 3.931284837124765e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231732, "epoch": 4.364661940696699, "step": 57260}, {"loss": 0.023478634655475616, "token_acc": 0.9875377643504532, "grad_norm": 0.7015694975852966, "learning_rate": 3.926632361595123e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23174, "epoch": 4.365043067306959, "step": 57265}, {"loss": 0.02878339886665344, "token_acc": 0.9856884603796324, "grad_norm": 0.768681526184082, "learning_rate": 3.9219825281593015e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231745, "epoch": 4.365424193917219, "step": 57270}, {"loss": 0.052419412136077884, "token_acc": 0.9750297265160524, "grad_norm": 0.9510180354118347, "learning_rate": 3.917335337083955e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231752, "epoch": 4.365805320527479, "step": 57275}, {"loss": 0.01679455041885376, "token_acc": 0.994621246077992, "grad_norm": 0.4959603548049927, "learning_rate": 3.912690788635581e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231759, "epoch": 4.366186447137739, "step": 57280}, {"loss": 0.03832828998565674, "token_acc": 0.9880312652662433, "grad_norm": 0.6373704075813293, "learning_rate": 3.908048883080517e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231764, "epoch": 4.366567573747999, "step": 57285}, {"loss": 0.020756259560585022, "token_acc": 0.9913389513108615, "grad_norm": 1.0226895809173584, "learning_rate": 3.903409620684956e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231771, "epoch": 4.366948700358259, "step": 57290}, {"loss": 0.027772173285484314, "token_acc": 0.9900106269925611, "grad_norm": 0.5051595568656921, "learning_rate": 3.8987730017149395e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231773, "epoch": 4.367329826968519, "step": 57295}, {"loss": 0.01525954008102417, "token_acc": 0.9950313242600993, "grad_norm": 1.178842306137085, "learning_rate": 3.894139026436355e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231779, "epoch": 4.367710953578779, "step": 57300}, {"loss": 0.03322218358516693, "token_acc": 0.9883151149641914, "grad_norm": 0.49669602513313293, "learning_rate": 3.889507695114936e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231781, "epoch": 4.368092080189038, "step": 57305}, {"loss": 0.027977031469345093, "token_acc": 0.9887024991441288, "grad_norm": 0.5717547535896301, "learning_rate": 3.884879008016284e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231785, "epoch": 4.368473206799298, "step": 57310}, {"loss": 0.03612786531448364, "token_acc": 0.9850857568978374, "grad_norm": 0.4798009395599365, "learning_rate": 3.880252965405812e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231789, "epoch": 4.368854333409558, "step": 57315}, {"loss": 0.019123725593090057, "token_acc": 0.9942832014072119, "grad_norm": 0.5822060108184814, "learning_rate": 3.875629567548805e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231796, "epoch": 4.369235460019818, "step": 57320}, {"loss": 0.029501986503601075, "token_acc": 0.990400374619527, "grad_norm": 1.5208616256713867, "learning_rate": 3.871008814710414e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231803, "epoch": 4.3696165866300785, "step": 57325}, {"loss": 0.03417094051837921, "token_acc": 0.987906976744186, "grad_norm": 2.280104398727417, "learning_rate": 3.8663907071555875e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23181, "epoch": 4.3699977132403385, "step": 57330}, {"loss": 0.02415521889925003, "token_acc": 0.9904185577407968, "grad_norm": 0.6439019441604614, "learning_rate": 3.861775245149174e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231813, "epoch": 4.3703788398505985, "step": 57335}, {"loss": 0.02261464297771454, "token_acc": 0.990990990990991, "grad_norm": 0.2199016809463501, "learning_rate": 3.857162428955846e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23182, "epoch": 4.3707599664608585, "step": 57340}, {"loss": 0.024649070203304292, "token_acc": 0.990294886151549, "grad_norm": 2.870471954345703, "learning_rate": 3.85255225884012e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231828, "epoch": 4.3711410930711185, "step": 57345}, {"loss": 0.04171229004859924, "token_acc": 0.9841897233201581, "grad_norm": 1.4274208545684814, "learning_rate": 3.847944735066372e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231835, "epoch": 4.3715222196813786, "step": 57350}, {"loss": 0.04300893843173981, "token_acc": 0.9795796691012073, "grad_norm": 1.2670103311538696, "learning_rate": 3.843339857898826e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23184, "epoch": 4.371903346291638, "step": 57355}, {"loss": 0.03834398984909058, "token_acc": 0.986180210060807, "grad_norm": 1.412739634513855, "learning_rate": 3.83873762760154e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231844, "epoch": 4.372284472901898, "step": 57360}, {"loss": 0.031152617931365967, "token_acc": 0.9829992387718853, "grad_norm": 2.178524971008301, "learning_rate": 3.834138044438434e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23185, "epoch": 4.372665599512158, "step": 57365}, {"loss": 0.018521997332572936, "token_acc": 0.9935768030831346, "grad_norm": 0.1299949735403061, "learning_rate": 3.82954110867329e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231855, "epoch": 4.373046726122418, "step": 57370}, {"loss": 0.03446870744228363, "token_acc": 0.9840310746655158, "grad_norm": 0.4766598045825958, "learning_rate": 3.824946820569691e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231861, "epoch": 4.373427852732678, "step": 57375}, {"loss": 0.03377532958984375, "token_acc": 0.9853268119164073, "grad_norm": 2.336611747741699, "learning_rate": 3.820355180391116e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231868, "epoch": 4.373808979342938, "step": 57380}, {"loss": 0.05652294158935547, "token_acc": 0.9802253391584272, "grad_norm": 2.054511785507202, "learning_rate": 3.815766188400877e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231874, "epoch": 4.374190105953198, "step": 57385}, {"loss": 0.0315952479839325, "token_acc": 0.9872489280072219, "grad_norm": 0.7373908758163452, "learning_rate": 3.811179844862117e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231875, "epoch": 4.374571232563458, "step": 57390}, {"loss": 0.04296904802322388, "token_acc": 0.9864654981140448, "grad_norm": 1.0309258699417114, "learning_rate": 3.8065961500378665e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231881, "epoch": 4.374952359173718, "step": 57395}, {"loss": 0.013017110526561737, "token_acc": 0.9937355753379492, "grad_norm": 0.4995093047618866, "learning_rate": 3.802015104190948e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231885, "epoch": 4.375333485783978, "step": 57400}, {"eval_loss": 0.04981434717774391, "eval_token_acc": 0.980001204746702, "eval_runtime": 159.5597, "eval_samples_per_second": 3.322, "eval_steps_per_second": 3.322, "epoch": 4.375333485783978, "step": 57400}, {"loss": 0.024369478225708008, "token_acc": 0.9806422097046292, "grad_norm": 1.2804778814315796, "learning_rate": 3.7974367075840844e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231741, "epoch": 4.375714612394237, "step": 57405}, {"loss": 0.03690122663974762, "token_acc": 0.9847739517451394, "grad_norm": 1.4963215589523315, "learning_rate": 3.792860960479827e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231748, "epoch": 4.376095739004497, "step": 57410}, {"loss": 0.030574107170104982, "token_acc": 0.9846735668789809, "grad_norm": 1.076244831085205, "learning_rate": 3.788287863140555e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231754, "epoch": 4.376476865614757, "step": 57415}, {"loss": 0.04351860284805298, "token_acc": 0.9856333468231485, "grad_norm": 0.6721583008766174, "learning_rate": 3.783717415828536e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231758, "epoch": 4.376857992225017, "step": 57420}, {"loss": 0.043691623210906985, "token_acc": 0.9785621481160676, "grad_norm": 0.8572652339935303, "learning_rate": 3.779149618805844e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231766, "epoch": 4.377239118835277, "step": 57425}, {"loss": 0.02270539551973343, "token_acc": 0.9908860759493671, "grad_norm": 1.43747079372406, "learning_rate": 3.7745844723344305e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231774, "epoch": 4.377620245445537, "step": 57430}, {"loss": 0.03272598385810852, "token_acc": 0.98828025477707, "grad_norm": 0.8126947283744812, "learning_rate": 3.7700219766760915e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231778, "epoch": 4.378001372055797, "step": 57435}, {"loss": 0.020665791630744935, "token_acc": 0.9914204003813155, "grad_norm": 0.8399785757064819, "learning_rate": 3.7654621320924567e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231785, "epoch": 4.378382498666057, "step": 57440}, {"loss": 0.028352153301239014, "token_acc": 0.9896710630859685, "grad_norm": 0.7253152132034302, "learning_rate": 3.7609049388450113e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231789, "epoch": 4.378763625276317, "step": 57445}, {"loss": 0.025085079669952392, "token_acc": 0.9854922279792746, "grad_norm": 1.5330610275268555, "learning_rate": 3.7563503971950964e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231796, "epoch": 4.379144751886576, "step": 57450}, {"loss": 0.01731601059436798, "token_acc": 0.9919370320598964, "grad_norm": 0.6604595184326172, "learning_rate": 3.7517985074038865e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2318, "epoch": 4.379525878496836, "step": 57455}, {"loss": 0.04406019449234009, "token_acc": 0.981520591341077, "grad_norm": 1.270491123199463, "learning_rate": 3.7472492697324114e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231808, "epoch": 4.379907005107096, "step": 57460}, {"loss": 0.06003514528274536, "token_acc": 0.976592082616179, "grad_norm": 3.0127785205841064, "learning_rate": 3.7427026844415568e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231816, "epoch": 4.380288131717356, "step": 57465}, {"loss": 0.024795380234718323, "token_acc": 0.9889834752128193, "grad_norm": 1.6862977743148804, "learning_rate": 3.7381587517920423e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231823, "epoch": 4.380669258327616, "step": 57470}, {"loss": 0.02864529490470886, "token_acc": 0.9875916525662719, "grad_norm": 1.898153305053711, "learning_rate": 3.733617472044437e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231827, "epoch": 4.381050384937876, "step": 57475}, {"loss": 0.03939524292945862, "token_acc": 0.9868231046931408, "grad_norm": 0.9171663522720337, "learning_rate": 3.7290788454591772e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231833, "epoch": 4.381431511548136, "step": 57480}, {"loss": 0.05716167688369751, "token_acc": 0.9829222011385199, "grad_norm": 1.3775911331176758, "learning_rate": 3.724542872296516e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231838, "epoch": 4.381812638158396, "step": 57485}, {"loss": 0.015353333950042725, "token_acc": 0.9921807124239791, "grad_norm": 0.7587323188781738, "learning_rate": 3.7200095528165723e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231847, "epoch": 4.382193764768656, "step": 57490}, {"loss": 0.03936365842819214, "token_acc": 0.9859082756853702, "grad_norm": 1.577989935874939, "learning_rate": 3.7154788872793278e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231853, "epoch": 4.382574891378916, "step": 57495}, {"loss": 0.032803797721862794, "token_acc": 0.9879518072289156, "grad_norm": 1.7480531930923462, "learning_rate": 3.710950875944574e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231859, "epoch": 4.3829560179891764, "step": 57500}, {"loss": 0.01928279399871826, "token_acc": 0.9906821963394343, "grad_norm": 1.3342615365982056, "learning_rate": 3.7064255190719768e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231862, "epoch": 4.383337144599436, "step": 57505}, {"loss": 0.02898799777030945, "token_acc": 0.9891996676820826, "grad_norm": 1.385642409324646, "learning_rate": 3.70190281692106e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231868, "epoch": 4.383718271209696, "step": 57510}, {"loss": 0.029617494344711302, "token_acc": 0.9859212405631503, "grad_norm": 1.1468937397003174, "learning_rate": 3.6973827697511455e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231874, "epoch": 4.384099397819956, "step": 57515}, {"loss": 0.04338846206665039, "token_acc": 0.9845743934931988, "grad_norm": 2.4350454807281494, "learning_rate": 3.6928653778214804e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231879, "epoch": 4.384480524430216, "step": 57520}, {"loss": 0.03866499364376068, "token_acc": 0.9868603781647259, "grad_norm": 0.700507640838623, "learning_rate": 3.6883506413910862e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231881, "epoch": 4.384861651040476, "step": 57525}, {"loss": 0.02343205362558365, "token_acc": 0.9872626772410478, "grad_norm": 1.2252708673477173, "learning_rate": 3.683838560718866e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231887, "epoch": 4.385242777650736, "step": 57530}, {"loss": 0.06326195001602172, "token_acc": 0.9872982270441916, "grad_norm": 3.0756826400756836, "learning_rate": 3.6793291360635862e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231894, "epoch": 4.385623904260996, "step": 57535}, {"loss": 0.025710776448249817, "token_acc": 0.9925550923168552, "grad_norm": 0.7031931281089783, "learning_rate": 3.6748223676838113e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231901, "epoch": 4.386005030871256, "step": 57540}, {"loss": 0.015797241032123564, "token_acc": 0.9935064935064936, "grad_norm": 2.2520368099212646, "learning_rate": 3.670318255838001e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23191, "epoch": 4.386386157481516, "step": 57545}, {"loss": 0.040784454345703124, "token_acc": 0.9879317519766958, "grad_norm": 1.3514937162399292, "learning_rate": 3.6658168007844496e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231917, "epoch": 4.386767284091775, "step": 57550}, {"loss": 0.03884675800800323, "token_acc": 0.9827844311377245, "grad_norm": 2.483224868774414, "learning_rate": 3.661318002781283e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231926, "epoch": 4.387148410702035, "step": 57555}, {"loss": 0.031295251846313474, "token_acc": 0.9889484259879437, "grad_norm": 1.0399075746536255, "learning_rate": 3.6568218620864903e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231933, "epoch": 4.387529537312295, "step": 57560}, {"loss": 0.037061494588851926, "token_acc": 0.9838882921589689, "grad_norm": 1.9910885095596313, "learning_rate": 3.6523283789579087e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23194, "epoch": 4.387910663922555, "step": 57565}, {"loss": 0.03270009160041809, "token_acc": 0.9891811229248274, "grad_norm": 1.953363060951233, "learning_rate": 3.6478375536532104e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231946, "epoch": 4.388291790532815, "step": 57570}, {"loss": 0.039741164445877074, "token_acc": 0.9857685009487666, "grad_norm": 1.418900728225708, "learning_rate": 3.6433493864299282e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231953, "epoch": 4.388672917143075, "step": 57575}, {"loss": 0.0196002796292305, "token_acc": 0.9913411938098747, "grad_norm": 0.863917887210846, "learning_rate": 3.6388638775454453e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231959, "epoch": 4.389054043753335, "step": 57580}, {"loss": 0.02943817377090454, "token_acc": 0.988950276243094, "grad_norm": 2.5540530681610107, "learning_rate": 3.634381027256972e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231964, "epoch": 4.389435170363595, "step": 57585}, {"loss": 0.04704307019710541, "token_acc": 0.982500705616709, "grad_norm": 0.20705890655517578, "learning_rate": 3.6299008358215867e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231971, "epoch": 4.389816296973855, "step": 57590}, {"loss": 0.026491311192512513, "token_acc": 0.9923510466988728, "grad_norm": 0.85664963722229, "learning_rate": 3.6254233034962004e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231979, "epoch": 4.390197423584115, "step": 57595}, {"loss": 0.029217037558555602, "token_acc": 0.9904635174096252, "grad_norm": 0.6854936480522156, "learning_rate": 3.620948430537585e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231984, "epoch": 4.390578550194375, "step": 57600}, {"eval_loss": 0.049159277230501175, "eval_token_acc": 0.980016264080477, "eval_runtime": 160.4791, "eval_samples_per_second": 3.303, "eval_steps_per_second": 3.303, "epoch": 4.390578550194375, "step": 57600}, {"loss": 0.028985971212387086, "token_acc": 0.9803846790383743, "grad_norm": 0.24682940542697906, "learning_rate": 3.616476217202358e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231837, "epoch": 4.390959676804634, "step": 57605}, {"loss": 0.020784293115139008, "token_acc": 0.9944194698496357, "grad_norm": 0.5941678285598755, "learning_rate": 3.612006663746964e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231842, "epoch": 4.391340803414894, "step": 57610}, {"loss": 0.048187026381492616, "token_acc": 0.982003599280144, "grad_norm": 0.9373700022697449, "learning_rate": 3.60753977042772e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231849, "epoch": 4.391721930025154, "step": 57615}, {"loss": 0.033248302340507505, "token_acc": 0.9851323828920571, "grad_norm": 1.3020738363265991, "learning_rate": 3.6030755375007997e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231855, "epoch": 4.392103056635414, "step": 57620}, {"loss": 0.03455447256565094, "token_acc": 0.9858490566037735, "grad_norm": 1.004951000213623, "learning_rate": 3.598613965222175e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231858, "epoch": 4.392484183245674, "step": 57625}, {"loss": 0.04665469229221344, "token_acc": 0.9809837728194726, "grad_norm": 1.184673547744751, "learning_rate": 3.5941550538477086e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231865, "epoch": 4.392865309855934, "step": 57630}, {"loss": 0.03081212043762207, "token_acc": 0.9882880637926739, "grad_norm": 1.2954802513122559, "learning_rate": 3.5896988036331124e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231871, "epoch": 4.393246436466194, "step": 57635}, {"loss": 0.01781158149242401, "token_acc": 0.988517745302714, "grad_norm": 0.792701244354248, "learning_rate": 3.5852452148339098e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231875, "epoch": 4.393627563076454, "step": 57640}, {"loss": 0.03419716358184814, "token_acc": 0.9826946847960445, "grad_norm": 2.6661739349365234, "learning_rate": 3.5807942877055024e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231882, "epoch": 4.394008689686714, "step": 57645}, {"loss": 0.02631135582923889, "token_acc": 0.9908487349721873, "grad_norm": 1.5870498418807983, "learning_rate": 3.5763460225031298e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231887, "epoch": 4.3943898162969734, "step": 57650}, {"loss": 0.03358307778835297, "token_acc": 0.9877586709414165, "grad_norm": 0.837308943271637, "learning_rate": 3.5719004194818885e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231892, "epoch": 4.3947709429072335, "step": 57655}, {"loss": 0.01582450270652771, "token_acc": 0.9916186485070718, "grad_norm": 0.7220122814178467, "learning_rate": 3.5674574788967075e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231898, "epoch": 4.3951520695174935, "step": 57660}, {"loss": 0.025852200388908387, "token_acc": 0.9899936129444327, "grad_norm": 0.6346963047981262, "learning_rate": 3.5630172010023557e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231904, "epoch": 4.3955331961277535, "step": 57665}, {"loss": 0.031912416219711304, "token_acc": 0.9895261845386534, "grad_norm": 0.7726293802261353, "learning_rate": 3.5585795860534787e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231908, "epoch": 4.3959143227380135, "step": 57670}, {"loss": 0.036070674657821655, "token_acc": 0.9850430578637256, "grad_norm": 0.7318705916404724, "learning_rate": 3.554144634304557e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231912, "epoch": 4.3962954493482735, "step": 57675}, {"loss": 0.03258621096611023, "token_acc": 0.9867942583732058, "grad_norm": 0.9472291469573975, "learning_rate": 3.5497123460098923e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231918, "epoch": 4.396676575958534, "step": 57680}, {"loss": 0.025921228528022765, "token_acc": 0.9892259240842035, "grad_norm": 1.0469608306884766, "learning_rate": 3.5452827214236707e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231922, "epoch": 4.397057702568794, "step": 57685}, {"loss": 0.027020499110221863, "token_acc": 0.9894278606965174, "grad_norm": 0.6196757555007935, "learning_rate": 3.5408557607999217e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231922, "epoch": 4.397438829179054, "step": 57690}, {"loss": 0.03696410655975342, "token_acc": 0.9869141813755326, "grad_norm": 0.87177973985672, "learning_rate": 3.5364314643924866e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231929, "epoch": 4.397819955789314, "step": 57695}, {"loss": 0.032415884733200076, "token_acc": 0.9863907531692767, "grad_norm": 1.3494101762771606, "learning_rate": 3.5320098324550853e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231935, "epoch": 4.398201082399573, "step": 57700}, {"loss": 0.027591854333877563, "token_acc": 0.9897959183673469, "grad_norm": 1.5426455736160278, "learning_rate": 3.527590865241298e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231942, "epoch": 4.398582209009833, "step": 57705}, {"loss": 0.02103964388370514, "token_acc": 0.9906569343065693, "grad_norm": 0.841070830821991, "learning_rate": 3.5231745630045055e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231949, "epoch": 4.398963335620093, "step": 57710}, {"loss": 0.03195193409919739, "token_acc": 0.985670864090317, "grad_norm": 1.328594446182251, "learning_rate": 3.5187609259979714e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231955, "epoch": 4.399344462230353, "step": 57715}, {"loss": 0.03803335428237915, "token_acc": 0.9810402254675891, "grad_norm": 0.9910503625869751, "learning_rate": 3.514349954474805e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231962, "epoch": 4.399725588840613, "step": 57720}, {"loss": 0.018152137100696564, "token_acc": 0.9905176832393644, "grad_norm": 0.5866404175758362, "learning_rate": 3.5099416486879423e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231966, "epoch": 4.400106715450873, "step": 57725}, {"loss": 0.019095434248447417, "token_acc": 0.990625, "grad_norm": 0.8235952258110046, "learning_rate": 3.5055360088901866e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231975, "epoch": 4.400487842061133, "step": 57730}, {"loss": 0.02442755103111267, "token_acc": 0.9868441908384847, "grad_norm": 1.6702661514282227, "learning_rate": 3.501133035334192e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231978, "epoch": 4.400868968671393, "step": 57735}, {"loss": 0.03980360925197601, "token_acc": 0.977551444606111, "grad_norm": 1.7537249326705933, "learning_rate": 3.4967327282724228e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231984, "epoch": 4.401250095281653, "step": 57740}, {"loss": 0.038367894291877744, "token_acc": 0.983634216298296, "grad_norm": 0.9801976084709167, "learning_rate": 3.4923350879572327e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231989, "epoch": 4.401631221891913, "step": 57745}, {"loss": 0.028457483649253844, "token_acc": 0.9856687898089171, "grad_norm": 0.8367419242858887, "learning_rate": 3.487940114640814e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231994, "epoch": 4.402012348502172, "step": 57750}, {"loss": 0.02939937710762024, "token_acc": 0.9897393233499723, "grad_norm": 0.7114782929420471, "learning_rate": 3.4835478085751773e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231997, "epoch": 4.402393475112432, "step": 57755}, {"loss": 0.03001244366168976, "token_acc": 0.9910005293806247, "grad_norm": 0.8467615842819214, "learning_rate": 3.4791581700122144e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232005, "epoch": 4.402774601722692, "step": 57760}, {"loss": 0.01617414951324463, "token_acc": 0.9922622683771126, "grad_norm": 1.0033708810806274, "learning_rate": 3.474771199203647e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23201, "epoch": 4.403155728332952, "step": 57765}, {"loss": 0.03302818834781647, "token_acc": 0.9873366834170855, "grad_norm": 1.638433814048767, "learning_rate": 3.4703868964010398e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232016, "epoch": 4.403536854943212, "step": 57770}, {"loss": 0.020507115125656127, "token_acc": 0.9890042761148442, "grad_norm": 0.69074946641922, "learning_rate": 3.466005261855837e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232019, "epoch": 4.403917981553472, "step": 57775}, {"loss": 0.022255422174930574, "token_acc": 0.9897313024131439, "grad_norm": 0.7818564772605896, "learning_rate": 3.4616262958192645e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232025, "epoch": 4.404299108163732, "step": 57780}, {"loss": 0.022172981500625612, "token_acc": 0.9903755868544601, "grad_norm": 1.3662620782852173, "learning_rate": 3.457249998542472e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23203, "epoch": 4.404680234773992, "step": 57785}, {"loss": 0.05400158166885376, "token_acc": 0.971250432975407, "grad_norm": 0.5006567239761353, "learning_rate": 3.4528763702764144e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232037, "epoch": 4.405061361384252, "step": 57790}, {"loss": 0.04103606939315796, "token_acc": 0.9920014219694276, "grad_norm": 1.9671649932861328, "learning_rate": 3.4485054112718852e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232041, "epoch": 4.405442487994511, "step": 57795}, {"loss": 0.023986056447029114, "token_acc": 0.988929889298893, "grad_norm": 0.682978093624115, "learning_rate": 3.444137121779545e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232044, "epoch": 4.405823614604771, "step": 57800}, {"eval_loss": 0.04924232140183449, "eval_token_acc": 0.98009909041624, "eval_runtime": 158.3438, "eval_samples_per_second": 3.347, "eval_steps_per_second": 3.347, "epoch": 4.405823614604771, "step": 57800}, {"loss": 0.03486639559268952, "token_acc": 0.9805182182737097, "grad_norm": 0.49942949414253235, "learning_rate": 3.439771502049899e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231901, "epoch": 4.406204741215031, "step": 57805}, {"loss": 0.03683125376701355, "token_acc": 0.9849490925188137, "grad_norm": 1.861627221107483, "learning_rate": 3.4354085523332857e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231906, "epoch": 4.406585867825291, "step": 57810}, {"loss": 0.03254488706588745, "token_acc": 0.9850199203187251, "grad_norm": 0.5204206109046936, "learning_rate": 3.4310482728799165e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231911, "epoch": 4.406966994435551, "step": 57815}, {"loss": 0.03758853077888489, "token_acc": 0.9851414614288622, "grad_norm": 2.2437307834625244, "learning_rate": 3.4266906639398134e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231917, "epoch": 4.407348121045811, "step": 57820}, {"loss": 0.03666484951972961, "token_acc": 0.9847328244274809, "grad_norm": 1.6119801998138428, "learning_rate": 3.422335725762876e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231923, "epoch": 4.407729247656071, "step": 57825}, {"loss": 0.025333493947982788, "token_acc": 0.9896978021978022, "grad_norm": 1.022993564605713, "learning_rate": 3.4179834585988447e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231929, "epoch": 4.4081103742663315, "step": 57830}, {"loss": 0.033560195565223695, "token_acc": 0.986229344016024, "grad_norm": 0.6445615291595459, "learning_rate": 3.413633862697285e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231935, "epoch": 4.4084915008765915, "step": 57835}, {"loss": 0.018750400841236116, "token_acc": 0.9904266389177939, "grad_norm": 0.22990448772907257, "learning_rate": 3.4092869383076377e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23194, "epoch": 4.4088726274868515, "step": 57840}, {"loss": 0.05086647868156433, "token_acc": 0.9815175097276264, "grad_norm": 0.9757771492004395, "learning_rate": 3.4049426856791857e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231947, "epoch": 4.4092537540971115, "step": 57845}, {"loss": 0.021427878737449647, "token_acc": 0.9887679887679888, "grad_norm": 1.7180068492889404, "learning_rate": 3.4006011050610298e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231955, "epoch": 4.409634880707371, "step": 57850}, {"loss": 0.029735422134399413, "token_acc": 0.9900920028308563, "grad_norm": 3.6737020015716553, "learning_rate": 3.3962621967021603e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231963, "epoch": 4.410016007317631, "step": 57855}, {"loss": 0.04148439466953278, "token_acc": 0.9858008934269304, "grad_norm": 0.9897979497909546, "learning_rate": 3.3919259608513886e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231968, "epoch": 4.410397133927891, "step": 57860}, {"loss": 0.027893209457397462, "token_acc": 0.9889574537187399, "grad_norm": 0.5902113914489746, "learning_rate": 3.387592397757372e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231973, "epoch": 4.410778260538151, "step": 57865}, {"loss": 0.0391187459230423, "token_acc": 0.9874926714871995, "grad_norm": 0.8376398086547852, "learning_rate": 3.3832615076686225e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231979, "epoch": 4.411159387148411, "step": 57870}, {"loss": 0.03503319025039673, "token_acc": 0.989048473967684, "grad_norm": 1.0960348844528198, "learning_rate": 3.3789332908335027e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231983, "epoch": 4.411540513758671, "step": 57875}, {"loss": 0.04643221795558929, "token_acc": 0.9861402771944561, "grad_norm": 1.3230483531951904, "learning_rate": 3.3746077475002023e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231991, "epoch": 4.411921640368931, "step": 57880}, {"loss": 0.03921997249126434, "token_acc": 0.9850671976107516, "grad_norm": 1.053340196609497, "learning_rate": 3.3702848779167796e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231995, "epoch": 4.412302766979191, "step": 57885}, {"loss": 0.027813059091567994, "token_acc": 0.9894268224819143, "grad_norm": 0.1951836347579956, "learning_rate": 3.365964682331141e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232002, "epoch": 4.412683893589451, "step": 57890}, {"loss": 0.03635947704315186, "token_acc": 0.9877910920189916, "grad_norm": 3.0813069343566895, "learning_rate": 3.3616471609910104e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232006, "epoch": 4.41306502019971, "step": 57895}, {"loss": 0.029413706064224242, "token_acc": 0.9873750657548659, "grad_norm": 0.6885709166526794, "learning_rate": 3.357332314143985e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232012, "epoch": 4.41344614680997, "step": 57900}, {"loss": 0.014463508129119873, "token_acc": 0.9959630911188004, "grad_norm": 1.352856159210205, "learning_rate": 3.3530201420375163e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23202, "epoch": 4.41382727342023, "step": 57905}, {"loss": 0.02828814387321472, "token_acc": 0.9884063866571748, "grad_norm": 0.9718776941299438, "learning_rate": 3.348710644918862e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232021, "epoch": 4.41420840003049, "step": 57910}, {"loss": 0.02594425082206726, "token_acc": 0.9907500502714659, "grad_norm": 0.8573870062828064, "learning_rate": 3.344403823035164e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232027, "epoch": 4.41458952664075, "step": 57915}, {"loss": 0.02965477406978607, "token_acc": 0.9882693479585618, "grad_norm": 1.6297709941864014, "learning_rate": 3.3400996766334016e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232033, "epoch": 4.41497065325101, "step": 57920}, {"loss": 0.03421503305435181, "token_acc": 0.9898880462260744, "grad_norm": 1.0715593099594116, "learning_rate": 3.335798205960389e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232038, "epoch": 4.41535177986127, "step": 57925}, {"loss": 0.027570644021034242, "token_acc": 0.9882224048205971, "grad_norm": 0.25756850838661194, "learning_rate": 3.3314994112628117e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232046, "epoch": 4.41573290647153, "step": 57930}, {"loss": 0.047104498744010924, "token_acc": 0.9824970828471412, "grad_norm": 0.6623032689094543, "learning_rate": 3.327203292787168e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232053, "epoch": 4.41611403308179, "step": 57935}, {"loss": 0.021547925472259522, "token_acc": 0.9911764705882353, "grad_norm": 1.3237221240997314, "learning_rate": 3.3229098507798263e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232061, "epoch": 4.41649515969205, "step": 57940}, {"loss": 0.04024717807769775, "token_acc": 0.9808612440191388, "grad_norm": 1.3277007341384888, "learning_rate": 3.3186190854870016e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232066, "epoch": 4.416876286302309, "step": 57945}, {"loss": 0.021969597041606902, "token_acc": 0.9889110036963321, "grad_norm": 1.0037074089050293, "learning_rate": 3.314330997154741e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232073, "epoch": 4.417257412912569, "step": 57950}, {"loss": 0.019466283917427062, "token_acc": 0.9916810097532989, "grad_norm": 1.387196660041809, "learning_rate": 3.3100455860289427e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232081, "epoch": 4.417638539522829, "step": 57955}, {"loss": 0.018920820951461793, "token_acc": 0.9939890710382514, "grad_norm": 0.8267048001289368, "learning_rate": 3.305762852355376e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232089, "epoch": 4.418019666133089, "step": 57960}, {"loss": 0.019760940968990327, "token_acc": 0.9882329477463103, "grad_norm": 1.0818935632705688, "learning_rate": 3.3014827963796126e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232095, "epoch": 4.418400792743349, "step": 57965}, {"loss": 0.036160925030708314, "token_acc": 0.983739837398374, "grad_norm": 0.9902758002281189, "learning_rate": 3.2972054183471047e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232101, "epoch": 4.418781919353609, "step": 57970}, {"loss": 0.03624656498432159, "token_acc": 0.9865689865689866, "grad_norm": 0.6587932705879211, "learning_rate": 3.2929307185031453e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232106, "epoch": 4.419163045963869, "step": 57975}, {"loss": 0.05313829183578491, "token_acc": 0.9782764382907615, "grad_norm": 1.8629083633422852, "learning_rate": 3.2886586970928555e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232112, "epoch": 4.419544172574129, "step": 57980}, {"loss": 0.026492860913276673, "token_acc": 0.9862558191088451, "grad_norm": 0.8565999865531921, "learning_rate": 3.284389354361228e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232118, "epoch": 4.419925299184389, "step": 57985}, {"loss": 0.04626967310905457, "token_acc": 0.9789169078131459, "grad_norm": 1.276581883430481, "learning_rate": 3.280122690553078e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232126, "epoch": 4.420306425794649, "step": 57990}, {"loss": 0.034546518325805665, "token_acc": 0.9857308137292711, "grad_norm": 1.7679924964904785, "learning_rate": 3.275858705913082e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232132, "epoch": 4.4206875524049085, "step": 57995}, {"loss": 0.0195330947637558, "token_acc": 0.993676603432701, "grad_norm": 2.0108230113983154, "learning_rate": 3.271597400685772e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232141, "epoch": 4.4210686790151685, "step": 58000}, {"eval_loss": 0.048980142921209335, "eval_token_acc": 0.9800087344135895, "eval_runtime": 156.9514, "eval_samples_per_second": 3.377, "eval_steps_per_second": 3.377, "epoch": 4.4210686790151685, "step": 58000}, {"loss": 0.03175306618213654, "token_acc": 0.9802798057066403, "grad_norm": 0.21740758419036865, "learning_rate": 3.267338775115497e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232, "epoch": 4.4214498056254286, "step": 58005}, {"loss": 0.05408978462219238, "token_acc": 0.9834887334887334, "grad_norm": 1.8037909269332886, "learning_rate": 3.2630828294464787e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232005, "epoch": 4.421830932235689, "step": 58010}, {"loss": 0.034756502509117125, "token_acc": 0.9901143632486916, "grad_norm": 3.169363498687744, "learning_rate": 3.258829563922783e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232011, "epoch": 4.422212058845949, "step": 58015}, {"loss": 0.03697426021099091, "token_acc": 0.9833024118738405, "grad_norm": 0.72584468126297, "learning_rate": 3.2545789787882975e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232018, "epoch": 4.422593185456209, "step": 58020}, {"loss": 0.04321256577968598, "token_acc": 0.9854474896919718, "grad_norm": 0.9954128861427307, "learning_rate": 3.2503310742867777e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232023, "epoch": 4.422974312066469, "step": 58025}, {"loss": 0.03093872368335724, "token_acc": 0.9860195199155896, "grad_norm": 1.0396685600280762, "learning_rate": 3.2460858506618396e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232029, "epoch": 4.423355438676729, "step": 58030}, {"loss": 0.021922938525676727, "token_acc": 0.9927536231884058, "grad_norm": 1.0589455366134644, "learning_rate": 3.2418433081569057e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232035, "epoch": 4.423736565286989, "step": 58035}, {"loss": 0.0366991937160492, "token_acc": 0.9862490450725745, "grad_norm": 0.7904384732246399, "learning_rate": 3.2376034470152695e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23204, "epoch": 4.424117691897248, "step": 58040}, {"loss": 0.026309704780578612, "token_acc": 0.9896729776247849, "grad_norm": 0.8042694330215454, "learning_rate": 3.2333662674800813e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232043, "epoch": 4.424498818507508, "step": 58045}, {"loss": 0.02759680151939392, "token_acc": 0.9893558197401161, "grad_norm": 0.17196081578731537, "learning_rate": 3.2291317697942968e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232048, "epoch": 4.424879945117768, "step": 58050}, {"loss": 0.02846686840057373, "token_acc": 0.990406140070355, "grad_norm": 0.8437506556510925, "learning_rate": 3.2248999542007776e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232055, "epoch": 4.425261071728028, "step": 58055}, {"loss": 0.03485849797725678, "token_acc": 0.9827370527895922, "grad_norm": 1.0075428485870361, "learning_rate": 3.220670820942179e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232062, "epoch": 4.425642198338288, "step": 58060}, {"loss": 0.018397243320941926, "token_acc": 0.9929793769197016, "grad_norm": 0.48605599999427795, "learning_rate": 3.216444370261024e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232069, "epoch": 4.426023324948548, "step": 58065}, {"loss": 0.046260124444961546, "token_acc": 0.9843614248479583, "grad_norm": 1.6452332735061646, "learning_rate": 3.21222060239969e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232076, "epoch": 4.426404451558808, "step": 58070}, {"loss": 0.032697921991348265, "token_acc": 0.9885159010600707, "grad_norm": 1.3656615018844604, "learning_rate": 3.2079995176003743e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232083, "epoch": 4.426785578169068, "step": 58075}, {"loss": 0.034242740273475646, "token_acc": 0.9858233369683751, "grad_norm": 0.8086431622505188, "learning_rate": 3.203781116105148e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232089, "epoch": 4.427166704779328, "step": 58080}, {"loss": 0.018206483125686644, "token_acc": 0.9916885389326334, "grad_norm": 0.21897390484809875, "learning_rate": 3.1995653981559183e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232097, "epoch": 4.427547831389588, "step": 58085}, {"loss": 0.019384878873825073, "token_acc": 0.9922708870077291, "grad_norm": 0.5835753083229065, "learning_rate": 3.1953523639944248e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232102, "epoch": 4.427928957999848, "step": 58090}, {"loss": 0.03341841399669647, "token_acc": 0.9840656687590535, "grad_norm": 0.965251624584198, "learning_rate": 3.1911420138622695e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232107, "epoch": 4.428310084610107, "step": 58095}, {"loss": 0.021438102424144744, "token_acc": 0.9906584300135604, "grad_norm": 0.6083664298057556, "learning_rate": 3.186934348000914e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232113, "epoch": 4.428691211220367, "step": 58100}, {"loss": 0.023300044238567352, "token_acc": 0.989983305509182, "grad_norm": 1.9421762228012085, "learning_rate": 3.1827293666516267e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232118, "epoch": 4.429072337830627, "step": 58105}, {"loss": 0.024998563528060912, "token_acc": 0.9884383908774153, "grad_norm": 0.7763165235519409, "learning_rate": 3.178527070055548e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232121, "epoch": 4.429453464440887, "step": 58110}, {"loss": 0.02843540012836456, "token_acc": 0.9885294603069813, "grad_norm": 0.8232695460319519, "learning_rate": 3.1743274584536744e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232121, "epoch": 4.429834591051147, "step": 58115}, {"loss": 0.020504234731197356, "token_acc": 0.9916749256689792, "grad_norm": 0.10406278818845749, "learning_rate": 3.1701305320868126e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232127, "epoch": 4.430215717661407, "step": 58120}, {"loss": 0.024630707502365113, "token_acc": 0.9861720807726075, "grad_norm": 0.9515517354011536, "learning_rate": 3.165936291195648e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232132, "epoch": 4.430596844271667, "step": 58125}, {"loss": 0.023665951192379, "token_acc": 0.9909509988048489, "grad_norm": 1.018839716911316, "learning_rate": 3.161744736020711e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232135, "epoch": 4.430977970881927, "step": 58130}, {"loss": 0.03015182018280029, "token_acc": 0.9888253638253638, "grad_norm": 0.9472254514694214, "learning_rate": 3.1575558668023476e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232142, "epoch": 4.431359097492187, "step": 58135}, {"loss": 0.02285062223672867, "token_acc": 0.9912536443148688, "grad_norm": 0.6966326832771301, "learning_rate": 3.1533696837807767e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232146, "epoch": 4.431740224102446, "step": 58140}, {"loss": 0.03412860631942749, "token_acc": 0.9888782967905942, "grad_norm": 0.26994091272354126, "learning_rate": 3.1491861871960736e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232154, "epoch": 4.432121350712706, "step": 58145}, {"loss": 0.0290594607591629, "token_acc": 0.988666414809218, "grad_norm": 0.11044905334711075, "learning_rate": 3.145005377288118e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232158, "epoch": 4.432502477322966, "step": 58150}, {"loss": 0.02144276350736618, "token_acc": 0.9880510918829831, "grad_norm": 0.9089610576629639, "learning_rate": 3.140827254296674e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232166, "epoch": 4.4328836039332264, "step": 58155}, {"loss": 0.029293784499168397, "token_acc": 0.9895564289724874, "grad_norm": 0.5571759939193726, "learning_rate": 3.1366518184613334e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23217, "epoch": 4.4332647305434865, "step": 58160}, {"loss": 0.02829861044883728, "token_acc": 0.9898887765419616, "grad_norm": 0.6266617178916931, "learning_rate": 3.132479070021532e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232174, "epoch": 4.4336458571537465, "step": 58165}, {"loss": 0.029640501737594603, "token_acc": 0.9870101276970498, "grad_norm": 1.1608961820602417, "learning_rate": 3.128309009216579e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232181, "epoch": 4.4340269837640065, "step": 58170}, {"loss": 0.02867620885372162, "token_acc": 0.9854691392194852, "grad_norm": 0.12149921804666519, "learning_rate": 3.124141636285577e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232184, "epoch": 4.4344081103742665, "step": 58175}, {"loss": 0.01649356186389923, "token_acc": 0.9903368304803976, "grad_norm": 0.8352394700050354, "learning_rate": 3.1199769514675293e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23219, "epoch": 4.4347892369845265, "step": 58180}, {"loss": 0.031388971209526065, "token_acc": 0.9885173247381144, "grad_norm": 1.0059140920639038, "learning_rate": 3.1158149550012507e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232196, "epoch": 4.435170363594787, "step": 58185}, {"loss": 0.05026545524597168, "token_acc": 0.980747015787447, "grad_norm": 0.048272863030433655, "learning_rate": 3.1116556471254112e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2322, "epoch": 4.435551490205047, "step": 58190}, {"loss": 0.01649473011493683, "token_acc": 0.9927911275415896, "grad_norm": 0.6339544653892517, "learning_rate": 3.107499028078542e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232205, "epoch": 4.435932616815306, "step": 58195}, {"loss": 0.031157466769218444, "token_acc": 0.9861833308572278, "grad_norm": 0.5887312889099121, "learning_rate": 3.103345098098992e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232209, "epoch": 4.436313743425566, "step": 58200}, {"eval_loss": 0.04928889870643616, "eval_token_acc": 0.9799108487440515, "eval_runtime": 158.5738, "eval_samples_per_second": 3.342, "eval_steps_per_second": 3.342, "epoch": 4.436313743425566, "step": 58200}, {"loss": 0.030695736408233643, "token_acc": 0.9801018760459176, "grad_norm": 1.4222075939178467, "learning_rate": 3.09919385742497e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232069, "epoch": 4.436694870035826, "step": 58205}, {"loss": 0.025674355030059815, "token_acc": 0.991344732953346, "grad_norm": 0.45601022243499756, "learning_rate": 3.0950453062945416e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232075, "epoch": 4.437075996646086, "step": 58210}, {"loss": 0.03439017832279205, "token_acc": 0.9871479871479871, "grad_norm": 0.869012176990509, "learning_rate": 3.0908994449455886e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23208, "epoch": 4.437457123256346, "step": 58215}, {"loss": 0.03278044164180756, "token_acc": 0.9856341976173791, "grad_norm": 1.7268930673599243, "learning_rate": 3.0867562736158763e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232088, "epoch": 4.437838249866606, "step": 58220}, {"loss": 0.016891853511333467, "token_acc": 0.9930286599535244, "grad_norm": 0.5477996468544006, "learning_rate": 3.0826157925429867e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232093, "epoch": 4.438219376476866, "step": 58225}, {"loss": 0.042356681823730466, "token_acc": 0.9808157943751165, "grad_norm": 0.6966286301612854, "learning_rate": 3.078478001964352e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232098, "epoch": 4.438600503087126, "step": 58230}, {"loss": 0.03549520373344421, "token_acc": 0.9890784982935154, "grad_norm": 1.6819835901260376, "learning_rate": 3.0743429021172666e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232106, "epoch": 4.438981629697386, "step": 58235}, {"loss": 0.035391539335250854, "token_acc": 0.986198243412798, "grad_norm": 1.0605305433273315, "learning_rate": 3.0702104932388566e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232111, "epoch": 4.439362756307645, "step": 58240}, {"loss": 0.03244886696338654, "token_acc": 0.9858377781864999, "grad_norm": 1.3564244508743286, "learning_rate": 3.066080775566088e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232115, "epoch": 4.439743882917905, "step": 58245}, {"loss": 0.0343135803937912, "token_acc": 0.9842276171331374, "grad_norm": 1.2472724914550781, "learning_rate": 3.0619537493357888e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232121, "epoch": 4.440125009528165, "step": 58250}, {"loss": 0.022601570188999175, "token_acc": 0.9951523545706371, "grad_norm": 0.6026646494865417, "learning_rate": 3.05782941478463e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232128, "epoch": 4.440506136138425, "step": 58255}, {"loss": 0.03453468382358551, "token_acc": 0.9864351600651112, "grad_norm": 1.1260504722595215, "learning_rate": 3.0537077721491057e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232136, "epoch": 4.440887262748685, "step": 58260}, {"loss": 0.040251871943473815, "token_acc": 0.9838909541511772, "grad_norm": 1.2145941257476807, "learning_rate": 3.0495888216655832e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232142, "epoch": 4.441268389358945, "step": 58265}, {"loss": 0.03908684849739075, "token_acc": 0.9813643926788685, "grad_norm": 0.8725104331970215, "learning_rate": 3.0454725635702785e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232147, "epoch": 4.441649515969205, "step": 58270}, {"loss": 0.028995126485824585, "token_acc": 0.9849074975657254, "grad_norm": 0.6511116027832031, "learning_rate": 3.041358998099214e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232153, "epoch": 4.442030642579465, "step": 58275}, {"loss": 0.026861637830734253, "token_acc": 0.9874902267396404, "grad_norm": 0.9484047293663025, "learning_rate": 3.0372481254882957e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232156, "epoch": 4.442411769189725, "step": 58280}, {"loss": 0.02032557427883148, "token_acc": 0.9946808510638298, "grad_norm": 2.0905377864837646, "learning_rate": 3.0331399459732737e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232164, "epoch": 4.442792895799985, "step": 58285}, {"loss": 0.029581665992736816, "token_acc": 0.9880663430420712, "grad_norm": 2.0775153636932373, "learning_rate": 3.0290344597897145e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232169, "epoch": 4.443174022410244, "step": 58290}, {"loss": 0.023634007573127745, "token_acc": 0.9901360544217687, "grad_norm": 0.8091530203819275, "learning_rate": 3.024931667173059e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232175, "epoch": 4.443555149020504, "step": 58295}, {"loss": 0.049206975102424624, "token_acc": 0.9811386253182134, "grad_norm": 1.0783971548080444, "learning_rate": 3.0208315683585843e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23218, "epoch": 4.443936275630764, "step": 58300}, {"loss": 0.028819045424461363, "token_acc": 0.9875503478579275, "grad_norm": 1.245119333267212, "learning_rate": 3.0167341635814028e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232183, "epoch": 4.444317402241024, "step": 58305}, {"loss": 0.0307545006275177, "token_acc": 0.9880636604774535, "grad_norm": 1.0270189046859741, "learning_rate": 3.0126394530764935e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23219, "epoch": 4.444698528851284, "step": 58310}, {"loss": 0.03009040355682373, "token_acc": 0.986893663018511, "grad_norm": 0.8214865922927856, "learning_rate": 3.008547437078657e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232195, "epoch": 4.445079655461544, "step": 58315}, {"loss": 0.041349050402641294, "token_acc": 0.9861111111111112, "grad_norm": 0.9736113548278809, "learning_rate": 3.0044581158225617e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232197, "epoch": 4.445460782071804, "step": 58320}, {"loss": 0.03528337776660919, "token_acc": 0.9806539509536785, "grad_norm": 1.0476984977722168, "learning_rate": 3.000371489542714e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232204, "epoch": 4.445841908682064, "step": 58325}, {"loss": 0.02186237871646881, "token_acc": 0.9916599839615076, "grad_norm": 0.20259790122509003, "learning_rate": 2.9962875584734486e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232209, "epoch": 4.446223035292324, "step": 58330}, {"loss": 0.02191692292690277, "token_acc": 0.9925020827547903, "grad_norm": 1.1591694355010986, "learning_rate": 2.9922063228489673e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232217, "epoch": 4.4466041619025845, "step": 58335}, {"loss": 0.028276726603507996, "token_acc": 0.9870916334661355, "grad_norm": 1.0349624156951904, "learning_rate": 2.9881277829033217e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232222, "epoch": 4.446985288512844, "step": 58340}, {"loss": 0.022006803750991823, "token_acc": 0.9934305070827345, "grad_norm": 2.281031370162964, "learning_rate": 2.9840519388703745e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232229, "epoch": 4.447366415123104, "step": 58345}, {"loss": 0.015000584721565246, "token_acc": 0.9892647609536886, "grad_norm": 0.27579465508461, "learning_rate": 2.9799787909838726e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232234, "epoch": 4.447747541733364, "step": 58350}, {"loss": 0.035849454998970035, "token_acc": 0.9841240194247292, "grad_norm": 1.099178433418274, "learning_rate": 2.97590833947739e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23224, "epoch": 4.448128668343624, "step": 58355}, {"loss": 0.019146141409873963, "token_acc": 0.9933083511777302, "grad_norm": 0.47101083397865295, "learning_rate": 2.97184058458434e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232242, "epoch": 4.448509794953884, "step": 58360}, {"loss": 0.029675406217575074, "token_acc": 0.9852717115286947, "grad_norm": 1.4291999340057373, "learning_rate": 2.967775526537997e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232249, "epoch": 4.448890921564144, "step": 58365}, {"loss": 0.03325777053833008, "token_acc": 0.9871794871794872, "grad_norm": 0.9476715326309204, "learning_rate": 2.9637131655714744e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232255, "epoch": 4.449272048174404, "step": 58370}, {"loss": 0.03083682358264923, "token_acc": 0.9875599520383693, "grad_norm": 1.0786081552505493, "learning_rate": 2.9596535019177195e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23226, "epoch": 4.449653174784664, "step": 58375}, {"loss": 0.026840582489967346, "token_acc": 0.9862976894142934, "grad_norm": 0.7458133101463318, "learning_rate": 2.9555965358095517e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232267, "epoch": 4.450034301394924, "step": 58380}, {"loss": 0.017826542258262634, "token_acc": 0.9906700593723494, "grad_norm": 1.139404058456421, "learning_rate": 2.9515422674796067e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232275, "epoch": 4.450415428005183, "step": 58385}, {"loss": 0.028389915823936462, "token_acc": 0.9885270170244264, "grad_norm": 2.2127692699432373, "learning_rate": 2.9474906971603766e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23228, "epoch": 4.450796554615443, "step": 58390}, {"loss": 0.02027731537818909, "token_acc": 0.9904559915164369, "grad_norm": 0.28387919068336487, "learning_rate": 2.9434418250842146e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232288, "epoch": 4.451177681225703, "step": 58395}, {"loss": 0.024406158924102785, "token_acc": 0.98756146948221, "grad_norm": 0.7682221531867981, "learning_rate": 2.939395651483284e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232293, "epoch": 4.451558807835963, "step": 58400}, {"eval_loss": 0.04881139099597931, "eval_token_acc": 0.9803249804228661, "eval_runtime": 156.9073, "eval_samples_per_second": 3.378, "eval_steps_per_second": 3.378, "epoch": 4.451558807835963, "step": 58400}, {"loss": 0.040872231125831604, "token_acc": 0.9805622397371796, "grad_norm": 2.2710886001586914, "learning_rate": 2.9353521765896286e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232153, "epoch": 4.451939934446223, "step": 58405}, {"loss": 0.02831556797027588, "token_acc": 0.9896259038038353, "grad_norm": 1.2955021858215332, "learning_rate": 2.9313114006351227e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232157, "epoch": 4.452321061056483, "step": 58410}, {"loss": 0.029230961203575136, "token_acc": 0.9892395982783357, "grad_norm": 2.2006685733795166, "learning_rate": 2.927273323851476e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232163, "epoch": 4.452702187666743, "step": 58415}, {"loss": 0.025886327028274536, "token_acc": 0.9906786590351594, "grad_norm": 1.728107213973999, "learning_rate": 2.9232379464702587e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232168, "epoch": 4.453083314277003, "step": 58420}, {"loss": 0.0384773850440979, "token_acc": 0.9832456653029418, "grad_norm": 1.8402591943740845, "learning_rate": 2.9192052687228964e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232173, "epoch": 4.453464440887263, "step": 58425}, {"loss": 0.01289404034614563, "token_acc": 0.9954824136818329, "grad_norm": 1.266174077987671, "learning_rate": 2.915175290840616e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23218, "epoch": 4.453845567497523, "step": 58430}, {"loss": 0.039893466234207156, "token_acc": 0.988263142321728, "grad_norm": 0.8660030961036682, "learning_rate": 2.911148013054538e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232183, "epoch": 4.454226694107783, "step": 58435}, {"loss": 0.021267712116241455, "token_acc": 0.993421052631579, "grad_norm": 1.322394847869873, "learning_rate": 2.9071234355956044e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232189, "epoch": 4.454607820718042, "step": 58440}, {"loss": 0.02319294661283493, "token_acc": 0.9905020352781547, "grad_norm": 1.293222427368164, "learning_rate": 2.9031015586945985e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232194, "epoch": 4.454988947328302, "step": 58445}, {"loss": 0.04244548380374909, "token_acc": 0.9891000558971492, "grad_norm": 0.7662639617919922, "learning_rate": 2.8990823825821634e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2322, "epoch": 4.455370073938562, "step": 58450}, {"loss": 0.031272169947624204, "token_acc": 0.9886218506908162, "grad_norm": 1.2907568216323853, "learning_rate": 2.895065907488781e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232203, "epoch": 4.455751200548822, "step": 58455}, {"loss": 0.025861257314682008, "token_acc": 0.9925982159802619, "grad_norm": 0.5334659218788147, "learning_rate": 2.891052133644767e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232208, "epoch": 4.456132327159082, "step": 58460}, {"loss": 0.02632417678833008, "token_acc": 0.9882869692532943, "grad_norm": 0.8818627595901489, "learning_rate": 2.8870410612803156e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232212, "epoch": 4.456513453769342, "step": 58465}, {"loss": 0.02091339826583862, "token_acc": 0.9918578830495929, "grad_norm": 0.5386205315589905, "learning_rate": 2.8830326906254203e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232216, "epoch": 4.456894580379602, "step": 58470}, {"loss": 0.027786344289779663, "token_acc": 0.9850303838743145, "grad_norm": 0.6241896152496338, "learning_rate": 2.8790270219099467e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23222, "epoch": 4.457275706989862, "step": 58475}, {"loss": 0.02934412956237793, "token_acc": 0.9872905834777586, "grad_norm": 1.3326218128204346, "learning_rate": 2.875024055363618e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232227, "epoch": 4.457656833600122, "step": 58480}, {"loss": 0.04524487853050232, "token_acc": 0.983729662077597, "grad_norm": 0.9099288582801819, "learning_rate": 2.8710237912159656e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232231, "epoch": 4.4580379602103815, "step": 58485}, {"loss": 0.031789141893386844, "token_acc": 0.9927797833935018, "grad_norm": 0.0020342697389423847, "learning_rate": 2.8670262296963903e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232238, "epoch": 4.4584190868206415, "step": 58490}, {"loss": 0.046379125118255614, "token_acc": 0.9796080508474576, "grad_norm": 1.0770201683044434, "learning_rate": 2.8630313710341417e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232244, "epoch": 4.4588002134309015, "step": 58495}, {"loss": 0.036414426565170285, "token_acc": 0.989844278943805, "grad_norm": 2.4092719554901123, "learning_rate": 2.859039215458298e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232251, "epoch": 4.4591813400411615, "step": 58500}, {"loss": 0.041926464438438414, "token_acc": 0.9831492229919491, "grad_norm": 0.8487651944160461, "learning_rate": 2.855049763197798e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232256, "epoch": 4.4595624666514215, "step": 58505}, {"loss": 0.03978169858455658, "token_acc": 0.9858356940509915, "grad_norm": 1.7606645822525024, "learning_rate": 2.85106301448142e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232264, "epoch": 4.4599435932616815, "step": 58510}, {"loss": 0.02783275246620178, "token_acc": 0.9849756959787892, "grad_norm": 2.105976104736328, "learning_rate": 2.84707896953777e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232272, "epoch": 4.460324719871942, "step": 58515}, {"loss": 0.019062311947345735, "token_acc": 0.9934985778138968, "grad_norm": 0.3989911675453186, "learning_rate": 2.843097628595326e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232279, "epoch": 4.460705846482202, "step": 58520}, {"loss": 0.03961658477783203, "token_acc": 0.9826742763962495, "grad_norm": 0.9929360747337341, "learning_rate": 2.839118991882406e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232285, "epoch": 4.461086973092462, "step": 58525}, {"loss": 0.030867105722427367, "token_acc": 0.9893119572478289, "grad_norm": 0.9976407289505005, "learning_rate": 2.835143059627149e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232291, "epoch": 4.461468099702722, "step": 58530}, {"loss": 0.03822359144687652, "token_acc": 0.9821428571428571, "grad_norm": 1.0114582777023315, "learning_rate": 2.8311698320575677e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232296, "epoch": 4.461849226312982, "step": 58535}, {"loss": 0.03957253098487854, "token_acc": 0.9811975701475267, "grad_norm": 2.659564256668091, "learning_rate": 2.827199309401518e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232303, "epoch": 4.462230352923241, "step": 58540}, {"loss": 0.026403939723968504, "token_acc": 0.9906333630686887, "grad_norm": 1.2665292024612427, "learning_rate": 2.8232314918866685e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232311, "epoch": 4.462611479533501, "step": 58545}, {"loss": 0.025102069973945616, "token_acc": 0.9907995334974731, "grad_norm": 0.6554067730903625, "learning_rate": 2.8192663797405706e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232314, "epoch": 4.462992606143761, "step": 58550}, {"loss": 0.018084868788719177, "token_acc": 0.9898770788141721, "grad_norm": 1.140676736831665, "learning_rate": 2.815303973190597e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232321, "epoch": 4.463373732754021, "step": 58555}, {"loss": 0.025027731060981752, "token_acc": 0.9885099733431382, "grad_norm": 0.5999197363853455, "learning_rate": 2.8113442724639726e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232321, "epoch": 4.463754859364281, "step": 58560}, {"loss": 0.03120211660861969, "token_acc": 0.9878264718902169, "grad_norm": 1.4394930601119995, "learning_rate": 2.807387277787782e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232327, "epoch": 4.464135985974541, "step": 58565}, {"loss": 0.026378309726715087, "token_acc": 0.9850624104767751, "grad_norm": 1.0940921306610107, "learning_rate": 2.8034329893889264e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232331, "epoch": 4.464517112584801, "step": 58570}, {"loss": 0.034075173735618594, "token_acc": 0.9899029126213592, "grad_norm": 1.6029376983642578, "learning_rate": 2.7994814074941646e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232339, "epoch": 4.464898239195061, "step": 58575}, {"loss": 0.03780399262905121, "token_acc": 0.9816564758198999, "grad_norm": 1.227484107017517, "learning_rate": 2.7955325323301197e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232344, "epoch": 4.465279365805321, "step": 58580}, {"loss": 0.033963510394096376, "token_acc": 0.9852897911150338, "grad_norm": 4.939914703369141, "learning_rate": 2.791586364123211e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232351, "epoch": 4.46566049241558, "step": 58585}, {"loss": 0.02754482626914978, "token_acc": 0.9876051350154936, "grad_norm": 1.0272794961929321, "learning_rate": 2.787642903099763e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232359, "epoch": 4.46604161902584, "step": 58590}, {"loss": 0.04836756587028503, "token_acc": 0.9806142452624701, "grad_norm": 1.9486650228500366, "learning_rate": 2.7837021494859006e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232364, "epoch": 4.4664227456361, "step": 58595}, {"loss": 0.02991333305835724, "token_acc": 0.9924599434495759, "grad_norm": 0.38139691948890686, "learning_rate": 2.779764103507604e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232373, "epoch": 4.46680387224636, "step": 58600}, {"eval_loss": 0.04884311929345131, "eval_token_acc": 0.9802873320884284, "eval_runtime": 158.7528, "eval_samples_per_second": 3.339, "eval_steps_per_second": 3.339, "epoch": 4.46680387224636, "step": 58600}, {"loss": 0.02997695505619049, "token_acc": 0.9804596343012436, "grad_norm": 1.3038325309753418, "learning_rate": 2.7758287653907145e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232235, "epoch": 4.46718499885662, "step": 58605}, {"loss": 0.06661640405654908, "token_acc": 0.9777887462981244, "grad_norm": 1.866551399230957, "learning_rate": 2.7718961353608963e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232241, "epoch": 4.46756612546688, "step": 58610}, {"loss": 0.06892396211624145, "token_acc": 0.979614124499454, "grad_norm": 0.8185667991638184, "learning_rate": 2.7679662136436635e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232244, "epoch": 4.46794725207714, "step": 58615}, {"loss": 0.04460042119026184, "token_acc": 0.986594637855142, "grad_norm": 0.9550796747207642, "learning_rate": 2.764039000464397e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232248, "epoch": 4.4683283786874, "step": 58620}, {"loss": 0.022362005710601807, "token_acc": 0.9904938557848365, "grad_norm": 1.0035653114318848, "learning_rate": 2.7601144960482827e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232253, "epoch": 4.46870950529766, "step": 58625}, {"loss": 0.014931640028953553, "token_acc": 0.9960159362549801, "grad_norm": 0.8505848050117493, "learning_rate": 2.7561927006203857e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23226, "epoch": 4.46909063190792, "step": 58630}, {"loss": 0.02169519364833832, "token_acc": 0.9929435483870968, "grad_norm": 0.7875033617019653, "learning_rate": 2.752273614405604e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232267, "epoch": 4.469471758518179, "step": 58635}, {"loss": 0.029314693808555604, "token_acc": 0.9892195922193578, "grad_norm": 1.1741772890090942, "learning_rate": 2.7483572376286628e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232273, "epoch": 4.469852885128439, "step": 58640}, {"loss": 0.0372830867767334, "token_acc": 0.9864783047426842, "grad_norm": 1.5904589891433716, "learning_rate": 2.7444435705141657e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232279, "epoch": 4.470234011738699, "step": 58645}, {"loss": 0.03993427753448486, "token_acc": 0.9850196775422115, "grad_norm": 0.9146624803543091, "learning_rate": 2.7405326132865393e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232283, "epoch": 4.470615138348959, "step": 58650}, {"loss": 0.042012158036232, "token_acc": 0.9839986525181068, "grad_norm": 0.6179817318916321, "learning_rate": 2.736624366170054e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232288, "epoch": 4.470996264959219, "step": 58655}, {"loss": 0.01824956387281418, "token_acc": 0.9947871416159861, "grad_norm": 1.2325605154037476, "learning_rate": 2.7327188293888306e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232296, "epoch": 4.471377391569479, "step": 58660}, {"loss": 0.03861548900604248, "token_acc": 0.9851831896551724, "grad_norm": 0.8534398674964905, "learning_rate": 2.7288160031668453e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232299, "epoch": 4.4717585181797395, "step": 58665}, {"loss": 0.04987538456916809, "token_acc": 0.9788064696040156, "grad_norm": 4.789297580718994, "learning_rate": 2.7249158877278856e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232307, "epoch": 4.4721396447899995, "step": 58670}, {"loss": 0.022099606692790985, "token_acc": 0.9914500683994528, "grad_norm": 0.5436508655548096, "learning_rate": 2.7210184832956176e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232312, "epoch": 4.4725207714002595, "step": 58675}, {"loss": 0.037155759334564206, "token_acc": 0.9832662571489091, "grad_norm": 0.713771402835846, "learning_rate": 2.717123790093551e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232317, "epoch": 4.4729018980105195, "step": 58680}, {"loss": 0.03543824851512909, "token_acc": 0.98732339849042, "grad_norm": 1.024732232093811, "learning_rate": 2.7132318083450015e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232319, "epoch": 4.473283024620779, "step": 58685}, {"loss": 0.019700439274311067, "token_acc": 0.9903934126258005, "grad_norm": 0.1376591920852661, "learning_rate": 2.709342538273174e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232327, "epoch": 4.473664151231039, "step": 58690}, {"loss": 0.044377601146698, "token_acc": 0.9875647668393782, "grad_norm": 0.5456061363220215, "learning_rate": 2.7054559801011016e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23233, "epoch": 4.474045277841299, "step": 58695}, {"loss": 0.017122538387775423, "token_acc": 0.9915572232645403, "grad_norm": 0.767620325088501, "learning_rate": 2.70157213405165e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232337, "epoch": 4.474426404451559, "step": 58700}, {"loss": 0.04516446590423584, "token_acc": 0.9831029185867896, "grad_norm": 0.4434947669506073, "learning_rate": 2.697691000347541e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232341, "epoch": 4.474807531061819, "step": 58705}, {"loss": 0.0510998010635376, "token_acc": 0.9888935900148086, "grad_norm": 4.507698059082031, "learning_rate": 2.693812579211358e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232344, "epoch": 4.475188657672079, "step": 58710}, {"loss": 0.02281830906867981, "token_acc": 0.9913489266260814, "grad_norm": 1.197785496711731, "learning_rate": 2.689936870865473e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232352, "epoch": 4.475569784282339, "step": 58715}, {"loss": 0.01971241980791092, "token_acc": 0.9921653383763339, "grad_norm": 0.8552770614624023, "learning_rate": 2.6860638755321852e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232353, "epoch": 4.475950910892599, "step": 58720}, {"loss": 0.028000441193580628, "token_acc": 0.9851526557925554, "grad_norm": 1.0146162509918213, "learning_rate": 2.6821935934335575e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232359, "epoch": 4.476332037502859, "step": 58725}, {"loss": 0.03799598217010498, "token_acc": 0.9848484848484849, "grad_norm": 1.9020683765411377, "learning_rate": 2.67832602479155e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232365, "epoch": 4.476713164113118, "step": 58730}, {"loss": 0.032101699709892274, "token_acc": 0.9861426051902242, "grad_norm": 0.8341664671897888, "learning_rate": 2.674461169827952e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232371, "epoch": 4.477094290723378, "step": 58735}, {"loss": 0.024838604032993317, "token_acc": 0.9894583198183587, "grad_norm": 0.9162484407424927, "learning_rate": 2.6705990287643813e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232375, "epoch": 4.477475417333638, "step": 58740}, {"loss": 0.030315685272216796, "token_acc": 0.9916272297051328, "grad_norm": 1.2500826120376587, "learning_rate": 2.6667396018223155e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232379, "epoch": 4.477856543943898, "step": 58745}, {"loss": 0.03066963851451874, "token_acc": 0.9882687083230427, "grad_norm": 0.7465413808822632, "learning_rate": 2.662882889223095e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23238, "epoch": 4.478237670554158, "step": 58750}, {"loss": 0.022656178474426268, "token_acc": 0.9894691596819256, "grad_norm": 0.5871665477752686, "learning_rate": 2.659028891187859e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232385, "epoch": 4.478618797164418, "step": 58755}, {"loss": 0.02131238728761673, "token_acc": 0.9924550203134068, "grad_norm": 0.8276354670524597, "learning_rate": 2.655177607937637e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232392, "epoch": 4.478999923774678, "step": 58760}, {"loss": 0.028858768939971923, "token_acc": 0.9925824175824176, "grad_norm": 3.8448102474212646, "learning_rate": 2.651329039693262e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232398, "epoch": 4.479381050384938, "step": 58765}, {"loss": 0.029450887441635133, "token_acc": 0.9882879779538408, "grad_norm": 0.8636740446090698, "learning_rate": 2.6474831866754426e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232404, "epoch": 4.479762176995198, "step": 58770}, {"loss": 0.0387860119342804, "token_acc": 0.9847585432376063, "grad_norm": 1.2246664762496948, "learning_rate": 2.6436400491047287e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232408, "epoch": 4.480143303605458, "step": 58775}, {"loss": 0.030539613962173463, "token_acc": 0.9873029772329247, "grad_norm": 0.6238369941711426, "learning_rate": 2.639799627201489e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232413, "epoch": 4.480524430215718, "step": 58780}, {"loss": 0.016242820024490356, "token_acc": 0.993421052631579, "grad_norm": 0.7980039715766907, "learning_rate": 2.6359619211859645e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232419, "epoch": 4.480905556825977, "step": 58785}, {"loss": 0.023035402595996856, "token_acc": 0.9887834339948232, "grad_norm": 0.3720232844352722, "learning_rate": 2.6321269312782335e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232427, "epoch": 4.481286683436237, "step": 58790}, {"loss": 0.03602511882781982, "token_acc": 0.985544848035582, "grad_norm": 1.9309014081954956, "learning_rate": 2.6282946576981994e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232429, "epoch": 4.481667810046497, "step": 58795}, {"loss": 0.015380094945430755, "token_acc": 0.9923076923076923, "grad_norm": 0.9791076183319092, "learning_rate": 2.6244651006656405e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232437, "epoch": 4.482048936656757, "step": 58800}, {"eval_loss": 0.04842289537191391, "eval_token_acc": 0.9804303957592916, "eval_runtime": 158.3848, "eval_samples_per_second": 3.346, "eval_steps_per_second": 3.346, "epoch": 4.482048936656757, "step": 58800}, {"loss": 0.02341914176940918, "token_acc": 0.9807664212248715, "grad_norm": 0.9074917435646057, "learning_rate": 2.62063826040016e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232298, "epoch": 4.482430063267017, "step": 58805}, {"loss": 0.04305016398429871, "token_acc": 0.9853095487932844, "grad_norm": 1.1580435037612915, "learning_rate": 2.616814137121204e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232304, "epoch": 4.482811189877277, "step": 58810}, {"loss": 0.02530284523963928, "token_acc": 0.9942375886524822, "grad_norm": 1.9132534265518188, "learning_rate": 2.6129927310480753e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232311, "epoch": 4.483192316487537, "step": 58815}, {"loss": 0.020037820935249327, "token_acc": 0.9910350448247759, "grad_norm": 1.1347721815109253, "learning_rate": 2.6091740423999143e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232318, "epoch": 4.483573443097797, "step": 58820}, {"loss": 0.023429441452026366, "token_acc": 0.9887323943661972, "grad_norm": 0.7857437133789062, "learning_rate": 2.605358071395697e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232324, "epoch": 4.483954569708057, "step": 58825}, {"loss": 0.02144862413406372, "token_acc": 0.9881731253145445, "grad_norm": 1.0449252128601074, "learning_rate": 2.6015448182542536e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232329, "epoch": 4.4843356963183165, "step": 58830}, {"loss": 0.020291432738304138, "token_acc": 0.9897610921501706, "grad_norm": 0.6336116194725037, "learning_rate": 2.5977342831942696e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232336, "epoch": 4.4847168229285765, "step": 58835}, {"loss": 0.037300470471382144, "token_acc": 0.9875946512002578, "grad_norm": 0.8035302758216858, "learning_rate": 2.5939264664342432e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232339, "epoch": 4.485097949538837, "step": 58840}, {"loss": 0.028478652238845825, "token_acc": 0.987288769253776, "grad_norm": 0.9188675284385681, "learning_rate": 2.5901213681925386e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232345, "epoch": 4.485479076149097, "step": 58845}, {"loss": 0.035176658630371095, "token_acc": 0.9870531116669119, "grad_norm": 0.7433770298957825, "learning_rate": 2.5863189886873697e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23235, "epoch": 4.485860202759357, "step": 58850}, {"loss": 0.018670706450939177, "token_acc": 0.9936013125512715, "grad_norm": 0.5480220913887024, "learning_rate": 2.582519328136779e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232354, "epoch": 4.486241329369617, "step": 58855}, {"loss": 0.02547484338283539, "token_acc": 0.9907202828104287, "grad_norm": 1.257667899131775, "learning_rate": 2.578722386758664e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23236, "epoch": 4.486622455979877, "step": 58860}, {"loss": 0.0367518275976181, "token_acc": 0.9897270325799824, "grad_norm": 1.4495033025741577, "learning_rate": 2.574928164770757e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232367, "epoch": 4.487003582590137, "step": 58865}, {"loss": 0.05246408581733704, "token_acc": 0.9861648016276704, "grad_norm": 0.8923691511154175, "learning_rate": 2.5711366623906385e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232371, "epoch": 4.487384709200397, "step": 58870}, {"loss": 0.02600800096988678, "token_acc": 0.9873274068469832, "grad_norm": 0.545430064201355, "learning_rate": 2.567347879835741e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232377, "epoch": 4.487765835810657, "step": 58875}, {"loss": 0.02902292013168335, "token_acc": 0.9888678615161972, "grad_norm": 0.9786388874053955, "learning_rate": 2.5635618173233233e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23238, "epoch": 4.488146962420916, "step": 58880}, {"loss": 0.03175482451915741, "token_acc": 0.987067075843928, "grad_norm": 1.0377041101455688, "learning_rate": 2.5597784750705066e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232383, "epoch": 4.488528089031176, "step": 58885}, {"loss": 0.022861213982105257, "token_acc": 0.9898312660632473, "grad_norm": 0.47545745968818665, "learning_rate": 2.555997853294245e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232385, "epoch": 4.488909215641436, "step": 58890}, {"loss": 0.024768924713134764, "token_acc": 0.9876702245123298, "grad_norm": 0.672337532043457, "learning_rate": 2.5522199522113375e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232391, "epoch": 4.489290342251696, "step": 58895}, {"loss": 0.02579427361488342, "token_acc": 0.9875, "grad_norm": 1.0599043369293213, "learning_rate": 2.5484447720384276e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232394, "epoch": 4.489671468861956, "step": 58900}, {"loss": 0.03504183292388916, "token_acc": 0.9876373626373627, "grad_norm": 1.4782673120498657, "learning_rate": 2.544672312992019e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232402, "epoch": 4.490052595472216, "step": 58905}, {"loss": 0.03324805498123169, "token_acc": 0.9877384196185286, "grad_norm": 2.1021382808685303, "learning_rate": 2.540902575288423e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232406, "epoch": 4.490433722082476, "step": 58910}, {"loss": 0.034390589594841, "token_acc": 0.9887788778877887, "grad_norm": 2.2099149227142334, "learning_rate": 2.537135559143827e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232414, "epoch": 4.490814848692736, "step": 58915}, {"loss": 0.018933041393756865, "token_acc": 0.9919632606199771, "grad_norm": 0.09914572536945343, "learning_rate": 2.533371264774259e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232421, "epoch": 4.491195975302996, "step": 58920}, {"loss": 0.06279722452163697, "token_acc": 0.9791614361034396, "grad_norm": 3.6800155639648438, "learning_rate": 2.5296096923955736e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232427, "epoch": 4.491577101913256, "step": 58925}, {"loss": 0.0488945484161377, "token_acc": 0.9779323578795874, "grad_norm": 2.4938931465148926, "learning_rate": 2.5258508422234816e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232432, "epoch": 4.491958228523515, "step": 58930}, {"loss": 0.028436344861984254, "token_acc": 0.9913432835820896, "grad_norm": 0.9473447203636169, "learning_rate": 2.522094714473544e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232438, "epoch": 4.492339355133775, "step": 58935}, {"loss": 0.03406867086887359, "token_acc": 0.9896269698783163, "grad_norm": 1.2059382200241089, "learning_rate": 2.5183413093611383e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232442, "epoch": 4.492720481744035, "step": 58940}, {"loss": 0.023083811998367308, "token_acc": 0.9926103021082373, "grad_norm": 1.0838170051574707, "learning_rate": 2.5145906271015317e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232447, "epoch": 4.493101608354295, "step": 58945}, {"loss": 0.04214789867401123, "token_acc": 0.9830913069425105, "grad_norm": 0.9644151926040649, "learning_rate": 2.5108426679097795e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232453, "epoch": 4.493482734964555, "step": 58950}, {"loss": 0.028593805432319642, "token_acc": 0.9867924528301887, "grad_norm": 0.903826892375946, "learning_rate": 2.507097432000827e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232457, "epoch": 4.493863861574815, "step": 58955}, {"loss": 0.026117533445358276, "token_acc": 0.9913934944943678, "grad_norm": 1.0287188291549683, "learning_rate": 2.503354919589451e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232459, "epoch": 4.494244988185075, "step": 58960}, {"loss": 0.03258500397205353, "token_acc": 0.9909571745435932, "grad_norm": 0.6805478930473328, "learning_rate": 2.4996151308902484e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232463, "epoch": 4.494626114795335, "step": 58965}, {"loss": 0.027879178524017334, "token_acc": 0.992255125284738, "grad_norm": 0.7507529854774475, "learning_rate": 2.4958780661176905e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232468, "epoch": 4.495007241405595, "step": 58970}, {"loss": 0.023573027551174165, "token_acc": 0.9894795127353266, "grad_norm": 0.908513605594635, "learning_rate": 2.4921437254860846e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232474, "epoch": 4.495388368015854, "step": 58975}, {"loss": 0.012840729951858521, "token_acc": 0.992, "grad_norm": 1.094321370124817, "learning_rate": 2.4884121092095703e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23248, "epoch": 4.495769494626114, "step": 58980}, {"loss": 0.024349665641784667, "token_acc": 0.9901347783798805, "grad_norm": 0.8562510013580322, "learning_rate": 2.4846832175021373e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232482, "epoch": 4.496150621236374, "step": 58985}, {"loss": 0.035820472240448, "token_acc": 0.9913702928870293, "grad_norm": 3.1774649620056152, "learning_rate": 2.480957050577626e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232487, "epoch": 4.4965317478466345, "step": 58990}, {"loss": 0.02210884392261505, "token_acc": 0.9900383141762452, "grad_norm": 1.224403738975525, "learning_rate": 2.477233608649715e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232493, "epoch": 4.4969128744568945, "step": 58995}, {"loss": 0.026896572113037108, "token_acc": 0.9884878048780488, "grad_norm": 1.1882511377334595, "learning_rate": 2.473512891931923e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232497, "epoch": 4.4972940010671545, "step": 59000}, {"eval_loss": 0.048255596309900284, "eval_token_acc": 0.9804906330943919, "eval_runtime": 157.985, "eval_samples_per_second": 3.355, "eval_steps_per_second": 3.355, "epoch": 4.4972940010671545, "step": 59000}, {"loss": 0.03410537838935852, "token_acc": 0.9805398161770061, "grad_norm": 1.0309727191925049, "learning_rate": 2.4697949006376174e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232358, "epoch": 4.4976751276774145, "step": 59005}, {"loss": 0.01955498307943344, "token_acc": 0.9904919388176933, "grad_norm": 1.2259430885314941, "learning_rate": 2.466079634980001e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232365, "epoch": 4.4980562542876745, "step": 59010}, {"loss": 0.0333198070526123, "token_acc": 0.9881707526144351, "grad_norm": 1.2581634521484375, "learning_rate": 2.462367095172147e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232371, "epoch": 4.4984373808979345, "step": 59015}, {"loss": 0.028895360231399537, "token_acc": 0.987944294325504, "grad_norm": 1.0542749166488647, "learning_rate": 2.458657281426924e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232377, "epoch": 4.498818507508195, "step": 59020}, {"loss": 0.04427205324172974, "token_acc": 0.9839001447178003, "grad_norm": 1.542134404182434, "learning_rate": 2.454950193957095e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232382, "epoch": 4.499199634118455, "step": 59025}, {"loss": 0.0412689208984375, "token_acc": 0.9829376854599406, "grad_norm": 7.581893444061279, "learning_rate": 2.4512458329752354e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232386, "epoch": 4.499580760728714, "step": 59030}, {"loss": 0.042187425494194034, "token_acc": 0.9869446199199832, "grad_norm": 2.919800281524658, "learning_rate": 2.447544198693774e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232392, "epoch": 4.499961887338974, "step": 59035}, {"loss": 0.01897834837436676, "token_acc": 0.9899126769045469, "grad_norm": 0.6602823138237, "learning_rate": 2.443845291324981e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232397, "epoch": 4.500343013949234, "step": 59040}, {"loss": 0.025445157289505006, "token_acc": 0.9870922728065585, "grad_norm": 1.0085598230361938, "learning_rate": 2.4401491110809748e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232403, "epoch": 4.500724140559494, "step": 59045}, {"loss": 0.02714349329471588, "token_acc": 0.9880059970014993, "grad_norm": 2.225587844848633, "learning_rate": 2.4364556581737084e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232406, "epoch": 4.501105267169754, "step": 59050}, {"loss": 0.03491811454296112, "token_acc": 0.9872192579724531, "grad_norm": 1.1109521389007568, "learning_rate": 2.43276493281499e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232408, "epoch": 4.501486393780014, "step": 59055}, {"loss": 0.03553078770637512, "token_acc": 0.9877767527675276, "grad_norm": 1.374549388885498, "learning_rate": 2.4290769352164733e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232414, "epoch": 4.501867520390274, "step": 59060}, {"loss": 0.0377911776304245, "token_acc": 0.9862581662536607, "grad_norm": 1.537404179573059, "learning_rate": 2.425391665589627e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23242, "epoch": 4.502248647000534, "step": 59065}, {"loss": 0.03972398340702057, "token_acc": 0.9884520208963431, "grad_norm": 0.5495750904083252, "learning_rate": 2.4217091241457935e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232423, "epoch": 4.502629773610794, "step": 59070}, {"loss": 0.03728658556938171, "token_acc": 0.9881764438381082, "grad_norm": 2.9759106636047363, "learning_rate": 2.418029311096165e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23243, "epoch": 4.503010900221053, "step": 59075}, {"loss": 0.024471300840377807, "token_acc": 0.9884133806765091, "grad_norm": 0.744644820690155, "learning_rate": 2.4143522266517337e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232435, "epoch": 4.503392026831313, "step": 59080}, {"loss": 0.025973179936408998, "token_acc": 0.9912871287128713, "grad_norm": 0.778300404548645, "learning_rate": 2.4106778710233814e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232441, "epoch": 4.503773153441573, "step": 59085}, {"loss": 0.026257318258285523, "token_acc": 0.989549602590521, "grad_norm": 0.7813193798065186, "learning_rate": 2.407006244421822e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232444, "epoch": 4.504154280051833, "step": 59090}, {"loss": 0.027383172512054445, "token_acc": 0.9868257519264231, "grad_norm": 0.7900437116622925, "learning_rate": 2.4033373470575826e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23245, "epoch": 4.504535406662093, "step": 59095}, {"loss": 0.03221116065979004, "token_acc": 0.9872540870047104, "grad_norm": 2.2154102325439453, "learning_rate": 2.3996711791410774e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232457, "epoch": 4.504916533272353, "step": 59100}, {"loss": 0.04464305341243744, "token_acc": 0.984070796460177, "grad_norm": 2.1204917430877686, "learning_rate": 2.3960077408825386e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232464, "epoch": 4.505297659882613, "step": 59105}, {"loss": 0.039981862902641295, "token_acc": 0.9807213930348259, "grad_norm": 0.2336188405752182, "learning_rate": 2.3923470324920426e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232471, "epoch": 4.505678786492873, "step": 59110}, {"loss": 0.03979058563709259, "token_acc": 0.9844216816047802, "grad_norm": 1.3670543432235718, "learning_rate": 2.388689054179527e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232476, "epoch": 4.506059913103133, "step": 59115}, {"loss": 0.03484660983085632, "token_acc": 0.9858188472095151, "grad_norm": 0.9342288374900818, "learning_rate": 2.385033806154735e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232481, "epoch": 4.506441039713393, "step": 59120}, {"loss": 0.021957483887672425, "token_acc": 0.9907254740313273, "grad_norm": 0.6748875975608826, "learning_rate": 2.381381288627299e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232487, "epoch": 4.506822166323653, "step": 59125}, {"loss": 0.03931613862514496, "token_acc": 0.9841517857142857, "grad_norm": 1.1308940649032593, "learning_rate": 2.377731501806674e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232493, "epoch": 4.507203292933912, "step": 59130}, {"loss": 0.019270297884941102, "token_acc": 0.992723263506064, "grad_norm": 0.9447954297065735, "learning_rate": 2.3740844459021473e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232499, "epoch": 4.507584419544172, "step": 59135}, {"loss": 0.04787872433662414, "token_acc": 0.9854901960784314, "grad_norm": 4.6478095054626465, "learning_rate": 2.370440121122869e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232505, "epoch": 4.507965546154432, "step": 59140}, {"loss": 0.035903871059417725, "token_acc": 0.9836677554829678, "grad_norm": 1.5334807634353638, "learning_rate": 2.366798527677827e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23251, "epoch": 4.508346672764692, "step": 59145}, {"loss": 0.0346203088760376, "token_acc": 0.9895571456198028, "grad_norm": 1.630660891532898, "learning_rate": 2.3631596657758383e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232514, "epoch": 4.508727799374952, "step": 59150}, {"loss": 0.04764093160629272, "token_acc": 0.9803979803979804, "grad_norm": 1.0682584047317505, "learning_rate": 2.359523535625585e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232521, "epoch": 4.509108925985212, "step": 59155}, {"loss": 0.02417047768831253, "token_acc": 0.9920472036942022, "grad_norm": 1.0743567943572998, "learning_rate": 2.3558901374355734e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232527, "epoch": 4.509490052595472, "step": 59160}, {"loss": 0.024049782752990724, "token_acc": 0.9880976397014323, "grad_norm": 0.9620904922485352, "learning_rate": 2.35225947141417e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232532, "epoch": 4.509871179205732, "step": 59165}, {"loss": 0.041955432295799254, "token_acc": 0.9821668264621285, "grad_norm": 2.828744411468506, "learning_rate": 2.3486315377695745e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232538, "epoch": 4.5102523058159925, "step": 59170}, {"loss": 0.022255441546440123, "token_acc": 0.9889033942558747, "grad_norm": 0.4569729268550873, "learning_rate": 2.3450063367098264e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232544, "epoch": 4.510633432426252, "step": 59175}, {"loss": 0.02972511649131775, "token_acc": 0.9883028268168526, "grad_norm": 0.7939974665641785, "learning_rate": 2.34138386844282e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232546, "epoch": 4.511014559036512, "step": 59180}, {"loss": 0.031627827882766725, "token_acc": 0.9881091944397923, "grad_norm": 1.0517349243164062, "learning_rate": 2.33776413317629e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23255, "epoch": 4.511395685646772, "step": 59185}, {"loss": 0.026798653602600097, "token_acc": 0.9905882352941177, "grad_norm": 0.936591625213623, "learning_rate": 2.334147131117803e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232558, "epoch": 4.511776812257032, "step": 59190}, {"loss": 0.03167259097099304, "token_acc": 0.9872939560439561, "grad_norm": 1.2887248992919922, "learning_rate": 2.3305328624747822e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232565, "epoch": 4.512157938867292, "step": 59195}, {"loss": 0.03672055900096893, "token_acc": 0.9847908745247148, "grad_norm": 1.2832838296890259, "learning_rate": 2.32692132745449e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232568, "epoch": 4.512539065477552, "step": 59200}, {"eval_loss": 0.04806428402662277, "eval_token_acc": 0.9804529847599542, "eval_runtime": 199.7208, "eval_samples_per_second": 2.654, "eval_steps_per_second": 2.654, "epoch": 4.512539065477552, "step": 59200}, {"loss": 0.02646632194519043, "token_acc": 0.9806061586661862, "grad_norm": 1.4501534700393677, "learning_rate": 2.3233125262640267e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232392, "epoch": 4.512920192087812, "step": 59205}, {"loss": 0.04569809138774872, "token_acc": 0.9858070194740896, "grad_norm": 0.6811836957931519, "learning_rate": 2.3197064591103436e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232392, "epoch": 4.513301318698072, "step": 59210}, {"loss": 0.032369408011436465, "token_acc": 0.98721071863581, "grad_norm": 0.8343686461448669, "learning_rate": 2.3161031262002363e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232395, "epoch": 4.513682445308332, "step": 59215}, {"loss": 0.0365339457988739, "token_acc": 0.985616772306192, "grad_norm": 1.013788104057312, "learning_rate": 2.312502527740329e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232399, "epoch": 4.514063571918591, "step": 59220}, {"loss": 0.024265801906585692, "token_acc": 0.9894141992995861, "grad_norm": 0.6791442632675171, "learning_rate": 2.308904663937106e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232398, "epoch": 4.514444698528852, "step": 59225}, {"loss": 0.04631746411323547, "token_acc": 0.9812291077397789, "grad_norm": 0.9160165786743164, "learning_rate": 2.305309534996891e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232402, "epoch": 4.514825825139111, "step": 59230}, {"loss": 0.03270387947559357, "token_acc": 0.9918319719953326, "grad_norm": 4.522104740142822, "learning_rate": 2.3017171411258366e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232409, "epoch": 4.515206951749371, "step": 59235}, {"loss": 0.023082280158996583, "token_acc": 0.9913096508614118, "grad_norm": 0.673285961151123, "learning_rate": 2.29812748252996e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232412, "epoch": 4.515588078359631, "step": 59240}, {"loss": 0.03350680470466614, "token_acc": 0.987275811924382, "grad_norm": 0.8149601817131042, "learning_rate": 2.294540559415115e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232413, "epoch": 4.515969204969891, "step": 59245}, {"loss": 0.021573127806186677, "token_acc": 0.989736572015053, "grad_norm": 1.5069636106491089, "learning_rate": 2.2909563719869687e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23242, "epoch": 4.516350331580151, "step": 59250}, {"loss": 0.023532551527023316, "token_acc": 0.9918839578656536, "grad_norm": 0.7998501658439636, "learning_rate": 2.2873749204510963e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232423, "epoch": 4.516731458190411, "step": 59255}, {"loss": 0.02539536952972412, "token_acc": 0.9920844327176781, "grad_norm": 0.6253056526184082, "learning_rate": 2.2837962050128505e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232427, "epoch": 4.517112584800671, "step": 59260}, {"loss": 0.029252460598945616, "token_acc": 0.9857429718875502, "grad_norm": 1.0590099096298218, "learning_rate": 2.280220225877466e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232431, "epoch": 4.517493711410931, "step": 59265}, {"loss": 0.018694031238555908, "token_acc": 0.9921783339851389, "grad_norm": 0.9471097588539124, "learning_rate": 2.2766469832500083e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232437, "epoch": 4.517874838021191, "step": 59270}, {"loss": 0.030390965938568115, "token_acc": 0.9813990044537595, "grad_norm": 0.3153873682022095, "learning_rate": 2.273076477335373e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232443, "epoch": 4.51825596463145, "step": 59275}, {"loss": 0.03349434435367584, "token_acc": 0.9872954349698536, "grad_norm": 1.117079734802246, "learning_rate": 2.2695087083383247e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232446, "epoch": 4.51863709124171, "step": 59280}, {"loss": 0.025044816732406616, "token_acc": 0.9901477832512315, "grad_norm": 0.7060087323188782, "learning_rate": 2.2659436764634666e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23245, "epoch": 4.51901821785197, "step": 59285}, {"loss": 0.03594998717308044, "token_acc": 0.9836745270795543, "grad_norm": 0.9655941724777222, "learning_rate": 2.262381381915213e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232456, "epoch": 4.51939934446223, "step": 59290}, {"loss": 0.03434213995933533, "token_acc": 0.9846368715083799, "grad_norm": 2.23012113571167, "learning_rate": 2.258821824897861e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232462, "epoch": 4.51978047107249, "step": 59295}, {"loss": 0.014914745092391967, "token_acc": 0.9938180747718576, "grad_norm": 1.2015433311462402, "learning_rate": 2.2552650056155366e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232467, "epoch": 4.52016159768275, "step": 59300}, {"loss": 0.039533483982086184, "token_acc": 0.975973487986744, "grad_norm": 0.8435158729553223, "learning_rate": 2.2517109242721934e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232472, "epoch": 4.52054272429301, "step": 59305}, {"loss": 0.029383367300033568, "token_acc": 0.9873899119295436, "grad_norm": 0.8554381728172302, "learning_rate": 2.248159581071646e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232476, "epoch": 4.52092385090327, "step": 59310}, {"loss": 0.03343854248523712, "token_acc": 0.9871159563924677, "grad_norm": 1.167482852935791, "learning_rate": 2.2446109762175647e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232479, "epoch": 4.52130497751353, "step": 59315}, {"loss": 0.02998122274875641, "token_acc": 0.9863227146814404, "grad_norm": 0.9088460206985474, "learning_rate": 2.2410651099134204e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232483, "epoch": 4.5216861041237895, "step": 59320}, {"loss": 0.03850245177745819, "token_acc": 0.9840482098546615, "grad_norm": 1.1944597959518433, "learning_rate": 2.2375219823625725e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232486, "epoch": 4.5220672307340495, "step": 59325}, {"loss": 0.07224138975143432, "token_acc": 0.9770433405897486, "grad_norm": 1.5016146898269653, "learning_rate": 2.233981593768186e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232489, "epoch": 4.5224483573443095, "step": 59330}, {"loss": 0.030390077829360963, "token_acc": 0.989126559714795, "grad_norm": 1.0423824787139893, "learning_rate": 2.230443944333299e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232493, "epoch": 4.5228294839545695, "step": 59335}, {"loss": 0.03304453492164612, "token_acc": 0.9860041987403779, "grad_norm": 0.6940978765487671, "learning_rate": 2.2269090342607766e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232496, "epoch": 4.5232106105648295, "step": 59340}, {"loss": 0.015040203928947449, "token_acc": 0.9924675324675325, "grad_norm": 0.5522743463516235, "learning_rate": 2.2233768637533183e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232501, "epoch": 4.5235917371750896, "step": 59345}, {"loss": 0.017863033711910246, "token_acc": 0.9921787709497206, "grad_norm": 1.5150868892669678, "learning_rate": 2.219847433013489e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232504, "epoch": 4.52397286378535, "step": 59350}, {"loss": 0.02834937870502472, "token_acc": 0.9892097746747064, "grad_norm": 0.940869927406311, "learning_rate": 2.2163207422436883e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232507, "epoch": 4.52435399039561, "step": 59355}, {"loss": 0.030871984362602235, "token_acc": 0.9847799259563965, "grad_norm": 1.3798832893371582, "learning_rate": 2.2127967916461435e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23251, "epoch": 4.52473511700587, "step": 59360}, {"loss": 0.033095327019691465, "token_acc": 0.9841530054644809, "grad_norm": 1.2688530683517456, "learning_rate": 2.2092755814229426e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232515, "epoch": 4.52511624361613, "step": 59365}, {"loss": 0.026617607474327086, "token_acc": 0.9852161785216178, "grad_norm": 0.4319153428077698, "learning_rate": 2.2057571117760136e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232519, "epoch": 4.52549737022639, "step": 59370}, {"loss": 0.03872561454772949, "token_acc": 0.9892537313432835, "grad_norm": 3.2344508171081543, "learning_rate": 2.202241382907122e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232525, "epoch": 4.525878496836649, "step": 59375}, {"loss": 0.027013123035430908, "token_acc": 0.988141163023289, "grad_norm": 0.4669230282306671, "learning_rate": 2.1987283950178737e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232527, "epoch": 4.526259623446909, "step": 59380}, {"loss": 0.06078287959098816, "token_acc": 0.9753042233357194, "grad_norm": 2.558762311935425, "learning_rate": 2.1952181483097302e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232533, "epoch": 4.526640750057169, "step": 59385}, {"loss": 0.02150699943304062, "token_acc": 0.991011984021305, "grad_norm": 0.8609647750854492, "learning_rate": 2.1917106429839795e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232539, "epoch": 4.527021876667429, "step": 59390}, {"loss": 0.03964447379112244, "token_acc": 0.9851283656856606, "grad_norm": 1.43874192237854, "learning_rate": 2.1882058792417783e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232541, "epoch": 4.527403003277689, "step": 59395}, {"loss": 0.03581387996673584, "token_acc": 0.9852811950790861, "grad_norm": 0.929912269115448, "learning_rate": 2.184703857284087e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232542, "epoch": 4.527784129887949, "step": 59400}, {"eval_loss": 0.04835975915193558, "eval_token_acc": 0.9805358110957171, "eval_runtime": 211.3789, "eval_samples_per_second": 2.507, "eval_steps_per_second": 2.507, "epoch": 4.527784129887949, "step": 59400}, {"loss": 0.033932077884674075, "token_acc": 0.9807518248175182, "grad_norm": 0.884985089302063, "learning_rate": 2.1812045773117407e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232354, "epoch": 4.528165256498209, "step": 59405}, {"loss": 0.0184480682015419, "token_acc": 0.9938217122683142, "grad_norm": 0.26062050461769104, "learning_rate": 2.177708039525411e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232361, "epoch": 4.528546383108469, "step": 59410}, {"loss": 0.029236042499542238, "token_acc": 0.9883662747060296, "grad_norm": 0.9507620334625244, "learning_rate": 2.174214244125594e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232364, "epoch": 4.528927509718729, "step": 59415}, {"loss": 0.02966539263725281, "token_acc": 0.984, "grad_norm": 1.0780410766601562, "learning_rate": 2.170723191312657e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232368, "epoch": 4.529308636328988, "step": 59420}, {"loss": 0.028631231188774107, "token_acc": 0.9873995617238861, "grad_norm": 0.8624927997589111, "learning_rate": 2.1672348812867892e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232371, "epoch": 4.529689762939248, "step": 59425}, {"loss": 0.03756705522537231, "token_acc": 0.9854196301564723, "grad_norm": 1.3525956869125366, "learning_rate": 2.1637493142480312e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232377, "epoch": 4.530070889549508, "step": 59430}, {"loss": 0.023720067739486695, "token_acc": 0.9849773242630385, "grad_norm": 0.1477954238653183, "learning_rate": 2.1602664903962565e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232381, "epoch": 4.530452016159768, "step": 59435}, {"loss": 0.02915475070476532, "token_acc": 0.9887715546049993, "grad_norm": 2.100870132446289, "learning_rate": 2.156786409931205e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232384, "epoch": 4.530833142770028, "step": 59440}, {"loss": 0.03442515432834625, "token_acc": 0.9890677194047981, "grad_norm": 1.07608163356781, "learning_rate": 2.153309073052423e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232386, "epoch": 4.531214269380288, "step": 59445}, {"loss": 0.028535571694374085, "token_acc": 0.9905660377358491, "grad_norm": 0.8724117875099182, "learning_rate": 2.149834479959334e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23239, "epoch": 4.531595395990548, "step": 59450}, {"loss": 0.03844791054725647, "token_acc": 0.9884004884004884, "grad_norm": 1.9680774211883545, "learning_rate": 2.14636263085119e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232391, "epoch": 4.531976522600808, "step": 59455}, {"loss": 0.02326098531484604, "token_acc": 0.9892057354599646, "grad_norm": 1.440451979637146, "learning_rate": 2.1428935259270754e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232394, "epoch": 4.532357649211068, "step": 59460}, {"loss": 0.03685930073261261, "token_acc": 0.9877859204974462, "grad_norm": 0.6049251556396484, "learning_rate": 2.1394271653859323e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232399, "epoch": 4.532738775821328, "step": 59465}, {"loss": 0.028444743156433104, "token_acc": 0.9894705174488568, "grad_norm": 2.584005355834961, "learning_rate": 2.1359635494265507e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232398, "epoch": 4.533119902431588, "step": 59470}, {"loss": 0.03365178108215332, "token_acc": 0.9837133550488599, "grad_norm": 0.29105398058891296, "learning_rate": 2.132502678247533e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232403, "epoch": 4.533501029041847, "step": 59475}, {"loss": 0.022716154158115388, "token_acc": 0.9928707224334601, "grad_norm": 0.8819000720977783, "learning_rate": 2.1290445520473543e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23241, "epoch": 4.533882155652107, "step": 59480}, {"loss": 0.025982236862182616, "token_acc": 0.988173455978975, "grad_norm": 1.008579969406128, "learning_rate": 2.1255891710243283e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232417, "epoch": 4.534263282262367, "step": 59485}, {"loss": 0.019303226470947267, "token_acc": 0.991474318985236, "grad_norm": 1.2348617315292358, "learning_rate": 2.1221365353765956e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23242, "epoch": 4.534644408872627, "step": 59490}, {"loss": 0.026720145344734193, "token_acc": 0.9881512130900884, "grad_norm": 0.2707468271255493, "learning_rate": 2.1186866453021594e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232425, "epoch": 4.5350255354828874, "step": 59495}, {"loss": 0.01873173415660858, "token_acc": 0.99302649930265, "grad_norm": 1.0585404634475708, "learning_rate": 2.115239500998839e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232428, "epoch": 4.5354066620931475, "step": 59500}, {"loss": 0.04239074289798737, "token_acc": 0.9856598016781083, "grad_norm": 1.264786958694458, "learning_rate": 2.1117951026643212e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23243, "epoch": 4.5357877887034075, "step": 59505}, {"loss": 0.020904065668582918, "token_acc": 0.9920154185022027, "grad_norm": 1.0012396574020386, "learning_rate": 2.1083534504961313e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232436, "epoch": 4.5361689153136675, "step": 59510}, {"loss": 0.030609449744224547, "token_acc": 0.9883016058704669, "grad_norm": 0.6450436115264893, "learning_rate": 2.1049145446916217e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232436, "epoch": 4.5365500419239275, "step": 59515}, {"loss": 0.014717184007167816, "token_acc": 0.994657014822475, "grad_norm": 0.052250176668167114, "learning_rate": 2.1014783854479915e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23244, "epoch": 4.536931168534187, "step": 59520}, {"loss": 0.024439053237438203, "token_acc": 0.9916363636363636, "grad_norm": 0.462763249874115, "learning_rate": 2.098044972962315e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232443, "epoch": 4.537312295144447, "step": 59525}, {"loss": 0.025448337197303772, "token_acc": 0.9920263953808084, "grad_norm": 0.47965481877326965, "learning_rate": 2.094614307431464e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232448, "epoch": 4.537693421754707, "step": 59530}, {"loss": 0.028212955594062804, "token_acc": 0.9873380447585395, "grad_norm": 0.37837326526641846, "learning_rate": 2.0911863890521743e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232452, "epoch": 4.538074548364967, "step": 59535}, {"loss": 0.023519554734230043, "token_acc": 0.9874270318814549, "grad_norm": 1.0939854383468628, "learning_rate": 2.087761218021023e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232457, "epoch": 4.538455674975227, "step": 59540}, {"loss": 0.03578497171401977, "token_acc": 0.9828781084386465, "grad_norm": 0.9382004737854004, "learning_rate": 2.084338794534424e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232463, "epoch": 4.538836801585487, "step": 59545}, {"loss": 0.02501700520515442, "token_acc": 0.990909090909091, "grad_norm": 0.8781613111495972, "learning_rate": 2.0809191187886435e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23247, "epoch": 4.539217928195747, "step": 59550}, {"loss": 0.030407717823982237, "token_acc": 0.9902462813947818, "grad_norm": 1.4861927032470703, "learning_rate": 2.077502190979774e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232474, "epoch": 4.539599054806007, "step": 59555}, {"loss": 0.03359721004962921, "token_acc": 0.988314606741573, "grad_norm": 3.324665069580078, "learning_rate": 2.0740880113037655e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23248, "epoch": 4.539980181416267, "step": 59560}, {"loss": 0.02911856770515442, "token_acc": 0.9878923766816143, "grad_norm": 1.0918350219726562, "learning_rate": 2.0706765799564097e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232484, "epoch": 4.540361308026526, "step": 59565}, {"loss": 0.04684201180934906, "token_acc": 0.9786008230452675, "grad_norm": 0.8269166350364685, "learning_rate": 2.0672678971333293e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232487, "epoch": 4.540742434636787, "step": 59570}, {"loss": 0.025732648372650147, "token_acc": 0.990699276610403, "grad_norm": 2.4232094287872314, "learning_rate": 2.0638619630300002e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232492, "epoch": 4.541123561247046, "step": 59575}, {"loss": 0.035278862714767455, "token_acc": 0.9796491228070175, "grad_norm": 0.4151006042957306, "learning_rate": 2.060458777841745e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232498, "epoch": 4.541504687857306, "step": 59580}, {"loss": 0.02455410659313202, "token_acc": 0.9886931369971076, "grad_norm": 1.357782244682312, "learning_rate": 2.057058341763701e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232504, "epoch": 4.541885814467566, "step": 59585}, {"loss": 0.05196772217750549, "token_acc": 0.9864540091763163, "grad_norm": 1.349265217781067, "learning_rate": 2.0536606549908855e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232509, "epoch": 4.542266941077826, "step": 59590}, {"loss": 0.028534284234046935, "token_acc": 0.985732270247587, "grad_norm": 0.20614959299564362, "learning_rate": 2.0502657177181363e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232515, "epoch": 4.542648067688086, "step": 59595}, {"loss": 0.03679392337799072, "token_acc": 0.9802685667306111, "grad_norm": 1.257615327835083, "learning_rate": 2.0468735301401252e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232521, "epoch": 4.543029194298346, "step": 59600}, {"eval_loss": 0.04827757179737091, "eval_token_acc": 0.9804755737606168, "eval_runtime": 211.7134, "eval_samples_per_second": 2.503, "eval_steps_per_second": 2.503, "epoch": 4.543029194298346, "step": 59600}, {"loss": 0.02414417117834091, "token_acc": 0.9808141342143121, "grad_norm": 0.3239976465702057, "learning_rate": 2.0434840924513922e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232334, "epoch": 4.543410320908606, "step": 59605}, {"loss": 0.02683834731578827, "token_acc": 0.9936942296252231, "grad_norm": 1.5926331281661987, "learning_rate": 2.040097404846303e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232338, "epoch": 4.543791447518866, "step": 59610}, {"loss": 0.03284373879432678, "token_acc": 0.9913594470046083, "grad_norm": 1.5649784803390503, "learning_rate": 2.0367134675190637e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232342, "epoch": 4.544172574129126, "step": 59615}, {"loss": 0.021368817985057832, "token_acc": 0.9902319902319903, "grad_norm": 0.5726308822631836, "learning_rate": 2.0333322806637243e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232343, "epoch": 4.544553700739385, "step": 59620}, {"loss": 0.033299988508224486, "token_acc": 0.9886398526251151, "grad_norm": 1.134871244430542, "learning_rate": 2.0299538444741973e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232348, "epoch": 4.544934827349645, "step": 59625}, {"loss": 0.04057266116142273, "token_acc": 0.9873632591474916, "grad_norm": 1.4380630254745483, "learning_rate": 2.0265781591442047e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232352, "epoch": 4.545315953959905, "step": 59630}, {"loss": 0.020338305830955507, "token_acc": 0.9925890509203921, "grad_norm": 1.261387825012207, "learning_rate": 2.023205224867325e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232357, "epoch": 4.545697080570165, "step": 59635}, {"loss": 0.03750979602336883, "token_acc": 0.986130374479889, "grad_norm": 1.383431315422058, "learning_rate": 2.0198350418369982e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232361, "epoch": 4.546078207180425, "step": 59640}, {"loss": 0.033510491251945496, "token_acc": 0.9865961199294533, "grad_norm": 0.5154494643211365, "learning_rate": 2.0164676102464643e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232364, "epoch": 4.546459333790685, "step": 59645}, {"loss": 0.02149340510368347, "token_acc": 0.9901361215229828, "grad_norm": 0.8755080103874207, "learning_rate": 2.013102930288846e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232368, "epoch": 4.546840460400945, "step": 59650}, {"loss": 0.019809289276599883, "token_acc": 0.9895882631329863, "grad_norm": 0.17881257832050323, "learning_rate": 2.0097410021570893e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232371, "epoch": 4.547221587011205, "step": 59655}, {"loss": 0.03220491409301758, "token_acc": 0.9896367740611532, "grad_norm": 0.7774648666381836, "learning_rate": 2.0063818260439846e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232371, "epoch": 4.547602713621465, "step": 59660}, {"loss": 0.03375124931335449, "token_acc": 0.9842620161633348, "grad_norm": 0.7214168310165405, "learning_rate": 2.003025402142167e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232376, "epoch": 4.5479838402317245, "step": 59665}, {"loss": 0.03130369782447815, "token_acc": 0.9891245241979336, "grad_norm": 2.1024253368377686, "learning_rate": 1.9996717306441036e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232384, "epoch": 4.5483649668419845, "step": 59670}, {"loss": 0.03149842917919159, "token_acc": 0.9903459372485921, "grad_norm": 0.8422136306762695, "learning_rate": 1.9963208117421195e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232389, "epoch": 4.548746093452245, "step": 59675}, {"loss": 0.025007554888725282, "token_acc": 0.9902565768106528, "grad_norm": 0.7072480320930481, "learning_rate": 1.992972645628377e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232394, "epoch": 4.549127220062505, "step": 59680}, {"loss": 0.04127134084701538, "token_acc": 0.9830927835051546, "grad_norm": 1.1228365898132324, "learning_rate": 1.9896272324948727e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232399, "epoch": 4.549508346672765, "step": 59685}, {"loss": 0.02617310583591461, "token_acc": 0.9889828841235491, "grad_norm": 1.2025084495544434, "learning_rate": 1.9862845725334477e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232403, "epoch": 4.549889473283025, "step": 59690}, {"loss": 0.015453299880027771, "token_acc": 0.9937417030153612, "grad_norm": 0.6244208216667175, "learning_rate": 1.982944665935793e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232407, "epoch": 4.550270599893285, "step": 59695}, {"loss": 0.03021601140499115, "token_acc": 0.9847715736040609, "grad_norm": 0.9140555262565613, "learning_rate": 1.979607512893433e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232412, "epoch": 4.550651726503545, "step": 59700}, {"loss": 0.02145916372537613, "token_acc": 0.9924840285606915, "grad_norm": 1.0098390579223633, "learning_rate": 1.976273113597743e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232418, "epoch": 4.551032853113805, "step": 59705}, {"loss": 0.021961221098899843, "token_acc": 0.9918438683367318, "grad_norm": 1.2782061100006104, "learning_rate": 1.972941468239936e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232424, "epoch": 4.551413979724065, "step": 59710}, {"loss": 0.02751024067401886, "token_acc": 0.9907801418439717, "grad_norm": 1.9232922792434692, "learning_rate": 1.9696125770110597e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232429, "epoch": 4.551795106334325, "step": 59715}, {"loss": 0.020924940705299377, "token_acc": 0.9929814710836609, "grad_norm": 0.7703972458839417, "learning_rate": 1.9662864401020163e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232434, "epoch": 4.552176232944584, "step": 59720}, {"loss": 0.021520860493183136, "token_acc": 0.9899222574143391, "grad_norm": 0.8063812851905823, "learning_rate": 1.9629630577035373e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23244, "epoch": 4.552557359554844, "step": 59725}, {"loss": 0.037638595700263976, "token_acc": 0.9863387978142076, "grad_norm": 3.1564042568206787, "learning_rate": 1.959642430006209e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232444, "epoch": 4.552938486165104, "step": 59730}, {"loss": 0.03558739721775055, "token_acc": 0.9851111948737279, "grad_norm": 0.9854797124862671, "learning_rate": 1.956324557200456e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232448, "epoch": 4.553319612775364, "step": 59735}, {"loss": 0.031200188398361205, "token_acc": 0.9833836858006042, "grad_norm": 1.093687653541565, "learning_rate": 1.9530094394765384e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232453, "epoch": 4.553700739385624, "step": 59740}, {"loss": 0.026190707087516786, "token_acc": 0.9890770618298427, "grad_norm": 0.8157335519790649, "learning_rate": 1.9496970770245593e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232454, "epoch": 4.554081865995884, "step": 59745}, {"loss": 0.026014244556427, "token_acc": 0.9877171959257041, "grad_norm": 0.7674251198768616, "learning_rate": 1.9463874700344774e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23246, "epoch": 4.554462992606144, "step": 59750}, {"loss": 0.048482227325439456, "token_acc": 0.9806247528667458, "grad_norm": 0.7561858296394348, "learning_rate": 1.9430806186960805e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232466, "epoch": 4.554844119216404, "step": 59755}, {"loss": 0.01676030308008194, "token_acc": 0.9931020490971799, "grad_norm": 0.4120377004146576, "learning_rate": 1.9397765231989885e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23247, "epoch": 4.555225245826664, "step": 59760}, {"loss": 0.031013494729995726, "token_acc": 0.9874182184197282, "grad_norm": 1.666172742843628, "learning_rate": 1.9364751837327e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232474, "epoch": 4.555606372436923, "step": 59765}, {"loss": 0.032971763610839845, "token_acc": 0.9874141876430206, "grad_norm": 1.091766119003296, "learning_rate": 1.933176600486508e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232478, "epoch": 4.555987499047183, "step": 59770}, {"loss": 0.062862229347229, "token_acc": 0.982911494438175, "grad_norm": 4.682402610778809, "learning_rate": 1.9298807736495785e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232482, "epoch": 4.556368625657443, "step": 59775}, {"loss": 0.0299111008644104, "token_acc": 0.987460815047022, "grad_norm": 0.9916756749153137, "learning_rate": 1.926587703410926e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232488, "epoch": 4.556749752267703, "step": 59780}, {"loss": 0.028886407613754272, "token_acc": 0.9858314690529456, "grad_norm": 0.3585330545902252, "learning_rate": 1.9232973899593665e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232493, "epoch": 4.557130878877963, "step": 59785}, {"loss": 0.03280780613422394, "token_acc": 0.9878965706950302, "grad_norm": 0.9467634558677673, "learning_rate": 1.920009833483605e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232498, "epoch": 4.557512005488223, "step": 59790}, {"loss": 0.021145665645599367, "token_acc": 0.9891586501755993, "grad_norm": 1.2908377647399902, "learning_rate": 1.916725034172162e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232501, "epoch": 4.557893132098483, "step": 59795}, {"loss": 0.020305800437927245, "token_acc": 0.9911458333333333, "grad_norm": 1.866194725036621, "learning_rate": 1.9134429922134043e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232509, "epoch": 4.558274258708743, "step": 59800}, {"eval_loss": 0.04819339141249657, "eval_token_acc": 0.980505692428167, "eval_runtime": 214.5971, "eval_samples_per_second": 2.47, "eval_steps_per_second": 2.47, "epoch": 4.558274258708743, "step": 59800}, {"loss": 0.03159805834293365, "token_acc": 0.9808029821736797, "grad_norm": 1.4477639198303223, "learning_rate": 1.9101637077955423e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232319, "epoch": 4.558655385319003, "step": 59805}, {"loss": 0.014122414588928222, "token_acc": 0.9951645399597046, "grad_norm": 0.2909989655017853, "learning_rate": 1.9068871811066259e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232322, "epoch": 4.559036511929262, "step": 59810}, {"loss": 0.04422850608825683, "token_acc": 0.9842013888888889, "grad_norm": 0.8563489317893982, "learning_rate": 1.9036134123345484e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232326, "epoch": 4.559417638539523, "step": 59815}, {"loss": 0.04460325837135315, "token_acc": 0.9847009735744089, "grad_norm": 1.4926763772964478, "learning_rate": 1.9003424016670545e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232332, "epoch": 4.559798765149782, "step": 59820}, {"loss": 0.031041663885116578, "token_acc": 0.9880085653104925, "grad_norm": 1.5516494512557983, "learning_rate": 1.897074149291711e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232336, "epoch": 4.5601798917600425, "step": 59825}, {"loss": 0.021941904723644257, "token_acc": 0.9916923489213453, "grad_norm": 0.8611523509025574, "learning_rate": 1.89380865539594e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232338, "epoch": 4.5605610183703025, "step": 59830}, {"loss": 0.0304135799407959, "token_acc": 0.9883903357389394, "grad_norm": 0.6052525043487549, "learning_rate": 1.8905459201670028e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23234, "epoch": 4.5609421449805625, "step": 59835}, {"loss": 0.016959524154663085, "token_acc": 0.9937152879275066, "grad_norm": 2.273098945617676, "learning_rate": 1.8872859437919998e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232343, "epoch": 4.5613232715908225, "step": 59840}, {"loss": 0.0347236692905426, "token_acc": 0.9904336734693877, "grad_norm": 0.649159848690033, "learning_rate": 1.884028726457876e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232348, "epoch": 4.5617043982010825, "step": 59845}, {"loss": 0.03398744761943817, "token_acc": 0.9873417721518988, "grad_norm": 2.4965548515319824, "learning_rate": 1.8807742683514262e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232355, "epoch": 4.5620855248113426, "step": 59850}, {"loss": 0.024915549159049987, "token_acc": 0.9861078408288203, "grad_norm": 1.1448906660079956, "learning_rate": 1.877522569659268e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232361, "epoch": 4.562466651421603, "step": 59855}, {"loss": 0.010688535869121552, "token_acc": 0.9953636627064619, "grad_norm": 0.12641915678977966, "learning_rate": 1.8742736305678742e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232367, "epoch": 4.562847778031863, "step": 59860}, {"loss": 0.04527593851089477, "token_acc": 0.979463243873979, "grad_norm": 2.5580317974090576, "learning_rate": 1.8710274512635629e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23237, "epoch": 4.563228904642122, "step": 59865}, {"loss": 0.048147889971733096, "token_acc": 0.9848733369783124, "grad_norm": 0.42424237728118896, "learning_rate": 1.8677840319324735e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232373, "epoch": 4.563610031252382, "step": 59870}, {"loss": 0.03324068784713745, "token_acc": 0.985363433391218, "grad_norm": 0.7715582847595215, "learning_rate": 1.8645433727606077e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232375, "epoch": 4.563991157862642, "step": 59875}, {"loss": 0.026423835754394533, "token_acc": 0.9852748691099477, "grad_norm": 1.0919480323791504, "learning_rate": 1.861305473933811e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232381, "epoch": 4.564372284472902, "step": 59880}, {"loss": 0.020244407653808593, "token_acc": 0.9926330798479087, "grad_norm": 1.1979573965072632, "learning_rate": 1.8580703356377516e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232384, "epoch": 4.564753411083162, "step": 59885}, {"loss": 0.022035560011863707, "token_acc": 0.9903863930486226, "grad_norm": 0.54510897397995, "learning_rate": 1.8548379580579534e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232388, "epoch": 4.565134537693422, "step": 59890}, {"loss": 0.03979501128196716, "token_acc": 0.983530254206946, "grad_norm": 2.2099459171295166, "learning_rate": 1.8516083413797791e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232391, "epoch": 4.565515664303682, "step": 59895}, {"loss": 0.028426167368888856, "token_acc": 0.9895382395382395, "grad_norm": 0.8551263809204102, "learning_rate": 1.8483814857884253e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232394, "epoch": 4.565896790913942, "step": 59900}, {"loss": 0.014395399391651154, "token_acc": 0.9934490664919751, "grad_norm": 2.0555331707000732, "learning_rate": 1.845157391468949e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232399, "epoch": 4.566277917524202, "step": 59905}, {"loss": 0.014266480505466462, "token_acc": 0.9920687376074026, "grad_norm": 0.00016283598961308599, "learning_rate": 1.8419360586062251e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232406, "epoch": 4.566659044134461, "step": 59910}, {"loss": 0.03153957724571228, "token_acc": 0.9908922246584584, "grad_norm": 0.6601319313049316, "learning_rate": 1.8387174873849833e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232409, "epoch": 4.567040170744721, "step": 59915}, {"loss": 0.03184411525726318, "token_acc": 0.9877977919814062, "grad_norm": 1.1454966068267822, "learning_rate": 1.8355016779898038e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232415, "epoch": 4.567421297354981, "step": 59920}, {"loss": 0.01895516961812973, "token_acc": 0.9895833333333334, "grad_norm": 0.5530071258544922, "learning_rate": 1.832288630605089e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232419, "epoch": 4.567802423965241, "step": 59925}, {"loss": 0.029742008447647093, "token_acc": 0.9918662449164031, "grad_norm": 1.614607572555542, "learning_rate": 1.8290783454150973e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232426, "epoch": 4.568183550575501, "step": 59930}, {"loss": 0.026098307967185975, "token_acc": 0.9873566598059395, "grad_norm": 1.926332712173462, "learning_rate": 1.825870822603931e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232431, "epoch": 4.568564677185761, "step": 59935}, {"loss": 0.024030840396881102, "token_acc": 0.9900800360725961, "grad_norm": 0.6676890850067139, "learning_rate": 1.8226660623555047e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23243, "epoch": 4.568945803796021, "step": 59940}, {"loss": 0.018864962458610534, "token_acc": 0.9912023460410557, "grad_norm": 1.5346708297729492, "learning_rate": 1.819464064853621e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232435, "epoch": 4.569326930406281, "step": 59945}, {"loss": 0.029303383827209473, "token_acc": 0.9859624078039496, "grad_norm": 0.9163938164710999, "learning_rate": 1.816264830281883e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232439, "epoch": 4.569708057016541, "step": 59950}, {"loss": 0.02263110429048538, "token_acc": 0.9906976744186047, "grad_norm": 0.9648891091346741, "learning_rate": 1.813068358823755e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232444, "epoch": 4.570089183626801, "step": 59955}, {"loss": 0.03433563709259033, "token_acc": 0.9852263701350278, "grad_norm": 1.7188870906829834, "learning_rate": 1.8098746506625464e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232447, "epoch": 4.570470310237061, "step": 59960}, {"loss": 0.022353214025497437, "token_acc": 0.9920178206794134, "grad_norm": 0.7120586633682251, "learning_rate": 1.8066837059813934e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23245, "epoch": 4.57085143684732, "step": 59965}, {"loss": 0.021001023054122925, "token_acc": 0.9864205065608789, "grad_norm": 0.6888728737831116, "learning_rate": 1.8034955249632834e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232452, "epoch": 4.57123256345758, "step": 59970}, {"loss": 0.01822526752948761, "token_acc": 0.9911618883380039, "grad_norm": 0.12956003844738007, "learning_rate": 1.8003101077910535e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232456, "epoch": 4.57161369006784, "step": 59975}, {"loss": 0.034342071413993834, "token_acc": 0.9867614611424369, "grad_norm": 0.689012348651886, "learning_rate": 1.7971274546473572e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232457, "epoch": 4.5719948166781, "step": 59980}, {"loss": 0.02447666972875595, "token_acc": 0.9918984015765273, "grad_norm": 0.846711277961731, "learning_rate": 1.7939475657147153e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232462, "epoch": 4.57237594328836, "step": 59985}, {"loss": 0.02795928418636322, "token_acc": 0.9880072285197963, "grad_norm": 1.3503602743148804, "learning_rate": 1.7907704411754822e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232464, "epoch": 4.57275706989862, "step": 59990}, {"loss": 0.013801859319210052, "token_acc": 0.9943364168397206, "grad_norm": 0.5484017729759216, "learning_rate": 1.7875960812118397e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232467, "epoch": 4.57313819650888, "step": 59995}, {"loss": 0.03162351846694946, "token_acc": 0.9843167701863355, "grad_norm": 0.8491193056106567, "learning_rate": 1.7844244860058313e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23247, "epoch": 4.5735193231191404, "step": 60000}, {"eval_loss": 0.04785448685288429, "eval_token_acc": 0.980701463767243, "eval_runtime": 220.2794, "eval_samples_per_second": 2.406, "eval_steps_per_second": 2.406, "epoch": 4.5735193231191404, "step": 60000}, {"loss": 0.015989485383033752, "token_acc": 0.9810926048332619, "grad_norm": 0.9440217018127441, "learning_rate": 1.7812556557393333e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232274, "epoch": 4.5739004497294005, "step": 60005}, {"loss": 0.04291318953037262, "token_acc": 0.983868044226935, "grad_norm": 0.6773310899734497, "learning_rate": 1.7780895905940565e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232278, "epoch": 4.57428157633966, "step": 60010}, {"loss": 0.01898895800113678, "token_acc": 0.9918990203466466, "grad_norm": 0.7233074903488159, "learning_rate": 1.7749262907515662e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232282, "epoch": 4.57466270294992, "step": 60015}, {"loss": 0.02928108870983124, "token_acc": 0.988568503668316, "grad_norm": 1.5137418508529663, "learning_rate": 1.7717657563932677e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232286, "epoch": 4.57504382956018, "step": 60020}, {"loss": 0.030040445923805236, "token_acc": 0.9905342182569905, "grad_norm": 1.1302114725112915, "learning_rate": 1.768607987700388e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232288, "epoch": 4.57542495617044, "step": 60025}, {"loss": 0.040157470107078555, "token_acc": 0.9840031213421772, "grad_norm": 0.13967666029930115, "learning_rate": 1.7654529848540214e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232294, "epoch": 4.5758060827807, "step": 60030}, {"loss": 0.04450112581253052, "token_acc": 0.9866558835422564, "grad_norm": 1.895655632019043, "learning_rate": 1.7623007480350951e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2323, "epoch": 4.57618720939096, "step": 60035}, {"loss": 0.044917309284210206, "token_acc": 0.9834053586862576, "grad_norm": 1.3249233961105347, "learning_rate": 1.7591512774243646e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232304, "epoch": 4.57656833600122, "step": 60040}, {"loss": 0.044404846429824826, "token_acc": 0.9811046511627907, "grad_norm": 1.1808003187179565, "learning_rate": 1.7560045732024466e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232303, "epoch": 4.57694946261148, "step": 60045}, {"loss": 0.02665989100933075, "token_acc": 0.991475166790215, "grad_norm": 1.0066592693328857, "learning_rate": 1.752860635549791e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23231, "epoch": 4.57733058922174, "step": 60050}, {"loss": 0.027522575855255128, "token_acc": 0.9890282131661442, "grad_norm": 1.4281504154205322, "learning_rate": 1.7497194646466707e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232313, "epoch": 4.577711715832, "step": 60055}, {"loss": 0.03984653055667877, "token_acc": 0.9826281871672737, "grad_norm": 1.17691171169281, "learning_rate": 1.7465810606732413e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232319, "epoch": 4.57809284244226, "step": 60060}, {"loss": 0.030718156695365907, "token_acc": 0.9893948845913911, "grad_norm": 1.8963079452514648, "learning_rate": 1.7434454238094643e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232318, "epoch": 4.578473969052519, "step": 60065}, {"loss": 0.03846811652183533, "token_acc": 0.9869737148173994, "grad_norm": 0.6634041666984558, "learning_rate": 1.7403125542351462e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232322, "epoch": 4.578855095662779, "step": 60070}, {"loss": 0.02282102108001709, "token_acc": 0.991543690930194, "grad_norm": 1.0475953817367554, "learning_rate": 1.737182452129965e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232325, "epoch": 4.579236222273039, "step": 60075}, {"loss": 0.034926393628120424, "token_acc": 0.9857066285510094, "grad_norm": 2.204859972000122, "learning_rate": 1.7340551176733943e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232329, "epoch": 4.579617348883299, "step": 60080}, {"loss": 0.02819114625453949, "token_acc": 0.9883867710174199, "grad_norm": 0.704266369342804, "learning_rate": 1.7309305510447792e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232334, "epoch": 4.579998475493559, "step": 60085}, {"loss": 0.04407320618629455, "token_acc": 0.9810732576263639, "grad_norm": 0.8263523578643799, "learning_rate": 1.72780875242331e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232337, "epoch": 4.580379602103819, "step": 60090}, {"loss": 0.049853771924972534, "token_acc": 0.9839269406392694, "grad_norm": 1.746094822883606, "learning_rate": 1.7246897219879876e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23234, "epoch": 4.580760728714079, "step": 60095}, {"loss": 0.03984477519989014, "token_acc": 0.98287362538309, "grad_norm": 1.2198140621185303, "learning_rate": 1.7215734599176913e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232343, "epoch": 4.581141855324339, "step": 60100}, {"loss": 0.03478081226348877, "token_acc": 0.9860221316249272, "grad_norm": 2.425952911376953, "learning_rate": 1.7184599663911172e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232347, "epoch": 4.581522981934599, "step": 60105}, {"loss": 0.023632806539535523, "token_acc": 0.9910571702331523, "grad_norm": 1.125320553779602, "learning_rate": 1.715349241586811e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23235, "epoch": 4.581904108544858, "step": 60110}, {"loss": 0.020388785004615783, "token_acc": 0.9950765864332604, "grad_norm": 0.9611056447029114, "learning_rate": 1.7122412856831582e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232355, "epoch": 4.582285235155118, "step": 60115}, {"loss": 0.020713424682617186, "token_acc": 0.9929039301310044, "grad_norm": 2.912971258163452, "learning_rate": 1.7091360988583827e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232361, "epoch": 4.582666361765378, "step": 60120}, {"loss": 0.025502729415893554, "token_acc": 0.9857962305381044, "grad_norm": 1.0447680950164795, "learning_rate": 1.706033681290553e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232365, "epoch": 4.583047488375638, "step": 60125}, {"loss": 0.016788786649703978, "token_acc": 0.9908963585434174, "grad_norm": 1.3650598526000977, "learning_rate": 1.7029340331575883e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232372, "epoch": 4.583428614985898, "step": 60130}, {"loss": 0.048850458860397336, "token_acc": 0.9863829787234043, "grad_norm": 3.726581573486328, "learning_rate": 1.6998371546372238e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232375, "epoch": 4.583809741596158, "step": 60135}, {"loss": 0.0351662278175354, "token_acc": 0.9859202145491116, "grad_norm": 1.9532380104064941, "learning_rate": 1.6967430459070566e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232381, "epoch": 4.584190868206418, "step": 60140}, {"loss": 0.041287145018577574, "token_acc": 0.9851656730902537, "grad_norm": 0.6070446968078613, "learning_rate": 1.6936517071445335e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232383, "epoch": 4.584571994816678, "step": 60145}, {"loss": 0.03146966099739075, "token_acc": 0.9937637564196625, "grad_norm": 0.547359824180603, "learning_rate": 1.6905631385269016e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232387, "epoch": 4.584953121426938, "step": 60150}, {"loss": 0.0327758252620697, "token_acc": 0.9885289431757833, "grad_norm": 1.8083281517028809, "learning_rate": 1.687477340231297e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232388, "epoch": 4.5853342480371975, "step": 60155}, {"loss": 0.01426461637020111, "token_acc": 0.9935085007727975, "grad_norm": 1.201610803604126, "learning_rate": 1.6843943124346728e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232394, "epoch": 4.585715374647458, "step": 60160}, {"loss": 0.0716774582862854, "token_acc": 0.9790764790764791, "grad_norm": 1.7381525039672852, "learning_rate": 1.681314055313815e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232399, "epoch": 4.5860965012577175, "step": 60165}, {"loss": 0.04054155051708221, "token_acc": 0.9862263817764436, "grad_norm": 0.4354534447193146, "learning_rate": 1.6782365690453771e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232403, "epoch": 4.5864776278679775, "step": 60170}, {"loss": 0.026748090982437134, "token_acc": 0.9868620515411825, "grad_norm": 1.0597255229949951, "learning_rate": 1.675161853805829e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23241, "epoch": 4.5868587544782375, "step": 60175}, {"loss": 0.031559419631958005, "token_acc": 0.9909792129690156, "grad_norm": 0.7224579453468323, "learning_rate": 1.6720899097714903e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232411, "epoch": 4.587239881088498, "step": 60180}, {"loss": 0.03997042179107666, "token_acc": 0.9812382739212008, "grad_norm": 1.1298805475234985, "learning_rate": 1.6690207371185319e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232417, "epoch": 4.587621007698758, "step": 60185}, {"loss": 0.03959152102470398, "token_acc": 0.9864608376565861, "grad_norm": 1.400958776473999, "learning_rate": 1.6659543360229457e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232421, "epoch": 4.588002134309018, "step": 60190}, {"loss": 0.027781376242637636, "token_acc": 0.9857677124454602, "grad_norm": 0.7632793188095093, "learning_rate": 1.6628907066605804e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232423, "epoch": 4.588383260919278, "step": 60195}, {"loss": 0.036502805352210996, "token_acc": 0.9893723015609432, "grad_norm": 2.5302255153656006, "learning_rate": 1.6598298492071285e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232429, "epoch": 4.588764387529538, "step": 60200}, {"eval_loss": 0.04778910055756569, "eval_token_acc": 0.9804529847599542, "eval_runtime": 218.2845, "eval_samples_per_second": 2.428, "eval_steps_per_second": 2.428, "epoch": 4.588764387529538, "step": 60200}, {"loss": 0.030229973793029784, "token_acc": 0.9808775883927314, "grad_norm": 1.1907320022583008, "learning_rate": 1.6567717638381053e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232234, "epoch": 4.589145514139798, "step": 60205}, {"loss": 0.025506001710891724, "token_acc": 0.9912044954800879, "grad_norm": 1.1080923080444336, "learning_rate": 1.6537164507288817e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232238, "epoch": 4.589526640750057, "step": 60210}, {"loss": 0.04169832468032837, "token_acc": 0.9870303261491512, "grad_norm": 0.7423890233039856, "learning_rate": 1.6506639100546672e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232242, "epoch": 4.589907767360317, "step": 60215}, {"loss": 0.031049197912216185, "token_acc": 0.9841332804442682, "grad_norm": 1.869046926498413, "learning_rate": 1.6476141419905056e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232248, "epoch": 4.590288893970577, "step": 60220}, {"loss": 0.037983039021492006, "token_acc": 0.9844023127605217, "grad_norm": 0.8535139560699463, "learning_rate": 1.64456714671129e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232252, "epoch": 4.590670020580837, "step": 60225}, {"loss": 0.02485654056072235, "token_acc": 0.9931997136721546, "grad_norm": 1.0083580017089844, "learning_rate": 1.6415229243917585e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232256, "epoch": 4.591051147191097, "step": 60230}, {"loss": 0.044647216796875, "token_acc": 0.9859105931466342, "grad_norm": 2.17631459236145, "learning_rate": 1.6384814752064714e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23226, "epoch": 4.591432273801357, "step": 60235}, {"loss": 0.04464126825332641, "token_acc": 0.9811628596855533, "grad_norm": 1.051814317703247, "learning_rate": 1.635442799329845e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232263, "epoch": 4.591813400411617, "step": 60240}, {"loss": 0.02101951986551285, "token_acc": 0.985, "grad_norm": 0.5999324321746826, "learning_rate": 1.6324068969361451e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232267, "epoch": 4.592194527021877, "step": 60245}, {"loss": 0.027857202291488647, "token_acc": 0.9886241682764542, "grad_norm": 1.5771499872207642, "learning_rate": 1.6293737681994493e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232272, "epoch": 4.592575653632137, "step": 60250}, {"loss": 0.0625740647315979, "token_acc": 0.9776339022954679, "grad_norm": 2.9690494537353516, "learning_rate": 1.626343413293696e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232277, "epoch": 4.592956780242396, "step": 60255}, {"loss": 0.025192296504974364, "token_acc": 0.9926032463529896, "grad_norm": 0.938224732875824, "learning_rate": 1.6233158323926745e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232281, "epoch": 4.593337906852656, "step": 60260}, {"loss": 0.039169132709503174, "token_acc": 0.9842883548983364, "grad_norm": 1.1227422952651978, "learning_rate": 1.6202910256699899e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232286, "epoch": 4.593719033462916, "step": 60265}, {"loss": 0.028187331557273865, "token_acc": 0.9876347951114306, "grad_norm": 0.22451379895210266, "learning_rate": 1.6172689932991092e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232286, "epoch": 4.594100160073176, "step": 60270}, {"loss": 0.04928330779075622, "token_acc": 0.989344262295082, "grad_norm": 1.1264325380325317, "learning_rate": 1.614249735453327e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232291, "epoch": 4.594481286683436, "step": 60275}, {"loss": 0.016138830780982973, "token_acc": 0.9960642833715972, "grad_norm": 0.47045502066612244, "learning_rate": 1.6112332523057883e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232297, "epoch": 4.594862413293696, "step": 60280}, {"loss": 0.04160493612289429, "token_acc": 0.986627043090639, "grad_norm": 1.0440360307693481, "learning_rate": 1.6082195440294711e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232302, "epoch": 4.595243539903956, "step": 60285}, {"loss": 0.018251010775566102, "token_acc": 0.9914841849148418, "grad_norm": 1.0293899774551392, "learning_rate": 1.605208610797193e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232306, "epoch": 4.595624666514216, "step": 60290}, {"loss": 0.03104698657989502, "token_acc": 0.9886669227814061, "grad_norm": 1.9113883972167969, "learning_rate": 1.6022004527816215e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23231, "epoch": 4.596005793124476, "step": 60295}, {"loss": 0.0317289799451828, "token_acc": 0.9847328244274809, "grad_norm": 0.964566171169281, "learning_rate": 1.5991950701552626e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232313, "epoch": 4.596386919734736, "step": 60300}, {"loss": 0.039047205448150636, "token_acc": 0.9865449303219606, "grad_norm": 2.8679873943328857, "learning_rate": 1.5961924630904624e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232317, "epoch": 4.596768046344996, "step": 60305}, {"loss": 0.022492413222789765, "token_acc": 0.9898122253296044, "grad_norm": 0.8691472411155701, "learning_rate": 1.5931926317593992e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232321, "epoch": 4.597149172955255, "step": 60310}, {"loss": 0.016670326888561248, "token_acc": 0.9934891979875703, "grad_norm": 0.9712971448898315, "learning_rate": 1.590195576334108e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232327, "epoch": 4.597530299565515, "step": 60315}, {"loss": 0.03517068326473236, "token_acc": 0.9892150988615938, "grad_norm": 0.7216866612434387, "learning_rate": 1.5872012969864402e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232333, "epoch": 4.597911426175775, "step": 60320}, {"loss": 0.02844511568546295, "token_acc": 0.9884780957204355, "grad_norm": 0.9319965839385986, "learning_rate": 1.5842097938881251e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232333, "epoch": 4.598292552786035, "step": 60325}, {"loss": 0.04616422653198242, "token_acc": 0.9859613428280773, "grad_norm": 1.0959216356277466, "learning_rate": 1.5812210672106976e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232336, "epoch": 4.5986736793962955, "step": 60330}, {"loss": 0.02717118263244629, "token_acc": 0.9905691056910569, "grad_norm": 0.5280647277832031, "learning_rate": 1.5782351171255538e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232337, "epoch": 4.5990548060065555, "step": 60335}, {"loss": 0.022702060639858246, "token_acc": 0.9905161005734451, "grad_norm": 0.8890611529350281, "learning_rate": 1.5752519438039237e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232342, "epoch": 4.5994359326168155, "step": 60340}, {"loss": 0.03399159908294678, "token_acc": 0.9842873176206509, "grad_norm": 1.4445242881774902, "learning_rate": 1.572271547416876e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232346, "epoch": 4.5998170592270755, "step": 60345}, {"loss": 0.02634703814983368, "token_acc": 0.9911842491918895, "grad_norm": 0.9531233906745911, "learning_rate": 1.5692939281353181e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232351, "epoch": 4.6001981858373355, "step": 60350}, {"loss": 0.021078944206237793, "token_acc": 0.9927814121362508, "grad_norm": 1.616041898727417, "learning_rate": 1.5663190861300136e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232351, "epoch": 4.600579312447595, "step": 60355}, {"loss": 0.03138360679149628, "token_acc": 0.9889289712650827, "grad_norm": 1.3202298879623413, "learning_rate": 1.5633470215715428e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232353, "epoch": 4.600960439057855, "step": 60360}, {"loss": 0.02727665603160858, "token_acc": 0.989233602493271, "grad_norm": 1.0044137239456177, "learning_rate": 1.5603777346303529e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232355, "epoch": 4.601341565668115, "step": 60365}, {"loss": 0.02946229577064514, "token_acc": 0.9888728621471254, "grad_norm": 2.341463804244995, "learning_rate": 1.5574112254767125e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232358, "epoch": 4.601722692278375, "step": 60370}, {"loss": 0.020540449023246764, "token_acc": 0.9921221073362876, "grad_norm": 0.8675979971885681, "learning_rate": 1.5544474942807309e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232364, "epoch": 4.602103818888635, "step": 60375}, {"loss": 0.028404626250267028, "token_acc": 0.9878345498783455, "grad_norm": 0.7815234065055847, "learning_rate": 1.5514865412123769e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232368, "epoch": 4.602484945498895, "step": 60380}, {"loss": 0.04037463665008545, "token_acc": 0.9822949724402873, "grad_norm": 1.1786706447601318, "learning_rate": 1.5485283664414374e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232372, "epoch": 4.602866072109155, "step": 60385}, {"loss": 0.031095612049102783, "token_acc": 0.9888170974155069, "grad_norm": 0.7871391177177429, "learning_rate": 1.5455729701375544e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232376, "epoch": 4.603247198719415, "step": 60390}, {"loss": 0.06850939989089966, "token_acc": 0.9775262194106875, "grad_norm": 1.697455644607544, "learning_rate": 1.5426203524702087e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23238, "epoch": 4.603628325329675, "step": 60395}, {"loss": 0.016543598473072053, "token_acc": 0.9923617476321418, "grad_norm": 0.8423616290092468, "learning_rate": 1.5396705136087153e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232386, "epoch": 4.604009451939935, "step": 60400}, {"eval_loss": 0.04711604490876198, "eval_token_acc": 0.9807993494367809, "eval_runtime": 220.0164, "eval_samples_per_second": 2.409, "eval_steps_per_second": 2.409, "epoch": 4.604009451939935, "step": 60400}, {"loss": 0.029045552015304565, "token_acc": 0.9812549540478588, "grad_norm": 1.954870581626892, "learning_rate": 1.5367234537222331e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232191, "epoch": 4.604390578550195, "step": 60405}, {"loss": 0.033573535084724423, "token_acc": 0.9862651875330164, "grad_norm": 1.1792799234390259, "learning_rate": 1.5337791729797601e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232193, "epoch": 4.604771705160454, "step": 60410}, {"loss": 0.03355427384376526, "token_acc": 0.9865740009477176, "grad_norm": 2.309124708175659, "learning_rate": 1.5308376715501504e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232197, "epoch": 4.605152831770714, "step": 60415}, {"loss": 0.03464475572109223, "token_acc": 0.9880303389428775, "grad_norm": 1.00972318649292, "learning_rate": 1.527898949602069e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232197, "epoch": 4.605533958380974, "step": 60420}, {"loss": 0.03323263227939606, "token_acc": 0.9886990077177509, "grad_norm": 0.5804013013839722, "learning_rate": 1.5249630073040422e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232197, "epoch": 4.605915084991234, "step": 60425}, {"loss": 0.037587472796440126, "token_acc": 0.9845655487804879, "grad_norm": 1.0567662715911865, "learning_rate": 1.5220298448244407e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2322, "epoch": 4.606296211601494, "step": 60430}, {"loss": 0.04613993167877197, "token_acc": 0.9795918367346939, "grad_norm": 1.4615020751953125, "learning_rate": 1.5190994623314636e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232206, "epoch": 4.606677338211754, "step": 60435}, {"loss": 0.023120780289173127, "token_acc": 0.9918681318681318, "grad_norm": 1.3508583307266235, "learning_rate": 1.5161718599931485e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232211, "epoch": 4.607058464822014, "step": 60440}, {"loss": 0.01077825054526329, "token_acc": 0.9944068981589373, "grad_norm": 0.27848517894744873, "learning_rate": 1.5132470379773888e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232216, "epoch": 4.607439591432274, "step": 60445}, {"loss": 0.025972363352775574, "token_acc": 0.9834158415841584, "grad_norm": 0.9888471364974976, "learning_rate": 1.5103249964519006e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23222, "epoch": 4.607820718042534, "step": 60450}, {"loss": 0.02236652821302414, "token_acc": 0.9925396331986323, "grad_norm": 0.7890436053276062, "learning_rate": 1.5074057355842553e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232224, "epoch": 4.608201844652793, "step": 60455}, {"loss": 0.018180637061595915, "token_acc": 0.9925202576355703, "grad_norm": 0.5020701289176941, "learning_rate": 1.5044892555418576e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232228, "epoch": 4.608582971263053, "step": 60460}, {"loss": 0.020305061340332033, "token_acc": 0.9911639762107052, "grad_norm": 0.5753322839736938, "learning_rate": 1.5015755564919576e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232232, "epoch": 4.608964097873313, "step": 60465}, {"loss": 0.02703651785850525, "token_acc": 0.9842122395833334, "grad_norm": 0.38562124967575073, "learning_rate": 1.498664638601638e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232234, "epoch": 4.609345224483573, "step": 60470}, {"loss": 0.012278829514980317, "token_acc": 0.9931626649705836, "grad_norm": 0.4953431189060211, "learning_rate": 1.495756502037826e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232238, "epoch": 4.609726351093833, "step": 60475}, {"loss": 0.018532338738441467, "token_acc": 0.9881305637982196, "grad_norm": 0.9084377288818359, "learning_rate": 1.4928511469672946e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232245, "epoch": 4.610107477704093, "step": 60480}, {"loss": 0.027209565043449402, "token_acc": 0.9886047100531781, "grad_norm": 1.2257671356201172, "learning_rate": 1.4899485735566487e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23225, "epoch": 4.610488604314353, "step": 60485}, {"loss": 0.014005079865455627, "token_acc": 0.9955823293172691, "grad_norm": 0.6328903436660767, "learning_rate": 1.487048781972339e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232256, "epoch": 4.610869730924613, "step": 60490}, {"loss": 0.02788618803024292, "token_acc": 0.9867887508175278, "grad_norm": 0.7289530634880066, "learning_rate": 1.4841517723806542e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232258, "epoch": 4.611250857534873, "step": 60495}, {"loss": 0.04066420197486877, "token_acc": 0.986801791185482, "grad_norm": 1.662116527557373, "learning_rate": 1.4812575449477228e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232263, "epoch": 4.6116319841451325, "step": 60500}, {"loss": 0.026362782716751097, "token_acc": 0.9896640826873385, "grad_norm": 3.475571870803833, "learning_rate": 1.4783660998395122e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232265, "epoch": 4.6120131107553926, "step": 60505}, {"loss": 0.04226141571998596, "token_acc": 0.9839640795381654, "grad_norm": 0.461713582277298, "learning_rate": 1.475477437221845e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232266, "epoch": 4.612394237365653, "step": 60510}, {"loss": 0.04059189856052399, "token_acc": 0.985894580549369, "grad_norm": 1.7202541828155518, "learning_rate": 1.472591557260361e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232269, "epoch": 4.612775363975913, "step": 60515}, {"loss": 0.030712932348251343, "token_acc": 0.9887284951552304, "grad_norm": 0.5399847030639648, "learning_rate": 1.4697084601205557e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232269, "epoch": 4.613156490586173, "step": 60520}, {"loss": 0.025882846117019652, "token_acc": 0.9889484259879437, "grad_norm": 1.6612892150878906, "learning_rate": 1.466828145967769e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232275, "epoch": 4.613537617196433, "step": 60525}, {"loss": 0.04016627669334412, "token_acc": 0.98828125, "grad_norm": 1.8940273523330688, "learning_rate": 1.4639506149671633e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232279, "epoch": 4.613918743806693, "step": 60530}, {"loss": 0.034187743067741395, "token_acc": 0.9885258654220148, "grad_norm": 1.3457883596420288, "learning_rate": 1.461075867283751e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232284, "epoch": 4.614299870416953, "step": 60535}, {"loss": 0.02613743245601654, "token_acc": 0.989070480081716, "grad_norm": 1.0306673049926758, "learning_rate": 1.4582039030823946e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232286, "epoch": 4.614680997027213, "step": 60540}, {"loss": 0.020207615196704866, "token_acc": 0.9900797929695924, "grad_norm": 0.5974879860877991, "learning_rate": 1.455334722527779e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232291, "epoch": 4.615062123637473, "step": 60545}, {"loss": 0.05483081340789795, "token_acc": 0.9778933680104032, "grad_norm": 1.1610548496246338, "learning_rate": 1.452468325784445e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232294, "epoch": 4.615443250247733, "step": 60550}, {"loss": 0.031997448205947875, "token_acc": 0.9874658724249193, "grad_norm": 0.931641697883606, "learning_rate": 1.4496047130167667e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232296, "epoch": 4.615824376857992, "step": 60555}, {"loss": 0.03065740466117859, "token_acc": 0.9860081320258312, "grad_norm": 0.8772879838943481, "learning_rate": 1.4467438843889514e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232297, "epoch": 4.616205503468252, "step": 60560}, {"loss": 0.028476798534393312, "token_acc": 0.987012987012987, "grad_norm": 1.0568422079086304, "learning_rate": 1.4438858400650567e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232301, "epoch": 4.616586630078512, "step": 60565}, {"loss": 0.032854008674621585, "token_acc": 0.9883909914093336, "grad_norm": 0.7462822794914246, "learning_rate": 1.4410305802089908e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232305, "epoch": 4.616967756688772, "step": 60570}, {"loss": 0.02071422040462494, "token_acc": 0.9908459595959596, "grad_norm": 0.26486948132514954, "learning_rate": 1.4381781049844778e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232311, "epoch": 4.617348883299032, "step": 60575}, {"loss": 0.03996903300285339, "token_acc": 0.9821037253469685, "grad_norm": 1.3376753330230713, "learning_rate": 1.4353284145550872e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232315, "epoch": 4.617730009909292, "step": 60580}, {"loss": 0.02808789610862732, "token_acc": 0.9884892086330935, "grad_norm": 1.6657531261444092, "learning_rate": 1.4324815090842548e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232319, "epoch": 4.618111136519552, "step": 60585}, {"loss": 0.031555795669555665, "token_acc": 0.9882110226937814, "grad_norm": 2.362541913986206, "learning_rate": 1.4296373887352165e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232321, "epoch": 4.618492263129812, "step": 60590}, {"loss": 0.0232081338763237, "token_acc": 0.9887865438526231, "grad_norm": 0.40944018959999084, "learning_rate": 1.4267960536710922e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232328, "epoch": 4.618873389740072, "step": 60595}, {"loss": 0.0308624267578125, "token_acc": 0.9854833882071237, "grad_norm": 1.1540981531143188, "learning_rate": 1.4239575040548014e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232329, "epoch": 4.619254516350331, "step": 60600}, {"eval_loss": 0.04741703346371651, "eval_token_acc": 0.9808671164387688, "eval_runtime": 218.4448, "eval_samples_per_second": 2.426, "eval_steps_per_second": 2.426, "epoch": 4.619254516350331, "step": 60600}, {"loss": 0.0338226318359375, "token_acc": 0.9812943422047754, "grad_norm": 0.639030396938324, "learning_rate": 1.421121740049125e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232139, "epoch": 4.619635642960591, "step": 60605}, {"loss": 0.03828955292701721, "token_acc": 0.9893981914561896, "grad_norm": 0.9705949425697327, "learning_rate": 1.4182887618166885e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232143, "epoch": 4.620016769570851, "step": 60610}, {"loss": 0.03169429004192352, "token_acc": 0.9853807549639974, "grad_norm": 2.011972188949585, "learning_rate": 1.4154585695199395e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232148, "epoch": 4.620397896181111, "step": 60615}, {"loss": 0.06127045154571533, "token_acc": 0.9740200546946217, "grad_norm": 1.4156197309494019, "learning_rate": 1.4126311633211819e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232154, "epoch": 4.620779022791371, "step": 60620}, {"loss": 0.04739214181900024, "token_acc": 0.9849838187702266, "grad_norm": 1.8500258922576904, "learning_rate": 1.4098065433825637e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232154, "epoch": 4.621160149401631, "step": 60625}, {"loss": 0.03260248899459839, "token_acc": 0.9880952380952381, "grad_norm": 1.0170401334762573, "learning_rate": 1.4069847098660437e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23216, "epoch": 4.621541276011891, "step": 60630}, {"loss": 0.03542076349258423, "token_acc": 0.9842818428184282, "grad_norm": 1.5877408981323242, "learning_rate": 1.4041656629334542e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232165, "epoch": 4.621922402622151, "step": 60635}, {"loss": 0.037897327542304994, "token_acc": 0.9875870420829549, "grad_norm": 2.0237069129943848, "learning_rate": 1.4013494027464547e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232169, "epoch": 4.622303529232411, "step": 60640}, {"loss": 0.046442723274230956, "token_acc": 0.9759887005649718, "grad_norm": 2.6795835494995117, "learning_rate": 1.398535929466538e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232173, "epoch": 4.622684655842671, "step": 60645}, {"loss": 0.03213365375995636, "token_acc": 0.9868787928489421, "grad_norm": 0.819282591342926, "learning_rate": 1.3957252432550471e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232176, "epoch": 4.623065782452931, "step": 60650}, {"loss": 0.024974478781223296, "token_acc": 0.9910885396703718, "grad_norm": 0.8229780793190002, "learning_rate": 1.3929173442731646e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232176, "epoch": 4.6234469090631904, "step": 60655}, {"loss": 0.022850276529788972, "token_acc": 0.9915281850765721, "grad_norm": 0.7513054609298706, "learning_rate": 1.3901122326819061e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232182, "epoch": 4.6238280356734505, "step": 60660}, {"loss": 0.038404762744903564, "token_acc": 0.9881588999236058, "grad_norm": 4.19672155380249, "learning_rate": 1.3873099086421371e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232187, "epoch": 4.6242091622837105, "step": 60665}, {"loss": 0.024101121723651885, "token_acc": 0.99045445113094, "grad_norm": 1.238061785697937, "learning_rate": 1.3845103723145514e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232191, "epoch": 4.6245902888939705, "step": 60670}, {"loss": 0.040961471199989316, "token_acc": 0.9788940481215703, "grad_norm": 1.5947785377502441, "learning_rate": 1.381713623859693e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232197, "epoch": 4.6249714155042305, "step": 60675}, {"loss": 0.020083144307136536, "token_acc": 0.9925187032418953, "grad_norm": 1.2246191501617432, "learning_rate": 1.3789196634379443e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232201, "epoch": 4.6253525421144905, "step": 60680}, {"loss": 0.024473166465759276, "token_acc": 0.9897302647859441, "grad_norm": 1.0509718656539917, "learning_rate": 1.3761284912095218e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232203, "epoch": 4.625733668724751, "step": 60685}, {"loss": 0.03910635113716125, "token_acc": 0.9804946011842564, "grad_norm": 1.1027723550796509, "learning_rate": 1.3733401073344865e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232209, "epoch": 4.626114795335011, "step": 60690}, {"loss": 0.017747431993484497, "token_acc": 0.9920554084334895, "grad_norm": 1.5473670959472656, "learning_rate": 1.3705545119727435e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232211, "epoch": 4.626495921945271, "step": 60695}, {"loss": 0.02820538878440857, "token_acc": 0.9899749373433584, "grad_norm": 1.848470687866211, "learning_rate": 1.3677717052840267e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232217, "epoch": 4.62687704855553, "step": 60700}, {"loss": 0.02229377329349518, "token_acc": 0.9899569583931134, "grad_norm": 1.926586627960205, "learning_rate": 1.3649916874279245e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232221, "epoch": 4.62725817516579, "step": 60705}, {"loss": 0.039626327157020566, "token_acc": 0.9785384406411302, "grad_norm": 1.134567379951477, "learning_rate": 1.3622144585638542e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232226, "epoch": 4.62763930177605, "step": 60710}, {"loss": 0.02587990164756775, "token_acc": 0.9906505648617062, "grad_norm": 1.9666521549224854, "learning_rate": 1.359440018851077e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232232, "epoch": 4.62802042838631, "step": 60715}, {"loss": 0.04547636508941651, "token_acc": 0.988653787181846, "grad_norm": 1.7332028150558472, "learning_rate": 1.3566683684486936e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232237, "epoch": 4.62840155499657, "step": 60720}, {"loss": 0.02467718571424484, "token_acc": 0.9895083932853717, "grad_norm": 1.292776346206665, "learning_rate": 1.3538995075156492e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232242, "epoch": 4.62878268160683, "step": 60725}, {"loss": 0.05328918099403381, "token_acc": 0.9825156576200418, "grad_norm": 0.8719351887702942, "learning_rate": 1.351133436210722e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232246, "epoch": 4.62916380821709, "step": 60730}, {"loss": 0.026733216643333436, "token_acc": 0.9844645829480303, "grad_norm": 0.8221322894096375, "learning_rate": 1.3483701546925354e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232251, "epoch": 4.62954493482735, "step": 60735}, {"loss": 0.02159619629383087, "token_acc": 0.9900018178512998, "grad_norm": 0.7159673571586609, "learning_rate": 1.3456096631195459e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232253, "epoch": 4.62992606143761, "step": 60740}, {"loss": 0.018571449816226958, "token_acc": 0.9901408450704225, "grad_norm": 1.2413570880889893, "learning_rate": 1.34285196165006e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232257, "epoch": 4.630307188047869, "step": 60745}, {"loss": 0.020454996824264528, "token_acc": 0.9955197132616488, "grad_norm": 1.0842870473861694, "learning_rate": 1.3400970504422238e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232263, "epoch": 4.63068831465813, "step": 60750}, {"loss": 0.022233276069164275, "token_acc": 0.9866156787762906, "grad_norm": 0.5409120917320251, "learning_rate": 1.3373449296540053e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232266, "epoch": 4.631069441268389, "step": 60755}, {"loss": 0.017131757736206055, "token_acc": 0.99168500855955, "grad_norm": 0.7430676221847534, "learning_rate": 1.334595599443228e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232271, "epoch": 4.631450567878649, "step": 60760}, {"loss": 0.03269219398498535, "token_acc": 0.9856041131105399, "grad_norm": 1.3821676969528198, "learning_rate": 1.3318490599675715e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232275, "epoch": 4.631831694488909, "step": 60765}, {"loss": 0.044626444578170776, "token_acc": 0.984382625671059, "grad_norm": 1.7403305768966675, "learning_rate": 1.3291053113845098e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232281, "epoch": 4.632212821099169, "step": 60770}, {"loss": 0.023094524443149567, "token_acc": 0.9904175222450377, "grad_norm": 2.045459270477295, "learning_rate": 1.3263643538514058e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232285, "epoch": 4.632593947709429, "step": 60775}, {"loss": 0.026492989063262938, "token_acc": 0.9901315789473685, "grad_norm": 1.418128252029419, "learning_rate": 1.3236261875254342e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232288, "epoch": 4.632975074319689, "step": 60780}, {"loss": 0.04507728219032288, "token_acc": 0.9849740932642487, "grad_norm": 1.2903869152069092, "learning_rate": 1.3208908125636077e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232293, "epoch": 4.633356200929949, "step": 60785}, {"loss": 0.032853543758392334, "token_acc": 0.988056206088993, "grad_norm": 2.3505120277404785, "learning_rate": 1.3181582291227956e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232297, "epoch": 4.633737327540209, "step": 60790}, {"loss": 0.0162195160984993, "token_acc": 0.9913085465958474, "grad_norm": 0.5790948867797852, "learning_rate": 1.315428437359706e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232303, "epoch": 4.634118454150469, "step": 60795}, {"loss": 0.022939407825469972, "token_acc": 0.9886965736488873, "grad_norm": 1.6790337562561035, "learning_rate": 1.3127014374308632e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232306, "epoch": 4.634499580760728, "step": 60800}, {"eval_loss": 0.047551922500133514, "eval_token_acc": 0.9809348834407566, "eval_runtime": 222.8452, "eval_samples_per_second": 2.378, "eval_steps_per_second": 2.378, "epoch": 4.634499580760728, "step": 60800}, {"loss": 0.026609230041503906, "token_acc": 0.9811366723761148, "grad_norm": 0.6930747032165527, "learning_rate": 1.3099772294926594e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232114, "epoch": 4.634880707370988, "step": 60805}, {"loss": 0.025716793537139893, "token_acc": 0.9916365280289331, "grad_norm": 0.9142654538154602, "learning_rate": 1.3072558137013135e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232119, "epoch": 4.635261833981248, "step": 60810}, {"loss": 0.03184525370597839, "token_acc": 0.9872913032643907, "grad_norm": 0.7066440582275391, "learning_rate": 1.3045371902128846e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23212, "epoch": 4.635642960591508, "step": 60815}, {"loss": 0.035155081748962404, "token_acc": 0.9871506986027944, "grad_norm": 0.7985535860061646, "learning_rate": 1.3018213591832696e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232121, "epoch": 4.636024087201768, "step": 60820}, {"loss": 0.02949814796447754, "token_acc": 0.990303648890023, "grad_norm": 1.1715788841247559, "learning_rate": 1.2991083207682164e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232126, "epoch": 4.636405213812028, "step": 60825}, {"loss": 0.016097447276115416, "token_acc": 0.9922572960095295, "grad_norm": 0.8028376698493958, "learning_rate": 1.2963980751233008e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23213, "epoch": 4.636786340422288, "step": 60830}, {"loss": 0.01777866929769516, "token_acc": 0.9933520838660189, "grad_norm": 1.7293095588684082, "learning_rate": 1.293690622403937e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232131, "epoch": 4.6371674670325485, "step": 60835}, {"loss": 0.04016014039516449, "token_acc": 0.9799574855754631, "grad_norm": 0.3175983726978302, "learning_rate": 1.290985962765401e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232137, "epoch": 4.6375485936428085, "step": 60840}, {"loss": 0.0553737998008728, "token_acc": 0.9822012350163458, "grad_norm": 1.547991394996643, "learning_rate": 1.288284096362774e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232143, "epoch": 4.637929720253068, "step": 60845}, {"loss": 0.04579851031303406, "token_acc": 0.9830600108127591, "grad_norm": 1.1655960083007812, "learning_rate": 1.2855850233510158e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232147, "epoch": 4.638310846863328, "step": 60850}, {"loss": 0.03539060652256012, "token_acc": 0.9882677708764666, "grad_norm": 1.2653907537460327, "learning_rate": 1.2828887438848802e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232151, "epoch": 4.638691973473588, "step": 60855}, {"loss": 0.025895309448242188, "token_acc": 0.991690635985938, "grad_norm": 0.8968381881713867, "learning_rate": 1.2801952581190047e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232154, "epoch": 4.639073100083848, "step": 60860}, {"loss": 0.025793179869651794, "token_acc": 0.9869997968718262, "grad_norm": 1.7907832860946655, "learning_rate": 1.2775045662078433e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232158, "epoch": 4.639454226694108, "step": 60865}, {"loss": 0.03707886040210724, "token_acc": 0.9862436210339472, "grad_norm": 1.6447900533676147, "learning_rate": 1.274816668305695e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232163, "epoch": 4.639835353304368, "step": 60870}, {"loss": 0.02903560996055603, "token_acc": 0.9875157806143919, "grad_norm": 1.0288949012756348, "learning_rate": 1.2721315645667032e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232165, "epoch": 4.640216479914628, "step": 60875}, {"loss": 0.03530450463294983, "token_acc": 0.98761835396941, "grad_norm": 1.0418990850448608, "learning_rate": 1.269449255144839e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232169, "epoch": 4.640597606524888, "step": 60880}, {"loss": 0.015837322175502776, "token_acc": 0.9949220166848023, "grad_norm": 0.7457214593887329, "learning_rate": 1.2667697401939183e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232175, "epoch": 4.640978733135148, "step": 60885}, {"loss": 0.020224574208259582, "token_acc": 0.9916651567312919, "grad_norm": 1.5198224782943726, "learning_rate": 1.2640930198676125e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232179, "epoch": 4.641359859745408, "step": 60890}, {"loss": 0.024478282034397125, "token_acc": 0.9908485856905158, "grad_norm": 1.3879709243774414, "learning_rate": 1.2614190943193993e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232186, "epoch": 4.641740986355668, "step": 60895}, {"loss": 0.0459387868642807, "token_acc": 0.9815279361459521, "grad_norm": 2.139388084411621, "learning_rate": 1.2587479637026335e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232189, "epoch": 4.642122112965927, "step": 60900}, {"loss": 0.021988961100578307, "token_acc": 0.9897020458602225, "grad_norm": 0.6582933068275452, "learning_rate": 1.2560796281704867e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232191, "epoch": 4.642503239576187, "step": 60905}, {"loss": 0.03884890675544739, "token_acc": 0.9848942598187311, "grad_norm": 0.9625617861747742, "learning_rate": 1.2534140878759647e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232192, "epoch": 4.642884366186447, "step": 60910}, {"loss": 0.020272910594940186, "token_acc": 0.9932046332046333, "grad_norm": 0.8598637580871582, "learning_rate": 1.2507513429719397e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232194, "epoch": 4.643265492796707, "step": 60915}, {"loss": 0.019646824896335603, "token_acc": 0.9928571428571429, "grad_norm": 0.7010855674743652, "learning_rate": 1.2480913936111006e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2322, "epoch": 4.643646619406967, "step": 60920}, {"loss": 0.029390883445739747, "token_acc": 0.9902912621359223, "grad_norm": 1.77031409740448, "learning_rate": 1.2454342399459806e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232207, "epoch": 4.644027746017227, "step": 60925}, {"loss": 0.030956292152404787, "token_acc": 0.9854848672019765, "grad_norm": 1.978651523590088, "learning_rate": 1.2427798821289583e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232212, "epoch": 4.644408872627487, "step": 60930}, {"loss": 0.024297848343849182, "token_acc": 0.9879281302638967, "grad_norm": 4.312848091125488, "learning_rate": 1.2401283203122505e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232218, "epoch": 4.644789999237747, "step": 60935}, {"loss": 0.0364683598279953, "token_acc": 0.9866873751941424, "grad_norm": 2.0148231983184814, "learning_rate": 1.237479554647908e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232223, "epoch": 4.645171125848007, "step": 60940}, {"loss": 0.033798706531524655, "token_acc": 0.9863251155624037, "grad_norm": 0.7453345060348511, "learning_rate": 1.2348335852878313e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232221, "epoch": 4.645552252458266, "step": 60945}, {"loss": 0.0502602219581604, "token_acc": 0.980480187390201, "grad_norm": 2.073413133621216, "learning_rate": 1.2321904123837491e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232224, "epoch": 4.645933379068526, "step": 60950}, {"loss": 0.022798720002174377, "token_acc": 0.9896678966789668, "grad_norm": 1.3760384321212769, "learning_rate": 1.2295500360872347e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23223, "epoch": 4.646314505678786, "step": 60955}, {"loss": 0.040892386436462404, "token_acc": 0.9894756984309223, "grad_norm": 2.8886334896087646, "learning_rate": 1.2269124565497004e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232234, "epoch": 4.646695632289046, "step": 60960}, {"loss": 0.013414829969406128, "token_acc": 0.9951541850220265, "grad_norm": 1.017041563987732, "learning_rate": 1.2242776739224082e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23224, "epoch": 4.647076758899306, "step": 60965}, {"loss": 0.02452038824558258, "token_acc": 0.9892431809450634, "grad_norm": 0.5610625147819519, "learning_rate": 1.2216456883564431e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232246, "epoch": 4.647457885509566, "step": 60970}, {"loss": 0.037284481525421145, "token_acc": 0.9802823758519961, "grad_norm": 1.9398943185806274, "learning_rate": 1.2190165000027343e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232251, "epoch": 4.647839012119826, "step": 60975}, {"loss": 0.033004969358444214, "token_acc": 0.9862897765741367, "grad_norm": 1.347019076347351, "learning_rate": 1.216390109012061e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232254, "epoch": 4.648220138730086, "step": 60980}, {"loss": 0.02264381796121597, "token_acc": 0.9926324737886086, "grad_norm": 0.9502182006835938, "learning_rate": 1.2137665155350308e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232259, "epoch": 4.648601265340346, "step": 60985}, {"loss": 0.04179536998271942, "token_acc": 0.9864983342100648, "grad_norm": 1.3928273916244507, "learning_rate": 1.2111457197220955e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232263, "epoch": 4.648982391950606, "step": 60990}, {"loss": 0.027929714322090148, "token_acc": 0.9833887043189369, "grad_norm": 1.5768187046051025, "learning_rate": 1.2085277217235402e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232268, "epoch": 4.649363518560866, "step": 60995}, {"loss": 0.027248209714889525, "token_acc": 0.9896519285042333, "grad_norm": 1.1759685277938843, "learning_rate": 1.2059125216895062e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232273, "epoch": 4.6497446451711255, "step": 61000}, {"eval_loss": 0.047376252710819244, "eval_token_acc": 0.9808897054394313, "eval_runtime": 221.0618, "eval_samples_per_second": 2.398, "eval_steps_per_second": 2.398, "epoch": 4.6497446451711255, "step": 61000}, {"loss": 0.013813818991184234, "token_acc": 0.9811182658968084, "grad_norm": 0.17850451171398163, "learning_rate": 1.2033001197699566e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232083, "epoch": 4.6501257717813855, "step": 61005}, {"loss": 0.0296069860458374, "token_acc": 0.9851718714895529, "grad_norm": 2.2087550163269043, "learning_rate": 1.2006905161146998e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232088, "epoch": 4.6505068983916455, "step": 61010}, {"loss": 0.022315962612628935, "token_acc": 0.9928017718715393, "grad_norm": 0.5064737200737, "learning_rate": 1.1980837108733822e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232095, "epoch": 4.650888025001906, "step": 61015}, {"loss": 0.03992014229297638, "token_acc": 0.9831450268568254, "grad_norm": 1.6522910594940186, "learning_rate": 1.1954797041955012e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232098, "epoch": 4.651269151612166, "step": 61020}, {"loss": 0.022047913074493407, "token_acc": 0.9913534497970707, "grad_norm": 1.1453275680541992, "learning_rate": 1.1928784962303762e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232101, "epoch": 4.651650278222426, "step": 61025}, {"loss": 0.037893146276474, "token_acc": 0.9875901875901876, "grad_norm": 1.0719425678253174, "learning_rate": 1.1902800871271768e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232107, "epoch": 4.652031404832686, "step": 61030}, {"loss": 0.0212628573179245, "token_acc": 0.9911605360707157, "grad_norm": 1.3731259107589722, "learning_rate": 1.1876844770349115e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232112, "epoch": 4.652412531442946, "step": 61035}, {"loss": 0.036983382701873777, "token_acc": 0.9862330407023144, "grad_norm": 0.6540417671203613, "learning_rate": 1.185091666102417e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232116, "epoch": 4.652793658053206, "step": 61040}, {"loss": 0.04454312920570373, "token_acc": 0.9820701792982071, "grad_norm": 0.9115381836891174, "learning_rate": 1.1825016544783906e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232116, "epoch": 4.653174784663465, "step": 61045}, {"loss": 0.02541455626487732, "token_acc": 0.9872162221732422, "grad_norm": 0.41214799880981445, "learning_rate": 1.1799144423113583e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232121, "epoch": 4.653555911273725, "step": 61050}, {"loss": 0.01942000985145569, "token_acc": 0.9923165578179024, "grad_norm": 0.229727640748024, "learning_rate": 1.1773300297496736e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232123, "epoch": 4.653937037883985, "step": 61055}, {"loss": 0.028842803835868836, "token_acc": 0.9875073199297286, "grad_norm": 1.1289477348327637, "learning_rate": 1.1747484169415568e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232126, "epoch": 4.654318164494245, "step": 61060}, {"loss": 0.02264593541622162, "token_acc": 0.9893727859970827, "grad_norm": 0.8330904841423035, "learning_rate": 1.1721696040350282e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232129, "epoch": 4.654699291104505, "step": 61065}, {"loss": 0.02747665047645569, "token_acc": 0.9913860610806577, "grad_norm": 0.6046236753463745, "learning_rate": 1.169593591177992e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232132, "epoch": 4.655080417714765, "step": 61070}, {"loss": 0.037145569920539856, "token_acc": 0.9872260488415779, "grad_norm": 1.0319052934646606, "learning_rate": 1.1670203785181633e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232133, "epoch": 4.655461544325025, "step": 61075}, {"loss": 0.03279047906398773, "token_acc": 0.9880376344086022, "grad_norm": 1.1024092435836792, "learning_rate": 1.164449966203096e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232133, "epoch": 4.655842670935285, "step": 61080}, {"loss": 0.02527884840965271, "token_acc": 0.9890818858560794, "grad_norm": 0.6266564726829529, "learning_rate": 1.1618823543802005e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232138, "epoch": 4.656223797545545, "step": 61085}, {"loss": 0.018741035461425783, "token_acc": 0.9911221590909091, "grad_norm": 1.9543403387069702, "learning_rate": 1.1593175431967252e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232141, "epoch": 4.656604924155804, "step": 61090}, {"loss": 0.04945862293243408, "token_acc": 0.9861270022883295, "grad_norm": 0.9495273232460022, "learning_rate": 1.1567555327997303e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232142, "epoch": 4.656986050766065, "step": 61095}, {"loss": 0.021300849318504334, "token_acc": 0.9906017886918296, "grad_norm": 1.0158766508102417, "learning_rate": 1.1541963233361486e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232146, "epoch": 4.657367177376324, "step": 61100}, {"loss": 0.040990900993347165, "token_acc": 0.9819909954977488, "grad_norm": 1.1285429000854492, "learning_rate": 1.1516399149527347e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23215, "epoch": 4.657748303986584, "step": 61105}, {"loss": 0.040176373720169065, "token_acc": 0.9830719442369927, "grad_norm": 1.8849905729293823, "learning_rate": 1.1490863077960879e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232155, "epoch": 4.658129430596844, "step": 61110}, {"loss": 0.017493507266044615, "token_acc": 0.9961146187469645, "grad_norm": 1.1330013275146484, "learning_rate": 1.146535502012641e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232161, "epoch": 4.658510557207104, "step": 61115}, {"loss": 0.04211142063140869, "token_acc": 0.9828678713916921, "grad_norm": 0.952081561088562, "learning_rate": 1.1439874977486774e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232165, "epoch": 4.658891683817364, "step": 61120}, {"loss": 0.017467445135116576, "token_acc": 0.9922330097087378, "grad_norm": 1.5412325859069824, "learning_rate": 1.1414422951503134e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232172, "epoch": 4.659272810427624, "step": 61125}, {"loss": 0.02607642114162445, "token_acc": 0.98673505482844, "grad_norm": 0.6203048825263977, "learning_rate": 1.1388998943635042e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232174, "epoch": 4.659653937037884, "step": 61130}, {"loss": 0.028908094763755797, "token_acc": 0.9919137466307277, "grad_norm": 1.8143306970596313, "learning_rate": 1.1363602955340391e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23218, "epoch": 4.660035063648144, "step": 61135}, {"loss": 0.03409013748168945, "token_acc": 0.988360814742968, "grad_norm": 2.3708927631378174, "learning_rate": 1.133823498807557e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232184, "epoch": 4.660416190258404, "step": 61140}, {"loss": 0.01564977169036865, "token_acc": 0.9927613941018767, "grad_norm": 0.5703150033950806, "learning_rate": 1.1312895043295357e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232188, "epoch": 4.660797316868663, "step": 61145}, {"loss": 0.03463201820850372, "token_acc": 0.9847011952191235, "grad_norm": 0.740776002407074, "learning_rate": 1.128758312245276e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23219, "epoch": 4.661178443478923, "step": 61150}, {"loss": 0.029874277114868165, "token_acc": 0.9853244078269825, "grad_norm": 0.9579795002937317, "learning_rate": 1.1262299226999396e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232194, "epoch": 4.661559570089183, "step": 61155}, {"loss": 0.05609452724456787, "token_acc": 0.9834352198777362, "grad_norm": 3.4181885719299316, "learning_rate": 1.1237043358385157e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232198, "epoch": 4.661940696699443, "step": 61160}, {"loss": 0.016769374907016753, "token_acc": 0.9940938762822505, "grad_norm": 1.467902660369873, "learning_rate": 1.1211815518058333e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232203, "epoch": 4.6623218233097035, "step": 61165}, {"loss": 0.030275991559028624, "token_acc": 0.989075018208303, "grad_norm": 2.0438809394836426, "learning_rate": 1.1186615707465652e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232207, "epoch": 4.6627029499199635, "step": 61170}, {"loss": 0.024242308735847474, "token_acc": 0.9880014998125234, "grad_norm": 1.8113023042678833, "learning_rate": 1.1161443928052184e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232214, "epoch": 4.6630840765302235, "step": 61175}, {"loss": 0.04363790154457092, "token_acc": 0.9835504885993486, "grad_norm": 1.5368345975875854, "learning_rate": 1.1136300181261383e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232216, "epoch": 4.6634652031404835, "step": 61180}, {"loss": 0.026553583145141602, "token_acc": 0.9887096774193549, "grad_norm": 1.0030744075775146, "learning_rate": 1.1111184468535208e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232221, "epoch": 4.6638463297507435, "step": 61185}, {"loss": 0.01515219807624817, "token_acc": 0.9946470391435263, "grad_norm": 0.9807528257369995, "learning_rate": 1.1086096791313893e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232226, "epoch": 4.664227456361003, "step": 61190}, {"loss": 0.027915796637535094, "token_acc": 0.9888629176405884, "grad_norm": 0.7072246074676514, "learning_rate": 1.1061037151036014e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232228, "epoch": 4.664608582971263, "step": 61195}, {"loss": 0.02189536690711975, "token_acc": 0.9909528673573618, "grad_norm": 0.6890553832054138, "learning_rate": 1.103600554913875e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232231, "epoch": 4.664989709581523, "step": 61200}, {"eval_loss": 0.04738510400056839, "eval_token_acc": 0.9809047647732064, "eval_runtime": 221.98, "eval_samples_per_second": 2.388, "eval_steps_per_second": 2.388, "epoch": 4.664989709581523, "step": 61200}, {"loss": 0.026385876536369323, "token_acc": 0.9812427405798879, "grad_norm": 1.0901367664337158, "learning_rate": 1.1011001987057512e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232038, "epoch": 4.665370836191783, "step": 61205}, {"loss": 0.03670257329940796, "token_acc": 0.9861895794099184, "grad_norm": 1.1585325002670288, "learning_rate": 1.0986026466226097e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232043, "epoch": 4.665751962802043, "step": 61210}, {"loss": 0.021965204179286955, "token_acc": 0.9938735177865613, "grad_norm": 0.689922571182251, "learning_rate": 1.0961078988076745e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232047, "epoch": 4.666133089412303, "step": 61215}, {"loss": 0.01721942126750946, "token_acc": 0.993414863593603, "grad_norm": 0.7392595410346985, "learning_rate": 1.0936159554040148e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23205, "epoch": 4.666514216022563, "step": 61220}, {"loss": 0.029862654209136964, "token_acc": 0.9900788257678717, "grad_norm": 0.5252753496170044, "learning_rate": 1.0911268165545219e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232051, "epoch": 4.666895342632823, "step": 61225}, {"loss": 0.022389745712280272, "token_acc": 0.989577905158937, "grad_norm": 0.8966323137283325, "learning_rate": 1.0886404824019425e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232054, "epoch": 4.667276469243083, "step": 61230}, {"loss": 0.038077926635742186, "token_acc": 0.9847730600292826, "grad_norm": 1.6428639888763428, "learning_rate": 1.086156953088857e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232058, "epoch": 4.667657595853343, "step": 61235}, {"loss": 0.03622758090496063, "token_acc": 0.9807288016818501, "grad_norm": 0.19019271433353424, "learning_rate": 1.0836762287576795e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232064, "epoch": 4.668038722463603, "step": 61240}, {"loss": 0.032621186971664426, "token_acc": 0.9905911592401917, "grad_norm": 0.5325716733932495, "learning_rate": 1.0811983095506794e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232067, "epoch": 4.668419849073862, "step": 61245}, {"loss": 0.024635913968086242, "token_acc": 0.9907834101382489, "grad_norm": 0.9472758173942566, "learning_rate": 1.0787231956099375e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23207, "epoch": 4.668800975684122, "step": 61250}, {"loss": 0.024257178604602813, "token_acc": 0.988772272394435, "grad_norm": 0.8344020247459412, "learning_rate": 1.0762508870773902e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232076, "epoch": 4.669182102294382, "step": 61255}, {"loss": 0.0257768452167511, "token_acc": 0.9901800327332242, "grad_norm": 2.424053192138672, "learning_rate": 1.0737813840948296e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232082, "epoch": 4.669563228904642, "step": 61260}, {"loss": 0.03682131767272949, "token_acc": 0.9886601535240753, "grad_norm": 2.4174084663391113, "learning_rate": 1.0713146868038592e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232085, "epoch": 4.669944355514902, "step": 61265}, {"loss": 0.02891078293323517, "token_acc": 0.9863644412962635, "grad_norm": 0.9286627173423767, "learning_rate": 1.0688507953459382e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232088, "epoch": 4.670325482125162, "step": 61270}, {"loss": 0.02586783766746521, "token_acc": 0.9875393494228751, "grad_norm": 1.3224529027938843, "learning_rate": 1.0663897098623531e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232089, "epoch": 4.670706608735422, "step": 61275}, {"loss": 0.026846295595169066, "token_acc": 0.9905482041587902, "grad_norm": 1.2540982961654663, "learning_rate": 1.0639314304942416e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232093, "epoch": 4.671087735345682, "step": 61280}, {"loss": 0.026610863208770753, "token_acc": 0.99265750828991, "grad_norm": 1.5355980396270752, "learning_rate": 1.0614759573825684e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232097, "epoch": 4.671468861955942, "step": 61285}, {"loss": 0.03639009296894073, "token_acc": 0.9873070325900515, "grad_norm": 0.9595994353294373, "learning_rate": 1.0590232906681486e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232103, "epoch": 4.671849988566201, "step": 61290}, {"loss": 0.02731316089630127, "token_acc": 0.987745376148871, "grad_norm": 0.8145761489868164, "learning_rate": 1.0565734304916253e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232104, "epoch": 4.672231115176461, "step": 61295}, {"loss": 0.03316416144371033, "token_acc": 0.9871231155778895, "grad_norm": 0.8485201597213745, "learning_rate": 1.0541263769934972e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232109, "epoch": 4.672612241786721, "step": 61300}, {"loss": 0.038492798805236816, "token_acc": 0.9846529473317056, "grad_norm": 1.3438727855682373, "learning_rate": 1.05168213031408e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232112, "epoch": 4.672993368396981, "step": 61305}, {"loss": 0.027751418948173522, "token_acc": 0.9852766563761577, "grad_norm": 1.0703741312026978, "learning_rate": 1.0492406905935393e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232117, "epoch": 4.673374495007241, "step": 61310}, {"loss": 0.021775977313518526, "token_acc": 0.9903732477622024, "grad_norm": 1.1000903844833374, "learning_rate": 1.0468020579718962e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23212, "epoch": 4.673755621617501, "step": 61315}, {"loss": 0.036657577753067015, "token_acc": 0.9908496732026144, "grad_norm": 0.29717740416526794, "learning_rate": 1.044366232588978e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232125, "epoch": 4.674136748227761, "step": 61320}, {"loss": 0.03333697617053986, "token_acc": 0.9834857723577236, "grad_norm": 0.17276863753795624, "learning_rate": 1.041933214584473e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232131, "epoch": 4.674517874838021, "step": 61325}, {"loss": 0.05338284969329834, "token_acc": 0.976399814900509, "grad_norm": 1.5690613985061646, "learning_rate": 1.0395030040979137e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232136, "epoch": 4.674899001448281, "step": 61330}, {"loss": 0.04203073084354401, "token_acc": 0.9893213099193165, "grad_norm": 0.8349639773368835, "learning_rate": 1.0370756012686444e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232141, "epoch": 4.675280128058541, "step": 61335}, {"loss": 0.03405931890010834, "token_acc": 0.9876543209876543, "grad_norm": 0.5867727398872375, "learning_rate": 1.034651006235876e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232144, "epoch": 4.6756612546688014, "step": 61340}, {"loss": 0.023121434450149535, "token_acc": 0.9916302765647744, "grad_norm": 0.7253621220588684, "learning_rate": 1.0322292191386473e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232149, "epoch": 4.676042381279061, "step": 61345}, {"loss": 0.03506519198417664, "token_acc": 0.9884348496530455, "grad_norm": 2.2306067943573, "learning_rate": 1.029810240115836e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232153, "epoch": 4.676423507889321, "step": 61350}, {"loss": 0.023531691730022432, "token_acc": 0.9890145395799677, "grad_norm": 1.200028419494629, "learning_rate": 1.0273940693061534e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232157, "epoch": 4.676804634499581, "step": 61355}, {"loss": 0.038467228412628174, "token_acc": 0.985115677074907, "grad_norm": 1.9438990354537964, "learning_rate": 1.0249807068481665e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232161, "epoch": 4.677185761109841, "step": 61360}, {"loss": 0.029366058111190797, "token_acc": 0.9906449044585988, "grad_norm": 0.5216359496116638, "learning_rate": 1.0225701528802535e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232164, "epoch": 4.677566887720101, "step": 61365}, {"loss": 0.02630408704280853, "token_acc": 0.9892794376098418, "grad_norm": 0.6416053771972656, "learning_rate": 1.0201624075406646e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232167, "epoch": 4.677948014330361, "step": 61370}, {"loss": 0.02009653449058533, "token_acc": 0.9917945058865502, "grad_norm": 0.7418555617332458, "learning_rate": 1.017757470967473e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232171, "epoch": 4.678329140940621, "step": 61375}, {"loss": 0.028872692584991456, "token_acc": 0.9897869343194224, "grad_norm": 1.9875215291976929, "learning_rate": 1.0153553432985797e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232174, "epoch": 4.678710267550881, "step": 61380}, {"loss": 0.02235586941242218, "token_acc": 0.992741935483871, "grad_norm": 0.8982096314430237, "learning_rate": 1.0129560246717408e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232181, "epoch": 4.679091394161141, "step": 61385}, {"loss": 0.06918458342552185, "token_acc": 0.9793353811784418, "grad_norm": 4.214331150054932, "learning_rate": 1.0105595152245462e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232185, "epoch": 4.6794725207714, "step": 61390}, {"loss": 0.034184446930885314, "token_acc": 0.986873920552677, "grad_norm": 1.053538203239441, "learning_rate": 1.008165815094425e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232189, "epoch": 4.67985364738166, "step": 61395}, {"loss": 0.024711443483829497, "token_acc": 0.9901781635449978, "grad_norm": 1.1268681287765503, "learning_rate": 1.0057749244186455e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23219, "epoch": 4.68023477399192, "step": 61400}, {"eval_loss": 0.04719125106930733, "eval_token_acc": 0.9810704174447322, "eval_runtime": 221.9428, "eval_samples_per_second": 2.388, "eval_steps_per_second": 2.388, "epoch": 4.68023477399192, "step": 61400}, {"loss": 0.02062627673149109, "token_acc": 0.9813245541514114, "grad_norm": 0.7273041605949402, "learning_rate": 1.0033868433343085e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232002, "epoch": 4.68061590060218, "step": 61405}, {"loss": 0.028826135396957397, "token_acc": 0.9868504772004242, "grad_norm": 1.6693743467330933, "learning_rate": 1.0010015719783717e-06, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232005, "epoch": 4.68099702721244, "step": 61410}, {"loss": 0.024704959988594056, "token_acc": 0.9870359457866824, "grad_norm": 1.104300618171692, "learning_rate": 9.986191104876086e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232009, "epoch": 4.6813781538227, "step": 61415}, {"loss": 0.029898211359977722, "token_acc": 0.9906170031276657, "grad_norm": 0.456901878118515, "learning_rate": 9.962394589986435e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232014, "epoch": 4.68175928043296, "step": 61420}, {"loss": 0.01822896897792816, "token_acc": 0.9933143907738593, "grad_norm": 1.2525732517242432, "learning_rate": 9.938626176479393e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232017, "epoch": 4.68214040704322, "step": 61425}, {"loss": 0.059270888566970825, "token_acc": 0.9832319579155022, "grad_norm": 0.6975488662719727, "learning_rate": 9.914885865718038e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232019, "epoch": 4.68252153365348, "step": 61430}, {"loss": 0.050550436973571776, "token_acc": 0.9802338530066815, "grad_norm": 1.7342591285705566, "learning_rate": 9.891173659063667e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232024, "epoch": 4.682902660263739, "step": 61435}, {"loss": 0.0369092583656311, "token_acc": 0.9866776703607639, "grad_norm": 0.8611802458763123, "learning_rate": 9.867489557876085e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232025, "epoch": 4.683283786873999, "step": 61440}, {"loss": 0.022960680723190307, "token_acc": 0.990264679038637, "grad_norm": 1.1343817710876465, "learning_rate": 9.843833563513537e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232031, "epoch": 4.683664913484259, "step": 61445}, {"loss": 0.04980856478214264, "token_acc": 0.9771542090886516, "grad_norm": 2.3431215286254883, "learning_rate": 9.820205677332439e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232035, "epoch": 4.684046040094519, "step": 61450}, {"loss": 0.03279307186603546, "token_acc": 0.9879109538552263, "grad_norm": 0.9385314583778381, "learning_rate": 9.796605900687927e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232037, "epoch": 4.684427166704779, "step": 61455}, {"loss": 0.029305845499038696, "token_acc": 0.9882713821725009, "grad_norm": 1.1598470211029053, "learning_rate": 9.773034234933198e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23204, "epoch": 4.684808293315039, "step": 61460}, {"loss": 0.03499045968055725, "token_acc": 0.9843612334801762, "grad_norm": 1.0944265127182007, "learning_rate": 9.74949068142006e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232045, "epoch": 4.685189419925299, "step": 61465}, {"loss": 0.015461921691894531, "token_acc": 0.9926470588235294, "grad_norm": 1.1009502410888672, "learning_rate": 9.725975241498597e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23205, "epoch": 4.685570546535559, "step": 61470}, {"loss": 0.02363167405128479, "token_acc": 0.9899982453061941, "grad_norm": 0.6325932741165161, "learning_rate": 9.702487916517234e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232052, "epoch": 4.685951673145819, "step": 61475}, {"loss": 0.029121458530426025, "token_acc": 0.9870707070707071, "grad_norm": 0.751190721988678, "learning_rate": 9.679028707822945e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232055, "epoch": 4.686332799756079, "step": 61480}, {"loss": 0.058616673946380614, "token_acc": 0.9804778554778555, "grad_norm": 1.291039228439331, "learning_rate": 9.655597616761048e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232061, "epoch": 4.686713926366339, "step": 61485}, {"loss": 0.04002287685871124, "token_acc": 0.9864864864864865, "grad_norm": 0.7196748852729797, "learning_rate": 9.63219464467513e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232063, "epoch": 4.6870950529765985, "step": 61490}, {"loss": 0.031638532876968384, "token_acc": 0.9886167644015178, "grad_norm": 1.1394920349121094, "learning_rate": 9.60881979290723e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232068, "epoch": 4.6874761795868585, "step": 61495}, {"loss": 0.03853621780872345, "token_acc": 0.9831132944427388, "grad_norm": 1.2487534284591675, "learning_rate": 9.58547306279789e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232071, "epoch": 4.6878573061971185, "step": 61500}, {"loss": 0.022726066410541534, "token_acc": 0.9902723735408561, "grad_norm": 1.2918245792388916, "learning_rate": 9.562154455685813e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232073, "epoch": 4.6882384328073785, "step": 61505}, {"loss": 0.04696458578109741, "token_acc": 0.9863518197573656, "grad_norm": 1.2484921216964722, "learning_rate": 9.538863972908262e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232076, "epoch": 4.6886195594176385, "step": 61510}, {"loss": 0.035561764240264894, "token_acc": 0.9883720930232558, "grad_norm": 0.9017997980117798, "learning_rate": 9.515601615800895e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232082, "epoch": 4.6890006860278985, "step": 61515}, {"loss": 0.019288481771945955, "token_acc": 0.9908616187989556, "grad_norm": 0.7909307479858398, "learning_rate": 9.492367385697587e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232087, "epoch": 4.689381812638159, "step": 61520}, {"loss": 0.022962921857833864, "token_acc": 0.9920708095150286, "grad_norm": 0.697950005531311, "learning_rate": 9.469161283930827e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232091, "epoch": 4.689762939248419, "step": 61525}, {"loss": 0.02409725487232208, "token_acc": 0.9911178509532063, "grad_norm": 1.0322718620300293, "learning_rate": 9.445983311831275e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232095, "epoch": 4.690144065858679, "step": 61530}, {"loss": 0.026560297608375548, "token_acc": 0.9891854578923148, "grad_norm": 0.8391053080558777, "learning_rate": 9.422833470728142e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2321, "epoch": 4.690525192468938, "step": 61535}, {"loss": 0.0274686336517334, "token_acc": 0.9875753012048193, "grad_norm": 0.858946681022644, "learning_rate": 9.399711761949037e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232101, "epoch": 4.690906319079198, "step": 61540}, {"loss": 0.03988372981548309, "token_acc": 0.9874794745484401, "grad_norm": 0.8050089478492737, "learning_rate": 9.37661818681973e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232105, "epoch": 4.691287445689458, "step": 61545}, {"loss": 0.016304290294647215, "token_acc": 0.9921760391198045, "grad_norm": 0.7987444996833801, "learning_rate": 9.353552746664551e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232107, "epoch": 4.691668572299718, "step": 61550}, {"loss": 0.03597458600997925, "token_acc": 0.9870211429767637, "grad_norm": 0.6347752213478088, "learning_rate": 9.330515442806331e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23211, "epoch": 4.692049698909978, "step": 61555}, {"loss": 0.041729781031608584, "token_acc": 0.9824852507374632, "grad_norm": 1.4847877025604248, "learning_rate": 9.307506276566014e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232113, "epoch": 4.692430825520238, "step": 61560}, {"loss": 0.01844359189271927, "token_acc": 0.9899512789281364, "grad_norm": 0.13778835535049438, "learning_rate": 9.284525249263154e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232118, "epoch": 4.692811952130498, "step": 61565}, {"loss": 0.018096770346164703, "token_acc": 0.9925816023738873, "grad_norm": 0.5915724635124207, "learning_rate": 9.261572362215587e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232121, "epoch": 4.693193078740758, "step": 61570}, {"loss": 0.034654590487480166, "token_acc": 0.985, "grad_norm": 0.4606468975543976, "learning_rate": 9.238647616739483e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232125, "epoch": 4.693574205351018, "step": 61575}, {"loss": 0.02218567132949829, "token_acc": 0.9892358646794417, "grad_norm": 0.6657158732414246, "learning_rate": 9.215751014149566e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232124, "epoch": 4.693955331961278, "step": 61580}, {"loss": 0.05128744840621948, "token_acc": 0.984805510534846, "grad_norm": 0.9543592929840088, "learning_rate": 9.192882555758841e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232127, "epoch": 4.694336458571538, "step": 61585}, {"loss": 0.014747908711433411, "token_acc": 0.9949991934182932, "grad_norm": 1.2065224647521973, "learning_rate": 9.170042242878596e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232131, "epoch": 4.694717585181797, "step": 61590}, {"loss": 0.015516871213912964, "token_acc": 0.9927184466019418, "grad_norm": 1.5719512701034546, "learning_rate": 9.147230076818725e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232137, "epoch": 4.695098711792057, "step": 61595}, {"loss": 0.029218369722366334, "token_acc": 0.9917369901547117, "grad_norm": 4.407609939575195, "learning_rate": 9.124446058887459e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232139, "epoch": 4.695479838402317, "step": 61600}, {"eval_loss": 0.047350626438856125, "eval_token_acc": 0.9810402987771821, "eval_runtime": 219.8368, "eval_samples_per_second": 2.411, "eval_steps_per_second": 2.411, "epoch": 4.695479838402317, "step": 61600}, {"loss": 0.030333444476127625, "token_acc": 0.9812552653748947, "grad_norm": 1.0861201286315918, "learning_rate": 9.101690190391198e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231951, "epoch": 4.695860965012577, "step": 61605}, {"loss": 0.04480908215045929, "token_acc": 0.9876783398184177, "grad_norm": 0.7025170922279358, "learning_rate": 9.078962472634955e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231951, "epoch": 4.696242091622837, "step": 61610}, {"loss": 0.028415021300315858, "token_acc": 0.988774341351661, "grad_norm": 1.9182344675064087, "learning_rate": 9.056262906922075e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231956, "epoch": 4.696623218233097, "step": 61615}, {"loss": 0.026820510625839233, "token_acc": 0.9871794871794872, "grad_norm": 0.88592129945755, "learning_rate": 9.033591494554238e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231961, "epoch": 4.697004344843357, "step": 61620}, {"loss": 0.021524593234062195, "token_acc": 0.9920017773828038, "grad_norm": 1.183349370956421, "learning_rate": 9.010948236831629e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231965, "epoch": 4.697385471453617, "step": 61625}, {"loss": 0.032225769758224485, "token_acc": 0.9855916615573268, "grad_norm": 1.3756611347198486, "learning_rate": 8.988333135052596e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23197, "epoch": 4.697766598063877, "step": 61630}, {"loss": 0.018706586956977845, "token_acc": 0.989058039961941, "grad_norm": 0.15146058797836304, "learning_rate": 8.965746190514102e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231977, "epoch": 4.698147724674136, "step": 61635}, {"loss": 0.03512516319751739, "token_acc": 0.9879594423320659, "grad_norm": 0.6771263480186462, "learning_rate": 8.943187404511444e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231982, "epoch": 4.698528851284396, "step": 61640}, {"loss": 0.031663113832473756, "token_acc": 0.9877041823730031, "grad_norm": 0.5780419707298279, "learning_rate": 8.920656778338144e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23198, "epoch": 4.698909977894656, "step": 61645}, {"loss": 0.020829975605010986, "token_acc": 0.9905869324473976, "grad_norm": 0.9707927703857422, "learning_rate": 8.898154313286277e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231983, "epoch": 4.699291104504916, "step": 61650}, {"loss": 0.03369962573051453, "token_acc": 0.9812974868497955, "grad_norm": 1.0742472410202026, "learning_rate": 8.875680010646314e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231987, "epoch": 4.699672231115176, "step": 61655}, {"loss": 0.03152759671211243, "token_acc": 0.9913419913419913, "grad_norm": 1.8568872213363647, "learning_rate": 8.853233871707001e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231992, "epoch": 4.700053357725436, "step": 61660}, {"loss": 0.02084215134382248, "token_acc": 0.9925373134328358, "grad_norm": 0.8744524717330933, "learning_rate": 8.830815897755474e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231999, "epoch": 4.700434484335696, "step": 61665}, {"loss": 0.030477452278137206, "token_acc": 0.9873314926100374, "grad_norm": 1.023655652999878, "learning_rate": 8.808426090077426e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232, "epoch": 4.7008156109459565, "step": 61670}, {"loss": 0.03263699114322662, "token_acc": 0.9828211952576821, "grad_norm": 1.085789680480957, "learning_rate": 8.786064449956721e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232004, "epoch": 4.7011967375562165, "step": 61675}, {"loss": 0.02944439947605133, "token_acc": 0.9859845830413455, "grad_norm": 1.58330237865448, "learning_rate": 8.763730978675721e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232009, "epoch": 4.701577864166476, "step": 61680}, {"loss": 0.028304296731948852, "token_acc": 0.9914371673223791, "grad_norm": 1.9860066175460815, "learning_rate": 8.74142567751507e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232013, "epoch": 4.7019589907767365, "step": 61685}, {"loss": 0.027554517984390257, "token_acc": 0.9900526623756583, "grad_norm": 2.2179653644561768, "learning_rate": 8.719148547753964e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232017, "epoch": 4.702340117386996, "step": 61690}, {"loss": 0.027781599760055543, "token_acc": 0.9909824394874229, "grad_norm": 1.190682291984558, "learning_rate": 8.696899590669938e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232022, "epoch": 4.702721243997256, "step": 61695}, {"loss": 0.03505501449108124, "token_acc": 0.9808084932625561, "grad_norm": 1.3976812362670898, "learning_rate": 8.674678807538694e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232027, "epoch": 4.703102370607516, "step": 61700}, {"loss": 0.02512039840221405, "token_acc": 0.9892121608368748, "grad_norm": 0.7081575393676758, "learning_rate": 8.652486199634657e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232029, "epoch": 4.703483497217776, "step": 61705}, {"loss": 0.043262803554534913, "token_acc": 0.9819187089061566, "grad_norm": 1.7217961549758911, "learning_rate": 8.630321768230421e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232031, "epoch": 4.703864623828036, "step": 61710}, {"loss": 0.02333463281393051, "token_acc": 0.9899713467048711, "grad_norm": 0.8707626461982727, "learning_rate": 8.608185514596912e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232036, "epoch": 4.704245750438296, "step": 61715}, {"loss": 0.028771862387657166, "token_acc": 0.9912095639943741, "grad_norm": 0.9587823152542114, "learning_rate": 8.58607744000367e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232042, "epoch": 4.704626877048556, "step": 61720}, {"loss": 0.01867756396532059, "token_acc": 0.9889698640929683, "grad_norm": 0.624072790145874, "learning_rate": 8.563997545718517e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232045, "epoch": 4.705008003658816, "step": 61725}, {"loss": 0.03948388397693634, "token_acc": 0.9867585461424132, "grad_norm": 1.561194658279419, "learning_rate": 8.541945833007492e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232046, "epoch": 4.705389130269076, "step": 61730}, {"loss": 0.022575873136520385, "token_acc": 0.9916150928329007, "grad_norm": 0.7397366762161255, "learning_rate": 8.519922303135198e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23205, "epoch": 4.705770256879335, "step": 61735}, {"loss": 0.024910880625247954, "token_acc": 0.9904204364023417, "grad_norm": 0.5449602007865906, "learning_rate": 8.497926957364677e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232049, "epoch": 4.706151383489595, "step": 61740}, {"loss": 0.05982747077941895, "token_acc": 0.9815133276010318, "grad_norm": 3.4783735275268555, "learning_rate": 8.475959796957145e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232053, "epoch": 4.706532510099855, "step": 61745}, {"loss": 0.03244302570819855, "token_acc": 0.9890047393364929, "grad_norm": 1.1235932111740112, "learning_rate": 8.454020823172426e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232056, "epoch": 4.706913636710115, "step": 61750}, {"loss": 0.03795554637908936, "token_acc": 0.985227841762644, "grad_norm": 1.931552529335022, "learning_rate": 8.432110037268515e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232058, "epoch": 4.707294763320375, "step": 61755}, {"loss": 0.039103978872299196, "token_acc": 0.986105750675415, "grad_norm": 1.5592424869537354, "learning_rate": 8.410227440501961e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232063, "epoch": 4.707675889930635, "step": 61760}, {"loss": 0.01750762164592743, "token_acc": 0.9926995457495134, "grad_norm": 1.4020404815673828, "learning_rate": 8.388373034127595e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232066, "epoch": 4.708057016540895, "step": 61765}, {"loss": 0.061489599943161014, "token_acc": 0.9742037378257437, "grad_norm": 1.8466473817825317, "learning_rate": 8.366546819398746e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232072, "epoch": 4.708438143151155, "step": 61770}, {"loss": 0.03179409503936768, "token_acc": 0.9908214777420835, "grad_norm": 1.1521086692810059, "learning_rate": 8.344748797566859e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232076, "epoch": 4.708819269761415, "step": 61775}, {"loss": 0.03324616849422455, "token_acc": 0.9880516170144974, "grad_norm": 1.9039260149002075, "learning_rate": 8.322978969882156e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232077, "epoch": 4.709200396371674, "step": 61780}, {"loss": 0.03460843563079834, "token_acc": 0.9872380952380952, "grad_norm": 1.1952173709869385, "learning_rate": 8.301237337592916e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23208, "epoch": 4.709581522981934, "step": 61785}, {"loss": 0.032402992248535156, "token_acc": 0.9921168560166937, "grad_norm": 0.4792175889015198, "learning_rate": 8.279523901945918e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232084, "epoch": 4.709962649592194, "step": 61790}, {"loss": 0.03487452268600464, "token_acc": 0.9820396366639141, "grad_norm": 1.7554985284805298, "learning_rate": 8.257838664186446e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232089, "epoch": 4.710343776202454, "step": 61795}, {"loss": 0.031564533710479736, "token_acc": 0.9899726526891522, "grad_norm": 2.2758843898773193, "learning_rate": 8.236181625557893e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232092, "epoch": 4.710724902812714, "step": 61800}, {"eval_loss": 0.0472443550825119, "eval_token_acc": 0.9808746461056563, "eval_runtime": 220.4037, "eval_samples_per_second": 2.405, "eval_steps_per_second": 2.405, "epoch": 4.710724902812714, "step": 61800}, {"loss": 0.019861635565757752, "token_acc": 0.9811944976493122, "grad_norm": 1.0591243505477905, "learning_rate": 8.21455278730232e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231905, "epoch": 4.711106029422974, "step": 61805}, {"loss": 0.028653019666671754, "token_acc": 0.9873732542567438, "grad_norm": 1.2226675748825073, "learning_rate": 8.192952150659961e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231909, "epoch": 4.711487156033234, "step": 61810}, {"loss": 0.0284088134765625, "token_acc": 0.9881245798790051, "grad_norm": 1.3626633882522583, "learning_rate": 8.171379716869488e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231914, "epoch": 4.711868282643494, "step": 61815}, {"loss": 0.024213385581970216, "token_acc": 0.991579990094106, "grad_norm": 0.7712843418121338, "learning_rate": 8.149835487168078e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231917, "epoch": 4.712249409253754, "step": 61820}, {"loss": 0.04592408537864685, "token_acc": 0.9840764331210191, "grad_norm": 0.611932635307312, "learning_rate": 8.128319462791134e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231919, "epoch": 4.712630535864014, "step": 61825}, {"loss": 0.021586798131465912, "token_acc": 0.9896490785155264, "grad_norm": 1.0983195304870605, "learning_rate": 8.106831644972501e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231924, "epoch": 4.713011662474274, "step": 61830}, {"loss": 0.03197257518768311, "token_acc": 0.9860413176996091, "grad_norm": 1.0040957927703857, "learning_rate": 8.08537203494436e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231927, "epoch": 4.7133927890845335, "step": 61835}, {"loss": 0.02559064030647278, "token_acc": 0.9900651971437442, "grad_norm": 1.2614765167236328, "learning_rate": 8.06394063393745e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231933, "epoch": 4.7137739156947935, "step": 61840}, {"loss": 0.02578798830509186, "token_acc": 0.9892870807294988, "grad_norm": 1.1566534042358398, "learning_rate": 8.042537443180675e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231935, "epoch": 4.7141550423050536, "step": 61845}, {"loss": 0.023386830091476442, "token_acc": 0.9897189856065799, "grad_norm": 0.9257664680480957, "learning_rate": 8.021162463901388e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23194, "epoch": 4.714536168915314, "step": 61850}, {"loss": 0.017361581325531006, "token_acc": 0.9924504561182762, "grad_norm": 0.9253749251365662, "learning_rate": 7.999815697325386e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231942, "epoch": 4.714917295525574, "step": 61855}, {"loss": 0.027774921059608458, "token_acc": 0.9905096660808436, "grad_norm": 1.7043178081512451, "learning_rate": 7.978497144676745e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231946, "epoch": 4.715298422135834, "step": 61860}, {"loss": 0.020238834619522094, "token_acc": 0.99105288384726, "grad_norm": 0.7902039885520935, "learning_rate": 7.957206807178097e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231949, "epoch": 4.715679548746094, "step": 61865}, {"loss": 0.024988940358161925, "token_acc": 0.9835197174808711, "grad_norm": 0.4455850422382355, "learning_rate": 7.935944686050245e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231953, "epoch": 4.716060675356354, "step": 61870}, {"loss": 0.025735464692115784, "token_acc": 0.9868352676251516, "grad_norm": 0.9301992058753967, "learning_rate": 7.914710782512491e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231955, "epoch": 4.716441801966614, "step": 61875}, {"loss": 0.03395584225654602, "token_acc": 0.98595726122983, "grad_norm": 0.8572659492492676, "learning_rate": 7.893505097782583e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231954, "epoch": 4.716822928576873, "step": 61880}, {"loss": 0.023128990828990937, "token_acc": 0.9918436441982148, "grad_norm": 0.45193105936050415, "learning_rate": 7.872327633076437e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231958, "epoch": 4.717204055187133, "step": 61885}, {"loss": 0.02137288749217987, "token_acc": 0.9910390441647109, "grad_norm": 0.9684525728225708, "learning_rate": 7.851178389608582e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231963, "epoch": 4.717585181797393, "step": 61890}, {"loss": 0.02309268116950989, "token_acc": 0.9907755380936112, "grad_norm": 0.4051115810871124, "learning_rate": 7.830057368591826e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231968, "epoch": 4.717966308407653, "step": 61895}, {"loss": 0.029468932747840883, "token_acc": 0.9871428571428571, "grad_norm": 1.2723939418792725, "learning_rate": 7.808964571237309e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231973, "epoch": 4.718347435017913, "step": 61900}, {"loss": 0.025675442814826966, "token_acc": 0.9905471732412289, "grad_norm": 0.7696756720542908, "learning_rate": 7.787899998754566e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231977, "epoch": 4.718728561628173, "step": 61905}, {"loss": 0.03240588903427124, "token_acc": 0.9907881269191402, "grad_norm": 1.297554850578308, "learning_rate": 7.766863652351741e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231981, "epoch": 4.719109688238433, "step": 61910}, {"loss": 0.01970825493335724, "token_acc": 0.9911683068382539, "grad_norm": 0.7695630192756653, "learning_rate": 7.745855533234924e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231986, "epoch": 4.719490814848693, "step": 61915}, {"loss": 0.03007328510284424, "token_acc": 0.9871692060946271, "grad_norm": 0.5283740758895874, "learning_rate": 7.724875642608986e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231988, "epoch": 4.719871941458953, "step": 61920}, {"loss": 0.0332852303981781, "token_acc": 0.9888136127304238, "grad_norm": 0.6999237537384033, "learning_rate": 7.70392398167702e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23199, "epoch": 4.720253068069213, "step": 61925}, {"loss": 0.0416686624288559, "token_acc": 0.9795313762456235, "grad_norm": 1.4386382102966309, "learning_rate": 7.683000551640451e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231995, "epoch": 4.720634194679473, "step": 61930}, {"loss": 0.02248874306678772, "token_acc": 0.991166077738516, "grad_norm": 0.9754907488822937, "learning_rate": 7.662105353699212e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232001, "epoch": 4.721015321289732, "step": 61935}, {"loss": 0.03315885066986084, "token_acc": 0.9915254237288136, "grad_norm": 2.04880428314209, "learning_rate": 7.641238389051508e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232004, "epoch": 4.721396447899992, "step": 61940}, {"loss": 0.04028114080429077, "token_acc": 0.9835351089588378, "grad_norm": 1.6568114757537842, "learning_rate": 7.620399658893884e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232009, "epoch": 4.721777574510252, "step": 61945}, {"loss": 0.04070684313774109, "token_acc": 0.9869264923532314, "grad_norm": 3.1231231689453125, "learning_rate": 7.599589164421495e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232013, "epoch": 4.722158701120512, "step": 61950}, {"loss": 0.01038898304104805, "token_acc": 0.9953115842938074, "grad_norm": 0.20124852657318115, "learning_rate": 7.578806906827607e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232018, "epoch": 4.722539827730772, "step": 61955}, {"loss": 0.025547531247138978, "token_acc": 0.9878391019644528, "grad_norm": 0.8577485680580139, "learning_rate": 7.558052887304046e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232023, "epoch": 4.722920954341032, "step": 61960}, {"loss": 0.01273319274187088, "token_acc": 0.9936102236421726, "grad_norm": 0.1241108626127243, "learning_rate": 7.53732710704097e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232031, "epoch": 4.723302080951292, "step": 61965}, {"loss": 0.018410694599151612, "token_acc": 0.9926273458445041, "grad_norm": 1.4321353435516357, "learning_rate": 7.516629567226874e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232036, "epoch": 4.723683207561552, "step": 61970}, {"loss": 0.03941004276275635, "token_acc": 0.9866814650388457, "grad_norm": 1.2552728652954102, "learning_rate": 7.495960269048641e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232041, "epoch": 4.724064334171812, "step": 61975}, {"loss": 0.03132750988006592, "token_acc": 0.9875259875259875, "grad_norm": 1.2214080095291138, "learning_rate": 7.4753192136916e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232044, "epoch": 4.724445460782071, "step": 61980}, {"loss": 0.040295711159706114, "token_acc": 0.9833091436865021, "grad_norm": 0.0722636729478836, "learning_rate": 7.454706402339362e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232048, "epoch": 4.724826587392331, "step": 61985}, {"loss": 0.046335083246231076, "token_acc": 0.9857839155158408, "grad_norm": 0.8022904396057129, "learning_rate": 7.434121836174091e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232051, "epoch": 4.725207714002591, "step": 61990}, {"loss": 0.02963472008705139, "token_acc": 0.9846732215153268, "grad_norm": 0.1450691968202591, "learning_rate": 7.413565516376119e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232056, "epoch": 4.7255888406128514, "step": 61995}, {"loss": 0.048889583349227904, "token_acc": 0.9884383650871194, "grad_norm": 0.8683902621269226, "learning_rate": 7.393037444124285e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232059, "epoch": 4.7259699672231115, "step": 62000}, {"eval_loss": 0.04725060239434242, "eval_token_acc": 0.9810553581109571, "eval_runtime": 220.7027, "eval_samples_per_second": 2.401, "eval_steps_per_second": 2.401, "epoch": 4.7259699672231115, "step": 62000}, {"loss": 0.016405805945396423, "token_acc": 0.9814223064548119, "grad_norm": 0.742735743522644, "learning_rate": 7.372537620595754e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231871, "epoch": 4.7263510938333715, "step": 62005}, {"loss": 0.021360822021961212, "token_acc": 0.9913946587537092, "grad_norm": 0.8343555331230164, "learning_rate": 7.352066046966199e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231873, "epoch": 4.7267322204436315, "step": 62010}, {"loss": 0.02023686170578003, "token_acc": 0.9909214707217431, "grad_norm": 0.9106143116950989, "learning_rate": 7.331622724409403e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231878, "epoch": 4.7271133470538915, "step": 62015}, {"loss": 0.03119143843650818, "token_acc": 0.9839615076182838, "grad_norm": 1.317388653755188, "learning_rate": 7.311207654097874e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231881, "epoch": 4.7274944736641515, "step": 62020}, {"loss": 0.04561898708343506, "token_acc": 0.9885466034755134, "grad_norm": 0.48401129245758057, "learning_rate": 7.290820837202172e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231883, "epoch": 4.727875600274411, "step": 62025}, {"loss": 0.02207397371530533, "token_acc": 0.9930452061599603, "grad_norm": 3.983164072036743, "learning_rate": 7.270462274891421e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231889, "epoch": 4.728256726884672, "step": 62030}, {"loss": 0.04355311691761017, "token_acc": 0.983143197684318, "grad_norm": 1.903393268585205, "learning_rate": 7.250131968333185e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231892, "epoch": 4.728637853494931, "step": 62035}, {"loss": 0.03705786466598511, "token_acc": 0.9851101846337106, "grad_norm": 0.7180707454681396, "learning_rate": 7.229829918693143e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231897, "epoch": 4.729018980105191, "step": 62040}, {"loss": 0.026156502962112426, "token_acc": 0.9872916322825549, "grad_norm": 0.9231045842170715, "learning_rate": 7.209556127135697e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231899, "epoch": 4.729400106715451, "step": 62045}, {"loss": 0.034845370054245, "token_acc": 0.9818136522172397, "grad_norm": 2.432751178741455, "learning_rate": 7.189310594823362e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231904, "epoch": 4.729781233325711, "step": 62050}, {"loss": 0.025478962063789367, "token_acc": 0.9912359550561798, "grad_norm": 1.170448899269104, "learning_rate": 7.169093322917097e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231907, "epoch": 4.730162359935971, "step": 62055}, {"loss": 0.01753988265991211, "token_acc": 0.9888449082403742, "grad_norm": 0.9166926741600037, "learning_rate": 7.148904312576366e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231912, "epoch": 4.730543486546231, "step": 62060}, {"loss": 0.03528833985328674, "token_acc": 0.9846235418875928, "grad_norm": 1.763756513595581, "learning_rate": 7.128743564958851e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231916, "epoch": 4.730924613156491, "step": 62065}, {"loss": 0.02063930928707123, "token_acc": 0.9940381558028617, "grad_norm": 0.44966134428977966, "learning_rate": 7.108611081220685e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231921, "epoch": 4.731305739766751, "step": 62070}, {"loss": 0.01986888349056244, "token_acc": 0.9907940161104718, "grad_norm": 0.7246293425559998, "learning_rate": 7.088506862516442e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231924, "epoch": 4.731686866377011, "step": 62075}, {"loss": 0.03042006492614746, "token_acc": 0.9891567984020545, "grad_norm": 0.41684481501579285, "learning_rate": 7.068430909998869e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231927, "epoch": 4.73206799298727, "step": 62080}, {"loss": 0.02299324721097946, "token_acc": 0.9889682024659312, "grad_norm": 0.737126350402832, "learning_rate": 7.048383224819321e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231932, "epoch": 4.73244911959753, "step": 62085}, {"loss": 0.03909604549407959, "token_acc": 0.9872423945044161, "grad_norm": 0.9655119776725769, "learning_rate": 7.028363808127436e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231936, "epoch": 4.73283024620779, "step": 62090}, {"loss": 0.02086440473794937, "token_acc": 0.9922493403693932, "grad_norm": 0.5992923974990845, "learning_rate": 7.008372661071183e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231939, "epoch": 4.73321137281805, "step": 62095}, {"loss": 0.027878275513648985, "token_acc": 0.991883416343848, "grad_norm": 1.1325461864471436, "learning_rate": 6.988409784797034e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231942, "epoch": 4.73359249942831, "step": 62100}, {"loss": 0.03279573023319245, "token_acc": 0.981534910559723, "grad_norm": 0.7047910094261169, "learning_rate": 6.968475180449741e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231946, "epoch": 4.73397362603857, "step": 62105}, {"loss": 0.041151690483093264, "token_acc": 0.9860228716645489, "grad_norm": 2.023902177810669, "learning_rate": 6.948568849172387e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23195, "epoch": 4.73435475264883, "step": 62110}, {"loss": 0.052065491676330566, "token_acc": 0.9784560143626571, "grad_norm": 1.647334098815918, "learning_rate": 6.928690792106618e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231955, "epoch": 4.73473587925909, "step": 62115}, {"loss": 0.027405565977096556, "token_acc": 0.989188231123715, "grad_norm": 1.0370899438858032, "learning_rate": 6.908841010392298e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231959, "epoch": 4.73511700586935, "step": 62120}, {"loss": 0.03533194363117218, "token_acc": 0.986470051687443, "grad_norm": 1.0596392154693604, "learning_rate": 6.889019505167737e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231961, "epoch": 4.735498132479609, "step": 62125}, {"loss": 0.022111250460147856, "token_acc": 0.990917590490183, "grad_norm": 1.191657304763794, "learning_rate": 6.86922627756953e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231964, "epoch": 4.735879259089869, "step": 62130}, {"loss": 0.028660926222801208, "token_acc": 0.9874314037882811, "grad_norm": 0.6441670656204224, "learning_rate": 6.849461328732875e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231967, "epoch": 4.736260385700129, "step": 62135}, {"loss": 0.03742862343788147, "token_acc": 0.9850778085696014, "grad_norm": 2.099799871444702, "learning_rate": 6.829724659791092e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231971, "epoch": 4.736641512310389, "step": 62140}, {"loss": 0.03053494691848755, "token_acc": 0.9889473684210527, "grad_norm": 1.9841886758804321, "learning_rate": 6.810016271875941e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231976, "epoch": 4.737022638920649, "step": 62145}, {"loss": 0.0362687349319458, "token_acc": 0.9858316221765914, "grad_norm": 3.202604055404663, "learning_rate": 6.790336166117794e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23198, "epoch": 4.737403765530909, "step": 62150}, {"loss": 0.035684362053871155, "token_acc": 0.9886484568996098, "grad_norm": 1.1023616790771484, "learning_rate": 6.770684343644973e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231986, "epoch": 4.737784892141169, "step": 62155}, {"loss": 0.0259348064661026, "token_acc": 0.988914373088685, "grad_norm": 1.1412627696990967, "learning_rate": 6.75106080558463e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231991, "epoch": 4.738166018751429, "step": 62160}, {"loss": 0.024385052919387817, "token_acc": 0.9915230291042667, "grad_norm": 2.470303773880005, "learning_rate": 6.731465553061977e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231996, "epoch": 4.738547145361689, "step": 62165}, {"loss": 0.045340290665626524, "token_acc": 0.9804674457429048, "grad_norm": 1.459538221359253, "learning_rate": 6.711898587200671e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232, "epoch": 4.738928271971949, "step": 62170}, {"loss": 0.020407013595104218, "token_acc": 0.9925634909499088, "grad_norm": 0.9652634859085083, "learning_rate": 6.69235990912287e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232001, "epoch": 4.7393093985822095, "step": 62175}, {"loss": 0.04225781559944153, "token_acc": 0.984360625574977, "grad_norm": 2.8477938175201416, "learning_rate": 6.672849519949065e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232007, "epoch": 4.739690525192469, "step": 62180}, {"loss": 0.029726028442382812, "token_acc": 0.9878296146044625, "grad_norm": 0.9222937226295471, "learning_rate": 6.653367420797974e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232012, "epoch": 4.740071651802729, "step": 62185}, {"loss": 0.035613083839416505, "token_acc": 0.9886769964243146, "grad_norm": 2.9480388164520264, "learning_rate": 6.633913612786813e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232016, "epoch": 4.740452778412989, "step": 62190}, {"loss": 0.02535497546195984, "token_acc": 0.9892114554727344, "grad_norm": 1.0153138637542725, "learning_rate": 6.614488097031246e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232019, "epoch": 4.740833905023249, "step": 62195}, {"loss": 0.050149714946746825, "token_acc": 0.983763305069457, "grad_norm": 2.354051351547241, "learning_rate": 6.595090874645216e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232023, "epoch": 4.741215031633509, "step": 62200}, {"eval_loss": 0.04706527292728424, "eval_token_acc": 0.9809047647732064, "eval_runtime": 217.7774, "eval_samples_per_second": 2.434, "eval_steps_per_second": 2.434, "epoch": 4.741215031633509, "step": 62200}, {"loss": 0.02844291627407074, "token_acc": 0.9811991279069767, "grad_norm": 1.193485975265503, "learning_rate": 6.575721946741053e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231839, "epoch": 4.741596158243769, "step": 62205}, {"loss": 0.02180907428264618, "token_acc": 0.9878337276106793, "grad_norm": 1.3738884925842285, "learning_rate": 6.556381314429427e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231845, "epoch": 4.741977284854029, "step": 62210}, {"loss": 0.0493392288684845, "token_acc": 0.9843191742755062, "grad_norm": 0.9453949332237244, "learning_rate": 6.537068978819505e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231849, "epoch": 4.742358411464289, "step": 62215}, {"loss": 0.02582308053970337, "token_acc": 0.9876685934489403, "grad_norm": 1.9585646390914917, "learning_rate": 6.517784941018735e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231854, "epoch": 4.742739538074549, "step": 62220}, {"loss": 0.024546247720718384, "token_acc": 0.9814413857098669, "grad_norm": 1.083376169204712, "learning_rate": 6.498529202132897e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23186, "epoch": 4.743120664684808, "step": 62225}, {"loss": 0.04541406333446503, "token_acc": 0.9854271356783919, "grad_norm": 1.9965709447860718, "learning_rate": 6.479301763266332e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231864, "epoch": 4.743501791295068, "step": 62230}, {"loss": 0.027686893939971924, "token_acc": 0.9883527454242929, "grad_norm": 0.9628795981407166, "learning_rate": 6.460102625521657e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231869, "epoch": 4.743882917905328, "step": 62235}, {"loss": 0.032413291931152347, "token_acc": 0.9844231117551169, "grad_norm": 1.109751582145691, "learning_rate": 6.440931789999716e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231872, "epoch": 4.744264044515588, "step": 62240}, {"loss": 0.028750473260879518, "token_acc": 0.9864546525323911, "grad_norm": 0.21415045857429504, "learning_rate": 6.42178925779996e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231879, "epoch": 4.744645171125848, "step": 62245}, {"loss": 0.026098412275314332, "token_acc": 0.9902749205161773, "grad_norm": 1.9899805784225464, "learning_rate": 6.402675030020066e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231881, "epoch": 4.745026297736108, "step": 62250}, {"loss": 0.021792301535606386, "token_acc": 0.9886055344546935, "grad_norm": 0.8632193207740784, "learning_rate": 6.383589107756216e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231885, "epoch": 4.745407424346368, "step": 62255}, {"loss": 0.020595601201057433, "token_acc": 0.9898338705678156, "grad_norm": 0.87612384557724, "learning_rate": 6.364531492102921e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231889, "epoch": 4.745788550956628, "step": 62260}, {"loss": 0.028952884674072265, "token_acc": 0.9883619071455387, "grad_norm": 1.709390640258789, "learning_rate": 6.345502184152974e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231891, "epoch": 4.746169677566888, "step": 62265}, {"loss": 0.026143833994865417, "token_acc": 0.9880952380952381, "grad_norm": 1.0851967334747314, "learning_rate": 6.326501184997613e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231897, "epoch": 4.746550804177148, "step": 62270}, {"loss": 0.02856021523475647, "token_acc": 0.9907373101148573, "grad_norm": 1.135430097579956, "learning_rate": 6.307528495726467e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231903, "epoch": 4.746931930787408, "step": 62275}, {"loss": 0.02938147187232971, "token_acc": 0.9894372959477626, "grad_norm": 0.7441526055335999, "learning_rate": 6.288584117427609e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231905, "epoch": 4.747313057397667, "step": 62280}, {"loss": 0.0263720840215683, "token_acc": 0.9859293193717278, "grad_norm": 2.0306737422943115, "learning_rate": 6.269668051187283e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231911, "epoch": 4.747694184007927, "step": 62285}, {"loss": 0.024472638964653015, "token_acc": 0.9893617021276596, "grad_norm": 1.9786263704299927, "learning_rate": 6.250780298090342e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231915, "epoch": 4.748075310618187, "step": 62290}, {"loss": 0.04496138095855713, "token_acc": 0.979024099970247, "grad_norm": 1.4458848237991333, "learning_rate": 6.231920859219864e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231918, "epoch": 4.748456437228447, "step": 62295}, {"loss": 0.018313558399677278, "token_acc": 0.9904588823262154, "grad_norm": 0.8253783583641052, "learning_rate": 6.213089735657374e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231921, "epoch": 4.748837563838707, "step": 62300}, {"loss": 0.02432798743247986, "token_acc": 0.9907038512616202, "grad_norm": 0.7312617897987366, "learning_rate": 6.194286928482785e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231919, "epoch": 4.749218690448967, "step": 62305}, {"loss": 0.037587675452232364, "token_acc": 0.9844393592677345, "grad_norm": 1.6132622957229614, "learning_rate": 6.175512438774234e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231925, "epoch": 4.749599817059227, "step": 62310}, {"loss": 0.019921346008777617, "token_acc": 0.9896346644010195, "grad_norm": 1.4922758340835571, "learning_rate": 6.156766267608416e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231928, "epoch": 4.749980943669487, "step": 62315}, {"loss": 0.034427300095558167, "token_acc": 0.9877697841726619, "grad_norm": 0.0005492289201356471, "learning_rate": 6.13804841606036e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231933, "epoch": 4.750362070279747, "step": 62320}, {"loss": 0.03334043025970459, "token_acc": 0.9867610837438424, "grad_norm": 3.0645153522491455, "learning_rate": 6.119358885203375e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231939, "epoch": 4.7507431968900065, "step": 62325}, {"loss": 0.06582321524620056, "token_acc": 0.975, "grad_norm": 0.8321848511695862, "learning_rate": 6.100697676109379e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231944, "epoch": 4.7511243235002665, "step": 62330}, {"loss": 0.03961111307144165, "token_acc": 0.9844375277901289, "grad_norm": 1.699718713760376, "learning_rate": 6.082064789848296e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231948, "epoch": 4.7515054501105265, "step": 62335}, {"loss": 0.049031776189804074, "token_acc": 0.9841780638240816, "grad_norm": 3.1555092334747314, "learning_rate": 6.063460227488771e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231953, "epoch": 4.7518865767207865, "step": 62340}, {"loss": 0.024416552484035493, "token_acc": 0.9906646751306946, "grad_norm": 1.4447624683380127, "learning_rate": 6.044883990097727e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231959, "epoch": 4.7522677033310465, "step": 62345}, {"loss": 0.041811487078666686, "token_acc": 0.991238670694864, "grad_norm": 1.1554878950119019, "learning_rate": 6.026336078740258e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231965, "epoch": 4.7526488299413066, "step": 62350}, {"loss": 0.014797374606132507, "token_acc": 0.9905476786210731, "grad_norm": 1.2215365171432495, "learning_rate": 6.007816494480123e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23197, "epoch": 4.753029956551567, "step": 62355}, {"loss": 0.030013573169708253, "token_acc": 0.9905581782838101, "grad_norm": 2.3872244358062744, "learning_rate": 5.989325238379362e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231972, "epoch": 4.753411083161827, "step": 62360}, {"loss": 0.047540485858917236, "token_acc": 0.987012987012987, "grad_norm": 1.1459513902664185, "learning_rate": 5.970862311498237e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231974, "epoch": 4.753792209772087, "step": 62365}, {"loss": 0.027018123865127565, "token_acc": 0.9865269461077845, "grad_norm": 0.9639091491699219, "learning_rate": 5.952427714895626e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231978, "epoch": 4.754173336382346, "step": 62370}, {"loss": 0.03779637813568115, "token_acc": 0.9905349794238684, "grad_norm": 0.9635127186775208, "learning_rate": 5.934021449628624e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231982, "epoch": 4.754554462992606, "step": 62375}, {"loss": 0.04272338449954986, "token_acc": 0.9817818817070127, "grad_norm": 1.6690819263458252, "learning_rate": 5.915643516752723e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231985, "epoch": 4.754935589602866, "step": 62380}, {"loss": 0.024808910489082337, "token_acc": 0.9896311066799601, "grad_norm": 0.7876395583152771, "learning_rate": 5.897293917321856e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231989, "epoch": 4.755316716213126, "step": 62385}, {"loss": 0.0286358505487442, "token_acc": 0.9842873176206509, "grad_norm": 0.6003465056419373, "learning_rate": 5.878972652388237e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231995, "epoch": 4.755697842823386, "step": 62390}, {"loss": 0.031125855445861817, "token_acc": 0.9853469726292508, "grad_norm": 0.9249973297119141, "learning_rate": 5.860679723002582e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231999, "epoch": 4.756078969433646, "step": 62395}, {"loss": 0.0350125253200531, "token_acc": 0.9916911891985459, "grad_norm": 1.4878966808319092, "learning_rate": 5.84241513021383e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.232002, "epoch": 4.756460096043906, "step": 62400}, {"eval_loss": 0.047160789370536804, "eval_token_acc": 0.9809800614420818, "eval_runtime": 220.1925, "eval_samples_per_second": 2.407, "eval_steps_per_second": 2.407, "epoch": 4.756460096043906, "step": 62400}, {"loss": 0.029633811116218566, "token_acc": 0.9813989648495145, "grad_norm": 1.021369218826294, "learning_rate": 5.824178875069419e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231815, "epoch": 4.756841222654166, "step": 62405}, {"loss": 0.03304466009140015, "token_acc": 0.9910361191668864, "grad_norm": 0.5650991201400757, "learning_rate": 5.80597095861507e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23182, "epoch": 4.757222349264426, "step": 62410}, {"loss": 0.050838303565979, "token_acc": 0.9868449901337426, "grad_norm": 0.7109672427177429, "learning_rate": 5.787791381894947e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231823, "epoch": 4.757603475874686, "step": 62415}, {"loss": 0.03181655406951904, "token_acc": 0.9907884042264968, "grad_norm": 1.0059800148010254, "learning_rate": 5.769640145951549e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231828, "epoch": 4.757984602484946, "step": 62420}, {"loss": 0.02930476367473602, "token_acc": 0.9870586580391053, "grad_norm": 1.9135833978652954, "learning_rate": 5.751517251825822e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231831, "epoch": 4.758365729095205, "step": 62425}, {"loss": 0.013683287799358368, "token_acc": 0.9937808277932662, "grad_norm": 1.1706748008728027, "learning_rate": 5.73342270055699e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231835, "epoch": 4.758746855705465, "step": 62430}, {"loss": 0.03754611611366272, "token_acc": 0.9866758557316793, "grad_norm": 0.6838061213493347, "learning_rate": 5.715356493182611e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231834, "epoch": 4.759127982315725, "step": 62435}, {"loss": 0.02070358544588089, "token_acc": 0.991672753834916, "grad_norm": 0.9137806296348572, "learning_rate": 5.697318630738857e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231836, "epoch": 4.759509108925985, "step": 62440}, {"loss": 0.0347255140542984, "token_acc": 0.9869461298032727, "grad_norm": 2.2764229774475098, "learning_rate": 5.679309114260011e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231839, "epoch": 4.759890235536245, "step": 62445}, {"loss": 0.041247588396072385, "token_acc": 0.9817474566128067, "grad_norm": 1.6856176853179932, "learning_rate": 5.661327944778861e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231844, "epoch": 4.760271362146505, "step": 62450}, {"loss": 0.027240318059921265, "token_acc": 0.9877312952534192, "grad_norm": 0.9990968704223633, "learning_rate": 5.643375123326522e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231848, "epoch": 4.760652488756765, "step": 62455}, {"loss": 0.04734380543231964, "token_acc": 0.9840462833099579, "grad_norm": 1.72262704372406, "learning_rate": 5.625450650932507e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231851, "epoch": 4.761033615367025, "step": 62460}, {"loss": 0.027806589007377626, "token_acc": 0.9924208649130629, "grad_norm": 2.6365325450897217, "learning_rate": 5.607554528624715e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231855, "epoch": 4.761414741977285, "step": 62465}, {"loss": 0.03544677197933197, "token_acc": 0.9896640826873385, "grad_norm": 0.6551743745803833, "learning_rate": 5.589686757429491e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231857, "epoch": 4.761795868587544, "step": 62470}, {"loss": 0.025857603549957274, "token_acc": 0.990614485567558, "grad_norm": 1.0703436136245728, "learning_rate": 5.571847338371295e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23186, "epoch": 4.762176995197804, "step": 62475}, {"loss": 0.022240528464317323, "token_acc": 0.9910696566779122, "grad_norm": 1.1262619495391846, "learning_rate": 5.554036272473306e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231864, "epoch": 4.762558121808064, "step": 62480}, {"loss": 0.04562720060348511, "token_acc": 0.9809459762385115, "grad_norm": 0.9627217650413513, "learning_rate": 5.536253560756821e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231869, "epoch": 4.762939248418324, "step": 62485}, {"loss": 0.01992850750684738, "token_acc": 0.9863739591218774, "grad_norm": 2.3767354488372803, "learning_rate": 5.518499204241523e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231874, "epoch": 4.763320375028584, "step": 62490}, {"loss": 0.031372097134590146, "token_acc": 0.9870156636438582, "grad_norm": 1.881363034248352, "learning_rate": 5.500773203945708e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231878, "epoch": 4.763701501638844, "step": 62495}, {"loss": 0.02145341634750366, "token_acc": 0.9926522043386984, "grad_norm": 1.9561997652053833, "learning_rate": 5.483075560885731e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231884, "epoch": 4.7640826282491044, "step": 62500}, {"loss": 0.05595534443855286, "token_acc": 0.9775713638423199, "grad_norm": 2.389164686203003, "learning_rate": 5.465406276076557e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231888, "epoch": 4.7644637548593645, "step": 62505}, {"loss": 0.03650898039340973, "token_acc": 0.9824790794979079, "grad_norm": 1.020013689994812, "learning_rate": 5.447765350531431e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231893, "epoch": 4.7648448814696245, "step": 62510}, {"loss": 0.0366679698228836, "token_acc": 0.9844236760124611, "grad_norm": 1.5467352867126465, "learning_rate": 5.430152785261932e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231898, "epoch": 4.7652260080798845, "step": 62515}, {"loss": 0.034946206212043765, "token_acc": 0.9841269841269841, "grad_norm": 1.3167610168457031, "learning_rate": 5.412568581278088e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231902, "epoch": 4.7656071346901445, "step": 62520}, {"loss": 0.017975199222564697, "token_acc": 0.9890648567119156, "grad_norm": 0.9978244304656982, "learning_rate": 5.395012739588312e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231908, "epoch": 4.765988261300404, "step": 62525}, {"loss": 0.017236940562725067, "token_acc": 0.9937788480834838, "grad_norm": 0.7265720963478088, "learning_rate": 5.377485261199244e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231911, "epoch": 4.766369387910664, "step": 62530}, {"loss": 0.013528251647949218, "token_acc": 0.993869370431502, "grad_norm": 0.6945503950119019, "learning_rate": 5.359986147116136e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231915, "epoch": 4.766750514520924, "step": 62535}, {"loss": 0.014740860462188721, "token_acc": 0.9944361224053071, "grad_norm": 0.36731958389282227, "learning_rate": 5.342515398342351e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231919, "epoch": 4.767131641131184, "step": 62540}, {"loss": 0.035223832726478575, "token_acc": 0.987010904425914, "grad_norm": 0.9458820223808289, "learning_rate": 5.325073015879867e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231922, "epoch": 4.767512767741444, "step": 62545}, {"loss": 0.035723942518234256, "token_acc": 0.9890052356020942, "grad_norm": 0.7575409412384033, "learning_rate": 5.307659000728827e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231927, "epoch": 4.767893894351704, "step": 62550}, {"loss": 0.025836312770843507, "token_acc": 0.9892446834514789, "grad_norm": 1.0945377349853516, "learning_rate": 5.290273353887876e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23193, "epoch": 4.768275020961964, "step": 62555}, {"loss": 0.02612437605857849, "token_acc": 0.9901497241922774, "grad_norm": 0.9755048751831055, "learning_rate": 5.272916076354106e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231935, "epoch": 4.768656147572224, "step": 62560}, {"loss": 0.03251497447490692, "token_acc": 0.9842209072978304, "grad_norm": 0.7875927686691284, "learning_rate": 5.255587169122722e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23194, "epoch": 4.769037274182484, "step": 62565}, {"loss": 0.03806655704975128, "token_acc": 0.9864029666254636, "grad_norm": 1.1808918714523315, "learning_rate": 5.238286633187483e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231944, "epoch": 4.769418400792743, "step": 62570}, {"loss": 0.029971325397491456, "token_acc": 0.9876579488686453, "grad_norm": 1.1637760400772095, "learning_rate": 5.221014469540597e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231947, "epoch": 4.769799527403003, "step": 62575}, {"loss": 0.03605890572071076, "token_acc": 0.9885284101093386, "grad_norm": 0.5817446112632751, "learning_rate": 5.203770679172437e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23195, "epoch": 4.770180654013263, "step": 62580}, {"loss": 0.03081439733505249, "token_acc": 0.9882000374601986, "grad_norm": 1.4201160669326782, "learning_rate": 5.186555263071935e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231953, "epoch": 4.770561780623523, "step": 62585}, {"loss": 0.029424139857292177, "token_acc": 0.9883365200764819, "grad_norm": 0.8010106682777405, "learning_rate": 5.169368222226189e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231957, "epoch": 4.770942907233783, "step": 62590}, {"loss": 0.03727588951587677, "token_acc": 0.9850746268656716, "grad_norm": 1.048891544342041, "learning_rate": 5.152209557620969e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231962, "epoch": 4.771324033844043, "step": 62595}, {"loss": 0.023561863601207732, "token_acc": 0.9907876554583142, "grad_norm": 1.6480255126953125, "learning_rate": 5.135079270240151e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231966, "epoch": 4.771705160454303, "step": 62600}, {"eval_loss": 0.046934016048908234, "eval_token_acc": 0.9810628877778447, "eval_runtime": 219.4664, "eval_samples_per_second": 2.415, "eval_steps_per_second": 2.415, "epoch": 4.771705160454303, "step": 62600}, {"loss": 0.045066073536872864, "token_acc": 0.9812285343486272, "grad_norm": 2.224191427230835, "learning_rate": 5.117977361066006e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231778, "epoch": 4.772086287064563, "step": 62605}, {"loss": 0.03577404618263245, "token_acc": 0.9840017532325225, "grad_norm": 1.2512331008911133, "learning_rate": 5.100903831079362e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231783, "epoch": 4.772467413674823, "step": 62610}, {"loss": 0.02062276899814606, "token_acc": 0.993305231837342, "grad_norm": 1.0179688930511475, "learning_rate": 5.083858681259324e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231787, "epoch": 4.772848540285082, "step": 62615}, {"loss": 0.03325316309928894, "token_acc": 0.9863851919840906, "grad_norm": 0.8549711108207703, "learning_rate": 5.066841912583276e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231789, "epoch": 4.773229666895343, "step": 62620}, {"loss": 0.03270209431648254, "token_acc": 0.9924103637791154, "grad_norm": 3.8969483375549316, "learning_rate": 5.049853526027049e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231794, "epoch": 4.773610793505602, "step": 62625}, {"loss": 0.024587245285511018, "token_acc": 0.9905340491664312, "grad_norm": 0.6585058569908142, "learning_rate": 5.032893522564919e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231796, "epoch": 4.773991920115862, "step": 62630}, {"loss": 0.0219271719455719, "token_acc": 0.9918912745545911, "grad_norm": 0.8218967914581299, "learning_rate": 5.015961903169331e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231798, "epoch": 4.774373046726122, "step": 62635}, {"loss": 0.027888554334640502, "token_acc": 0.987873754152824, "grad_norm": 0.8402374982833862, "learning_rate": 4.999058668811396e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231801, "epoch": 4.774754173336382, "step": 62640}, {"loss": 0.016513562202453612, "token_acc": 0.9923566878980892, "grad_norm": 1.5269091129302979, "learning_rate": 4.982183820460339e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231808, "epoch": 4.775135299946642, "step": 62645}, {"loss": 0.04495645761489868, "token_acc": 0.9873496474491912, "grad_norm": 2.2441885471343994, "learning_rate": 4.965337359083888e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231813, "epoch": 4.775516426556902, "step": 62650}, {"loss": 0.024235151708126068, "token_acc": 0.9887140902872777, "grad_norm": 0.9190105199813843, "learning_rate": 4.948519285648101e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231815, "epoch": 4.775897553167162, "step": 62655}, {"loss": 0.02572435438632965, "token_acc": 0.990108803165183, "grad_norm": 1.3544459342956543, "learning_rate": 4.931729601117374e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231818, "epoch": 4.776278679777422, "step": 62660}, {"loss": 0.03743477761745453, "token_acc": 0.9886527550726031, "grad_norm": 4.327854633331299, "learning_rate": 4.914968306454604e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231818, "epoch": 4.776659806387682, "step": 62665}, {"loss": 0.020708820223808287, "token_acc": 0.9898463941681853, "grad_norm": 0.6562339067459106, "learning_rate": 4.89823540262091e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231823, "epoch": 4.7770409329979415, "step": 62670}, {"loss": 0.029667758941650392, "token_acc": 0.9889442541264404, "grad_norm": 2.04366397857666, "learning_rate": 4.881530890575859e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231826, "epoch": 4.7774220596082015, "step": 62675}, {"loss": 0.029621019959449768, "token_acc": 0.9878362907842015, "grad_norm": 1.1642143726348877, "learning_rate": 4.86485477127735e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231827, "epoch": 4.777803186218462, "step": 62680}, {"loss": 0.024975875020027162, "token_acc": 0.9862165401518178, "grad_norm": 1.4233492612838745, "learning_rate": 4.848207045681785e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231829, "epoch": 4.778184312828722, "step": 62685}, {"loss": 0.01600743681192398, "token_acc": 0.9903713892709766, "grad_norm": 0.22307443618774414, "learning_rate": 4.831587714743679e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231833, "epoch": 4.778565439438982, "step": 62690}, {"loss": 0.023009638488292693, "token_acc": 0.9923132356473697, "grad_norm": 0.7013185024261475, "learning_rate": 4.814996779416214e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231838, "epoch": 4.778946566049242, "step": 62695}, {"loss": 0.029384291172027587, "token_acc": 0.9893992932862191, "grad_norm": 1.3341270685195923, "learning_rate": 4.79843424065074e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23184, "epoch": 4.779327692659502, "step": 62700}, {"loss": 0.02776591181755066, "token_acc": 0.9900604432505037, "grad_norm": 1.5046217441558838, "learning_rate": 4.781900099396996e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231842, "epoch": 4.779708819269762, "step": 62705}, {"loss": 0.03564045131206513, "token_acc": 0.9856436808660861, "grad_norm": 1.2191438674926758, "learning_rate": 4.7653943566032255e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231846, "epoch": 4.780089945880022, "step": 62710}, {"loss": 0.04566242098808289, "token_acc": 0.9814202487797198, "grad_norm": 0.94449782371521, "learning_rate": 4.7489170132159476e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231849, "epoch": 4.780471072490281, "step": 62715}, {"loss": 0.03482694625854492, "token_acc": 0.9869578404610252, "grad_norm": 0.6896898746490479, "learning_rate": 4.7324680701799626e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231851, "epoch": 4.780852199100541, "step": 62720}, {"loss": 0.021392405033111572, "token_acc": 0.9916094584286804, "grad_norm": 0.9160072207450867, "learning_rate": 4.7160475284386827e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231853, "epoch": 4.781233325710801, "step": 62725}, {"loss": 0.03498615622520447, "token_acc": 0.9850498338870431, "grad_norm": 0.9346680045127869, "learning_rate": 4.6996553889336325e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231857, "epoch": 4.781614452321061, "step": 62730}, {"loss": 0.031201893091201784, "token_acc": 0.9835255354200988, "grad_norm": 1.2975705862045288, "learning_rate": 4.683291652604893e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231862, "epoch": 4.781995578931321, "step": 62735}, {"loss": 0.02988581657409668, "token_acc": 0.9881566113975199, "grad_norm": 1.0884557962417603, "learning_rate": 4.666956320390825e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231865, "epoch": 4.782376705541581, "step": 62740}, {"loss": 0.04001253843307495, "token_acc": 0.9848267964500429, "grad_norm": 1.6932110786437988, "learning_rate": 4.650649393228179e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231865, "epoch": 4.782757832151841, "step": 62745}, {"loss": 0.04118227660655975, "token_acc": 0.9805112272277927, "grad_norm": 1.3907928466796875, "learning_rate": 4.6343708720520405e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231867, "epoch": 4.783138958762101, "step": 62750}, {"loss": 0.024432250857353212, "token_acc": 0.9889033942558747, "grad_norm": 0.6844531297683716, "learning_rate": 4.618120757796052e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231869, "epoch": 4.783520085372361, "step": 62755}, {"loss": 0.02533690333366394, "token_acc": 0.9890194865450046, "grad_norm": 1.2198781967163086, "learning_rate": 4.6018990513919114e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231873, "epoch": 4.783901211982621, "step": 62760}, {"loss": 0.023909792304039, "token_acc": 0.9932513858761147, "grad_norm": 1.9371570348739624, "learning_rate": 4.5857057537699867e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231878, "epoch": 4.784282338592881, "step": 62765}, {"loss": 0.025183388590812684, "token_acc": 0.9883214568487728, "grad_norm": 2.163282632827759, "learning_rate": 4.569540865858812e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231882, "epoch": 4.78466346520314, "step": 62770}, {"loss": 0.04961448311805725, "token_acc": 0.9830022075055188, "grad_norm": 1.7538942098617554, "learning_rate": 4.553404388585369e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231885, "epoch": 4.7850445918134, "step": 62775}, {"loss": 0.02752041518688202, "token_acc": 0.987410071942446, "grad_norm": 0.8211517930030823, "learning_rate": 4.5372963228750285e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231889, "epoch": 4.78542571842366, "step": 62780}, {"loss": 0.01908148229122162, "token_acc": 0.9922495274102079, "grad_norm": 1.928106665611267, "learning_rate": 4.5212166696515514e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231893, "epoch": 4.78580684503392, "step": 62785}, {"loss": 0.02234601676464081, "token_acc": 0.9922212618841832, "grad_norm": 1.5437453985214233, "learning_rate": 4.5051654298369773e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231897, "epoch": 4.78618797164418, "step": 62790}, {"loss": 0.033027869462966916, "token_acc": 0.986705663387397, "grad_norm": 2.175292491912842, "learning_rate": 4.489142604351848e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231902, "epoch": 4.78656909825444, "step": 62795}, {"loss": 0.019714036583900453, "token_acc": 0.9927128188141768, "grad_norm": 0.9385145306587219, "learning_rate": 4.4731481941148735e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231908, "epoch": 4.7869502248647, "step": 62800}, {"eval_loss": 0.04687352478504181, "eval_token_acc": 0.980912294440094, "eval_runtime": 220.9384, "eval_samples_per_second": 2.399, "eval_steps_per_second": 2.399, "epoch": 4.7869502248647, "step": 62800}, {"loss": 0.021140208840370177, "token_acc": 0.9814591776008161, "grad_norm": 0.6770663857460022, "learning_rate": 4.4571822000433194e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231721, "epoch": 4.78733135147496, "step": 62805}, {"loss": 0.03847982883453369, "token_acc": 0.9834224598930481, "grad_norm": 1.3421344757080078, "learning_rate": 4.441244623052787e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231727, "epoch": 4.78771247808522, "step": 62810}, {"loss": 0.022837018966674803, "token_acc": 0.988318863456985, "grad_norm": 0.693310022354126, "learning_rate": 4.425335464057212e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23173, "epoch": 4.788093604695479, "step": 62815}, {"loss": 0.014039571583271026, "token_acc": 0.9939197405755978, "grad_norm": 2.5987956523895264, "learning_rate": 4.409454723968864e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231735, "epoch": 4.788474731305739, "step": 62820}, {"loss": 0.04708206653594971, "token_acc": 0.9813925570228091, "grad_norm": 1.7249819040298462, "learning_rate": 4.393602403698516e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231739, "epoch": 4.788855857915999, "step": 62825}, {"loss": 0.0169865220785141, "token_acc": 0.9927426160337552, "grad_norm": 1.1998162269592285, "learning_rate": 4.3777785041551056e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231742, "epoch": 4.7892369845262595, "step": 62830}, {"loss": 0.021781469881534576, "token_acc": 0.9894580549368968, "grad_norm": 0.19533002376556396, "learning_rate": 4.361983026246186e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231746, "epoch": 4.7896181111365195, "step": 62835}, {"loss": 0.02966471016407013, "token_acc": 0.9899841855561413, "grad_norm": 1.0102574825286865, "learning_rate": 4.346215970877476e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23175, "epoch": 4.7899992377467795, "step": 62840}, {"loss": 0.028153863549232484, "token_acc": 0.9925925925925926, "grad_norm": 0.8018893003463745, "learning_rate": 4.330477338953198e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231755, "epoch": 4.7903803643570395, "step": 62845}, {"loss": 0.02002035826444626, "token_acc": 0.9910184714455177, "grad_norm": 1.1174206733703613, "learning_rate": 4.3147671313757963e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231758, "epoch": 4.7907614909672995, "step": 62850}, {"loss": 0.05269259214401245, "token_acc": 0.9813506640293869, "grad_norm": 2.8240368366241455, "learning_rate": 4.2990853490463277e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231764, "epoch": 4.7911426175775595, "step": 62855}, {"loss": 0.036946064233779906, "token_acc": 0.9850223072020395, "grad_norm": 0.9259799122810364, "learning_rate": 4.283431992863851e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231769, "epoch": 4.79152374418782, "step": 62860}, {"loss": 0.025675690174102782, "token_acc": 0.9868421052631579, "grad_norm": 1.4255354404449463, "learning_rate": 4.267807063726259e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231773, "epoch": 4.79190487079808, "step": 62865}, {"loss": 0.04000739455223083, "token_acc": 0.9834745762711864, "grad_norm": 0.47609105706214905, "learning_rate": 4.252210562529391e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231776, "epoch": 4.792285997408339, "step": 62870}, {"loss": 0.048571014404296876, "token_acc": 0.9776721108124871, "grad_norm": 1.2595787048339844, "learning_rate": 4.2366424901677525e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23178, "epoch": 4.792667124018599, "step": 62875}, {"loss": 0.016861100494861603, "token_acc": 0.9935117599351176, "grad_norm": 0.798064649105072, "learning_rate": 4.2211028475340196e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231784, "epoch": 4.793048250628859, "step": 62880}, {"loss": 0.03081633448600769, "token_acc": 0.9887742718446602, "grad_norm": 0.67025226354599, "learning_rate": 4.2055916355193126e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231789, "epoch": 4.793429377239119, "step": 62885}, {"loss": 0.016903056204319, "token_acc": 0.9932203389830508, "grad_norm": 0.08056657016277313, "learning_rate": 4.190108855013197e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231794, "epoch": 4.793810503849379, "step": 62890}, {"loss": 0.017359675467014314, "token_acc": 0.9921663151551672, "grad_norm": 0.6369702219963074, "learning_rate": 4.1746545069034636e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231799, "epoch": 4.794191630459639, "step": 62895}, {"loss": 0.013130754232406616, "token_acc": 0.9941728714794432, "grad_norm": 1.533560872077942, "learning_rate": 4.159228592076403e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231804, "epoch": 4.794572757069899, "step": 62900}, {"loss": 0.03364244699478149, "token_acc": 0.9820426487093153, "grad_norm": 1.611738920211792, "learning_rate": 4.143831111416585e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231808, "epoch": 4.794953883680159, "step": 62905}, {"loss": 0.03443012535572052, "token_acc": 0.9902006532897807, "grad_norm": 1.980904459953308, "learning_rate": 4.1284620658070816e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231813, "epoch": 4.795335010290419, "step": 62910}, {"loss": 0.0279181569814682, "token_acc": 0.9908866730996033, "grad_norm": 0.9902762770652771, "learning_rate": 4.1131214561290763e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231813, "epoch": 4.795716136900678, "step": 62915}, {"loss": 0.021202768385410308, "token_acc": 0.9920582395764395, "grad_norm": 0.7366730570793152, "learning_rate": 4.097809283262366e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23182, "epoch": 4.796097263510938, "step": 62920}, {"loss": 0.01669573187828064, "token_acc": 0.9912779673871824, "grad_norm": 0.3260992169380188, "learning_rate": 4.0825255480850255e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231825, "epoch": 4.796478390121198, "step": 62925}, {"loss": 0.02739083766937256, "token_acc": 0.9869470630891951, "grad_norm": 0.9112858176231384, "learning_rate": 4.0672702514735207e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231829, "epoch": 4.796859516731458, "step": 62930}, {"loss": 0.037132936716079715, "token_acc": 0.9854838709677419, "grad_norm": 2.9881927967071533, "learning_rate": 4.052043394302651e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231833, "epoch": 4.797240643341718, "step": 62935}, {"loss": 0.039171501994132996, "token_acc": 0.9785658612626656, "grad_norm": 1.567980408668518, "learning_rate": 4.0368449774456084e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231837, "epoch": 4.797621769951978, "step": 62940}, {"loss": 0.02820260226726532, "token_acc": 0.9888996138996139, "grad_norm": 0.31848493218421936, "learning_rate": 4.021675001773972e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231843, "epoch": 4.798002896562238, "step": 62945}, {"loss": 0.04333561360836029, "token_acc": 0.983283393786469, "grad_norm": 1.1921637058258057, "learning_rate": 4.0065334681576027e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231847, "epoch": 4.798384023172498, "step": 62950}, {"loss": 0.06382641792297364, "token_acc": 0.9730911537167843, "grad_norm": 1.0458654165267944, "learning_rate": 3.991420377464916e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231851, "epoch": 4.798765149782758, "step": 62955}, {"loss": 0.030017131567001344, "token_acc": 0.98898628905372, "grad_norm": 0.9163231253623962, "learning_rate": 3.9763357305624414e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231855, "epoch": 4.799146276393017, "step": 62960}, {"loss": 0.03238446712493896, "token_acc": 0.9881413359148112, "grad_norm": 1.6784805059432983, "learning_rate": 3.9612795283153206e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23186, "epoch": 4.799527403003278, "step": 62965}, {"loss": 0.039999520778656004, "token_acc": 0.9842956852791879, "grad_norm": 1.1986920833587646, "learning_rate": 3.946251771586973e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231863, "epoch": 4.799908529613537, "step": 62970}, {"loss": 0.02826564908027649, "token_acc": 0.9890613451589061, "grad_norm": 1.2301034927368164, "learning_rate": 3.9312524612390434e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231865, "epoch": 4.800289656223797, "step": 62975}, {"loss": 0.025593915581703187, "token_acc": 0.9889901290812453, "grad_norm": 1.8153774738311768, "learning_rate": 3.916281598131788e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23187, "epoch": 4.800670782834057, "step": 62980}, {"loss": 0.02503419518470764, "token_acc": 0.9906987836870975, "grad_norm": 1.4484559297561646, "learning_rate": 3.9013391831236313e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231875, "epoch": 4.801051909444317, "step": 62985}, {"loss": 0.04700168967247009, "token_acc": 0.9783399209486165, "grad_norm": 0.8772055506706238, "learning_rate": 3.8864252170714435e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231878, "epoch": 4.801433036054577, "step": 62990}, {"loss": 0.03213859498500824, "token_acc": 0.9880224883891469, "grad_norm": 1.037616491317749, "learning_rate": 3.871539700830651e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231883, "epoch": 4.801814162664837, "step": 62995}, {"loss": 0.02355342507362366, "token_acc": 0.9887527278831627, "grad_norm": 1.2666484117507935, "learning_rate": 3.856682635254627e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231886, "epoch": 4.802195289275097, "step": 63000}, {"eval_loss": 0.046976033598184586, "eval_token_acc": 0.9810026504427444, "eval_runtime": 219.2182, "eval_samples_per_second": 2.418, "eval_steps_per_second": 2.418, "epoch": 4.802195289275097, "step": 63000}, {"loss": 0.018975776433944703, "token_acc": 0.9812516484482607, "grad_norm": 0.9564261436462402, "learning_rate": 3.8418540211955235e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231702, "epoch": 4.802576415885357, "step": 63005}, {"loss": 0.03789075016975403, "token_acc": 0.9870918754745635, "grad_norm": 0.6300713419914246, "learning_rate": 3.82705385950366e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231704, "epoch": 4.8029575424956175, "step": 63010}, {"loss": 0.022215460240840913, "token_acc": 0.9905131522207848, "grad_norm": 1.6559646129608154, "learning_rate": 3.812282151027691e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231711, "epoch": 4.803338669105877, "step": 63015}, {"loss": 0.01466372311115265, "token_acc": 0.9918856259659969, "grad_norm": 1.1685469150543213, "learning_rate": 3.7975388966147717e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231717, "epoch": 4.803719795716137, "step": 63020}, {"loss": 0.03989015817642212, "token_acc": 0.9860248447204969, "grad_norm": 0.9703885912895203, "learning_rate": 3.782824097110338e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23172, "epoch": 4.804100922326397, "step": 63025}, {"loss": 0.021323683857917785, "token_acc": 0.9921875, "grad_norm": 0.9476400017738342, "learning_rate": 3.768137753358159e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231724, "epoch": 4.804482048936657, "step": 63030}, {"loss": 0.04156841933727264, "token_acc": 0.9873517786561264, "grad_norm": 1.2856132984161377, "learning_rate": 3.75347986620056e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23173, "epoch": 4.804863175546917, "step": 63035}, {"loss": 0.030949196219444274, "token_acc": 0.9887556221889056, "grad_norm": 2.2435648441314697, "learning_rate": 3.738850436477981e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231736, "epoch": 4.805244302157177, "step": 63040}, {"loss": 0.0371663510799408, "token_acc": 0.9876506024096385, "grad_norm": 0.887566864490509, "learning_rate": 3.724249465029417e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231741, "epoch": 4.805625428767437, "step": 63045}, {"loss": 0.016661980748176576, "token_acc": 0.9934289127837514, "grad_norm": 0.6292742490768433, "learning_rate": 3.709676952692143e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231746, "epoch": 4.806006555377697, "step": 63050}, {"loss": 0.015166878700256348, "token_acc": 0.9928656361474435, "grad_norm": 1.110206127166748, "learning_rate": 3.695132900301823e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231752, "epoch": 4.806387681987957, "step": 63055}, {"loss": 0.01713033616542816, "token_acc": 0.9887459807073955, "grad_norm": 0.55885910987854, "learning_rate": 3.6806173086924575e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231753, "epoch": 4.806768808598216, "step": 63060}, {"loss": 0.013344967365264892, "token_acc": 0.993766404199475, "grad_norm": 0.00022453462588600814, "learning_rate": 3.666130178696547e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231759, "epoch": 4.807149935208476, "step": 63065}, {"loss": 0.029626345634460448, "token_acc": 0.9894995531724754, "grad_norm": 0.9472525119781494, "learning_rate": 3.651671511144761e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231763, "epoch": 4.807531061818736, "step": 63070}, {"loss": 0.03310932219028473, "token_acc": 0.9825987965522849, "grad_norm": 1.0764795541763306, "learning_rate": 3.637241306866268e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231767, "epoch": 4.807912188428996, "step": 63075}, {"loss": 0.04004574418067932, "token_acc": 0.9914417379855168, "grad_norm": 0.723978579044342, "learning_rate": 3.6228395666886294e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231771, "epoch": 4.808293315039256, "step": 63080}, {"loss": 0.030081966519355775, "token_acc": 0.9887429643527205, "grad_norm": 1.5451291799545288, "learning_rate": 3.608466291437629e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231776, "epoch": 4.808674441649516, "step": 63085}, {"loss": 0.02376446723937988, "token_acc": 0.9906617945594803, "grad_norm": 0.9197754263877869, "learning_rate": 3.594121481937551e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231779, "epoch": 4.809055568259776, "step": 63090}, {"loss": 0.03707510232925415, "token_acc": 0.9845050215208034, "grad_norm": 1.2862337827682495, "learning_rate": 3.5798051390110164e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231781, "epoch": 4.809436694870036, "step": 63095}, {"loss": 0.025219646096229554, "token_acc": 0.9894753627810556, "grad_norm": 0.3562486171722412, "learning_rate": 3.565517263478979e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231784, "epoch": 4.809817821480296, "step": 63100}, {"loss": 0.03258058130741119, "token_acc": 0.9835796387520526, "grad_norm": 0.8712477087974548, "learning_rate": 3.5512578561607834e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231788, "epoch": 4.810198948090556, "step": 63105}, {"loss": 0.020153559744358063, "token_acc": 0.9930896121266162, "grad_norm": 0.4659501612186432, "learning_rate": 3.5370269178741646e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231792, "epoch": 4.810580074700816, "step": 63110}, {"loss": 0.038122183084487914, "token_acc": 0.9852549298276781, "grad_norm": 1.564516305923462, "learning_rate": 3.5228244494351916e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231796, "epoch": 4.810961201311075, "step": 63115}, {"loss": 0.02219025194644928, "token_acc": 0.9960638530505139, "grad_norm": 0.31255125999450684, "learning_rate": 3.5086504516582686e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2318, "epoch": 4.811342327921335, "step": 63120}, {"loss": 0.03771839141845703, "token_acc": 0.9880580039806653, "grad_norm": 0.9172451496124268, "learning_rate": 3.4945049253562455e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231801, "epoch": 4.811723454531595, "step": 63125}, {"loss": 0.05779516100883484, "token_acc": 0.9833714140644834, "grad_norm": 3.185112237930298, "learning_rate": 3.480387871340307e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231803, "epoch": 4.812104581141855, "step": 63130}, {"loss": 0.062228846549987796, "token_acc": 0.9801128728836335, "grad_norm": 1.875710368156433, "learning_rate": 3.4662992904200276e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231808, "epoch": 4.812485707752115, "step": 63135}, {"loss": 0.030853748321533203, "token_acc": 0.988309790550414, "grad_norm": 0.5117953419685364, "learning_rate": 3.452239183403205e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231811, "epoch": 4.812866834362375, "step": 63140}, {"loss": 0.03281426131725311, "token_acc": 0.9872895344998349, "grad_norm": 0.7803714275360107, "learning_rate": 3.4382075510962507e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231814, "epoch": 4.813247960972635, "step": 63145}, {"loss": 0.027683475613594057, "token_acc": 0.9906654622101777, "grad_norm": 1.8475613594055176, "learning_rate": 3.4242043943037985e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231817, "epoch": 4.813629087582895, "step": 63150}, {"loss": 0.024223875999450684, "token_acc": 0.9909397387273493, "grad_norm": 0.9337578415870667, "learning_rate": 3.410229713828761e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23182, "epoch": 4.814010214193155, "step": 63155}, {"loss": 0.01840486526489258, "token_acc": 0.9894979508196722, "grad_norm": 0.59360671043396, "learning_rate": 3.3962835104726087e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231821, "epoch": 4.8143913408034145, "step": 63160}, {"loss": 0.02042759656906128, "token_acc": 0.9886653895274585, "grad_norm": 0.020730547606945038, "learning_rate": 3.382365785035146e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231823, "epoch": 4.8147724674136745, "step": 63165}, {"loss": 0.026781582832336427, "token_acc": 0.9918330308529946, "grad_norm": 1.3015488386154175, "learning_rate": 3.368476538314347e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231828, "epoch": 4.8151535940239345, "step": 63170}, {"loss": 0.028829434514045717, "token_acc": 0.9880542619963555, "grad_norm": 0.398786723613739, "learning_rate": 3.354615771106739e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231832, "epoch": 4.8155347206341945, "step": 63175}, {"loss": 0.05064421892166138, "token_acc": 0.9860576923076924, "grad_norm": 3.616356134414673, "learning_rate": 3.340783484207299e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231838, "epoch": 4.8159158472444545, "step": 63180}, {"loss": 0.02438846677541733, "token_acc": 0.9914995640802092, "grad_norm": 0.9188841581344604, "learning_rate": 3.3269796784090587e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231842, "epoch": 4.816296973854715, "step": 63185}, {"loss": 0.04107388257980347, "token_acc": 0.9840905614196115, "grad_norm": 0.9154105186462402, "learning_rate": 3.3132043545037183e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231845, "epoch": 4.816678100464975, "step": 63190}, {"loss": 0.03948026299476624, "token_acc": 0.9864069506726457, "grad_norm": 1.4026626348495483, "learning_rate": 3.2994575132812013e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231847, "epoch": 4.817059227075235, "step": 63195}, {"loss": 0.028913941979408265, "token_acc": 0.9895212285456187, "grad_norm": 1.0218368768692017, "learning_rate": 3.285739155529821e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23185, "epoch": 4.817440353685495, "step": 63200}, {"eval_loss": 0.046944618225097656, "eval_token_acc": 0.9809725317751943, "eval_runtime": 216.6095, "eval_samples_per_second": 2.447, "eval_steps_per_second": 2.447, "epoch": 4.817440353685495, "step": 63200}, {"loss": 0.042246705293655394, "token_acc": 0.9809797289796401, "grad_norm": 2.01212215423584, "learning_rate": 3.2720492820362826e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231672, "epoch": 4.817821480295755, "step": 63205}, {"loss": 0.01544800102710724, "token_acc": 0.9941520467836257, "grad_norm": 0.7240539789199829, "learning_rate": 3.258387893585624e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231676, "epoch": 4.818202606906015, "step": 63210}, {"loss": 0.028396591544151306, "token_acc": 0.9868391701985277, "grad_norm": 0.6905646920204163, "learning_rate": 3.2447549909612186e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231682, "epoch": 4.818583733516274, "step": 63215}, {"loss": 0.030277109146118163, "token_acc": 0.9912280701754386, "grad_norm": 3.066343307495117, "learning_rate": 3.231150574944941e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231686, "epoch": 4.818964860126534, "step": 63220}, {"loss": 0.04549559950828552, "token_acc": 0.9847161572052402, "grad_norm": 1.7845511436462402, "learning_rate": 3.2175746463168345e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231688, "epoch": 4.819345986736794, "step": 63225}, {"loss": 0.026473623514175416, "token_acc": 0.994447015270708, "grad_norm": 2.5665321350097656, "learning_rate": 3.2040272058554975e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231694, "epoch": 4.819727113347054, "step": 63230}, {"loss": 0.054391014575958255, "token_acc": 0.9769794209975584, "grad_norm": 42.414817810058594, "learning_rate": 3.190508254337754e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2317, "epoch": 4.820108239957314, "step": 63235}, {"loss": 0.0252038836479187, "token_acc": 0.9915824915824916, "grad_norm": 2.351365089416504, "learning_rate": 3.1770177925389277e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231704, "epoch": 4.820489366567574, "step": 63240}, {"loss": 0.024034537374973297, "token_acc": 0.9895712630359212, "grad_norm": 0.7023640275001526, "learning_rate": 3.1635558212325666e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23171, "epoch": 4.820870493177834, "step": 63245}, {"loss": 0.02616577744483948, "token_acc": 0.991190765492102, "grad_norm": 0.7927979826927185, "learning_rate": 3.15012234119072e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231712, "epoch": 4.821251619788094, "step": 63250}, {"loss": 0.03302351534366608, "token_acc": 0.9901333333333333, "grad_norm": 0.593925952911377, "learning_rate": 3.136717353183605e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231716, "epoch": 4.821632746398354, "step": 63255}, {"loss": 0.032762521505355836, "token_acc": 0.9832203936753792, "grad_norm": 0.2578660547733307, "learning_rate": 3.123340857980106e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231721, "epoch": 4.822013873008613, "step": 63260}, {"loss": 0.016461023688316347, "token_acc": 0.9871939736346516, "grad_norm": 0.08026441931724548, "learning_rate": 3.109992856347166e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231727, "epoch": 4.822394999618873, "step": 63265}, {"loss": 0.02368229180574417, "token_acc": 0.988822652757079, "grad_norm": 1.1899210214614868, "learning_rate": 3.096673349050283e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231731, "epoch": 4.822776126229133, "step": 63270}, {"loss": 0.049903833866119386, "token_acc": 0.9853372434017595, "grad_norm": 1.7817083597183228, "learning_rate": 3.083382336853291e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231734, "epoch": 4.823157252839393, "step": 63275}, {"loss": 0.017431795597076416, "token_acc": 0.9948738170347003, "grad_norm": 0.5186770558357239, "learning_rate": 3.070119820518358e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23174, "epoch": 4.823538379449653, "step": 63280}, {"loss": 0.02420383244752884, "token_acc": 0.9908128619932095, "grad_norm": 1.6400145292282104, "learning_rate": 3.0568858008059864e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231743, "epoch": 4.823919506059913, "step": 63285}, {"loss": 0.04476313889026642, "token_acc": 0.9834080717488789, "grad_norm": 1.0496143102645874, "learning_rate": 3.0436802784751804e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231746, "epoch": 4.824300632670173, "step": 63290}, {"loss": 0.02051415145397186, "token_acc": 0.9926873857404022, "grad_norm": 0.7308018803596497, "learning_rate": 3.0305032542830567e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231751, "epoch": 4.824681759280433, "step": 63295}, {"loss": 0.02273241728544235, "token_acc": 0.9869832893579595, "grad_norm": 0.8635321855545044, "learning_rate": 3.0173547289854e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231755, "epoch": 4.825062885890693, "step": 63300}, {"loss": 0.02302742749452591, "token_acc": 0.9919544083137781, "grad_norm": 1.0389147996902466, "learning_rate": 3.0042347033362174e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23176, "epoch": 4.825444012500952, "step": 63305}, {"loss": 0.03196639716625214, "token_acc": 0.9846775909768036, "grad_norm": 1.4147989749908447, "learning_rate": 2.991143178087741e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231765, "epoch": 4.825825139111212, "step": 63310}, {"loss": 0.018962310254573823, "token_acc": 0.9930390181351896, "grad_norm": 0.956030547618866, "learning_rate": 2.97808015399087e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231768, "epoch": 4.826206265721472, "step": 63315}, {"loss": 0.024062004685401917, "token_acc": 0.9893211289092296, "grad_norm": 0.38244718313217163, "learning_rate": 2.9650456317946163e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231773, "epoch": 4.826587392331732, "step": 63320}, {"loss": 0.026440274715423585, "token_acc": 0.9921777777777778, "grad_norm": 0.9873067736625671, "learning_rate": 2.952039612246438e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231776, "epoch": 4.826968518941992, "step": 63325}, {"loss": 0.034022435545921326, "token_acc": 0.9886573463466104, "grad_norm": 1.0325442552566528, "learning_rate": 2.9390620960922376e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23178, "epoch": 4.827349645552252, "step": 63330}, {"loss": 0.038401469588279724, "token_acc": 0.9851037417981912, "grad_norm": 1.3539836406707764, "learning_rate": 2.9261130840761984e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231784, "epoch": 4.8277307721625125, "step": 63335}, {"loss": 0.018070292472839356, "token_acc": 0.9922680412371134, "grad_norm": 1.1062259674072266, "learning_rate": 2.9131925769408373e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231786, "epoch": 4.8281118987727725, "step": 63340}, {"loss": 0.04154585003852844, "token_acc": 0.9844474199196621, "grad_norm": 0.7680717706680298, "learning_rate": 2.9003005754271175e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231787, "epoch": 4.8284930253830325, "step": 63345}, {"loss": 0.027806323766708375, "token_acc": 0.9897546508492855, "grad_norm": 2.320725679397583, "learning_rate": 2.887437080274391e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231792, "epoch": 4.8288741519932925, "step": 63350}, {"loss": 0.0517522394657135, "token_acc": 0.9872792392244041, "grad_norm": 0.6801755428314209, "learning_rate": 2.87460209222018e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231793, "epoch": 4.8292552786035525, "step": 63355}, {"loss": 0.03218090534210205, "token_acc": 0.9860732232591529, "grad_norm": 1.2667820453643799, "learning_rate": 2.8617956120006726e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231797, "epoch": 4.829636405213812, "step": 63360}, {"loss": 0.06372233629226684, "token_acc": 0.9853493613824192, "grad_norm": 4.037550449371338, "learning_rate": 2.849017640350171e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231799, "epoch": 4.830017531824072, "step": 63365}, {"loss": 0.01915057599544525, "token_acc": 0.9920243959652827, "grad_norm": 1.708094596862793, "learning_rate": 2.8362681780013665e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231803, "epoch": 4.830398658434332, "step": 63370}, {"loss": 0.03380066752433777, "token_acc": 0.9857094249744811, "grad_norm": 0.7303031086921692, "learning_rate": 2.823547225685563e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231806, "epoch": 4.830779785044592, "step": 63375}, {"loss": 0.028407156467437744, "token_acc": 0.98000768935025, "grad_norm": 1.4593260288238525, "learning_rate": 2.8108547841320665e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231812, "epoch": 4.831160911654852, "step": 63380}, {"loss": 0.03029269278049469, "token_acc": 0.9859758472925594, "grad_norm": 1.0783460140228271, "learning_rate": 2.7981908540688497e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231818, "epoch": 4.831542038265112, "step": 63385}, {"loss": 0.03331114947795868, "token_acc": 0.987305158283786, "grad_norm": 1.0439966917037964, "learning_rate": 2.7855554362221093e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231821, "epoch": 4.831923164875372, "step": 63390}, {"loss": 0.02863774299621582, "token_acc": 0.9889867841409692, "grad_norm": 1.0250555276870728, "learning_rate": 2.772948531316322e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231824, "epoch": 4.832304291485632, "step": 63395}, {"loss": 0.030116668343544005, "token_acc": 0.9873859887444207, "grad_norm": 1.1258635520935059, "learning_rate": 2.7603701400745754e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231828, "epoch": 4.832685418095892, "step": 63400}, {"eval_loss": 0.04672357812523842, "eval_token_acc": 0.9810553581109571, "eval_runtime": 218.6935, "eval_samples_per_second": 2.423, "eval_steps_per_second": 2.423, "epoch": 4.832685418095892, "step": 63400}, {"loss": 0.019103607535362242, "token_acc": 0.9813506806267346, "grad_norm": 0.8140780925750732, "learning_rate": 2.747820263218126e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231648, "epoch": 4.833066544706151, "step": 63405}, {"loss": 0.024830490350723267, "token_acc": 0.9903766840802859, "grad_norm": 0.5592483878135681, "learning_rate": 2.7352989014666763e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23165, "epoch": 4.833447671316411, "step": 63410}, {"loss": 0.01745525449514389, "token_acc": 0.9926233287229138, "grad_norm": 0.8610469102859497, "learning_rate": 2.722806055538207e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231654, "epoch": 4.833828797926671, "step": 63415}, {"loss": 0.02346380054950714, "token_acc": 0.9924188580904999, "grad_norm": 0.4673379361629486, "learning_rate": 2.7103417261492014e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231659, "epoch": 4.834209924536931, "step": 63420}, {"loss": 0.0491860568523407, "token_acc": 0.9833762584874737, "grad_norm": 1.0860482454299927, "learning_rate": 2.6979059140143645e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231663, "epoch": 4.834591051147191, "step": 63425}, {"loss": 0.03133138418197632, "token_acc": 0.986905916585839, "grad_norm": 2.1303327083587646, "learning_rate": 2.685498619846849e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231667, "epoch": 4.834972177757451, "step": 63430}, {"loss": 0.05537205934524536, "token_acc": 0.9839827506545511, "grad_norm": 1.088713526725769, "learning_rate": 2.673119844358196e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231671, "epoch": 4.835353304367711, "step": 63435}, {"loss": 0.04109824299812317, "token_acc": 0.9798051793775243, "grad_norm": 1.5280109643936157, "learning_rate": 2.6607695882582275e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231675, "epoch": 4.835734430977971, "step": 63440}, {"loss": 0.0327631413936615, "token_acc": 0.9833156779661016, "grad_norm": 0.07485716044902802, "learning_rate": 2.648447852255209e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23168, "epoch": 4.836115557588231, "step": 63445}, {"loss": 0.036380958557128903, "token_acc": 0.9855889724310777, "grad_norm": 0.00063524697907269, "learning_rate": 2.636154637055688e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231683, "epoch": 4.836496684198491, "step": 63450}, {"loss": 0.026345273852348326, "token_acc": 0.988, "grad_norm": 0.8382189273834229, "learning_rate": 2.623889943364599e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231688, "epoch": 4.836877810808751, "step": 63455}, {"loss": 0.022588518261909486, "token_acc": 0.9889089502192416, "grad_norm": 2.322080612182617, "learning_rate": 2.6116537718853806e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231692, "epoch": 4.83725893741901, "step": 63460}, {"loss": 0.019360694289207458, "token_acc": 0.992723778143877, "grad_norm": 0.6515766978263855, "learning_rate": 2.599446123319638e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231694, "epoch": 4.83764006402927, "step": 63465}, {"loss": 0.03466072380542755, "token_acc": 0.9862514493953951, "grad_norm": 0.5862978100776672, "learning_rate": 2.5872669983674767e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231697, "epoch": 4.83802119063953, "step": 63470}, {"loss": 0.03136466443538666, "token_acc": 0.9865782932891466, "grad_norm": 1.1850827932357788, "learning_rate": 2.5751163977272285e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2317, "epoch": 4.83840231724979, "step": 63475}, {"loss": 0.01974187046289444, "token_acc": 0.9873811864962307, "grad_norm": 0.8709152936935425, "learning_rate": 2.562994322095724e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231703, "epoch": 4.83878344386005, "step": 63480}, {"loss": 0.02091221362352371, "token_acc": 0.9921599372794982, "grad_norm": 1.023867130279541, "learning_rate": 2.55090077216813e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231707, "epoch": 4.83916457047031, "step": 63485}, {"loss": 0.030989474058151244, "token_acc": 0.9907578558225508, "grad_norm": 1.3771401643753052, "learning_rate": 2.5388357486379466e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23171, "epoch": 4.83954569708057, "step": 63490}, {"loss": 0.02163785994052887, "token_acc": 0.9908749329039184, "grad_norm": 1.307253360748291, "learning_rate": 2.526799252196954e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231715, "epoch": 4.83992682369083, "step": 63495}, {"loss": 0.03606013059616089, "token_acc": 0.9856468366383381, "grad_norm": 1.20551598072052, "learning_rate": 2.5147912835355445e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231717, "epoch": 4.84030795030109, "step": 63500}, {"loss": 0.031311073899269105, "token_acc": 0.9840805123513267, "grad_norm": 0.6759769320487976, "learning_rate": 2.502811843342223e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231721, "epoch": 4.8406890769113495, "step": 63505}, {"loss": 0.031794705986976625, "token_acc": 0.9863108248015645, "grad_norm": 0.9417913556098938, "learning_rate": 2.49086093230394e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231722, "epoch": 4.8410702035216095, "step": 63510}, {"loss": 0.030968889594078064, "token_acc": 0.9890770070999454, "grad_norm": 1.2885313034057617, "learning_rate": 2.4789385511060915e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231728, "epoch": 4.84145133013187, "step": 63515}, {"loss": 0.02667335569858551, "token_acc": 0.9903600793875815, "grad_norm": 0.6319652199745178, "learning_rate": 2.467044700432297e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23173, "epoch": 4.84183245674213, "step": 63520}, {"loss": 0.03151824176311493, "token_acc": 0.9847467968273338, "grad_norm": 1.489200472831726, "learning_rate": 2.455179380964678e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231736, "epoch": 4.84221358335239, "step": 63525}, {"loss": 0.025184664130210876, "token_acc": 0.9898107714701602, "grad_norm": 1.3481451272964478, "learning_rate": 2.443342593383635e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23174, "epoch": 4.84259470996265, "step": 63530}, {"loss": 0.03211406767368317, "token_acc": 0.9861607142857143, "grad_norm": 1.2058234214782715, "learning_rate": 2.431534338367958e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231745, "epoch": 4.84297583657291, "step": 63535}, {"loss": 0.047597482800483704, "token_acc": 0.9788450543167524, "grad_norm": 1.3236397504806519, "learning_rate": 2.4197546165947714e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23175, "epoch": 4.84335696318317, "step": 63540}, {"loss": 0.022249022126197816, "token_acc": 0.9886107800291352, "grad_norm": 1.6006097793579102, "learning_rate": 2.408003428739647e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231752, "epoch": 4.84373808979343, "step": 63545}, {"loss": 0.024757683277130127, "token_acc": 0.985239852398524, "grad_norm": 1.3932478427886963, "learning_rate": 2.396280775476378e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231758, "epoch": 4.844119216403689, "step": 63550}, {"loss": 0.027435886859893798, "token_acc": 0.987279843444227, "grad_norm": 1.3240060806274414, "learning_rate": 2.3845866574772056e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231761, "epoch": 4.84450034301395, "step": 63555}, {"loss": 0.02540752589702606, "token_acc": 0.9906781635982288, "grad_norm": 1.7725639343261719, "learning_rate": 2.3729210754128706e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231764, "epoch": 4.844881469624209, "step": 63560}, {"loss": 0.03956393897533417, "token_acc": 0.9863409930901494, "grad_norm": 1.044792652130127, "learning_rate": 2.361284029952171e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231768, "epoch": 4.845262596234469, "step": 63565}, {"loss": 0.03137912154197693, "token_acc": 0.986905281536447, "grad_norm": 0.6337283253669739, "learning_rate": 2.3496755217624623e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231774, "epoch": 4.845643722844729, "step": 63570}, {"loss": 0.024837365746498107, "token_acc": 0.9916839916839917, "grad_norm": 0.10651111602783203, "learning_rate": 2.3380955515096004e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23178, "epoch": 4.846024849454989, "step": 63575}, {"loss": 0.019390700757503508, "token_acc": 0.9923241699393074, "grad_norm": 0.7044525146484375, "learning_rate": 2.3265441198574433e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231783, "epoch": 4.846405976065249, "step": 63580}, {"loss": 0.03701809048652649, "token_acc": 0.9833309588260436, "grad_norm": 0.5159116387367249, "learning_rate": 2.3150212274685168e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231785, "epoch": 4.846787102675509, "step": 63585}, {"loss": 0.029854807257652282, "token_acc": 0.988050784167289, "grad_norm": 0.7864515781402588, "learning_rate": 2.30352687500357e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231784, "epoch": 4.847168229285769, "step": 63590}, {"loss": 0.017898136377334596, "token_acc": 0.9923224568138196, "grad_norm": 0.19863025844097137, "learning_rate": 2.292061063121742e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23179, "epoch": 4.847549355896029, "step": 63595}, {"loss": 0.025042295455932617, "token_acc": 0.9869731800766284, "grad_norm": 0.14372771978378296, "learning_rate": 2.2806237924806185e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231794, "epoch": 4.847930482506289, "step": 63600}, {"eval_loss": 0.046677686274051666, "eval_token_acc": 0.9810402987771821, "eval_runtime": 220.0074, "eval_samples_per_second": 2.409, "eval_steps_per_second": 2.409, "epoch": 4.847930482506289, "step": 63600}, {"loss": 0.033819186687469485, "token_acc": 0.9811962071480671, "grad_norm": 0.8813661336898804, "learning_rate": 2.2692150637360078e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231612, "epoch": 4.848311609116548, "step": 63605}, {"loss": 0.028145435452461242, "token_acc": 0.9898255813953488, "grad_norm": 0.9819487929344177, "learning_rate": 2.2578348775421642e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231615, "epoch": 4.848692735726808, "step": 63610}, {"loss": 0.01513756662607193, "token_acc": 0.9946658299341073, "grad_norm": 0.11429768055677414, "learning_rate": 2.2464832345516773e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23162, "epoch": 4.849073862337068, "step": 63615}, {"loss": 0.03259872794151306, "token_acc": 0.9852832965415746, "grad_norm": 0.9345092177391052, "learning_rate": 2.2351601354154704e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231621, "epoch": 4.849454988947328, "step": 63620}, {"loss": 0.03991618454456329, "token_acc": 0.9848682494129924, "grad_norm": 1.1775275468826294, "learning_rate": 2.223865580782969e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231624, "epoch": 4.849836115557588, "step": 63625}, {"loss": 0.029350200295448305, "token_acc": 0.9872966029117899, "grad_norm": 1.2756683826446533, "learning_rate": 2.212599571301821e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231626, "epoch": 4.850217242167848, "step": 63630}, {"loss": 0.028466662764549254, "token_acc": 0.9905233685117381, "grad_norm": 0.7096001505851746, "learning_rate": 2.2013621076180658e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231631, "epoch": 4.850598368778108, "step": 63635}, {"loss": 0.03962083458900452, "token_acc": 0.9842302385176425, "grad_norm": 0.49754393100738525, "learning_rate": 2.1901531903760763e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231634, "epoch": 4.850979495388368, "step": 63640}, {"loss": 0.04339950680732727, "token_acc": 0.9830665024630542, "grad_norm": 2.165450096130371, "learning_rate": 2.1789728202187277e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23164, "epoch": 4.851360621998628, "step": 63645}, {"loss": 0.039947924017906186, "token_acc": 0.9869337979094077, "grad_norm": 0.7543947100639343, "learning_rate": 2.1678209977871178e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231642, "epoch": 4.851741748608887, "step": 63650}, {"loss": 0.025211113691329955, "token_acc": 0.9875031879622546, "grad_norm": 0.912329912185669, "learning_rate": 2.1566977237207353e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231648, "epoch": 4.852122875219147, "step": 63655}, {"loss": 0.03371896743774414, "token_acc": 0.988391376451078, "grad_norm": 2.6631243228912354, "learning_rate": 2.1456029986574587e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231652, "epoch": 4.852504001829407, "step": 63660}, {"loss": 0.05090123414993286, "token_acc": 0.9797921478060047, "grad_norm": 0.7513755559921265, "learning_rate": 2.134536823233557e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231657, "epoch": 4.8528851284396675, "step": 63665}, {"loss": 0.021261148154735565, "token_acc": 0.9896251673360107, "grad_norm": 0.47310882806777954, "learning_rate": 2.1234991980835784e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231662, "epoch": 4.8532662550499275, "step": 63670}, {"loss": 0.028561824560165407, "token_acc": 0.9875553680658089, "grad_norm": 1.6551554203033447, "learning_rate": 2.1124901238404604e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231666, "epoch": 4.8536473816601875, "step": 63675}, {"loss": 0.019939391314983367, "token_acc": 0.9922687283391096, "grad_norm": 0.5902779698371887, "learning_rate": 2.1015096011355318e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23167, "epoch": 4.8540285082704475, "step": 63680}, {"loss": 0.026715266704559325, "token_acc": 0.9894259818731118, "grad_norm": 1.874626874923706, "learning_rate": 2.0905576305985665e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231675, "epoch": 4.8544096348807075, "step": 63685}, {"loss": 0.04649493098258972, "token_acc": 0.9788373278939316, "grad_norm": 2.076921224594116, "learning_rate": 2.0796342128575063e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231679, "epoch": 4.8547907614909676, "step": 63690}, {"loss": 0.021721091866493226, "token_acc": 0.9931717309662, "grad_norm": 1.7890684604644775, "learning_rate": 2.0687393485387952e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231685, "epoch": 4.855171888101228, "step": 63695}, {"loss": 0.03151506185531616, "token_acc": 0.9836755301245372, "grad_norm": 1.1155509948730469, "learning_rate": 2.0578730382672107e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231688, "epoch": 4.855553014711488, "step": 63700}, {"loss": 0.019628126919269562, "token_acc": 0.9937388193202147, "grad_norm": 0.8792484402656555, "learning_rate": 2.0470352826658656e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231692, "epoch": 4.855934141321747, "step": 63705}, {"loss": 0.024875304102897643, "token_acc": 0.9901774943994486, "grad_norm": 1.2249419689178467, "learning_rate": 2.0362260823562628e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231695, "epoch": 4.856315267932007, "step": 63710}, {"loss": 0.02446194738149643, "token_acc": 0.9904376609047444, "grad_norm": 1.651612639427185, "learning_rate": 2.0254454379582398e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231701, "epoch": 4.856696394542267, "step": 63715}, {"loss": 0.026943543553352357, "token_acc": 0.987611837577426, "grad_norm": 0.3486618399620056, "learning_rate": 2.01469335009008e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231706, "epoch": 4.857077521152527, "step": 63720}, {"loss": 0.02305719703435898, "token_acc": 0.9908478673804179, "grad_norm": 0.4851253926753998, "learning_rate": 2.0039698193682898e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23171, "epoch": 4.857458647762787, "step": 63725}, {"loss": 0.0324232816696167, "token_acc": 0.9865528833721231, "grad_norm": 1.1019747257232666, "learning_rate": 1.993274846407822e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231715, "epoch": 4.857839774373047, "step": 63730}, {"loss": 0.022532182931900024, "token_acc": 0.9890590809628009, "grad_norm": 1.0173248052597046, "learning_rate": 1.982608431822075e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231719, "epoch": 4.858220900983307, "step": 63735}, {"loss": 0.025222840905189513, "token_acc": 0.9899435426958363, "grad_norm": 1.4136961698532104, "learning_rate": 1.971970576222615e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231721, "epoch": 4.858602027593567, "step": 63740}, {"loss": 0.028235653042793275, "token_acc": 0.9902310727033627, "grad_norm": 0.6944568157196045, "learning_rate": 1.961361280219509e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231724, "epoch": 4.858983154203827, "step": 63745}, {"loss": 0.030285876989364625, "token_acc": 0.9868714391875155, "grad_norm": 1.8777761459350586, "learning_rate": 1.9507805444211603e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231729, "epoch": 4.859364280814086, "step": 63750}, {"loss": 0.025669777393341066, "token_acc": 0.9903653151344841, "grad_norm": 0.9192717671394348, "learning_rate": 1.940228369434305e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23173, "epoch": 4.859745407424346, "step": 63755}, {"loss": 0.03496770858764649, "token_acc": 0.986640385457731, "grad_norm": 1.3644462823867798, "learning_rate": 1.9297047558640701e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231734, "epoch": 4.860126534034606, "step": 63760}, {"loss": 0.022020496428012848, "token_acc": 0.9885288790501107, "grad_norm": 0.9638566970825195, "learning_rate": 1.919209704313918e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231737, "epoch": 4.860507660644866, "step": 63765}, {"loss": 0.02205311059951782, "token_acc": 0.9948917538311847, "grad_norm": 0.6192764043807983, "learning_rate": 1.9087432153857554e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231741, "epoch": 4.860888787255126, "step": 63770}, {"loss": 0.02168118953704834, "token_acc": 0.9910347403810236, "grad_norm": 0.5418553948402405, "learning_rate": 1.8983052896797693e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231745, "epoch": 4.861269913865386, "step": 63775}, {"loss": 0.030096563696861266, "token_acc": 0.9875019287147045, "grad_norm": 0.6758118271827698, "learning_rate": 1.8878959277944254e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231749, "epoch": 4.861651040475646, "step": 63780}, {"loss": 0.017012296617031096, "token_acc": 0.9926421404682274, "grad_norm": 1.7213093042373657, "learning_rate": 1.8775151303268013e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231756, "epoch": 4.862032167085906, "step": 63785}, {"loss": 0.04599955677986145, "token_acc": 0.9831697054698457, "grad_norm": 1.1647675037384033, "learning_rate": 1.8671628978720323e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23176, "epoch": 4.862413293696166, "step": 63790}, {"loss": 0.020744654536247253, "token_acc": 0.9909663865546219, "grad_norm": 1.945186972618103, "learning_rate": 1.8568392310239214e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231763, "epoch": 4.862794420306426, "step": 63795}, {"loss": 0.017987486720085145, "token_acc": 0.9900670474298485, "grad_norm": 0.9581672549247742, "learning_rate": 1.8465441303743835e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231767, "epoch": 4.863175546916686, "step": 63800}, {"eval_loss": 0.04679752141237259, "eval_token_acc": 0.9810930064453949, "eval_runtime": 219.9157, "eval_samples_per_second": 2.41, "eval_steps_per_second": 2.41, "epoch": 4.863175546916686, "step": 63800}, {"loss": 0.0197479709982872, "token_acc": 0.9813944264077213, "grad_norm": 1.1121246814727783, "learning_rate": 1.83627759651378e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231587, "epoch": 4.863556673526945, "step": 63805}, {"loss": 0.023024699091911315, "token_acc": 0.9935461364032793, "grad_norm": 0.9048646092414856, "learning_rate": 1.8260396300309734e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231589, "epoch": 4.863937800137205, "step": 63810}, {"loss": 0.03786337971687317, "token_acc": 0.9811039283938339, "grad_norm": 2.3069543838500977, "learning_rate": 1.8158302315129382e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231595, "epoch": 4.864318926747465, "step": 63815}, {"loss": 0.041260254383087155, "token_acc": 0.9862501668669069, "grad_norm": 1.3953595161437988, "learning_rate": 1.8056494015452064e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231597, "epoch": 4.864700053357725, "step": 63820}, {"loss": 0.03047110140323639, "token_acc": 0.9848650335465752, "grad_norm": 0.8397042155265808, "learning_rate": 1.7954971407115883e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231601, "epoch": 4.865081179967985, "step": 63825}, {"loss": 0.033782586455345154, "token_acc": 0.9859075535512966, "grad_norm": 0.8198574185371399, "learning_rate": 1.7853734495942298e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231605, "epoch": 4.865462306578245, "step": 63830}, {"loss": 0.012765756249427796, "token_acc": 0.9969751966122202, "grad_norm": 2.7345728874206543, "learning_rate": 1.7752783287737218e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231611, "epoch": 4.865843433188505, "step": 63835}, {"loss": 0.027393531799316407, "token_acc": 0.9867086393844001, "grad_norm": 1.5577542781829834, "learning_rate": 1.7652117788289347e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231617, "epoch": 4.8662245597987654, "step": 63840}, {"loss": 0.026637130975723268, "token_acc": 0.98698224852071, "grad_norm": 1.5931227207183838, "learning_rate": 1.7551738003371842e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231622, "epoch": 4.8666056864090255, "step": 63845}, {"loss": 0.031009498238563537, "token_acc": 0.9856305539799584, "grad_norm": 0.10796253383159637, "learning_rate": 1.745164393874066e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231626, "epoch": 4.866986813019285, "step": 63850}, {"loss": 0.029703986644744874, "token_acc": 0.9893599334995844, "grad_norm": 1.1273672580718994, "learning_rate": 1.73518356001362e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231629, "epoch": 4.867367939629545, "step": 63855}, {"loss": 0.036250603199005124, "token_acc": 0.9872944693572496, "grad_norm": 1.78102707862854, "learning_rate": 1.7252312993281116e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231631, "epoch": 4.867749066239805, "step": 63860}, {"loss": 0.028365698456764222, "token_acc": 0.9881748071979435, "grad_norm": 1.0938230752944946, "learning_rate": 1.715307612388306e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231632, "epoch": 4.868130192850065, "step": 63865}, {"loss": 0.01668952703475952, "token_acc": 0.9910313901345291, "grad_norm": 1.4246264696121216, "learning_rate": 1.705412499763359e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231639, "epoch": 4.868511319460325, "step": 63870}, {"loss": 0.03373218774795532, "token_acc": 0.9851324337831084, "grad_norm": 0.5927743911743164, "learning_rate": 1.695545962020595e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231639, "epoch": 4.868892446070585, "step": 63875}, {"loss": 0.026500028371810914, "token_acc": 0.989687768547694, "grad_norm": 1.538282871246338, "learning_rate": 1.6857079997258384e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231644, "epoch": 4.869273572680845, "step": 63880}, {"loss": 0.04125989079475403, "token_acc": 0.9831932773109243, "grad_norm": 2.1982321739196777, "learning_rate": 1.6758986134432496e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23165, "epoch": 4.869654699291105, "step": 63885}, {"loss": 0.03261609673500061, "token_acc": 0.9872419392252377, "grad_norm": 1.888222575187683, "learning_rate": 1.6661178037354342e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231654, "epoch": 4.870035825901365, "step": 63890}, {"loss": 0.0238148033618927, "token_acc": 0.9944649446494465, "grad_norm": 2.4966673851013184, "learning_rate": 1.6563655711631655e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23166, "epoch": 4.870416952511624, "step": 63895}, {"loss": 0.023106947541236877, "token_acc": 0.9910161708923937, "grad_norm": 0.541151225566864, "learning_rate": 1.6466419162857182e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231664, "epoch": 4.870798079121885, "step": 63900}, {"loss": 0.032941436767578124, "token_acc": 0.9893822393822393, "grad_norm": 1.0560071468353271, "learning_rate": 1.6369468396607578e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231669, "epoch": 4.871179205732144, "step": 63905}, {"loss": 0.024679920077323912, "token_acc": 0.9909536373916321, "grad_norm": 1.6914194822311401, "learning_rate": 1.627280341844173e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231674, "epoch": 4.871560332342404, "step": 63910}, {"loss": 0.01988966017961502, "token_acc": 0.9923728813559322, "grad_norm": 1.0863217115402222, "learning_rate": 1.617642423390353e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23168, "epoch": 4.871941458952664, "step": 63915}, {"loss": 0.023190774023532867, "token_acc": 0.990491539081386, "grad_norm": 0.8507096171379089, "learning_rate": 1.6080330848519677e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231681, "epoch": 4.872322585562924, "step": 63920}, {"loss": 0.03189520537853241, "token_acc": 0.9874349308921199, "grad_norm": 1.3213520050048828, "learning_rate": 1.5984523267800756e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231681, "epoch": 4.872703712173184, "step": 63925}, {"loss": 0.03810795247554779, "token_acc": 0.9869743734956817, "grad_norm": 0.09521715342998505, "learning_rate": 1.588900149724015e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231684, "epoch": 4.873084838783444, "step": 63930}, {"loss": 0.01369284838438034, "token_acc": 0.9962256238205074, "grad_norm": 0.3573542833328247, "learning_rate": 1.579376554231682e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231688, "epoch": 4.873465965393704, "step": 63935}, {"loss": 0.037502944469451904, "token_acc": 0.9841031793641272, "grad_norm": 1.1519255638122559, "learning_rate": 1.5698815408491384e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231691, "epoch": 4.873847092003964, "step": 63940}, {"loss": 0.023704853653907777, "token_acc": 0.9868596881959911, "grad_norm": 1.0848225355148315, "learning_rate": 1.5604151101208387e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231696, "epoch": 4.874228218614224, "step": 63945}, {"loss": 0.021315036714076994, "token_acc": 0.9884734326679786, "grad_norm": 1.0592962503433228, "learning_rate": 1.5509772625897367e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231701, "epoch": 4.874609345224483, "step": 63950}, {"loss": 0.03387020826339722, "token_acc": 0.988271741535738, "grad_norm": 1.991119623184204, "learning_rate": 1.541567998797011e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231704, "epoch": 4.874990471834743, "step": 63955}, {"loss": 0.020071226358413696, "token_acc": 0.9939925312550739, "grad_norm": 1.090657114982605, "learning_rate": 1.53218731928223e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231707, "epoch": 4.875371598445003, "step": 63960}, {"loss": 0.016641002893447877, "token_acc": 0.9953314659197012, "grad_norm": 0.5233426690101624, "learning_rate": 1.5228352245832966e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231712, "epoch": 4.875752725055263, "step": 63965}, {"loss": 0.030105790495872496, "token_acc": 0.990158026060438, "grad_norm": 1.0501010417938232, "learning_rate": 1.5135117152365597e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231714, "epoch": 4.876133851665523, "step": 63970}, {"loss": 0.026026269793510436, "token_acc": 0.9900184842883549, "grad_norm": 0.983324408531189, "learning_rate": 1.5042167917767024e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231718, "epoch": 4.876514978275783, "step": 63975}, {"loss": 0.0293489009141922, "token_acc": 0.9877316293929712, "grad_norm": 0.7305537462234497, "learning_rate": 1.4949504547366877e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23172, "epoch": 4.876896104886043, "step": 63980}, {"loss": 0.028020796179771424, "token_acc": 0.9890199934447722, "grad_norm": 1.25846529006958, "learning_rate": 1.4857127046479235e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231723, "epoch": 4.877277231496303, "step": 63985}, {"loss": 0.04660446047782898, "token_acc": 0.9765942202053977, "grad_norm": 1.5212522745132446, "learning_rate": 1.4765035420400975e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231727, "epoch": 4.877658358106563, "step": 63990}, {"loss": 0.028292939066886902, "token_acc": 0.9902446345490019, "grad_norm": 1.873464584350586, "learning_rate": 1.4673229674414535e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231729, "epoch": 4.8780394847168225, "step": 63995}, {"loss": 0.05091788172721863, "token_acc": 0.9844656559985027, "grad_norm": 2.4227077960968018, "learning_rate": 1.4581709813782928e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23173, "epoch": 4.8784206113270825, "step": 64000}, {"eval_loss": 0.046654511243104935, "eval_token_acc": 0.981123125112945, "eval_runtime": 220.0789, "eval_samples_per_second": 2.408, "eval_steps_per_second": 2.408, "epoch": 4.8784206113270825, "step": 64000}, {"loss": 0.02137819230556488, "token_acc": 0.9813413945161455, "grad_norm": 1.1746586561203003, "learning_rate": 1.449047584375529e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231549, "epoch": 4.8788017379373425, "step": 64005}, {"loss": 0.03729550242424011, "token_acc": 0.9873509215757138, "grad_norm": 1.5716578960418701, "learning_rate": 1.4399527769562992e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231554, "epoch": 4.8791828645476025, "step": 64010}, {"loss": 0.014447665214538575, "token_acc": 0.9925394548063128, "grad_norm": 1.1390552520751953, "learning_rate": 1.4308865596422415e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231559, "epoch": 4.8795639911578625, "step": 64015}, {"loss": 0.02098757177591324, "token_acc": 0.9908975059166212, "grad_norm": 1.4348002672195435, "learning_rate": 1.421848932953107e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231562, "epoch": 4.879945117768123, "step": 64020}, {"loss": 0.027804243564605712, "token_acc": 0.9892968878643175, "grad_norm": 0.9525677561759949, "learning_rate": 1.4128398974073142e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231567, "epoch": 4.880326244378383, "step": 64025}, {"loss": 0.04998818933963776, "token_acc": 0.9844184752365053, "grad_norm": 1.3490206003189087, "learning_rate": 1.40385945352145e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231571, "epoch": 4.880707370988643, "step": 64030}, {"loss": 0.027815648913383485, "token_acc": 0.986819199204178, "grad_norm": 1.3587148189544678, "learning_rate": 1.3949076018104357e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231575, "epoch": 4.881088497598903, "step": 64035}, {"loss": 0.03404979705810547, "token_acc": 0.9852117409814026, "grad_norm": 1.980865478515625, "learning_rate": 1.3859843427876386e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231578, "epoch": 4.881469624209163, "step": 64040}, {"loss": 0.03142691850662231, "token_acc": 0.9781239642028505, "grad_norm": 1.8850866556167603, "learning_rate": 1.3770896769648157e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231583, "epoch": 4.881850750819423, "step": 64045}, {"loss": 0.036781692504882814, "token_acc": 0.9881456392887383, "grad_norm": 0.5378733277320862, "learning_rate": 1.3682236048520037e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231586, "epoch": 4.882231877429682, "step": 64050}, {"loss": 0.0701400876045227, "token_acc": 0.978195164075993, "grad_norm": 3.7554686069488525, "learning_rate": 1.3593861269576846e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23159, "epoch": 4.882613004039942, "step": 64055}, {"loss": 0.02781137526035309, "token_acc": 0.9899250839576337, "grad_norm": 0.7262171506881714, "learning_rate": 1.3505772437885089e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231591, "epoch": 4.882994130650202, "step": 64060}, {"loss": 0.017824490368366242, "token_acc": 0.9938309685379395, "grad_norm": 0.8623680472373962, "learning_rate": 1.341796955849739e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231596, "epoch": 4.883375257260462, "step": 64065}, {"loss": 0.019313928484916688, "token_acc": 0.9929055143502096, "grad_norm": 1.250404715538025, "learning_rate": 1.333045263644861e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231601, "epoch": 4.883756383870722, "step": 64070}, {"loss": 0.03352259397506714, "token_acc": 0.9844077961019491, "grad_norm": 2.2878899574279785, "learning_rate": 1.324322167675751e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231607, "epoch": 4.884137510480982, "step": 64075}, {"loss": 0.03370629847049713, "token_acc": 0.9908079342041606, "grad_norm": 3.9819135665893555, "learning_rate": 1.315627668442676e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231612, "epoch": 4.884518637091242, "step": 64080}, {"loss": 0.02924657166004181, "token_acc": 0.9854431545973834, "grad_norm": 0.6362810730934143, "learning_rate": 1.3069617664440702e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231615, "epoch": 4.884899763701502, "step": 64085}, {"loss": 0.023427146673202514, "token_acc": 0.9906893464637422, "grad_norm": 0.7824097275733948, "learning_rate": 1.2983244621770364e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231617, "epoch": 4.885280890311762, "step": 64090}, {"loss": 0.028702008724212646, "token_acc": 0.9882990867579908, "grad_norm": 0.36623910069465637, "learning_rate": 1.2897157561369e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231622, "epoch": 4.885662016922021, "step": 64095}, {"loss": 0.031884977221488954, "token_acc": 0.990593204069879, "grad_norm": 0.550358772277832, "learning_rate": 1.2811356488171554e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231626, "epoch": 4.886043143532281, "step": 64100}, {"loss": 0.030427432060241698, "token_acc": 0.988527724665392, "grad_norm": 0.4522779583930969, "learning_rate": 1.2725841407100204e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231627, "epoch": 4.886424270142541, "step": 64105}, {"loss": 0.029360902309417725, "token_acc": 0.987662132236634, "grad_norm": 2.0121238231658936, "learning_rate": 1.2640612323057687e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231629, "epoch": 4.886805396752801, "step": 64110}, {"loss": 0.037063497304916385, "token_acc": 0.9879821129122415, "grad_norm": 1.2736997604370117, "learning_rate": 1.2555669240932323e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231634, "epoch": 4.887186523363061, "step": 64115}, {"loss": 0.05292032361030578, "token_acc": 0.9769998308811094, "grad_norm": 1.0322515964508057, "learning_rate": 1.24710121655941e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231637, "epoch": 4.887567649973321, "step": 64120}, {"loss": 0.015937414765357972, "token_acc": 0.9942320017090366, "grad_norm": 0.5778435468673706, "learning_rate": 1.2386641101899131e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231641, "epoch": 4.887948776583581, "step": 64125}, {"loss": 0.02904028594493866, "token_acc": 0.9883081155433288, "grad_norm": 0.7822463512420654, "learning_rate": 1.230255605468411e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231647, "epoch": 4.888329903193841, "step": 64130}, {"loss": 0.046209341287612914, "token_acc": 0.9815151515151516, "grad_norm": 0.7912140488624573, "learning_rate": 1.2218757028772397e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231652, "epoch": 4.888711029804101, "step": 64135}, {"loss": 0.028918224573135375, "token_acc": 0.9932421295533213, "grad_norm": 1.3622865676879883, "learning_rate": 1.2135244028968484e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231654, "epoch": 4.889092156414361, "step": 64140}, {"loss": 0.027198830246925355, "token_acc": 0.9906880496637351, "grad_norm": 1.586916446685791, "learning_rate": 1.205201706006187e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23166, "epoch": 4.889473283024621, "step": 64145}, {"loss": 0.023404639959335328, "token_acc": 0.9906803355079217, "grad_norm": 1.4979556798934937, "learning_rate": 1.1969076126825408e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231665, "epoch": 4.88985440963488, "step": 64150}, {"loss": 0.048777458071708676, "token_acc": 0.9837764758900406, "grad_norm": 0.9755077362060547, "learning_rate": 1.1886421234015288e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231667, "epoch": 4.89023553624514, "step": 64155}, {"loss": 0.03770902752876282, "token_acc": 0.9889870836165874, "grad_norm": 0.45193055272102356, "learning_rate": 1.1804052386370501e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231667, "epoch": 4.8906166628554, "step": 64160}, {"loss": 0.04038097858428955, "token_acc": 0.9866787085120795, "grad_norm": 1.710532307624817, "learning_rate": 1.1721969588616155e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231672, "epoch": 4.89099778946566, "step": 64165}, {"loss": 0.020853692293167116, "token_acc": 0.9876025842500437, "grad_norm": 0.7619187831878662, "learning_rate": 1.1640172845457931e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231674, "epoch": 4.8913789160759205, "step": 64170}, {"loss": 0.02986462414264679, "token_acc": 0.9892274027941425, "grad_norm": 0.8132439255714417, "learning_rate": 1.155866216158652e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231677, "epoch": 4.8917600426861805, "step": 64175}, {"loss": 0.02019456624984741, "token_acc": 0.9906713005304555, "grad_norm": 0.937916100025177, "learning_rate": 1.1477437541677626e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23168, "epoch": 4.8921411692964405, "step": 64180}, {"loss": 0.024926219880580903, "token_acc": 0.9926836406204272, "grad_norm": 0.5252156257629395, "learning_rate": 1.1396498990387528e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231684, "epoch": 4.8925222959067005, "step": 64185}, {"loss": 0.05386235117912293, "token_acc": 0.9854432450114491, "grad_norm": 1.0079171657562256, "learning_rate": 1.1315846512358063e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231687, "epoch": 4.8929034225169605, "step": 64190}, {"loss": 0.018352425098419188, "token_acc": 0.9905632984901278, "grad_norm": 0.5369539856910706, "learning_rate": 1.123548011221498e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231688, "epoch": 4.89328454912722, "step": 64195}, {"loss": 0.030277884006500243, "token_acc": 0.9835203366058906, "grad_norm": 1.6985254287719727, "learning_rate": 1.1155399794565701e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231694, "epoch": 4.89366567573748, "step": 64200}, {"eval_loss": 0.04665606468915939, "eval_token_acc": 0.9811607734473827, "eval_runtime": 221.393, "eval_samples_per_second": 2.394, "eval_steps_per_second": 2.394, "epoch": 4.89366567573748, "step": 64200}, {"loss": 0.01863901913166046, "token_acc": 0.9815808556925308, "grad_norm": 0.8977580666542053, "learning_rate": 1.1075605564003777e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231512, "epoch": 4.89404680234774, "step": 64205}, {"loss": 0.016907230019569397, "token_acc": 0.9926997431391105, "grad_norm": 0.6453624367713928, "learning_rate": 1.0996097425104435e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231513, "epoch": 4.894427928958, "step": 64210}, {"loss": 0.012651169300079345, "token_acc": 0.996234309623431, "grad_norm": 0.5604943037033081, "learning_rate": 1.0916875382426806e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23152, "epoch": 4.89480905556826, "step": 64215}, {"loss": 0.022519244253635405, "token_acc": 0.9883040935672515, "grad_norm": 0.854701817035675, "learning_rate": 1.0837939440514477e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231523, "epoch": 4.89519018217852, "step": 64220}, {"loss": 0.021795514225959777, "token_acc": 0.9924337957124842, "grad_norm": 0.42718201875686646, "learning_rate": 1.075928960389383e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231528, "epoch": 4.89557130878878, "step": 64225}, {"loss": 0.03028526306152344, "token_acc": 0.9885304659498207, "grad_norm": 1.2956572771072388, "learning_rate": 1.0680925877074587e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231532, "epoch": 4.89595243539904, "step": 64230}, {"loss": 0.02601749002933502, "token_acc": 0.9897054165346848, "grad_norm": 1.3366303443908691, "learning_rate": 1.060284826455149e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231533, "epoch": 4.8963335620093, "step": 64235}, {"loss": 0.01694463938474655, "token_acc": 0.99092513234182, "grad_norm": 1.0870394706726074, "learning_rate": 1.0525056770800956e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231538, "epoch": 4.896714688619559, "step": 64240}, {"loss": 0.03651675283908844, "token_acc": 0.9880232941435008, "grad_norm": 1.3748048543930054, "learning_rate": 1.0447551400284972e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231538, "epoch": 4.897095815229819, "step": 64245}, {"loss": 0.0320104718208313, "token_acc": 0.9874323279195669, "grad_norm": 1.2045592069625854, "learning_rate": 1.0370332157447205e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231542, "epoch": 4.897476941840079, "step": 64250}, {"loss": 0.03226054608821869, "token_acc": 0.9916016796640672, "grad_norm": 1.7498600482940674, "learning_rate": 1.0293399046716334e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231547, "epoch": 4.897858068450339, "step": 64255}, {"loss": 0.022823716700077056, "token_acc": 0.9893446989877464, "grad_norm": 1.103106141090393, "learning_rate": 1.0216752072503832e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231549, "epoch": 4.898239195060599, "step": 64260}, {"loss": 0.030225256085395814, "token_acc": 0.9831836734693877, "grad_norm": 0.8260906934738159, "learning_rate": 1.0140391239205072e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231553, "epoch": 4.898620321670859, "step": 64265}, {"loss": 0.0339770644903183, "token_acc": 0.9863768115942029, "grad_norm": 1.2039344310760498, "learning_rate": 1.0064316551199326e-07, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231557, "epoch": 4.899001448281119, "step": 64270}, {"loss": 0.013434669375419617, "token_acc": 0.9956188389923329, "grad_norm": 0.9829592108726501, "learning_rate": 9.988528012848663e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231563, "epoch": 4.899382574891379, "step": 64275}, {"loss": 0.017526018619537353, "token_acc": 0.9908918406072106, "grad_norm": 0.730282187461853, "learning_rate": 9.913025628499606e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231566, "epoch": 4.899763701501639, "step": 64280}, {"loss": 0.02817840874195099, "token_acc": 0.9904212045663299, "grad_norm": 1.8883883953094482, "learning_rate": 9.837809402481468e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231568, "epoch": 4.900144828111899, "step": 64285}, {"loss": 0.02192070484161377, "token_acc": 0.9926315789473684, "grad_norm": 0.5347760915756226, "learning_rate": 9.762879339108022e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231572, "epoch": 4.900525954722159, "step": 64290}, {"loss": 0.02078361064195633, "token_acc": 0.9915814792543596, "grad_norm": 0.6599332690238953, "learning_rate": 9.68823544267583e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231577, "epoch": 4.900907081332418, "step": 64295}, {"loss": 0.03194462060928345, "token_acc": 0.9926854754440961, "grad_norm": 2.0364482402801514, "learning_rate": 9.613877717465358e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231581, "epoch": 4.901288207942678, "step": 64300}, {"loss": 0.04009949564933777, "token_acc": 0.9784727863525589, "grad_norm": 0.9433983564376831, "learning_rate": 9.539806167740972e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231586, "epoch": 4.901669334552938, "step": 64305}, {"loss": 0.03706354796886444, "token_acc": 0.9863945578231292, "grad_norm": 0.8805011510848999, "learning_rate": 9.466020797750385e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231589, "epoch": 4.902050461163198, "step": 64310}, {"loss": 0.03462998270988464, "token_acc": 0.984786557674841, "grad_norm": 2.1648404598236084, "learning_rate": 9.392521611724104e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231594, "epoch": 4.902431587773458, "step": 64315}, {"loss": 0.03989481329917908, "token_acc": 0.9846912298910223, "grad_norm": 1.214913249015808, "learning_rate": 9.319308613877642e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231598, "epoch": 4.902812714383718, "step": 64320}, {"loss": 0.02207944691181183, "token_acc": 0.9917864476386037, "grad_norm": 0.8736729025840759, "learning_rate": 9.24638180840931e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231603, "epoch": 4.903193840993978, "step": 64325}, {"loss": 0.023525960743427277, "token_acc": 0.9901780233271946, "grad_norm": 2.5189058780670166, "learning_rate": 9.173741199500762e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231607, "epoch": 4.903574967604238, "step": 64330}, {"loss": 0.02384883165359497, "token_acc": 0.990771259063942, "grad_norm": 0.8430429100990295, "learning_rate": 9.101386791318112e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23161, "epoch": 4.903956094214498, "step": 64335}, {"loss": 0.018063436448574065, "token_acc": 0.9880704412043174, "grad_norm": 0.0005045531434006989, "learning_rate": 9.02931858801026e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231612, "epoch": 4.9043372208247575, "step": 64340}, {"loss": 0.015913563966751098, "token_acc": 0.9942928482254325, "grad_norm": 0.790397584438324, "learning_rate": 8.957536593710014e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231616, "epoch": 4.9047183474350176, "step": 64345}, {"loss": 0.041238969564437865, "token_acc": 0.9841193455245428, "grad_norm": 2.102175235748291, "learning_rate": 8.88604081253408e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231622, "epoch": 4.905099474045278, "step": 64350}, {"loss": 0.022477823495864867, "token_acc": 0.9927383462169126, "grad_norm": 0.6328693628311157, "learning_rate": 8.814831248581957e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231626, "epoch": 4.905480600655538, "step": 64355}, {"loss": 0.03008895218372345, "token_acc": 0.9834387232761217, "grad_norm": 1.40575110912323, "learning_rate": 8.743907905937598e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231631, "epoch": 4.905861727265798, "step": 64360}, {"loss": 0.02452968955039978, "token_acc": 0.9894179894179894, "grad_norm": 1.0178332328796387, "learning_rate": 8.673270788667198e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231634, "epoch": 4.906242853876058, "step": 64365}, {"loss": 0.04501459896564484, "token_acc": 0.981675392670157, "grad_norm": 1.0000109672546387, "learning_rate": 8.602919900822514e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231639, "epoch": 4.906623980486318, "step": 64370}, {"loss": 0.05304419994354248, "token_acc": 0.9853707995365005, "grad_norm": 2.4417669773101807, "learning_rate": 8.532855246437544e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231641, "epoch": 4.907005107096578, "step": 64375}, {"loss": 0.041284358501434325, "token_acc": 0.9865947359816903, "grad_norm": 0.601804256439209, "learning_rate": 8.463076829530182e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231644, "epoch": 4.907386233706838, "step": 64380}, {"loss": 0.041166120767593385, "token_acc": 0.9800664451827242, "grad_norm": 1.2536370754241943, "learning_rate": 8.393584654101671e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231649, "epoch": 4.907767360317098, "step": 64385}, {"loss": 0.04201065003871918, "token_acc": 0.9821586292174528, "grad_norm": 1.2991529703140259, "learning_rate": 8.32437872413716e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231652, "epoch": 4.908148486927358, "step": 64390}, {"loss": 0.03325926661491394, "token_acc": 0.9835345773874863, "grad_norm": 1.560674786567688, "learning_rate": 8.25545904360514e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231657, "epoch": 4.908529613537617, "step": 64395}, {"loss": 0.02837896943092346, "token_acc": 0.9854651162790697, "grad_norm": 0.6735882759094238, "learning_rate": 8.186825616458005e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231661, "epoch": 4.908910740147877, "step": 64400}, {"eval_loss": 0.046845316886901855, "eval_token_acc": 0.9809875911089694, "eval_runtime": 221.7702, "eval_samples_per_second": 2.39, "eval_steps_per_second": 2.39, "epoch": 4.908910740147877, "step": 64400}, {"loss": 0.04875497221946716, "token_acc": 0.9811974949255629, "grad_norm": 0.7552636861801147, "learning_rate": 8.11847844663205e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231479, "epoch": 4.909291866758137, "step": 64405}, {"loss": 0.02993651032447815, "token_acc": 0.9866975130133024, "grad_norm": 1.599703073501587, "learning_rate": 8.050417538045807e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231483, "epoch": 4.909672993368397, "step": 64410}, {"loss": 0.04323030412197113, "token_acc": 0.9823442864149092, "grad_norm": 0.823034942150116, "learning_rate": 7.982642894602821e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231487, "epoch": 4.910054119978657, "step": 64415}, {"loss": 0.03099621832370758, "token_acc": 0.9874055415617129, "grad_norm": 1.6516269445419312, "learning_rate": 7.915154520189427e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231491, "epoch": 4.910435246588917, "step": 64420}, {"loss": 0.04162880778312683, "token_acc": 0.9785860956292168, "grad_norm": 1.363691806793213, "learning_rate": 7.847952418675863e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231496, "epoch": 4.910816373199177, "step": 64425}, {"loss": 0.041896003484725955, "token_acc": 0.9912798874824191, "grad_norm": 0.5435741543769836, "learning_rate": 7.781036593915713e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231501, "epoch": 4.911197499809437, "step": 64430}, {"loss": 0.025584176182746887, "token_acc": 0.9910109431995832, "grad_norm": 0.3774520456790924, "learning_rate": 7.714407049746464e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231502, "epoch": 4.911578626419697, "step": 64435}, {"loss": 0.02326509952545166, "token_acc": 0.989755529685681, "grad_norm": 1.443864107131958, "learning_rate": 7.648063789988391e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231505, "epoch": 4.911959753029956, "step": 64440}, {"loss": 0.04066857099533081, "token_acc": 0.9800918836140888, "grad_norm": 1.39468252658844, "learning_rate": 7.582006818447341e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231508, "epoch": 4.912340879640216, "step": 64445}, {"loss": 0.0232534259557724, "token_acc": 0.9912810194500336, "grad_norm": 1.185280680656433, "learning_rate": 7.516236138910282e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231512, "epoch": 4.912722006250476, "step": 64450}, {"loss": 0.030050212144851686, "token_acc": 0.9882168106834249, "grad_norm": 1.2230703830718994, "learning_rate": 7.450751755148644e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231515, "epoch": 4.913103132860736, "step": 64455}, {"loss": 0.03916605114936829, "token_acc": 0.9832084374132667, "grad_norm": 2.9290802478790283, "learning_rate": 7.385553670918865e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231518, "epoch": 4.913484259470996, "step": 64460}, {"loss": 0.041625994443893435, "token_acc": 0.9871713985278654, "grad_norm": 1.8706047534942627, "learning_rate": 7.320641889958513e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231519, "epoch": 4.913865386081256, "step": 64465}, {"loss": 0.05081263780593872, "token_acc": 0.9825370675453048, "grad_norm": 0.974461019039154, "learning_rate": 7.256016415990719e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231522, "epoch": 4.914246512691516, "step": 64470}, {"loss": 0.03673213422298431, "token_acc": 0.9814229983280699, "grad_norm": 0.11970564723014832, "learning_rate": 7.191677252721407e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231524, "epoch": 4.914627639301776, "step": 64475}, {"loss": 0.030864232778549196, "token_acc": 0.9882878717830175, "grad_norm": 0.6540882587432861, "learning_rate": 7.127624403839295e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231528, "epoch": 4.915008765912036, "step": 64480}, {"loss": 0.037467995285987855, "token_acc": 0.9823588709677419, "grad_norm": 1.0574827194213867, "learning_rate": 7.063857873018665e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231534, "epoch": 4.915389892522295, "step": 64485}, {"loss": 0.03385821878910065, "token_acc": 0.9856887298747764, "grad_norm": 0.7093335390090942, "learning_rate": 7.000377663916036e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231537, "epoch": 4.915771019132556, "step": 64490}, {"loss": 0.030837732553482055, "token_acc": 0.9893721386527142, "grad_norm": 1.1035047769546509, "learning_rate": 6.93718378017072e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231541, "epoch": 4.9161521457428154, "step": 64495}, {"loss": 0.03197336494922638, "token_acc": 0.9867167196072769, "grad_norm": 1.9608557224273682, "learning_rate": 6.874276225407594e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231545, "epoch": 4.9165332723530755, "step": 64500}, {"loss": 0.03345221281051636, "token_acc": 0.9884165411791961, "grad_norm": 0.34979119896888733, "learning_rate": 6.811655003233774e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231546, "epoch": 4.9169143989633355, "step": 64505}, {"loss": 0.022626328468322753, "token_acc": 0.9902589079723148, "grad_norm": 1.3707996606826782, "learning_rate": 6.749320117240277e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231551, "epoch": 4.9172955255735955, "step": 64510}, {"loss": 0.05901910066604614, "token_acc": 0.9828571428571429, "grad_norm": 0.8020222187042236, "learning_rate": 6.687271571002018e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231556, "epoch": 4.9176766521838555, "step": 64515}, {"loss": 0.055349808931350705, "token_acc": 0.9905298759864712, "grad_norm": 0.5597627758979797, "learning_rate": 6.62550936807671e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23156, "epoch": 4.9180577787941155, "step": 64520}, {"loss": 0.04920347332954407, "token_acc": 0.9817826935588809, "grad_norm": 3.046227216720581, "learning_rate": 6.564033512006518e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231565, "epoch": 4.918438905404376, "step": 64525}, {"loss": 0.020717234909534456, "token_acc": 0.9928789420142421, "grad_norm": 1.1145527362823486, "learning_rate": 6.5028440063164e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23157, "epoch": 4.918820032014636, "step": 64530}, {"loss": 0.02747705578804016, "token_acc": 0.9917428487171925, "grad_norm": 0.6510210633277893, "learning_rate": 6.441940854515217e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231572, "epoch": 4.919201158624896, "step": 64535}, {"loss": 0.028990226984024047, "token_acc": 0.987933047878552, "grad_norm": 0.9933061599731445, "learning_rate": 6.381324060096284e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231578, "epoch": 4.919582285235155, "step": 64540}, {"loss": 0.024772673845291138, "token_acc": 0.9896313364055299, "grad_norm": 0.9668512344360352, "learning_rate": 6.320993626535155e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231583, "epoch": 4.919963411845415, "step": 64545}, {"loss": 0.029283928871154784, "token_acc": 0.9892177357245021, "grad_norm": 0.42658889293670654, "learning_rate": 6.260949557291285e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231582, "epoch": 4.920344538455675, "step": 64550}, {"loss": 0.04231945276260376, "token_acc": 0.9818563789152025, "grad_norm": 0.5815668106079102, "learning_rate": 6.201191855808586e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231586, "epoch": 4.920725665065935, "step": 64555}, {"loss": 0.03468429148197174, "token_acc": 0.9862932061978545, "grad_norm": 0.7054473161697388, "learning_rate": 6.141720525513206e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23159, "epoch": 4.921106791676195, "step": 64560}, {"loss": 0.027456405758857726, "token_acc": 0.9886585149743045, "grad_norm": 0.7855212092399597, "learning_rate": 6.08253556981575e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231593, "epoch": 4.921487918286455, "step": 64565}, {"loss": 0.018627263605594635, "token_acc": 0.9903213317847465, "grad_norm": 0.9582118988037109, "learning_rate": 6.023636992110172e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231597, "epoch": 4.921869044896715, "step": 64570}, {"loss": 0.03103383779525757, "token_acc": 0.9894820400873189, "grad_norm": 0.5846145749092102, "learning_rate": 5.965024795774876e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231599, "epoch": 4.922250171506975, "step": 64575}, {"loss": 0.037701737880706784, "token_acc": 0.9843997286909337, "grad_norm": 2.1260106563568115, "learning_rate": 5.906698984169401e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231603, "epoch": 4.922631298117235, "step": 64580}, {"loss": 0.03209035396575928, "token_acc": 0.9846475924633635, "grad_norm": 0.9373419284820557, "learning_rate": 5.848659560639402e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231606, "epoch": 4.923012424727494, "step": 64585}, {"loss": 0.01878657639026642, "token_acc": 0.9924812030075187, "grad_norm": 1.3691716194152832, "learning_rate": 5.790906528513329e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231611, "epoch": 4.923393551337754, "step": 64590}, {"loss": 0.025621595978736877, "token_acc": 0.9883259397618491, "grad_norm": 0.8006615042686462, "learning_rate": 5.7334398911029764e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231614, "epoch": 4.923774677948014, "step": 64595}, {"loss": 0.024955277144908906, "token_acc": 0.9908485856905158, "grad_norm": 1.2499167919158936, "learning_rate": 5.676259651703486e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231619, "epoch": 4.924155804558274, "step": 64600}, {"eval_loss": 0.04685001075267792, "eval_token_acc": 0.9810553581109571, "eval_runtime": 221.9456, "eval_samples_per_second": 2.388, "eval_steps_per_second": 2.388, "epoch": 4.924155804558274, "step": 64600}, {"loss": 0.02209991216659546, "token_acc": 0.9813955848033744, "grad_norm": 0.3286164402961731, "learning_rate": 5.619365813593902e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231438, "epoch": 4.924536931168534, "step": 64605}, {"loss": 0.0258838415145874, "token_acc": 0.9905514847666795, "grad_norm": 0.8896494507789612, "learning_rate": 5.5627583800366146e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231442, "epoch": 4.924918057778794, "step": 64610}, {"loss": 0.023374438285827637, "token_acc": 0.9912296729398867, "grad_norm": 0.839924156665802, "learning_rate": 5.506437354279026e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231445, "epoch": 4.925299184389054, "step": 64615}, {"loss": 0.02859618067741394, "token_acc": 0.9913710450623202, "grad_norm": 1.0565558671951294, "learning_rate": 5.45040273954911e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231448, "epoch": 4.925680310999314, "step": 64620}, {"loss": 0.025259491801261903, "token_acc": 0.9910356666030898, "grad_norm": 0.9764311909675598, "learning_rate": 5.3946545390615163e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231452, "epoch": 4.926061437609574, "step": 64625}, {"loss": 0.016481542587280275, "token_acc": 0.9917231000752446, "grad_norm": 0.5672560930252075, "learning_rate": 5.339192756012579e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231456, "epoch": 4.926442564219834, "step": 64630}, {"loss": 0.032684749364852904, "token_acc": 0.9870953387473579, "grad_norm": 0.8351079821586609, "learning_rate": 5.28401739358253e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231455, "epoch": 4.926823690830094, "step": 64635}, {"loss": 0.01562105566263199, "token_acc": 0.9930216329378926, "grad_norm": 0.8930631279945374, "learning_rate": 5.229128454936061e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231462, "epoch": 4.927204817440353, "step": 64640}, {"loss": 0.022696293890476227, "token_acc": 0.9879539733908665, "grad_norm": 0.805168628692627, "learning_rate": 5.174525943220654e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231465, "epoch": 4.927585944050613, "step": 64645}, {"loss": 0.028155219554901124, "token_acc": 0.9904761904761905, "grad_norm": 1.4699281454086304, "learning_rate": 5.120209861567138e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231468, "epoch": 4.927967070660873, "step": 64650}, {"loss": 0.043795999884605405, "token_acc": 0.9836493303183163, "grad_norm": 1.7721388339996338, "learning_rate": 5.0661802130907986e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231472, "epoch": 4.928348197271133, "step": 64655}, {"loss": 0.028987228870391846, "token_acc": 0.9877464038359084, "grad_norm": 1.917946457862854, "learning_rate": 5.012437000889714e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231477, "epoch": 4.928729323881393, "step": 64660}, {"loss": 0.04030443131923676, "token_acc": 0.9865301724137931, "grad_norm": 0.7101659774780273, "learning_rate": 4.958980228045307e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231481, "epoch": 4.929110450491653, "step": 64665}, {"loss": 0.03716340363025665, "token_acc": 0.9859951175639213, "grad_norm": 0.8892742991447449, "learning_rate": 4.905809897624014e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231483, "epoch": 4.929491577101913, "step": 64670}, {"loss": 0.02908652424812317, "token_acc": 0.9907012785741961, "grad_norm": 2.0488574504852295, "learning_rate": 4.852926012673953e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231486, "epoch": 4.9298727037121735, "step": 64675}, {"loss": 0.04813655912876129, "token_acc": 0.9808150119030948, "grad_norm": 1.6748040914535522, "learning_rate": 4.800328576228807e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231488, "epoch": 4.9302538303224335, "step": 64680}, {"loss": 0.02259388267993927, "token_acc": 0.9938238453276047, "grad_norm": 1.5027719736099243, "learning_rate": 4.748017591303944e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231493, "epoch": 4.930634956932693, "step": 64685}, {"loss": 0.020912915468215942, "token_acc": 0.992108229988726, "grad_norm": 1.0981311798095703, "learning_rate": 4.6959930608997395e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231495, "epoch": 4.931016083542953, "step": 64690}, {"loss": 0.021035978198051454, "token_acc": 0.9933804060017652, "grad_norm": 2.204334259033203, "learning_rate": 4.644254987999363e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2315, "epoch": 4.931397210153213, "step": 64695}, {"loss": 0.016952426731586458, "token_acc": 0.9929185634800203, "grad_norm": 0.48203086853027344, "learning_rate": 4.592803375569332e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231506, "epoch": 4.931778336763473, "step": 64700}, {"loss": 0.020977646112442017, "token_acc": 0.9911569638909359, "grad_norm": 1.0587024688720703, "learning_rate": 4.541638226560618e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231512, "epoch": 4.932159463373733, "step": 64705}, {"loss": 0.038837355375289914, "token_acc": 0.9857560262965669, "grad_norm": 2.013866424560547, "learning_rate": 4.490759543906986e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231515, "epoch": 4.932540589983993, "step": 64710}, {"loss": 0.035406842827796936, "token_acc": 0.9897182025894897, "grad_norm": 3.0383195877075195, "learning_rate": 4.4401673305266566e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231521, "epoch": 4.932921716594253, "step": 64715}, {"loss": 0.020345111191272736, "token_acc": 0.9908883826879271, "grad_norm": 0.41020554304122925, "learning_rate": 4.389861589320643e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231524, "epoch": 4.933302843204513, "step": 64720}, {"loss": 0.031781095266342166, "token_acc": 0.9875915682463746, "grad_norm": 1.6570876836776733, "learning_rate": 4.339842323173304e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231527, "epoch": 4.933683969814773, "step": 64725}, {"loss": 0.037928760051727295, "token_acc": 0.9834376150165623, "grad_norm": 0.6656976938247681, "learning_rate": 4.290109534952902e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231532, "epoch": 4.934065096425033, "step": 64730}, {"loss": 0.06975325345993041, "token_acc": 0.9796355841371919, "grad_norm": 1.591727375984192, "learning_rate": 4.240663227512154e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231537, "epoch": 4.934446223035293, "step": 64735}, {"loss": 0.0288266122341156, "token_acc": 0.9881899871630295, "grad_norm": 2.1580207347869873, "learning_rate": 4.19150340368657e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231541, "epoch": 4.934827349645552, "step": 64740}, {"loss": 0.03715924024581909, "token_acc": 0.989095694679451, "grad_norm": 1.2183821201324463, "learning_rate": 4.1426300662944504e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231545, "epoch": 4.935208476255812, "step": 64745}, {"loss": 0.0403788685798645, "token_acc": 0.9912137975919297, "grad_norm": 0.6309221386909485, "learning_rate": 4.09404321813911e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23155, "epoch": 4.935589602866072, "step": 64750}, {"loss": 0.02808076739311218, "token_acc": 0.9914043442908584, "grad_norm": 0.679709255695343, "learning_rate": 4.045742862006652e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231552, "epoch": 4.935970729476332, "step": 64755}, {"loss": 0.030645695328712464, "token_acc": 0.9867603350445825, "grad_norm": 2.4173686504364014, "learning_rate": 3.997729000666528e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231557, "epoch": 4.936351856086592, "step": 64760}, {"loss": 0.022415249049663542, "token_acc": 0.9924707194645845, "grad_norm": 0.5623695850372314, "learning_rate": 3.9500016368720914e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231562, "epoch": 4.936732982696852, "step": 64765}, {"loss": 0.025396701693534852, "token_acc": 0.9913955364345254, "grad_norm": 2.1018929481506348, "learning_rate": 3.902560773361152e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231566, "epoch": 4.937114109307112, "step": 64770}, {"loss": 0.021274706721305846, "token_acc": 0.9858757062146892, "grad_norm": 0.9693512320518494, "learning_rate": 3.855406412853202e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23157, "epoch": 4.937495235917372, "step": 64775}, {"loss": 0.02112864553928375, "token_acc": 0.9914114406093015, "grad_norm": 1.0732938051223755, "learning_rate": 3.808538558053298e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231574, "epoch": 4.937876362527632, "step": 64780}, {"loss": 0.03221611678600311, "token_acc": 0.9887034659820283, "grad_norm": 1.4696190357208252, "learning_rate": 3.761957211648182e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231577, "epoch": 4.938257489137891, "step": 64785}, {"loss": 0.020142216980457307, "token_acc": 0.9911591355599214, "grad_norm": 0.8049118518829346, "learning_rate": 3.715662376309048e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231582, "epoch": 4.938638615748151, "step": 64790}, {"loss": 0.03407995700836182, "token_acc": 0.9884437596302003, "grad_norm": 3.7555630207061768, "learning_rate": 3.6696540546915516e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231588, "epoch": 4.939019742358411, "step": 64795}, {"loss": 0.011773510277271271, "token_acc": 0.9982964224872232, "grad_norm": 0.3630980849266052, "learning_rate": 3.6239322494335814e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231595, "epoch": 4.939400868968671, "step": 64800}, {"eval_loss": 0.04665433615446091, "eval_token_acc": 0.9809875911089694, "eval_runtime": 222.2225, "eval_samples_per_second": 2.385, "eval_steps_per_second": 2.385, "epoch": 4.939400868968671, "step": 64800}, {"loss": 0.02866886556148529, "token_acc": 0.9811070110701107, "grad_norm": 0.9517976641654968, "learning_rate": 3.57849696315693e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231417, "epoch": 4.939781995578931, "step": 64805}, {"loss": 0.024470609426498414, "token_acc": 0.99161820047896, "grad_norm": 1.2492786645889282, "learning_rate": 3.5333481984672903e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231421, "epoch": 4.940163122189191, "step": 64810}, {"loss": 0.033518800139427186, "token_acc": 0.984418901660281, "grad_norm": 1.572933316230774, "learning_rate": 3.488485957954257e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231425, "epoch": 4.940544248799451, "step": 64815}, {"loss": 0.014935889840126037, "token_acc": 0.9959090909090909, "grad_norm": 1.3725875616073608, "learning_rate": 3.443910244189108e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231431, "epoch": 4.940925375409711, "step": 64820}, {"loss": 0.01631130576133728, "token_acc": 0.9905783826223502, "grad_norm": 0.8445883393287659, "learning_rate": 3.399621059729241e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231436, "epoch": 4.941306502019971, "step": 64825}, {"loss": 0.04226732850074768, "token_acc": 0.9836410376256135, "grad_norm": 2.0795211791992188, "learning_rate": 3.3556184071137366e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23144, "epoch": 4.9416876286302305, "step": 64830}, {"loss": 0.01906786412000656, "token_acc": 0.9903737259343148, "grad_norm": 0.590971827507019, "learning_rate": 3.311902288866686e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231443, "epoch": 4.942068755240491, "step": 64835}, {"loss": 0.03901462554931641, "token_acc": 0.9854525862068966, "grad_norm": 0.5386515259742737, "learning_rate": 3.2684727074944185e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231447, "epoch": 4.9424498818507505, "step": 64840}, {"loss": 0.033474120497703555, "token_acc": 0.9863322530646752, "grad_norm": 0.55223548412323, "learning_rate": 3.2253296654871644e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231449, "epoch": 4.9428310084610105, "step": 64845}, {"loss": 0.05130731463432312, "token_acc": 0.9844879518072289, "grad_norm": 1.6952707767486572, "learning_rate": 3.182473165319611e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231452, "epoch": 4.9432121350712706, "step": 64850}, {"loss": 0.02917306125164032, "token_acc": 0.9859193815571508, "grad_norm": 1.3078672885894775, "learning_rate": 3.1399032094497906e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231456, "epoch": 4.943593261681531, "step": 64855}, {"loss": 0.04606362581253052, "token_acc": 0.980106100795756, "grad_norm": 1.4002556800842285, "learning_rate": 3.097619800317419e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23146, "epoch": 4.943974388291791, "step": 64860}, {"loss": 0.028604754805564882, "token_acc": 0.9887671232876712, "grad_norm": 1.5704371929168701, "learning_rate": 3.0556229403483346e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231464, "epoch": 4.944355514902051, "step": 64865}, {"loss": 0.01679226607084274, "token_acc": 0.9935779816513761, "grad_norm": 0.5281844735145569, "learning_rate": 3.0139126319506105e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231468, "epoch": 4.944736641512311, "step": 64870}, {"loss": 0.040416795015335086, "token_acc": 0.9846712384025816, "grad_norm": 2.8246917724609375, "learning_rate": 2.972488877516222e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231471, "epoch": 4.945117768122571, "step": 64875}, {"loss": 0.031017646193504333, "token_acc": 0.9885310472659871, "grad_norm": 0.8814321160316467, "learning_rate": 2.9313516794210462e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23147, "epoch": 4.945498894732831, "step": 64880}, {"loss": 0.018955858051776887, "token_acc": 0.9941972920696325, "grad_norm": 0.8296684622764587, "learning_rate": 2.8905010400231968e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231474, "epoch": 4.94588002134309, "step": 64885}, {"loss": 0.022743219137191774, "token_acc": 0.9867639113992437, "grad_norm": 0.6999309062957764, "learning_rate": 2.849936961665245e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231478, "epoch": 4.94626114795335, "step": 64890}, {"loss": 0.025053304433822633, "token_acc": 0.9897172236503856, "grad_norm": 1.6255453824996948, "learning_rate": 2.8096594466742176e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23148, "epoch": 4.94664227456361, "step": 64895}, {"loss": 0.04155232608318329, "token_acc": 0.9843551797040169, "grad_norm": 0.8039292693138123, "learning_rate": 2.769668497359379e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231483, "epoch": 4.94702340117387, "step": 64900}, {"loss": 0.04283004403114319, "token_acc": 0.9823300389338125, "grad_norm": 1.4935150146484375, "learning_rate": 2.7299641160144497e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231484, "epoch": 4.94740452778413, "step": 64905}, {"loss": 0.024528226256370543, "token_acc": 0.9876209447922595, "grad_norm": 1.4070243835449219, "learning_rate": 2.6905463049153868e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231487, "epoch": 4.94778565439439, "step": 64910}, {"loss": 0.022143405675888062, "token_acc": 0.991169130351315, "grad_norm": 0.8641025424003601, "learning_rate": 2.6514150663231595e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231491, "epoch": 4.94816678100465, "step": 64915}, {"loss": 0.02473823130130768, "token_acc": 0.9905023744063984, "grad_norm": 0.7885650992393494, "learning_rate": 2.612570402482084e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231492, "epoch": 4.94854790761491, "step": 64920}, {"loss": 0.02357115298509598, "token_acc": 0.9921098772647574, "grad_norm": 2.652489185333252, "learning_rate": 2.5740123156192674e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231497, "epoch": 4.94892903422517, "step": 64925}, {"loss": 0.01811075508594513, "token_acc": 0.9930939226519337, "grad_norm": 0.2939680516719818, "learning_rate": 2.535740807945719e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231504, "epoch": 4.949310160835429, "step": 64930}, {"loss": 0.02518024146556854, "token_acc": 0.988150289017341, "grad_norm": 1.04830801486969, "learning_rate": 2.4977558816563496e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231507, "epoch": 4.949691287445689, "step": 64935}, {"loss": 0.02978017330169678, "token_acc": 0.9869620075704472, "grad_norm": 0.5464163422584534, "learning_rate": 2.4600575389299717e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231509, "epoch": 4.950072414055949, "step": 64940}, {"loss": 0.03299559354782104, "token_acc": 0.9867256637168141, "grad_norm": 1.059490442276001, "learning_rate": 2.422645781927635e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231515, "epoch": 4.950453540666209, "step": 64945}, {"loss": 0.0242973193526268, "token_acc": 0.9914586070959264, "grad_norm": 0.830332338809967, "learning_rate": 2.385520612794845e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23152, "epoch": 4.950834667276469, "step": 64950}, {"loss": 0.036338013410568235, "token_acc": 0.9873446847676024, "grad_norm": 1.2779712677001953, "learning_rate": 2.3486820336604543e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231524, "epoch": 4.951215793886729, "step": 64955}, {"loss": 0.027551275491714478, "token_acc": 0.9921414538310412, "grad_norm": 1.5079809427261353, "learning_rate": 2.3121300466377726e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231528, "epoch": 4.951596920496989, "step": 64960}, {"loss": 0.029328715801239014, "token_acc": 0.9875621890547264, "grad_norm": 2.7150604724884033, "learning_rate": 2.275864653821791e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231533, "epoch": 4.951978047107249, "step": 64965}, {"loss": 0.03708009421825409, "token_acc": 0.9863630165007501, "grad_norm": 0.8460292220115662, "learning_rate": 2.239885857293067e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231534, "epoch": 4.952359173717509, "step": 64970}, {"loss": 0.023693555593490602, "token_acc": 0.9927417891489748, "grad_norm": 1.4745982885360718, "learning_rate": 2.2041936591143952e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231537, "epoch": 4.952740300327769, "step": 64975}, {"loss": 0.013645447790622711, "token_acc": 0.9915130231196957, "grad_norm": 0.9538354277610779, "learning_rate": 2.168788061332472e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231542, "epoch": 4.953121426938029, "step": 64980}, {"loss": 0.02005358785390854, "token_acc": 0.9938235294117647, "grad_norm": 0.7509533166885376, "learning_rate": 2.1336690659778945e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231546, "epoch": 4.953502553548288, "step": 64985}, {"loss": 0.022592173516750337, "token_acc": 0.9896842763363551, "grad_norm": 0.809201180934906, "learning_rate": 2.098836675064053e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231549, "epoch": 4.953883680158548, "step": 64990}, {"loss": 0.050018310546875, "token_acc": 0.9858736059479554, "grad_norm": 0.9203253984451294, "learning_rate": 2.0642908905893487e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231553, "epoch": 4.954264806768808, "step": 64995}, {"loss": 0.030909261107444762, "token_acc": 0.9871515151515151, "grad_norm": 0.3139859139919281, "learning_rate": 2.0300317145344195e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231557, "epoch": 4.9546459333790684, "step": 65000}, {"eval_loss": 0.04671008139848709, "eval_token_acc": 0.9812134811155955, "eval_runtime": 221.4601, "eval_samples_per_second": 2.393, "eval_steps_per_second": 2.393, "epoch": 4.9546459333790684, "step": 65000}, {"loss": 0.0402255654335022, "token_acc": 0.9813472180811996, "grad_norm": 1.293513536453247, "learning_rate": 1.9960591488632497e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231378, "epoch": 4.9550270599893285, "step": 65005}, {"loss": 0.026728412508964537, "token_acc": 0.9876802884615384, "grad_norm": 0.9089357256889343, "learning_rate": 1.962373195524836e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23138, "epoch": 4.9554081865995885, "step": 65010}, {"loss": 0.03082018196582794, "token_acc": 0.983957219251337, "grad_norm": 1.9416024684906006, "learning_rate": 1.928973856450411e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231385, "epoch": 4.9557893132098485, "step": 65015}, {"loss": 0.043072617053985594, "token_acc": 0.9839765918907621, "grad_norm": 2.2913880348205566, "learning_rate": 1.8958611335556654e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231387, "epoch": 4.9561704398201085, "step": 65020}, {"loss": 0.02130861282348633, "token_acc": 0.9944488501189532, "grad_norm": 1.1580296754837036, "learning_rate": 1.8630350287390796e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231393, "epoch": 4.9565515664303685, "step": 65025}, {"loss": 0.028245702385902405, "token_acc": 0.9873118914133963, "grad_norm": 1.5668610334396362, "learning_rate": 1.8304955438830372e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231398, "epoch": 4.956932693040628, "step": 65030}, {"loss": 0.01952408254146576, "token_acc": 0.9920174165457184, "grad_norm": 0.9121356010437012, "learning_rate": 1.7982426808543785e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231404, "epoch": 4.957313819650888, "step": 65035}, {"loss": 0.03305492103099823, "token_acc": 0.9839606501283148, "grad_norm": 1.4825537204742432, "learning_rate": 1.766276441501624e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231407, "epoch": 4.957694946261148, "step": 65040}, {"loss": 0.029897454380989074, "token_acc": 0.9876018420120439, "grad_norm": 1.6918951272964478, "learning_rate": 1.734596827658308e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23141, "epoch": 4.958076072871408, "step": 65045}, {"loss": 0.02342854142189026, "token_acc": 0.9892274546014158, "grad_norm": 0.3942674994468689, "learning_rate": 1.7032038411407547e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231415, "epoch": 4.958457199481668, "step": 65050}, {"loss": 0.030343794822692872, "token_acc": 0.9930218446601942, "grad_norm": 1.3899760246276855, "learning_rate": 1.672097483749746e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231421, "epoch": 4.958838326091928, "step": 65055}, {"loss": 0.030113857984542847, "token_acc": 0.9903660886319846, "grad_norm": 1.0190696716308594, "learning_rate": 1.6412777572694104e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231426, "epoch": 4.959219452702188, "step": 65060}, {"loss": 0.05882562398910522, "token_acc": 0.9810582664196006, "grad_norm": 1.6286569833755493, "learning_rate": 1.6107446634661128e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23143, "epoch": 4.959600579312448, "step": 65065}, {"loss": 0.03664923906326294, "token_acc": 0.9877014418999152, "grad_norm": 0.7291297316551208, "learning_rate": 1.5804982040912296e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231432, "epoch": 4.959981705922708, "step": 65070}, {"loss": 0.022282299399375916, "token_acc": 0.9857717290442314, "grad_norm": 0.8221415877342224, "learning_rate": 1.55053838087893e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231438, "epoch": 4.960362832532968, "step": 65075}, {"loss": 0.03262795209884643, "token_acc": 0.9808314087759815, "grad_norm": 2.0793137550354004, "learning_rate": 1.520865195548393e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231442, "epoch": 4.960743959143228, "step": 65080}, {"loss": 0.02813912630081177, "token_acc": 0.9915014164305949, "grad_norm": 0.5929187536239624, "learning_rate": 1.4914786497999266e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231446, "epoch": 4.961125085753487, "step": 65085}, {"loss": 0.04026230573654175, "token_acc": 0.983985297978472, "grad_norm": 1.5217866897583008, "learning_rate": 1.4623787453194037e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231451, "epoch": 4.961506212363747, "step": 65090}, {"loss": 0.03660319745540619, "token_acc": 0.9851679771265189, "grad_norm": 1.1844075918197632, "learning_rate": 1.4335654837754896e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231454, "epoch": 4.961887338974007, "step": 65095}, {"loss": 0.013405577838420868, "token_acc": 0.9964183381088825, "grad_norm": 0.24081404507160187, "learning_rate": 1.4050388668201963e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231461, "epoch": 4.962268465584267, "step": 65100}, {"loss": 0.028308084607124327, "token_acc": 0.9862641293461153, "grad_norm": 0.49624213576316833, "learning_rate": 1.3767988960899925e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231462, "epoch": 4.962649592194527, "step": 65105}, {"loss": 0.024922049045562743, "token_acc": 0.9900666415189237, "grad_norm": 0.8027380704879761, "learning_rate": 1.3488455732035831e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231463, "epoch": 4.963030718804787, "step": 65110}, {"loss": 0.017991508543491363, "token_acc": 0.9938159330665697, "grad_norm": 1.4113434553146362, "learning_rate": 1.3211788997641306e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231466, "epoch": 4.963411845415047, "step": 65115}, {"loss": 0.03441023528575897, "token_acc": 0.9856896551724138, "grad_norm": 1.2606244087219238, "learning_rate": 1.2937988773586984e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231469, "epoch": 4.963792972025307, "step": 65120}, {"loss": 0.03796733021736145, "token_acc": 0.9841165875225152, "grad_norm": 1.519629716873169, "learning_rate": 1.266705507557142e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231472, "epoch": 4.964174098635567, "step": 65125}, {"loss": 0.014378158748149872, "token_acc": 0.9928619986403807, "grad_norm": 0.6806376576423645, "learning_rate": 1.2398987919126636e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231475, "epoch": 4.964555225245826, "step": 65130}, {"loss": 0.029054483771324156, "token_acc": 0.9893558451091944, "grad_norm": 1.854337215423584, "learning_rate": 1.2133787319634771e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231478, "epoch": 4.964936351856086, "step": 65135}, {"loss": 0.031212151050567627, "token_acc": 0.9901690238013108, "grad_norm": 3.062816619873047, "learning_rate": 1.1871453292294776e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23148, "epoch": 4.965317478466346, "step": 65140}, {"loss": 0.019060514867305756, "token_acc": 0.9923907707412862, "grad_norm": 0.6915186643600464, "learning_rate": 1.1611985852150176e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231485, "epoch": 4.965698605076606, "step": 65145}, {"loss": 0.0318561851978302, "token_acc": 0.989212354071228, "grad_norm": 0.6436535716056824, "learning_rate": 1.135538501408906e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231487, "epoch": 4.966079731686866, "step": 65150}, {"loss": 0.021271857619285583, "token_acc": 0.9905097198836675, "grad_norm": 1.2644999027252197, "learning_rate": 1.1101650792821882e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231489, "epoch": 4.966460858297126, "step": 65155}, {"loss": 0.021833418309688567, "token_acc": 0.98819913952059, "grad_norm": 0.9006397128105164, "learning_rate": 1.0850783202892567e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23149, "epoch": 4.966841984907386, "step": 65160}, {"loss": 0.02468249499797821, "token_acc": 0.9906591237995, "grad_norm": 0.687323272228241, "learning_rate": 1.0602782258695154e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231492, "epoch": 4.967223111517646, "step": 65165}, {"loss": 0.02184086889028549, "token_acc": 0.990988567585743, "grad_norm": 1.0897740125656128, "learning_rate": 1.0357647974451601e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231493, "epoch": 4.967604238127906, "step": 65170}, {"loss": 0.0493834912776947, "token_acc": 0.9766069086139046, "grad_norm": 1.7081990242004395, "learning_rate": 1.011538036421733e-08, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231497, "epoch": 4.9679853647381655, "step": 65175}, {"loss": 0.024728986620903014, "token_acc": 0.9862349444705146, "grad_norm": 1.278080701828003, "learning_rate": 9.875979441881233e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.2315, "epoch": 4.968366491348426, "step": 65180}, {"loss": 0.022689932584762575, "token_acc": 0.991049491049491, "grad_norm": 0.2256547063589096, "learning_rate": 9.639445221176769e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231503, "epoch": 4.968747617958686, "step": 65185}, {"loss": 0.016859593987464904, "token_acc": 0.9933018124507487, "grad_norm": 1.1455553770065308, "learning_rate": 9.405777715665309e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231509, "epoch": 4.969128744568946, "step": 65190}, {"loss": 0.023007912933826445, "token_acc": 0.9895405304445275, "grad_norm": 0.7403997182846069, "learning_rate": 9.174976938747248e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23151, "epoch": 4.969509871179206, "step": 65195}, {"loss": 0.03366773426532745, "token_acc": 0.9885361552028219, "grad_norm": 1.192914605140686, "learning_rate": 8.947042903661996e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231516, "epoch": 4.969890997789466, "step": 65200}, {"eval_loss": 0.046652209013700485, "eval_token_acc": 0.9811381844467201, "eval_runtime": 224.6805, "eval_samples_per_second": 2.359, "eval_steps_per_second": 2.359, "epoch": 4.969890997789466, "step": 65200}, {"loss": 0.029337078332901, "token_acc": 0.9813436078681306, "grad_norm": 0.8586710691452026, "learning_rate": 8.721975623471323e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231335, "epoch": 4.970272124399726, "step": 65205}, {"loss": 0.065387761592865, "token_acc": 0.9810405643738977, "grad_norm": 2.8299784660339355, "learning_rate": 8.499775111092678e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231337, "epoch": 4.970653251009986, "step": 65210}, {"loss": 0.035374969244003296, "token_acc": 0.9855869523990138, "grad_norm": 0.11697398871183395, "learning_rate": 8.280441379260318e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23134, "epoch": 4.971034377620246, "step": 65215}, {"loss": 0.03401350975036621, "token_acc": 0.9916267942583732, "grad_norm": 0.5981540083885193, "learning_rate": 8.06397444055862e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231341, "epoch": 4.971415504230506, "step": 65220}, {"loss": 0.030062052607536315, "token_acc": 0.9867684478371501, "grad_norm": 1.0130573511123657, "learning_rate": 7.850374307394326e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231343, "epoch": 4.971796630840766, "step": 65225}, {"loss": 0.043108826875686644, "token_acc": 0.9866288492706645, "grad_norm": 1.7282116413116455, "learning_rate": 7.639640992018748e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231347, "epoch": 4.972177757451025, "step": 65230}, {"loss": 0.025778061151504515, "token_acc": 0.9896309850564197, "grad_norm": 2.2964227199554443, "learning_rate": 7.4317745065166646e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231352, "epoch": 4.972558884061285, "step": 65235}, {"loss": 0.020917908847332002, "token_acc": 0.9897716127224324, "grad_norm": 1.087999939918518, "learning_rate": 7.226774862806318e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231354, "epoch": 4.972940010671545, "step": 65240}, {"loss": 0.025107231736183167, "token_acc": 0.9886627509903019, "grad_norm": 0.848408579826355, "learning_rate": 7.024642072650522e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231355, "epoch": 4.973321137281805, "step": 65245}, {"loss": 0.027141866087913514, "token_acc": 0.9886883921357393, "grad_norm": 1.5466257333755493, "learning_rate": 6.825376147628903e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23136, "epoch": 4.973702263892065, "step": 65250}, {"loss": 0.019205766916275024, "token_acc": 0.9927253832164199, "grad_norm": 1.3878365755081177, "learning_rate": 6.62897709918231e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231365, "epoch": 4.974083390502325, "step": 65255}, {"loss": 0.014418919384479523, "token_acc": 0.9929252537680714, "grad_norm": 0.5157955884933472, "learning_rate": 6.435444938562851e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231369, "epoch": 4.974464517112585, "step": 65260}, {"loss": 0.038768929243087766, "token_acc": 0.9858767424798239, "grad_norm": 2.8791165351867676, "learning_rate": 6.244779676872759e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231373, "epoch": 4.974845643722845, "step": 65265}, {"loss": 0.03767937421798706, "token_acc": 0.9906472128694351, "grad_norm": 0.640629768371582, "learning_rate": 6.056981325047728e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231376, "epoch": 4.975226770333105, "step": 65270}, {"loss": 0.03493503928184509, "token_acc": 0.9866905045689313, "grad_norm": 1.9037282466888428, "learning_rate": 5.872049893851373e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23138, "epoch": 4.975607896943364, "step": 65275}, {"loss": 0.015183040499687194, "token_acc": 0.9933194154488518, "grad_norm": 1.0967572927474976, "learning_rate": 5.689985393891872e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231384, "epoch": 4.975989023553624, "step": 65280}, {"loss": 0.039233472943305966, "token_acc": 0.9867708959711365, "grad_norm": 1.0153906345367432, "learning_rate": 5.5107878356108755e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231389, "epoch": 4.976370150163884, "step": 65285}, {"loss": 0.021889682114124297, "token_acc": 0.9888549343879202, "grad_norm": 0.0775807648897171, "learning_rate": 5.334457229283496e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231392, "epoch": 4.976751276774144, "step": 65290}, {"loss": 0.022383061051368714, "token_acc": 0.9906442127773323, "grad_norm": 2.409358263015747, "learning_rate": 5.1609935850238655e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231397, "epoch": 4.977132403384404, "step": 65295}, {"loss": 0.028367367386817933, "token_acc": 0.9889941913787832, "grad_norm": 1.1309925317764282, "learning_rate": 4.990396912774031e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231401, "epoch": 4.977513529994664, "step": 65300}, {"loss": 0.0213253915309906, "token_acc": 0.9923488905891354, "grad_norm": 2.4168503284454346, "learning_rate": 4.822667222315058e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231407, "epoch": 4.977894656604924, "step": 65305}, {"loss": 0.0361462414264679, "token_acc": 0.9838502947962061, "grad_norm": 0.7649396061897278, "learning_rate": 4.6578045232781305e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231411, "epoch": 4.978275783215184, "step": 65310}, {"loss": 0.021941231191158296, "token_acc": 0.9975997599759976, "grad_norm": 1.1200065612792969, "learning_rate": 4.495808825105696e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231415, "epoch": 4.978656909825444, "step": 65315}, {"loss": 0.013472728431224823, "token_acc": 0.9926278240190249, "grad_norm": 0.0934068113565445, "learning_rate": 4.336680137090321e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23142, "epoch": 4.979038036435704, "step": 65320}, {"loss": 0.026659953594207763, "token_acc": 0.9874735356386732, "grad_norm": 1.4806877374649048, "learning_rate": 4.180418468358038e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231422, "epoch": 4.979419163045964, "step": 65325}, {"loss": 0.025554832816123963, "token_acc": 0.9884304736956996, "grad_norm": 1.2573615312576294, "learning_rate": 4.027023827873899e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231427, "epoch": 4.9798002896562235, "step": 65330}, {"loss": 0.029011696577072144, "token_acc": 0.9879979570990807, "grad_norm": 2.60612416267395, "learning_rate": 3.876496224425319e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231431, "epoch": 4.9801814162664835, "step": 65335}, {"loss": 0.022194311022758484, "token_acc": 0.9901466544454629, "grad_norm": 0.9691932201385498, "learning_rate": 3.728835666655384e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231434, "epoch": 4.9805625428767435, "step": 65340}, {"loss": 0.024649661779403687, "token_acc": 0.9919662582847961, "grad_norm": 0.5333957076072693, "learning_rate": 3.5840421630184417e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231438, "epoch": 4.9809436694870035, "step": 65345}, {"loss": 0.03910989761352539, "token_acc": 0.9831377087121839, "grad_norm": 1.3731346130371094, "learning_rate": 3.4421157218300635e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23144, "epoch": 4.9813247960972635, "step": 65350}, {"loss": 0.02757016122341156, "token_acc": 0.9876651982378855, "grad_norm": 1.4843852519989014, "learning_rate": 3.303056351222633e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231445, "epoch": 4.9817059227075235, "step": 65355}, {"loss": 0.017140640318393706, "token_acc": 0.9933366238894373, "grad_norm": 0.5947726964950562, "learning_rate": 3.1668640591731025e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23145, "epoch": 4.982087049317784, "step": 65360}, {"loss": 0.04749036431312561, "token_acc": 0.9836641489548569, "grad_norm": 0.8116332292556763, "learning_rate": 3.0335388534863395e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231453, "epoch": 4.982468175928044, "step": 65365}, {"loss": 0.021308332681655884, "token_acc": 0.991044776119403, "grad_norm": 0.7989891171455383, "learning_rate": 2.903080741817332e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231459, "epoch": 4.982849302538304, "step": 65370}, {"loss": 0.04035530984401703, "token_acc": 0.9829119850187266, "grad_norm": 1.05201256275177, "learning_rate": 2.7754897316378814e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231463, "epoch": 4.983230429148563, "step": 65375}, {"loss": 0.03902249932289124, "token_acc": 0.9788309636650869, "grad_norm": 0.7579794526100159, "learning_rate": 2.650765830269908e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231468, "epoch": 4.983611555758823, "step": 65380}, {"loss": 0.03690943121910095, "token_acc": 0.9830284744484254, "grad_norm": 1.0315594673156738, "learning_rate": 2.528909044863248e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231472, "epoch": 4.983992682369083, "step": 65385}, {"loss": 0.025462386012077332, "token_acc": 0.9875307341060766, "grad_norm": 1.5889012813568115, "learning_rate": 2.4099193824067556e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231476, "epoch": 4.984373808979343, "step": 65390}, {"loss": 0.029764628410339354, "token_acc": 0.9880185519196083, "grad_norm": 1.0177972316741943, "learning_rate": 2.2937968497283025e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231478, "epoch": 4.984754935589603, "step": 65395}, {"loss": 0.03030233383178711, "token_acc": 0.9860266315962518, "grad_norm": 1.0992156267166138, "learning_rate": 2.180541453478124e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23148, "epoch": 4.985136062199863, "step": 65400}, {"eval_loss": 0.04671034961938858, "eval_token_acc": 0.9810177097765195, "eval_runtime": 222.316, "eval_samples_per_second": 2.384, "eval_steps_per_second": 2.384, "epoch": 4.985136062199863, "step": 65400}, {"loss": 0.0283296138048172, "token_acc": 0.9811667873450268, "grad_norm": 0.2812090218067169, "learning_rate": 2.070153200156577e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231303, "epoch": 4.985517188810123, "step": 65405}, {"loss": 0.02814640998840332, "token_acc": 0.9880294659300184, "grad_norm": 0.8628404140472412, "learning_rate": 1.962632096097483e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231308, "epoch": 4.985898315420383, "step": 65410}, {"loss": 0.03356319069862366, "token_acc": 0.9851110568708812, "grad_norm": 0.9407519698143005, "learning_rate": 1.857978147457029e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231312, "epoch": 4.986279442030643, "step": 65415}, {"loss": 0.05196954011917114, "token_acc": 0.9815860545052787, "grad_norm": 1.055129051208496, "learning_rate": 1.7561913602415214e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231316, "epoch": 4.986660568640902, "step": 65420}, {"loss": 0.035372763872146606, "token_acc": 0.9860887096774194, "grad_norm": 0.7984076142311096, "learning_rate": 1.6572717402907334e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23132, "epoch": 4.987041695251163, "step": 65425}, {"loss": 0.036388438940048215, "token_acc": 0.983063063063063, "grad_norm": 3.4746503829956055, "learning_rate": 1.5612192932779047e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231325, "epoch": 4.987422821861422, "step": 65430}, {"loss": 0.049624505639076236, "token_acc": 0.9812348668280871, "grad_norm": 2.1452887058258057, "learning_rate": 1.46803402470419e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23133, "epoch": 4.987803948471682, "step": 65435}, {"loss": 0.03781522512435913, "token_acc": 0.9837442427526416, "grad_norm": 1.3940974473953247, "learning_rate": 1.3777159399153139e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231335, "epoch": 4.988185075081942, "step": 65440}, {"loss": 0.027615198493003847, "token_acc": 0.9897191114374885, "grad_norm": 1.258034110069275, "learning_rate": 1.2902650440960174e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231338, "epoch": 4.988566201692202, "step": 65445}, {"loss": 0.029767253994941713, "token_acc": 0.9889100126742713, "grad_norm": 0.6371923685073853, "learning_rate": 1.2056813422534063e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231342, "epoch": 4.988947328302462, "step": 65450}, {"loss": 0.03673174977302551, "token_acc": 0.9836512261580381, "grad_norm": 1.9030895233154297, "learning_rate": 1.1239648392447067e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231347, "epoch": 4.989328454912722, "step": 65455}, {"loss": 0.017491374909877778, "token_acc": 0.99354333789865, "grad_norm": 0.5081695318222046, "learning_rate": 1.0451155397550594e-09, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23135, "epoch": 4.989709581522982, "step": 65460}, {"loss": 0.027231138944625855, "token_acc": 0.9911186297314443, "grad_norm": 0.5633696913719177, "learning_rate": 9.691334483030723e-10, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231354, "epoch": 4.990090708133242, "step": 65465}, {"loss": 0.020356935262680054, "token_acc": 0.9939037208324575, "grad_norm": 0.6269640922546387, "learning_rate": 8.960185692463707e-10, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231358, "epoch": 4.990471834743502, "step": 65470}, {"loss": 0.02714584469795227, "token_acc": 0.98982763492512, "grad_norm": 0.8283225297927856, "learning_rate": 8.257709067815978e-10, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231362, "epoch": 4.990852961353761, "step": 65475}, {"loss": 0.01567468196153641, "token_acc": 0.9931856899488927, "grad_norm": 0.5034328699111938, "learning_rate": 7.583904649333118e-10, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231368, "epoch": 4.991234087964021, "step": 65480}, {"loss": 0.029153388738632203, "token_acc": 0.9879107781372382, "grad_norm": 0.9832271337509155, "learning_rate": 6.93877247565089e-10, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23137, "epoch": 4.991615214574281, "step": 65485}, {"loss": 0.02367573082447052, "token_acc": 0.9944579147904399, "grad_norm": 0.703941822052002, "learning_rate": 6.322312583795231e-10, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231375, "epoch": 4.991996341184541, "step": 65490}, {"loss": 0.03463009297847748, "token_acc": 0.9827463956511463, "grad_norm": 1.9090490341186523, "learning_rate": 5.734525009071235e-10, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23138, "epoch": 4.992377467794801, "step": 65495}, {"loss": 0.027520650625228883, "token_acc": 0.9932960893854749, "grad_norm": 0.5109768509864807, "learning_rate": 5.17540978528519e-10, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231384, "epoch": 4.992758594405061, "step": 65500}, {"loss": 0.03614895045757294, "token_acc": 0.9868319132455461, "grad_norm": 1.6359907388687134, "learning_rate": 4.644966944356011e-10, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231386, "epoch": 4.993139721015321, "step": 65505}, {"loss": 0.026231345534324647, "token_acc": 0.9941159988792378, "grad_norm": 1.2480318546295166, "learning_rate": 4.143196516814829e-10, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23139, "epoch": 4.9935208476255815, "step": 65510}, {"loss": 0.025004053115844728, "token_acc": 0.9889491242702252, "grad_norm": 0.6290131211280823, "learning_rate": 3.6700985313609106e-10, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231394, "epoch": 4.9939019742358415, "step": 65515}, {"loss": 0.017110726237297057, "token_acc": 0.9913281606572342, "grad_norm": 0.3121906518936157, "learning_rate": 3.225673015194719e-10, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231399, "epoch": 4.994283100846101, "step": 65520}, {"loss": 0.029915162920951845, "token_acc": 0.9885737604570496, "grad_norm": 0.8594696521759033, "learning_rate": 2.809919993740362e-10, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231404, "epoch": 4.994664227456361, "step": 65525}, {"loss": 0.046113982796669006, "token_acc": 0.9801051051051051, "grad_norm": 0.9535529613494873, "learning_rate": 2.4228394909231453e-10, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231409, "epoch": 4.995045354066621, "step": 65530}, {"loss": 0.031991952657699586, "token_acc": 0.9886522346368715, "grad_norm": 0.6533511877059937, "learning_rate": 2.0644315288365078e-10, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231412, "epoch": 4.995426480676881, "step": 65535}, {"loss": 0.02318093478679657, "token_acc": 0.9909272643395356, "grad_norm": 1.393473505973816, "learning_rate": 1.734696128075086e-10, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231414, "epoch": 4.995807607287141, "step": 65540}, {"loss": 0.03193975389003754, "token_acc": 0.9888307984790875, "grad_norm": 1.2876241207122803, "learning_rate": 1.4336333075681828e-10, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231418, "epoch": 4.996188733897401, "step": 65545}, {"loss": 0.04155539870262146, "token_acc": 0.985936621038815, "grad_norm": 1.8820068836212158, "learning_rate": 1.1612430845797661e-10, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231422, "epoch": 4.996569860507661, "step": 65550}, {"loss": 0.024974866211414336, "token_acc": 0.9895809739524348, "grad_norm": 0.48003295063972473, "learning_rate": 9.175254747084694e-11, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231425, "epoch": 4.996950987117921, "step": 65555}, {"loss": 0.027466171979904176, "token_acc": 0.9847109412326803, "grad_norm": 1.236311674118042, "learning_rate": 7.024804919431028e-11, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23143, "epoch": 4.997332113728181, "step": 65560}, {"loss": 0.01858559399843216, "token_acc": 0.993490054249548, "grad_norm": 0.39299336075782776, "learning_rate": 5.161081485516306e-11, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231436, "epoch": 4.997713240338441, "step": 65565}, {"loss": 0.01804552674293518, "token_acc": 0.9939855653568564, "grad_norm": 0.7008711695671082, "learning_rate": 3.5840845535872745e-11, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23144, "epoch": 4.998094366948701, "step": 65570}, {"loss": 0.021957939863204955, "token_acc": 0.9911764705882353, "grad_norm": 1.4451603889465332, "learning_rate": 2.293814213016887e-11, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231445, "epoch": 4.99847549355896, "step": 65575}, {"loss": 0.0438129335641861, "token_acc": 0.9875300809450887, "grad_norm": 4.2552690505981445, "learning_rate": 1.290270538190086e-11, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231449, "epoch": 4.99885662016922, "step": 65580}, {"loss": 0.02502804696559906, "token_acc": 0.989840106595603, "grad_norm": 0.9069608449935913, "learning_rate": 5.734535862833568e-12, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231448, "epoch": 4.99923774677948, "step": 65585}, {"loss": 0.020407673716545106, "token_acc": 0.9901986754966887, "grad_norm": 1.0553228855133057, "learning_rate": 1.4336339837495162e-12, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.23145, "epoch": 4.99961887338974, "step": 65590}, {"loss": 0.01947695016860962, "token_acc": 0.9901157865009884, "grad_norm": 0.8608609437942505, "learning_rate": 0.0, "memory(GiB)": 122.96, "train_speed(iter/s)": 0.231456, "epoch": 5.0, "step": 65595}, {"eval_loss": 0.04670507833361626, "eval_token_acc": 0.9810402987771821, "eval_runtime": 219.0908, "eval_samples_per_second": 2.419, "eval_steps_per_second": 2.419, "epoch": 5.0, "step": 65595}, {"train_runtime": 283621.8951, "train_samples_per_second": 0.925, "train_steps_per_second": 0.231, "total_flos": 1.3292660732573645e+19, "train_loss": 0.10274053734039804, "epoch": 5.0, "step": 65595}], "memory": 122.96484375}