Rubywong123 commited on Aug 15

Commit

5a61961

verified ·

1 Parent(s): a30c8f0

Upload folder using huggingface_hub

Browse files

Files changed (20) hide show

all_results.json +5 -5
checkpoint-270/global_step270/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
checkpoint-270/global_step270/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +1 -1
checkpoint-270/global_step270/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +1 -1
checkpoint-270/global_step270/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +1 -1
checkpoint-270/model-00001-of-00004.safetensors +1 -1
checkpoint-270/model-00002-of-00004.safetensors +1 -1
checkpoint-270/model-00003-of-00004.safetensors +1 -1
checkpoint-270/model-00004-of-00004.safetensors +1 -1
checkpoint-270/tokenizer.json +2 -2
checkpoint-270/trainer_state.json +110 -110
checkpoint-270/training_args.bin +1 -1
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
tokenizer.json +2 -2
train_results.json +5 -5
trainer_state.json +115 -115
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.9975369458128078,
-    "total_flos": 6.535464838821315e+17,
-    "train_loss": 0.07531778989014802,
-    "train_runtime": 2373.3356,
     "train_samples": 6493,
-    "train_samples_per_second": 2.736,
-    "train_steps_per_second": 0.114
 }

 {
     "epoch": 0.9975369458128078,
+    "total_flos": 8.643970128528015e+17,
+    "train_loss": 0.07066047384783074,
+    "train_runtime": 3995.5402,
     "train_samples": 6493,
+    "train_samples_per_second": 1.625,
+    "train_steps_per_second": 0.068
 }

checkpoint-270/global_step270/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dedf5e24008a057b2113b076f681b2b454849a4db318431fbc74408f618ddb9e
 size 22846855742

 version https://git-lfs.github.com/spec/v1
+oid sha256:a17f241c3739c198d81e3141056df94bb779dd757a21f9f89af53204d04cfc5e
 size 22846855742

checkpoint-270/global_step270/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:610b5442c088cebe956ee3ba7fe3113906412f1c00cb0bd3050b7879901bca29
 size 22846855742

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ee0a96c67870843152695939ea59ac5025f4e3d225b51b3f1a26e8b1f1ac462
 size 22846855742

checkpoint-270/global_step270/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a93c3071d7d2b031f079aae3b4ed8e34c9ef37920b961a969b305ac47ca9221
 size 22846855742

 version https://git-lfs.github.com/spec/v1
+oid sha256:21b65f0ec86bbf10a81af977328abd2d86aa4a03f299d85c7db6aa55c0fd14df
 size 22846855742

checkpoint-270/global_step270/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:061547ecac15f2efe4743d93d693cff0ff43eaa95f91113037d068839b125635
 size 22846855742

 version https://git-lfs.github.com/spec/v1
+oid sha256:20131606e9a33434e3b92633c89bc129e2e60eba86f8236193a952b7a58de305
 size 22846855742

checkpoint-270/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2dabcb8b0e4eba4f88cc4d30176973016812cd5099a7a909b235afb1eae6519
 size 4877660776

 version https://git-lfs.github.com/spec/v1
+oid sha256:2577dc0dbdd5aeedf99725bf6e4df1233bacd820fee699f17a2c80a4b53ce29f
 size 4877660776

checkpoint-270/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7abf6cb7f1a7b0f888af0c3be62bdee65d6181f15f6781262a73b4a90c14ee07
 size 4932751008

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d903975881e7178cedcf8c3b6dc3994cae9143f64293260912c927341aa533a
 size 4932751008

checkpoint-270/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9698bdbdee3a3d9c6e2667f88e1ce9e9f5566668788f3d2c351b0d8353303bed
 size 4330865200

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a405c24d1e443985effa911704afeb8b8895263c4ca3dd7454eeb3de4cef8b3
 size 4330865200

checkpoint-270/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:945b3a362040493fde5d41f5e830d4cd91f1b52673fcc546d1fecdee39777261
 size 1089994880

 version https://git-lfs.github.com/spec/v1
+oid sha256:47537180f9b5498e5481a81d4e10154e932f26f4c2237edbf8d69850e580ed4c
 size 1089994880

checkpoint-270/tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83396048d512ec1f3178af0d7c1f79a226bba041822614b0e26a4fd2d4b55bf7
-size 11421995

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb27d51a5fa5caa8502d091726ff7f63ada64f766ff94afe49fde7d3faba216f
+size 11421996

checkpoint-270/trainer_state.json CHANGED Viewed

@@ -10,385 +10,385 @@
   "log_history": [
     {
       "epoch": 0.003694581280788177,
-      "grad_norm": 1.7654963384889737,
       "learning_rate": 3.7037037037037036e-07,
-      "loss": 0.7143,
       "step": 1
     },
     {
       "epoch": 0.01847290640394089,
-      "grad_norm": 1.5199857516271311,
       "learning_rate": 1.8518518518518519e-06,
-      "loss": 0.6647,
       "step": 5
     },
     {
       "epoch": 0.03694581280788178,
-      "grad_norm": 0.49041355078257287,
       "learning_rate": 3.7037037037037037e-06,
-      "loss": 0.5847,
       "step": 10
     },
     {
       "epoch": 0.05541871921182266,
-      "grad_norm": 0.27640312040532583,
       "learning_rate": 5.555555555555557e-06,
-      "loss": 0.3425,
       "step": 15
     },
     {
       "epoch": 0.07389162561576355,
-      "grad_norm": 0.18417484630910924,
       "learning_rate": 7.4074074074074075e-06,
-      "loss": 0.1877,
       "step": 20
     },
     {
       "epoch": 0.09236453201970443,
-      "grad_norm": 0.10832669450973324,
       "learning_rate": 9.25925925925926e-06,
-      "loss": 0.1471,
       "step": 25
     },
     {
       "epoch": 0.11083743842364532,
-      "grad_norm": 0.08199058472718684,
       "learning_rate": 9.996239762521152e-06,
-      "loss": 0.1209,
       "step": 30
     },
     {
       "epoch": 0.12931034482758622,
-      "grad_norm": 0.06662942983937706,
       "learning_rate": 9.973281012033009e-06,
-      "loss": 0.1046,
       "step": 35
     },
     {
       "epoch": 0.1477832512315271,
-      "grad_norm": 0.06811085294724732,
       "learning_rate": 9.929548316723983e-06,
-      "loss": 0.0958,
       "step": 40
     },
     {
       "epoch": 0.16625615763546797,
-      "grad_norm": 0.055261792291083314,
       "learning_rate": 9.86522435289912e-06,
-      "loss": 0.0804,
       "step": 45
     },
     {
       "epoch": 0.18472906403940886,
-      "grad_norm": 0.05912952493839196,
       "learning_rate": 9.7805778088694e-06,
-      "loss": 0.072,
       "step": 50
     },
     {
       "epoch": 0.20320197044334976,
-      "grad_norm": 0.05664454056150425,
       "learning_rate": 9.67596226261095e-06,
-      "loss": 0.0657,
       "step": 55
     },
     {
       "epoch": 0.22167487684729065,
-      "grad_norm": 0.05397727582384683,
       "learning_rate": 9.551814704830734e-06,
-      "loss": 0.0626,
       "step": 60
     },
     {
       "epoch": 0.24014778325123154,
-      "grad_norm": 0.054354437756367974,
       "learning_rate": 9.40865371360804e-06,
-      "loss": 0.0567,
       "step": 65
     },
     {
       "epoch": 0.25862068965517243,
-      "grad_norm": 0.052656359957651395,
       "learning_rate": 9.247077288236488e-06,
-      "loss": 0.0506,
       "step": 70
     },
     {
       "epoch": 0.2770935960591133,
-      "grad_norm": 0.06099527619651085,
       "learning_rate": 9.067760351314838e-06,
-      "loss": 0.0447,
       "step": 75
     },
     {
       "epoch": 0.2955665024630542,
-      "grad_norm": 0.05601267986585614,
       "learning_rate": 8.871451929520662e-06,
-      "loss": 0.046,
       "step": 80
     },
     {
       "epoch": 0.31403940886699505,
-      "grad_norm": 0.05031077501489638,
       "learning_rate": 8.658972024843063e-06,
-      "loss": 0.0434,
       "step": 85
     },
     {
       "epoch": 0.33251231527093594,
-      "grad_norm": 0.05165558400160997,
       "learning_rate": 8.43120818934367e-06,
-      "loss": 0.0388,
       "step": 90
     },
     {
       "epoch": 0.35098522167487683,
-      "grad_norm": 0.05542969825706018,
       "learning_rate": 8.18911181775353e-06,
-      "loss": 0.0474,
       "step": 95
     },
     {
       "epoch": 0.3694581280788177,
-      "grad_norm": 0.054028908120351174,
       "learning_rate": 7.93369417339209e-06,
-      "loss": 0.0426,
       "step": 100
     },
     {
       "epoch": 0.3879310344827586,
-      "grad_norm": 0.043910381575552423,
       "learning_rate": 7.666022164008458e-06,
-      "loss": 0.0402,
       "step": 105
     },
     {
       "epoch": 0.4064039408866995,
-      "grad_norm": 0.04420065737962207,
       "learning_rate": 7.387213885189746e-06,
-      "loss": 0.0441,
       "step": 110
     },
     {
       "epoch": 0.4248768472906404,
-      "grad_norm": 0.042881775226418783,
       "learning_rate": 7.098433949952146e-06,
-      "loss": 0.0422,
       "step": 115
     },
     {
       "epoch": 0.4433497536945813,
-      "grad_norm": 0.04261745777882021,
       "learning_rate": 6.800888624023552e-06,
-      "loss": 0.0414,
       "step": 120
     },
     {
       "epoch": 0.4618226600985222,
-      "grad_norm": 0.03486953918711132,
       "learning_rate": 6.495820787138209e-06,
-      "loss": 0.0345,
       "step": 125
     },
     {
       "epoch": 0.4802955665024631,
-      "grad_norm": 0.04758579863549666,
       "learning_rate": 6.184504741390596e-06,
-      "loss": 0.0393,
       "step": 130
     },
     {
       "epoch": 0.4987684729064039,
-      "grad_norm": 0.04528381812617609,
       "learning_rate": 5.8682408883346535e-06,
-      "loss": 0.0355,
       "step": 135
     },
     {
       "epoch": 0.5172413793103449,
-      "grad_norm": 0.05087543134069284,
       "learning_rate": 5.548350297062659e-06,
-      "loss": 0.0376,
       "step": 140
     },
     {
       "epoch": 0.5357142857142857,
-      "grad_norm": 0.03521666590779419,
       "learning_rate": 5.2261691859535325e-06,
-      "loss": 0.0316,
       "step": 145
     },
     {
       "epoch": 0.5541871921182266,
-      "grad_norm": 0.0517150609216818,
       "learning_rate": 4.903043341140879e-06,
-      "loss": 0.032,
       "step": 150
     },
     {
       "epoch": 0.5726600985221675,
-      "grad_norm": 0.03346412011949477,
       "learning_rate": 4.580322495015466e-06,
-      "loss": 0.0303,
       "step": 155
     },
     {
       "epoch": 0.5911330049261084,
-      "grad_norm": 0.040115617332954906,
       "learning_rate": 4.259354688243758e-06,
-      "loss": 0.0382,
       "step": 160
     },
     {
       "epoch": 0.6096059113300493,
-      "grad_norm": 0.04277501887386235,
       "learning_rate": 3.941480638852948e-06,
-      "loss": 0.0291,
       "step": 165
     },
     {
       "epoch": 0.6280788177339901,
-      "grad_norm": 0.03898041246450539,
       "learning_rate": 3.6280281419034934e-06,
-      "loss": 0.0317,
       "step": 170
     },
     {
       "epoch": 0.646551724137931,
-      "grad_norm": 0.04371627160570444,
       "learning_rate": 3.3203065231422904e-06,
-      "loss": 0.0301,
       "step": 175
     },
     {
       "epoch": 0.6650246305418719,
-      "grad_norm": 0.03238864584138372,
       "learning_rate": 3.019601169804216e-06,
-      "loss": 0.0354,
       "step": 180
     },
     {
       "epoch": 0.6834975369458128,
-      "grad_norm": 0.041127251144739585,
       "learning_rate": 2.7271681614074973e-06,
-      "loss": 0.0294,
       "step": 185
     },
     {
       "epoch": 0.7019704433497537,
-      "grad_norm": 0.045180481360547094,
       "learning_rate": 2.4442290229706344e-06,
-      "loss": 0.0358,
       "step": 190
     },
     {
       "epoch": 0.7204433497536946,
-      "grad_norm": 0.045021953447442344,
       "learning_rate": 2.171965622567308e-06,
-      "loss": 0.0306,
       "step": 195
     },
     {
       "epoch": 0.7389162561576355,
-      "grad_norm": 0.050026098917487306,
       "learning_rate": 1.9115152345327154e-06,
-      "loss": 0.0418,
       "step": 200
     },
     {
       "epoch": 0.7573891625615764,
-      "grad_norm": 0.03656415909500236,
       "learning_rate": 1.6639657889429017e-06,
-      "loss": 0.0286,
       "step": 205
     },
     {
       "epoch": 0.7758620689655172,
-      "grad_norm": 0.045197818476724314,
       "learning_rate": 1.4303513272105057e-06,
-      "loss": 0.0317,
       "step": 210
     },
     {
       "epoch": 0.7943349753694581,
-      "grad_norm": 0.041762867738677684,
       "learning_rate": 1.2116476827794104e-06,
-      "loss": 0.0355,
       "step": 215
     },
     {
       "epoch": 0.812807881773399,
-      "grad_norm": 0.03975638695681742,
       "learning_rate": 1.008768404960535e-06,
-      "loss": 0.034,
       "step": 220
     },
     {
       "epoch": 0.8312807881773399,
-      "grad_norm": 0.03688322160939588,
       "learning_rate": 8.225609429353187e-07,
-      "loss": 0.0306,
       "step": 225
     },
     {
       "epoch": 0.8497536945812808,
-      "grad_norm": 0.045910201896259065,
       "learning_rate": 6.53803105866761e-07,
-      "loss": 0.032,
       "step": 230
     },
     {
       "epoch": 0.8682266009852216,
-      "grad_norm": 0.03466115718136847,
       "learning_rate": 5.031998139045352e-07,
-      "loss": 0.03,
       "step": 235
     },
     {
       "epoch": 0.8866995073891626,
-      "grad_norm": 0.04041208746429919,
       "learning_rate": 3.7138015365554834e-07,
-      "loss": 0.033,
       "step": 240
     },
     {
       "epoch": 0.9051724137931034,
-      "grad_norm": 0.030110072192059505,
       "learning_rate": 2.5889475041961767e-07,
-      "loss": 0.0316,
       "step": 245
     },
     {
       "epoch": 0.9236453201970444,
-      "grad_norm": 0.04208800780561471,
       "learning_rate": 1.6621346816668993e-07,
-      "loss": 0.0317,
       "step": 250
     },
     {
       "epoch": 0.9421182266009852,
-      "grad_norm": 0.040891559299692404,
       "learning_rate": 9.372344686307655e-08,
-      "loss": 0.0365,
       "step": 255
     },
     {
       "epoch": 0.9605911330049262,
-      "grad_norm": 0.03589408474423174,
       "learning_rate": 4.172748534499449e-08,
-      "loss": 0.0288,
       "step": 260
     },
     {
       "epoch": 0.979064039408867,
-      "grad_norm": 0.03745965637860769,
       "learning_rate": 1.044277649433989e-08,
-      "loss": 0.0307,
       "step": 265
     },
     {
       "epoch": 0.9975369458128078,
-      "grad_norm": 0.031721423195282906,
       "learning_rate": 0.0,
       "loss": 0.033,
       "step": 270
@@ -411,7 +411,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.535464838821315e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.003694581280788177,
+      "grad_norm": 1.3164679266754151,
       "learning_rate": 3.7037037037037036e-07,
+      "loss": 0.5867,
       "step": 1
     },
     {
       "epoch": 0.01847290640394089,
+      "grad_norm": 0.8941813303905811,
       "learning_rate": 1.8518518518518519e-06,
+      "loss": 0.5684,
       "step": 5
     },
     {
       "epoch": 0.03694581280788178,
+      "grad_norm": 0.4848149582760561,
       "learning_rate": 3.7037037037037037e-06,
+      "loss": 0.5272,
       "step": 10
     },
     {
       "epoch": 0.05541871921182266,
+      "grad_norm": 0.23489374203812283,
       "learning_rate": 5.555555555555557e-06,
+      "loss": 0.3213,
       "step": 15
     },
     {
       "epoch": 0.07389162561576355,
+      "grad_norm": 0.17590513475537736,
       "learning_rate": 7.4074074074074075e-06,
+      "loss": 0.1719,
       "step": 20
     },
     {
       "epoch": 0.09236453201970443,
+      "grad_norm": 0.09924337039651394,
       "learning_rate": 9.25925925925926e-06,
+      "loss": 0.1392,
       "step": 25
     },
     {
       "epoch": 0.11083743842364532,
+      "grad_norm": 0.06829427058420333,
       "learning_rate": 9.996239762521152e-06,
+      "loss": 0.1168,
       "step": 30
     },
     {
       "epoch": 0.12931034482758622,
+      "grad_norm": 0.06324690561682543,
       "learning_rate": 9.973281012033009e-06,
+      "loss": 0.1009,
       "step": 35
     },
     {
       "epoch": 0.1477832512315271,
+      "grad_norm": 0.049072943668117305,
       "learning_rate": 9.929548316723983e-06,
+      "loss": 0.0886,
       "step": 40
     },
     {
       "epoch": 0.16625615763546797,
+      "grad_norm": 0.04472692512923622,
       "learning_rate": 9.86522435289912e-06,
+      "loss": 0.0772,
       "step": 45
     },
     {
       "epoch": 0.18472906403940886,
+      "grad_norm": 0.04320806158867543,
       "learning_rate": 9.7805778088694e-06,
+      "loss": 0.0677,
       "step": 50
     },
     {
       "epoch": 0.20320197044334976,
+      "grad_norm": 0.04347088345515666,
       "learning_rate": 9.67596226261095e-06,
+      "loss": 0.0652,
       "step": 55
     },
     {
       "epoch": 0.22167487684729065,
+      "grad_norm": 0.04636829853932609,
       "learning_rate": 9.551814704830734e-06,
+      "loss": 0.0618,
       "step": 60
     },
     {
       "epoch": 0.24014778325123154,
+      "grad_norm": 0.04911651390500423,
       "learning_rate": 9.40865371360804e-06,
+      "loss": 0.0564,
       "step": 65
     },
     {
       "epoch": 0.25862068965517243,
+      "grad_norm": 0.046124586761473525,
       "learning_rate": 9.247077288236488e-06,
+      "loss": 0.0496,
       "step": 70
     },
     {
       "epoch": 0.2770935960591133,
+      "grad_norm": 0.04282690739591252,
       "learning_rate": 9.067760351314838e-06,
+      "loss": 0.0443,
       "step": 75
     },
     {
       "epoch": 0.2955665024630542,
+      "grad_norm": 0.0501495787415551,
       "learning_rate": 8.871451929520662e-06,
+      "loss": 0.0472,
       "step": 80
     },
     {
       "epoch": 0.31403940886699505,
+      "grad_norm": 0.048856614296215864,
       "learning_rate": 8.658972024843063e-06,
+      "loss": 0.045,
       "step": 85
     },
     {
       "epoch": 0.33251231527093594,
+      "grad_norm": 0.052135344528722635,
       "learning_rate": 8.43120818934367e-06,
+      "loss": 0.0407,
       "step": 90
     },
     {
       "epoch": 0.35098522167487683,
+      "grad_norm": 0.04496874450828456,
       "learning_rate": 8.18911181775353e-06,
+      "loss": 0.0443,
       "step": 95
     },
     {
       "epoch": 0.3694581280788177,
+      "grad_norm": 0.046961464584805046,
       "learning_rate": 7.93369417339209e-06,
+      "loss": 0.043,
       "step": 100
     },
     {
       "epoch": 0.3879310344827586,
+      "grad_norm": 0.03774079876533218,
       "learning_rate": 7.666022164008458e-06,
+      "loss": 0.039,
       "step": 105
     },
     {
       "epoch": 0.4064039408866995,
+      "grad_norm": 0.039388091387549375,
       "learning_rate": 7.387213885189746e-06,
+      "loss": 0.043,
       "step": 110
     },
     {
       "epoch": 0.4248768472906404,
+      "grad_norm": 0.04010524552891231,
       "learning_rate": 7.098433949952146e-06,
+      "loss": 0.0418,
       "step": 115
     },
     {
       "epoch": 0.4433497536945813,
+      "grad_norm": 0.03364245597783716,
       "learning_rate": 6.800888624023552e-06,
+      "loss": 0.0396,
       "step": 120
     },
     {
       "epoch": 0.4618226600985222,
+      "grad_norm": 0.03214650791918716,
       "learning_rate": 6.495820787138209e-06,
+      "loss": 0.0343,
       "step": 125
     },
     {
       "epoch": 0.4802955665024631,
+      "grad_norm": 0.04248682387196562,
       "learning_rate": 6.184504741390596e-06,
+      "loss": 0.0385,
       "step": 130
     },
     {
       "epoch": 0.4987684729064039,
+      "grad_norm": 0.041745690695414894,
       "learning_rate": 5.8682408883346535e-06,
+      "loss": 0.0354,
       "step": 135
     },
     {
       "epoch": 0.5172413793103449,
+      "grad_norm": 0.043998119847084,
       "learning_rate": 5.548350297062659e-06,
+      "loss": 0.0363,
       "step": 140
     },
     {
       "epoch": 0.5357142857142857,
+      "grad_norm": 0.03523911995673237,
       "learning_rate": 5.2261691859535325e-06,
+      "loss": 0.0311,
       "step": 145
     },
     {
       "epoch": 0.5541871921182266,
+      "grad_norm": 0.051683301339415226,
       "learning_rate": 4.903043341140879e-06,
+      "loss": 0.0322,
       "step": 150
     },
     {
       "epoch": 0.5726600985221675,
+      "grad_norm": 0.029645536386539162,
       "learning_rate": 4.580322495015466e-06,
+      "loss": 0.0297,
       "step": 155
     },
     {
       "epoch": 0.5911330049261084,
+      "grad_norm": 0.038478089898929216,
       "learning_rate": 4.259354688243758e-06,
+      "loss": 0.0373,
       "step": 160
     },
     {
       "epoch": 0.6096059113300493,
+      "grad_norm": 0.04016397060959619,
       "learning_rate": 3.941480638852948e-06,
+      "loss": 0.0293,
       "step": 165
     },
     {
       "epoch": 0.6280788177339901,
+      "grad_norm": 0.03295300026030036,
       "learning_rate": 3.6280281419034934e-06,
+      "loss": 0.0306,
       "step": 170
     },
     {
       "epoch": 0.646551724137931,
+      "grad_norm": 0.04371251122688708,
       "learning_rate": 3.3203065231422904e-06,
+      "loss": 0.0292,
       "step": 175
     },
     {
       "epoch": 0.6650246305418719,
+      "grad_norm": 0.02878432244430226,
       "learning_rate": 3.019601169804216e-06,
+      "loss": 0.0348,
       "step": 180
     },
     {
       "epoch": 0.6834975369458128,
+      "grad_norm": 0.03582599925982462,
       "learning_rate": 2.7271681614074973e-06,
+      "loss": 0.0292,
       "step": 185
     },
     {
       "epoch": 0.7019704433497537,
+      "grad_norm": 0.04498392884678493,
       "learning_rate": 2.4442290229706344e-06,
+      "loss": 0.0355,
       "step": 190
     },
     {
       "epoch": 0.7204433497536946,
+      "grad_norm": 0.03888587884987569,
       "learning_rate": 2.171965622567308e-06,
+      "loss": 0.0311,
       "step": 195
     },
     {
       "epoch": 0.7389162561576355,
+      "grad_norm": 0.04684421314626146,
       "learning_rate": 1.9115152345327154e-06,
+      "loss": 0.0391,
       "step": 200
     },
     {
       "epoch": 0.7573891625615764,
+      "grad_norm": 0.031274018167510506,
       "learning_rate": 1.6639657889429017e-06,
+      "loss": 0.0275,
       "step": 205
     },
     {
       "epoch": 0.7758620689655172,
+      "grad_norm": 0.03793766745215515,
       "learning_rate": 1.4303513272105057e-06,
+      "loss": 0.0312,
       "step": 210
     },
     {
       "epoch": 0.7943349753694581,
+      "grad_norm": 0.03084526133895099,
       "learning_rate": 1.2116476827794104e-06,
+      "loss": 0.0334,
       "step": 215
     },
     {
       "epoch": 0.812807881773399,
+      "grad_norm": 0.035909978135080484,
       "learning_rate": 1.008768404960535e-06,
+      "loss": 0.0329,
       "step": 220
     },
     {
       "epoch": 0.8312807881773399,
+      "grad_norm": 0.03337500963867465,
       "learning_rate": 8.225609429353187e-07,
+      "loss": 0.0299,
       "step": 225
     },
     {
       "epoch": 0.8497536945812808,
+      "grad_norm": 0.04194808091582502,
       "learning_rate": 6.53803105866761e-07,
+      "loss": 0.0312,
       "step": 230
     },
     {
       "epoch": 0.8682266009852216,
+      "grad_norm": 0.030185202275612954,
       "learning_rate": 5.031998139045352e-07,
+      "loss": 0.0291,
       "step": 235
     },
     {
       "epoch": 0.8866995073891626,
+      "grad_norm": 0.03678202209697851,
       "learning_rate": 3.7138015365554834e-07,
+      "loss": 0.0329,
       "step": 240
     },
     {
       "epoch": 0.9051724137931034,
+      "grad_norm": 0.026908956915127933,
       "learning_rate": 2.5889475041961767e-07,
+      "loss": 0.0318,
       "step": 245
     },
     {
       "epoch": 0.9236453201970444,
+      "grad_norm": 0.04036220391547687,
       "learning_rate": 1.6621346816668993e-07,
+      "loss": 0.0304,
       "step": 250
     },
     {
       "epoch": 0.9421182266009852,
+      "grad_norm": 0.037246305929994866,
       "learning_rate": 9.372344686307655e-08,
+      "loss": 0.036,
       "step": 255
     },
     {
       "epoch": 0.9605911330049262,
+      "grad_norm": 0.031641745281581694,
       "learning_rate": 4.172748534499449e-08,
+      "loss": 0.0296,
       "step": 260
     },
     {
       "epoch": 0.979064039408867,
+      "grad_norm": 0.03135655037281048,
       "learning_rate": 1.044277649433989e-08,
+      "loss": 0.0294,
       "step": 265
     },
     {
       "epoch": 0.9975369458128078,
+      "grad_norm": 0.03097346411772941,
       "learning_rate": 0.0,
       "loss": 0.033,
       "step": 270
       "attributes": {}
     }
   },
+  "total_flos": 8.643970128528015e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

checkpoint-270/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ff4e5552e9ba58a4e2366ab6ffcb7a8cbfe2b6095f19a538d8ef47b18b91bde
 size 7352

 version https://git-lfs.github.com/spec/v1
+oid sha256:68d8b75a1101f455c3bf040fa2f84956565ddbcbbaa9e7e94c618c261996c857
 size 7352

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2dabcb8b0e4eba4f88cc4d30176973016812cd5099a7a909b235afb1eae6519
 size 4877660776

 version https://git-lfs.github.com/spec/v1
+oid sha256:2577dc0dbdd5aeedf99725bf6e4df1233bacd820fee699f17a2c80a4b53ce29f
 size 4877660776

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7abf6cb7f1a7b0f888af0c3be62bdee65d6181f15f6781262a73b4a90c14ee07
 size 4932751008

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d903975881e7178cedcf8c3b6dc3994cae9143f64293260912c927341aa533a
 size 4932751008

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9698bdbdee3a3d9c6e2667f88e1ce9e9f5566668788f3d2c351b0d8353303bed
 size 4330865200

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a405c24d1e443985effa911704afeb8b8895263c4ca3dd7454eeb3de4cef8b3
 size 4330865200

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:945b3a362040493fde5d41f5e830d4cd91f1b52673fcc546d1fecdee39777261
 size 1089994880

 version https://git-lfs.github.com/spec/v1
+oid sha256:47537180f9b5498e5481a81d4e10154e932f26f4c2237edbf8d69850e580ed4c
 size 1089994880

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83396048d512ec1f3178af0d7c1f79a226bba041822614b0e26a4fd2d4b55bf7
-size 11421995

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb27d51a5fa5caa8502d091726ff7f63ada64f766ff94afe49fde7d3faba216f
+size 11421996

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.9975369458128078,
-    "total_flos": 6.535464838821315e+17,
-    "train_loss": 0.07531778989014802,
-    "train_runtime": 2373.3356,
     "train_samples": 6493,
-    "train_samples_per_second": 2.736,
-    "train_steps_per_second": 0.114
 }

 {
     "epoch": 0.9975369458128078,
+    "total_flos": 8.643970128528015e+17,
+    "train_loss": 0.07066047384783074,
+    "train_runtime": 3995.5402,
     "train_samples": 6493,
+    "train_samples_per_second": 1.625,
+    "train_steps_per_second": 0.068
 }

trainer_state.json CHANGED Viewed

@@ -10,385 +10,385 @@
   "log_history": [
     {
       "epoch": 0.003694581280788177,
-      "grad_norm": 1.7654963384889737,
       "learning_rate": 3.7037037037037036e-07,
-      "loss": 0.7143,
       "step": 1
     },
     {
       "epoch": 0.01847290640394089,
-      "grad_norm": 1.5199857516271311,
       "learning_rate": 1.8518518518518519e-06,
-      "loss": 0.6647,
       "step": 5
     },
     {
       "epoch": 0.03694581280788178,
-      "grad_norm": 0.49041355078257287,
       "learning_rate": 3.7037037037037037e-06,
-      "loss": 0.5847,
       "step": 10
     },
     {
       "epoch": 0.05541871921182266,
-      "grad_norm": 0.27640312040532583,
       "learning_rate": 5.555555555555557e-06,
-      "loss": 0.3425,
       "step": 15
     },
     {
       "epoch": 0.07389162561576355,
-      "grad_norm": 0.18417484630910924,
       "learning_rate": 7.4074074074074075e-06,
-      "loss": 0.1877,
       "step": 20
     },
     {
       "epoch": 0.09236453201970443,
-      "grad_norm": 0.10832669450973324,
       "learning_rate": 9.25925925925926e-06,
-      "loss": 0.1471,
       "step": 25
     },
     {
       "epoch": 0.11083743842364532,
-      "grad_norm": 0.08199058472718684,
       "learning_rate": 9.996239762521152e-06,
-      "loss": 0.1209,
       "step": 30
     },
     {
       "epoch": 0.12931034482758622,
-      "grad_norm": 0.06662942983937706,
       "learning_rate": 9.973281012033009e-06,
-      "loss": 0.1046,
       "step": 35
     },
     {
       "epoch": 0.1477832512315271,
-      "grad_norm": 0.06811085294724732,
       "learning_rate": 9.929548316723983e-06,
-      "loss": 0.0958,
       "step": 40
     },
     {
       "epoch": 0.16625615763546797,
-      "grad_norm": 0.055261792291083314,
       "learning_rate": 9.86522435289912e-06,
-      "loss": 0.0804,
       "step": 45
     },
     {
       "epoch": 0.18472906403940886,
-      "grad_norm": 0.05912952493839196,
       "learning_rate": 9.7805778088694e-06,
-      "loss": 0.072,
       "step": 50
     },
     {
       "epoch": 0.20320197044334976,
-      "grad_norm": 0.05664454056150425,
       "learning_rate": 9.67596226261095e-06,
-      "loss": 0.0657,
       "step": 55
     },
     {
       "epoch": 0.22167487684729065,
-      "grad_norm": 0.05397727582384683,
       "learning_rate": 9.551814704830734e-06,
-      "loss": 0.0626,
       "step": 60
     },
     {
       "epoch": 0.24014778325123154,
-      "grad_norm": 0.054354437756367974,
       "learning_rate": 9.40865371360804e-06,
-      "loss": 0.0567,
       "step": 65
     },
     {
       "epoch": 0.25862068965517243,
-      "grad_norm": 0.052656359957651395,
       "learning_rate": 9.247077288236488e-06,
-      "loss": 0.0506,
       "step": 70
     },
     {
       "epoch": 0.2770935960591133,
-      "grad_norm": 0.06099527619651085,
       "learning_rate": 9.067760351314838e-06,
-      "loss": 0.0447,
       "step": 75
     },
     {
       "epoch": 0.2955665024630542,
-      "grad_norm": 0.05601267986585614,
       "learning_rate": 8.871451929520662e-06,
-      "loss": 0.046,
       "step": 80
     },
     {
       "epoch": 0.31403940886699505,
-      "grad_norm": 0.05031077501489638,
       "learning_rate": 8.658972024843063e-06,
-      "loss": 0.0434,
       "step": 85
     },
     {
       "epoch": 0.33251231527093594,
-      "grad_norm": 0.05165558400160997,
       "learning_rate": 8.43120818934367e-06,
-      "loss": 0.0388,
       "step": 90
     },
     {
       "epoch": 0.35098522167487683,
-      "grad_norm": 0.05542969825706018,
       "learning_rate": 8.18911181775353e-06,
-      "loss": 0.0474,
       "step": 95
     },
     {
       "epoch": 0.3694581280788177,
-      "grad_norm": 0.054028908120351174,
       "learning_rate": 7.93369417339209e-06,
-      "loss": 0.0426,
       "step": 100
     },
     {
       "epoch": 0.3879310344827586,
-      "grad_norm": 0.043910381575552423,
       "learning_rate": 7.666022164008458e-06,
-      "loss": 0.0402,
       "step": 105
     },
     {
       "epoch": 0.4064039408866995,
-      "grad_norm": 0.04420065737962207,
       "learning_rate": 7.387213885189746e-06,
-      "loss": 0.0441,
       "step": 110
     },
     {
       "epoch": 0.4248768472906404,
-      "grad_norm": 0.042881775226418783,
       "learning_rate": 7.098433949952146e-06,
-      "loss": 0.0422,
       "step": 115
     },
     {
       "epoch": 0.4433497536945813,
-      "grad_norm": 0.04261745777882021,
       "learning_rate": 6.800888624023552e-06,
-      "loss": 0.0414,
       "step": 120
     },
     {
       "epoch": 0.4618226600985222,
-      "grad_norm": 0.03486953918711132,
       "learning_rate": 6.495820787138209e-06,
-      "loss": 0.0345,
       "step": 125
     },
     {
       "epoch": 0.4802955665024631,
-      "grad_norm": 0.04758579863549666,
       "learning_rate": 6.184504741390596e-06,
-      "loss": 0.0393,
       "step": 130
     },
     {
       "epoch": 0.4987684729064039,
-      "grad_norm": 0.04528381812617609,
       "learning_rate": 5.8682408883346535e-06,
-      "loss": 0.0355,
       "step": 135
     },
     {
       "epoch": 0.5172413793103449,
-      "grad_norm": 0.05087543134069284,
       "learning_rate": 5.548350297062659e-06,
-      "loss": 0.0376,
       "step": 140
     },
     {
       "epoch": 0.5357142857142857,
-      "grad_norm": 0.03521666590779419,
       "learning_rate": 5.2261691859535325e-06,
-      "loss": 0.0316,
       "step": 145
     },
     {
       "epoch": 0.5541871921182266,
-      "grad_norm": 0.0517150609216818,
       "learning_rate": 4.903043341140879e-06,
-      "loss": 0.032,
       "step": 150
     },
     {
       "epoch": 0.5726600985221675,
-      "grad_norm": 0.03346412011949477,
       "learning_rate": 4.580322495015466e-06,
-      "loss": 0.0303,
       "step": 155
     },
     {
       "epoch": 0.5911330049261084,
-      "grad_norm": 0.040115617332954906,
       "learning_rate": 4.259354688243758e-06,
-      "loss": 0.0382,
       "step": 160
     },
     {
       "epoch": 0.6096059113300493,
-      "grad_norm": 0.04277501887386235,
       "learning_rate": 3.941480638852948e-06,
-      "loss": 0.0291,
       "step": 165
     },
     {
       "epoch": 0.6280788177339901,
-      "grad_norm": 0.03898041246450539,
       "learning_rate": 3.6280281419034934e-06,
-      "loss": 0.0317,
       "step": 170
     },
     {
       "epoch": 0.646551724137931,
-      "grad_norm": 0.04371627160570444,
       "learning_rate": 3.3203065231422904e-06,
-      "loss": 0.0301,
       "step": 175
     },
     {
       "epoch": 0.6650246305418719,
-      "grad_norm": 0.03238864584138372,
       "learning_rate": 3.019601169804216e-06,
-      "loss": 0.0354,
       "step": 180
     },
     {
       "epoch": 0.6834975369458128,
-      "grad_norm": 0.041127251144739585,
       "learning_rate": 2.7271681614074973e-06,
-      "loss": 0.0294,
       "step": 185
     },
     {
       "epoch": 0.7019704433497537,
-      "grad_norm": 0.045180481360547094,
       "learning_rate": 2.4442290229706344e-06,
-      "loss": 0.0358,
       "step": 190
     },
     {
       "epoch": 0.7204433497536946,
-      "grad_norm": 0.045021953447442344,
       "learning_rate": 2.171965622567308e-06,
-      "loss": 0.0306,
       "step": 195
     },
     {
       "epoch": 0.7389162561576355,
-      "grad_norm": 0.050026098917487306,
       "learning_rate": 1.9115152345327154e-06,
-      "loss": 0.0418,
       "step": 200
     },
     {
       "epoch": 0.7573891625615764,
-      "grad_norm": 0.03656415909500236,
       "learning_rate": 1.6639657889429017e-06,
-      "loss": 0.0286,
       "step": 205
     },
     {
       "epoch": 0.7758620689655172,
-      "grad_norm": 0.045197818476724314,
       "learning_rate": 1.4303513272105057e-06,
-      "loss": 0.0317,
       "step": 210
     },
     {
       "epoch": 0.7943349753694581,
-      "grad_norm": 0.041762867738677684,
       "learning_rate": 1.2116476827794104e-06,
-      "loss": 0.0355,
       "step": 215
     },
     {
       "epoch": 0.812807881773399,
-      "grad_norm": 0.03975638695681742,
       "learning_rate": 1.008768404960535e-06,
-      "loss": 0.034,
       "step": 220
     },
     {
       "epoch": 0.8312807881773399,
-      "grad_norm": 0.03688322160939588,
       "learning_rate": 8.225609429353187e-07,
-      "loss": 0.0306,
       "step": 225
     },
     {
       "epoch": 0.8497536945812808,
-      "grad_norm": 0.045910201896259065,
       "learning_rate": 6.53803105866761e-07,
-      "loss": 0.032,
       "step": 230
     },
     {
       "epoch": 0.8682266009852216,
-      "grad_norm": 0.03466115718136847,
       "learning_rate": 5.031998139045352e-07,
-      "loss": 0.03,
       "step": 235
     },
     {
       "epoch": 0.8866995073891626,
-      "grad_norm": 0.04041208746429919,
       "learning_rate": 3.7138015365554834e-07,
-      "loss": 0.033,
       "step": 240
     },
     {
       "epoch": 0.9051724137931034,
-      "grad_norm": 0.030110072192059505,
       "learning_rate": 2.5889475041961767e-07,
-      "loss": 0.0316,
       "step": 245
     },
     {
       "epoch": 0.9236453201970444,
-      "grad_norm": 0.04208800780561471,
       "learning_rate": 1.6621346816668993e-07,
-      "loss": 0.0317,
       "step": 250
     },
     {
       "epoch": 0.9421182266009852,
-      "grad_norm": 0.040891559299692404,
       "learning_rate": 9.372344686307655e-08,
-      "loss": 0.0365,
       "step": 255
     },
     {
       "epoch": 0.9605911330049262,
-      "grad_norm": 0.03589408474423174,
       "learning_rate": 4.172748534499449e-08,
-      "loss": 0.0288,
       "step": 260
     },
     {
       "epoch": 0.979064039408867,
-      "grad_norm": 0.03745965637860769,
       "learning_rate": 1.044277649433989e-08,
-      "loss": 0.0307,
       "step": 265
     },
     {
       "epoch": 0.9975369458128078,
-      "grad_norm": 0.031721423195282906,
       "learning_rate": 0.0,
       "loss": 0.033,
       "step": 270
@@ -396,11 +396,11 @@
     {
       "epoch": 0.9975369458128078,
       "step": 270,
-      "total_flos": 6.535464838821315e+17,
-      "train_loss": 0.07531778989014802,
-      "train_runtime": 2373.3356,
-      "train_samples_per_second": 2.736,
-      "train_steps_per_second": 0.114
     }
   ],
   "logging_steps": 5,
@@ -420,7 +420,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.535464838821315e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.003694581280788177,
+      "grad_norm": 1.3164679266754151,
       "learning_rate": 3.7037037037037036e-07,
+      "loss": 0.5867,
       "step": 1
     },
     {
       "epoch": 0.01847290640394089,
+      "grad_norm": 0.8941813303905811,
       "learning_rate": 1.8518518518518519e-06,
+      "loss": 0.5684,
       "step": 5
     },
     {
       "epoch": 0.03694581280788178,
+      "grad_norm": 0.4848149582760561,
       "learning_rate": 3.7037037037037037e-06,
+      "loss": 0.5272,
       "step": 10
     },
     {
       "epoch": 0.05541871921182266,
+      "grad_norm": 0.23489374203812283,
       "learning_rate": 5.555555555555557e-06,
+      "loss": 0.3213,
       "step": 15
     },
     {
       "epoch": 0.07389162561576355,
+      "grad_norm": 0.17590513475537736,
       "learning_rate": 7.4074074074074075e-06,
+      "loss": 0.1719,
       "step": 20
     },
     {
       "epoch": 0.09236453201970443,
+      "grad_norm": 0.09924337039651394,
       "learning_rate": 9.25925925925926e-06,
+      "loss": 0.1392,
       "step": 25
     },
     {
       "epoch": 0.11083743842364532,
+      "grad_norm": 0.06829427058420333,
       "learning_rate": 9.996239762521152e-06,
+      "loss": 0.1168,
       "step": 30
     },
     {
       "epoch": 0.12931034482758622,
+      "grad_norm": 0.06324690561682543,
       "learning_rate": 9.973281012033009e-06,
+      "loss": 0.1009,
       "step": 35
     },
     {
       "epoch": 0.1477832512315271,
+      "grad_norm": 0.049072943668117305,
       "learning_rate": 9.929548316723983e-06,
+      "loss": 0.0886,
       "step": 40
     },
     {
       "epoch": 0.16625615763546797,
+      "grad_norm": 0.04472692512923622,
       "learning_rate": 9.86522435289912e-06,
+      "loss": 0.0772,
       "step": 45
     },
     {
       "epoch": 0.18472906403940886,
+      "grad_norm": 0.04320806158867543,
       "learning_rate": 9.7805778088694e-06,
+      "loss": 0.0677,
       "step": 50
     },
     {
       "epoch": 0.20320197044334976,
+      "grad_norm": 0.04347088345515666,
       "learning_rate": 9.67596226261095e-06,
+      "loss": 0.0652,
       "step": 55
     },
     {
       "epoch": 0.22167487684729065,
+      "grad_norm": 0.04636829853932609,
       "learning_rate": 9.551814704830734e-06,
+      "loss": 0.0618,
       "step": 60
     },
     {
       "epoch": 0.24014778325123154,
+      "grad_norm": 0.04911651390500423,
       "learning_rate": 9.40865371360804e-06,
+      "loss": 0.0564,
       "step": 65
     },
     {
       "epoch": 0.25862068965517243,
+      "grad_norm": 0.046124586761473525,
       "learning_rate": 9.247077288236488e-06,
+      "loss": 0.0496,
       "step": 70
     },
     {
       "epoch": 0.2770935960591133,
+      "grad_norm": 0.04282690739591252,
       "learning_rate": 9.067760351314838e-06,
+      "loss": 0.0443,
       "step": 75
     },
     {
       "epoch": 0.2955665024630542,
+      "grad_norm": 0.0501495787415551,
       "learning_rate": 8.871451929520662e-06,
+      "loss": 0.0472,
       "step": 80
     },
     {
       "epoch": 0.31403940886699505,
+      "grad_norm": 0.048856614296215864,
       "learning_rate": 8.658972024843063e-06,
+      "loss": 0.045,
       "step": 85
     },
     {
       "epoch": 0.33251231527093594,
+      "grad_norm": 0.052135344528722635,
       "learning_rate": 8.43120818934367e-06,
+      "loss": 0.0407,
       "step": 90
     },
     {
       "epoch": 0.35098522167487683,
+      "grad_norm": 0.04496874450828456,
       "learning_rate": 8.18911181775353e-06,
+      "loss": 0.0443,
       "step": 95
     },
     {
       "epoch": 0.3694581280788177,
+      "grad_norm": 0.046961464584805046,
       "learning_rate": 7.93369417339209e-06,
+      "loss": 0.043,
       "step": 100
     },
     {
       "epoch": 0.3879310344827586,
+      "grad_norm": 0.03774079876533218,
       "learning_rate": 7.666022164008458e-06,
+      "loss": 0.039,
       "step": 105
     },
     {
       "epoch": 0.4064039408866995,
+      "grad_norm": 0.039388091387549375,
       "learning_rate": 7.387213885189746e-06,
+      "loss": 0.043,
       "step": 110
     },
     {
       "epoch": 0.4248768472906404,
+      "grad_norm": 0.04010524552891231,
       "learning_rate": 7.098433949952146e-06,
+      "loss": 0.0418,
       "step": 115
     },
     {
       "epoch": 0.4433497536945813,
+      "grad_norm": 0.03364245597783716,
       "learning_rate": 6.800888624023552e-06,
+      "loss": 0.0396,
       "step": 120
     },
     {
       "epoch": 0.4618226600985222,
+      "grad_norm": 0.03214650791918716,
       "learning_rate": 6.495820787138209e-06,
+      "loss": 0.0343,
       "step": 125
     },
     {
       "epoch": 0.4802955665024631,
+      "grad_norm": 0.04248682387196562,
       "learning_rate": 6.184504741390596e-06,
+      "loss": 0.0385,
       "step": 130
     },
     {
       "epoch": 0.4987684729064039,
+      "grad_norm": 0.041745690695414894,
       "learning_rate": 5.8682408883346535e-06,
+      "loss": 0.0354,
       "step": 135
     },
     {
       "epoch": 0.5172413793103449,
+      "grad_norm": 0.043998119847084,
       "learning_rate": 5.548350297062659e-06,
+      "loss": 0.0363,
       "step": 140
     },
     {
       "epoch": 0.5357142857142857,
+      "grad_norm": 0.03523911995673237,
       "learning_rate": 5.2261691859535325e-06,
+      "loss": 0.0311,
       "step": 145
     },
     {
       "epoch": 0.5541871921182266,
+      "grad_norm": 0.051683301339415226,
       "learning_rate": 4.903043341140879e-06,
+      "loss": 0.0322,
       "step": 150
     },
     {
       "epoch": 0.5726600985221675,
+      "grad_norm": 0.029645536386539162,
       "learning_rate": 4.580322495015466e-06,
+      "loss": 0.0297,
       "step": 155
     },
     {
       "epoch": 0.5911330049261084,
+      "grad_norm": 0.038478089898929216,
       "learning_rate": 4.259354688243758e-06,
+      "loss": 0.0373,
       "step": 160
     },
     {
       "epoch": 0.6096059113300493,
+      "grad_norm": 0.04016397060959619,
       "learning_rate": 3.941480638852948e-06,
+      "loss": 0.0293,
       "step": 165
     },
     {
       "epoch": 0.6280788177339901,
+      "grad_norm": 0.03295300026030036,
       "learning_rate": 3.6280281419034934e-06,
+      "loss": 0.0306,
       "step": 170
     },
     {
       "epoch": 0.646551724137931,
+      "grad_norm": 0.04371251122688708,
       "learning_rate": 3.3203065231422904e-06,
+      "loss": 0.0292,
       "step": 175
     },
     {
       "epoch": 0.6650246305418719,
+      "grad_norm": 0.02878432244430226,
       "learning_rate": 3.019601169804216e-06,
+      "loss": 0.0348,
       "step": 180
     },
     {
       "epoch": 0.6834975369458128,
+      "grad_norm": 0.03582599925982462,
       "learning_rate": 2.7271681614074973e-06,
+      "loss": 0.0292,
       "step": 185
     },
     {
       "epoch": 0.7019704433497537,
+      "grad_norm": 0.04498392884678493,
       "learning_rate": 2.4442290229706344e-06,
+      "loss": 0.0355,
       "step": 190
     },
     {
       "epoch": 0.7204433497536946,
+      "grad_norm": 0.03888587884987569,
       "learning_rate": 2.171965622567308e-06,
+      "loss": 0.0311,
       "step": 195
     },
     {
       "epoch": 0.7389162561576355,
+      "grad_norm": 0.04684421314626146,
       "learning_rate": 1.9115152345327154e-06,
+      "loss": 0.0391,
       "step": 200
     },
     {
       "epoch": 0.7573891625615764,
+      "grad_norm": 0.031274018167510506,
       "learning_rate": 1.6639657889429017e-06,
+      "loss": 0.0275,
       "step": 205
     },
     {
       "epoch": 0.7758620689655172,
+      "grad_norm": 0.03793766745215515,
       "learning_rate": 1.4303513272105057e-06,
+      "loss": 0.0312,
       "step": 210
     },
     {
       "epoch": 0.7943349753694581,
+      "grad_norm": 0.03084526133895099,
       "learning_rate": 1.2116476827794104e-06,
+      "loss": 0.0334,
       "step": 215
     },
     {
       "epoch": 0.812807881773399,
+      "grad_norm": 0.035909978135080484,
       "learning_rate": 1.008768404960535e-06,
+      "loss": 0.0329,
       "step": 220
     },
     {
       "epoch": 0.8312807881773399,
+      "grad_norm": 0.03337500963867465,
       "learning_rate": 8.225609429353187e-07,
+      "loss": 0.0299,
       "step": 225
     },
     {
       "epoch": 0.8497536945812808,
+      "grad_norm": 0.04194808091582502,
       "learning_rate": 6.53803105866761e-07,
+      "loss": 0.0312,
       "step": 230
     },
     {
       "epoch": 0.8682266009852216,
+      "grad_norm": 0.030185202275612954,
       "learning_rate": 5.031998139045352e-07,
+      "loss": 0.0291,
       "step": 235
     },
     {
       "epoch": 0.8866995073891626,
+      "grad_norm": 0.03678202209697851,
       "learning_rate": 3.7138015365554834e-07,
+      "loss": 0.0329,
       "step": 240
     },
     {
       "epoch": 0.9051724137931034,
+      "grad_norm": 0.026908956915127933,
       "learning_rate": 2.5889475041961767e-07,
+      "loss": 0.0318,
       "step": 245
     },
     {
       "epoch": 0.9236453201970444,
+      "grad_norm": 0.04036220391547687,
       "learning_rate": 1.6621346816668993e-07,
+      "loss": 0.0304,
       "step": 250
     },
     {
       "epoch": 0.9421182266009852,
+      "grad_norm": 0.037246305929994866,
       "learning_rate": 9.372344686307655e-08,
+      "loss": 0.036,
       "step": 255
     },
     {
       "epoch": 0.9605911330049262,
+      "grad_norm": 0.031641745281581694,
       "learning_rate": 4.172748534499449e-08,
+      "loss": 0.0296,
       "step": 260
     },
     {
       "epoch": 0.979064039408867,
+      "grad_norm": 0.03135655037281048,
       "learning_rate": 1.044277649433989e-08,
+      "loss": 0.0294,
       "step": 265
     },
     {
       "epoch": 0.9975369458128078,
+      "grad_norm": 0.03097346411772941,
       "learning_rate": 0.0,
       "loss": 0.033,
       "step": 270
     {
       "epoch": 0.9975369458128078,
       "step": 270,
+      "total_flos": 8.643970128528015e+17,
+      "train_loss": 0.07066047384783074,
+      "train_runtime": 3995.5402,
+      "train_samples_per_second": 1.625,
+      "train_steps_per_second": 0.068
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 8.643970128528015e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ff4e5552e9ba58a4e2366ab6ffcb7a8cbfe2b6095f19a538d8ef47b18b91bde
 size 7352

 version https://git-lfs.github.com/spec/v1
+oid sha256:68d8b75a1101f455c3bf040fa2f84956565ddbcbbaa9e7e94c618c261996c857
 size 7352