mansaripo commited on Sep 1

Commit

f20990f

verified ·

1 Parent(s): 92474f9

Add files using upload-large-folder tool

Browse files

Files changed (37) hide show

.gitattributes +1 -0
config.json +38 -0
generation_config.json +6 -0
model-00001-of-00030.safetensors +3 -0
model-00002-of-00030.safetensors +3 -0
model-00003-of-00030.safetensors +3 -0
model-00004-of-00030.safetensors +3 -0
model-00005-of-00030.safetensors +3 -0
model-00006-of-00030.safetensors +3 -0
model-00007-of-00030.safetensors +3 -0
model-00008-of-00030.safetensors +3 -0
model-00009-of-00030.safetensors +3 -0
model-00010-of-00030.safetensors +3 -0
model-00011-of-00030.safetensors +3 -0
model-00012-of-00030.safetensors +3 -0
model-00013-of-00030.safetensors +3 -0
model-00014-of-00030.safetensors +3 -0
model-00015-of-00030.safetensors +3 -0
model-00016-of-00030.safetensors +3 -0
model-00017-of-00030.safetensors +3 -0
model-00018-of-00030.safetensors +3 -0
model-00019-of-00030.safetensors +3 -0
model-00020-of-00030.safetensors +3 -0
model-00021-of-00030.safetensors +3 -0
model-00022-of-00030.safetensors +3 -0
model-00023-of-00030.safetensors +3 -0
model-00024-of-00030.safetensors +3 -0
model-00025-of-00030.safetensors +3 -0
model-00026-of-00030.safetensors +3 -0
model-00027-of-00030.safetensors +3 -0
model-00028-of-00030.safetensors +3 -0
model-00029-of-00030.safetensors +3 -0
model-00030-of-00030.safetensors +3 -0
model.safetensors.index.json +1131 -0
special_tokens_map.json +30 -0
tokenizer.json +3 -0
tokenizer_config.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "architectures": [
+    "ApertusForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "dtype": "bfloat16",
+  "eos_token_id": 2,
+  "hidden_act": "xielu",
+  "hidden_dropout": 0.0,
+  "hidden_size": 8192,
+  "initializer_range": 0.02,
+  "intermediate_size": 43008,
+  "max_position_embeddings": 65536,
+  "mlp_bias": false,
+  "model_type": "apertus",
+  "num_attention_heads": 64,
+  "num_hidden_layers": 80,
+  "num_key_value_heads": 8,
+  "pad_token_id": 3,
+  "post_norm": false,
+  "qk_norm": true,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 8.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3",
+    "type": "llama3"
+  },
+  "rope_theta": 500000,
+  "tie_word_embeddings": false,
+  "transformers_version": "4.56.0.dev0",
+  "use_cache": false,
+  "vocab_size": 131072
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": [2, 68, 72],
+  "transformers_version": "4.54.0.dev0"
+}

model-00001-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3999deac891c7e0433ef0926e0edb571e690263e38f20a074c75ff0a872a3913
+size 4865428944

model-00002-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0c74e369f63d05898d3ced3b198dfb7b3143d60568dbb44bd5dd8f7377daf1a
+size 4429289408

model-00003-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c112bfb38d0ca43e26f5b16fc66f7a93433cd2e8fe2fc78ad5c866b237547df8
+size 4999714024

model-00004-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29bc53591567cd8d253c3f9f383563eae112a030826c24f339de13cb83b72325
+size 4966160096

model-00005-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:35898c32dd944fedc3654f11d2025df8a2788d54fbaf11ce21818344327e59d3
+size 4429256040

model-00006-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:21b545587d2671908d3f8ecff6d1f6f1a2fd8a3c2359c67c9db76c21392a2cc7
+size 4429289448

model-00007-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fed0396ef8fd429a80473896c9825beeaefe20cbc4bae2202d7f3217b7278f6
+size 4999714064

model-00008-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:595123b53b8ea613cc82d0d28fa2db137be8d591c66eaf54477c8099b4261de1
+size 4966160128

model-00009-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9f3bf46255975e24e3fba585cfbc04eb61d85f6af2cc9c8330ab45028c6378a
+size 4429256040

model-00010-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:714075c2f817e6de15f4759514e5692f876573fce78fcfdc3bd3eef8755fb8d2
+size 4429289448

model-00011-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b51c03a8b78a3ec57784cfa3dbec88194277ba6c1dae73bc98bc1127068bd197
+size 4999714064

model-00012-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e50e2a30de4d974b96f3bd16e683d4e728bba5b771c4b831703d5ccfdd87e9ab
+size 4966160128

model-00013-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c57e6c9b4c2755b7e5ed091bbcbdd9d3bd36269b38f2d6844e1edc48af873bdc
+size 4429256040

model-00014-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f59f99fb14ddf814c00e81dfed73c3d736ec5ebedf615f857e94766d193f1cca
+size 4429289448

model-00015-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:049d9bce51bea070841431b6ae8705ee9d8bb08b4809ba055a24b222cad04556
+size 4999714064

model-00016-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:21715cf5c643c53c29bc10217479c3e5d9881aaa40b09c5cc31caf3a6956ad2f
+size 4966160128

model-00017-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44a80f3d138d9606babf081ba0d3e9db2f7b195a75f33ee7a4c8e7a8ea28e589
+size 4429256040

model-00018-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:468e7c6805274688b3f8055565941274d2affbcea7c1c36000b3bfd911cf409c
+size 4429289448

model-00019-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b986344fc30cecf27026d845b366e278af8c40fba14acff8c991c968c3bde28
+size 4999714064

model-00020-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95d22a3d8ef35ad5290a2f151e5037ef56a319e171b9a1bd638e3409b9cb05e7
+size 4966160128

model-00021-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0ee5da2a81f784cb989fc82bf0f41c92b090ddfa022266541ec98ccc67edbf57
+size 4429256040

model-00022-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5dace41cd4a39bbd3406f8433fa9c9b8bc8020eeb0657b7bd91f75108082ac5c
+size 4429289448

model-00023-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db25f05dcbcc3f9a0c95aeb153cb5109e6813d3cd4555947b258f148de51bc13
+size 4999714064

model-00024-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c478a31476be5824b19299d56e1a984255a0f2eede8d595a2ef3a53242eac8ed
+size 4966160128

model-00025-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ed8bd39c6281a5e1633f40d33f40cd3f6f42901bf0be1814d19a84b4f7540e95
+size 4429256040

model-00026-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c48724ee4cd128cf2b9ac10bb112b8ac83527388b9b75d6bf772d3a195cce1e
+size 4429289448

model-00027-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55b6ef1aa117ff5c23d15ff1d81fe8527b3280fc4bafb9657a3a78768373a907
+size 4999714064

model-00028-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:979f64ef3a4819a8b9a55da5daa320b1177fa0b91550a014d526279f0e5a273c
+size 4966160128

model-00029-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:482c98320498f7aea95462c78f13b412408bff4f28af3d099f3c5e9a52411988
+size 4429256040

model-00030-of-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb70787eadbb3832e8ce486449c2433d47de80f541c6c5f7cf395a8046bb37cd
+size 4563487752

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,1131 @@

+{
+  "metadata": {
+    "total_parameters": 70599864480,
+    "total_size": 141199729280
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00030-of-00030.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00030.safetensors",
+    "model.layers.0.attention_layernorm.weight": "model-00001-of-00030.safetensors",
+    "model.layers.0.feedforward_layernorm.weight": "model-00001-of-00030.safetensors",
+    "model.layers.0.mlp.act_fn.alpha_n": "model-00001-of-00030.safetensors",
+    "model.layers.0.mlp.act_fn.alpha_p": "model-00001-of-00030.safetensors",
+    "model.layers.0.mlp.act_fn.beta": "model-00001-of-00030.safetensors",
+    "model.layers.0.mlp.act_fn.eps": "model-00001-of-00030.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.0.self_attn.k_norm.weight": "model-00001-of-00030.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.0.self_attn.q_norm.weight": "model-00001-of-00030.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.1.attention_layernorm.weight": "model-00002-of-00030.safetensors",
+    "model.layers.1.feedforward_layernorm.weight": "model-00002-of-00030.safetensors",
+    "model.layers.1.mlp.act_fn.alpha_n": "model-00002-of-00030.safetensors",
+    "model.layers.1.mlp.act_fn.alpha_p": "model-00002-of-00030.safetensors",
+    "model.layers.1.mlp.act_fn.beta": "model-00002-of-00030.safetensors",
+    "model.layers.1.mlp.act_fn.eps": "model-00002-of-00030.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.1.self_attn.k_norm.weight": "model-00001-of-00030.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.1.self_attn.q_norm.weight": "model-00001-of-00030.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00030.safetensors",
+    "model.layers.10.attention_layernorm.weight": "model-00005-of-00030.safetensors",
+    "model.layers.10.feedforward_layernorm.weight": "model-00005-of-00030.safetensors",
+    "model.layers.10.mlp.act_fn.alpha_n": "model-00005-of-00030.safetensors",
+    "model.layers.10.mlp.act_fn.alpha_p": "model-00005-of-00030.safetensors",
+    "model.layers.10.mlp.act_fn.beta": "model-00005-of-00030.safetensors",
+    "model.layers.10.mlp.act_fn.eps": "model-00005-of-00030.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.10.self_attn.k_norm.weight": "model-00005-of-00030.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.10.self_attn.q_norm.weight": "model-00005-of-00030.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.11.attention_layernorm.weight": "model-00005-of-00030.safetensors",
+    "model.layers.11.feedforward_layernorm.weight": "model-00005-of-00030.safetensors",
+    "model.layers.11.mlp.act_fn.alpha_n": "model-00005-of-00030.safetensors",
+    "model.layers.11.mlp.act_fn.alpha_p": "model-00005-of-00030.safetensors",
+    "model.layers.11.mlp.act_fn.beta": "model-00005-of-00030.safetensors",
+    "model.layers.11.mlp.act_fn.eps": "model-00005-of-00030.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.11.self_attn.k_norm.weight": "model-00005-of-00030.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.11.self_attn.q_norm.weight": "model-00005-of-00030.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.12.attention_layernorm.weight": "model-00006-of-00030.safetensors",
+    "model.layers.12.feedforward_layernorm.weight": "model-00006-of-00030.safetensors",
+    "model.layers.12.mlp.act_fn.alpha_n": "model-00006-of-00030.safetensors",
+    "model.layers.12.mlp.act_fn.alpha_p": "model-00006-of-00030.safetensors",
+    "model.layers.12.mlp.act_fn.beta": "model-00006-of-00030.safetensors",
+    "model.layers.12.mlp.act_fn.eps": "model-00006-of-00030.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.12.self_attn.k_norm.weight": "model-00005-of-00030.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.12.self_attn.q_norm.weight": "model-00005-of-00030.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00005-of-00030.safetensors",
+    "model.layers.13.attention_layernorm.weight": "model-00006-of-00030.safetensors",
+    "model.layers.13.feedforward_layernorm.weight": "model-00006-of-00030.safetensors",
+    "model.layers.13.mlp.act_fn.alpha_n": "model-00006-of-00030.safetensors",
+    "model.layers.13.mlp.act_fn.alpha_p": "model-00006-of-00030.safetensors",
+    "model.layers.13.mlp.act_fn.beta": "model-00006-of-00030.safetensors",
+    "model.layers.13.mlp.act_fn.eps": "model-00006-of-00030.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.13.self_attn.k_norm.weight": "model-00006-of-00030.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.13.self_attn.q_norm.weight": "model-00006-of-00030.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.14.attention_layernorm.weight": "model-00006-of-00030.safetensors",
+    "model.layers.14.feedforward_layernorm.weight": "model-00006-of-00030.safetensors",
+    "model.layers.14.mlp.act_fn.alpha_n": "model-00006-of-00030.safetensors",
+    "model.layers.14.mlp.act_fn.alpha_p": "model-00006-of-00030.safetensors",
+    "model.layers.14.mlp.act_fn.beta": "model-00006-of-00030.safetensors",
+    "model.layers.14.mlp.act_fn.eps": "model-00006-of-00030.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.14.self_attn.k_norm.weight": "model-00006-of-00030.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.14.self_attn.q_norm.weight": "model-00006-of-00030.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.15.attention_layernorm.weight": "model-00007-of-00030.safetensors",
+    "model.layers.15.feedforward_layernorm.weight": "model-00007-of-00030.safetensors",
+    "model.layers.15.mlp.act_fn.alpha_n": "model-00007-of-00030.safetensors",
+    "model.layers.15.mlp.act_fn.alpha_p": "model-00007-of-00030.safetensors",
+    "model.layers.15.mlp.act_fn.beta": "model-00007-of-00030.safetensors",
+    "model.layers.15.mlp.act_fn.eps": "model-00007-of-00030.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.15.self_attn.k_norm.weight": "model-00006-of-00030.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.15.self_attn.q_norm.weight": "model-00006-of-00030.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00006-of-00030.safetensors",
+    "model.layers.16.attention_layernorm.weight": "model-00007-of-00030.safetensors",
+    "model.layers.16.feedforward_layernorm.weight": "model-00007-of-00030.safetensors",
+    "model.layers.16.mlp.act_fn.alpha_n": "model-00007-of-00030.safetensors",
+    "model.layers.16.mlp.act_fn.alpha_p": "model-00007-of-00030.safetensors",
+    "model.layers.16.mlp.act_fn.beta": "model-00007-of-00030.safetensors",
+    "model.layers.16.mlp.act_fn.eps": "model-00007-of-00030.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.16.self_attn.k_norm.weight": "model-00007-of-00030.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.16.self_attn.q_norm.weight": "model-00007-of-00030.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.17.attention_layernorm.weight": "model-00007-of-00030.safetensors",
+    "model.layers.17.feedforward_layernorm.weight": "model-00007-of-00030.safetensors",
+    "model.layers.17.mlp.act_fn.alpha_n": "model-00007-of-00030.safetensors",
+    "model.layers.17.mlp.act_fn.alpha_p": "model-00007-of-00030.safetensors",
+    "model.layers.17.mlp.act_fn.beta": "model-00007-of-00030.safetensors",
+    "model.layers.17.mlp.act_fn.eps": "model-00007-of-00030.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.17.self_attn.k_norm.weight": "model-00007-of-00030.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.17.self_attn.q_norm.weight": "model-00007-of-00030.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.18.attention_layernorm.weight": "model-00008-of-00030.safetensors",
+    "model.layers.18.feedforward_layernorm.weight": "model-00008-of-00030.safetensors",
+    "model.layers.18.mlp.act_fn.alpha_n": "model-00008-of-00030.safetensors",
+    "model.layers.18.mlp.act_fn.alpha_p": "model-00008-of-00030.safetensors",
+    "model.layers.18.mlp.act_fn.beta": "model-00008-of-00030.safetensors",
+    "model.layers.18.mlp.act_fn.eps": "model-00008-of-00030.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.18.self_attn.k_norm.weight": "model-00008-of-00030.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.18.self_attn.q_norm.weight": "model-00008-of-00030.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00007-of-00030.safetensors",
+    "model.layers.19.attention_layernorm.weight": "model-00008-of-00030.safetensors",
+    "model.layers.19.feedforward_layernorm.weight": "model-00008-of-00030.safetensors",
+    "model.layers.19.mlp.act_fn.alpha_n": "model-00008-of-00030.safetensors",
+    "model.layers.19.mlp.act_fn.alpha_p": "model-00008-of-00030.safetensors",
+    "model.layers.19.mlp.act_fn.beta": "model-00008-of-00030.safetensors",
+    "model.layers.19.mlp.act_fn.eps": "model-00008-of-00030.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.19.self_attn.k_norm.weight": "model-00008-of-00030.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.19.self_attn.q_norm.weight": "model-00008-of-00030.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.2.attention_layernorm.weight": "model-00002-of-00030.safetensors",
+    "model.layers.2.feedforward_layernorm.weight": "model-00002-of-00030.safetensors",
+    "model.layers.2.mlp.act_fn.alpha_n": "model-00002-of-00030.safetensors",
+    "model.layers.2.mlp.act_fn.alpha_p": "model-00002-of-00030.safetensors",
+    "model.layers.2.mlp.act_fn.beta": "model-00002-of-00030.safetensors",
+    "model.layers.2.mlp.act_fn.eps": "model-00002-of-00030.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.2.self_attn.k_norm.weight": "model-00002-of-00030.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.2.self_attn.q_norm.weight": "model-00002-of-00030.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.20.attention_layernorm.weight": "model-00008-of-00030.safetensors",
+    "model.layers.20.feedforward_layernorm.weight": "model-00008-of-00030.safetensors",
+    "model.layers.20.mlp.act_fn.alpha_n": "model-00008-of-00030.safetensors",
+    "model.layers.20.mlp.act_fn.alpha_p": "model-00008-of-00030.safetensors",
+    "model.layers.20.mlp.act_fn.beta": "model-00008-of-00030.safetensors",
+    "model.layers.20.mlp.act_fn.eps": "model-00008-of-00030.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.20.self_attn.k_norm.weight": "model-00008-of-00030.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.20.self_attn.q_norm.weight": "model-00008-of-00030.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00008-of-00030.safetensors",
+    "model.layers.21.attention_layernorm.weight": "model-00009-of-00030.safetensors",
+    "model.layers.21.feedforward_layernorm.weight": "model-00009-of-00030.safetensors",
+    "model.layers.21.mlp.act_fn.alpha_n": "model-00009-of-00030.safetensors",
+    "model.layers.21.mlp.act_fn.alpha_p": "model-00009-of-00030.safetensors",
+    "model.layers.21.mlp.act_fn.beta": "model-00009-of-00030.safetensors",
+    "model.layers.21.mlp.act_fn.eps": "model-00009-of-00030.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.21.self_attn.k_norm.weight": "model-00009-of-00030.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.21.self_attn.q_norm.weight": "model-00009-of-00030.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.22.attention_layernorm.weight": "model-00009-of-00030.safetensors",
+    "model.layers.22.feedforward_layernorm.weight": "model-00009-of-00030.safetensors",
+    "model.layers.22.mlp.act_fn.alpha_n": "model-00009-of-00030.safetensors",
+    "model.layers.22.mlp.act_fn.alpha_p": "model-00009-of-00030.safetensors",
+    "model.layers.22.mlp.act_fn.beta": "model-00009-of-00030.safetensors",
+    "model.layers.22.mlp.act_fn.eps": "model-00009-of-00030.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.22.self_attn.k_norm.weight": "model-00009-of-00030.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.22.self_attn.q_norm.weight": "model-00009-of-00030.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.23.attention_layernorm.weight": "model-00010-of-00030.safetensors",
+    "model.layers.23.feedforward_layernorm.weight": "model-00010-of-00030.safetensors",
+    "model.layers.23.mlp.act_fn.alpha_n": "model-00010-of-00030.safetensors",
+    "model.layers.23.mlp.act_fn.alpha_p": "model-00010-of-00030.safetensors",
+    "model.layers.23.mlp.act_fn.beta": "model-00010-of-00030.safetensors",
+    "model.layers.23.mlp.act_fn.eps": "model-00010-of-00030.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.23.self_attn.k_norm.weight": "model-00009-of-00030.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.23.self_attn.q_norm.weight": "model-00009-of-00030.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00009-of-00030.safetensors",
+    "model.layers.24.attention_layernorm.weight": "model-00010-of-00030.safetensors",
+    "model.layers.24.feedforward_layernorm.weight": "model-00010-of-00030.safetensors",
+    "model.layers.24.mlp.act_fn.alpha_n": "model-00010-of-00030.safetensors",
+    "model.layers.24.mlp.act_fn.alpha_p": "model-00010-of-00030.safetensors",
+    "model.layers.24.mlp.act_fn.beta": "model-00010-of-00030.safetensors",
+    "model.layers.24.mlp.act_fn.eps": "model-00010-of-00030.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.24.self_attn.k_norm.weight": "model-00010-of-00030.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.24.self_attn.q_norm.weight": "model-00010-of-00030.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.25.attention_layernorm.weight": "model-00010-of-00030.safetensors",
+    "model.layers.25.feedforward_layernorm.weight": "model-00010-of-00030.safetensors",
+    "model.layers.25.mlp.act_fn.alpha_n": "model-00010-of-00030.safetensors",
+    "model.layers.25.mlp.act_fn.alpha_p": "model-00010-of-00030.safetensors",
+    "model.layers.25.mlp.act_fn.beta": "model-00010-of-00030.safetensors",
+    "model.layers.25.mlp.act_fn.eps": "model-00010-of-00030.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.25.self_attn.k_norm.weight": "model-00010-of-00030.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.25.self_attn.q_norm.weight": "model-00010-of-00030.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.26.attention_layernorm.weight": "model-00011-of-00030.safetensors",
+    "model.layers.26.feedforward_layernorm.weight": "model-00011-of-00030.safetensors",
+    "model.layers.26.mlp.act_fn.alpha_n": "model-00011-of-00030.safetensors",
+    "model.layers.26.mlp.act_fn.alpha_p": "model-00011-of-00030.safetensors",
+    "model.layers.26.mlp.act_fn.beta": "model-00011-of-00030.safetensors",
+    "model.layers.26.mlp.act_fn.eps": "model-00011-of-00030.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.26.self_attn.k_norm.weight": "model-00010-of-00030.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.26.self_attn.q_norm.weight": "model-00010-of-00030.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00010-of-00030.safetensors",
+    "model.layers.27.attention_layernorm.weight": "model-00011-of-00030.safetensors",
+    "model.layers.27.feedforward_layernorm.weight": "model-00011-of-00030.safetensors",
+    "model.layers.27.mlp.act_fn.alpha_n": "model-00011-of-00030.safetensors",
+    "model.layers.27.mlp.act_fn.alpha_p": "model-00011-of-00030.safetensors",
+    "model.layers.27.mlp.act_fn.beta": "model-00011-of-00030.safetensors",
+    "model.layers.27.mlp.act_fn.eps": "model-00011-of-00030.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.27.self_attn.k_norm.weight": "model-00011-of-00030.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.27.self_attn.q_norm.weight": "model-00011-of-00030.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.28.attention_layernorm.weight": "model-00011-of-00030.safetensors",
+    "model.layers.28.feedforward_layernorm.weight": "model-00011-of-00030.safetensors",
+    "model.layers.28.mlp.act_fn.alpha_n": "model-00011-of-00030.safetensors",
+    "model.layers.28.mlp.act_fn.alpha_p": "model-00011-of-00030.safetensors",
+    "model.layers.28.mlp.act_fn.beta": "model-00011-of-00030.safetensors",
+    "model.layers.28.mlp.act_fn.eps": "model-00011-of-00030.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.28.self_attn.k_norm.weight": "model-00011-of-00030.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.28.self_attn.q_norm.weight": "model-00011-of-00030.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.29.attention_layernorm.weight": "model-00012-of-00030.safetensors",
+    "model.layers.29.feedforward_layernorm.weight": "model-00012-of-00030.safetensors",
+    "model.layers.29.mlp.act_fn.alpha_n": "model-00012-of-00030.safetensors",
+    "model.layers.29.mlp.act_fn.alpha_p": "model-00012-of-00030.safetensors",
+    "model.layers.29.mlp.act_fn.beta": "model-00012-of-00030.safetensors",
+    "model.layers.29.mlp.act_fn.eps": "model-00012-of-00030.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.29.self_attn.k_norm.weight": "model-00012-of-00030.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.29.self_attn.q_norm.weight": "model-00012-of-00030.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00011-of-00030.safetensors",
+    "model.layers.3.attention_layernorm.weight": "model-00002-of-00030.safetensors",
+    "model.layers.3.feedforward_layernorm.weight": "model-00002-of-00030.safetensors",
+    "model.layers.3.mlp.act_fn.alpha_n": "model-00002-of-00030.safetensors",
+    "model.layers.3.mlp.act_fn.alpha_p": "model-00002-of-00030.safetensors",
+    "model.layers.3.mlp.act_fn.beta": "model-00002-of-00030.safetensors",
+    "model.layers.3.mlp.act_fn.eps": "model-00002-of-00030.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.3.self_attn.k_norm.weight": "model-00002-of-00030.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.3.self_attn.q_norm.weight": "model-00002-of-00030.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.30.attention_layernorm.weight": "model-00012-of-00030.safetensors",
+    "model.layers.30.feedforward_layernorm.weight": "model-00012-of-00030.safetensors",
+    "model.layers.30.mlp.act_fn.alpha_n": "model-00012-of-00030.safetensors",
+    "model.layers.30.mlp.act_fn.alpha_p": "model-00012-of-00030.safetensors",
+    "model.layers.30.mlp.act_fn.beta": "model-00012-of-00030.safetensors",
+    "model.layers.30.mlp.act_fn.eps": "model-00012-of-00030.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.30.self_attn.k_norm.weight": "model-00012-of-00030.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.30.self_attn.q_norm.weight": "model-00012-of-00030.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.31.attention_layernorm.weight": "model-00012-of-00030.safetensors",
+    "model.layers.31.feedforward_layernorm.weight": "model-00012-of-00030.safetensors",
+    "model.layers.31.mlp.act_fn.alpha_n": "model-00012-of-00030.safetensors",
+    "model.layers.31.mlp.act_fn.alpha_p": "model-00012-of-00030.safetensors",
+    "model.layers.31.mlp.act_fn.beta": "model-00012-of-00030.safetensors",
+    "model.layers.31.mlp.act_fn.eps": "model-00012-of-00030.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.31.self_attn.k_norm.weight": "model-00012-of-00030.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.31.self_attn.q_norm.weight": "model-00012-of-00030.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00012-of-00030.safetensors",
+    "model.layers.32.attention_layernorm.weight": "model-00013-of-00030.safetensors",
+    "model.layers.32.feedforward_layernorm.weight": "model-00013-of-00030.safetensors",
+    "model.layers.32.mlp.act_fn.alpha_n": "model-00013-of-00030.safetensors",
+    "model.layers.32.mlp.act_fn.alpha_p": "model-00013-of-00030.safetensors",
+    "model.layers.32.mlp.act_fn.beta": "model-00013-of-00030.safetensors",
+    "model.layers.32.mlp.act_fn.eps": "model-00013-of-00030.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.32.self_attn.k_norm.weight": "model-00013-of-00030.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.32.self_attn.q_norm.weight": "model-00013-of-00030.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.33.attention_layernorm.weight": "model-00013-of-00030.safetensors",
+    "model.layers.33.feedforward_layernorm.weight": "model-00013-of-00030.safetensors",
+    "model.layers.33.mlp.act_fn.alpha_n": "model-00013-of-00030.safetensors",
+    "model.layers.33.mlp.act_fn.alpha_p": "model-00013-of-00030.safetensors",
+    "model.layers.33.mlp.act_fn.beta": "model-00013-of-00030.safetensors",
+    "model.layers.33.mlp.act_fn.eps": "model-00013-of-00030.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.33.self_attn.k_norm.weight": "model-00013-of-00030.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.33.self_attn.q_norm.weight": "model-00013-of-00030.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.34.attention_layernorm.weight": "model-00014-of-00030.safetensors",
+    "model.layers.34.feedforward_layernorm.weight": "model-00014-of-00030.safetensors",
+    "model.layers.34.mlp.act_fn.alpha_n": "model-00014-of-00030.safetensors",
+    "model.layers.34.mlp.act_fn.alpha_p": "model-00014-of-00030.safetensors",
+    "model.layers.34.mlp.act_fn.beta": "model-00014-of-00030.safetensors",
+    "model.layers.34.mlp.act_fn.eps": "model-00014-of-00030.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.34.self_attn.k_norm.weight": "model-00013-of-00030.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.34.self_attn.q_norm.weight": "model-00013-of-00030.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00013-of-00030.safetensors",
+    "model.layers.35.attention_layernorm.weight": "model-00014-of-00030.safetensors",
+    "model.layers.35.feedforward_layernorm.weight": "model-00014-of-00030.safetensors",
+    "model.layers.35.mlp.act_fn.alpha_n": "model-00014-of-00030.safetensors",
+    "model.layers.35.mlp.act_fn.alpha_p": "model-00014-of-00030.safetensors",
+    "model.layers.35.mlp.act_fn.beta": "model-00014-of-00030.safetensors",
+    "model.layers.35.mlp.act_fn.eps": "model-00014-of-00030.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.35.self_attn.k_norm.weight": "model-00014-of-00030.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.35.self_attn.q_norm.weight": "model-00014-of-00030.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.36.attention_layernorm.weight": "model-00014-of-00030.safetensors",
+    "model.layers.36.feedforward_layernorm.weight": "model-00014-of-00030.safetensors",
+    "model.layers.36.mlp.act_fn.alpha_n": "model-00014-of-00030.safetensors",
+    "model.layers.36.mlp.act_fn.alpha_p": "model-00014-of-00030.safetensors",
+    "model.layers.36.mlp.act_fn.beta": "model-00014-of-00030.safetensors",
+    "model.layers.36.mlp.act_fn.eps": "model-00014-of-00030.safetensors",
+    "model.layers.36.mlp.down_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.36.mlp.up_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.36.self_attn.k_norm.weight": "model-00014-of-00030.safetensors",
+    "model.layers.36.self_attn.k_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.36.self_attn.o_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.36.self_attn.q_norm.weight": "model-00014-of-00030.safetensors",
+    "model.layers.36.self_attn.q_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.36.self_attn.v_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.37.attention_layernorm.weight": "model-00015-of-00030.safetensors",
+    "model.layers.37.feedforward_layernorm.weight": "model-00015-of-00030.safetensors",
+    "model.layers.37.mlp.act_fn.alpha_n": "model-00015-of-00030.safetensors",
+    "model.layers.37.mlp.act_fn.alpha_p": "model-00015-of-00030.safetensors",
+    "model.layers.37.mlp.act_fn.beta": "model-00015-of-00030.safetensors",
+    "model.layers.37.mlp.act_fn.eps": "model-00015-of-00030.safetensors",
+    "model.layers.37.mlp.down_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.37.mlp.up_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.37.self_attn.k_norm.weight": "model-00014-of-00030.safetensors",
+    "model.layers.37.self_attn.k_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.37.self_attn.o_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.37.self_attn.q_norm.weight": "model-00014-of-00030.safetensors",
+    "model.layers.37.self_attn.q_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.37.self_attn.v_proj.weight": "model-00014-of-00030.safetensors",
+    "model.layers.38.attention_layernorm.weight": "model-00015-of-00030.safetensors",
+    "model.layers.38.feedforward_layernorm.weight": "model-00015-of-00030.safetensors",
+    "model.layers.38.mlp.act_fn.alpha_n": "model-00015-of-00030.safetensors",
+    "model.layers.38.mlp.act_fn.alpha_p": "model-00015-of-00030.safetensors",
+    "model.layers.38.mlp.act_fn.beta": "model-00015-of-00030.safetensors",
+    "model.layers.38.mlp.act_fn.eps": "model-00015-of-00030.safetensors",
+    "model.layers.38.mlp.down_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.38.mlp.up_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.38.self_attn.k_norm.weight": "model-00015-of-00030.safetensors",
+    "model.layers.38.self_attn.k_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.38.self_attn.o_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.38.self_attn.q_norm.weight": "model-00015-of-00030.safetensors",
+    "model.layers.38.self_attn.q_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.38.self_attn.v_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.39.attention_layernorm.weight": "model-00015-of-00030.safetensors",
+    "model.layers.39.feedforward_layernorm.weight": "model-00015-of-00030.safetensors",
+    "model.layers.39.mlp.act_fn.alpha_n": "model-00015-of-00030.safetensors",
+    "model.layers.39.mlp.act_fn.alpha_p": "model-00015-of-00030.safetensors",
+    "model.layers.39.mlp.act_fn.beta": "model-00015-of-00030.safetensors",
+    "model.layers.39.mlp.act_fn.eps": "model-00015-of-00030.safetensors",
+    "model.layers.39.mlp.down_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.39.mlp.up_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.39.self_attn.k_norm.weight": "model-00015-of-00030.safetensors",
+    "model.layers.39.self_attn.k_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.39.self_attn.o_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.39.self_attn.q_norm.weight": "model-00015-of-00030.safetensors",
+    "model.layers.39.self_attn.q_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.39.self_attn.v_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.4.attention_layernorm.weight": "model-00003-of-00030.safetensors",
+    "model.layers.4.feedforward_layernorm.weight": "model-00003-of-00030.safetensors",
+    "model.layers.4.mlp.act_fn.alpha_n": "model-00003-of-00030.safetensors",
+    "model.layers.4.mlp.act_fn.alpha_p": "model-00003-of-00030.safetensors",
+    "model.layers.4.mlp.act_fn.beta": "model-00003-of-00030.safetensors",
+    "model.layers.4.mlp.act_fn.eps": "model-00003-of-00030.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.4.self_attn.k_norm.weight": "model-00002-of-00030.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.4.self_attn.q_norm.weight": "model-00002-of-00030.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00030.safetensors",
+    "model.layers.40.attention_layernorm.weight": "model-00016-of-00030.safetensors",
+    "model.layers.40.feedforward_layernorm.weight": "model-00016-of-00030.safetensors",
+    "model.layers.40.mlp.act_fn.alpha_n": "model-00016-of-00030.safetensors",
+    "model.layers.40.mlp.act_fn.alpha_p": "model-00016-of-00030.safetensors",
+    "model.layers.40.mlp.act_fn.beta": "model-00016-of-00030.safetensors",
+    "model.layers.40.mlp.act_fn.eps": "model-00016-of-00030.safetensors",
+    "model.layers.40.mlp.down_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.40.mlp.up_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.40.self_attn.k_norm.weight": "model-00016-of-00030.safetensors",
+    "model.layers.40.self_attn.k_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.40.self_attn.o_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.40.self_attn.q_norm.weight": "model-00016-of-00030.safetensors",
+    "model.layers.40.self_attn.q_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.40.self_attn.v_proj.weight": "model-00015-of-00030.safetensors",
+    "model.layers.41.attention_layernorm.weight": "model-00016-of-00030.safetensors",
+    "model.layers.41.feedforward_layernorm.weight": "model-00016-of-00030.safetensors",
+    "model.layers.41.mlp.act_fn.alpha_n": "model-00016-of-00030.safetensors",
+    "model.layers.41.mlp.act_fn.alpha_p": "model-00016-of-00030.safetensors",
+    "model.layers.41.mlp.act_fn.beta": "model-00016-of-00030.safetensors",
+    "model.layers.41.mlp.act_fn.eps": "model-00016-of-00030.safetensors",
+    "model.layers.41.mlp.down_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.41.mlp.up_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.41.self_attn.k_norm.weight": "model-00016-of-00030.safetensors",
+    "model.layers.41.self_attn.k_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.41.self_attn.o_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.41.self_attn.q_norm.weight": "model-00016-of-00030.safetensors",
+    "model.layers.41.self_attn.q_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.41.self_attn.v_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.42.attention_layernorm.weight": "model-00016-of-00030.safetensors",
+    "model.layers.42.feedforward_layernorm.weight": "model-00016-of-00030.safetensors",
+    "model.layers.42.mlp.act_fn.alpha_n": "model-00016-of-00030.safetensors",
+    "model.layers.42.mlp.act_fn.alpha_p": "model-00016-of-00030.safetensors",
+    "model.layers.42.mlp.act_fn.beta": "model-00016-of-00030.safetensors",
+    "model.layers.42.mlp.act_fn.eps": "model-00016-of-00030.safetensors",
+    "model.layers.42.mlp.down_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.42.mlp.up_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.42.self_attn.k_norm.weight": "model-00016-of-00030.safetensors",
+    "model.layers.42.self_attn.k_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.42.self_attn.o_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.42.self_attn.q_norm.weight": "model-00016-of-00030.safetensors",
+    "model.layers.42.self_attn.q_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.42.self_attn.v_proj.weight": "model-00016-of-00030.safetensors",
+    "model.layers.43.attention_layernorm.weight": "model-00017-of-00030.safetensors",
+    "model.layers.43.feedforward_layernorm.weight": "model-00017-of-00030.safetensors",
+    "model.layers.43.mlp.act_fn.alpha_n": "model-00017-of-00030.safetensors",
+    "model.layers.43.mlp.act_fn.alpha_p": "model-00017-of-00030.safetensors",
+    "model.layers.43.mlp.act_fn.beta": "model-00017-of-00030.safetensors",
+    "model.layers.43.mlp.act_fn.eps": "model-00017-of-00030.safetensors",
+    "model.layers.43.mlp.down_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.43.mlp.up_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.43.self_attn.k_norm.weight": "model-00017-of-00030.safetensors",
+    "model.layers.43.self_attn.k_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.43.self_attn.o_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.43.self_attn.q_norm.weight": "model-00017-of-00030.safetensors",
+    "model.layers.43.self_attn.q_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.43.self_attn.v_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.44.attention_layernorm.weight": "model-00017-of-00030.safetensors",
+    "model.layers.44.feedforward_layernorm.weight": "model-00017-of-00030.safetensors",
+    "model.layers.44.mlp.act_fn.alpha_n": "model-00017-of-00030.safetensors",
+    "model.layers.44.mlp.act_fn.alpha_p": "model-00017-of-00030.safetensors",
+    "model.layers.44.mlp.act_fn.beta": "model-00017-of-00030.safetensors",
+    "model.layers.44.mlp.act_fn.eps": "model-00017-of-00030.safetensors",
+    "model.layers.44.mlp.down_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.44.mlp.up_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.44.self_attn.k_norm.weight": "model-00017-of-00030.safetensors",
+    "model.layers.44.self_attn.k_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.44.self_attn.o_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.44.self_attn.q_norm.weight": "model-00017-of-00030.safetensors",
+    "model.layers.44.self_attn.q_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.44.self_attn.v_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.45.attention_layernorm.weight": "model-00018-of-00030.safetensors",
+    "model.layers.45.feedforward_layernorm.weight": "model-00018-of-00030.safetensors",
+    "model.layers.45.mlp.act_fn.alpha_n": "model-00018-of-00030.safetensors",
+    "model.layers.45.mlp.act_fn.alpha_p": "model-00018-of-00030.safetensors",
+    "model.layers.45.mlp.act_fn.beta": "model-00018-of-00030.safetensors",
+    "model.layers.45.mlp.act_fn.eps": "model-00018-of-00030.safetensors",
+    "model.layers.45.mlp.down_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.45.mlp.up_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.45.self_attn.k_norm.weight": "model-00017-of-00030.safetensors",
+    "model.layers.45.self_attn.k_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.45.self_attn.o_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.45.self_attn.q_norm.weight": "model-00017-of-00030.safetensors",
+    "model.layers.45.self_attn.q_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.45.self_attn.v_proj.weight": "model-00017-of-00030.safetensors",
+    "model.layers.46.attention_layernorm.weight": "model-00018-of-00030.safetensors",
+    "model.layers.46.feedforward_layernorm.weight": "model-00018-of-00030.safetensors",
+    "model.layers.46.mlp.act_fn.alpha_n": "model-00018-of-00030.safetensors",
+    "model.layers.46.mlp.act_fn.alpha_p": "model-00018-of-00030.safetensors",
+    "model.layers.46.mlp.act_fn.beta": "model-00018-of-00030.safetensors",
+    "model.layers.46.mlp.act_fn.eps": "model-00018-of-00030.safetensors",
+    "model.layers.46.mlp.down_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.46.mlp.up_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.46.self_attn.k_norm.weight": "model-00018-of-00030.safetensors",
+    "model.layers.46.self_attn.k_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.46.self_attn.o_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.46.self_attn.q_norm.weight": "model-00018-of-00030.safetensors",
+    "model.layers.46.self_attn.q_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.46.self_attn.v_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.47.attention_layernorm.weight": "model-00018-of-00030.safetensors",
+    "model.layers.47.feedforward_layernorm.weight": "model-00018-of-00030.safetensors",
+    "model.layers.47.mlp.act_fn.alpha_n": "model-00018-of-00030.safetensors",
+    "model.layers.47.mlp.act_fn.alpha_p": "model-00018-of-00030.safetensors",
+    "model.layers.47.mlp.act_fn.beta": "model-00018-of-00030.safetensors",
+    "model.layers.47.mlp.act_fn.eps": "model-00018-of-00030.safetensors",
+    "model.layers.47.mlp.down_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.47.mlp.up_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.47.self_attn.k_norm.weight": "model-00018-of-00030.safetensors",
+    "model.layers.47.self_attn.k_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.47.self_attn.o_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.47.self_attn.q_norm.weight": "model-00018-of-00030.safetensors",
+    "model.layers.47.self_attn.q_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.47.self_attn.v_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.48.attention_layernorm.weight": "model-00019-of-00030.safetensors",
+    "model.layers.48.feedforward_layernorm.weight": "model-00019-of-00030.safetensors",
+    "model.layers.48.mlp.act_fn.alpha_n": "model-00019-of-00030.safetensors",
+    "model.layers.48.mlp.act_fn.alpha_p": "model-00019-of-00030.safetensors",
+    "model.layers.48.mlp.act_fn.beta": "model-00019-of-00030.safetensors",
+    "model.layers.48.mlp.act_fn.eps": "model-00019-of-00030.safetensors",
+    "model.layers.48.mlp.down_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.48.mlp.up_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.48.self_attn.k_norm.weight": "model-00018-of-00030.safetensors",
+    "model.layers.48.self_attn.k_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.48.self_attn.o_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.48.self_attn.q_norm.weight": "model-00018-of-00030.safetensors",
+    "model.layers.48.self_attn.q_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.48.self_attn.v_proj.weight": "model-00018-of-00030.safetensors",
+    "model.layers.49.attention_layernorm.weight": "model-00019-of-00030.safetensors",
+    "model.layers.49.feedforward_layernorm.weight": "model-00019-of-00030.safetensors",
+    "model.layers.49.mlp.act_fn.alpha_n": "model-00019-of-00030.safetensors",
+    "model.layers.49.mlp.act_fn.alpha_p": "model-00019-of-00030.safetensors",
+    "model.layers.49.mlp.act_fn.beta": "model-00019-of-00030.safetensors",
+    "model.layers.49.mlp.act_fn.eps": "model-00019-of-00030.safetensors",
+    "model.layers.49.mlp.down_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.49.mlp.up_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.49.self_attn.k_norm.weight": "model-00019-of-00030.safetensors",
+    "model.layers.49.self_attn.k_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.49.self_attn.o_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.49.self_attn.q_norm.weight": "model-00019-of-00030.safetensors",
+    "model.layers.49.self_attn.q_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.49.self_attn.v_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.5.attention_layernorm.weight": "model-00003-of-00030.safetensors",
+    "model.layers.5.feedforward_layernorm.weight": "model-00003-of-00030.safetensors",
+    "model.layers.5.mlp.act_fn.alpha_n": "model-00003-of-00030.safetensors",
+    "model.layers.5.mlp.act_fn.alpha_p": "model-00003-of-00030.safetensors",
+    "model.layers.5.mlp.act_fn.beta": "model-00003-of-00030.safetensors",
+    "model.layers.5.mlp.act_fn.eps": "model-00003-of-00030.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.5.self_attn.k_norm.weight": "model-00003-of-00030.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.5.self_attn.q_norm.weight": "model-00003-of-00030.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.50.attention_layernorm.weight": "model-00019-of-00030.safetensors",
+    "model.layers.50.feedforward_layernorm.weight": "model-00019-of-00030.safetensors",
+    "model.layers.50.mlp.act_fn.alpha_n": "model-00019-of-00030.safetensors",
+    "model.layers.50.mlp.act_fn.alpha_p": "model-00019-of-00030.safetensors",
+    "model.layers.50.mlp.act_fn.beta": "model-00019-of-00030.safetensors",
+    "model.layers.50.mlp.act_fn.eps": "model-00019-of-00030.safetensors",
+    "model.layers.50.mlp.down_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.50.mlp.up_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.50.self_attn.k_norm.weight": "model-00019-of-00030.safetensors",
+    "model.layers.50.self_attn.k_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.50.self_attn.o_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.50.self_attn.q_norm.weight": "model-00019-of-00030.safetensors",
+    "model.layers.50.self_attn.q_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.50.self_attn.v_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.51.attention_layernorm.weight": "model-00020-of-00030.safetensors",
+    "model.layers.51.feedforward_layernorm.weight": "model-00020-of-00030.safetensors",
+    "model.layers.51.mlp.act_fn.alpha_n": "model-00020-of-00030.safetensors",
+    "model.layers.51.mlp.act_fn.alpha_p": "model-00020-of-00030.safetensors",
+    "model.layers.51.mlp.act_fn.beta": "model-00020-of-00030.safetensors",
+    "model.layers.51.mlp.act_fn.eps": "model-00020-of-00030.safetensors",
+    "model.layers.51.mlp.down_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.51.mlp.up_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.51.self_attn.k_norm.weight": "model-00020-of-00030.safetensors",
+    "model.layers.51.self_attn.k_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.51.self_attn.o_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.51.self_attn.q_norm.weight": "model-00020-of-00030.safetensors",
+    "model.layers.51.self_attn.q_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.51.self_attn.v_proj.weight": "model-00019-of-00030.safetensors",
+    "model.layers.52.attention_layernorm.weight": "model-00020-of-00030.safetensors",
+    "model.layers.52.feedforward_layernorm.weight": "model-00020-of-00030.safetensors",
+    "model.layers.52.mlp.act_fn.alpha_n": "model-00020-of-00030.safetensors",
+    "model.layers.52.mlp.act_fn.alpha_p": "model-00020-of-00030.safetensors",
+    "model.layers.52.mlp.act_fn.beta": "model-00020-of-00030.safetensors",
+    "model.layers.52.mlp.act_fn.eps": "model-00020-of-00030.safetensors",
+    "model.layers.52.mlp.down_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.52.mlp.up_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.52.self_attn.k_norm.weight": "model-00020-of-00030.safetensors",
+    "model.layers.52.self_attn.k_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.52.self_attn.o_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.52.self_attn.q_norm.weight": "model-00020-of-00030.safetensors",
+    "model.layers.52.self_attn.q_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.52.self_attn.v_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.53.attention_layernorm.weight": "model-00020-of-00030.safetensors",
+    "model.layers.53.feedforward_layernorm.weight": "model-00020-of-00030.safetensors",
+    "model.layers.53.mlp.act_fn.alpha_n": "model-00020-of-00030.safetensors",
+    "model.layers.53.mlp.act_fn.alpha_p": "model-00020-of-00030.safetensors",
+    "model.layers.53.mlp.act_fn.beta": "model-00020-of-00030.safetensors",
+    "model.layers.53.mlp.act_fn.eps": "model-00020-of-00030.safetensors",
+    "model.layers.53.mlp.down_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.53.mlp.up_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.53.self_attn.k_norm.weight": "model-00020-of-00030.safetensors",
+    "model.layers.53.self_attn.k_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.53.self_attn.o_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.53.self_attn.q_norm.weight": "model-00020-of-00030.safetensors",
+    "model.layers.53.self_attn.q_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.53.self_attn.v_proj.weight": "model-00020-of-00030.safetensors",
+    "model.layers.54.attention_layernorm.weight": "model-00021-of-00030.safetensors",
+    "model.layers.54.feedforward_layernorm.weight": "model-00021-of-00030.safetensors",
+    "model.layers.54.mlp.act_fn.alpha_n": "model-00021-of-00030.safetensors",
+    "model.layers.54.mlp.act_fn.alpha_p": "model-00021-of-00030.safetensors",
+    "model.layers.54.mlp.act_fn.beta": "model-00021-of-00030.safetensors",
+    "model.layers.54.mlp.act_fn.eps": "model-00021-of-00030.safetensors",
+    "model.layers.54.mlp.down_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.54.mlp.up_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.54.self_attn.k_norm.weight": "model-00021-of-00030.safetensors",
+    "model.layers.54.self_attn.k_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.54.self_attn.o_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.54.self_attn.q_norm.weight": "model-00021-of-00030.safetensors",
+    "model.layers.54.self_attn.q_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.54.self_attn.v_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.55.attention_layernorm.weight": "model-00021-of-00030.safetensors",
+    "model.layers.55.feedforward_layernorm.weight": "model-00021-of-00030.safetensors",
+    "model.layers.55.mlp.act_fn.alpha_n": "model-00021-of-00030.safetensors",
+    "model.layers.55.mlp.act_fn.alpha_p": "model-00021-of-00030.safetensors",
+    "model.layers.55.mlp.act_fn.beta": "model-00021-of-00030.safetensors",
+    "model.layers.55.mlp.act_fn.eps": "model-00021-of-00030.safetensors",
+    "model.layers.55.mlp.down_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.55.mlp.up_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.55.self_attn.k_norm.weight": "model-00021-of-00030.safetensors",
+    "model.layers.55.self_attn.k_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.55.self_attn.o_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.55.self_attn.q_norm.weight": "model-00021-of-00030.safetensors",
+    "model.layers.55.self_attn.q_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.55.self_attn.v_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.56.attention_layernorm.weight": "model-00022-of-00030.safetensors",
+    "model.layers.56.feedforward_layernorm.weight": "model-00022-of-00030.safetensors",
+    "model.layers.56.mlp.act_fn.alpha_n": "model-00022-of-00030.safetensors",
+    "model.layers.56.mlp.act_fn.alpha_p": "model-00022-of-00030.safetensors",
+    "model.layers.56.mlp.act_fn.beta": "model-00022-of-00030.safetensors",
+    "model.layers.56.mlp.act_fn.eps": "model-00022-of-00030.safetensors",
+    "model.layers.56.mlp.down_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.56.mlp.up_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.56.self_attn.k_norm.weight": "model-00021-of-00030.safetensors",
+    "model.layers.56.self_attn.k_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.56.self_attn.o_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.56.self_attn.q_norm.weight": "model-00021-of-00030.safetensors",
+    "model.layers.56.self_attn.q_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.56.self_attn.v_proj.weight": "model-00021-of-00030.safetensors",
+    "model.layers.57.attention_layernorm.weight": "model-00022-of-00030.safetensors",
+    "model.layers.57.feedforward_layernorm.weight": "model-00022-of-00030.safetensors",
+    "model.layers.57.mlp.act_fn.alpha_n": "model-00022-of-00030.safetensors",
+    "model.layers.57.mlp.act_fn.alpha_p": "model-00022-of-00030.safetensors",
+    "model.layers.57.mlp.act_fn.beta": "model-00022-of-00030.safetensors",
+    "model.layers.57.mlp.act_fn.eps": "model-00022-of-00030.safetensors",
+    "model.layers.57.mlp.down_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.57.mlp.up_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.57.self_attn.k_norm.weight": "model-00022-of-00030.safetensors",
+    "model.layers.57.self_attn.k_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.57.self_attn.o_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.57.self_attn.q_norm.weight": "model-00022-of-00030.safetensors",
+    "model.layers.57.self_attn.q_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.57.self_attn.v_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.58.attention_layernorm.weight": "model-00022-of-00030.safetensors",
+    "model.layers.58.feedforward_layernorm.weight": "model-00022-of-00030.safetensors",
+    "model.layers.58.mlp.act_fn.alpha_n": "model-00022-of-00030.safetensors",
+    "model.layers.58.mlp.act_fn.alpha_p": "model-00022-of-00030.safetensors",
+    "model.layers.58.mlp.act_fn.beta": "model-00022-of-00030.safetensors",
+    "model.layers.58.mlp.act_fn.eps": "model-00022-of-00030.safetensors",
+    "model.layers.58.mlp.down_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.58.mlp.up_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.58.self_attn.k_norm.weight": "model-00022-of-00030.safetensors",
+    "model.layers.58.self_attn.k_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.58.self_attn.o_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.58.self_attn.q_norm.weight": "model-00022-of-00030.safetensors",
+    "model.layers.58.self_attn.q_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.58.self_attn.v_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.59.attention_layernorm.weight": "model-00023-of-00030.safetensors",
+    "model.layers.59.feedforward_layernorm.weight": "model-00023-of-00030.safetensors",
+    "model.layers.59.mlp.act_fn.alpha_n": "model-00023-of-00030.safetensors",
+    "model.layers.59.mlp.act_fn.alpha_p": "model-00023-of-00030.safetensors",
+    "model.layers.59.mlp.act_fn.beta": "model-00023-of-00030.safetensors",
+    "model.layers.59.mlp.act_fn.eps": "model-00023-of-00030.safetensors",
+    "model.layers.59.mlp.down_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.59.mlp.up_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.59.self_attn.k_norm.weight": "model-00022-of-00030.safetensors",
+    "model.layers.59.self_attn.k_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.59.self_attn.o_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.59.self_attn.q_norm.weight": "model-00022-of-00030.safetensors",
+    "model.layers.59.self_attn.q_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.59.self_attn.v_proj.weight": "model-00022-of-00030.safetensors",
+    "model.layers.6.attention_layernorm.weight": "model-00003-of-00030.safetensors",
+    "model.layers.6.feedforward_layernorm.weight": "model-00003-of-00030.safetensors",
+    "model.layers.6.mlp.act_fn.alpha_n": "model-00003-of-00030.safetensors",
+    "model.layers.6.mlp.act_fn.alpha_p": "model-00003-of-00030.safetensors",
+    "model.layers.6.mlp.act_fn.beta": "model-00003-of-00030.safetensors",
+    "model.layers.6.mlp.act_fn.eps": "model-00003-of-00030.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.6.self_attn.k_norm.weight": "model-00003-of-00030.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.6.self_attn.q_norm.weight": "model-00003-of-00030.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.60.attention_layernorm.weight": "model-00023-of-00030.safetensors",
+    "model.layers.60.feedforward_layernorm.weight": "model-00023-of-00030.safetensors",
+    "model.layers.60.mlp.act_fn.alpha_n": "model-00023-of-00030.safetensors",
+    "model.layers.60.mlp.act_fn.alpha_p": "model-00023-of-00030.safetensors",
+    "model.layers.60.mlp.act_fn.beta": "model-00023-of-00030.safetensors",
+    "model.layers.60.mlp.act_fn.eps": "model-00023-of-00030.safetensors",
+    "model.layers.60.mlp.down_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.60.mlp.up_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.60.self_attn.k_norm.weight": "model-00023-of-00030.safetensors",
+    "model.layers.60.self_attn.k_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.60.self_attn.o_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.60.self_attn.q_norm.weight": "model-00023-of-00030.safetensors",
+    "model.layers.60.self_attn.q_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.60.self_attn.v_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.61.attention_layernorm.weight": "model-00023-of-00030.safetensors",
+    "model.layers.61.feedforward_layernorm.weight": "model-00023-of-00030.safetensors",
+    "model.layers.61.mlp.act_fn.alpha_n": "model-00023-of-00030.safetensors",
+    "model.layers.61.mlp.act_fn.alpha_p": "model-00023-of-00030.safetensors",
+    "model.layers.61.mlp.act_fn.beta": "model-00023-of-00030.safetensors",
+    "model.layers.61.mlp.act_fn.eps": "model-00023-of-00030.safetensors",
+    "model.layers.61.mlp.down_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.61.mlp.up_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.61.self_attn.k_norm.weight": "model-00023-of-00030.safetensors",
+    "model.layers.61.self_attn.k_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.61.self_attn.o_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.61.self_attn.q_norm.weight": "model-00023-of-00030.safetensors",
+    "model.layers.61.self_attn.q_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.61.self_attn.v_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.62.attention_layernorm.weight": "model-00024-of-00030.safetensors",
+    "model.layers.62.feedforward_layernorm.weight": "model-00024-of-00030.safetensors",
+    "model.layers.62.mlp.act_fn.alpha_n": "model-00024-of-00030.safetensors",
+    "model.layers.62.mlp.act_fn.alpha_p": "model-00024-of-00030.safetensors",
+    "model.layers.62.mlp.act_fn.beta": "model-00024-of-00030.safetensors",
+    "model.layers.62.mlp.act_fn.eps": "model-00024-of-00030.safetensors",
+    "model.layers.62.mlp.down_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.62.mlp.up_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.62.self_attn.k_norm.weight": "model-00024-of-00030.safetensors",
+    "model.layers.62.self_attn.k_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.62.self_attn.o_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.62.self_attn.q_norm.weight": "model-00024-of-00030.safetensors",
+    "model.layers.62.self_attn.q_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.62.self_attn.v_proj.weight": "model-00023-of-00030.safetensors",
+    "model.layers.63.attention_layernorm.weight": "model-00024-of-00030.safetensors",
+    "model.layers.63.feedforward_layernorm.weight": "model-00024-of-00030.safetensors",
+    "model.layers.63.mlp.act_fn.alpha_n": "model-00024-of-00030.safetensors",
+    "model.layers.63.mlp.act_fn.alpha_p": "model-00024-of-00030.safetensors",
+    "model.layers.63.mlp.act_fn.beta": "model-00024-of-00030.safetensors",
+    "model.layers.63.mlp.act_fn.eps": "model-00024-of-00030.safetensors",
+    "model.layers.63.mlp.down_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.63.mlp.up_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.63.self_attn.k_norm.weight": "model-00024-of-00030.safetensors",
+    "model.layers.63.self_attn.k_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.63.self_attn.o_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.63.self_attn.q_norm.weight": "model-00024-of-00030.safetensors",
+    "model.layers.63.self_attn.q_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.63.self_attn.v_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.64.attention_layernorm.weight": "model-00024-of-00030.safetensors",
+    "model.layers.64.feedforward_layernorm.weight": "model-00024-of-00030.safetensors",
+    "model.layers.64.mlp.act_fn.alpha_n": "model-00024-of-00030.safetensors",
+    "model.layers.64.mlp.act_fn.alpha_p": "model-00024-of-00030.safetensors",
+    "model.layers.64.mlp.act_fn.beta": "model-00024-of-00030.safetensors",
+    "model.layers.64.mlp.act_fn.eps": "model-00024-of-00030.safetensors",
+    "model.layers.64.mlp.down_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.64.mlp.up_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.64.self_attn.k_norm.weight": "model-00024-of-00030.safetensors",
+    "model.layers.64.self_attn.k_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.64.self_attn.o_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.64.self_attn.q_norm.weight": "model-00024-of-00030.safetensors",
+    "model.layers.64.self_attn.q_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.64.self_attn.v_proj.weight": "model-00024-of-00030.safetensors",
+    "model.layers.65.attention_layernorm.weight": "model-00025-of-00030.safetensors",
+    "model.layers.65.feedforward_layernorm.weight": "model-00025-of-00030.safetensors",
+    "model.layers.65.mlp.act_fn.alpha_n": "model-00025-of-00030.safetensors",
+    "model.layers.65.mlp.act_fn.alpha_p": "model-00025-of-00030.safetensors",
+    "model.layers.65.mlp.act_fn.beta": "model-00025-of-00030.safetensors",
+    "model.layers.65.mlp.act_fn.eps": "model-00025-of-00030.safetensors",
+    "model.layers.65.mlp.down_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.65.mlp.up_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.65.self_attn.k_norm.weight": "model-00025-of-00030.safetensors",
+    "model.layers.65.self_attn.k_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.65.self_attn.o_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.65.self_attn.q_norm.weight": "model-00025-of-00030.safetensors",
+    "model.layers.65.self_attn.q_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.65.self_attn.v_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.66.attention_layernorm.weight": "model-00025-of-00030.safetensors",
+    "model.layers.66.feedforward_layernorm.weight": "model-00025-of-00030.safetensors",
+    "model.layers.66.mlp.act_fn.alpha_n": "model-00025-of-00030.safetensors",
+    "model.layers.66.mlp.act_fn.alpha_p": "model-00025-of-00030.safetensors",
+    "model.layers.66.mlp.act_fn.beta": "model-00025-of-00030.safetensors",
+    "model.layers.66.mlp.act_fn.eps": "model-00025-of-00030.safetensors",
+    "model.layers.66.mlp.down_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.66.mlp.up_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.66.self_attn.k_norm.weight": "model-00025-of-00030.safetensors",
+    "model.layers.66.self_attn.k_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.66.self_attn.o_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.66.self_attn.q_norm.weight": "model-00025-of-00030.safetensors",
+    "model.layers.66.self_attn.q_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.66.self_attn.v_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.67.attention_layernorm.weight": "model-00026-of-00030.safetensors",
+    "model.layers.67.feedforward_layernorm.weight": "model-00026-of-00030.safetensors",
+    "model.layers.67.mlp.act_fn.alpha_n": "model-00026-of-00030.safetensors",
+    "model.layers.67.mlp.act_fn.alpha_p": "model-00026-of-00030.safetensors",
+    "model.layers.67.mlp.act_fn.beta": "model-00026-of-00030.safetensors",
+    "model.layers.67.mlp.act_fn.eps": "model-00026-of-00030.safetensors",
+    "model.layers.67.mlp.down_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.67.mlp.up_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.67.self_attn.k_norm.weight": "model-00025-of-00030.safetensors",
+    "model.layers.67.self_attn.k_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.67.self_attn.o_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.67.self_attn.q_norm.weight": "model-00025-of-00030.safetensors",
+    "model.layers.67.self_attn.q_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.67.self_attn.v_proj.weight": "model-00025-of-00030.safetensors",
+    "model.layers.68.attention_layernorm.weight": "model-00026-of-00030.safetensors",
+    "model.layers.68.feedforward_layernorm.weight": "model-00026-of-00030.safetensors",
+    "model.layers.68.mlp.act_fn.alpha_n": "model-00026-of-00030.safetensors",
+    "model.layers.68.mlp.act_fn.alpha_p": "model-00026-of-00030.safetensors",
+    "model.layers.68.mlp.act_fn.beta": "model-00026-of-00030.safetensors",
+    "model.layers.68.mlp.act_fn.eps": "model-00026-of-00030.safetensors",
+    "model.layers.68.mlp.down_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.68.mlp.up_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.68.self_attn.k_norm.weight": "model-00026-of-00030.safetensors",
+    "model.layers.68.self_attn.k_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.68.self_attn.o_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.68.self_attn.q_norm.weight": "model-00026-of-00030.safetensors",
+    "model.layers.68.self_attn.q_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.68.self_attn.v_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.69.attention_layernorm.weight": "model-00026-of-00030.safetensors",
+    "model.layers.69.feedforward_layernorm.weight": "model-00026-of-00030.safetensors",
+    "model.layers.69.mlp.act_fn.alpha_n": "model-00026-of-00030.safetensors",
+    "model.layers.69.mlp.act_fn.alpha_p": "model-00026-of-00030.safetensors",
+    "model.layers.69.mlp.act_fn.beta": "model-00026-of-00030.safetensors",
+    "model.layers.69.mlp.act_fn.eps": "model-00026-of-00030.safetensors",
+    "model.layers.69.mlp.down_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.69.mlp.up_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.69.self_attn.k_norm.weight": "model-00026-of-00030.safetensors",
+    "model.layers.69.self_attn.k_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.69.self_attn.o_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.69.self_attn.q_norm.weight": "model-00026-of-00030.safetensors",
+    "model.layers.69.self_attn.q_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.69.self_attn.v_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.7.attention_layernorm.weight": "model-00004-of-00030.safetensors",
+    "model.layers.7.feedforward_layernorm.weight": "model-00004-of-00030.safetensors",
+    "model.layers.7.mlp.act_fn.alpha_n": "model-00004-of-00030.safetensors",
+    "model.layers.7.mlp.act_fn.alpha_p": "model-00004-of-00030.safetensors",
+    "model.layers.7.mlp.act_fn.beta": "model-00004-of-00030.safetensors",
+    "model.layers.7.mlp.act_fn.eps": "model-00004-of-00030.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.7.self_attn.k_norm.weight": "model-00004-of-00030.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.7.self_attn.q_norm.weight": "model-00004-of-00030.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00003-of-00030.safetensors",
+    "model.layers.70.attention_layernorm.weight": "model-00027-of-00030.safetensors",
+    "model.layers.70.feedforward_layernorm.weight": "model-00027-of-00030.safetensors",
+    "model.layers.70.mlp.act_fn.alpha_n": "model-00027-of-00030.safetensors",
+    "model.layers.70.mlp.act_fn.alpha_p": "model-00027-of-00030.safetensors",
+    "model.layers.70.mlp.act_fn.beta": "model-00027-of-00030.safetensors",
+    "model.layers.70.mlp.act_fn.eps": "model-00027-of-00030.safetensors",
+    "model.layers.70.mlp.down_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.70.mlp.up_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.70.self_attn.k_norm.weight": "model-00026-of-00030.safetensors",
+    "model.layers.70.self_attn.k_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.70.self_attn.o_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.70.self_attn.q_norm.weight": "model-00026-of-00030.safetensors",
+    "model.layers.70.self_attn.q_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.70.self_attn.v_proj.weight": "model-00026-of-00030.safetensors",
+    "model.layers.71.attention_layernorm.weight": "model-00027-of-00030.safetensors",
+    "model.layers.71.feedforward_layernorm.weight": "model-00027-of-00030.safetensors",
+    "model.layers.71.mlp.act_fn.alpha_n": "model-00027-of-00030.safetensors",
+    "model.layers.71.mlp.act_fn.alpha_p": "model-00027-of-00030.safetensors",
+    "model.layers.71.mlp.act_fn.beta": "model-00027-of-00030.safetensors",
+    "model.layers.71.mlp.act_fn.eps": "model-00027-of-00030.safetensors",
+    "model.layers.71.mlp.down_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.71.mlp.up_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.71.self_attn.k_norm.weight": "model-00027-of-00030.safetensors",
+    "model.layers.71.self_attn.k_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.71.self_attn.o_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.71.self_attn.q_norm.weight": "model-00027-of-00030.safetensors",
+    "model.layers.71.self_attn.q_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.71.self_attn.v_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.72.attention_layernorm.weight": "model-00027-of-00030.safetensors",
+    "model.layers.72.feedforward_layernorm.weight": "model-00027-of-00030.safetensors",
+    "model.layers.72.mlp.act_fn.alpha_n": "model-00027-of-00030.safetensors",
+    "model.layers.72.mlp.act_fn.alpha_p": "model-00027-of-00030.safetensors",
+    "model.layers.72.mlp.act_fn.beta": "model-00027-of-00030.safetensors",
+    "model.layers.72.mlp.act_fn.eps": "model-00027-of-00030.safetensors",
+    "model.layers.72.mlp.down_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.72.mlp.up_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.72.self_attn.k_norm.weight": "model-00027-of-00030.safetensors",
+    "model.layers.72.self_attn.k_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.72.self_attn.o_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.72.self_attn.q_norm.weight": "model-00027-of-00030.safetensors",
+    "model.layers.72.self_attn.q_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.72.self_attn.v_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.73.attention_layernorm.weight": "model-00028-of-00030.safetensors",
+    "model.layers.73.feedforward_layernorm.weight": "model-00028-of-00030.safetensors",
+    "model.layers.73.mlp.act_fn.alpha_n": "model-00028-of-00030.safetensors",
+    "model.layers.73.mlp.act_fn.alpha_p": "model-00028-of-00030.safetensors",
+    "model.layers.73.mlp.act_fn.beta": "model-00028-of-00030.safetensors",
+    "model.layers.73.mlp.act_fn.eps": "model-00028-of-00030.safetensors",
+    "model.layers.73.mlp.down_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.73.mlp.up_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.73.self_attn.k_norm.weight": "model-00028-of-00030.safetensors",
+    "model.layers.73.self_attn.k_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.73.self_attn.o_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.73.self_attn.q_norm.weight": "model-00028-of-00030.safetensors",
+    "model.layers.73.self_attn.q_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.73.self_attn.v_proj.weight": "model-00027-of-00030.safetensors",
+    "model.layers.74.attention_layernorm.weight": "model-00028-of-00030.safetensors",
+    "model.layers.74.feedforward_layernorm.weight": "model-00028-of-00030.safetensors",
+    "model.layers.74.mlp.act_fn.alpha_n": "model-00028-of-00030.safetensors",
+    "model.layers.74.mlp.act_fn.alpha_p": "model-00028-of-00030.safetensors",
+    "model.layers.74.mlp.act_fn.beta": "model-00028-of-00030.safetensors",
+    "model.layers.74.mlp.act_fn.eps": "model-00028-of-00030.safetensors",
+    "model.layers.74.mlp.down_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.74.mlp.up_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.74.self_attn.k_norm.weight": "model-00028-of-00030.safetensors",
+    "model.layers.74.self_attn.k_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.74.self_attn.o_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.74.self_attn.q_norm.weight": "model-00028-of-00030.safetensors",
+    "model.layers.74.self_attn.q_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.74.self_attn.v_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.75.attention_layernorm.weight": "model-00028-of-00030.safetensors",
+    "model.layers.75.feedforward_layernorm.weight": "model-00028-of-00030.safetensors",
+    "model.layers.75.mlp.act_fn.alpha_n": "model-00028-of-00030.safetensors",
+    "model.layers.75.mlp.act_fn.alpha_p": "model-00028-of-00030.safetensors",
+    "model.layers.75.mlp.act_fn.beta": "model-00028-of-00030.safetensors",
+    "model.layers.75.mlp.act_fn.eps": "model-00028-of-00030.safetensors",
+    "model.layers.75.mlp.down_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.75.mlp.up_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.75.self_attn.k_norm.weight": "model-00028-of-00030.safetensors",
+    "model.layers.75.self_attn.k_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.75.self_attn.o_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.75.self_attn.q_norm.weight": "model-00028-of-00030.safetensors",
+    "model.layers.75.self_attn.q_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.75.self_attn.v_proj.weight": "model-00028-of-00030.safetensors",
+    "model.layers.76.attention_layernorm.weight": "model-00029-of-00030.safetensors",
+    "model.layers.76.feedforward_layernorm.weight": "model-00029-of-00030.safetensors",
+    "model.layers.76.mlp.act_fn.alpha_n": "model-00029-of-00030.safetensors",
+    "model.layers.76.mlp.act_fn.alpha_p": "model-00029-of-00030.safetensors",
+    "model.layers.76.mlp.act_fn.beta": "model-00029-of-00030.safetensors",
+    "model.layers.76.mlp.act_fn.eps": "model-00029-of-00030.safetensors",
+    "model.layers.76.mlp.down_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.76.mlp.up_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.76.self_attn.k_norm.weight": "model-00029-of-00030.safetensors",
+    "model.layers.76.self_attn.k_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.76.self_attn.o_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.76.self_attn.q_norm.weight": "model-00029-of-00030.safetensors",
+    "model.layers.76.self_attn.q_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.76.self_attn.v_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.77.attention_layernorm.weight": "model-00029-of-00030.safetensors",
+    "model.layers.77.feedforward_layernorm.weight": "model-00029-of-00030.safetensors",
+    "model.layers.77.mlp.act_fn.alpha_n": "model-00029-of-00030.safetensors",
+    "model.layers.77.mlp.act_fn.alpha_p": "model-00029-of-00030.safetensors",
+    "model.layers.77.mlp.act_fn.beta": "model-00029-of-00030.safetensors",
+    "model.layers.77.mlp.act_fn.eps": "model-00029-of-00030.safetensors",
+    "model.layers.77.mlp.down_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.77.mlp.up_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.77.self_attn.k_norm.weight": "model-00029-of-00030.safetensors",
+    "model.layers.77.self_attn.k_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.77.self_attn.o_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.77.self_attn.q_norm.weight": "model-00029-of-00030.safetensors",
+    "model.layers.77.self_attn.q_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.77.self_attn.v_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.78.attention_layernorm.weight": "model-00030-of-00030.safetensors",
+    "model.layers.78.feedforward_layernorm.weight": "model-00030-of-00030.safetensors",
+    "model.layers.78.mlp.act_fn.alpha_n": "model-00030-of-00030.safetensors",
+    "model.layers.78.mlp.act_fn.alpha_p": "model-00030-of-00030.safetensors",
+    "model.layers.78.mlp.act_fn.beta": "model-00030-of-00030.safetensors",
+    "model.layers.78.mlp.act_fn.eps": "model-00030-of-00030.safetensors",
+    "model.layers.78.mlp.down_proj.weight": "model-00030-of-00030.safetensors",
+    "model.layers.78.mlp.up_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.78.self_attn.k_norm.weight": "model-00029-of-00030.safetensors",
+    "model.layers.78.self_attn.k_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.78.self_attn.o_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.78.self_attn.q_norm.weight": "model-00029-of-00030.safetensors",
+    "model.layers.78.self_attn.q_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.78.self_attn.v_proj.weight": "model-00029-of-00030.safetensors",
+    "model.layers.79.attention_layernorm.weight": "model-00030-of-00030.safetensors",
+    "model.layers.79.feedforward_layernorm.weight": "model-00030-of-00030.safetensors",
+    "model.layers.79.mlp.act_fn.alpha_n": "model-00030-of-00030.safetensors",
+    "model.layers.79.mlp.act_fn.alpha_p": "model-00030-of-00030.safetensors",
+    "model.layers.79.mlp.act_fn.beta": "model-00030-of-00030.safetensors",
+    "model.layers.79.mlp.act_fn.eps": "model-00030-of-00030.safetensors",
+    "model.layers.79.mlp.down_proj.weight": "model-00030-of-00030.safetensors",
+    "model.layers.79.mlp.up_proj.weight": "model-00030-of-00030.safetensors",
+    "model.layers.79.self_attn.k_norm.weight": "model-00030-of-00030.safetensors",
+    "model.layers.79.self_attn.k_proj.weight": "model-00030-of-00030.safetensors",
+    "model.layers.79.self_attn.o_proj.weight": "model-00030-of-00030.safetensors",
+    "model.layers.79.self_attn.q_norm.weight": "model-00030-of-00030.safetensors",
+    "model.layers.79.self_attn.q_proj.weight": "model-00030-of-00030.safetensors",
+    "model.layers.79.self_attn.v_proj.weight": "model-00030-of-00030.safetensors",
+    "model.layers.8.attention_layernorm.weight": "model-00004-of-00030.safetensors",
+    "model.layers.8.feedforward_layernorm.weight": "model-00004-of-00030.safetensors",
+    "model.layers.8.mlp.act_fn.alpha_n": "model-00004-of-00030.safetensors",
+    "model.layers.8.mlp.act_fn.alpha_p": "model-00004-of-00030.safetensors",
+    "model.layers.8.mlp.act_fn.beta": "model-00004-of-00030.safetensors",
+    "model.layers.8.mlp.act_fn.eps": "model-00004-of-00030.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.8.self_attn.k_norm.weight": "model-00004-of-00030.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.8.self_attn.q_norm.weight": "model-00004-of-00030.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.9.attention_layernorm.weight": "model-00004-of-00030.safetensors",
+    "model.layers.9.feedforward_layernorm.weight": "model-00004-of-00030.safetensors",
+    "model.layers.9.mlp.act_fn.alpha_n": "model-00004-of-00030.safetensors",
+    "model.layers.9.mlp.act_fn.alpha_p": "model-00004-of-00030.safetensors",
+    "model.layers.9.mlp.act_fn.beta": "model-00004-of-00030.safetensors",
+    "model.layers.9.mlp.act_fn.eps": "model-00004-of-00030.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.9.self_attn.k_norm.weight": "model-00004-of-00030.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.9.self_attn.q_norm.weight": "model-00004-of-00030.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00004-of-00030.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00004-of-00030.safetensors",
+    "model.norm.weight": "model-00030-of-00030.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|assistant_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bacfa9d36c7a13c06bd597eabc59cd50e7b1cd63b881eb2eef014ba57572ec24
+size 17078479

tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff