LucasJaqq commited on
Commit
b6b8c36
·
verified ·
1 Parent(s): 48375d3

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +84 -0
README.md CHANGED
@@ -1,3 +1,87 @@
1
  ---
 
 
2
  license: apache-2.0
 
 
 
 
 
 
 
 
 
 
 
 
3
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
+ language:
3
+ - zh
4
  license: apache-2.0
5
+ tags:
6
+ - cryptocurrency
7
+ - blockchain
8
+ - forensic-analysis
9
+ - money-trail
10
+ - chain-of-thought
11
+ - domain-qa
12
+ model_name: CryptoFlow-Investigator-LLM
13
+ base_model: meta-llama/Llama-3.3-FFM-70B
14
+ datasets:
15
+ - BlockChainSecurityAI/CryptoFlowTrackerDataset
16
+ pipeline_tag: text-generation
17
  ---
18
+
19
+ # 🧠 CryptoFlow-Investigator-LLM
20
+ *AI 加密貨幣金流調查員(基於 Llama-3.3-FFM-70B 微調版本)*
21
+
22
+ ---
23
+
24
+ ## 📘 模型簡介
25
+ **CryptoFlow-Investigator-LLM** 是一個針對「加密貨幣金流分析與追蹤」領域微調的大語言模型,
26
+ 可用於輔助區塊鏈金流推理、可疑地址追蹤、以及金流報告生成。
27
+
28
+ 模型採用結構化 **Chain-of-Thought(CoT)** 設計,
29
+ 能生成具邏輯層次的思考步驟、分析摘要與最終結論,
30
+ 適用於司法調查、合規監理與數位資產風險分析等情境。
31
+
32
+ ---
33
+
34
+ ## 📊 訓練資料
35
+ 本模型以以下資料為基礎進行微調:
36
+
37
+ | 類別 | 說明 |
38
+ |------|------|
39
+ | 白皮書問答集 | 從比特幣、以太坊白皮書生成結構化 Q&A |
40
+ | 金流圖推論合成資料 | 含 Path Existence、Output Funnel、Intermediate Node、Loop Detection 任務 |
41
+ | 金流追蹤方法論問答集 | 涵蓋 UTXO、混幣、橋接、地址聚類、交易所特徵等 |
42
+ | 中文語料 | 專注於司法與金融語境之中文描述與報告用語 |
43
+
44
+ 🔗 **Dataset:** [CryptoFlowTrackerDataset](https://huggingface.co/datasets/BlockChainSecurityAI/CryptoFlowTrackerDataset)
45
+ 資料量:約 60 M tokens(中文)
46
+
47
+ ---
48
+
49
+ ## ⚙️ 訓練設定
50
+ - **Base Model:** `Llama-3.3-FFM-70B`
51
+ - **Epochs:** 2
52
+ - **Batch Size:** 依 GPU 資源調整
53
+ - **微調方法:** Instruction Tuning + Rationale-Augmented SFT (CoT)
54
+ - **Knowledge Distillation:** 以 ChatGPT 生成樣本作為教師資料
55
+ - **標註格式:** `<think>...</think> <explanation>...</explanation> <answer>...</answer>`
56
+
57
+ ---
58
+
59
+ ## 🧩 使用範例
60
+
61
+ ```python
62
+ from transformers import AutoModelForCausalLM, AutoTokenizer
63
+
64
+ model_name = "BlockChainSecurityAI/CryptoFlow-Investigator-LLM"
65
+ tokenizer = AutoTokenizer.from_pretrained(model_name)
66
+ model = AutoModelForCausalLM.from_pretrained(model_name)
67
+
68
+ prompt = "是否存在從地址 D 到地址 A 的交易路徑?已知交易:ADDR_98→A, ADDR_56→ADDR_53, D→ADDR_56, ADDR_53→J, J→ADDR_98"
69
+
70
+ inputs = tokenizer(prompt, return_tensors="pt")
71
+ outputs = model.generate(**inputs, max_new_tokens=512)
72
+ print(tokenizer.decode(outputs[0], skip_special_tokens=True))
73
+ ```
74
+
75
+ ## 💡 模型特色
76
+ - 🧩 **Chain-of-Thought 推理**:具逐步思考與摘要輸出結構
77
+ - 🕵️ **金流分析導向**:能針對交易關聯、節點、橋接等進行推論
78
+ - 📚 **專業領域語料**:針對司法與金融用語優化
79
+ - ⚖️ **可作為 FinCrime AI 應用基礎**:支援法遵、調查、報告生成
80
+
81
+ ---
82
+
83
+ ## ⚠️ 限制與注意事項
84
+ - 模型生成之推論結果僅供輔助分析,不能作為法律或金融判定依據。
85
+ - 由於資料集包含合成樣本,真實區塊鏈資料應再行驗證。
86
+ - 推理過程(`<think>` 區塊)可選擇在產品端隱藏,以符合資訊安全要求。
87
+