liumy2010
/

Qwen2.5-0.5B-countdown-SFT

Text Generation

text-generation-inference

Model card Files Files and versions

UFT

This repository contains the model presented in UFT: Unifying Supervised and Reinforcement Fine-Tuning.

Code: https://github.com/liumy2010/UFT

## References

* [UFT: Unifying Supervised and Reinforcement Fine-Tuning](https://arxiv.org/abs/2505.16984)

Downloads last month: 1

Safetensors

Model size

0.6B params

Tensor type

F32

·

Model tree for liumy2010/Qwen2.5-0.5B-countdown-SFT

Base model

Qwen/Qwen2.5-0.5B

Finetuned

(445)

this model

Collection including liumy2010/Qwen2.5-0.5B-countdown-SFT

UFT

UFT: Unifying Supervised and Reinforcement Fine-Tuning • 80 items • Updated May 28 • 1