小样本文本生成训练代码

1
import torch
2
import torch.nn as nn
3
import torch.nn.functional as F
4
import random
5
import math
6
from datasets import load_dataset
7
from transformers import BertTokenizerFast
8
from torch.amp import autocast, GradScaler
9
from torch.utils.data import Dataset, DataLoader
10
import os
11
from tqdm import tqdm
12

13
print("Init")
14

15
# ===== 配置参数 =====
16
CONFIG = {
17
    "BATCH_SIZE": 128,           # 每个训练批次的样本数，显存占用与计算量随之增加，越大训练越快但显存压力大
18
    "MAX_SEQ_LEN": 64,          # 每个序列的最大长度，显存占用与计算量随序列长度平方关系增长（注意Transformer自注意力机制）
19
    "D_MODEL": 512,             # Transformer隐藏层维度，显存和计算量直接与D_MODEL平方成正比，影响模型容量和表达能力：D_MODEL 必须能被 N_HEAD 整除
20
    "DIM_FF": 512,              # 前馈网络维度（Feed-Forward层），显存和计算量随DIM_FF增加而增加
21
    "N_HEAD": 8,                # 多头注意力头数，显存占用和计算量随头数增加而增加
22
    "N_LAYERS": 12,              # Transformer层数，显存和计算量线性增加，层数越多模型越大
23
    "ACCUM_STEPS": 4,           # 梯度累积步数，相当于把小批次累积成大批次训练，**显存占用低**但计算时间稍微增加
24
    "EPOCHS": 45,               # 总训练轮数，计算时间线性增加，与显存无关·
25
    "LEARNING_RATE": 0.001,     # 学习率，影响模型收敛速度，不直接影响显存或计算量
26
    "PATIENCE": 5,              # 验证集损失未下降的早停耐心轮数，控制训练提前结束，不影响显存
27
    "TOP_P": 0.9,               # nucleus sampling采样的累计概率阈值，影响生成文本多样性，不影响训练显存或速度
28
    "TEMPERATURE": 1.2,         # 生成温度，控制采样随机性，不影响训练显存或速度
29
    "REPETITION_PENALTY": 2    # 生成时重复惩罚系数，用于抑制重复token，不影响训练显存或速度
30
}
31

32

33
# ===== 1. 加载数据集 =====
34
data_files = {
35
    "train": "./datas/train-wiki.parquet",
36
    "validation": "./datas/valid-wiki.parquet",
37
    "test": "./datas/test-wiki.parquet"
38
}
39
dataset = load_dataset("parquet", data_files=data_files)
40

41
print(dataset["train"][0])  # 查看第一条数据
42

43
# 数据量：训练集5000条，验证集500条
44
num_train_samples = min(5000, len(dataset["train"]))
45
num_val_samples = min(500, len(dataset["validation"]))
46
train_data = dataset["train"] #.select(range(num_train_samples))
47
val_data = dataset["validation"] #.select(range(num_val_samples))
48

49
print(f"训练集条数: {len(train_data)}, 验证集条数: {len(val_data)}")
50

51
# ===== 2. 使用 BERT 分词器 =====
52
tokenizer = BertTokenizerFast.from_pretrained("bert-base-uncased", cache_dir="./my_cache")#bert-base-chinese
53
token2id = tokenizer.get_vocab()
54
id2token = {id_: token for token, id_ in token2id.items()}
55
vocab_size = len(token2id)
56
PAD_ID = tokenizer.pad_token_id if tokenizer.pad_token_id is not None else 0 #token2id.get("[PAD]", 0)
57
UNK_ID = tokenizer.unk_token_id if tokenizer.unk_token_id is not None else 100 #token2id.get("[UNK]", 100)
58

59
# 确保 id2token 包含 UNK_ID
60
if UNK_ID not in id2token:
61
    print(f"Warning: UNK_ID {UNK_ID} not in id2token, adding [UNK]")
62
    id2token[UNK_ID] = "[UNK]"
63

64
print("词表大小:", vocab_size)
65
print("前20个 token:", list(token2id.keys())[:20])
66
print(f"PAD_ID: {PAD_ID}, UNK_ID: {UNK_ID}")
67

68

69
# ===== 3. 学习型位置编码 =====
70
class LearnedPositionalEncoding(nn.Module):
71
    def __init__(self, d_model, max_len=512):
72
        super().__init__()
73
        self.pos_embedding = nn.Embedding(max_len, d_model)
74

75
    def forward(self, x):
76
        positions = torch.arange(0, x.size(1), device=x.device).unsqueeze(0)
77
        return x + self.pos_embedding(positions)
78

79

80
# ===== 4. Transformer Block =====
81
class TransformerBlock(nn.Module):
82
    def __init__(self, d_model=CONFIG["D_MODEL"], n_head=CONFIG["N_HEAD"], dim_ff=CONFIG["DIM_FF"], dropout=0.5):
83
        super().__init__()
84
        self.attn = nn.MultiheadAttention(embed_dim=d_model, num_heads=n_head, batch_first=True)
85
        self.norm1 = nn.LayerNorm(d_model)
86
        self.ff = nn.Sequential(
87
            nn.Linear(d_model, dim_ff),
88
            nn.ReLU(),
89
            nn.Dropout(dropout),
90
            nn.Linear(dim_ff, d_model)
91
        )
92
        self.norm2 = nn.LayerNorm(d_model)
93
        self.dropout = nn.Dropout(dropout)
94

95
    def forward(self, x):
96
        attn_out, _ = self.attn(x, x, x)
97
        x = self.norm1(x + self.dropout(attn_out))
98
        ff_out = self.ff(x)
99
        x = self.norm2(x + ff_out)
100
        return x
101

102

103
# ===== 5. 小型 Transformer 模型 =====
104
class SmallTransformer(nn.Module):
105
    def __init__(self, vocab_size, d_model=CONFIG["D_MODEL"], n_head=CONFIG["N_HEAD"], dim_ff=CONFIG["DIM_FF"],
106
                 n_layers=CONFIG["N_LAYERS"], max_len=CONFIG["MAX_SEQ_LEN"]):
107
        super().__init__()
108
        self.embedding = nn.Embedding(vocab_size, d_model)
109
        self.pos_enc = LearnedPositionalEncoding(d_model, max_len=max_len)
110
        self.layers = nn.ModuleList([TransformerBlock(d_model, n_head, dim_ff, dropout=0.3) for _ in range(n_layers)])
111
        self.norm = nn.LayerNorm(d_model)
112
        self.fc_out = nn.Linear(d_model, vocab_size)
113
        self.dropout = nn.Dropout(0.3)
114
        self.max_len = max_len
115

116
    def forward(self, x):
117
        if x.size(1) > self.max_len:
118
            x = x[:, :self.max_len]
119
        x = self.embedding(x)
120
        x = self.pos_enc(x)
121
        x = self.dropout(x)
122
        for layer in self.layers:
123
            x = layer(x)
124
        x = self.norm(x)
125
        return self.fc_out(x)
126

127

128
# ===== 6. 数据预处理 =====
129
class NewsDataset(Dataset):
130
    def __init__(self, sentences, tokenizer, max_seq_len=CONFIG["MAX_SEQ_LEN"]):
131
        self.data = []
132
        for s in sentences:
133
            tokens = tokenizer.encode(s, add_special_tokens=True, max_length=max_seq_len, truncation=True)
134
            if len(tokens) > 1:
135
                self.data.append(tokens)
136

137
    def __len__(self):
138
        return len(self.data)
139

140
    def __getitem__(self, idx):
141
        seq = self.data[idx]
142
        if len(seq) > CONFIG["MAX_SEQ_LEN"]:
143
            seq = seq[:CONFIG["MAX_SEQ_LEN"]]
144
        pad_len = CONFIG["MAX_SEQ_LEN"] - len(seq)
145
        x = seq + [PAD_ID] * pad_len
146
        y = seq[1:] + [PAD_ID] * (pad_len + 1)
147
        return torch.tensor(x), torch.tensor(y)
148

149

150
train_dataset = NewsDataset(train_data["text"], tokenizer)
151
val_dataset = NewsDataset(val_data["text"], tokenizer)
152

153
print(f"训练数据条数: {len(train_dataset)}")
154
print("前10条示例:", train_data["text"][:10])
155

156
# ===== 7. 数据加载器 =====
157

158
train_loader = DataLoader(train_dataset, batch_size=CONFIG["BATCH_SIZE"], shuffle=True, num_workers=0)
159
val_loader = DataLoader(val_dataset, batch_size=CONFIG["BATCH_SIZE"], shuffle=False, num_workers=0)
160

161
# ===== 8. 训练或加载模型（支持断点训练） =====
162
device = "cuda" if torch.cuda.is_available() else "cpu"
163
model = SmallTransformer(vocab_size).to(device)
164

165
optimizer = torch.optim.Adam(model.parameters(), lr=CONFIG["LEARNING_RATE"], weight_decay=1e-4)
166

167
# Warmup 调度器
168
from torch.optim.lr_scheduler import LambdaLR
169

170
def evaluate(model, val_loader, loss_fn, device):
171
    model.eval()
172
    total_loss = 0
173
    num_batches = 0
174
    with torch.no_grad():
175
        for x_batch, y_batch in val_loader:
176
            x_batch, y_batch = x_batch.to(device), y_batch.to(device)
177
            with autocast('cuda'):
178
                logits = model(x_batch)
179
                logits = logits.view(-1, vocab_size)
180
                targets = y_batch.view(-1)
181
                loss = loss_fn(logits, targets)
182
            total_loss += loss.item()
183
            num_batches += 1
184
    return total_loss / num_batches if num_batches > 0 else float('inf')
185

186
def get_linear_schedule_with_warmup(optimizer, num_warmup_steps, num_training_steps):
187
    def lr_lambda(current_step):
188
        if current_step < num_warmup_steps:
189
            return float(current_step) / float(max(1, num_warmup_steps))
190
        return max(0.0, float(num_training_steps - current_step) / float(max(1, num_training_steps - num_warmup_steps)))
191
    return LambdaLR(optimizer, lr_lambda)
192

193
num_warmup_steps = 1000
194
num_training_steps = len(train_loader) * 50  # EPOCHS=50
195
scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps, num_training_steps)
196

197
loss_fn = nn.CrossEntropyLoss(ignore_index=PAD_ID, label_smoothing=0.1)
198
scaler = GradScaler('cuda')
199

200
# 断点训练
201
checkpoint_path = "checkpoint.pt"
202
start_epoch = 0
203
best_val_loss = float('inf')
204
counter = 0
205

206
if os.path.exists(checkpoint_path):
207
    checkpoint = torch.load(checkpoint_path, map_location=device)
208
    model.load_state_dict(checkpoint["model_state_dict"])
209
    optimizer.load_state_dict(checkpoint["optimizer_state_dict"])
210
    scheduler.load_state_dict(checkpoint["scheduler_state_dict"])
211
    scaler.load_state_dict(checkpoint["scaler_state_dict"])
212
    start_epoch = checkpoint["epoch"] + 1
213
    best_val_loss = checkpoint["best_val_loss"]
214
    counter = checkpoint.get("counter", 0)
215
    print(f"Resuming training from epoch {start_epoch}")
216

217
# 训练循环
218
for epoch in range(start_epoch, CONFIG["EPOCHS"]):
219
    model.train()
220
    total_loss = 0
221
    num_batches = 0
222

223
    with tqdm(total=len(train_loader), desc=f"Epoch {epoch+1}/{CONFIG['EPOCHS']}") as pbar:
224
        for i, (x_batch, y_batch) in enumerate(train_loader):
225
            x_batch, y_batch = x_batch.to(device), y_batch.to(device)
226
            with autocast('cuda'):
227
                logits = model(x_batch)
228
                logits = logits.view(-1, vocab_size)
229
                targets = y_batch.view(-1)
230
                loss = loss_fn(logits, targets) / CONFIG["ACCUM_STEPS"]
231
            scaler.scale(loss).backward()
232

233
            if (i + 1) % CONFIG["ACCUM_STEPS"] == 0:
234
                scaler.unscale_(optimizer)
235
                grad_norm = torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
236
                scaler.step(optimizer)
237
                scaler.update()
238
                optimizer.zero_grad()
239

240
                # 只在这里更新 progress bar
241
                pbar.set_postfix_str(f"\033[32mGradient norm: {grad_norm:.4f}\033[0m")
242

243
            total_loss += loss.item() * CONFIG["ACCUM_STEPS"]
244
            num_batches += 1
245
            pbar.update(1)
246

247
    avg_train_loss = total_loss / num_batches if num_batches > 0 else float('inf')
248

249
    # 验证
250
    val_loss = evaluate(model, val_loader, loss_fn, device)
251
    print(f"Epoch {epoch+1}, Train Loss: {avg_train_loss:.4f}, Val Loss: {val_loss:.4f}")
252

253
    # 保存最佳模型
254
    if val_loss < best_val_loss:
255
        best_val_loss = val_loss
256
        counter = 0
257
        torch.save(model.state_dict(), "best_model.pt")
258
        print(f"Best model saved at epoch {epoch+1}")
259
    else:
260
        counter += 1
261
        if counter >= CONFIG["PATIENCE"]:
262
            print(f"Early stopping at epoch {epoch+1}")
263
            break
264

265
    # 保存断点
266
    torch.save({
267
        "epoch": epoch,
268
        "model_state_dict": model.state_dict(),
269
        "optimizer_state_dict": optimizer.state_dict(),
270
        "scheduler_state_dict": scheduler.state_dict(),
271
        "scaler_state_dict": scaler.state_dict(),
272
        "best_val_loss": best_val_loss,
273
        "counter": counter
274
    }, checkpoint_path)
275

276
    scheduler.step()
277

278

279

280
# ===== 9. 改进的生成逻辑（带重复惩罚） =====
281
def nucleus_sampling(logits, p=CONFIG["TOP_P"], repetition_penalty=CONFIG["REPETITION_PENALTY"], past_tokens=None):
282
    if past_tokens is None:
283
        past_tokens = []
284
    logits = logits / CONFIG["TEMPERATURE"]  # temperature 调整
285
    probs = F.softmax(logits, dim=-1)
286

287
    # 扩大重复惩罚作用范围
288
    token_counts = {}
289
    for token_id in past_tokens[-100:]:  # 改为最近 50 个 token
290
        token_counts[token_id] = token_counts.get(token_id, 0) + 1
291
    for token_id, count in token_counts.items():
292
        probs[token_id] /= repetition_penalty ** count
293

294
    probs = probs / probs.sum()
295
    sorted_probs, sorted_indices = torch.sort(probs, descending=True)
296
    cumulative_probs = torch.cumsum(sorted_probs, dim=-1)
297
    mask = cumulative_probs <= p
298
    top_p_probs = sorted_probs[mask]
299
    top_p_indices = sorted_indices[mask]
300
    if top_p_probs.sum() == 0:
301
        top_p_probs = sorted_probs[:1]
302
        top_p_indices = sorted_indices[:1]
303
    top_p_probs = top_p_probs / top_p_probs.sum()
304
    next_id = top_p_indices[torch.multinomial(top_p_probs, 1).item()].item()
305
    return next_id
306

307

308
def generate(model, start_text, max_len=20, temperature=CONFIG["TEMPERATURE"], top_p=CONFIG["TOP_P"]):
309
    model.eval()
310
    input_ids = tokenizer.encode(start_text, add_special_tokens=False, max_length=CONFIG["MAX_SEQ_LEN"],
311
                                 truncation=True)
312
    output_text = start_text
313
    past_tokens = input_ids.copy()
314

315
    for _ in range(max_len):
316
        if len(input_ids) > CONFIG["MAX_SEQ_LEN"]:
317
            input_ids = input_ids[-CONFIG["MAX_SEQ_LEN"]:]
318
        x_tensor = torch.tensor([input_ids]).to(device)
319
        with torch.no_grad():
320
            with autocast('cuda'):
321
                logits = model(x_tensor)
322
        logits_last = logits[0, -1] / temperature
323
        next_id = nucleus_sampling(logits_last, p=top_p, repetition_penalty=CONFIG["REPETITION_PENALTY"],
324
                                   past_tokens=past_tokens)
325
        token = id2token.get(next_id, "[UNK]")
326
        output_text += token
327
        input_ids.append(next_id)
328
        past_tokens.append(next_id)
329
    return tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(input_ids))
330

331

332

333

334

335
# ===== 10. 测试生成 =====
336
print("\n测试生成（Nucleus Sampling）:")
337
print("输入: Hello i am ->", generate(model, "Hello i am ", max_len=10))
338
print("输入: Today is ->", generate(model, "Today is ", max_len=10))
339
print("输入: I am ->", generate(model, "I am ", max_len=10))