RAG技术实战指南：让大模型拥有”记忆”的秘密#

引言#

你是否遇到过这样的场景：让ChatGPT回答公司内部文档的问题，它却一无所知？让大模型帮你查询上周的项目进度，它只能说”我没有相关信息”？

这是因为大模型存在一个根本性局限：它只能基于训练数据回答问题，无法获取实时信息或私有知识。

RAG（Retrieval-Augmented Generation，检索增强生成）正是解决这个问题的核心技术。它让大模型在回答问题前先”查资料”，从而拥有近乎无限的知识扩展能力。

本文将从原理到实战，带你构建一个高质量的RAG系统。

什么是RAG#

核心概念#

RAG的核心理念很简单：

回答问题前，先从知识库检索相关信息，再让大模型基于检索结果生成答案。

用公式表达：

1
回答 = LLM(问题 + 检索到的相关文档)

与传统方法的对比#

方法	优点	缺点
纯LLM	速度快，无额外成本	无法获取新知识，容易”幻觉”
Fine-tuning	定制化强	训练成本高，知识更新难
RAG	知识可实时更新，成本低	需要维护知识库，检索延迟

RAG的优势#

知识可扩展：随时添加新文档，无需重新训练
答案可溯源：可以告诉用户信息来自哪份文档
降低幻觉：有据可依，答案更准确
成本可控：无需昂贵的Fine-tuning过程
隐私可控：敏感数据可留在本地知识库

RAG系统架构#

一个完整的RAG系统包含以下组件：

1
┌─────────────────────────────────────────────────────────────┐
2
│                      RAG 系统架构                            │
3
├─────────────────────────────────────────────────────────────┤
4
│                                                             │
5
│  ┌─────────┐    ┌─────────┐    ┌─────────┐    ┌─────────┐  │
6
│  │ 文档入库 │───▶│ 文本切分 │───▶│ Embedding│───▶│向量存储  │  │
7
│  └─────────┘    └─────────┘    └─────────┘    └─────────┘  │
8
│                                                             │
9
│  ┌─────────┐    ┌─────────┐    ┌─────────┐    ┌─────────┐  │
10
│  │ 用户提问 │───▶│ 问题向量 │───▶│ 相似检索 │───▶│ LLM生成  │  │
11
│  └─────────┘    └─────────┘    └─────────┘    └─────────┘  │
12
│                                                             │
13
└─────────────────────────────────────────────────────────────┘

核心组件详解#

1. 文档处理模块#

负责将原始文档转化为可检索的向量：

文档加载：PDF、Word、Markdown、网页等
文本切分：将长文档切分为适当大小的片段
清洗预处理：去除噪声、统一格式

2. Embedding模块#

将文本转化为向量表示：

选择Embedding模型
调用API或本地模型生成向量
处理批量文本的效率优化

3. 向量数据库#

存储和检索向量：

向量索引构建
相似度搜索
元数据过滤

4. 检索与生成模块#

将检索结果与LLM结合：

重排序优化（可选）
Prompt构建
LLM调用与答案生成

文档切分策略#

文档切分是RAG质量的关键因素。切分不好，检索就找不到准确信息。

切分方法对比#

方法	适用场景	优点	缺点
固定长度	结构化文档	简单易实现	可能切断语义
语义切分	长文档	保持语义完整	切分点不确定
递归切分	技术文档	层次清晰	需要定义分隔符
滑动窗口	需要上下文	信息连贯	有冗余

实战代码：智能切分#

1
from langchain.text_splitter import RecursiveCharacterTextSplitter
2
from langchain.text_splitter import MarkdownHeaderTextSplitter
3

4
class SmartTextSplitter:
5
    """智能文档切分器"""
6

7
    def __init__(
8
        self,
9
        chunk_size: int = 500,
10
        chunk_overlap: int = 50,
11
        separators: list = None
12
    ):
13
        self.chunk_size = chunk_size
14
        self.chunk_overlap = chunk_overlap
15

16
        # 默认分隔符优先级：从强到弱
17
        self.separators = separators or [
18
            "\n\n\n",  # 章节分隔
19
            "\n\n",    # 段落分隔
20
            "\n",      # 行分隔
21
            "。",      # 中文句号
22
            ".",       # 英文句号
23
            " ",       # 空格
24
            ""         # 最后强制切分
25
        ]
26

27
        self.splitter = RecursiveCharacterTextSplitter(
28
            chunk_size=chunk_size,
29
            chunk_overlap=chunk_overlap,
30
            separators=self.separators,
31
            length_function=self._count_tokens
32
        )
33

34
    def _count_tokens(self, text: str) -> int:
35
        """更准确的token计数（中文友好）"""
36
        # 简化版：中文约1.5字符/token，英文约4字符/token
37
        chinese_chars = sum(1 for c in text if '\u4e00' <= c <= '\u9fff')
38
        other_chars = len(text) - chinese_chars
39
        return int(chinese_chars * 0.7 + other_chars * 0.25)
40

41
    def split_text(self, text: str) -> list[str]:
42
        """切分文本"""
43
        return self.splitter.split_text(text)
44

45
    def split_markdown(self, text: str) -> list[dict]:
46
        """切分Markdown文档，保留标题元数据"""
47
        # 先按标题切分
48
        headers_to_split_on = [
49
            ("#", "header1"),
50
            ("##", "header2"),
51
            ("###", "header3"),
52
        ]
53

54
        markdown_splitter = MarkdownHeaderTextSplitter(
55
            headers_to_split_on=headers_to_split_on
56
        )
57
        md_splits = markdown_splitter.split_text(text)
58

59
        # 再对每个片段进行细切分
60
        final_chunks = []
61
        for split in md_splits:
62
            content = split.page_content
63
            metadata = split.metadata
64

65
            # 如果片段太长，继续切分
66
            if len(content) > self.chunk_size:
67
                sub_chunks = self.splitter.split_text(content)
68
                for i, sub_chunk in enumerate(sub_chunks):
69
                    final_chunks.append({
70
                        "content": sub_chunk,
71
                        "metadata": {
72
                            **metadata,
73
                            "chunk_index": i
74
                        }
75
                    })
76
            else:
77
                final_chunks.append({
78
                    "content": content,
79
                    "metadata": metadata
80
                })
81

82
        return final_chunks
83

84
# 使用示例
85
splitter = SmartTextSplitter(chunk_size=500, chunk_overlap=50)
86
chunks = splitter.split_markdown(long_markdown_text)

切分参数调优建议#

文档类型	chunk_size	chunk_overlap	建议
技术文档	300-500	50-100	按章节切分
法律合同	500-800	100-150	保持条款完整
新闻资讯	200-400	30-50	按段落切分
学术论文	400-600	80-100	保留引用上下文
FAQ问答	100-200	0	按问答对切分

Embedding模型选择#

Embedding质量直接影响检索效果。好的Embedding能让语义相似的文本向量距离更近。

主流Embedding模型对比#

模型	维度	中文支持	性能(MTEB)	部署方式
text-embedding-3-small	1536	⭐⭐⭐⭐	62.3	API
text-embedding-3-large	3072	⭐⭐⭐⭐	64.6	API
bge-large-zh-v1.5	1024	⭐⭐⭐⭐⭐	64.5	本地/API
bge-m3	1024	⭐⭐⭐⭐⭐	65.0	本地
m3e-large	1024	⭐⭐⭐⭐⭐	63.5	本地
jina-embeddings-v2	768	⭐⭐⭐	61.5	本地/API

实战代码：多Embedding策略#

1
from sentence_transformers import SentenceTransformer
2
import numpy as np
3
from typing import List, Optional
4

5
class EmbeddingManager:
6
    """Embedding管理器，支持多种模型切换"""
7

8
    def __init__(self, model_name: str = "BAAI/bge-large-zh-v1.5"):
9
        self.model_name = model_name
10
        self.model = None
11
        self._load_model()
12

13
    def _load_model(self):
14
        """加载模型"""
15
        # 支持本地模型
16
        local_models = {
17
            "bge-large-zh": "BAAI/bge-large-zh-v1.5",
18
            "bge-m3": "BAAI/bge-m3",
19
            "m3e-large": "moka-ai/m3e-large",
20
        }
21

22
        if self.model_name in local_models:
23
            self.model = SentenceTransformer(local_models[self.model_name])
24
        else:
25
            # 使用OpenAI API
26
            self.model = None  # 将使用API
27

28
    def embed_texts(self, texts: List[str]) -> np.ndarray:
29
        """批量生成向量"""
30
        if self.model:
31
            # 本地模型
32
            return self.model.encode(texts, normalize_embeddings=True)
33
        else:
34
            # OpenAI API
35
            return self._embed_with_openai(texts)
36

37
    def embed_query(self, query: str) -> np.ndarray:
38
        """生成查询向量（可添加特殊处理）"""
39
        # 对于某些模型，查询需要添加前缀
40
        if "bge" in self.model_name.lower():
41
            query = "为这个句子生成表示以用于检索相关文章：" + query
42

43
        return self.embed_texts([query])[0]
44

45
    def _embed_with_openai(self, texts: List[str]) -> np.ndarray:
46
        """使用OpenAI API"""
47
        import openai
48

49
        response = openai.embeddings.create(
50
            model="text-embedding-3-small",
51
            input=texts
52
        )
53

54
        embeddings = [item.embedding for item in response.data]
55
        return np.array(embeddings)
56

57
# 使用示例
58
embedding_manager = EmbeddingManager("bge-large-zh")
59
vectors = embedding_manager.embed_texts(["这是第一段文本", "这是第二段文本"])
60
query_vector = embedding_manager.embed_query("搜索这段相关内容")

Embedding选择建议#

场景	推荐模型	原因
中文为主	bge-large-zh-v1.5	中文效果最佳，开源免费
多语言混合	bge-m3	支持100+语言，多粒度检索
高精度需求	text-embedding-3-large	OpenAI最强模型
成本敏感	bge-large-zh（本地）	无API调用成本
低延迟需求	m3e-base	模型小，速度快

向量数据库选型#

向量数据库是RAG系统的”记忆存储”，直接影响检索效率和准确性。

主流向量数据库对比#

数据库	部署方式	性能	特点	适用场景
Chroma	本地/云端	⭐⭐⭐	轻量易用，开源	个人项目、原型开发
Milvus	本地/云端	⭐⭐⭐⭐⭐	高性能，分布式	大规模生产环境
Pinecone	云端	⭐⭐⭐⭐	全托管，易维护	企业级SaaS
Weaviate	本地/云端	⭐⭐⭐⭐	混合检索，GraphQL	多模态检索
Qdrant	本地/云端	⭐⭐⭐⭐	Rust实现，高效	高并发场景
PGVector	PostgreSQL扩展	⭐⭐⭐	集成简单	已有PG的项目

实战代码：Chroma快速上手#

1
import chromadb
2
from chromadb.config import Settings
3

4
class ChromaVectorStore:
5
    """Chroma向量存储封装"""
6

7
    def __init__(self, collection_name: str = "documents", persist_dir: str = "./chroma_db"):
8
        self.client = chromadb.PersistentClient(path=persist_dir)
9
        self.collection = self.client.get_or_create_collection(
10
            name=collection_name,
11
            metadata={"hnsw:space": "cosine"}  # 使用余弦相似度
12
        )
13

14
    def add_documents(
15
        self,
16
        documents: List[str],
17
        embeddings: List[List[float]],
18
        metadatas: List[dict] = None,
19
        ids: List[str] = None
20
    ):
21
        """添加文档"""
22
        if not ids:
23
            ids = [f"doc_{i}" for i in range(len(documents))]
24

25
        if not metadatas:
26
            metadatas = [{"source": "unknown"} for _ in documents]
27

28
        self.collection.add(
29
            documents=documents,
30
            embeddings=embeddings,
31
            metadatas=metadatas,
32
            ids=ids
33
        )
34

35
    def search(
36
        self,
37
        query_embedding: List[float],
38
        top_k: int = 5,
39
        where_filter: dict = None
40
    ) -> dict:
41
        """相似度检索"""
42
        results = self.collection.query(
43
            query_embeddings=[query_embedding],
44
            n_results=top_k,
45
            where=where_filter  # 元数据过滤
46
        )
47

48
        return {
49
            "documents": results["documents"][0],
50
            "metadatas": results["metadatas"][0],
51
            "distances": results["distances"][0],
52
            "ids": results["ids"][0]
53
        }
54

55
    def delete_by_metadata(self, metadata_filter: dict):
56
        """按元数据删除"""
57
        self.collection.delete(where=metadata_filter)
58

59
# 使用示例
60
store = ChromaVectorStore("my_knowledge_base")
61
store.add_documents(chunks, embeddings, metadatas)
62
results = store.search(query_vector, top_k=5)

实战代码：Milvus生产级部署#

1
from pymilvus import connections, Collection, FieldSchema, CollectionSchema, DataType, utility
2

3
class MilvusVectorStore:
4
    """Milvus向量存储（生产级）"""
5

6
    def __init__(
7
        self,
8
        collection_name: str = "documents",
9
        host: str = "localhost",
10
        port: str = "19530",
11
        dimension: int = 1024
12
    ):
13
        self.collection_name = collection_name
14
        self.dimension = dimension
15

16
        # 连接Milvus
17
        connections.connect(host=host, port=port)
18

19
        # 创建或获取collection
20
        if utility.has_collection(collection_name):
21
            self.collection = Collection(collection_name)
22
        else:
23
            self._create_collection()
24

25
        # 创建索引（首次需要）
26
        self._create_index()
27

28
    def _create_collection(self):
29
        """创建collection schema"""
30
        fields = [
31
            FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),
32
            FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=self.dimension),
33
            FieldSchema(name="content", dtype=DataType.VARCHAR, max_length=2000),
34
            FieldSchema(name="source", dtype=DataType.VARCHAR, max_length=200),
35
            FieldSchema(name="chunk_index", dtype=DataType.INT64),
36
        ]
37

38
        schema = CollectionSchema(fields=fields, description="知识库向量")
39
        self.collection = Collection(name=self.collection_name, schema=schema)
40

41
    def _create_index(self):
42
        """创建向量索引"""
43
        index_params = {
44
            "metric_type": "COSINE",
45
            "index_type": "HNSW",
46
            "params": {"M": 8, "efConstruction": 64}
47
        }
48

49
        self.collection.create_index(
50
            field_name="embedding",
51
            index_params=index_params
52
        )
53

54
    def insert(self, data: List[dict]):
55
        """批量插入"""
56
        embeddings = [item["embedding"] for item in data]
57
        contents = [item["content"][:2000] for item in data]
58
        sources = [item.get("source", "unknown")[:200] for item in data]
59
        chunk_indices = [item.get("chunk_index", 0) for item in data]
60

61
        self.collection.insert([
62
            embeddings,
63
            contents,
64
            sources,
65
            chunk_indices
66
        ])
67

68
        # 刷新以确保写入
69
        self.collection.flush()
70

71
    def search(
72
        self,
73
        query_vector: List[float],
74
        top_k: int = 10,
75
        expr: str = None
76
    ) -> List[dict]:
77
        """相似度检索"""
78
        # 加载collection到内存
79
        self.collection.load()
80

81
        search_params = {"metric_type": "COSINE", "params": {"ef": 64}}
82

83
        results = self.collection.search(
84
            data=[query_vector],
85
            anns_field="embedding",
86
            param=search_params,
87
            limit=top_k,
88
            expr=expr  # 过滤表达式
89
        )
90

91
        # 格式化结果
92
        formatted_results = []
93
        for hit in results[0]:
94
            formatted_results.append({
95
                "id": hit.id,
96
                "distance": hit.distance,
97
                "content": hit.entity.get("content"),
98
                "source": hit.entity.get("source"),
99
            })
100

101
        return formatted_results

检索优化策略#

基础RAG往往检索效果不佳，需要多种优化策略提升质量。

常见问题与解决方案#

问题	原因	解决方案
检索不到相关内容	切分太细/太粗	调整chunk_size，多粒度切分
检索结果不精准	Embedding不合适	更换中文优化模型
答案拼凑感强	检索片段分散	增加chunk_overlap，重排序
多轮对话丢失上下文	只用当前问题检索	加入历史对话检索
答案不准确	检索结果过多噪音	过滤、重排序、限制数量

高级检索技术#

1. 混合检索（Hybrid Search）#

结合向量检索和关键词检索：

1
from rank_bm25 import BM25Okapi
2

3
class HybridSearch:
4
    """混合检索：向量 + BM25"""
5

6
    def __init__(self, vector_store, documents: List[str]):
7
        self.vector_store = vector_store
8
        self.documents = documents
9

10
        # 构建BM25索引
11
        tokenized_docs = [doc.split() for doc in documents]
12
        self.bm25 = BM25Okapi(tokenized_docs)
13

14
    def search(
15
        self,
16
        query: str,
17
        query_vector: List[float],
18
        top_k: int = 10,
19
        alpha: float = 0.5  # 向量检索权重
20
    ):
21
        """混合检索"""
22
        # 向量检索
23
        vector_results = self.vector_store.search(query_vector, top_k=top_k * 2)
24

25
        # BM25检索
26
        bm25_scores = self.bm25.get_scores(query.split())
27
        bm25_top_indices = np.argsort(bm25_scores)[-top_k * 2:]
28

29
        # 合并结果并重排序
30
        combined_scores = {}
31

32
        for i, result in enumerate(vector_results["documents"]):
33
            doc_id = vector_results["ids"][i]
34
            vector_score = 1 - vector_results["distances"][i]  # 转化为相似度
35
            combined_scores[doc_id] = alpha * vector_score
36

37
        for idx in bm25_top_indices:
38
            doc = self.documents[idx]
39
            bm25_score = bm25_scores[idx] / max(bm25_scores)  # 归一化
40
            # 如果已存在，加权合并
41
            if doc in combined_scores:
42
                combined_scores[doc] += (1 - alpha) * bm25_score
43
            else:
44
                combined_scores[doc] = (1 - alpha) * bm25_score
45

46
        # 排序返回top_k
47
        sorted_docs = sorted(combined_scores.items(), key=lambda x: x[1], reverse=True)
48
        return sorted_docs[:top_k]

2. 重排序（Re-ranking）#

对检索结果进行二次排序：

1
from sentence_transformers import CrossEncoder
2

3
class ReRanker:
4
    """检索结果重排序"""
5

6
    def __init__(self, model_name: str = "BAAI/bge-reranker-large"):
7
        self.reranker = CrossEncoder(model_name)
8

9
    def rerank(
10
        self,
11
        query: str,
12
        documents: List[str],
13
        top_k: int = 5
14
    ) -> List[tuple]:
15
        """重排序"""
16
        # 构建query-doc pairs
17
        pairs = [(query, doc) for doc in documents]
18

19
        # 计算相关性分数
20
        scores = self.reranker.predict(pairs)
21

22
        # 排序
23
        ranked_results = sorted(
24
            zip(documents, scores),
25
            key=lambda x: x[1],
26
            reverse=True
27
        )
28

29
        return ranked_results[:top_k]
30

31
# 使用示例
32
reranker = ReRanker()
33
initial_results = vector_store.search(query_vector, top_k=20)
34
reranked = reranker.rerank(query, initial_results["documents"], top_k=5)

3. 多查询检索#

生成多个相关问题提高召回：

1
class MultiQueryRetriever:
2
    """多查询检索策略"""
3

4
    def __init__(self, llm_client, vector_store):
5
        self.llm = llm_client
6
        self.vector_store = vector_store
7

8
    def generate_queries(self, original_query: str) -> List[str]:
9
        """生成多个相关问题"""
10
        prompt = f"""用户问题：{original_query}
11

12
请生成3-5个与这个问题相关的搜索查询，帮助找到更全面的信息。
13
每个查询一行，不要编号。"""
14

15
        response = self.llm.generate(prompt)
16
        queries = [line.strip() for line in response.split("\n") if line.strip()]
17

18
        # 加入原始问题
19
        queries.append(original_query)
20

21
        return queries
22

23
    def retrieve(self, original_query: str, top_k: int = 5) -> List[str]:
24
        """多查询检索"""
25
        queries = self.generate_queries(original_query)
26

27
        all_results = []
28
        for query in queries:
29
            query_vector = self.embedding_manager.embed_query(query)
30
            results = self.vector_store.search(query_vector, top_k=top_k)
31
            all_results.extend(results["documents"])
32

33
        # 去重
34
        unique_results = list(set(all_results))
35

36
        # 重排序
37
        reranker = ReRanker()
38
        final_results = reranker.rerank(original_query, unique_results, top_k=top_k)
39

40
        return final_results

完整RAG系统实现#

系统代码整合#

1
"""
2
完整的RAG系统实现
3
"""
4

5
from typing import List, Dict, Optional
6
from dataclasses import dataclass
7
import chromadb
8

9
@dataclass
10
class RAGConfig:
11
    """RAG配置"""
12
    embedding_model: str = "BAAI/bge-large-zh-v1.5"
13
    vector_db: str = "chroma"
14
    chunk_size: int = 500
15
    chunk_overlap: int = 50
16
    top_k: int = 5
17
    rerank: bool = True
18
    llm_model: str = "qwen-plus"
19

20

21
class RAGSystem:
22
    """完整RAG系统"""
23

24
    def __init__(self, config: RAGConfig = None):
25
        self.config = config or RAGConfig()
26

27
        # 初始化各组件
28
        self.text_splitter = SmartTextSplitter(
29
            chunk_size=self.config.chunk_size,
30
            chunk_overlap=self.config.chunk_overlap
31
        )
32

33
        self.embedding_manager = EmbeddingManager(self.config.embedding_model)
34

35
        self.vector_store = ChromaVectorStore("knowledge_base")
36

37
        if self.config.rerank:
38
            self.reranker = ReRanker()
39

40
    def ingest_documents(self, documents: List[Dict]):
41
        """文档入库"""
42
        all_chunks = []
43
        all_embeddings = []
44
        all_metadatas = []
45
        all_ids = []
46

47
        for doc_idx, doc in enumerate(documents):
48
            # 切分
49
            chunks = self.text_splitter.split_text(doc["content"])
50

51
            # 生成向量
52
            embeddings = self.embedding_manager.embed_texts(chunks)
53

54
            # 构建元数据
55
            for chunk_idx, chunk in enumerate(chunks):
56
                all_chunks.append(chunk)
57
                all_embeddings.append(embeddings[chunk_idx].tolist())
58
                all_metadatas.append({
59
                    "source": doc.get("source", "unknown"),
60
                    "doc_idx": doc_idx,
61
                    "chunk_idx": chunk_idx,
62
                    "title": doc.get("title", "")
63
                })
64
                all_ids.append(f"doc_{doc_idx}_chunk_{chunk_idx}")
65

66
        # 存入向量库
67
        self.vector_store.add_documents(
68
            documents=all_chunks,
69
            embeddings=all_embeddings,
70
            metadatas=all_metadatas,
71
            ids=all_ids
72
        )
73

74
        return len(all_chunks)
75

76
    def query(
77
        self,
78
        question: str,
79
        top_k: int = None,
80
        rerank: bool = None,
81
        return_sources: bool = True
82
    ) -> Dict:
83
        """查询"""
84
        top_k = top_k or self.config.top_k
85
        rerank = rerank if rerank is not None else self.config.rerank
86

87
        # 生成查询向量
88
        query_vector = self.embedding_manager.embed_query(question)
89

90
        # 检索（多取一些用于重排序）
91
        retrieve_k = top_k * 3 if rerank else top_k
92
        results = self.vector_store.search(query_vector, top_k=retrieve_k)
93

94
        # 重排序
95
        if rerank:
96
            ranked = self.reranker.rerank(question, results["documents"], top_k=top_k)
97
            final_docs = [item[0] for item in ranked]
98
            # 找到对应的元数据
99
            final_metadatas = []
100
            for doc in final_docs:
101
                idx = results["documents"].index(doc)
102
                final_metadatas.append(results["metadatas"][idx])
103
        else:
104
            final_docs = results["documents"][:top_k]
105
            final_metadatas = results["metadatas"][:top_k]
106

107
        # 构建Prompt
108
        context = "\n\n".join([f"[文档{i+1}] {doc}" for i, doc in enumerate(final_docs)])
109

110
        prompt = f"""基于以下文档内容回答用户问题。如果文档中没有相关信息，请明确说明。
111

112
参考文档：
113
{context}
114

115
用户问题：{question}
116

117
请给出准确、简洁的回答，并注明信息来源。"""
118

119
        # 调用LLM
120
        answer = self._call_llm(prompt)
121

122
        # 构建返回结果
123
        result = {
124
            "question": question,
125
            "answer": answer,
126
        }
127

128
        if return_sources:
129
            result["sources"] = [
130
                {
131
                    "content": doc,
132
                    "metadata": meta
133
                }
134
                for doc, meta in zip(final_docs, final_metadatas)
135
            ]
136

137
        return result
138

139
    def _call_llm(self, prompt: str) -> str:
140
        """调用LLM"""
141
        # 这里可以根据config使用不同的LLM
142
        # 示例使用OpenAI格式API
143
        import openai
144

145
        client = openai.OpenAI(
146
            api_key="your-api-key",
147
            base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
148
        )
149

150
        response = client.chat.completions.create(
151
            model=self.config.llm_model,
152
            messages=[{"role": "user", "content": prompt}],
153
            temperature=0.1  # 低温度减少幻觉
154
        )
155

156
        return response.choices[0].message.content
157

158

159
# 使用示例
160
def main():
161
    # 配置
162
    config = RAGConfig(
163
        embedding_model="bge-large-zh",
164
        chunk_size=500,
165
        top_k=5,
166
        rerank=True
167
    )
168

169
    # 初始化系统
170
    rag = RAGSystem(config)
171

172
    # 入库文档
173
    documents = [
174
        {
175
            "content": "长文档内容...",
176
            "source": "产品手册",
177
            "title": "产品使用指南"
178
        },
179
        {
180
            "content": "另一篇文档...",
181
            "source": "FAQ",
182
            "title": "常见问题解答"
183
        }
184
    ]
185

186
    rag.ingest_documents(documents)
187

188
    # 查询
189
    result = rag.query("如何使用这个产品？")
190

191
    print(f"问题: {result['question']}")
192
    print(f"回答: {result['answer']}")
193
    print(f"来源: {len(result['sources'])} 个文档片段")
194

195

196
if __name__ == "__main__":
197
    main()

生产环境最佳实践#

性能优化#

1
import asyncio
2
from concurrent.futures import ThreadPoolExecutor
3

4
class AsyncRAGSystem(RAGSystem):
5
    """异步RAG系统，提升吞吐量"""
6

7
    def __init__(self, config: RAGConfig = None, max_workers: int = 4):
8
        super().__init__(config)
9
        self.executor = ThreadPoolExecutor(max_workers=max_workers)
10

11
    async def async_ingest(self, documents: List[Dict]) -> int:
12
        """异步入库"""
13
        loop = asyncio.get_event_loop()
14

15
        # 并行处理文档
16
        tasks = [
17
            loop.run_in_executor(
18
                self.executor,
19
                self._process_single_document,
20
                doc
21
            )
22
            for doc in documents
23
        ]
24

25
        results = await asyncio.gather(*tasks)
26

27
        # 批量写入
28
        total_chunks = sum(r["chunk_count"] for r in results)
29

30
        # 合并所有结果写入向量库
31
        all_data = []
32
        for r in results:
33
            all_data.extend(r["data"])
34

35
        self.vector_store.add_documents(
36
            documents=[d["content"] for d in all_data],
37
            embeddings=[d["embedding"] for d in all_data],
38
            metadatas=[d["metadata"] for d in all_data],
39
            ids=[d["id"] for d in all_data]
40
        )
41

42
        return total_chunks
43

44
    def _process_single_document(self, doc: Dict) -> Dict:
45
        """处理单个文档"""
46
        chunks = self.text_splitter.split_text(doc["content"])
47
        embeddings = self.embedding_manager.embed_texts(chunks)
48

49
        data = []
50
        for i, (chunk, emb) in enumerate(zip(chunks, embeddings)):
51
            data.append({
52
                "content": chunk,
53
                "embedding": emb.tolist(),
54
                "metadata": {
55
                    "source": doc.get("source", "unknown"),
56
                    "chunk_idx": i
57
                },
58
                "id": f"{doc.get('source', 'doc')}_{i}"
59
            })
60

61
        return {"chunk_count": len(chunks), "data": data}
62

63
    async def async_query(self, question: str) -> Dict:
64
        """异步查询"""
65
        loop = asyncio.get_event_loop()
66

67
        # 并行执行：向量生成 + 初步检索
68
        query_vector_task = loop.run_in_executor(
69
            self.executor,
70
            self.embedding_manager.embed_query,
71
            question
72
        )
73

74
        query_vector = await query_vector_task
75

76
        # 检索
77
        results = await loop.run_in_executor(
78
            self.executor,
79
            self.vector_store.search,
80
            query_vector.tolist(),
81
            self.config.top_k * 3
82
        )
83

84
        # 重排序 + LLM生成并行
85
        if self.config.rerank:
86
            rerank_task = loop.run_in_executor(
87
                self.executor,
88
                self.reranker.rerank,
89
                question,
90
                results["documents"],
91
                self.config.top_k
92
            )
93
            ranked = await rerank_task
94
            final_docs = [item[0] for item in ranked]
95
        else:
96
            final_docs = results["documents"][:self.config.top_k]
97

98
        # LLM生成
99
        context = "\n\n".join(final_docs)
100
        prompt = f"基于以下内容回答：\n{context}\n问题：{question}"
101

102
        answer = await loop.run_in_executor(
103
            self.executor,
104
            self._call_llm,
105
            prompt
106
        )
107

108
        return {"question": question, "answer": answer, "sources": final_docs}

监控与评估#

1
class RAGMonitor:
2
    """RAG系统监控"""
3

4
    def __init__(self):
5
        self.metrics = {
6
            "query_count": 0,
7
            "avg_latency": 0,
8
            "avg_retrieval_latency": 0,
9
            "avg_llm_latency": 0,
10
            "retrieval_accuracy": []  # 人工标注
11
        }
12

13
    def log_query(
14
        self,
15
        question: str,
16
        retrieval_latency: float,
17
        llm_latency: float,
18
        answer: str,
19
        sources: List[str]
20
    ):
21
        """记录查询日志"""
22
        self.metrics["query_count"] += 1
23

24
        # 更新平均延迟
25
        n = self.metrics["query_count"]
26
        old_avg = self.metrics["avg_latency"]
27
        new_latency = retrieval_latency + llm_latency
28
        self.metrics["avg_latency"] = old_avg + (new_latency - old_avg) / n
29

30
        # 单独统计
31
        self.metrics["avg_retrieval_latency"] = (
32
            self.metrics["avg_retrieval_latency"] +
33
            (retrieval_latency - self.metrics["avg_retrieval_latency"]) / n
34
        )
35
        self.metrics["avg_llm_latency"] = (
36
            self.metrics["avg_llm_latency"] +
37
            (llm_latency - self.metrics["avg_llm_latency"]) / n
38
        )
39

40
    def get_report(self) -> Dict:
41
        """获取监控报告"""
42
        return {
43
            "total_queries": self.metrics["query_count"],
44
            "avg_total_latency_ms": round(self.metrics["avg_latency"] * 1000, 2),
45
            "avg_retrieval_ms": round(self.metrics["avg_retrieval_latency"] * 1000, 2),
46
            "avg_llm_ms": round(self.metrics["avg_llm_latency"] * 1000, 2),
47
            "retrieval_accuracy": self._calculate_accuracy()
48
        }
49

50
    def _calculate_accuracy(self) -> float:
51
        """计算检索准确率（需要人工标注）"""
52
        if not self.metrics["retrieval_accuracy"]:
53
            return None
54

55
        return sum(self.metrics["retrieval_accuracy"]) / len(self.metrics["retrieval_accuracy"])

总结#

RAG技术让大模型突破了”知识边界”，成为企业AI应用的核心基础设施。

关键要点回顾#

文档切分：选择合适的chunk_size和overlap，保持语义完整性
Embedding选择：中文场景优先bge系列，多语言选bge-m3
向量数据库：小项目用Chroma，大生产用Milvus
检索优化：混合检索、重排序、多查询检索显著提升效果
监控评估：持续跟踪延迟和准确率，迭代优化

未来发展趋势#

多模态RAG：支持图片、音频、视频检索
自适应检索：根据问题类型动态调整策略
RAG + Fine-tuning：结合微调进一步提升效果
Agent化RAG：让RAG成为AI Agent的知识工具

掌握RAG技术，你就掌握了让大模型”拥有知识”的钥匙。

参考链接：