书生大模型实战营-L1-InternLM + LlamaIndex RAG 实践

Oct 1, 2024

本节任务要点#

任务要求：基于 LlamaIndex 构建自己的 RAG 知识库，寻找一个问题 A 在使用 LlamaIndex 之前InternLM2-Chat-1.8B模型不会回答，借助 LlamaIndex 后 InternLM2-Chat-1.8B 模型具备回答 A 的能力，截图保存。

实践流程#

新开一个30% A100机器 Cuda11.7-conda 镜像 不要选错/用之前的那个！！！

1
# 安装新环境
2
conda create -n llamaindex python=3.10
3
conda activate llamaindex
4

5
conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.7 -c pytorch -c nvidia
6

7
pip install einops==0.7.0 protobuf==5.26.1
8

9
pip install llama-index==0.10.38
10
pip install llama-index-llms-huggingface==0.2.0
11
pip install "transformers[torch]==4.41.1"
12
pip install "huggingface_hub[inference]==0.23.1"
13
pip install huggingface_hub==0.23.1
14
pip install sentence-transformers==2.7.0
15
pip install sentencepiece==0.2.0

下载 Sentence Transformer 模型#

1
# 不使用download_hf.py，直接使用命令行
2

3
export HF_ENDPOINT=https://hf-mirror.com
4
huggingface-cli download --resume-download sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 --local-dir /root/project/rag/model/sentence-transformer
5

6
# 下载 NLTK 相关资源
7
cd /root/project/rag
8
git clone https://gitee.com/yzy0612/nltk_data.git  --branch gh-pages
9
cd nltk_data
10
mv packages/*  ./
11
cd tokenizers
12
unzip punkt.zip
13
cd ../taggers
14
unzip averaged_perceptron_tagger.zip

InternLM2 1.8B 配置#

1
# 运行以下指令，把 InternLM2 1.8B 软连接出来, 天才
2
cd /root/project/rag/model
3
ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b/ ./
4

5
# 创建llamaindex_demo/llamaindex_internlm.py
6

7
from llama_index.llms.huggingface import HuggingFaceLLM
8
from llama_index.core.llms import ChatMessage
9

10
llm = HuggingFaceLLM(
11
    model_name="/root/project/rag/model/internlm2-chat-1_8b",
12
    tokenizer_name="/root/project/rag/model/internlm2-chat-1_8b",
13
    model_kwargs={"trust_remote_code":True},
14
    tokenizer_kwargs={"trust_remote_code":True}
15
)
16

17
rsp = llm.chat(messages=[ChatMessage(content="什么是PUA？")])
18
print(rsp)
19

20
# 运行程序
21
cd /root/project/rag/llamaindex_demo
22
python llamaindex_internlm.py

虽然懂一点但不全面，而且停不下来了这哥们

安装 LlamaIndex RAG#

1
pip install llama-index-embeddings-huggingface==0.2.0 llama-index-embeddings-instructor==0.1.3
2

3
# xtuner 知识库 （后面数据收集部分，换了别的）
4
cd ~/llamaindex_demo
5
mkdir data
6
cd data
7
git clone https://github.com/InternLM/xtuner.git
8
mv xtuner/README_zh-CN.md ./

编辑 llamaindex_demo/llamaindex_RAG.py

1
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader, Settings
2

3
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
4
from llama_index.llms.huggingface import HuggingFaceLLM
5

6
#初始化一个HuggingFaceEmbedding对象，用于将文本转换为向量表示
7
embed_model = HuggingFaceEmbedding(
8
#指定了一个预训练的sentence-transformer模型的路径
9
    model_name="/root/project/rag/model/sentence-transformer"
10
)
11
#将创建的嵌入模型赋值给全局设置的embed_model属性，
12
#这样在后续的索引构建过程中就会使用这个模型。
13
Settings.embed_model = embed_model
14

15
llm = HuggingFaceLLM(
16
    model_name="/root/project/rag/model/internlm2-chat-1_8b",
17
    tokenizer_name="/root/project/rag/model/internlm2-chat-1_8b",
18
    model_kwargs={"trust_remote_code":True},
19
    tokenizer_kwargs={"trust_remote_code":True}
20
)
21
#设置全局的llm属性，这样在索引查询时会使用这个模型。
22
Settings.llm = llm
23

24
#从指定目录读取所有文档，并加载数据到内存中
25
documents = SimpleDirectoryReader("/root/llamaindex_demo/data").load_data()
26
#创建一个VectorStoreIndex，并使用之前加载的文档来构建索引。
27
# 此索引将文档转换为向量，并存储这些向量以便于快速检索。
28
index = VectorStoreIndex.from_documents(documents)
29
# 创建一个查询引擎，这个引擎可以接收查询并返回相关文档的响应。
30
query_engine = index.as_query_engine()
31
response = query_engine.query("啥是PUA？")
32

33
print(response)

执行结果

1
cd /root/project/rag/llamaindex_demo
2
python llamaindex_RAG.py

这里找到了和PUA定义基本概念相关的内容切片，内容比较全面

LlamaIndex web#

1
pip install streamlit==1.36.0

编辑 llamaindex_demo/app.py

1
import streamlit as st
2
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader, Settings
3
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
4
from llama_index.llms.huggingface import HuggingFaceLLM
5

6
st.set_page_config(page_title="llama_index_demo", page_icon="🦜🔗")
7
st.title("llama_index_demo")
8

9
# 初始化模型
10
@st.cache_resource
11
def init_models():
12
    embed_model = HuggingFaceEmbedding(
13
        model_name="/root/project/rag/model/sentence-transformer"
14
    )
15
    Settings.embed_model = embed_model
16

17
    llm = HuggingFaceLLM(
18
        model_name="/root/project/rag/model/internlm2-chat-1_8b",
19
        tokenizer_name="/root/project/rag/model/internlm2-chat-1_8b",
20
        model_kwargs={"trust_remote_code": True},
21
        tokenizer_kwargs={"trust_remote_code": True}
22
    )
23
    Settings.llm = llm
24

25
    documents = SimpleDirectoryReader("/root/project/rag/data").load_data()
26
    index = VectorStoreIndex.from_documents(documents)
27
    query_engine = index.as_query_engine()
28

29
    return query_engine
30

31
# 检查是否需要初始化模型
32
if 'query_engine' not in st.session_state:
33
    st.session_state['query_engine'] = init_models()
34

35
def greet2(question):
36
    response = st.session_state['query_engine'].query(question)
37
    return response
38

39

40
# Store LLM generated responses
41
if "messages" not in st.session_state.keys():
42
    st.session_state.messages = [{"role": "assistant", "content": "你好，我是你的助手，有什么我可以帮助你的吗？"}]
43

44
    # Display or clear chat messages
45
for message in st.session_state.messages:
46
    with st.chat_message(message["role"]):
47
        st.write(message["content"])
48

49
def clear_chat_history():
50
    st.session_state.messages = [{"role": "assistant", "content": "你好，我是你的助手，有什么我可以帮助你的吗？"}]
51

52
st.sidebar.button('Clear Chat History', on_click=clear_chat_history)
53

54
# Function for generating LLaMA2 response
55
def generate_llama_index_response(prompt_input):
56
    return greet2(prompt_input)
57

58
# User-provided prompt
59
if prompt := st.chat_input():
60
    st.session_state.messages.append({"role": "user", "content": prompt})
61
    with st.chat_message("user"):
62
        st.write(prompt)
63

64
# Gegenerate_llama_index_response last message is not from assistant
65
if st.session_state.messages[-1]["role"] != "assistant":
66
    with st.chat_message("assistant"):
67
        with st.spinner("Thinking..."):
68
            response = generate_llama_index_response(prompt)
69
            placeholder = st.empty()
70
            placeholder.markdown(response)
71
    message = {"role": "assistant", "content": response}
72
    st.session_state.messages.append(message)

运行

1
streamlit run app.py

执行结果

数据收集#

收集关于PUA定义、危害、特点、不同场景、解决方案等相关资料

来源：百度百科：https://baike.baidu.com/item/PUA/5999185

总结#

学会使用hf镜像下载文件，https://hf-mirror.com/
SimpleDirectoryReader 默认会尝试读取它找到的所有文件，将它们作为文本处理。它显式支持以下文件类型，这些类型会根据文件扩展名自动检测：.csv .docx .epub .ipynb .jpeg .jpg .md .mp3 .mp4 .pdf .png .ppt等
数据质量重要，学会洗数据

Author Junyao Hu

Published Oct 1, 2024

Link https://junyaohu.github.io/blog/internlm-l1-rag/