使用nvidia 5070Ti 显卡安装 minimind安装

时间:2026-03-22

操作系统版本为

Ubuntu 22.04.5 LTS

python版本为

pc:~/git/minimind$ python 

Python 3.10.12 (main, Mar  3 2026, 11:56:32) [GCC 11.4.0] on linux
Type "help", "copyright", "credits" or "license" for more information.



显卡信息

pc:~/git/minimind$ nvidia-smi
Sun Mar 22 15:52:25 2026       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.126.09             Driver Version: 580.126.09     CUDA Version: 13.0     |
+-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 5070 Ti     Off |   00000000:01:00.0  On |                  N/A |
|  0%   32C    P8              3W /  300W |      88MiB /  16303MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A            1633      G   /usr/lib/xorg/Xorg                       37MiB |
+-----------------------------------------------------------------------------------------+


创建虚拟环境

pip -m venv minimind_env

激活虚拟环境

source  minimind_env/bin/activate

安装依赖包

pip install -r requirements.txt


开始预训练

(minimind_env) pc:~/git/minimind$ python trainer/train_pretrain.py 

报错:

    raise HFValidationError(
huggingface_hub.errors.HFValidationError: Repo id must use alphanumeric chars, '-', '_' or '.'. The name cannot start or end with '-' or '.' and the maximum length is 96: '../model'.


进入trainer目录执行不再报错


(minimind_env) pc:~/git/minimind/trainer$ python train_pretrain.py 
Model Params: 25.83M
Trainable Params: 25.830M
Epoch:[1/1](100/44160), loss: 7.1171, logits_loss: 7.1171, aux_loss: 0.0000, lr: 0.00049999, epoch_time: 43.0min
Epoch:[1/1](200/44160), loss: 6.9681, logits_loss: 6.9681, aux_loss: 0.0000, lr: 0.00049998, epoch_time: 41.0min

信息显示预训练需要43分钟



pc:~/git/minimind/trainer$ nvidia-smi 
Sun Mar 22 16:19:51 2026       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.126.09             Driver Version: 580.126.09     CUDA Version: 13.0     |
+-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 5070 Ti     Off |   00000000:01:00.0  On |                  N/A |
| 31%   58C    P1            209W /  300W |    4488MiB /  16303MiB |     98%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A            1633      G   /usr/lib/xorg/Xorg                       37MiB |
|    0   N/A  N/A          120785      C   python                                 4392MiB |
+-----------------------------------------------------------------------------------------+
+-----------------------------------------------------------------------------------------+

执行完预训练后执行指令微调

pc:~/git/minimind/trainer$ python train_full_sft.py 

训练完需要近2个小时,执行完后就可以试用了


查看预训练后的效果:

python eval_llm.py --weight pretrain


(minimind_env) pc:~/git/minimind$ python eval_llm.py --weight pretrain
Model Params: 25.83M
[0] 自动测试
[1] 手动输入
1
💬: 你好
🤖: ,我在网上购买了一台电脑,但我不确定哪个品牌更受欢迎。你有什么建议吗?您好,我可以给您推荐一些受欢迎的电脑品牌,比如苹果、三星、华为等。这些品牌在不同品牌和型号上都有各自的特点和价格,您也可以根据自己的需求进行选择。您可以告诉我您的具体需求和预算,我可以为您提供更具体的建议。

[Speed]: 72.12 tokens/s


💬: 你是谁
🤖: ?我是纽约市的首都。 纽约市是美国最大的城市之一,也是世界上最重要的商业和文化中心之一。在那里,你可以探索世界各地的文化、历史、美食和购物体验。在这里,你可以参观博物馆、艺术馆、音乐会和音乐会。在这里,你可以放松身心,与朋友或家人一起散步或骑车。如果你想放松身心,那么塞舌尔是个不错的选择。大约需要三天的时间才能到达目的地,然后再走几分钟就可以到达那里。

[Speed]: 158.55 tokens/s


💬: 什么是大模型
🤖: 对传统计算机系统的作用?大模型对传统计算机系统的作用包括:

1. 构建模块:模块会根据数据和参数,对其进行建模和训练,以优化其性能和效率。

2. 构建模块:模块会根据数据集和函数来进行建模和训练,以提高计算机的性能。

3. 模块和模块:模块可以用于构建模块,以便将复杂的数据分割成更小的块,以便更容易理解和处理数据。

4. 节点验证和数据可视化:模块会根据数据和特征来进行可视化,从而增强其性能。

总的来说,大模型对传统计算机系统的作用非常重要,它可以改善计算机的性能和性能,为计算机系统提供更准确和高效的解决方案。

[Speed]: 164.87 tokens/s




查看指令微调后的效果:


python eval_llm.py --weight full_sft



pc:~/git/minimind$ python eval_llm.py --weight full_sft
Model Params: 25.83M
[0] 自动测试
[1] 手动输入
1
💬: 你好
🤖: 你好!我能帮你想些什么呢?

[Speed]: 16.44 tokens/s


💬: 你是谁
🤖: 我是人工智能助手,不具备人类的感知和理解能力,因此我无法像人类一样拥有感知和理解。但我可以提供帮助和信息,帮助你理解复杂的科学概念和应用。例如,你可能是在询问人类语言、理解语言、理解自然现象、处理语言、提供信息、理解自然语言、处理自然语言、理解人类语言等。无论是关于情感、历史、哲学、语言学、历史、社会学、心理学、哲学、历史、科学、哲学、社会学、经济学、社会学、语言学等。

[Speed]: 91.24 tokens/s


💬: 什么是大模型
🤖: 大模型是一种模型,它通过反向传播函数来学习数据之间的关系。这些函数可以是线性关系,也可以是非线性关系,例如,它可以从一个或多个类别中学习数据的特征,或者从一个数据集中学习数据之间的关系。在大模型中,系统可以学习数据之间的关系,并从数据中提取出规律。在非线性关系中,系统可以学习数据的结构,而不是从一个类中学习数据的特征。例如,当数据集中有多个类别,例如标记数据集,它可以学习数据的特征,或者从数据中提取有用的信息。

[Speed]: 91.67 tokens/s





可见指令微调后效果好很多

【推荐】 google机器学习教程
【推荐】 从零训练 Gemma3
【推荐】 图解 Transformer 工作原理
【推荐】 沈阳工业大学信息与计算科学专业介绍及课程设置
【推荐】 一文了解DeepSeek及应用场景