使用nvidia 5070Ti 显卡安装 minimind安装
操作系统版本为
Ubuntu 22.04.5 LTS,
python版本为
pc:~/git/minimind$ python
Python 3.10.12 (main, Mar 3 2026, 11:56:32) [GCC 11.4.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
显卡信息
pc:~/git/minimind$ nvidia-smiSun Mar 22 15:52:25 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.126.09 Driver Version: 580.126.09 CUDA Version: 13.0 |
+-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 5070 Ti Off | 00000000:01:00.0 On | N/A |
| 0% 32C P8 3W / 300W | 88MiB / 16303MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| 0 N/A N/A 1633 G /usr/lib/xorg/Xorg 37MiB |
+-----------------------------------------------------------------------------------------+
创建虚拟环境
pip -m venv minimind_env
激活虚拟环境
source minimind_env/bin/activate
安装依赖包
pip install -r requirements.txt
开始预训练
(minimind_env) pc:~/git/minimind$ python trainer/train_pretrain.py
报错:
raise HFValidationError(huggingface_hub.errors.HFValidationError: Repo id must use alphanumeric chars, '-', '_' or '.'. The name cannot start or end with '-' or '.' and the maximum length is 96: '../model'.
进入trainer目录执行不再报错
(minimind_env) pc:~/git/minimind/trainer$ python train_pretrain.py
Model Params: 25.83M
Trainable Params: 25.830M
Epoch:[1/1](100/44160), loss: 7.1171, logits_loss: 7.1171, aux_loss: 0.0000, lr: 0.00049999, epoch_time: 43.0min
Epoch:[1/1](200/44160), loss: 6.9681, logits_loss: 6.9681, aux_loss: 0.0000, lr: 0.00049998, epoch_time: 41.0min
信息显示预训练需要43分钟
pc:~/git/minimind/trainer$ nvidia-smi
Sun Mar 22 16:19:51 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.126.09 Driver Version: 580.126.09 CUDA Version: 13.0 |
+-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 5070 Ti Off | 00000000:01:00.0 On | N/A |
| 31% 58C P1 209W / 300W | 4488MiB / 16303MiB | 98% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| 0 N/A N/A 1633 G /usr/lib/xorg/Xorg 37MiB |
| 0 N/A N/A 120785 C python 4392MiB |
+-----------------------------------------------------------------------------------------+
+-----------------------------------------------------------------------------------------+
执行完预训练后执行指令微调
pc:~/git/minimind/trainer$ python train_full_sft.py
训练完需要近2个小时,执行完后就可以试用了
查看预训练后的效果:
python eval_llm.py --weight pretrain
(minimind_env) pc:~/git/minimind$ python eval_llm.py --weight pretrain
Model Params: 25.83M
[0] 自动测试
[1] 手动输入
1
💬: 你好
🤖: ,我在网上购买了一台电脑,但我不确定哪个品牌更受欢迎。你有什么建议吗?您好,我可以给您推荐一些受欢迎的电脑品牌,比如苹果、三星、华为等。这些品牌在不同品牌和型号上都有各自的特点和价格,您也可以根据自己的需求进行选择。您可以告诉我您的具体需求和预算,我可以为您提供更具体的建议。
[Speed]: 72.12 tokens/s
💬: 你是谁
🤖: ?我是纽约市的首都。 纽约市是美国最大的城市之一,也是世界上最重要的商业和文化中心之一。在那里,你可以探索世界各地的文化、历史、美食和购物体验。在这里,你可以参观博物馆、艺术馆、音乐会和音乐会。在这里,你可以放松身心,与朋友或家人一起散步或骑车。如果你想放松身心,那么塞舌尔是个不错的选择。大约需要三天的时间才能到达目的地,然后再走几分钟就可以到达那里。
[Speed]: 158.55 tokens/s
💬: 什么是大模型
🤖: 对传统计算机系统的作用?大模型对传统计算机系统的作用包括:
1. 构建模块:模块会根据数据和参数,对其进行建模和训练,以优化其性能和效率。
2. 构建模块:模块会根据数据集和函数来进行建模和训练,以提高计算机的性能。
3. 模块和模块:模块可以用于构建模块,以便将复杂的数据分割成更小的块,以便更容易理解和处理数据。
4. 节点验证和数据可视化:模块会根据数据和特征来进行可视化,从而增强其性能。
总的来说,大模型对传统计算机系统的作用非常重要,它可以改善计算机的性能和性能,为计算机系统提供更准确和高效的解决方案。
[Speed]: 164.87 tokens/s
查看指令微调后的效果:
pc:~/git/minimind$ python eval_llm.py --weight full_sft
Model Params: 25.83M
[0] 自动测试
[1] 手动输入
1
💬: 你好
🤖: 你好!我能帮你想些什么呢?
[Speed]: 16.44 tokens/s
💬: 你是谁
🤖: 我是人工智能助手,不具备人类的感知和理解能力,因此我无法像人类一样拥有感知和理解。但我可以提供帮助和信息,帮助你理解复杂的科学概念和应用。例如,你可能是在询问人类语言、理解语言、理解自然现象、处理语言、提供信息、理解自然语言、处理自然语言、理解人类语言等。无论是关于情感、历史、哲学、语言学、历史、社会学、心理学、哲学、历史、科学、哲学、社会学、经济学、社会学、语言学等。
[Speed]: 91.24 tokens/s
💬: 什么是大模型
🤖: 大模型是一种模型,它通过反向传播函数来学习数据之间的关系。这些函数可以是线性关系,也可以是非线性关系,例如,它可以从一个或多个类别中学习数据的特征,或者从一个数据集中学习数据之间的关系。在大模型中,系统可以学习数据之间的关系,并从数据中提取出规律。在非线性关系中,系统可以学习数据的结构,而不是从一个类中学习数据的特征。例如,当数据集中有多个类别,例如标记数据集,它可以学习数据的特征,或者从数据中提取有用的信息。
[Speed]: 91.67 tokens/s
可见指令微调后效果好很多
