大家好,我是热爱开源的了不起。
你有没有想过,如果有一天你的微信好友突然不再回复消息,或者你想让忙碌的自己拥有一个“替身”来处理日常对话?又或者,你希望保留亲人、朋友独特的说话风格,让他们的“数字灵魂”永远陪伴?
今天要介绍的开源项目 WeClone,就能通过你的微信聊天记录,训练出一个高度拟真的 AI 数字分身,甚至能用 TA 的声音和语气与你实时互动!
项目简介:克隆你的“数字灵魂”
WeClone 是一款基于大语言模型(LLM)的开源工具,通过分析用户的微信聊天记录,结合语音克隆技术,生成个性化的数字分身。它不仅支持文本对话的个性化定制,还能通过 0.5B 参数的轻量模型克隆用户的声音,实现“形神兼备”的交互体验。
核心功能亮点:
- 聊天记录驱动:自动解析微信聊天数据,转化为问答对格式,用于微调模型;
- 低成本训练:采用 LoRA 技术,仅需 16GB 显存即可微调 7B 规模的大模型(如 Qwen2.5-7B),显著降低硬件门槛;
- 多平台部署:支持微信、QQ、Telegram 等主流聊天工具,一键部署为智能机器人;
- 隐私保护:本地化处理数据,默认过滤手机号、身份证等敏感信息,保障用户隐私。
项目安装与使用:三步打造专属 AI 分身
环境搭建
WeClone 支持 Linux/WSL 和 Windows(推荐使用 WSL),并提供两种安装方案:
1、基础安装(开发者适用):
1 | git clone https://github.com/xming521/WeClone.git |
验证 CUDA 环境:python -c "import torch; print('CUDA可用:', torch.cuda.is_available())"
。
2、小白专属(ServBay 一键部署):使用 ServBay 工具(官网下载)可一键配置 Python 环境、模型下载和依赖管理,大幅简化安装流程。
使用案例:从数据到对话
- 数据准备:
- 使用 PyWxDump 导出微信聊天记录为 CSV 格式,存放至
./dataset/csv
目录; - 运行数据清洗脚本,自动过滤敏感信息:
- ```Plain
python weclone/data/qa_generator.py1
2
3
4
5
6
1. 模型训练:
1. 下载基础模型(如 Qwen2.5-7B):
- ```Plain
git lfs install
git clone https://www.modelscope.cn/Qwen/Qwen2.5-7B-Instruct.git
- ```Plain
- 单卡训练(修改
settings.json
调整参数):- ```Plain
python weclone/train/train_sft.py1
2
3
4
5
6
7
8
9
10
11
122. 部署与互动:
1. 启动本地 API 服务:`python weclone/server/api_service.py`;
2. 通过 AstrBot 框架将模型接入微信,扫码登录后即可与你的 AI 分身对话!
### 总结:让技术延续情感与记忆
WeClone 的亮点在于开源免费、低门槛个性化和隐私安全。无论是想打造个人助理、留存珍贵对话,还是探索“数字永生”的可能性,它都提供了完整的解决方案。
感兴趣的朋友们,赶快去试试吧~
```json
项目地址:https://github.com/xming521/WeClone
- ```Plain
- 使用 PyWxDump 导出微信聊天记录为 CSV 格式,存放至