
- 新增 dataset_store.py 文件,实现数据集的存储和读取功能 - 添加 get_all_dataset 函数,用于获取所有数据集 - 使用 tinydb 和 json 进行数据持久化 - 在项目根目录下创建 workdir/dataset 目录用于存储数据集文件
基于文档驱动的自适应编码大模型微调框架
简介
本人的毕业设计
项目概述
- 通过深度解析私有库的文档以及其他资源,生成指令型语料,据此对大语言模型进行针对私有库的微调。
项目技术
- 使用unsloth框架在GPU上实现大语言模型的qlora微调
- 使用langchain框架编写工作流实现批量生成微调语料
- 使用tinydb和sqlite实现数据的持久化
- 使用gradio框架实现前端展示
施工中......
Languages
TeX
63.9%
Python
36.1%