- 在 dataset 模型中增加 source_doc 字段,用于记录数据集的来源文档 - 新增字段为可选列表,包含 doc 类型的元素
- 新增 dataset.py 文件,定义数据集相关模型 - 新增 tools 目录,包含解析 Markdown 和扫描文档的功能 - 修改 parse_markdown.py,增加处理 Markdown 文件的函数 - 新增 scan_doc_dir.py,实现文档目录扫描功能