5 Commits

Author SHA1 Message Date
carry
4c9caff668 refactor(schema): 重构数据集和文档类的命名
- 将 dataset、dataset_item 和 doc 类的首字母大写,以符合 Python 类命名惯例
- 更新相关模块中的导入和引用,以适应新的类名
- 此更改不影响功能,仅提高了代码的一致性和可读性
2025-04-20 01:46:15 +08:00
carry
932d1e2687 refactor(schema): 修改数据集名称默认值
- 将 dataset 类中的 name 字段默认值从 None 改为 ""
- 这个改动确保了数据集名称始终有一个默认的空字符串值,而不是 None,提高了数据一致性和代码健壮性
2025-04-09 19:42:00 +08:00
carry
4d77c429bd refactor(schema): 更新 dataset 模型并为 doc 模型添加版本字段
- 在 doc 模型中添加 version 字段,用于表示文档版本
- 将 dataset 模型中的 source_doc 字段类型从 list[doc] 改为 doc,简化数据结构
2025-04-09 18:18:29 +08:00
carry
41447c5ed4 feat(dataset): 添加数据集来源文档字段
- 在 dataset 模型中增加 source_doc 字段,用于记录数据集的来源文档
- 新增字段为可选列表,包含 doc 类型的元素
2025-04-09 17:37:24 +08:00
carry
541d37c674 feat(schema): 新增数据集相关模型并添加文档扫描功能
- 新增 dataset.py 文件,定义数据集相关模型
- 新增 tools 目录,包含解析 Markdown 和扫描文档的功能
- 修改 parse_markdown.py,增加处理 Markdown 文件的函数
- 新增 scan_doc_dir.py,实现文档目录扫描功能
2025-04-09 13:02:18 +08:00