feat(db): 添加数据库连接和初始化功能

- 新增 db/__init__.py 文件，提供数据库连接和初始化的接口 - 导入 get_engine 和 initialize_db 函数，方便外部使用
docs(db): 修改了代码注释
2025-04-06 21:27:25 +08:00 · 2025-04-06 21:26:53 +08:00 · 2025-04-06 19:59:23 +08:00 · 2025-04-06 19:39:43 +08:00 · 2025-04-06 14:49:01 +08:00 · 2025-04-05 01:00:33 +08:00
12 changed files with 225 additions and 26 deletions
@@ -11,6 +11,7 @@ env/
 # IDE
 .vscode/
 .idea/
 .roo
 # Environment files
 .env
@@ -0,0 +1,3 @@
 from .init_db import get_engine, initialize_db
 __all__ = ['get_engine', 'initialize_db']
@@ -0,0 +1,79 @@
 from sqlmodel import SQLModel, create_engine, Session
 from sqlmodel import select
 from typing import Optional
 import os
 from pathlib import Path
 import sys
 from dotenv import load_dotenv
 from sqlalchemy.engine import Engine
 # 将项目根目录添加到系统路径中，以便能够导入项目中的其他模块
 sys.path.append(str(Path(__file__).resolve().parent.parent))
 from schema.dataset_generation import APIProvider
 # 全局变量，用于存储数据库引擎实例
 _engine: Optional[Engine] = None
 def get_engine(workdir: str) -> Engine:
    """
    获取数据库引擎实例。如果引擎尚未创建，则创建一个新的引擎并返回。
    Args:
        workdir (str): 工作目录路径，用于确定数据库文件的存储位置。
    Returns:
        Engine: SQLAlchemy 数据库引擎实例。
    """
    global _engine
    if not _engine:
        # 创建数据库目录（如果不存在）
        db_dir = os.path.join(workdir, "db")
        os.makedirs(db_dir, exist_ok=True)
        # 定义数据库文件路径
        db_path = os.path.join(db_dir, "db.sqlite")
        # 创建数据库URL
        db_url = f"sqlite:///{db_path}"
        # 创建数据库引擎
        _engine = create_engine(db_url)
    return _engine
 def initialize_db(engine: Engine) -> None:
    """
    初始化数据库，创建所有表结构，并插入初始数据（如果不存在）。
    Args:
        engine (Engine): SQLAlchemy 数据库引擎实例。
    """
    # 创建所有表结构
    SQLModel.metadata.create_all(engine)
    # 加载环境变量
    load_dotenv()
    # 从环境变量中获取API相关配置
    api_key = os.getenv("API_KEY")
    base_url = os.getenv("BASE_URL")
    model_id = os.getenv("MODEL_ID")
    # 如果所有必要的环境变量都存在，则插入初始数据
    if api_key and base_url and model_id:
        with Session(engine) as session:
            # 查询是否已存在APIProvider记录
            statement = select(APIProvider).limit(1)
            existing_provider = session.exec(statement).first()
            # 如果不存在，则插入新的APIProvider记录
            if not existing_provider:
                provider = APIProvider(
                    base_url=base_url,
                    model_id=model_id,
                    api_key=api_key
                )
                session.add(provider)
                session.commit()
 if __name__ == "__main__":
    # 定义工作目录路径
    workdir = os.path.join(os.path.dirname(__file__), "..", "workdir")
    # 获取数据库引擎
    engine = get_engine(workdir)
    # 初始化数据库
    initialize_db(engine)
@@ -0,0 +1,9 @@
 import gradio as gr
 def chat_page():
    with gr.Blocks() as demo:
        gr.Markdown("## 聊天")
        with gr.Row():
            with gr.Column():
                pass
    return demo
@@ -0,0 +1,9 @@
 import gradio as gr
 def setting_page():
    with gr.Blocks() as demo:
        gr.Markdown("## 设置")
        with gr.Row():
            with gr.Column():
                pass
    return demo
@@ -0,0 +1,9 @@
 import gradio as gr
 def train_page():
    with gr.Blocks() as demo:
        gr.Markdown("## 微调")
        with gr.Row():
            with gr.Column():
                pass
    return demo
@@ -0,0 +1,23 @@
 import gradio as gr
 from frontend.setting_page import setting_page
 from frontend.chat_page import chat_page
 from frontend.train_page import train_page
 def main():
    setting_demo = setting_page()
    chat_demo = chat_page()
    train_demo = train_page()
    with gr.Blocks() as app:
        gr.Markdown("# 基于文档驱动的自适应编码大模型微调框架")
        with gr.Tabs():
            with gr.TabItem("微调"):
                train_demo.render()
            with gr.TabItem("聊天"):
                chat_demo.render()
            with gr.TabItem("设置"):
                setting_demo.render()
    app.launch()
 if __name__ == "__main__":
    main()
@@ -1,2 +1,4 @@
 openai>=1.0.0
-python-dotenv>=1.0.0
+python-dotenv>=1.0.0
 pydantic>=2.0.0
 gradio>=3.0.0
@@ -0,0 +1,4 @@
 from .dataset import *
 from .dataset_generation import APIProvider, LLMResponse, LLMRequest
 from .md_doc import MarkdownNode
 from .prompt import promptTempleta
@@ -0,0 +1,51 @@
 from datetime import datetime, timezone
 from typing import Optional
 from sqlmodel import SQLModel, Relationship, Field
 class APIProvider(SQLModel, table=True):
    id: Optional[int] = Field(default=None, primary_key=True)
    base_url: str = Field(..., description="API的基础URL")
    model_id: str = Field(..., description="API使用的模型ID")
    api_key: Optional[str] = Field(default=None, description="用于身份验证的API密钥")
    created_at: datetime = Field(
        default_factory=lambda: datetime.now(timezone.utc),
        description="记录创建时间"
    )
 class LLMResponse(SQLModel):
    timestamp: datetime  = Field(
        default_factory=lambda: datetime.now(timezone.utc),
        description="响应的时间戳"
    )
    response_id: str = Field(..., description="响应的唯一ID")
    tokens_usage: dict = Field(default_factory=lambda: {
        "prompt_tokens": 0,
        "completion_tokens": 0,
        "prompt_cache_hit_tokens": None,
        "prompt_cache_miss_tokens": None
    }, description="token使用信息")
    response_content: dict = Field(default_factory=dict, description="API响应的内容")
    total_duration: float = Field(default=0.0, description="请求的总时长，单位为秒")
    llm_parameters: dict = Field(default_factory=lambda: {
        "temperature": None,
        "max_tokens": None,
        "top_p": None,
        "frequency_penalty": None,
        "presence_penalty": None,
        "seed": None
    }, description="API的生成参数")
 class LLMRequest(SQLModel):
    prompt: str = Field(..., description="发送给API的提示词") 
    provider_id: int = Field(foreign_key="apiprovider.id")
    provider: APIProvider = Relationship()
    format: Optional[str] = Field(default=None, description="API响应的格式")
    response: list[LLMResponse] = Field(default_factory=list, description="API响应列表")
    error: Optional[list[str]] = Field(default=None, description="API请求过程中发生的错误信息")
    total_duration: float = Field(default=0.0, description="请求的总时长，单位为秒")
    total_tokens_usage: dict = Field(default_factory=lambda: {
        "prompt_tokens": 0,
        "completion_tokens": 0,
        "prompt_cache_hit_tokens": None,
        "prompt_cache_miss_tokens": None
    }, description="token使用信息")
@@ -0,0 +1,13 @@
 from pydantic import BaseModel, Field
 from typing import List, Optional
 class MarkdownNode(BaseModel):
    level: int = Field(default=0, description="节点层级")
    title: str = Field(default="Root", description="节点标题")
    content: Optional[str] = Field(default=None, description="节点内容")
    children: List['MarkdownNode'] = Field(default_factory=list, description="子节点列表")
    class Config:
        arbitrary_types_allowed = True
 MarkdownNode.model_rebuild()
@@ -1,28 +1,24 @@
 import re
 import sys
 from pathlib import Path
-class MarkdownNode:
+# 添加项目根目录到sys.path
-    def __init__(self, level=0, title="Root"):
+sys.path.append(str(Path(__file__).resolve().parent.parent))
-        self.level = level
+from schema import MarkdownNode
        self.title = title
        self.content = ""  # 使用字符串存储合并后的内容
        self.children = []
-    def __repr__(self):
+def add_child(parent, child):
-        return f"({self.level}) {self.title}"
+    parent.children.append(child)
-    def add_child(self, child):
+def print_tree(node, indent=0):
-        self.children.append(child)
+    prefix = "│  " * (indent - 1) + "└─ " if indent > 0 else ""
-
+    print(f"{prefix}{node.title}")
-    def print_tree(self, indent=0):
+    if node.content:
-        prefix = "│  " * (indent - 1) + "└─ " if indent > 0 else ""
+        content_prefix = "│  " * indent + "├─ [内容]"
-        print(f"{prefix}{self.title}")
+        print(content_prefix)
-        if self.content:
+        for line in node.content.split('\n'):
-            content_prefix = "│  " * indent + "├─ [内容]"
+            print("│  " * indent + "│  " + line)
-            print(content_prefix)
+    for child in node.children:
-            for line in self.content.split('\n'):
+        print_tree(child, indent + 1)
                print("│  " * indent + "│  " + line)
        for child in self.children:
            child.print_tree(indent + 1)
 def parse_markdown(markdown):
    lines = markdown.split('\n')
@@ -51,10 +47,10 @@ def parse_markdown(markdown):
        if match:
            level = len(match.group(1))
            title = match.group(2)
-            node = MarkdownNode(level, title)
+            node = MarkdownNode(level=level, title=title, content="", children=[])
            while stack[-1].level >= level:
                stack.pop()
-            stack[-1].add_child(node)
+            add_child(stack[-1], node)
            stack.append(node)
        else:
            if stack[-1].content:
@@ -65,9 +61,9 @@ def parse_markdown(markdown):
 if __name__=="__main__":
    # 从文件读取 Markdown 内容
-    with open("example.md", "r", encoding="utf-8") as f:
+    with open("workdir/example.md", "r", encoding="utf-8") as f:
        markdown = f.read()
    # 解析 Markdown 并打印树结构
    root = parse_markdown(markdown)
-    root.print_tree()
+    print_tree(root)
Author	SHA1	Message	Date
carry	f93f213a31	feat(db): 添加数据库连接和初始化功能 - 新增 db/__init__.py 文件，提供数据库连接和初始化的接口 - 导入 get_engine 和 initialize_db 函数，方便外部使用	2025-04-06 21:27:25 +08:00
carry	10b4c29bda	docs(db): 修改了代码注释	2025-04-06 21:26:53 +08:00
carry	b1e98ca913	feat(db): 初始化数据库并创建 APIProvider 表 - 新增 init_db.py 文件，实现数据库初始化和 APIProvider 表的创建 - 新增 dataset_generation.py 文件，定义 LLMRequest、LLMResponse 和 APIProvider 模型 - 在初始化数据库时，如果环境变量中存在 API_KEY、BASE_URL 和 MODEL_ID，会自动添加一条 APIProvider 记录	2025-04-06 19:59:23 +08:00
carry	2d5a5277ae	refactor(schema): 更新 prompt 导入 - 将 prompt_templeta 重命名为 promptTempleta，以符合驼峰命名规范 - 优化导入语句格式	2025-04-06 19:39:43 +08:00
carry	519a5f3773	feat(frontend): 添加前端页面模块并实现基本布局 - 新增 chat_page.py、setting_page.py 和 train_page.py 文件，分别实现聊天、设置和微调页面的基本布局 - 添加 main.py 文件，集成所有页面并创建主应用 - 在 requirements.txt 中添加 gradio 依赖	2025-04-06 14:49:01 +08:00
carry	1f4d491694	build: 添加 pydantic 依赖	2025-04-05 01:00:33 +08:00
carry	8ce4f1e373	chore: 添加 .roo 到 .gitignore 文件 - 在 .gitignore 文件中添加 .roo 目录，以忽略相关文件	2025-04-05 00:59:42 +08:00
carry	3395b860e4	refactor(parse_markdown): 重构 Markdown 解析逻辑并使用 Pydantic 模型将 MarkdownNode 类重构为使用 Pydantic 模型，提高代码的可维护性和类型安全性。同时，将解析逻辑与节点操作分离，简化代码结构。	2025-04-04 20:50:39 +08:00
		`@@ -0,0 +1,3 @@`
							`from .init_db import get_engine, initialize_db`

							`__all__ = ['get_engine', 'initialize_db']`