feat(frontend): 增加超参数设置并优化聊天页面布局

- 在聊天页面添加了超参数输入框，包括最大生成长度、温度、Top-p 采样和重复惩罚 - 优化了聊天框的布局，使用 gr.Row() 和 gr.Column() 实现了更合理的界面结构 - 更新了 bot 函数，支持根据用户输入的超参数进行文本生成 - 修复了一些代码格式问题，提高了代码的可读性
fix(frontend): 修复聊天页面并的流式回复
2025-04-11 18:48:13 +08:00 · 2025-04-11 18:33:31 +08:00
1 changed files with 71 additions and 41 deletions
@@ -1,62 +1,92 @@
 import gradio as gr
 import sys
 from pathlib import Path
+from threading import Thread # 需要导入 Thread
+from transformers import TextIteratorStreamer # 使用 TextIteratorStreamer
+
+# 假设 global_var.py 在父目录
 sys.path.append(str(Path(__file__).resolve().parent.parent))
-from global_var import get_model, get_tokenizer
+from global_var import get_model, get_tokenizer # 假设这两个函数能正确获取模型和分词器

 def chat_page():
    with gr.Blocks() as demo:
-        import random
-        import time
-        gr.Markdown("## 聊天")
-        chatbot = gr.Chatbot(type="messages")
-        msg = gr.Textbox()
-        clear = gr.Button("Clear")
+        # 聊天框
+        gr.Markdown("## 对话")
+        with gr.Row():
+            with gr.Column(scale=4):
+                chatbot = gr.Chatbot(type="messages", label="聊天机器人")
+                msg = gr.Textbox(label="输入消息")          
+
+            with gr.Column(scale=1):
+                # 新增超参数输入框
+                max_new_tokens_input = gr.Textbox(label="最大生成长度", value="1024")
+                temperature_input = gr.Textbox(label="温度 (Temperature)", value="0.8")
+                top_p_input = gr.Textbox(label="Top-p 采样", value="0.95")
+                repetition_penalty_input = gr.Textbox(label="重复惩罚", value="1.1")
+                clear = gr.Button("清除对话")

        def user(user_message, history: list):
            return "", history + [{"role": "user", "content": user_message}]

-        def bot(history: list):
+        def bot(history: list, max_new_tokens, temperature, top_p, repetition_penalty):
            model = get_model()
            tokenizer = get_tokenizer()
-            print(tokenizer)
-            print(model)
+            if not history:
+                yield history
+                return

-            # 获取用户的最新消息
-            user_message = history[-1]["content"]
-            
-            # 使用 tokenizer 对消息进行预处理
-            messages = [{"role": "user", "content": user_message}]
-            inputs = tokenizer.apply_chat_template(
-                messages,
-                tokenize=True,
-                add_generation_prompt=True,
-                return_tensors="pt",
-            ).to("cuda")
-            
-            # 使用 TextStreamer 进行流式生成
-            from transformers import TextStreamer
-            text_streamer = TextStreamer(tokenizer, skip_prompt=True)
-            
-            # 调用模型进行推理
-            generated_text = ""
-            for new_token in model.generate(
-                input_ids=inputs,
-                streamer=text_streamer,
-                max_new_tokens=1024,
-                use_cache=False,
-                temperature=1.5,
-                min_p=0.1,
-            ):
-                generated_text += tokenizer.decode(new_token, skip_special_tokens=True)
-                history.append({"role": "assistant", "content": generated_text})
+            if model is None or tokenizer is None:
+                history.append({"role": "assistant", "content": "错误：模型或分词器未加载。"})
+                yield history
+                return
+
+            try:
+                inputs = tokenizer.apply_chat_template(
+                    history,
+                    tokenize=True,
+                    add_generation_prompt=True,
+                    return_tensors="pt",
+                ).to(model.device)
+
+                streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
+
+                # 将超参数转换为数值类型
+                generation_kwargs = dict(
+                    input_ids=inputs,
+                    streamer=streamer,
+                    max_new_tokens=int(max_new_tokens),
+                    temperature=float(temperature),
+                    top_p=float(top_p),
+                    repetition_penalty=float(repetition_penalty),
+                    do_sample=True,
+                    use_cache=False
+                )
+                thread = Thread(target=model.generate, kwargs=generation_kwargs)
+                thread.start()
+
+                history.append({"role": "assistant", "content": ""})
+
+                for new_text in streamer:
+                    if new_text:
+                        history[-1]["content"] += new_text
+                        yield history
+
+            except Exception as e:
+                import traceback
+                error_message = f"生成回复时出错：\n{traceback.format_exc()}"
+                if history and history[-1]["role"] == "assistant" and history[-1]["content"] == "":
+                    history[-1]["content"] = error_message
+                else:
+                    history.append({"role": "assistant", "content": error_message})
                yield history

+        # 更新 .then() 调用，将超参数传递给 bot 函数
        msg.submit(user, [msg, chatbot], [msg, chatbot], queue=False).then(
-            bot, chatbot, chatbot
-
+            bot, [chatbot, max_new_tokens_input, temperature_input, top_p_input, repetition_penalty_input], chatbot
        )
-        clear.click(lambda: None, None, chatbot, queue=False)
+
+        clear.click(lambda: [], None, chatbot, queue=False)
+
    return demo

 if __name__ == "__main__":