Spaces:

Nefertury
/

tatar-chatbot-render

Paused

App Files Files Community

Nefertury

AccessAndrei commited on Oct 20

Commit

9f0bc77

verified ·

1 Parent(s): cae05b4

without quantisation (#6)

Browse files

- without quantisation (ab57ebe0bba9f985cda9ee2e9329fc577c9edd5c)

Co-authored-by: Aksenov Andrei <[email protected]>

Files changed (1) hide show

app.py +10 -10

app.py CHANGED Viewed

@@ -4,7 +4,7 @@ import gradio as gr
 import requests
 from typing import List, Dict, Iterator
 from threading import Thread
-from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, TextIteratorStreamer
 from peft import PeftModel
 import json
@@ -16,15 +16,14 @@ YANDEX_FOLDER_ID= os.getenv("YANDEX_FOLDER_ID")
 if not all([ADAPTER_ID, YANDEX_API_KEY, YANDEX_FOLDER_ID]):
     raise ValueError("Необходимо установить переменные окружения: ADAPTER_ID, YANDEX_API_KEY, YANDEX_FOLDER_ID")
-MAX_NEW_TOKENS = 2048
 TEMPERATURE          = 1
 TOP_P                = 0.9
 REPETITION_PENALTY   = 1.05
 SYS_PROMPT_TT = ("Син-цифрлы ярдәмче (ир-ат нәселе). Сине Сбербанк дирекциясенең ESG да уйлап таптылар. Син барлык өлкәләрдә, бигрәк тә Татарстанга кагылышлы өлкәләрдә кызыклы кулланучы эксперты! Ул сезгә бик күп сораулар бирәчәк, ә сезнең эшегез-шәрехләр бирү, кулланучының сорауларына җавап бирү, адымлап киңәшләр, мисаллар бирү һәм, кирәк булганда, кулланучыга аныклаучы сораулар бирү.")
-print("Загрузка модели с 4-битной квантизацией...")
-quantization_config = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_compute_dtype=torch.bfloat16)
 tok = AutoTokenizer.from_pretrained(ADAPTER_ID, use_fast=False)
 if tok.pad_token is None:
@@ -33,12 +32,13 @@ if tok.pad_token is None:
 base = AutoModelForCausalLM.from_pretrained(
     BASE_MODEL_ID,
-    quantization_config=quantization_config,
-    device_map="auto"
 )
 print("Применяем LoRA адаптер...")
-model = PeftModel.from_pretrained(base, ADAPTER_ID)
 model.config.use_cache = False
 model.eval()
 print("✅ Модель успешно загружена!")
@@ -86,9 +86,9 @@ def generate_tt_reply_stream(messages: List[Dict[str, str]]) -> Iterator[str]:
         **enc,
         streamer=streamer,
         max_new_tokens=MAX_NEW_TOKENS,
-        do_sample=True,
-        temperature=TEMPERATURE,
-        top_p=TOP_P,
         repetition_penalty=REPETITION_PENALTY,
         eos_token_id=tok.eos_token_id,
         pad_token_id=tok.pad_token_id,

 import requests
 from typing import List, Dict, Iterator
 from threading import Thread
+from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer
 from peft import PeftModel
 import json
 if not all([ADAPTER_ID, YANDEX_API_KEY, YANDEX_FOLDER_ID]):
     raise ValueError("Необходимо установить переменные окружения: ADAPTER_ID, YANDEX_API_KEY, YANDEX_FOLDER_ID")
+MAX_NEW_TOKENS = 1024
 TEMPERATURE          = 1
 TOP_P                = 0.9
 REPETITION_PENALTY   = 1.05
 SYS_PROMPT_TT = ("Син-цифрлы ярдәмче (ир-ат нәселе). Сине Сбербанк дирекциясенең ESG да уйлап таптылар. Син барлык өлкәләрдә, бигрәк тә Татарстанга кагылышлы өлкәләрдә кызыклы кулланучы эксперты! Ул сезгә бик күп сораулар бирәчәк, ә сезнең эшегез-шәрехләр бирү, кулланучының сорауларына җавап бирү, адымлап киңәшләр, мисаллар бирү һәм, кирәк булганда, кулланучыга аныклаучы сораулар бирү.")
 tok = AutoTokenizer.from_pretrained(ADAPTER_ID, use_fast=False)
 if tok.pad_token is None:
 base = AutoModelForCausalLM.from_pretrained(
     BASE_MODEL_ID,
+    torch_dtype=torch.float16,
+    device_map="auto",
+    low_cpu_mem_usage=True
 )
 print("Применяем LoRA адаптер...")
+model = PeftModel.from_pretrained(base, ADAPTER_ID, torch_dtype=torch.float16)
 model.config.use_cache = False
 model.eval()
 print("✅ Модель успешно загружена!")
         **enc,
         streamer=streamer,
         max_new_tokens=MAX_NEW_TOKENS,
+        do_sample=False,
+        # temperature=TEMPERATURE,
+        # top_p=TOP_P,
         repetition_penalty=REPETITION_PENALTY,
         eos_token_id=tok.eos_token_id,
         pad_token_id=tok.pad_token_id,