Spaces:

Ane4ka
/

NoteMaker

Sleeping

App Files Files Community

ASureevaA commited on 19 days ago

Commit

ed03824

1 Parent(s): a020532

edit

Browse files

Files changed (2) hide show

app.py +86 -56
requirements.txt +3 -2

app.py CHANGED Viewed

@@ -7,71 +7,93 @@ import soundfile as soundfile_module
 import torch
 import gradio as gradio_module
 from PIL import Image
 from transformers import (
     pipeline,
     VitsModel,
     AutoTokenizer,
 )
 # ============================
 # 1. Настройки устройства
 # ============================
-# TODO_USER: для нормальной работы olmOCR почти наверняка нужен GPU
-if torch.cuda.is_available():
-    device_string: str = "cuda"
-    pipeline_device_index: int = 0
-else:
-    device_string = "cpu"
-    pipeline_device_index = -1  # Gradio/transformers: -1 = CPU
 # ============================
-# 2. OCR на olmOCR-2-7B-1025-FP8
 # ============================
-# Модель: allenai/olmOCR-2-7B-1025-FP8
-# По README это image-to-text трансформер, так что используем стандартный pipeline.
-ocr_pipeline = pipeline(
-    task="image-to-text",
-    model="allenai/olmOCR-2-7B-1025-FP8",
-    device=pipeline_device_index,
-    # TODO_USER: при необходимости можно добавить torch_dtype=..., но лучше сначала проверить дефолт
 )
 def run_ocr(image_object: Image.Image) -> str:
     """
-    OCR для печатного английского текста с помощью olmOCR-2-7B-1025-FP8.
-    Вход: PIL.Image (страница/скриншот).
-    Выход: строка текста, которую модель сгенерировала как распознавание.
     """
     if image_object is None:
         return ""
     rgb_image_object: Image.Image = image_object.convert("RGB")
-    # olmOCR поддерживает прямой вызов через pipeline("image-to-text").
-    # Ожидаемый формат ответа: список dict вида [{"generated_text": "..."}].
-    result = ocr_pipeline(rgb_image_object)
-    if isinstance(result, list) and len(result) > 0:
-        first_item = result[0]
-        if isinstance(first_item, dict) and "generated_text" in first_item:
-            text_value: str = str(first_item["generated_text"])
-        else:
-            # TODO_USER: непредвиденный формат ответа, логировать при необходимости
-            text_value = str(first_item)
-    else:
-        text_value = str(result)
-    recognized_text: str = text_value.strip()
     return recognized_text
 # ============================
-# 3. Суммаризация (английский DistilBART)
 # ============================
 summary_pipeline = pipeline(
@@ -98,7 +120,7 @@ def run_summarization(
         max(32, word_count + 20),
     )
-    # Для совсем короткого текста суммаризация мало смысла
     if word_count < 8:
         return cleaned_text
@@ -114,7 +136,7 @@ def run_summarization(
 # ============================
-# 4. TTS (английский, MMS VITS)
 # ============================
 tts_model: VitsModel = VitsModel.from_pretrained("facebook/mms-tts-eng")
@@ -126,8 +148,8 @@ def run_tts(summary_text: str) -> Optional[str]:
     """
     Озвучка английского текста конспекта через VitsModel (facebook/mms-tts-eng).
-    Если модель внутри упадёт (известный баг на некоторых странных инпутах),
-    просто возвращаем None и не роняем всё приложение.
     """
     cleaned_text: str = summary_text.strip()
     if not cleaned_text:
@@ -154,6 +176,7 @@ def run_tts(summary_text: str) -> Optional[str]:
         print(f"[WARN] TTS RuntimeError: {runtime_error}")
         return None
     waveform_array = waveform_tensor.squeeze().cpu().numpy().astype("float32")
     waveform_array = numpy_module.clip(waveform_array, -1.0, 1.0)
@@ -172,21 +195,24 @@ def run_tts(summary_text: str) -> Optional[str]:
 # ============================
-# 5. Полный пайплайн
 # ============================
 def full_flow(
     image_object: Image.Image,
     max_summary_tokens: int = 128,
-) -> Tuple[str, str, Optional[str]]:
     """
     Полный пайплайн:
-    1) OCR: изображение -> исходный английский текст (olmOCR)
-    2) Суммаризация: текст -> конспект (DistilBART)
-    3) TTS: конспект -> .wav файл (или None, если TTS не смог)
     """
     recognized_text: str = run_ocr(image_object=image_object)
     summary_text: str = run_summarization(
         input_text=recognized_text,
         max_summary_tokens=max_summary_tokens,
@@ -194,11 +220,11 @@ def full_flow(
     audio_file_path: Optional[str] = run_tts(summary_text=summary_text)
-    return recognized_text, summary_text, audio_file_path
 # ============================
-# 6. Gradio UI (по-русски)
 # ============================
 gradio_interface = gradio_module.Interface(
@@ -218,25 +244,29 @@ gradio_interface = gradio_module.Interface(
     ],
     outputs=[
         gradio_module.Textbox(
-            label="Распознанный текст (olmOCR)",
-            lines=10,
         ),
         gradio_module.Textbox(
-            label="Конспект (английский текст)",
             lines=6,
         ),
         gradio_module.Audio(
-            label="Озвучка конспекта (английский TTS)",
             type="filepath",
         ),
     ],
-    title="Картинка → Текст → Конспект → Озвучка (olmOCR + английские модели)",
     description=(
-        "1) olmOCR-2-7B-1025-FP8 распознаёт текст с документа.\n"
-        "2) Английский трансформер суммаризации делает краткий пересказ.\n"
-        "3) VITS-модель MMS (facebook/mms-tts-eng) озвучивает конспект.\n\n"
-        "Если озвучка не сгенерировалась, значит конкретный текст не понравился TTS-модели "
-        "и она упала внутри — пайплайн просто пропустит аудио."
     ),
 )

 import torch
 import gradio as gradio_module
 from PIL import Image
+import easyocr
 from transformers import (
     pipeline,
     VitsModel,
     AutoTokenizer,
 )
 # ============================
 # 1. Настройки устройства
 # ============================
+# Жёстко работаем на CPU: в Space нет доступа к GPU
+device_string: str = "cpu"
 # ============================
+# 2. OCR (easyocr, английский)
 # ============================
+ocr_reader = easyocr.Reader(
+    ["en"],  # язык OCR: английский
+    gpu=False,  # принудительно без GPU
 )
 def run_ocr(image_object: Image.Image) -> str:
     """
+    OCR для печатного английского текста.
+    Используем easyocr, который достаточно устойчив к
+    реальным сканам и фотографиям документа на CPU.
     """
     if image_object is None:
         return ""
     rgb_image_object: Image.Image = image_object.convert("RGB")
+    numpy_image = numpy_module.array(rgb_image_object)
+    # detail=1 -> (bbox, текст, confidence), paragraph=True -> склейка в абзацы
+    ocr_results = ocr_reader.readtext(
+        numpy_image,
+        detail=1,
+        paragraph=True,
+    )
+    text_parts = []
+    for bounding_box, text_value, confidence_value in ocr_results:
+        if not text_value:
+            continue
+        text_parts.append(text_value)
+    recognized_text: str = "\n".join(text_parts).strip()
     return recognized_text
 # ============================
+# 3. Трансформер #1: классификация текста (английский)
+# ============================
+text_classifier_pipeline = pipeline(
+    task="text-classification",
+    model="distilbert-base-uncased-finetuned-sst-2-english",
+)
+def run_text_classification(input_text: str) -> str:
+    """
+    Анализ текста трансформером:
+    используем sentiment-классификатор как пример.
+    Возвращаем строку вида: "POSITIVE (score=0.982)".
+    """
+    cleaned_text: str = input_text.strip()
+    if not cleaned_text:
+        return ""
+    classifier_result_list = text_classifier_pipeline(cleaned_text)
+    classifier_result = classifier_result_list[0]
+    label_value: str = str(classifier_result.get("label", ""))
+    score_value: float = float(classifier_result.get("score", 0.0))
+    classification_text: str = f"{label_value} (score={score_value:.3f})"
+    return classification_text
+# ============================
+# 4. Трансформер #2: суммаризация (английский)
 # ============================
 summary_pipeline = pipeline(
         max(32, word_count + 20),
     )
+    # Для очень короткого текста сум��аризация мало смысла
     if word_count < 8:
         return cleaned_text
 # ============================
+# 5. Трансформер #3: TTS (английский, MMS VITS)
 # ============================
 tts_model: VitsModel = VitsModel.from_pretrained("facebook/mms-tts-eng")
     """
     Озвучка английского текста конспекта через VitsModel (facebook/mms-tts-eng).
+    Если модель внутри упадёт на каком-то странном тексте (RuntimeError),
+    просто вернём None и не будем ронять всё приложение.
     """
     cleaned_text: str = summary_text.strip()
     if not cleaned_text:
         print(f"[WARN] TTS RuntimeError: {runtime_error}")
         return None
+    # Приводим к numpy и ограничиваем амплитуды
     waveform_array = waveform_tensor.squeeze().cpu().numpy().astype("float32")
     waveform_array = numpy_module.clip(waveform_array, -1.0, 1.0)
 # ============================
+# 6. Полный пайплайн
 # ============================
 def full_flow(
     image_object: Image.Image,
     max_summary_tokens: int = 128,
+) -> Tuple[str, str, str, Optional[str]]:
     """
     Полный пайплайн:
+    1) OCR (easyocr): изображение -> исходный текст (английский)
+    2) Классификация текста трансформером (sentiment)
+    3) Суммаризация: текст -> конспект
+    4) TTS: конспект -> .wav файл (или None, если TTS не смог)
     """
     recognized_text: str = run_ocr(image_object=image_object)
+    classification_text: str = run_text_classification(recognized_text)
     summary_text: str = run_summarization(
         input_text=recognized_text,
         max_summary_tokens=max_summary_tokens,
     audio_file_path: Optional[str] = run_tts(summary_text=summary_text)
+    return recognized_text, classification_text, summary_text, audio_file_path
 # ============================
+# 7. Gradio UI (на русском)
 # ============================
 gradio_interface = gradio_module.Interface(
     ],
     outputs=[
         gradio_module.Textbox(
+            label="Распознанный текст (OCR, easyocr)",
+            lines=8,
+        ),
+        gradio_module.Textbox(
+            label="Анализ текста (классификация, DistilBERT)",
+            lines=2,
         ),
         gradio_module.Textbox(
+            label="Конспект (английский текст, DistilBART)",
             lines=6,
         ),
         gradio_module.Audio(
+            label="Озвучка конспекта (английский TTS, VITS)",
             type="filepath",
         ),
     ],
+    title="Картинка → Текст → Анализ → Конспект → Озвучка",
     description=(
+        "1) easyocr распознаёт печатный англ��йский текст с картинки.\n"
+        "2) Трансформер-классификатор (DistilBERT) оценивает тон текста.\n"
+        "3) Трансформер-суммаризатор (DistilBART) делает краткий конспект.\n"
+        "4) Трансформер TTS (MMS VITS) озвучивает конспект.\n"
+        "В проекте используются три трансформера с Hugging Face, OCR сделан через easyocr."
     ),
 )

requirements.txt CHANGED Viewed

@@ -1,8 +1,9 @@
-transformers>=4.40.0
 torch
-compressed-tensors
 sentencepiece
 gradio
 Pillow
 numpy
 soundfile

+transformers>=4.33.0
 torch
 sentencepiece
 gradio
 Pillow
 numpy
 soundfile
+easyocr
+opencv-python-headless