ASureevaA commited on
Commit
09aa316
·
1 Parent(s): 529a697
Files changed (2) hide show
  1. README.md +24 -13
  2. UML.mmd +37 -0
README.md CHANGED
@@ -1,13 +1,24 @@
1
- ---
2
- title: NoteMaker
3
- emoji: 🏢
4
- colorFrom: blue
5
- colorTo: yellow
6
- sdk: gradio
7
- sdk_version: 6.0.2
8
- app_file: app.py
9
- pinned: false
10
- short_description: Make your own notes
11
- ---
12
-
13
- Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # NoteMaker
2
+
3
+ ## Краткое описание
4
+
5
+ Проект представляет собой систему, которая принимает на вход изображение с английским текстом
6
+ и последовательно выполняет три шага:
7
+ - распознавание текста,
8
+ - анализ тональности текста,
9
+ - составление сжатого конспекта,
10
+ - озвучивание полученного конспекта.
11
+
12
+ ## Архитектура системы
13
+
14
+ [Архитектура](UML.mmd)
15
+
16
+ ## Использованные модели
17
+
18
+ Распознавание текста выполняется **EasyOCR**.
19
+
20
+ Распознанный текст подаётся в модель **distilbert-base-uncased-finetuned-sst-2-english** для определения тональности.
21
+
22
+ Для сжатия текста до конспекта используется модель **sshleifer/distilbart-cnn-12-6**.
23
+
24
+ Полученный конспект передаётся в модель **facebook/mms-tts-eng (VITS)**, которая генерирует аудио в формате WAV.
UML.mmd ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ## Архитектура приложения
2
+
3
+ ```mermaid
4
+ flowchart LR
5
+ subgraph UserBrowser["<br>"]
6
+ U["Пользователь"]
7
+ end
8
+ subgraph UI["Gradio UI"]
9
+ G["Интерфейс ввода и вывода"]
10
+ end
11
+ subgraph App["app"]
12
+ F["full_flow(изображение, макс_длина)"]
13
+ O["run_ocr(изображение)"]
14
+ C["run_text_classification(текст)"]
15
+ S["run_summarization(текст, макс_длина)"]
16
+ T["run_tts(конспект)"]
17
+ end
18
+ subgraph HFSpace["Hugging Face Space"]
19
+ UI
20
+ App
21
+ end
22
+ subgraph ExternalLibs["Внешние библиотеки"]
23
+ E["EasyOCR"]
24
+ end
25
+ subgraph HFHub["Трансформеры"]
26
+ M1["Трансформер-классификатор текста"]
27
+ M2["Трансформер для суммаризации"]
28
+ M3["Трансформер для озвучки"]
29
+ end
30
+ U <--> G
31
+ G --> F
32
+ F --> O & C & S & T
33
+ O --> E
34
+ C --> M1
35
+ S --> M2
36
+ T --> M3
37
+ ```