ASureevaA
commited on
Commit
·
09aa316
1
Parent(s):
529a697
edit
Browse files
README.md
CHANGED
|
@@ -1,13 +1,24 @@
|
|
| 1 |
-
|
| 2 |
-
|
| 3 |
-
|
| 4 |
-
|
| 5 |
-
|
| 6 |
-
|
| 7 |
-
|
| 8 |
-
|
| 9 |
-
|
| 10 |
-
|
| 11 |
-
|
| 12 |
-
|
| 13 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
# NoteMaker
|
| 2 |
+
|
| 3 |
+
## Краткое описание
|
| 4 |
+
|
| 5 |
+
Проект представляет собой систему, которая принимает на вход изображение с английским текстом
|
| 6 |
+
и последовательно выполняет три шага:
|
| 7 |
+
- распознавание текста,
|
| 8 |
+
- анализ тональности текста,
|
| 9 |
+
- составление сжатого конспекта,
|
| 10 |
+
- озвучивание полученного конспекта.
|
| 11 |
+
|
| 12 |
+
## Архитектура системы
|
| 13 |
+
|
| 14 |
+
[Архитектура](UML.mmd)
|
| 15 |
+
|
| 16 |
+
## Использованные модели
|
| 17 |
+
|
| 18 |
+
Распознавание текста выполняется **EasyOCR**.
|
| 19 |
+
|
| 20 |
+
Распознанный текст подаётся в модель **distilbert-base-uncased-finetuned-sst-2-english** для определения тональности.
|
| 21 |
+
|
| 22 |
+
Для сжатия текста до конспекта используется модель **sshleifer/distilbart-cnn-12-6**.
|
| 23 |
+
|
| 24 |
+
Полученный конспект передаётся в модель **facebook/mms-tts-eng (VITS)**, которая генерирует аудио в формате WAV.
|
UML.mmd
ADDED
|
@@ -0,0 +1,37 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
## Архитектура приложения
|
| 2 |
+
|
| 3 |
+
```mermaid
|
| 4 |
+
flowchart LR
|
| 5 |
+
subgraph UserBrowser["<br>"]
|
| 6 |
+
U["Пользователь"]
|
| 7 |
+
end
|
| 8 |
+
subgraph UI["Gradio UI"]
|
| 9 |
+
G["Интерфейс ввода и вывода"]
|
| 10 |
+
end
|
| 11 |
+
subgraph App["app"]
|
| 12 |
+
F["full_flow(изображение, макс_длина)"]
|
| 13 |
+
O["run_ocr(изображение)"]
|
| 14 |
+
C["run_text_classification(текст)"]
|
| 15 |
+
S["run_summarization(текст, макс_длина)"]
|
| 16 |
+
T["run_tts(конспект)"]
|
| 17 |
+
end
|
| 18 |
+
subgraph HFSpace["Hugging Face Space"]
|
| 19 |
+
UI
|
| 20 |
+
App
|
| 21 |
+
end
|
| 22 |
+
subgraph ExternalLibs["Внешние библиотеки"]
|
| 23 |
+
E["EasyOCR"]
|
| 24 |
+
end
|
| 25 |
+
subgraph HFHub["Трансформеры"]
|
| 26 |
+
M1["Трансформер-классификатор текста"]
|
| 27 |
+
M2["Трансформер для суммаризации"]
|
| 28 |
+
M3["Трансформер для озвучки"]
|
| 29 |
+
end
|
| 30 |
+
U <--> G
|
| 31 |
+
G --> F
|
| 32 |
+
F --> O & C & S & T
|
| 33 |
+
O --> E
|
| 34 |
+
C --> M1
|
| 35 |
+
S --> M2
|
| 36 |
+
T --> M3
|
| 37 |
+
```
|