Chatterbox-Multilingual-TTS

Running on Zero

App Files Files Community

TTS

by theangelstudio - opened Sep 8

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

+17

-51

This PR is in draft mode

Files changed (5) hide show

app.py +1 -1
requirements.txt +1 -2
src/chatterbox/models/t3/modules/t3_config.py +2 -2
src/chatterbox/models/tokenizers/tokenizer.py +10 -43
src/chatterbox/mtl_tts.py +3 -3

app.py CHANGED Viewed

@@ -102,7 +102,7 @@ LANGUAGE_CONFIG = {
     },
     "zh": {
         "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/zh_f2.flac",
-        "text": "上个月，我们达到了一个新的里程碑。 我们的YouTube频道观看次数达到了二十亿次，这绝对令人难以置信。"
     },
 }

     },
     "zh": {
         "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/zh_f2.flac",
+        "text": "上个月，我们达到了一个新的里程碑. 我们的YouTube频道观看次数达到了二十亿次，这绝对令人难以置信。"
     },
 }

requirements.txt CHANGED Viewed

@@ -13,7 +13,6 @@ safetensors
 # Optional language-specific dependencies
 # Uncomment the ones you need for specific languages:
- spacy_pkuseg          # For Chinese text segmentation
  pykakasi>=2.2.0       # For Japanese text processing (Kanji to Hiragana)
- russian-text-stresser @ git+https://github.com/Vuizur/add-stress-to-epub
 # dicta-onnx>=0.1.0     # For Hebrew diacritization

 # Optional language-specific dependencies
 # Uncomment the ones you need for specific languages:
+ pkuseg                # For Chinese text segmentation (improves mixed text handling)
  pykakasi>=2.2.0       # For Japanese text processing (Kanji to Hiragana)
 # dicta-onnx>=0.1.0     # For Hebrew diacritization

src/chatterbox/models/t3/modules/t3_config.py CHANGED Viewed

@@ -28,7 +28,7 @@ class T3Config:
     @property
     def is_multilingual(self):
-        return self.text_tokens_dict_size == 2454
     @classmethod
     def english_only(cls):
@@ -38,4 +38,4 @@ class T3Config:
     @classmethod
     def multilingual(cls):
         """Create configuration for multilingual TTS model."""
-        return cls(text_tokens_dict_size=2454)

     @property
     def is_multilingual(self):
+        return self.text_tokens_dict_size == 2352
     @classmethod
     def english_only(cls):
     @classmethod
     def multilingual(cls):
         """Create configuration for multilingual TTS model."""
+        return cls(text_tokens_dict_size=2352)

src/chatterbox/models/tokenizers/tokenizer.py CHANGED Viewed

@@ -1,9 +1,10 @@
 import logging
 import json
 import torch
 from pathlib import Path
-from unicodedata import category, normalize
 from tokenizers import Tokenizer
 from huggingface_hub import hf_hub_download
@@ -32,7 +33,7 @@ class EnTokenizer:
         text_tokens = torch.IntTensor(text_tokens).unsqueeze(0)
         return text_tokens
-    def encode(self, txt: str):
         """
         clean_text > (append `lang_id`) > replace SPACE > encode text using Tokenizer
         """
@@ -45,7 +46,8 @@ class EnTokenizer:
         if isinstance(seq, torch.Tensor):
             seq = seq.cpu().numpy()
-        txt: str = self.tokenizer.decode(seq, skip_special_tokens=False)
         txt = txt.replace(' ', '')
         txt = txt.replace(SPACE, ' ')
         txt = txt.replace(EOT, '')
@@ -59,7 +61,6 @@ REPO_ID = "ResembleAI/chatterbox"
 # Global instances for optional dependencies
 _kakasi = None
 _dicta = None
-_russian_stresser = None
 def is_kanji(c: str) -> bool:
@@ -190,7 +191,7 @@ class ChineseCangjieConverter:
     def _init_segmenter(self):
         """Initialize pkuseg segmenter."""
         try:
-            from spacy_pkuseg import pkuseg
             self.segmenter = pkuseg()
         except ImportError:
             logger.warning("pkuseg not available - Chinese segmentation will be skipped")
@@ -206,6 +207,7 @@ class ChineseCangjieConverter:
         index = str(index) if index > 0 else ""
         return code + str(index)
     def __call__(self, text):
         """Convert Chinese characters in text to Cangjie tokens."""
@@ -233,25 +235,6 @@ class ChineseCangjieConverter:
         return "".join(output)
-def add_russian_stress(text: str) -> str:
-    """Russian text normalization: adds stress marks to Russian text."""
-    global _russian_stresser
-    try:
-        if _russian_stresser is None:
-            from russian_text_stresser.text_stresser import RussianTextStresser
-            _russian_stresser = RussianTextStresser()
-        return _russian_stresser.stress_text(text)
-    except ImportError:
-        logger.warning("russian_text_stresser not available - Russian stress labeling skipped")
-        return text
-    except Exception as e:
-        logger.warning(f"Russian stress labeling failed: {e}")
-        return text
 class MTLTokenizer:
     def __init__(self, vocab_file_path):
         self.tokenizer: Tokenizer = Tokenizer.from_file(vocab_file_path)
@@ -264,26 +247,12 @@ class MTLTokenizer:
         assert SOT in voc
         assert EOT in voc
-    def preprocess_text(self, raw_text: str, language_id: str = None, lowercase: bool = True, nfkd_normalize: bool = True):
-        """
-        Text preprocessor that handles lowercase conversion and NFKD normalization.
-        """
-        preprocessed_text = raw_text
-        if lowercase:
-            preprocessed_text = preprocessed_text.lower()
-        if nfkd_normalize:
-            preprocessed_text = normalize("NFKD", preprocessed_text)
-        return preprocessed_text
-    def text_to_tokens(self, text: str, language_id: str = None, lowercase: bool = True, nfkd_normalize: bool = True):
-        text_tokens = self.encode(text, language_id=language_id, lowercase=lowercase, nfkd_normalize=nfkd_normalize)
         text_tokens = torch.IntTensor(text_tokens).unsqueeze(0)
         return text_tokens
-    def encode(self, txt: str, language_id: str = None, lowercase: bool = True, nfkd_normalize: bool = True):
-        txt = self.preprocess_text(txt, language_id=language_id, lowercase=lowercase, nfkd_normalize=nfkd_normalize)
         # Language-specific text processing
         if language_id == 'zh':
             txt = self.cangjie_converter(txt)
@@ -293,8 +262,6 @@ class MTLTokenizer:
             txt = add_hebrew_diacritics(txt)
         elif language_id == 'ko':
             txt = korean_normalize(txt)
-        elif language_id == 'ru':
-            txt = add_russian_stress(txt)
         # Prepend language token
         if language_id:

 import logging
 import json
+import re
 import torch
 from pathlib import Path
+from unicodedata import category
 from tokenizers import Tokenizer
 from huggingface_hub import hf_hub_download
         text_tokens = torch.IntTensor(text_tokens).unsqueeze(0)
         return text_tokens
+    def encode( self, txt: str, verbose=False):
         """
         clean_text > (append `lang_id`) > replace SPACE > encode text using Tokenizer
         """
         if isinstance(seq, torch.Tensor):
             seq = seq.cpu().numpy()
+        txt: str = self.tokenizer.decode(seq,
+        skip_special_tokens=False)
         txt = txt.replace(' ', '')
         txt = txt.replace(SPACE, ' ')
         txt = txt.replace(EOT, '')
 # Global instances for optional dependencies
 _kakasi = None
 _dicta = None
 def is_kanji(c: str) -> bool:
     def _init_segmenter(self):
         """Initialize pkuseg segmenter."""
         try:
+            from pkuseg import pkuseg
             self.segmenter = pkuseg()
         except ImportError:
             logger.warning("pkuseg not available - Chinese segmentation will be skipped")
         index = str(index) if index > 0 else ""
         return code + str(index)
     def __call__(self, text):
         """Convert Chinese characters in text to Cangjie tokens."""
         return "".join(output)
 class MTLTokenizer:
     def __init__(self, vocab_file_path):
         self.tokenizer: Tokenizer = Tokenizer.from_file(vocab_file_path)
         assert SOT in voc
         assert EOT in voc
+    def text_to_tokens(self, text: str, language_id: str = None):
+        text_tokens = self.encode(text, language_id=language_id)
         text_tokens = torch.IntTensor(text_tokens).unsqueeze(0)
         return text_tokens
+    def encode(self, txt: str, language_id: str = None):
         # Language-specific text processing
         if language_id == 'zh':
             txt = self.cangjie_converter(txt)
             txt = add_hebrew_diacritics(txt)
         elif language_id == 'ko':
             txt = korean_normalize(txt)
         # Prepend language token
         if language_id:

src/chatterbox/mtl_tts.py CHANGED Viewed

@@ -168,7 +168,7 @@ class ChatterboxMultilingualTTS:
         ve.to(device).eval()
         t3 = T3(T3Config.multilingual())
-        t3_state = load_safetensors(ckpt_dir / "t3_mtl23ls_v2.safetensors")
         if "model" in t3_state.keys():
             t3_state = t3_state["model"][0]
         t3.load_state_dict(t3_state)
@@ -181,7 +181,7 @@ class ChatterboxMultilingualTTS:
         s3gen.to(device).eval()
         tokenizer = MTLTokenizer(
-            str(ckpt_dir / "grapheme_mtl_merged_expanded_v1.json")
         )
         conds = None
@@ -197,7 +197,7 @@ class ChatterboxMultilingualTTS:
                 repo_id=REPO_ID,
                 repo_type="model",
                 revision="main",
-                allow_patterns=["ve.pt", "t3_mtl23ls_v2.safetensors", "s3gen.pt", "grapheme_mtl_merged_expanded_v1.json", "conds.pt", "Cangjie5_TC.json"],
                 token=os.getenv("HF_TOKEN"),
             )
         )

         ve.to(device).eval()
         t3 = T3(T3Config.multilingual())
+        t3_state = load_safetensors(ckpt_dir / "t3_23lang.safetensors")
         if "model" in t3_state.keys():
             t3_state = t3_state["model"][0]
         t3.load_state_dict(t3_state)
         s3gen.to(device).eval()
         tokenizer = MTLTokenizer(
+            str(ckpt_dir / "mtl_tokenizer.json")
         )
         conds = None
                 repo_id=REPO_ID,
                 repo_type="model",
                 revision="main",
+                allow_patterns=["ve.pt", "t3_23lang.safetensors", "s3gen.pt", "mtl_tokenizer.json", "conds.pt", "Cangjie5_TC.json"],
                 token=os.getenv("HF_TOKEN"),
             )
         )