Spaces:

learnmlf
/

Acfoley

Sleeping

learnmlf commited on 15 days ago

Commit

3a71288

1 Parent(s): ebc0a66

Redesign interface based on AC-Foley paper

- Add comprehensive model description based on AC-Foley paper
- Implement mask_away_clip parameter for better control
- Redesign UI with clear sections: required/optional inputs
- Add four generation modes with detailed explanations
- Include advanced options in collapsible accordion
- Add usage guide with practical examples
- Improve layout with better information hierarchy
- Reference original paper: https://openreview.net/forum?id=URPXhnWdBF

Files changed (1) hide show

app.py +121 -56

app.py CHANGED Viewed

@@ -30,14 +30,21 @@ EXAMPLE_PROMPTS = [
 USAGE_TIPS = """
 ### 💡 使用技巧
-1. **视频质量**: 使用清晰、光线良好的视频
-2. **三种模式**:
-   - 纯视频：让AI根据画面自动生成音频
-   - 视频+文本：指定想要的音频类型
-   - 视频+音频+文本：使用参考音频的音色风格
-3. **时长**: 建议1-15秒效果最佳
-4. **CFG强度**: 数值越高越贴合提示词，但可能降低质量
-5. **参考音频**: 可提供音色、节奏、风格参考
 """
 # Check and install missing dependencies
@@ -209,7 +216,7 @@ class AudioFoleyModel:
     def generate_audio(self, video_file, prompt: str, negative_prompt: str = "",
                       duration: float = 8.0, cfg_strength: float = 4.5,
-                      seed: int = 42, reference_audio: str = None) -> Tuple[Optional[str], str]:
         """Generate audio from video and text prompt"""
         try:
             # Validation checks
@@ -262,7 +269,11 @@ class AudioFoleyModel:
                 return None, f"❌ Failed to load video: {str(e)}"
             # Prepare frames
-            clip_frames = clip_frames.unsqueeze(0) if clip_frames is not None else None
             sync_frames = sync_frames.unsqueeze(0)
             # Update model sequence configuration
@@ -378,7 +389,7 @@ def initialize_model():
     else:
         return "✅ 模型已加载"
-def generate_audio_interface(video_file, audio_file, prompt, duration, cfg_strength):
     """Interface function for generating audio"""
     global audio_model, model_loading_status
@@ -391,7 +402,7 @@ def generate_audio_interface(video_file, audio_file, prompt, duration, cfg_stren
     negative_prompt = ""  # Simplified interface
     audio_path, message = audio_model.generate_audio(
-        video_file, prompt, negative_prompt, duration, cfg_strength, seed, audio_file
     )
     return audio_path, message
@@ -403,15 +414,18 @@ def get_model_status():
 # Create Gradio interface
 with gr.Blocks(title="hf_AC Audio Foley Generator", theme=gr.themes.Soft()) as demo:
     gr.Markdown("""
-    # 🎵 hf_AC Audio Foley Generator
-    基于AI的视频音频生成工具，支持三种生成模式：
-    1. **纯视频模式**: 仅上传视频，根据视觉内容自动生成匹配音频
-    2. **视频+文本模式**: 上传视频 + 文本描述，生成指定类型的音频
-    3. **视频+音频+文本模式**: 上传视频 + 参考音频 + 文本，生成具有特定音色风格的音频
-    **注意**: 模型会在启动时自动加载，首次使用需要下载约3GB的模型文件。
     """)
     # Model status display - will be updated automatically
@@ -429,47 +443,81 @@ with gr.Blocks(title="hf_AC Audio Foley Generator", theme=gr.themes.Soft()) as d
     )
     with gr.Row():
-        with gr.Column():
             video_input = gr.Video(
-                label="上传视频 (必需)",
-                format="mp4"
             )
             audio_input = gr.Audio(
-                label="参考音频 (可选) - 提供音色/风格参考",
                 type="filepath",
-                sources=["upload"]
             )
             prompt_input = gr.Textbox(
-                label="音频描述 (可选) - 留空则根据视频内容自动生成",
-                placeholder="可选：描述想要的音频类型 (例如: '脚步声', '鸟叫声', '汽车引擎声')",
                 lines=2,
-                value=""
             )
-            with gr.Row():
-                duration_slider = gr.Slider(
-                    minimum=1.0,
-                    maximum=15.0,
-                    value=8.0,
-                    step=0.5,
-                    label="时长 (秒)"
-                )
-                cfg_strength_slider = gr.Slider(
-                    minimum=1.0,
-                    maximum=8.0,
-                    value=4.5,
-                    step=0.1,
-                    label="CFG强度"
                 )
-        with gr.Column():
-            # Example prompts
             gr.Markdown("### 🎯 示例提示词")
             example_buttons = []
-            for prompt in EXAMPLE_PROMPTS[:6]:
                 btn = gr.Button(prompt, size="sm")
                 example_buttons.append(btn)
                 btn.click(
@@ -477,37 +525,54 @@ with gr.Blocks(title="hf_AC Audio Foley Generator", theme=gr.themes.Soft()) as d
                     outputs=prompt_input
                 )
-    generate_btn = gr.Button("🎵 生成音频", variant="primary", size="lg")
     audio_output = gr.Audio(
         label="生成的音频",
         type="filepath"
     )
-    generation_status = gr.Textbox(label="生成状态", interactive=False)
     generate_btn.click(
         fn=generate_audio_interface,
         inputs=[
-            video_input, audio_input, prompt_input, duration_slider, cfg_strength_slider
         ],
         outputs=[audio_output, generation_status]
     )
-    with gr.Accordion("💡 使用说明", open=False):
         gr.Markdown(USAGE_TIPS)
         gr.Markdown("""
-        ### 🎬 更多示例提示词
-        - "壁炉中燃烧的柴火声"
-        - "海浪拍打岩石的声音"
-        - "繁忙街道上的汽车和人声"
-        - "森林中的鸟叫和树叶声"
-        - "安静办公室里的键盘敲击声"
-        - "厨房里炒菜和切菜的声音"
-        - "雨滴打在金属屋顶上"
-        - "木地板上轻柔的脚步声"
         """)
     # Auto-initialize model on startup

 USAGE_TIPS = """
 ### 💡 使用技巧
+**基础设置:**
+- **视频质量**: 使用清晰、光线良好的视频，建议1-15秒
+- **参考音频**: 提供清晰的音频片段作为音色参考
+- **CFG强度**: 1-8之间，数值越高越贴合描述
+**高级功能:**
+- **mask_away_clip**: 当视频内容与期望音频差异很大时启用
+- **细粒度控制**: 使用参考音频实现精确的音色和风格控制
+- **零样本生成**: 无需训练即可生成新颖的音效组合
+**应用场景:**
+- 影视后期配音
+- 游戏音效制作
+- 音乐创作辅助
+- 声音设计实验
 """
 # Check and install missing dependencies
     def generate_audio(self, video_file, prompt: str, negative_prompt: str = "",
                       duration: float = 8.0, cfg_strength: float = 4.5,
+                      seed: int = 42, reference_audio: str = None, mask_away_clip: bool = False) -> Tuple[Optional[str], str]:
         """Generate audio from video and text prompt"""
         try:
             # Validation checks
                 return None, f"❌ Failed to load video: {str(e)}"
             # Prepare frames
+            if mask_away_clip:
+                clip_frames = None  # Mask away clip frames when video and audio don't match well
+                log.info("🎭 Using mask_away_clip: ignoring visual features")
+            else:
+                clip_frames = clip_frames.unsqueeze(0) if clip_frames is not None else None
             sync_frames = sync_frames.unsqueeze(0)
             # Update model sequence configuration
     else:
         return "✅ 模型已加载"
+def generate_audio_interface(video_file, audio_file, prompt, duration, cfg_strength, mask_away_clip):
     """Interface function for generating audio"""
     global audio_model, model_loading_status
     negative_prompt = ""  # Simplified interface
     audio_path, message = audio_model.generate_audio(
+        video_file, prompt, negative_prompt, duration, cfg_strength, seed, audio_file, mask_away_clip
     )
     return audio_path, message
 # Create Gradio interface
 with gr.Blocks(title="hf_AC Audio Foley Generator", theme=gr.themes.Soft()) as demo:
     gr.Markdown("""
+    # 🎵 AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis
+    ## 📖 模型简介
+    AC-Foley是一个基于参考音频引导的视频到音频合成模型，能够实现精确的细粒度声音合成。与传统依赖文本描述的方法不同，AC-Foley直接利用参考音频来实现对生成声音的精确控制，解决了文本描述在微观声学特征方面的模糊性问题。
+    ## ✨ 功能要点
+    - **细粒度声音合成**: 生成具有特定音色的脚步声（木板、大理石、砾石等）
+    - **音色转换**: 将小提琴的旋律转换为唢呐的明亮刺耳音色
+    - **零样本生成**: 创建独特的音效而无需专门训练
+    - **视觉-音频对齐**: 根据视频内容自动生成匹配的音频
+    *基于论文: [AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer](https://openreview.net/forum?id=URPXhnWdBF)*
     """)
     # Model status display - will be updated automatically
     )
     with gr.Row():
+        with gr.Column(scale=2):
+            # 必需输入
+            gr.Markdown("### 📹 必需输入")
             video_input = gr.Video(
+                label="视频文件",
+                format="mp4",
+                info="上传需要生成音频的视频文件"
             )
+            # 可选输入
+            gr.Markdown("### 🎛️ 可选输入")
             audio_input = gr.Audio(
+                label="参考音频",
                 type="filepath",
+                sources=["upload"],
+                info="提供音色、风格、节奏参考（支持细粒度控制）"
             )
             prompt_input = gr.Textbox(
+                label="文本提示",
+                placeholder="例如: '脚步声', '金属碰撞声', '鸟叫声'",
                 lines=2,
+                info="描述想要的音频类型（留空则根据视频自动生成）"
             )
+            # 高级选项
+            with gr.Accordion("🔧 高级选项", open=False):
+                with gr.Row():
+                    duration_slider = gr.Slider(
+                        minimum=1.0,
+                        maximum=15.0,
+                        value=8.0,
+                        step=0.5,
+                        label="时长 (秒)"
+                    )
+                    cfg_strength_slider = gr.Slider(
+                        minimum=1.0,
+                        maximum=8.0,
+                        value=4.5,
+                        step=0.1,
+                        label="CFG强度"
+                    )
+                mask_away_clip = gr.Checkbox(
+                    label="忽略视觉特征 (mask_away_clip)",
+                    value=False,
+                    info="当视频和参考音频差异较大且生成效果不佳时启用"
                 )
+        with gr.Column(scale=1):
+            # 使用指南
+            gr.Markdown("### 📋 使用指南")
+            gr.Markdown("""
+            **四种生成模式:**
+            1️⃣ **纯视频**: 仅上传视频
+            - 根据视觉内容自动生成音频
+            2️⃣ **视频+参考音频**: 上传视频+音频
+            - 使用参考音频的音色和风格
+            - 实现细粒度音色控制
+            3️⃣ **视频+文本**: 上传视频+文本
+            - 根据文本描述生成指定类型音频
+            4️⃣ **完整模式**: 视频+音频+文本
+            - 最精确的控制方式
+            - 结合视觉、音色和语义指导
+            """)
+            # 示例提示词
             gr.Markdown("### 🎯 示例提示词")
             example_buttons = []
+            for prompt in EXAMPLE_PROMPTS[:4]:
                 btn = gr.Button(prompt, size="sm")
                 example_buttons.append(btn)
                 btn.click(
                     outputs=prompt_input
                 )
+    # 生成按钮
+    generate_btn = gr.Button("🎵 开始生成音频", variant="primary", size="lg")
+    # 输出区域
+    gr.Markdown("### 🎧 生成结果")
     audio_output = gr.Audio(
         label="生成的音频",
         type="filepath"
     )
+    generation_status = gr.Textbox(
+        label="生成状态",
+        interactive=False,
+        lines=2
+    )
+    # 绑定生成事件
     generate_btn.click(
         fn=generate_audio_interface,
         inputs=[
+            video_input, audio_input, prompt_input,
+            duration_slider, cfg_strength_slider, mask_away_clip
         ],
         outputs=[audio_output, generation_status]
     )
+    with gr.Accordion("💡 详细说明", open=False):
         gr.Markdown(USAGE_TIPS)
         gr.Markdown("""
+        ### 🎬 应用示例
+        **细粒度声音合成:**
+        - "木地板上的脚步声" + 参考音频 → 特定音色的脚步声
+        - "金属碰撞" + 不同参考音频 → 铁器vs铜器的区别
+        **音色转换:**
+        - 钢琴旋律视频 + 小提琴参考音频 → 小提琴演奏同样旋律
+        - 人声哼唱 + 乐器参考 → 乐器演奏版本
+        **创意音效:**
+        - 科幻场景视频 + 现实音效参考 → 独特的科幻音效
+        - 动画视频 + 真实音效 → 卡通与现实结合的音效
+        ### 📚 技术细节
+        - 模型基于扩散模型和音频条件机制
+        - 支持44.1kHz高质量音频生成
+        - 实现了视觉-音频-文本的多模态对齐
         """)
     # Auto-initialize model on startup