AI數位人像語音同步技術實戰

從圖像生成到對口型視訊 - InfiniteTalk專業應用教學

建置人:曾慶良 (阿亮老師)

歡迎!掌握專業級AI語音同步技術

想要掌握最先進的AI數位人像語音同步技術嗎?想製作專業級的虛擬角色唱歌或對話視訊嗎?

本教學將帶你從零開始,系統化學習從圖像生成、音訊處理、到InfiniteTalk對口型視訊製作的完整技術流程,打造出影視級的AI虛擬人像作品!

🎯 本次教學涵蓋:

AI圖片生成 - 製作角色在麥克風前的圖片
AI歌詞創作 - 使用提示詞生成高品質歌詞
AI音樂生成 - 使用SUNO/UDIO創建歌曲
音訊處理 - 剪輯15-30秒片段
InfiniteTalk安裝 - 完整環境建置
對口型視訊生成 - 製作最終作品

技術能力提升:

  • 掌握AI圖像生成技術與精準提示詞工程
  • 熟練運用生成式AI進行內容創作
  • 精通Suno/Udio等AI音樂生成平台
  • 完整部署InfiniteTalk語音同步系統
  • 製作影視級AI數位人像語音同步作品

步驟 1:生成角色AI圖片

首先,我們需要準備一張角色在麥克風前的圖片,作為後續對口型的素材。

AI圖片生成提示詞

完整提示詞:

保持角色的臉部特徵、髮型、服裝完全不變。將背景替換為專業錄音室環境。人物在側前方位置放置一支錄音話筒,但不能遮擋人物臉部。 人物呈現自然的"唱歌狀態",表情放鬆自然,光線柔和、氛圍真實。

🎨 推薦的AI圖片生成平台:

QWEN

阿里巴巴推出的強大AI模型

前往使用

即夢 (Dreamina)

專業的AI繪圖平台

前往使用

豆包

字節跳動AI助手

前往使用

Nano Banana Pro

整合 Gemini 的強大AI圖片生成

前往使用

圖片去浮水印工具

如果生成的圖片有浮水印,可以使用這個工具移除:

圖片去浮水印

操作提示:

  • 先在網路上找到你想要的角色圖片
  • 上傳圖片到AI平台,並使用上方的提示詞
  • 確保角色臉部清晰可見,不被話筒遮擋
  • 選擇最自然、最適合的生成結果

步驟 2:生成AI歌詞

接下來,我們要創作一首具有深度和創意的歌詞。你可以選擇任何主題,以下提供通用的創作框架。

AI歌詞生成提示詞框架(通用範本)

【角色設定】

你是一位精通華語流行音樂創作的填詞人。

【任務目標】

請創作一首現代流行歌曲的歌詞(Suno AI專用格式)。

【創作主題建議】

你可以選擇以下任一主題方向,或創造自己的主題:

  • 現代都市情感:都市愛情、異地戀、職場壓力
  • 青春成長:夢想追尋、校園回憶、友情故事
  • 人生感悟:時光流逝、自我探索、生活哲理
  • 社會觀察:世代對話、價值觀衝突、現實與理想
  • 古風創新:融合傳統意象與現代議題

【創作技巧】

1. 情感基調:

明確歌曲的情緒方向(如:深情、激昂、治癒、懷舊、勵志等)

2. 敘事視角:

選擇第一人稱、第二人稱或第三人稱,讓情感更真實

3. 意象運用:

使用具體的意象和隱喻,讓歌詞更有畫面感和深度

4. 結構安排:

嚴格依照Suno的結構標籤:[Intro](前奏)、[Verse](主歌)、[Pre-Chorus](導歌)、[Chorus](副歌)、[Bridge](橋段)、[Outro](尾奏)

【提示詞基本格式】

「請創作一首關於[你的主題]的歌曲,

情感基調是[情緒描述]

使用[第一/第二/第三]人稱視角,

融入[具體意象或隱喻]

並按照Suno格式標籤編排。」

【具體範例參考】

範例一:都市情感主題

「請創作一首關於都市生活中的孤獨感的歌曲,情感基調是憂鬱中帶著希望,使用第一人稱視角,以『城市的燈光』、『空蕩的房間』、『手機螢幕』等意象來表達現代人的疏離感,對比『童年的星空』來呼應內心對溫暖的渴望,並按照Suno格式標籤編排。」

💡 適合風格:Indie Pop, Melancholic, Urban, Electronic

範例二:青春成長主題

「請創作一首關於畢業離別的歌曲,情感基調是不捨中帶著期待,使用第二人稱視角(對朋友說話),融入『操場的夕陽』、『課桌上的塗鴉』、『畢業紀念冊』、『分岔的路口』等青春意象,副歌部分表達『各自飛翔但友誼長存』的主題,並按照Suno格式標籤編排。」

💡 適合風格:Pop Rock, Youthful, Uplifting, Acoustic Guitar

範例三:人生感悟主題

「請創作一首關於珍惜當下的歌曲,情感基調是溫暖而治癒,使用第三人稱敘事視角,透過『時鐘的指針』、『翻黃的照片』、『落葉』、『窗外的雨』等意象來表現時光流逝,主歌描述生活的忙碌,副歌強調『慢下來感受身邊的美好』的領悟,並按照Suno格式標籤編排。」

💡 適合風格:Folk Ballad, Warm, Healing, Piano & Strings

範例四:愛情情感主題

「請創作一首關於暗戀的歌曲,情感基調是甜蜜中帶著酸澀,使用第一人稱視角,以『你經過的走廊』、『偷偷保存的照片』、『不敢送出的訊息』、『咖啡廳的角落座位』等細膩意象刻畫暗戀者的心情,副歌表達『靠近又不敢靠近』的矛盾心理,並按照Suno格式標籤編排。」

💡 適合風格:Mandopop, Sweet, Bittersweet, Soft Pop, Gentle

範例五:勵志夢想主題

「請創作一首關於追逐夢想的歌曲,情感基調是堅定且充滿力量,使用第一人稱視角,透過『黎明前的黑暗』、『磨破的鞋底』、『日記本上的目標』、『鏡子裡堅定的眼神』等意象展現追夢者的決心,主歌描述過程的艱辛,副歌爆發出『不放棄直到實現』的吶喊,並按照Suno格式標籤編排。」

💡 適合風格:Pop Rock, Powerful, Inspiring, Anthemic, Drums

範例六:社會觀察主題

「請創作一首關於世代對話的歌曲,情感基調是反思且溫柔,使用對話式的第二人稱視角,對比『父母年代的慢生活』與『年輕世代的快節奏』,運用『黑白照片vs手機相簿』、『手寫信vs即時訊息』、『客廳電視vs個人螢幕』等對比意象,橋段呈現『不同但同樣珍貴』的和解,並按照Suno格式標籤編排。」

💡 適合風格:Folk Pop, Thoughtful, Storytelling, Acoustic, Warm

【輸出要求】

1. 先提供適用於Suno的音樂風格提示詞(Style Prompts)

2. 然後產生完整的歌詞內容

常用歌曲風格參考(Style Prompts)

根據不同主題和情感,可以選擇以下風格組合:

🎵 流行抒情風格

Mandopop, Ballad, Emotional, Piano, Strings, Female/Male Vocals, Slow Tempo

(中文流行、抒情慢歌、情感豐富、鋼琴弦樂、慢板)

🎸 流行搖滾風格

Pop Rock, Upbeat, Electric Guitar, Drums, Energetic, Youth, Inspiring

(流行搖滾、活力、電吉他鼓聲、青春勵志)

🎻 民謠治癒風格

Folk, Acoustic, Warm, Healing, Guitar, Soft Vocals, Gentle, Intimate

(民謠、木吉他、溫暖治癒、輕柔人聲、親密感)

🎹 獨立流行風格

Indie Pop, Alternative, Electronic, Synth, Urban, Melancholic, Atmospheric

(獨立流行、電子合成器、都市憂鬱、氛圍感)

🏮 中國風古風

Mandopop, Gu Feng, Chinese Ancient Style, Traditional Instruments, Poetic, Ethereal

(中文流行、古風、傳統樂器、詩意飄渺)

💫 R&B靈魂風格

R&B, Soul, Smooth, Jazz influence, Emotional Vocals, Groove, Contemporary

(節奏藍調、靈魂樂、流暢爵士、情感唱腔、律動感)

💡 提示:可以混搭不同風格元素,例如「Mandopop + Folk + Healing」創造獨特效果

AI平台選擇

可以使用免費的線上平台進行生成,例如:

• ChatGPT - OpenAI的聊天機器人
• QWEN - 阿里巴巴的AI模型
• Claude - Anthropic的AI助手
• Gemini - Google的AI模型

步驟 3:生成AI音樂

有了歌詞後,我們要使用AI音樂生成平台來創建完整的歌曲。

🎵 推薦的AI音樂生成平台:

SUNO AI(推薦)

業界領先的AI音樂生成平台,支援多種音樂風格,生成品質極高。適合製作完整的歌曲作品。

✓ 支援自訂歌詞

✓ 多種音樂風格

✓ 高品質音質

前往 SUNO

UDIO

另一個優秀的AI音樂平台,提供不同的音樂生成風格,可以與SUNO互補使用。

✓ 獨特音樂風格

✓ 簡單易用介面

✓ 快速生成

前往 UDIO

操作步驟:

  1. 註冊並登入SUNO或UDIO平台
  2. 選擇「Custom Mode」(自訂模式)
  3. 貼上你在步驟2生成的歌詞
  4. 輸入Style Prompts(音樂風格提示詞)
  5. 點擊「Create」生成音樂
  6. 等待1-2分鐘,系統會生成2-4個版本
  7. 試聽並選擇最滿意的版本下載

重要提醒:

  • 生成的音樂長度通常為完整版本(2-3分鐘)
  • 下一步我們會將音樂剪輯成15-30秒片段
  • 選擇歌曲中最精彩的部分進行剪輯
  • 確保下載的音樂格式為MP3或WAV

步驟 4:音訊剪輯

將生成的完整歌曲剪輯成15-30秒的精彩片段,方便後續生成對口型視訊。

推薦音訊剪輯工具

工具名稱 平台類型 是否開源 核心特色 推薦
AudioMass 網頁版 (免安裝) AGPL-3.0 極輕量化、完全在瀏覽器運行、隱私性極佳 ⭐⭐⭐⭐⭐
Audacity 電腦版 (Win/Mac/Linux) GPL 專業級功能、插件豐富、開源界的王者 ⭐⭐⭐⭐⭐
Tenacity 電腦版 (Win/Mac/Linux) GPL Audacity 的隱私強化分支,介面更現代化 ⭐⭐⭐⭐
Audio Cutter 網頁版 (免安裝) 免費 介面直覺、操作極快,適合追求效率的帥哥 ⭐⭐⭐⭐

詳細操作步驟:

  1. 上傳音訊檔案

    點擊「選擇檔案」或直接拖曳音訊檔案到頁面中

  2. 選擇剪輯區段

    使用滑桿或輸入具體時間,選擇15-30秒的精彩片段

  3. 預覽播放

    點擊播放按鈕確認選擇的片段是否滿意

  4. 調整時間

    如果不滿意可以重新調整起始和結束時間

  5. 下載剪輯檔案

    確認無誤後點擊「下載」按鈕儲存剪輯後的音訊

剪輯技巧:

  • 選擇副歌部分:通常副歌最精彩、最有記憶點
  • 注意起始點:確保剪輯從完整的句子或樂句開始
  • 長度建議:15秒適合短視訊,30秒適合完整展示
  • 淡入淡出:如果工具支援,可以加上淡入淡出效果

完成後確認:

  • ✓ 音訊長度為15-30秒
  • ✓ 聲音清晰,無雜音
  • ✓ 檔案格式為MP3或WAV
  • ✓ 妥善保存檔案,準備進入下一步

步驟 5:InfiniteTalk環境準備

現在我們要安裝InfiniteTalk,這是一款開源的AI對口型工具,能讓圖片中的角色開口唱歌或說話。

關於 InfiniteTalk

InfiniteTalk 是一款開源的AI對口型工具,在GitHub上可以看到完整的項目和原始碼。 它支援單人和多人模式,能夠生成高品質的對口型視訊。

技術特點:

  • ✓ 基於Wan2.1大型視訊生成模型
  • ✓ 支援中文語音同步
  • ✓ 可處理單人或多人照片
  • ✓ 生成480P高品質視訊

系統需求

硬體需求:

  • • NVIDIA GPU(建議8GB以上顯存)
  • • 至少32GB系統記憶體
  • • 50GB以上硬碟空間

軟體需求:

  • • Windows 10/11 或 Linux
  • • Anaconda 或 Miniconda
  • • CUDA 12.1 驅動
  • • Git

📋 安裝前準備清單:

安裝 Anaconda

下載:https://www.anaconda.com/download

安裝 Git

下載:https://git-scm.com/downloads

註冊 HuggingFace 帳號

註冊:https://huggingface.co/join(下載模型需要)

確認 GPU 驅動已更新

NVIDIA:更新驅動程式

準備完成!

確認所有項目都已完成後,就可以開始安裝InfiniteTalk了。

步驟 6:建立資料夾與環境

開始安裝InfiniteTalk的第一步:建立專案資料夾和Conda虛擬環境。

第 1 步:建立資料夾

請在你的電腦建立專案資料夾:

D:\InfiniteTalk

💡 你可以選擇其他位置,但路徑不要包含中文或空格

第 2 步:開啟 Anaconda Prompt

在Windows開始選單搜尋並開啟「Anaconda Prompt」

然後執行以下命令切換到專案目錄:

cd /d D:\InfiniteTalk

成功會看到:

D:\InfiniteTalk>

第 3 步:建立 Conda 環境

建立並啟用Python 3.10虛擬環境:

conda create -n infinitetalk python=3.10

等待安裝完成後,啟用環境:

conda activate infinitetalk

成功會看到:

(infinitetalk) D:\InfiniteTalk>

等待時間提示:

  • 建立Conda環境需要約3-5分鐘
  • 請確保網路連線穩定
  • 如果下載緩慢,可以考慮使用鏡像源

常見問題:

  • Q: 找不到conda命令?
    A: 確認Anaconda已正確安裝,重新開啟Anaconda Prompt
  • Q: 環境建立失敗?
    A: 檢查網路連線,或嘗試使用:conda config --set channel_priority flexible

步驟 7:下載程式碼與安裝套件

下載InfiniteTalk的原始碼並安裝所有必要的Python套件。

第 4 步:下載 InfiniteTalk 程式碼

使用Git從GitHub下載專案:

git clone https://github.com/MeiGen-AI/InfiniteTalk.git

完成後會出現:

D:\InfiniteTalk\InfiniteTalk

第 5 步:進入程式資料夾

cd InfiniteTalk

第 6 步:安裝必要套件(重要!)

接下來要安裝多個套件,每個都必須執行,請按順序執行:

6-1. 安裝 GPU 版本 PyTorch

pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121

⏱️ 預計需要5-10分鐘

6-2. 安裝 xformers

pip install -U xformers==0.0.28 --index-url https://download.pytorch.org/whl/cu121

⏱️ 預計需要3-5分鐘

6-3. 安裝 Flash-attn 依賴

pip install misaki[en] pip install ninja pip install psutil pip install packaging pip install wheel pip install flash_attn==2.7.4.post1

⏱️ flash_attn安裝較慢,預計10-15分鐘

6-4. 安裝其他需求套件

pip install -r requirements.txt

⏱️ 預計需要3-5分鐘

6-5. 安裝 librosa + ffmpeg

conda install -c conda-forge librosa conda install -c conda-forge ffmpeg

⏱️ 預計需要5分鐘

休息時間:

整個安裝過程需要30-45分鐘,建議開始安裝後可以去喝杯咖啡休息一下。 確保電腦不要進入休眠模式,保持網路連線穩定。

安裝問題排除:

  • 如果遇到網路超時,重新執行該命令即可
  • 如果提示權限問題,嘗試以管理員身份執行Anaconda Prompt
  • flash_attn安裝失敗不影響基本功能,可以暫時跳過

步驟 8:下載模型檔案(最重要)

這是最關鍵的步驟!我們需要下載三個大型AI模型,總大小約30GB。

重要提醒:

  • • 模型總大小約30GB,請確保硬碟空間充足
  • • 下載時間視網速而定,可能需要1-3小時
  • • 請保持網路連線穩定,避免中斷
  • • 建議使用有線網路或穩定的Wi-Fi

7-1. 安裝 HuggingFace CLI 並登入

首先安裝HuggingFace命令列工具:

pip install huggingface_hub

然後登入你的HuggingFace帳號:

huggingface-cli login

💡 執行後會要求輸入Token,請到 HuggingFace Settings 建立並複製Token

7-2. 建立模型資料夾

建立存放模型的目錄:

cd weights

如果weights資料夾不存在,請先建立:mkdir weights

7-3. 下載三個必要模型

✔ 模型一:Wan2.1 主模型(約20GB)

這是核心的視訊生成模型,負責創建對口型動畫

huggingface-cli download Wan-AI/Wan2.1-I2V-14B-480P --local-dir ./Wan2.1-I2V-14B-480P

⏱️ 預計需要30-90分鐘(視網速而定)

✔ 模型二:Chinese wav2vec2 音訊模型(約400MB)

負責分析中文語音特徵,實現精準對口型

huggingface-cli download TencentGameMate/chinese-wav2vec2-base --local-dir ./chinese-wav2vec2-base

⚠️ 重要:還需要下載PR補檔

huggingface-cli download TencentGameMate/chinese-wav2vec2-base model.safetensors --revision refs/pr/1 --local-dir ./chinese-wav2vec2-base

⏱️ 預計需要5-10分鐘

✔ 模型三:InfiniteTalk 主模型(約10GB)

包含單人和多人模式的對口型權重檔案

huggingface-cli download MeiGen-AI/InfiniteTalk --local-dir ./InfiniteTalk

⏱️ 預計需要15-30分鐘

下載完成檢查:

確認以下三個資料夾都存在:

  • ✓ D:\InfiniteTalk\InfiniteTalk\weights\Wan2.1-I2V-14B-480P
  • ✓ D:\InfiniteTalk\InfiniteTalk\weights\chinese-wav2vec2-base
  • ✓ D:\InfiniteTalk\InfiniteTalk\weights\InfiniteTalk

步驟 9:啟動應用程式

所有準備工作都完成了!現在我們來啟動InfiniteTalk的圖形化介面。

第 8 步:返回主程式資料夾

如果你還在weights資料夾中,請返回上一層:

cd ..

你應該回到:

(infinitetalk) D:\InfiniteTalk\InfiniteTalk>

🎬 第 9 步:啟動 Gradio GUI(單人模型)

這是最常用的模式,適合單個角色唱歌或說話:

這是可以直接複製貼上執行的完整指令(無換行符號)

👇 請複製整行貼上到Anaconda Prompt:

python app.py --ckpt_dir weights/Wan2.1-I2V-14B-480P --wav2vec_dir weights/chinese-wav2vec2-base --infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors --num_persistent_param_in_dit 0 --motion_frame 9

✅ 成功會看到:

Running on local URL: http://127.0.0.1:7860

👉 打開瀏覽器輸入網址 http://127.0.0.1:7860 就能使用GUI介面!

🎭 第 10 步:啟動 Gradio GUI(多人模型)

多人模型用於2~3人照片、合照說話的場景:

👇 請複製整行貼上:

python app.py --ckpt_dir weights/Wan2.1-I2V-14B-480P --wav2vec_dir weights/chinese-wav2vec2-base --infinitetalk_dir weights/InfiniteTalk/multi/infinitetalk.safetensors --num_persistent_param_in_dit 0 --motion_frame 9

✅ 同樣會看到:

Running on local URL: http://127.0.0.1:7860

即可使用多人版本的GUI介面

🎉 完成!你現在擁有:

✅ 單人模型 GUI

適合單個角色的對口型視訊

✅ 多人模型 GUI

適合多人合照的對話場景

使用提示:

  • • 每次使用前都要先啟動conda環境:conda activate infinitetalk
  • • 關閉程式只需在命令列按 Ctrl+C
  • • 單人和多人模式不能同時運行,需要切換
  • • 第一次啟動會載入模型,需要等待約1-2分鐘

步驟 10:使用InfiniteTalk生成視訊

現在我們來使用GUI介面,將前面準備的圖片和音訊合成為對口型視訊!

準備檢查清單

✓ 角色圖片

步驟1生成的在麥克風前的圖片

✓ 音訊檔案

步驟4剪輯的15-30秒片段

✓ GUI已啟動

瀏覽器可訪問127.0.0.1:7860

✓ 耐心等候

生成需要幾分鐘時間

詳細操作步驟:

1 開啟GUI介面

在瀏覽器中輸入 http://127.0.0.1:7860

2 上傳圖片

點擊「Upload Image」或「上傳圖片」按鈕

  • • 選擇你在步驟1生成的角色圖片
  • • 確保圖片中人物臉部清晰可見
  • • 支援JPG、PNG等常見格式

3 上傳音訊

點擊「Upload Audio」或「上傳音訊」按鈕

  • • 選擇你在步驟4剪輯的音訊檔案
  • • 建議15-30秒的片段效果最佳
  • • 支援MP3、WAV等格式

4 調整參數(選用)

大部分情況使用預設值即可,進階用戶可調整:

  • • Motion Scale:動作幅度(建議0.8-1.2)
  • • Seed:隨機種子(固定可重現結果)

5 開始生成

點擊「Generate」或「生成」按鈕

⏱️ 生成時間視GPU效能而定,通常需要3-10分鐘

6 下載視訊

生成完成後會自動顯示預覽

  • • 點擊下載按鈕儲存視訊
  • • 視訊會保存為MP4格式
  • • 如果不滿意可以調整參數重新生成

優化技巧:

  • • 如果嘴型不夠精準,可以嘗試更換圖片角度
  • • 音訊品質影響對口型準確度,盡量使用高品質音訊
  • • 正面照效果通常比側面照更好
  • • 可以多生成幾次,選擇最佳結果

常見問題:

  • Q: 生成速度很慢怎麼辦?
    A: 這取決於你的GPU效能,屬於正常現象。可以適當減少motion_frame參數。
  • Q: 出現CUDA記憶體不足錯誤?
    A: 關閉其他佔用GPU的程式,或嘗試使用較小的圖片尺寸。
  • Q: 對口型不準確?
    A: 確保使用中文音訊,嘗試調整motion_scale參數或更換圖片。

恭喜!教學完成

🎉 你已經完成整個流程!

從AI圖片生成、歌詞創作、音樂製作到最終的對口型視訊
你現在已經掌握了完整的AI視訊創作技能

你學會了:

  • 使用AI平台生成專業角色圖片
  • 撰寫創意提示詞生成高品質歌詞
  • 使用SUNO/UDIO創作AI音樂
  • 音訊剪輯與處理技巧
  • 完整安裝並使用InfiniteTalk
  • 生成專業的AI對口型視訊

下一步建議:

  • 嘗試不同風格的歌曲創作
  • 探索多人對話場景製作
  • 使用視訊編輯軟體做後製
  • 加入字幕與特效增強效果
  • 分享作品到社交媒體平台
  • 持續學習最新的AI工具

快速參考工具連結

AI圖片生成

QWEN

AI音樂生成

SUNO

音訊剪輯

AudioMass

創作靈感

除了歌曲,你還可以用InfiniteTalk製作:

  • • 歷史人物演講視訊
  • • 動漫角色對話場景
  • • 多語言教學視訊
  • • 產品介紹與廣告
  • • 個性化祝福視訊

感謝你的學習!

希望這個教學對你有幫助

建置人:曾慶良 (阿亮老師)