Vọc vạch

Mẹo tạo giọng đọc AI nghe như người thật - Có hơi thở, có ngắt nghỉ, có cảm xúc

2 phút đọc

Khi chuyển văn bản thành giọng nói để làm podcast hoặc video, mình thấy nhiều người đang làm sai cách khiến giọng AI đều đều, nghe không có cảm xúc mấy.

Sai ở đâu? Ở chỗ cứ tưởng dán kịch bản vào rồi ấn generate là xong.

Thực ra Google có hẳn một Prompting Guide chính thức cho Gemini 2.5 Pro TTS, trong đó nêu rõ, một prompt chuẩn để tạo giọng AI chuẩn cần 5 thành phần:

1. Audio Profile: nhân vật là ai, độ tuổi, tính cách

2. Scene: bối cảnh, không gian (vd: studio podcast yên tĩnh)

3. Director's Notes: chỉ đạo về tốc độ, nhịp thở, accent vùng miền

4. Sample Context: điểm khởi đầu để AI "vào vai"

5. Transcript cần có audio tags: [whispers], [pause], [excited]... đặt đúng chỗ => cái này chính là phần quan trọng nhất để khi nói giọng AI đặt đúng cảm xúc vào từng câu từng chỗ.

Audio tags thì họ khuyến nghị nên viết bằng tiếng Anh nhé.

Ngoài ra, một kinh nghiệm nữa mình rút ra từ nhiều lần thực hành là, để tối ưu là không tạo giọng AI cho kịch bản một lần, mà nên chia nhỏ kịch bản. Làm phần đầu trước làm sample, để chốt giọng, chốt vibe, chốt tốc độ. Khi đã ưng, lưu lại prompt sample đó làm "tài liệu mẫu" để train cho AI, các phần còn lại của kịch bản chỉ cần clone hướng dẫn và cấu trúc và chỉ cần đổi transcript với cảm xúc phù hợp. Giọng ra sẽ đồng nhất, và có sắc thái tự nhiên, đúng tình huống và hoàn cảnh.

Mình đã test thử với cả giọng miền Nam lẫn Hà Nội, thậm chí cho cả clip dài 15 phút và thấy khá ok.

Hi vọng có ích cho những ai đang cần.

Đọc tiếp trong Vọc vạch