ChatTTS

일상 대화를 위한 생성형 음성 모델입니다.

Note

이 문서는 최신 버전이 아닐 수 있습니다. 영어 문서를 기준으로 작업하는 것을 권장합니다.

프로젝트 소개

Note

이 저장소에는 알고리즘 구조와 간단한 예시들이 포함되어 있습니다.

Tip

이 프로젝트에서 파생된 프로젝트는 커뮤니티가 유지 관리하는 커뮤니티Awesome-ChatTTS를 참조하시길 바랍니다.

ChatTTS는 대화 기반 작업(예: LLM 어시스턴트)을 위해 설계된 텍스트-음성 변환(TTS) 모델입니다.

지원 언어

영어
중국어
계속 추가 예정...

프로젝트 특징

이 프로젝트의 내용은 **Bilibili**에서 제공되는 비디오를 참조하시길 바랍니다.

대화형 TTS: ChatTTS는 대화 기반 작업에 최적화되어 자연스럽고 표현력 있는 음성 합성을 구현합니다. 다중 화자를 지원하여 상호작용적인 대화를 가능하게 합니다.
세밀한 제어: 이 모델은 웃음, 일시 정지, 삽입어 등 세밀한 운율적 특징을 예측하고 제어할 수 있습니다.
향상된 운율: ChatTTS는 운율 측면에서 대부분의 오픈 소스 TTS 모델을 능가하며, 추가 연구와 개발을 지원하기 위해 사전 훈련된 모델을 제공합니다.

데이터셋 및 모델

Important

공개된 모델은 학술 목적으로만 사용 가능합니다.

주요 모델은 100,000+ 시간의 중국어 및 영어 오디오 데이터를 사용하여 훈련되었습니다.
**HuggingFace**에서 제공되는 오픈 소스 버전은 40,000시간의 사전 훈련된 모델로, SFT가 적용되지 않았습니다.

로드맵

40,000시간 기반 모델과 spk_stats 파일 오픈 소스화.
스트리밍 오디오 생성.
DVAE 인코더와 제로 샷 추론 코드 오픈 소스화.
다중 감정 제어 기능.
ChatTTS.cpp (2noise 조직 내의 새로운 저장소를 환영합니다.)

라이선스

코드

코드는 AGPLv3+ 라이선스를 따릅니다.

모델

모델은 CC BY-NC 4.0 라이선스로 공개되었습니다. 이 모델은 교육 및 연구 목적으로만 사용되며, 상업적 또는 불법적 목적으로 사용되어서는 안 됩니다. 저자들은 정보의 정확성, 완전성, 신뢰성을 보장하지 않습니다. 이 저장소에서 사용된 정보와 데이터는 학술 및 연구 목적으로만 사용되며, 공개적으로 이용 가능한 출처에서 얻은 데이터입니다. 저자들은 데이터에 대한 소유권 또는 저작권을 주장하지 않습니다.

면책 조항

ChatTTS는 강력한 텍스트-음성 변환 시스템입니다. 그렇기에 기술을 책임감 있고 윤리적으로 사용하는 것은 아주 중요합니다. ChatTTS의 악용을 방지하기 위해 40,000시간 모델의 훈련 중 소량의 고주파 노이즈를 추가하고, 오디오 품질을 최대한 압축하여 MP3 형식으로 제공했습니다. 또한, 우리는 내부적으로 탐지 모델을 훈련했으며, 추후 이를 오픈 소스화할 계획입니다.

연락처

GitHub 이슈/PR은 언제든지 환영합니다.

공식 문의

모델 및 로드맵에 대한 공식적인 문의는 open-source@2noise.com으로 연락해 주십시오.

온라인 채팅

1. QQ Group (Chinese Social APP)

Group 1, 808364215
Group 2, 230696694
Group 3, 933639842
Group 4, 608667975

2. Discord 서버

이곳를 클릭하여 참여하십시오.

시작하기

레포지토리 클론

git clone https://github.com/2noise/ChatTTS
cd ChatTTS

의존성 설치

1. 직접 설치

pip install --upgrade -r requirements.txt

2. Conda에서 설치

conda create -n chattts
conda activate chattts
pip install -r requirements.txt

선택사항: vLLM 설치 (Linux 전용)

pip install safetensors vllm==0.2.7 torchaudio

권장되지 않는 선택사항: NVIDIA GPU 사용 시 TransformerEngine 설치 (Linux 전용)

Warning

설치하지 마십시오! TransformerEngine의 적응 작업은 현재 개발 중이며, 아직 제대로 작동하지 않습니다. 개발 목적으로만 설치하십시오. 자세한 내용은 #672 및 #676에서 확인할 수 있습니다.

Note

설치 과정은 매우 느립니다.

pip install git+https://github.com/NVIDIA/TransformerEngine.git@stable

권장되지 않는 선택사항: FlashAttention-2 설치 (주로 NVIDIA GPU)

Warning

설치하지 마십시오! 현재 FlashAttention-2는 이 이슈에 따르면 생성 속도를 저하시킵니다. 개발 목적으로만 설치하십시오.

Note

지원되는 장치는 Hugging Face 문서에서 확인할 수 있습니다.

pip install flash-attn --no-build-isolation

빠른 시작

아래 명령어를 실행할 때 반드시 프로젝트 루트 디렉토리에서 실행하십시오.

1. WebUI 실행

python examples/web/webui.py

2. 커맨드 라인에서 추론

오디오는 ./output_audio_n.mp3에 저장됩니다.

python examples/cmd/run.py "Your text 1." "Your text 2."

설치 방법

PyPI에서 안정 버전 설치

pip install ChatTTS

GitHub에서 최신 버전 설치

pip install git+https://github.com/2noise/ChatTTS

로컬 디렉토리에서 개발 모드로 설치

pip install -e .

기본 사용법

import ChatTTS
import torch
import torchaudio

chat = ChatTTS.Chat()
chat.load(compile=False) # 성능 향상을 위해 True로 설정 가능

texts = ["PUT YOUR 1st TEXT HERE", "PUT YOUR 2nd TEXT HERE"]

wavs = chat.infer(texts)

for i in range(len(wavs)):
    """
    torchaudio의 버전에 따라 첫 번째 줄이 작동할 수 있고, 다른 버전에서는 두 번째 줄이 작동할 수 있습니다.
    """
    try:
        torchaudio.save(f"basic_output{i}.wav", torch.from_numpy(wavs[i]).unsqueeze(0), 24000)
    except:
        torchaudio.save(f"basic_output{i}.wav", torch.from_numpy(wavs[i]), 24000)

Advanced Usage

###################################
# Sample a speaker from Gaussian.

rand_spk = chat.sample_random_speaker()
print(rand_spk) # save it for later timbre recovery

params_infer_code = ChatTTS.Chat.InferCodeParams(
    spk_emb = rand_spk, # add sampled speaker 
    temperature = .3,   # using custom temperature
    top_P = 0.7,        # top P decode
    top_K = 20,         # top K decode
)

###################################
# For sentence level manual control.

# use oral_(0-9), laugh_(0-2), break_(0-7) 
# to generate special token in text to synthesize.
params_refine_text = ChatTTS.Chat.RefineTextParams(
    prompt='[oral_2][laugh_0][break_6]',
)

wavs = chat.infer(
    texts,
    params_refine_text=params_refine_text,
    params_infer_code=params_infer_code,
)

###################################
# For word level manual control.

text = 'What is [uv_break]your favorite english food?[laugh][lbreak]'
wavs = chat.infer(text, skip_refine_text=True, params_refine_text=params_refine_text,  params_infer_code=params_infer_code)
"""
In some versions of torchaudio, the first line works but in other versions, so does the second line.
"""
try:
    torchaudio.save("word_level_output.wav", torch.from_numpy(wavs[0]).unsqueeze(0), 24000)
except:
    torchaudio.save("word_level_output.wav", torch.from_numpy(wavs[0]), 24000)

Example: self introduction

inputs_en = """
chat T T S is a text to speech model designed for dialogue applications. 
[uv_break]it supports mixed language input [uv_break]and offers multi speaker 
capabilities with precise control over prosodic elements like 
[uv_break]laughter[uv_break][laugh], [uv_break]pauses, [uv_break]and intonation. 
[uv_break]it delivers natural and expressive speech,[uv_break]so please
[uv_break] use the project responsibly at your own risk.[uv_break]
""".replace('\n', '') # English is still experimental.

params_refine_text = ChatTTS.Chat.RefineTextParams(
    prompt='[oral_2][laugh_0][break_4]',
)

audio_array_en = chat.infer(inputs_en, params_refine_text=params_refine_text)
torchaudio.save("self_introduction_output.wav", torch.from_numpy(audio_array_en[0]), 24000)

male speaker	female speaker
intro_en_m.webm	intro_en_f.webm

FAQ

1. VRAM이 얼마나 필요한가요? 추론 속도는 어느 정도인가요?

30초 길이의 오디오 클립을 생성하려면 최소 4GB의 GPU 메모리가 필요합니다. 4090 GPU의 경우 초당 약 7개의 의미 토큰에 해당하는 오디오를 생성할 수 있습니다. 실시간 인자(RTF)는 약 0.3입니다.

2. 모델의 안정성은 불안정하며, 화자가 많은 경우 및 오디오 품질이 저하되는 이슈 존재.

이는 일반적으로 autoregressive 모델(bark 및 valle 등)에서 발생하는 불가피한 문제입니다. 현재로선 여러 번 샘플링하여 적절한 결과를 찾는 것이 최선입니다.

3. 웃음 뿐 아니라 다른 감정도 표현할 수 있나요?

현재 공개된 모델에서는 제어 가능한 토큰은 [laugh], [uv_break], [lbreak]입니다. 향후 버전의 모델에서는 추가적인 감정 제어 기능 포함하여 오픈 소스로 제공할 계획입니다.

감사의 인사

bark, XTTSv2, valle는 autoregressive 방식의 시스템으로 뛰어난 TTS 성능을 보여주었습니다.
fish-speech는 LLM 모델링을 위한 오디오 토크나이저로서 GVQ의 능력을 보여주었습니다.
vocos는 사전 훈련된 vocoder로 사용되었습니다.

특별 감사

초기 알고리즘 실험을 위한 wlu-audio lab에 감사의 말씀을 전합니다.

Files

README.md

Latest commit

History

README.md

File metadata and controls

ChatTTS

프로젝트 소개

지원 언어

프로젝트 특징

데이터셋 및 모델

로드맵

라이선스

코드

모델

면책 조항

연락처

공식 문의

온라인 채팅

1. QQ Group (Chinese Social APP)

2. Discord 서버

시작하기

레포지토리 클론

의존성 설치

1. 직접 설치

2. Conda에서 설치

선택사항: vLLM 설치 (Linux 전용)

권장되지 않는 선택사항: NVIDIA GPU 사용 시 TransformerEngine 설치 (Linux 전용)

권장되지 않는 선택사항: FlashAttention-2 설치 (주로 NVIDIA GPU)

빠른 시작

1. WebUI 실행

2. 커맨드 라인에서 추론

설치 방법

기본 사용법

Advanced Usage

Example: self introduction

FAQ

1. VRAM이 얼마나 필요한가요? 추론 속도는 어느 정도인가요?

2. 모델의 안정성은 불안정하며, 화자가 많은 경우 및 오디오 품질이 저하되는 이슈 존재.

3. 웃음 뿐 아니라 다른 감정도 표현할 수 있나요?

감사의 인사

특별 감사

모든 기여자들의 노고에 감사드립니다