period discriminator periods

jstzwj · jstzwj · commit fdf1531f7ec1 · 2022-11-24T21:19:18.000+08:00
diff --git a/configs/48k_base.json b/configs/48k_base.json
@@ -63,6 +63,7 @@
     "upsample_kernel_sizes": [16,16,4,4],
     "n_layers_q": 3,
     "use_spectral_norm": false,
-    "gin_channels": 256
+    "gin_channels": 256,
+    "multi_period_discriminator_periods": [2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37]
   }
 }
diff --git a/infer.py b/infer.py
@@ -23,7 +23,7 @@
 import torchaudio
 
 if torch.cuda.is_available():
-    device = "cuda:6"
+    device = "cuda:5"
 else:
     device = "cpu"
 
@@ -90,4 +90,4 @@ def convert(source_audio: str, target_audio: str, speaker_id: int, pitch_shift:
 
     sf.write(target_audio, y_hat[0,:,:y_hat_lengths[0]].squeeze(0).detach().numpy(), hparams.data.target_sampling_rate, subtype='PCM_24')
 
-convert("ncwlq_01.wav", 'out.wav', 143, 0)
+convert("ncwlq_01.wav", 'out.wav', 256, 0)
diff --git a/vits/model/discriminators/multi_period_discriminator.py b/vits/model/discriminators/multi_period_discriminator.py
@@ -1,15 +1,15 @@
 
+from typing import List
 import torch
 from torch import nn
 from torch.nn import functional as F
 
 from .discriminator import DiscriminatorP, DiscriminatorS
 
 class MultiPeriodDiscriminator(torch.nn.Module):
-    def __init__(self, use_spectral_norm=False):
+    def __init__(self, periods: List[int]=[2, 3, 5, 7, 11, 17, 23, 37], use_spectral_norm: bool=False):
         super(MultiPeriodDiscriminator, self).__init__()
-        periods = [2,3,5,7,11]
-
+        self.periods = periods
         discs = [DiscriminatorS(use_spectral_norm=use_spectral_norm)]
         discs = discs + [DiscriminatorP(i, use_spectral_norm=use_spectral_norm) for i in periods]
         self.discriminators = nn.ModuleList(discs)
diff --git a/vits/model/synthesizers/synthesizer_svc.py b/vits/model/synthesizers/synthesizer_svc.py
@@ -57,8 +57,8 @@ def __init__(self, spec_channels, segment_size,
         self.enc_p = HubertContentEncoder(kwargs["hubert_ckpt"], inter_channels, hidden_channels, filter_channels,
                                 n_heads, n_layers, kernel_size, p_dropout, hubert_channels, num_pitch)
         self.dec = torch.hub.load("vtuber-plan/hifi-gan:v0.3.1", "hifigan_48k")
-        for param in self.dec.parameters():
-            param.requires_grad = False
+        # for param in self.dec.parameters():
+        #     param.requires_grad = False
         self.enc_q = PosteriorEncoder(spec_channels, inter_channels, hidden_channels, 5, 1, 16, gin_channels=gin_channels)
         self.flow = ResidualCouplingBlock(inter_channels, hidden_channels, 5, 1, 4, gin_channels=gin_channels)
 
diff --git a/vits/model/vcvits.py b/vits/model/vcvits.py
@@ -35,7 +35,10 @@ def __init__(self, **kwargs):
             self.hparams.train.segment_size // self.hparams.data.hop_length,
             n_speakers=self.hparams.data.n_speakers,
             **self.hparams.model)
-        self.net_period_d = MultiPeriodDiscriminator(self.hparams.model.use_spectral_norm)
+        self.net_period_d = MultiPeriodDiscriminator(
+            periods=self.hparams.model.multi_period_discriminator_periods,
+            use_spectral_norm=self.hparams.model.use_spectral_norm
+        )
         self.net_scale_d = MultiScaleDiscriminator(self.hparams.model.use_spectral_norm)
         # self.net_pitch_d = PitchDiscriminator(self.hparams.model.use_spectral_norm)
         # speaker discriminator

Original file line number	Diff line number	Diff line change
`@@ -63,6 +63,7 @@`
`63`	`63`	`"upsample_kernel_sizes": [16,16,4,4],`
`64`	`64`	`"n_layers_q": 3,`
`65`	`65`	`"use_spectral_norm": false,`
`66`		`- "gin_channels": 256`
	`66`	`+ "gin_channels": 256,`
	`67`	`+ "multi_period_discriminator_periods": [2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37]`
`67`	`68`	`}`
`68`	`69`	`}`