use the same activation placements as encodec, suggested by @inspirit (36c39540) · Commits · school / Capstone Design / 01 / AudioLM

audiolm_pytorch/soundstream.py

+3 −1

Original line number	Diff line number	Diff line
		@@ -224,10 +224,10 @@ class CausalConvTranspose1d(nn.Module):

		def ResidualUnit(chan_in, chan_out, dilation, kernel_size = 7):
		return Residual(nn.Sequential(
		nn.ELU(),
		CausalConv1d(chan_in, chan_out, kernel_size, dilation = dilation),
		nn.ELU(),
		CausalConv1d(chan_out, chan_out, 1),
		nn.ELU()
		))

		def EncoderBlock(chan_in, chan_out, stride):
		@@ -235,6 +235,7 @@ def EncoderBlock(chan_in, chan_out, stride):
		ResidualUnit(chan_in, chan_in, 1),
		ResidualUnit(chan_in, chan_in, 3),
		ResidualUnit(chan_in, chan_in, 9),
		nn.ELU(),
		CausalConv1d(chan_in, chan_out, 2 * stride, stride = stride)
		)

		@@ -244,6 +245,7 @@ def DecoderBlock(chan_in, chan_out, stride):
		output_padding = 0 if even_stride else 1

		return nn.Sequential(
		nn.ELU(),
		CausalConvTranspose1d(chan_in, chan_out, 2 * stride, stride = stride),
		ResidualUnit(chan_out, chan_out, 1),
		ResidualUnit(chan_out, chan_out, 3),

+1 −1

Original line number	Diff line number	Diff line
		@@ -3,7 +3,7 @@ from setuptools import setup, find_packages
		setup(
		name = 'audiolm-pytorch',
		packages = find_packages(exclude=[]),
		version = '0.5.1',
		version = '0.6.0',
		license='MIT',
		description = 'AudioLM - Language Modeling Approach to Audio Generation from Google Research - Pytorch',
		author = 'Phil Wang',