DOLPHIN/nautilus_dolphin/dvae/test_convnext_dvae.py

"""
Unit tests for ConvNeXt-1D β-TCVAE (pure numpy).

Tests
-----
T1  DWConv1d forward shape correct
T2  DWConv1d backward numerical gradient check
T3  LayerNorm forward/backward numerical gradient check
T4  ConvNeXtBlock1D output shape == input shape (skip preserved)
T5  ConvNeXtBlock1D backward numerical gradient check
T6  ConvNeXtVAE forward: output shapes correct
T7  ConvNeXtVAE forward/backward: loss is finite, grads finite
T8  Loss decreases over 20 steps on small batch (gradient descent works)
T9  Save/load round-trip: weights preserved
T10 β-TCVAE loss backward: numerical gradient check on z_mu/z_logvar

Run: python test_convnext_dvae.py
"""

import sys
import os
import tempfile
import numpy as np

# ensure local import
sys.path.insert(0, os.path.dirname(__file__))
from convnext_dvae import (
    ConvNeXtVAE, DWConv1d, LayerNorm, ConvNeXtBlock1D,
    btcvae_loss, btcvae_loss_backward
)

RNG = np.random.RandomState(0)
PASS = []
FAIL = []


def check(name: str, cond: bool, detail: str = ''):
    if cond:
        print(f'  PASS  {name}')
        PASS.append(name)
    else:
        print(f'  FAIL  {name}  {detail}')
        FAIL.append(name)


def num_grad(f, x, eps=1e-5):
    """Numeric gradient of scalar f at x."""
    g = np.zeros_like(x)
    it = np.nditer(x, flags=['multi_index'])
    while not it.finished:
        idx = it.multi_index
        orig = x[idx]
        x[idx] = orig + eps
        fp = f(x)
        x[idx] = orig - eps
        fm = f(x)
        x[idx] = orig
        g[idx] = (fp - fm) / (2 * eps)
        it.iternext()
    return g


# ---------------------------------------------------------------------------

def test_t1_dwconv_shape():
    print('\nT1: DWConv1d forward shape')
    layer = DWConv1d(8, 7, RNG)
    x = RNG.randn(4, 8, 32)
    y = layer.forward(x)
    check('output_shape', y.shape == (4, 8, 32), str(y.shape))


def test_t2_dwconv_grad():
    print('\nT2: DWConv1d backward numerical check')
    rng2 = np.random.RandomState(1)
    layer = DWConv1d(4, 3, rng2)
    x = rng2.randn(2, 4, 8).astype(np.float64) * 0.5

    def fwd(w_flat):
        layer.w.data[:] = w_flat.reshape(layer.w.data.shape)
        out = layer.forward(x)
        return float(out.sum())

    layer.forward(x)
    layer.backward(np.ones((2, 4, 8)))

    w0 = layer.w.data.copy()
    ng = num_grad(lambda w: fwd(w.ravel()), w0.ravel())
    ag = layer.w.grad.ravel()
    rel = np.abs(ag - ng) / (np.abs(ng) + 1e-8)
    check('dw_max_rel_err', rel.max() < 0.01, f'max_rel={rel.max():.4f}')

    # also check dx
    def fwd_x(xf):
        return float(layer.forward(xf.reshape(2, 4, 8)).sum())

    ng_x = num_grad(lambda xf: fwd_x(xf), x.ravel().copy())
    layer.forward(x)
    gx = layer.backward(np.ones((2, 4, 8))).ravel()
    rel_x = np.abs(gx - ng_x) / (np.abs(ng_x) + 1e-8)
    check('dx_max_rel_err', rel_x.max() < 0.01, f'max_rel_x={rel_x.max():.4f}')


def test_t3_layernorm_grad():
    print('\nT3: LayerNorm backward numerical check')
    rng2 = np.random.RandomState(2)
    layer = LayerNorm(8)
    x = rng2.randn(4, 12, 8).astype(np.float64)

    def fwd_gamma(gf):
        layer.gamma.data[:] = gf
        return float(layer.forward(x).sum())

    layer.forward(x)
    layer.backward(np.ones((4, 12, 8)))
    ag = layer.gamma.grad.copy()
    ng = num_grad(lambda gf: fwd_gamma(gf), layer.gamma.data.copy())
    rel = np.abs(ag - ng) / (np.abs(ng) + 1e-8)
    check('dgamma_max_rel_err', rel.max() < 0.01, f'{rel.max():.4f}')

    def fwd_x(xf):
        return float(layer.forward(xf.reshape(4, 12, 8)).sum())
    dx = layer.backward(np.ones((4, 12, 8))).ravel()
    ng_x = num_grad(lambda xf: fwd_x(xf), x.ravel().copy())
    rel_x = np.abs(dx - ng_x) / (np.abs(ng_x) + 1e-8)
    check('dx_max_rel_err', rel_x.max() < 0.01, f'{rel_x.max():.4f}')


def test_t4_block_shape():
    print('\nT4: ConvNeXtBlock1D shape preserved')
    rng2 = np.random.RandomState(3)
    blk = ConvNeXtBlock1D(16, 7, rng2)
    x = rng2.randn(4, 16, 32)
    y = blk.forward(x)
    check('shape_unchanged', y.shape == x.shape, str(y.shape))
    check('skip_active', not np.allclose(y, x))  # block changes values


def test_t5_block_grad():
    print('\nT5: ConvNeXtBlock1D backward numerical check (small block)')
    rng2 = np.random.RandomState(4)
    blk = ConvNeXtBlock1D(4, 3, rng2)
    x = rng2.randn(2, 4, 8).astype(np.float64) * 0.3

    def fwd_x(xf):
        return float(blk.forward(xf.reshape(2, 4, 8)).sum())

    blk.forward(x)
    dx_an = blk.backward(np.ones((2, 4, 8))).ravel()
    ng_x = num_grad(lambda xf: fwd_x(xf), x.ravel().copy())
    rel = np.abs(dx_an - ng_x) / (np.abs(ng_x) + 1e-8)
    check('dx_max_rel_err', rel.max() < 0.02, f'{rel.max():.4f}')


def test_t6_vae_shapes():
    print('\nT6: ConvNeXtVAE forward shapes')
    rng2 = np.random.RandomState(5)
    model = ConvNeXtVAE(C_in=8, T_in=32, z_dim=16, base_ch=16, n_blocks=2, seed=5)
    x = rng2.randn(4, 8, 32)
    x_recon, z_mu, z_logvar, z = model.forward(x)
    check('x_recon_shape', x_recon.shape == (4, 8, 32), str(x_recon.shape))
    check('z_mu_shape',    z_mu.shape    == (4, 16),    str(z_mu.shape))
    check('z_logvar_shape',z_logvar.shape == (4, 16),   str(z_logvar.shape))
    check('x_recon_finite',np.all(np.isfinite(x_recon)))
    check('z_mu_finite',   np.all(np.isfinite(z_mu)))


def test_t7_vae_backward():
    print('\nT7: ConvNeXtVAE backward: grads finite, loss finite')
    rng2 = np.random.RandomState(6)
    model = ConvNeXtVAE(C_in=8, T_in=32, z_dim=16, base_ch=16, n_blocks=2, seed=6)
    x = rng2.randn(8, 8, 32)
    eps_noise = rng2.randn(8, 16)

    # manual forward with stored eps
    z_mu, z_logvar = model.encode(x)
    z = z_mu + eps_noise * np.exp(0.5 * z_logvar)
    x_recon = model.decode(z)

    loss, info = btcvae_loss(x, x_recon, z_mu, z_logvar, z, beta_tc=2.0)
    check('loss_finite', np.isfinite(loss), f'loss={loss:.4f}')
    for k, v in info.items():
        check(f'{k}_finite', np.isfinite(v), f'{k}={v:.4f}')

    d_recon, d_z_mu, d_z_logvar = btcvae_loss_backward(
        x, x_recon, z_mu, z_logvar, z, eps_noise, beta_tc=2.0
    )

    model.zero_grad()
    dz = model.backward_decode(d_recon)
    model.backward_encode(d_z_mu + dz, d_z_logvar)

    all_grads = [p.grad for p in model.all_params()]
    any_nan  = any(np.any(np.isnan(g))  for g in all_grads)
    any_inf  = any(np.any(np.isinf(g))  for g in all_grads)
    all_zero = all(np.all(g == 0) for g in all_grads)
    check('grads_no_nan', not any_nan)
    check('grads_no_inf', not any_inf)
    check('grads_not_all_zero', not all_zero)


def test_t8_loss_decreases():
    print('\nT8: Loss decreases over 20 gradient steps')
    rng2 = np.random.RandomState(7)
    model = ConvNeXtVAE(C_in=8, T_in=32, z_dim=16, base_ch=16, n_blocks=2, seed=7)
    x = rng2.randn(16, 8, 32).astype(np.float64)

    losses = []
    lr = 1e-3
    for step in range(20):
        rng2_eps = np.random.RandomState(step)
        eps_noise = rng2_eps.randn(16, 16)
        z_mu, z_logvar = model.encode(x)
        z = z_mu + eps_noise * np.exp(0.5 * z_logvar)
        x_recon = model.decode(z)
        loss, _ = btcvae_loss(x, x_recon, z_mu, z_logvar, z, beta_tc=1.0, alpha_mi=1.0)
        losses.append(loss)

        d_recon, d_z_mu, d_z_logvar = btcvae_loss_backward(
            x, x_recon, z_mu, z_logvar, z, eps_noise, beta_tc=1.0, alpha_mi=1.0
        )
        model.zero_grad()
        dz = model.backward_decode(d_recon)
        model.backward_encode(d_z_mu + dz, d_z_logvar)
        model.adam_step(lr)

    first5 = np.mean(losses[:5])
    last5  = np.mean(losses[-5:])
    print(f'    loss[0:5]={first5:.4f}  loss[15:20]={last5:.4f}')
    check('loss_decreasing', last5 < first5, f'{last5:.4f} vs {first5:.4f}')


def test_t9_save_load():
    print('\nT9: Save/load round-trip')
    rng2 = np.random.RandomState(8)
    model = ConvNeXtVAE(C_in=8, T_in=32, z_dim=16, base_ch=16, n_blocks=2, seed=8)
    x = rng2.randn(4, 8, 32)

    # deterministic forward: encode then decode with fixed z_mu (no sampling)
    z_mu1, _ = model.encode(x)
    x_recon1  = model.decode(z_mu1)

    nm = rng2.randn(8).astype(np.float64)
    ns = np.abs(rng2.randn(8)).astype(np.float64) + 0.1

    with tempfile.NamedTemporaryFile(suffix='.json', delete=False) as f:
        path = f.name

    try:
        model.save(path, norm_mean=nm, norm_std=ns)
        model2 = ConvNeXtVAE(C_in=8, T_in=32, z_dim=16, base_ch=16, n_blocks=2, seed=0)
        extras = model2.load(path)

        check('norm_mean_saved', 'norm_mean' in extras)
        check('norm_std_saved',  'norm_std'  in extras)

        z_mu2, _ = model2.encode(x)
        x_recon2  = model2.decode(z_mu2)
        check('recon_reproduced', np.allclose(x_recon1, x_recon2, atol=1e-10))
        check('z_mu_reproduced',  np.allclose(z_mu1,    z_mu2,    atol=1e-10))
    finally:
        os.unlink(path)


def test_t10_btcvae_grad():
    print('\nT10: beta-TCVAE backward numerical gradient check (z_mu, z_logvar)')
    rng2 = np.random.RandomState(9)
    B, D = 8, 6
    C, T = 4, 8
    x     = rng2.randn(B, C, T).astype(np.float64)
    z_mu  = rng2.randn(B, D).astype(np.float64) * 0.5
    z_lv  = rng2.randn(B, D).astype(np.float64) * 0.3 - 1.0  # negative → small var
    eps   = rng2.randn(B, D).astype(np.float64)
    z     = z_mu + eps * np.exp(0.5 * z_lv)

    # Use a fixed simple decoder output to avoid recomputing model
    x_recon = rng2.randn(B, C, T).astype(np.float64) * 0.5

    def loss_fn_mu(mu_flat):
        mu = mu_flat.reshape(B, D)
        z_ = mu + eps * np.exp(0.5 * z_lv)
        l, _ = btcvae_loss(x, x_recon, mu, z_lv, z_, beta_tc=2.0, alpha_mi=1.0)
        return l

    def loss_fn_lv(lv_flat):
        lv = lv_flat.reshape(B, D)
        z_ = z_mu + eps * np.exp(0.5 * lv)
        l, _ = btcvae_loss(x, x_recon, z_mu, lv, z_, beta_tc=2.0, alpha_mi=1.0)
        return l

    _, d_z_mu, d_z_lv = btcvae_loss_backward(
        x, x_recon, z_mu, z_lv, z, eps, beta_tc=2.0, alpha_mi=1.0
    )

    ng_mu = num_grad(loss_fn_mu, z_mu.ravel().copy()).reshape(B, D)
    ng_lv = num_grad(loss_fn_lv, z_lv.ravel().copy()).reshape(B, D)

    rel_mu = np.abs(d_z_mu - ng_mu) / (np.abs(ng_mu) + 1e-6)
    rel_lv = np.abs(d_z_lv - ng_lv) / (np.abs(ng_lv) + 1e-6)

    print(f'    d_z_mu  max_rel={rel_mu.max():.4f}  mean_rel={rel_mu.mean():.4f}')
    print(f'    d_z_lv  max_rel={rel_lv.max():.4f}  mean_rel={rel_lv.mean():.4f}')
    check('d_z_mu_rel_err',  rel_mu.max() < 0.05, f'{rel_mu.max():.4f}')
    check('d_z_lv_rel_err',  rel_lv.max() < 0.05, f'{rel_lv.max():.4f}')


# ---------------------------------------------------------------------------

if __name__ == '__main__':
    print('=' * 60)
    print('ConvNeXt-1D beta-TCVAE unit tests')
    print('=' * 60)

    test_t1_dwconv_shape()
    test_t2_dwconv_grad()
    test_t3_layernorm_grad()
    test_t4_block_shape()
    test_t5_block_grad()
    test_t6_vae_shapes()
    test_t7_vae_backward()
    test_t8_loss_decreases()
    test_t9_save_load()
    test_t10_btcvae_grad()

    print()
    print('=' * 60)
    print(f'Results: {len(PASS)} PASS / {len(FAIL)} FAIL')
    if FAIL:
        print('FAILED:', FAIL)
        sys.exit(1)
    else:
        print('All tests passed.')
initial: import DOLPHIN baseline 2026-04-21 from dolphinng5_predict working tree Includes core prod + GREEN/BLUE subsystems: - prod/ (BLUE harness, configs, scripts, docs) - nautilus_dolphin/ (GREEN Nautilus-native impl + dvae/ preserved) - adaptive_exit/ (AEM engine + models/bucket_assignments.pkl) - Observability/ (EsoF advisor, TUI, dashboards) - external_factors/ (EsoF producer) - mc_forewarning_qlabs_fork/ (MC regime/envelope) Excludes runtime caches, logs, backups, and reproducible artifacts per .gitignore. 2026-04-21 16:58:38 +02:00			`"""`
			`Unit tests for ConvNeXt-1D β-TCVAE (pure numpy).`

			`Tests`
			`-----`
			`T1 DWConv1d forward shape correct`
			`T2 DWConv1d backward numerical gradient check`
			`T3 LayerNorm forward/backward numerical gradient check`
			`T4 ConvNeXtBlock1D output shape == input shape (skip preserved)`
			`T5 ConvNeXtBlock1D backward numerical gradient check`
			`T6 ConvNeXtVAE forward: output shapes correct`
			`T7 ConvNeXtVAE forward/backward: loss is finite, grads finite`
			`T8 Loss decreases over 20 steps on small batch (gradient descent works)`
			`T9 Save/load round-trip: weights preserved`
			`T10 β-TCVAE loss backward: numerical gradient check on z_mu/z_logvar`

			`Run: python test_convnext_dvae.py`
			`"""`

			`import sys`
			`import os`
			`import tempfile`
			`import numpy as np`

			`# ensure local import`
			`sys.path.insert(0, os.path.dirname(__file__))`
			`from convnext_dvae import (`
			`ConvNeXtVAE, DWConv1d, LayerNorm, ConvNeXtBlock1D,`
			`btcvae_loss, btcvae_loss_backward`
			`)`

			`RNG = np.random.RandomState(0)`
			`PASS = []`
			`FAIL = []`


			`def check(name: str, cond: bool, detail: str = ''):`
			`if cond:`
			`print(f' PASS {name}')`
			`PASS.append(name)`
			`else:`
			`print(f' FAIL {name} {detail}')`
			`FAIL.append(name)`


			`def num_grad(f, x, eps=1e-5):`
			`"""Numeric gradient of scalar f at x."""`
			`g = np.zeros_like(x)`
			`it = np.nditer(x, flags=['multi_index'])`
			`while not it.finished:`
			`idx = it.multi_index`
			`orig = x[idx]`
			`x[idx] = orig + eps`
			`fp = f(x)`
			`x[idx] = orig - eps`
			`fm = f(x)`
			`x[idx] = orig`
			`g[idx] = (fp - fm) / (2 * eps)`
			`it.iternext()`
			`return g`


			`# ---------------------------------------------------------------------------`

			`def test_t1_dwconv_shape():`
			`print('\nT1: DWConv1d forward shape')`
			`layer = DWConv1d(8, 7, RNG)`
			`x = RNG.randn(4, 8, 32)`
			`y = layer.forward(x)`
			`check('output_shape', y.shape == (4, 8, 32), str(y.shape))`


			`def test_t2_dwconv_grad():`
			`print('\nT2: DWConv1d backward numerical check')`
			`rng2 = np.random.RandomState(1)`
			`layer = DWConv1d(4, 3, rng2)`
			`x = rng2.randn(2, 4, 8).astype(np.float64) * 0.5`

			`def fwd(w_flat):`
			`layer.w.data[:] = w_flat.reshape(layer.w.data.shape)`
			`out = layer.forward(x)`
			`return float(out.sum())`

			`layer.forward(x)`
			`layer.backward(np.ones((2, 4, 8)))`

			`w0 = layer.w.data.copy()`
			`ng = num_grad(lambda w: fwd(w.ravel()), w0.ravel())`
			`ag = layer.w.grad.ravel()`
			`rel = np.abs(ag - ng) / (np.abs(ng) + 1e-8)`
			`check('dw_max_rel_err', rel.max() < 0.01, f'max_rel={rel.max():.4f}')`

			`# also check dx`
			`def fwd_x(xf):`
			`return float(layer.forward(xf.reshape(2, 4, 8)).sum())`

			`ng_x = num_grad(lambda xf: fwd_x(xf), x.ravel().copy())`
			`layer.forward(x)`
			`gx = layer.backward(np.ones((2, 4, 8))).ravel()`
			`rel_x = np.abs(gx - ng_x) / (np.abs(ng_x) + 1e-8)`
			`check('dx_max_rel_err', rel_x.max() < 0.01, f'max_rel_x={rel_x.max():.4f}')`


			`def test_t3_layernorm_grad():`
			`print('\nT3: LayerNorm backward numerical check')`
			`rng2 = np.random.RandomState(2)`
			`layer = LayerNorm(8)`
			`x = rng2.randn(4, 12, 8).astype(np.float64)`

			`def fwd_gamma(gf):`
			`layer.gamma.data[:] = gf`
			`return float(layer.forward(x).sum())`

			`layer.forward(x)`
			`layer.backward(np.ones((4, 12, 8)))`
			`ag = layer.gamma.grad.copy()`
			`ng = num_grad(lambda gf: fwd_gamma(gf), layer.gamma.data.copy())`
			`rel = np.abs(ag - ng) / (np.abs(ng) + 1e-8)`
			`check('dgamma_max_rel_err', rel.max() < 0.01, f'{rel.max():.4f}')`

			`def fwd_x(xf):`
			`return float(layer.forward(xf.reshape(4, 12, 8)).sum())`
			`dx = layer.backward(np.ones((4, 12, 8))).ravel()`
			`ng_x = num_grad(lambda xf: fwd_x(xf), x.ravel().copy())`
			`rel_x = np.abs(dx - ng_x) / (np.abs(ng_x) + 1e-8)`
			`check('dx_max_rel_err', rel_x.max() < 0.01, f'{rel_x.max():.4f}')`


			`def test_t4_block_shape():`
			`print('\nT4: ConvNeXtBlock1D shape preserved')`
			`rng2 = np.random.RandomState(3)`
			`blk = ConvNeXtBlock1D(16, 7, rng2)`
			`x = rng2.randn(4, 16, 32)`
			`y = blk.forward(x)`
			`check('shape_unchanged', y.shape == x.shape, str(y.shape))`
			`check('skip_active', not np.allclose(y, x)) # block changes values`


			`def test_t5_block_grad():`
			`print('\nT5: ConvNeXtBlock1D backward numerical check (small block)')`
			`rng2 = np.random.RandomState(4)`
			`blk = ConvNeXtBlock1D(4, 3, rng2)`
			`x = rng2.randn(2, 4, 8).astype(np.float64) * 0.3`

			`def fwd_x(xf):`
			`return float(blk.forward(xf.reshape(2, 4, 8)).sum())`

			`blk.forward(x)`
			`dx_an = blk.backward(np.ones((2, 4, 8))).ravel()`
			`ng_x = num_grad(lambda xf: fwd_x(xf), x.ravel().copy())`
			`rel = np.abs(dx_an - ng_x) / (np.abs(ng_x) + 1e-8)`
			`check('dx_max_rel_err', rel.max() < 0.02, f'{rel.max():.4f}')`


			`def test_t6_vae_shapes():`
			`print('\nT6: ConvNeXtVAE forward shapes')`
			`rng2 = np.random.RandomState(5)`
			`model = ConvNeXtVAE(C_in=8, T_in=32, z_dim=16, base_ch=16, n_blocks=2, seed=5)`
			`x = rng2.randn(4, 8, 32)`
			`x_recon, z_mu, z_logvar, z = model.forward(x)`
			`check('x_recon_shape', x_recon.shape == (4, 8, 32), str(x_recon.shape))`
			`check('z_mu_shape', z_mu.shape == (4, 16), str(z_mu.shape))`
			`check('z_logvar_shape',z_logvar.shape == (4, 16), str(z_logvar.shape))`
			`check('x_recon_finite',np.all(np.isfinite(x_recon)))`
			`check('z_mu_finite', np.all(np.isfinite(z_mu)))`


			`def test_t7_vae_backward():`
			`print('\nT7: ConvNeXtVAE backward: grads finite, loss finite')`
			`rng2 = np.random.RandomState(6)`
			`model = ConvNeXtVAE(C_in=8, T_in=32, z_dim=16, base_ch=16, n_blocks=2, seed=6)`
			`x = rng2.randn(8, 8, 32)`
			`eps_noise = rng2.randn(8, 16)`

			`# manual forward with stored eps`
			`z_mu, z_logvar = model.encode(x)`
			`z = z_mu + eps_noise * np.exp(0.5 * z_logvar)`
			`x_recon = model.decode(z)`

			`loss, info = btcvae_loss(x, x_recon, z_mu, z_logvar, z, beta_tc=2.0)`
			`check('loss_finite', np.isfinite(loss), f'loss={loss:.4f}')`
			`for k, v in info.items():`
			`check(f'{k}_finite', np.isfinite(v), f'{k}={v:.4f}')`

			`d_recon, d_z_mu, d_z_logvar = btcvae_loss_backward(`
			`x, x_recon, z_mu, z_logvar, z, eps_noise, beta_tc=2.0`
			`)`

			`model.zero_grad()`
			`dz = model.backward_decode(d_recon)`
			`model.backward_encode(d_z_mu + dz, d_z_logvar)`

			`all_grads = [p.grad for p in model.all_params()]`
			`any_nan = any(np.any(np.isnan(g)) for g in all_grads)`
			`any_inf = any(np.any(np.isinf(g)) for g in all_grads)`
			`all_zero = all(np.all(g == 0) for g in all_grads)`
			`check('grads_no_nan', not any_nan)`
			`check('grads_no_inf', not any_inf)`
			`check('grads_not_all_zero', not all_zero)`


			`def test_t8_loss_decreases():`
			`print('\nT8: Loss decreases over 20 gradient steps')`
			`rng2 = np.random.RandomState(7)`
			`model = ConvNeXtVAE(C_in=8, T_in=32, z_dim=16, base_ch=16, n_blocks=2, seed=7)`
			`x = rng2.randn(16, 8, 32).astype(np.float64)`

			`losses = []`
			`lr = 1e-3`
			`for step in range(20):`
			`rng2_eps = np.random.RandomState(step)`
			`eps_noise = rng2_eps.randn(16, 16)`
			`z_mu, z_logvar = model.encode(x)`
			`z = z_mu + eps_noise * np.exp(0.5 * z_logvar)`
			`x_recon = model.decode(z)`
			`loss, _ = btcvae_loss(x, x_recon, z_mu, z_logvar, z, beta_tc=1.0, alpha_mi=1.0)`
			`losses.append(loss)`

			`d_recon, d_z_mu, d_z_logvar = btcvae_loss_backward(`
			`x, x_recon, z_mu, z_logvar, z, eps_noise, beta_tc=1.0, alpha_mi=1.0`
			`)`
			`model.zero_grad()`
			`dz = model.backward_decode(d_recon)`
			`model.backward_encode(d_z_mu + dz, d_z_logvar)`
			`model.adam_step(lr)`

			`first5 = np.mean(losses[:5])`
			`last5 = np.mean(losses[-5:])`
			`print(f' loss[0:5]={first5:.4f} loss[15:20]={last5:.4f}')`
			`check('loss_decreasing', last5 < first5, f'{last5:.4f} vs {first5:.4f}')`


			`def test_t9_save_load():`
			`print('\nT9: Save/load round-trip')`
			`rng2 = np.random.RandomState(8)`
			`model = ConvNeXtVAE(C_in=8, T_in=32, z_dim=16, base_ch=16, n_blocks=2, seed=8)`
			`x = rng2.randn(4, 8, 32)`

			`# deterministic forward: encode then decode with fixed z_mu (no sampling)`
			`z_mu1, _ = model.encode(x)`
			`x_recon1 = model.decode(z_mu1)`

			`nm = rng2.randn(8).astype(np.float64)`
			`ns = np.abs(rng2.randn(8)).astype(np.float64) + 0.1`

			`with tempfile.NamedTemporaryFile(suffix='.json', delete=False) as f:`
			`path = f.name`

			`try:`
			`model.save(path, norm_mean=nm, norm_std=ns)`
			`model2 = ConvNeXtVAE(C_in=8, T_in=32, z_dim=16, base_ch=16, n_blocks=2, seed=0)`
			`extras = model2.load(path)`

			`check('norm_mean_saved', 'norm_mean' in extras)`
			`check('norm_std_saved', 'norm_std' in extras)`

			`z_mu2, _ = model2.encode(x)`
			`x_recon2 = model2.decode(z_mu2)`
			`check('recon_reproduced', np.allclose(x_recon1, x_recon2, atol=1e-10))`
			`check('z_mu_reproduced', np.allclose(z_mu1, z_mu2, atol=1e-10))`
			`finally:`
			`os.unlink(path)`


			`def test_t10_btcvae_grad():`
			`print('\nT10: beta-TCVAE backward numerical gradient check (z_mu, z_logvar)')`
			`rng2 = np.random.RandomState(9)`
			`B, D = 8, 6`
			`C, T = 4, 8`
			`x = rng2.randn(B, C, T).astype(np.float64)`
			`z_mu = rng2.randn(B, D).astype(np.float64) * 0.5`
			`z_lv = rng2.randn(B, D).astype(np.float64) * 0.3 - 1.0 # negative → small var`
			`eps = rng2.randn(B, D).astype(np.float64)`
			`z = z_mu + eps * np.exp(0.5 * z_lv)`

			`# Use a fixed simple decoder output to avoid recomputing model`
			`x_recon = rng2.randn(B, C, T).astype(np.float64) * 0.5`

			`def loss_fn_mu(mu_flat):`
			`mu = mu_flat.reshape(B, D)`
			`z_ = mu + eps * np.exp(0.5 * z_lv)`
			`l, _ = btcvae_loss(x, x_recon, mu, z_lv, z_, beta_tc=2.0, alpha_mi=1.0)`
			`return l`

			`def loss_fn_lv(lv_flat):`
			`lv = lv_flat.reshape(B, D)`
			`z_ = z_mu + eps * np.exp(0.5 * lv)`
			`l, _ = btcvae_loss(x, x_recon, z_mu, lv, z_, beta_tc=2.0, alpha_mi=1.0)`
			`return l`

			`_, d_z_mu, d_z_lv = btcvae_loss_backward(`
			`x, x_recon, z_mu, z_lv, z, eps, beta_tc=2.0, alpha_mi=1.0`
			`)`

			`ng_mu = num_grad(loss_fn_mu, z_mu.ravel().copy()).reshape(B, D)`
			`ng_lv = num_grad(loss_fn_lv, z_lv.ravel().copy()).reshape(B, D)`

			`rel_mu = np.abs(d_z_mu - ng_mu) / (np.abs(ng_mu) + 1e-6)`
			`rel_lv = np.abs(d_z_lv - ng_lv) / (np.abs(ng_lv) + 1e-6)`

			`print(f' d_z_mu max_rel={rel_mu.max():.4f} mean_rel={rel_mu.mean():.4f}')`
			`print(f' d_z_lv max_rel={rel_lv.max():.4f} mean_rel={rel_lv.mean():.4f}')`
			`check('d_z_mu_rel_err', rel_mu.max() < 0.05, f'{rel_mu.max():.4f}')`
			`check('d_z_lv_rel_err', rel_lv.max() < 0.05, f'{rel_lv.max():.4f}')`


			`# ---------------------------------------------------------------------------`

			`if __name__ == '__main__':`
			`print('=' * 60)`
			`print('ConvNeXt-1D beta-TCVAE unit tests')`
			`print('=' * 60)`

			`test_t1_dwconv_shape()`
			`test_t2_dwconv_grad()`
			`test_t3_layernorm_grad()`
			`test_t4_block_shape()`
			`test_t5_block_grad()`
			`test_t6_vae_shapes()`
			`test_t7_vae_backward()`
			`test_t8_loss_decreases()`
			`test_t9_save_load()`
			`test_t10_btcvae_grad()`

			`print()`
			`print('=' * 60)`
			`print(f'Results: {len(PASS)} PASS / {len(FAIL)} FAIL')`
			`if FAIL:`
			`print('FAILED:', FAIL)`
			`sys.exit(1)`
			`else:`
			`print('All tests passed.')`