leoglonz
diff --git a/‎config/training_config.yaml‎
Lines changed: 8 additions & 4 deletions b/‎config/training_config.yaml‎
Lines changed: 8 additions & 4 deletions
diff --git a/‎engine/weighted_transfer.py‎
Lines changed: 89 additions & 0 deletions b/‎engine/weighted_transfer.py‎
Lines changed: 89 additions & 0 deletions
diff --git a/‎pyproject.toml‎
Lines changed: 3 additions & 4 deletions b/‎pyproject.toml‎
Lines changed: 3 additions & 4 deletions
diff --git a/‎scripts/train.py‎
Lines changed: 77 additions & 10 deletions b/‎scripts/train.py‎
Lines changed: 77 additions & 10 deletions
diff --git a/‎src/ddr/__init__.py‎
Lines changed: 2 additions & 1 deletion b/‎src/ddr/__init__.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎src/ddr/analysis/__init__.py‎ b/‎src/ddr/analysis/__init__.py‎
@@ -10,7 +10,7 @@ data_sources:
   conus_hydrofabric: /projects/mhpi/data/hydrofabric/v2.2/conus_nextgen.gpkg
   local_hydrofabric: /projects/mhpi/data/hydrofabric/v2.2/jrb_2.gpkg
   network: /projects/mhpi/tbindas/ddr/data/network.zarr
-  transition_matrix: /projects/mhpi/data/hydrofabric/v2.2/jrb_transition_matrix.csv
+  transition_matrix: /projects/mhpi/data/hydrofabric/v2.2/conus_transition_matrices.zarr
   statistics: /projects/mhpi/tbindas/ddr/data/statistics
   streamflow:  /projects/mhpi/data/MERIT/streamflow/zarr/${forcings}
   observations: /projects/mhpi/data/observations/gages_9000.zarr
@@ -21,10 +21,10 @@ train:
   start_time: 1981/10/01
   end_time: 1995/09/30
   checkpoint: null
-  spatial_checkpoint: null
+  spatial_checkpoint: /projects/mhpi/tbindas/ddr/runs/0.1.0-ddr_jrb-merit_conus_v6.18_snow/2025-02-19_09-26-46/saved_models/_0.1.0-ddr_jrb-merit_conus_v6.18_snow_epoch_2_mb_0.pt
   leakance_checkpoint: null
   dropout_threshold: null
-  epochs: 3
+  epochs: 100
   learning_rate:
     '0': 0.005
     '3': 0.001
@@ -37,6 +37,8 @@ train:
   - 1.0
   rho: 365
   shuffle: true
+  warmup: 3
+
 params:
   attributes:
   - mean.impervious
@@ -60,10 +62,12 @@ params:
       - 3.0
   defaults:
     p: 21
+  tau: 3
+  save_path: ./
 
 np_seed: 1
 seed: 0
-device: cpu  # mps:0
+device: 0  # mps:0
 
 kan:
   hidden_size: 11
 
@@ -0,0 +1,89 @@
+#!/usr/bin/env python
+
+"""
+@author Tadd Bindas
+
+@date Febuary 17, 2025
+@version 0.2
+
+A script to find the weighted-intersection of merit basins to CONUS catchments
+"""
+
+from pathlib import Path
+
+import geopandas as gpd
+import numpy as np
+import pandas as pd
+from scipy import sparse
+import zarr
+
+zone = "73"
+path_1 = f"/projects/mhpi/data/MERIT/raw/basins/cat_pfaf_{zone}_MERIT_Hydro_v07_Basins_v01_bugfix1.shp"
+# path_2 = "/projects/mhpi/data/hydrofabric/v2.2/jrb_2.gpkg"
+path_2 = "/projects/mhpi/data/hydrofabric/v2.2/conus_nextgen.gpkg"
+out_path = Path(f"/projects/mhpi/data/hydrofabric/v2.2/conus_transition_matrices.zarr")
+
+print("Reading shp files")
+gdf1 = gpd.read_file(path_1).set_crs(epsg=4326).to_crs(epsg=5070)
+gdf2 = gpd.read_file(path_2, layer="divides").to_crs(epsg=5070)
+
+gdf1['gdf1_orig_area'] = gdf1.geometry.area
+gdf2['gdf2_orig_area'] = gdf2.geometry.area
+
+print("Running gdf intersection")
+intersection = gpd.overlay(gdf1, gdf2, how='intersection')
+intersection['intersection_area'] = intersection.geometry.area
+intersection['gdf1_pct'] = (intersection['intersection_area'] / intersection['gdf1_orig_area'])
+
+print("Running generating weighted transfer matrix")
+weight_matrix = pd.pivot_table(intersection, 
+                             values='gdf1_pct',
+                             index='COMID',  # replace with your actual column name from gdf2
+                             columns='divide_id',  # replace with your actual column name from gdf1
+                             fill_value=0)
+
+print("Saving to sparse zarr store")
+store = zarr.storage.LocalStore(root=out_path)
+if out_path.exists():
+    root = zarr.open_group(store=store) 
+else:
+    root = zarr.create_group(store=store)  
+    
+coo = sparse.coo_matrix(weight_matrix.to_numpy())
+
+comid_order = np.array([int(float(_id.split("-")[1])) for _id in weight_matrix.columns.to_numpy()], dtype=np.int32)
+merit_basin_order = weight_matrix.index.to_numpy().astype(np.int32)
+
+gauge_root = root.create_group(name=zone)
+indices_0 = gauge_root.create_array(
+    name='indices_0', shape=coo.row.shape, dtype=coo.row.dtype
+)
+indices_1 = gauge_root.create_array(
+    name='indices_1', shape=coo.col.shape, dtype=coo.row.dtype
+)
+values = gauge_root.create_array(
+    name='values', shape=coo.data.shape, dtype=coo.data.dtype
+)
+comid_zarr_order = gauge_root.create_array(
+    name='comid_order', shape=comid_order.shape, dtype=comid_order.dtype
+)
+merit_basins_zarr_order = gauge_root.create_array(
+    name='merit_basins_order', shape=merit_basin_order.shape, dtype=merit_basin_order.dtype
+)
+indices_0[:] = coo.row
+indices_1[:] = coo.col
+values[:] = coo.data
+comid_zarr_order[:] = comid_order
+merit_basins_zarr_order[:] = merit_basin_order
+
+gauge_root.attrs["format"] = "COO"
+gauge_root.attrs["shape"] = list(coo.shape)
+gauge_root.attrs["data_types"] = {
+    "indices_0": coo.row.dtype.__str__(),
+    "indices_1": coo.col.dtype.__str__(),
+    "values": coo.data.dtype.__str__(),
+}
+print(f"{out_path} written to zarr")
+
+# weight_matrix.to_csv("/projects/mhpi/data/hydrofabric/v2.2/73_conus_transition_matrix.csv")
+# print("Created transition matrix @ /projects/mhpi/data/hydrofabric/v2.2/73_conus_transition_matrix.csv")
@@ -24,7 +24,7 @@ maintainers = [
 ]
 
 dependencies = [
-    "numpy==2.2.2",
+    "numpy==2.2.3",
     "pandas==2.2.3",
     "geopandas==1.0.1",
     "pydantic==2.10.6",
@@ -34,12 +34,11 @@ dependencies = [
     "hydra-core==1.3.2",
     "tqdm==4.67.1",
     "polars==1.21.0",
-    "zarr==3.0.2",
+    "zarr==3.0.3",
     "sympy==1.13.1",
     "pykan==0.2.8",
     "scikit-learn==1.6.1",
     "matplotlib==3.10.0",
-    "binsparse @ git+https://github.com/ivirshup/binsparse-python.git@main",
 ]
 
 [project.optional-dependencies]
@@ -86,4 +85,4 @@ explicit = true
 [[tool.uv.index]]
 name = "pytorch-cu124"
 url = "https://download.pytorch.org/whl/cu124"
-explicit = true
+explicit = true
@@ -1,10 +1,12 @@
 import logging
 import random
 import time
+from pathlib import Path
 
 import hydra
 import numpy as np
 import torch
+from hydra.core.hydra_config import HydraConfig
 from omegaconf import DictConfig
 from torch.utils.data import DataLoader
 from torch.nn.functional import mse_loss
@@ -15,6 +17,9 @@
 from ddr.dataset.utils import downsample
 from ddr.dataset.streamflow import StreamflowReader as streamflow
 from ddr.dataset.train_dataset import train_dataset
+from ddr.analysis.metrics import Metrics
+from ddr.analysis.plots import plot_time_series
+from ddr.analysis.utils import save_state
 
 log = logging.getLogger(__name__)
 
@@ -39,22 +44,46 @@ def train(cfg, flow, routing_model, nn):
         drop_last=True,
     )
 
-    optimizer = torch.optim.Adam(params=nn.parameters(), lr=cfg.train.learning_rate[str(0)])
+    if cfg.train.spatial_checkpoint:
+        file_path = Path(cfg.train.spatial_checkpoint)
+        log.info(f"Loading spatial_nn from checkpoint: {file_path.stem}")
+        state = torch.load(file_path)
+        state_dict = state["model_state_dict"]
+        for key in state_dict.keys():
+            state_dict[key] = state_dict[key].to(cfg.device)
+        nn.load_state_dict(state["model_state_dict"])
+        torch.set_rng_state(state["rng_state"])
+        start_epoch = state["epoch"]
+        # start_mini_batch = 0 if state["mini_batch"] == 0 else state["mini_batch"] + 1  # Start from the next mini-batch
+        if torch.cuda.is_available() and "cuda_rng_state" in state:
+            torch.cuda.set_rng_state(state["cuda_rng_state"])
+        if start_epoch in cfg.train.learning_rate.keys():
+            lr = cfg.train.learning_rate[start_epoch]
+        else:
+            key_list = list(cfg.train.learning_rate.keys())
+            lr = cfg.train.learning_rate[key_list[-1]]
+    else:
+        log.info("Creating new spatial model")
+        start_epoch = 1
+        # start_mini_batch = 0
+        lr = cfg.train.learning_rate[str(0)]
 
-    for epoch in range(0, cfg.train.epochs + 1):
+    optimizer = torch.optim.Adam(params=nn.parameters(), lr=lr)
+    
+    for epoch in range(start_epoch, cfg.train.epochs + 1):
         routing_model.epoch = epoch
         for i, hydrofabric in enumerate(dataloader, start=0):
             routing_model.mini_batch = i
 
             streamflow_predictions = flow(cfg=cfg, hydrofabric=hydrofabric)
-            q_prime = streamflow_predictions["streamflow"] @ torch.tensor(hydrofabric.transition_matrix.to_numpy(), dtype=torch.float32, device=cfg.device)
+            q_prime = streamflow_predictions["streamflow"] @ hydrofabric.transition_matrix
             spatial_params = nn(
                 inputs=hydrofabric.normalized_spatial_attributes.to(cfg.device)
             )
             dmc_kwargs = {
                 "hydrofabric": hydrofabric,
                 "spatial_parameters": spatial_params,
-                "streamflow": q_prime,
+                "streamflow": torch.tensor(q_prime, device=cfg.device, dtype=torch.float32)
             }
             dmc_output = routing_model(**dmc_kwargs)
 
@@ -68,24 +97,58 @@ def train(cfg, flow, routing_model, nn):
             np_nan_mask = nan_mask.streamflow.values
 
             filtered_ds = hydrofabric.observations.where(~nan_mask, drop=True)
-            filtered_observations = torch.tensor(filtered_ds.streamflow.values, device=cfg.device)[
+            filtered_observations = torch.tensor(filtered_ds.streamflow.values, device=cfg.device, dtype=torch.float32)[
                 :, 1:-1
             ]  # Cutting off days to match with realigned timesteps
 
             filtered_predictions = daily_runoff[~np_nan_mask]
 
             loss = mse_loss(
-                input=filtered_predictions.transpose(0, 1)[cfg.warmup:].unsqueeze(2),
-                target=filtered_observations.transpose(0, 1)[cfg.warmup:].unsqueeze(2),
+                input=filtered_predictions.transpose(0, 1)[cfg.train.warmup:].unsqueeze(2),
+                target=filtered_observations.transpose(0, 1)[cfg.train.warmup:].unsqueeze(2),
             )
 
-            log.info("Running gradient-averaged backpropagation")
+            log.info("Running backpropagation")
 
             loss.backward()
             optimizer.step()
             optimizer.zero_grad()
 
-            print(f"Loss: {loss.item}")
+            np_pred = filtered_predictions.detach().cpu().numpy()
+            np_target = filtered_observations.detach().cpu().numpy()
+            plotted_dates = dataset.dates.batch_daily_time_range[
+                1:-1
+            ]
+            metrics = Metrics(pred=np_pred, target=np_target)
+            pred_nse = metrics.nse
+            pred_nse_filtered = pred_nse[~np.isinf(pred_nse) & ~np.isnan(pred_nse)]
+            median_nse = torch.tensor(pred_nse_filtered).median()
+            
+            # TODO: scale out when we have more gauges
+            # random_index = np.random.randint(low=0, high=filtered_observations.shape[0], size=(1,))[0]
+            random_gage = -1
+            plot_time_series(
+                filtered_predictions[-1].detach().cpu().numpy(),
+                filtered_observations[-1].cpu().numpy(),
+                plotted_dates,
+                dataset.obs_reader.gage_dict["STAID"][random_gage],
+                dataset.obs_reader.gage_dict["STANAME"][random_gage],
+                metrics={"nse": pred_nse[-1]},
+                path=cfg.params.save_path / f"plots/epoch_{epoch}_mb_{i}_validation_plot.png",
+                warmup=cfg.train.warmup,
+            )
+            
+            save_state(
+                epoch=epoch,
+                mini_batch=i,
+                mlp=nn,
+                optimizer=optimizer,
+                name=cfg.name,
+                saved_model_path=cfg.params.save_path / "saved_models",
+            )
+            
+            print(f"Loss: {loss.item()}")
+            print(f"Median NSE: {median_nse}")
 
         if epoch in cfg.train.learning_rate.keys():
             log.info(f"Updating learning rate: {cfg.train.learning_rate[epoch]}")
@@ -101,6 +164,9 @@ def train(cfg, flow, routing_model, nn):
 )
 def main(cfg: DictConfig) -> None:
     _set_seed(cfg=cfg)
+    cfg.params.save_path = Path(HydraConfig.get().run.dir)
+    (cfg.params.save_path / "plots").mkdir(exist_ok=True)
+    (cfg.params.save_path / "saved_models").mkdir(exist_ok=True)
     try:
         start_time = time.perf_counter()
         nn = kan(
@@ -111,7 +177,8 @@ def main(cfg: DictConfig) -> None:
             num_hidden_layers=cfg.kan.num_hidden_layers,
             grid=cfg.kan.grid,
             k=cfg.kan.k,
-            seed=cfg.seed
+            seed=cfg.seed, 
+            device=cfg.device
         )
         routing_model = dmc(
             cfg=cfg,
 
@@ -1,5 +1,6 @@
 from ddr.nn.kan import kan
 from ddr.routing.dmc import dmc
 from ddr.dataset.streamflow import StreamflowReader
+from ddr.analysis.metrics import Metrics
 
-__all__ = ["dmc", "kan", "StreamflowReader"]
+__all__ = ["dmc", "kan", "StreamflowReader", "Metrics"]