intermediate push

Ian · Ian · commit 87da61601e12 · 2025-04-09T16:25:35.000+02:00
diff --git a/src/lib.rs b/src/lib.rs
@@ -2,6 +2,7 @@ pub mod legacy;
 pub mod error;
 mod new;
 mod masked;
+pub(crate) mod utils;
 
 pub use new::*;
 pub use masked::*;
@@ -155,7 +156,7 @@ mod simple_comparison_tests {
     fn test_real_sparse_matrix() {
         // Create a matrix with similar sparsity to your real one (99.02%)
         let test_matrix = create_sparse_matrix(100, 100, 0.0098); // 0.98% non-zeros
-
+        
         // Should no longer fail with convergence error
         let result = svd_dim_seed(&test_matrix, 50, 42); // Using your modified imtqlb
         assert!(result.is_ok(), "{}", format!("SVD failed on 99.02% sparse matrix, {:?}", result.err().unwrap()));
diff --git a/src/masked.rs b/src/masked.rs
@@ -1,6 +1,9 @@
+use crate::utils::determine_chunk_size;
 use crate::{SMat, SvdFloat};
 use nalgebra_sparse::CsrMatrix;
 use num_traits::Float;
+use rayon::iter::ParallelIterator;
+use rayon::prelude::{IntoParallelIterator, ParallelBridge};
 use std::ops::AddAssign;
 
 pub struct MaskedCSRMatrix<'a, T: Float> {
@@ -47,20 +50,18 @@ impl<'a, T: Float> MaskedCSRMatrix<'a, T> {
         Self::new(matrix, mask)
     }
 
-    // Add this method to help with small matrix comparison tests
     pub fn uses_all_columns(&self) -> bool {
         self.masked_to_original.len() == self.matrix.ncols() && self.column_mask.iter().all(|&x| x)
     }
 
-    // Add this method for special case handling
     pub fn ensure_identical_results_mode(&self) -> bool {
         // For very small matrices where precision is critical
         let is_small_matrix = self.matrix.nrows() <= 5 && self.matrix.ncols() <= 5;
         is_small_matrix && self.uses_all_columns()
     }
 }
 
-impl<'a, T: Float + AddAssign> SMat<T> for MaskedCSRMatrix<'a, T> {
+impl<'a, T: Float + AddAssign + Sync + Send> SMat<T> for MaskedCSRMatrix<'a, T> {
     fn nrows(&self) -> usize {
         self.matrix.nrows()
     }
@@ -75,7 +76,7 @@ impl<'a, T: Float + AddAssign> SMat<T> for MaskedCSRMatrix<'a, T> {
 
         for i in 0..self.matrix.nrows() {
             for j in major_offsets[i]..major_offsets[i + 1] {
-                let col = minor_indices[j]; // Fixed: Use j instead of i
+                let col = minor_indices[j]; 
                 if self.column_mask[col] {
                     count += 1;
                 }
@@ -85,6 +86,7 @@ impl<'a, T: Float + AddAssign> SMat<T> for MaskedCSRMatrix<'a, T> {
     }
 
     fn svd_opa(&self, x: &[T], y: &mut [T], transposed: bool) {
+        // TODO  parallelize me please
         let nrows = if transposed {
             self.ncols()
         } else {
@@ -132,15 +134,26 @@ impl<'a, T: Float + AddAssign> SMat<T> for MaskedCSRMatrix<'a, T> {
                     y[i] = sum;
                 }
             } else {
-                // Standard implementation for normal cases
-                for i in 0..self.matrix.nrows() {
-                    for j in major_offsets[i]..major_offsets[i + 1] {
-                        let col = minor_indices[j];
-                        if let Some(masked_col) = self.original_to_masked[col] {
-                            y[i] += values[j] * x[masked_col];
+                let chunk_size = determine_chunk_size(self.matrix.nrows());
+                y.chunks_mut(chunk_size).enumerate().par_bridge().for_each(
+                    |(chunk_idx, y_chunk)| {
+                        let start_row = chunk_idx * chunk_size;
+                        let end_row = (start_row + y_chunk.len()).min(self.matrix.nrows());
+
+                        for i in start_row..end_row {
+                            let row_idx = i - start_row;
+                            let mut sum = T::zero();
+
+                            for j in major_offsets[i]..major_offsets[i + 1] {
+                                let col = minor_indices[j];
+                                if let Some(masked_col) = self.original_to_masked[col] {
+                                    sum += values[j] * x[masked_col];
+                                };
+                            }
+                            y_chunk[row_idx] = sum;
                         }
-                    }
-                }
+                    },
+                );
             }
         } else {
             // For the transposed case (A^T * x)
@@ -160,13 +173,35 @@ impl<'a, T: Float + AddAssign> SMat<T> for MaskedCSRMatrix<'a, T> {
                     }
                 }
             } else {
-                // Existing implementation for transposed case
-                for i in 0..self.matrix.nrows() {
-                    let row_val = x[i];
-                    for j in major_offsets[i]..major_offsets[i + 1] {
-                        let col = minor_indices[j];
-                        if let Some(masked_col) = self.original_to_masked[col] {
-                            y[masked_col] += values[j] * row_val;
+                let nrows = self.matrix.nrows();
+                let chunk_size = determine_chunk_size(nrows);
+                let num_chunks = (nrows + chunk_size - 1) / chunk_size;
+                let results: Vec<Vec<T>> = (0..chunk_size)
+                    .into_par_iter()
+                    .map(|chunk_idx| {
+                        let start = chunk_idx * chunk_size;
+                        let end = (start + chunk_size).min(nrows);
+
+                        let mut local_y = vec![T::zero(); y.len()];
+                        for i in start..end {
+                            let row_val = x[i];
+                            for j in major_offsets[i]..major_offsets[i + 1] {
+                                let col = minor_indices[j];
+                                if let Some(masked_col) = self.original_to_masked[col] {
+                                    local_y[masked_col] += values[j] * row_val;
+                                }
+                            }
+                        }
+                        local_y
+                    })
+                    .collect();
+
+                y.fill(T::zero());
+
+                for local_y in results {
+                    for (idx, val) in local_y.iter().enumerate() {
+                        if !val.is_zero() {
+                            y[idx] += *val;
                         }
                     }
                 }
diff --git a/src/new.rs b/src/new.rs
@@ -6,13 +6,13 @@ use rand::rngs::StdRng;
 use rand::{thread_rng, Rng, SeedableRng};
 use rayon::iter::IndexedParallelIterator;
 use rayon::iter::ParallelIterator;
-use rayon::prelude::{IntoParallelRefIterator, IntoParallelRefMutIterator};
+use rayon::prelude::{IntoParallelIterator, IntoParallelRefIterator, IntoParallelRefMutIterator};
 use std::fmt::Debug;
 use std::iter::Sum;
 use std::mem;
 use std::ops::{AddAssign, MulAssign, Neg, SubAssign};
 
-pub trait SMat<T: Float> {
+pub trait SMat<T: Float>: Sync {
     fn nrows(&self) -> usize;
     fn ncols(&self) -> usize;
     fn nnz(&self) -> usize;
@@ -420,9 +420,9 @@ fn svd_daxpy<T: Float + AddAssign + Send + Sync>(da: T, x: &[T], y: &mut [T]) {
             *yval += da * *xval
         }
     } else {
-        y.par_iter_mut().zip(x.par_iter()).for_each(|(yval, xval)| {
-            *yval += da * *xval
-        });
+        y.par_iter_mut()
+            .zip(x.par_iter())
+            .for_each(|(yval, xval)| *yval += da * *xval);
     }
 }
 
@@ -1222,46 +1222,45 @@ fn ritvec<T: SvdFloat>(
         kappa
     };
 
-    let mut nsig = 0;
-    let mut x = 0;
-    let mut id2 = jsq - js;
+    let mut x = dimensions - 1;
 
-    let mut significant_count = 0;
-    for k in 0..js {
-        // Adaptive error bound check using relative tolerance
-        let relative_bound = adaptive_kappa * wrk.ritz[k].abs().max(max_eigenvalue * adaptive_eps);
-        if wrk.bnd[k] <= relative_bound && k + 1 > js - neig {
-            significant_count += 1;
-        }
-    }
+    let store_vectors: Vec<Vec<T>> = (0..js).map(|i| store.retrq(i).to_vec()).collect();
 
-    id2 = jsq - js;
-    for k in 0..js {
-        // Adaptive error bound check
-        let relative_bound = adaptive_kappa * wrk.ritz[k].abs().max(max_eigenvalue * adaptive_eps);
-        if wrk.bnd[k] <= relative_bound && k + 1 > js - neig {
-            x = match x {
-                0 => dimensions - 1,
-                _ => x - 1,
-            };
+    let significant_indices: Vec<usize> = (0..js)
+        .into_par_iter()
+        .filter(|&k| {
+            // Adaptive error bound check using relative tolerance
+            let relative_bound =
+                adaptive_kappa * wrk.ritz[k].abs().max(max_eigenvalue * adaptive_eps);
+            wrk.bnd[k] <= relative_bound && k + 1 > js - neig
+        })
+        .collect();
+
+    let nsig = significant_indices.len();
 
-            let offset = x * Vt.cols;
-            Vt.value[offset..offset + Vt.cols].fill(T::zero());
-            let mut idx = id2 + js;
+    let mut vt_vectors: Vec<(usize, Vec<T>)> = significant_indices
+        .into_par_iter()
+        .map(|k| {
+            let mut vec = vec![T::zero(); wrk.ncols];
+            let mut idx = (jsq - js) + k + 1;
 
             for i in 0..js {
                 idx -= js;
                 // Non-zero check with adaptive threshold
                 if s[idx].abs() > adaptive_eps {
-                    for (j, item) in store.retrq(i).iter().enumerate().take(Vt.cols) {
-                        Vt.value[j + offset] += s[idx] * *item;
+                    for (j, item) in store_vectors[i].iter().enumerate().take(wrk.ncols) {
+                        vec[j] += s[idx] * *item;
                     }
                 }
             }
-            nsig += 1;
-        }
-        id2 += 1;
-    }
+
+            // Return with position index (for proper ordering)
+            (k, vec)
+        })
+        .collect();
+
+    // Sort by k value to maintain original order
+    vt_vectors.sort_by_key(|(k, _)| *k);
 
     // Rotate the singular vectors and values.
     // `x` is now the location of the highest singular value.
@@ -1276,72 +1275,98 @@ fn ritvec<T: SvdFloat>(
         cols: wrk.nrows,
         value: vec![T::zero(); wrk.nrows * d],
     };
-    Vt.value.resize(Vt.cols * d, T::zero());
+    let mut Vt = DMat {
+        cols: wrk.ncols,
+        value: vec![T::zero(); wrk.ncols * d],
+    };
 
-    let mut tmp_vec = vec![T::zero(); Vt.cols];
-    for (i, sval) in S.iter_mut().enumerate() {
+    for (i, (_, vec)) in vt_vectors.into_iter().take(d).enumerate() {
         let vt_offset = i * Vt.cols;
-        let ut_offset = i * Ut.cols;
+        Vt.value[vt_offset..vt_offset + Vt.cols].copy_from_slice(&vec);
+    }
 
+    let d = dimensions.min(nsig);
+    let mut S = vec![T::zero(); d];
+    let mut Ut = DMat {
+        cols: wrk.nrows,
+        value: vec![T::zero(); wrk.nrows * d],
+    };
+    let mut Vt = DMat {
+        cols: wrk.ncols,
+        value: vec![T::zero(); wrk.ncols * d],
+    };
+
+    // Fill Vt with the vectors we computed
+    for (i, (_, vec)) in vt_vectors.into_iter().take(d).enumerate() {
+        let vt_offset = i * Vt.cols;
+        Vt.value[vt_offset..vt_offset + Vt.cols].copy_from_slice(&vec);
+    }
+
+    // Prepare for parallel computation of S and Ut
+    let mut ab_products = Vec::with_capacity(d);
+    let mut a_products = Vec::with_capacity(d);
+
+    // First compute all matrix-vector products sequentially
+    for i in 0..d {
+        let vt_offset = i * Vt.cols;
         let vt_vec = &Vt.value[vt_offset..vt_offset + Vt.cols];
-        let ut_vec = &mut Ut.value[ut_offset..ut_offset + Ut.cols];
 
-        // Multiply by matrix B first
+        let mut tmp_vec = vec![T::zero(); Vt.cols];
+        let mut ut_vec = vec![T::zero(); wrk.nrows];
+
+        // Matrix-vector products with A and A'A
         svd_opb(A, vt_vec, &mut tmp_vec, &mut wrk.temp, wrk.transposed);
-        let t = svd_ddot(vt_vec, &tmp_vec);
-
-        // Store the Singular Value at S[i], with safety check for negative values
-        // that can happen due to numerical precision
-        *sval = t.max(T::zero()).sqrt();
-
-        // Safety check for zero-division
-        if t > adaptive_eps {
-            svd_daxpy(-t, vt_vec, &mut tmp_vec);
-            // Protect against division by extremely small values
-            if *sval > adaptive_eps {
-                wrk.bnd[js] = svd_norm(&tmp_vec) / *sval;
-            } else {
-                wrk.bnd[js] = T::from_f64(f64::MAX).unwrap() * T::from_f64(0.1).unwrap();
-            }
+        A.svd_opa(vt_vec, &mut ut_vec, wrk.transposed);
 
-            // Multiply by matrix A to get (scaled) left s-vector
-            A.svd_opa(vt_vec, ut_vec, wrk.transposed);
+        ab_products.push(tmp_vec);
+        a_products.push(ut_vec);
+    }
 
-            // Safe scaling - avoid division by very small numbers
-            if *sval > adaptive_eps {
-                svd_dscal(T::one() / *sval, ut_vec);
-            } else {
-                // For extremely small singular values, use a bounded scaling factor
-                let dls = sval.max(adaptive_eps);
-                let safe_scale = T::one() / dls;
-                svd_dscal(safe_scale, ut_vec);
-            }
+    let results: Vec<(usize, T)> = (0..d)
+        .into_par_iter()
+        .map(|i| {
+            let vt_offset = i * Vt.cols;
+            let vt_vec = &Vt.value[vt_offset..vt_offset + Vt.cols];
+            let tmp_vec = &ab_products[i];
+
+            // Compute singular value
+            let t = svd_ddot(vt_vec, tmp_vec);
+            let sval = t.max(T::zero()).sqrt();
+
+            (i, sval)
+        })
+        .collect();
+
+    // Process results and scale the vectors
+    for (i, sval) in results {
+        S[i] = sval;
+        let ut_offset = i * Ut.cols;
+        let mut ut_vec = a_products[i].clone();
+
+        // Safe scaling - avoid division by very small numbers
+        if sval > adaptive_eps {
+            svd_dscal(T::one() / sval, &mut ut_vec);
         } else {
-            // For effectively zero singular values, just use the right vector
-            // but scale it reasonably
-            A.svd_opa(vt_vec, ut_vec, wrk.transposed);
-            let norm = svd_norm(ut_vec);
-            if norm > adaptive_eps {
-                svd_dscal(T::one() / norm, ut_vec);
-            }
-            wrk.bnd[js] = T::from_f64(f64::MAX).unwrap() * T::from_f64(0.01).unwrap();
+            // For extremely small singular values, use a bounded scaling factor
+            let dls = sval.max(adaptive_eps);
+            let safe_scale = T::one() / dls;
+            svd_dscal(safe_scale, &mut ut_vec);
         }
+
+        // Copy to output
+        Ut.value[ut_offset..ut_offset + Ut.cols].copy_from_slice(&ut_vec);
     }
 
     Ok(SVDRawRec {
         // Dimensionality (rank)
         d,
-
         // Significant values
         nsig,
-
         // DMat Ut  Transpose of left singular vectors. (d by m)
         //          The vectors are the rows of Ut.
         Ut,
-
         // Array of singular values. (length d)
         S,
-
         // DMat Vt  Transpose of right singular vectors. (d by n)
         //          The vectors are the rows of Vt.
         Vt,
diff --git a/src/utils.rs b/src/utils.rs