3 years ago · 1b1c134cdf
--- a/src/spark/main.py
+++ b/src/spark/main.py
 
															
															     .groupBy('tx_id') \
														
 
															
															     .agg(F.collect_set('address').alias('addresses'))
														
 
															
															-tx_grouped.rdd.mapPartitions(cluster_id_addresses_rows)
														
 
															
															 # TODO: Load clusters from DB, check if any exist, if no make initial cluster, else proceed with loaded data
														
--- a/src/spark/main_partition.py
+++ b/src/spark/main_partition.py
 
															
															     if(len(addresses) == 0):
														
 
															
															         return clusters
														
 
															
															-    #take a set of addresses
														
 
															
															     tx = addresses[0]
														
 
															
															-    #remove it from list candidates
														
 
															
															-    addresses = addresses[1:]
														
 
															
															+    matching_clusters = []
														
 
															
															+    new_clusters = []
														
 
															
															-    #find clusters that match these addresses
														
 
															
															-    matching_clusters = filter(lambda cluster: check_lists_overlap(tx, cluster), clusters)
														
 
															
															-    
														
 
															
															-    #remove all clusters that match these addresses
														
 
															
															-    clusters = list(filter(lambda cluster: not check_lists_overlap(tx, cluster), clusters))
														
 
															
															+    for cluster in clusters:
														
 
															
															+        if(check_lists_overlap(tx, cluster)):
														
 
															
															+            matching_clusters.append(cluster)
														
 
															
															+        else:
														
 
															
															+            new_clusters.append(cluster)
														
 
															
															-    #add a new cluster that is the union of found clusters and the inspected list of addresses
														
 
															
															-    clusters.append(merge_lists_distinct(tx, *matching_clusters))
														
 
															
															+    new_clusters.append(merge_lists_distinct(tx, *matching_clusters))
														
 
															
															-    return cluster_step(clusters,addresses)
														
 
															
															+    return cluster_step(new_clusters,addresses[1:])
														
 
															
															 def cluster_partition(iter: "Iterable[Row]") -> Iterable:
														
 
															
															     yield cluster_step([], list(map(lambda row: row['addresses'], iter)))