刷题求助|请教一个有关集合相似度比较的算法问题
732
2023.04.05
发布于 未知归属地

大家好,小弟科研受阻,想要加速一个算法,这个算法的目的是这样的。

我有两个字典x和y,字典的元素是集合,集合的单位是字符串,比如我的字典 x['hello'] = {'s1', 's2',...}

定义集合的相似度jaccard distance, d = len((set1&set2))/len(set1|set2)

我想在想用这个distance d,找到对于字典x中每个key,y里面具有集合相似度最大的key。我能不用遍历完成这个任务吗

我的想法是我可以构造一个大型矩阵,之后算pair distance,但是不知道有没有包能用来算集合相似度啊。。。。。。

我现在也用multiprocessor了,还不知道效果如何。

谢谢大家!

评论 (2)