大家好,小弟科研受阻,想要加速一个算法,这个算法的目的是这样的。
我有两个字典x和y,字典的元素是集合,集合的单位是字符串,比如我的字典 x['hello'] = {'s1', 's2',...}
定义集合的相似度jaccard distance, d = len((set1&set2))/len(set1|set2)
我想在想用这个distance d,找到对于字典x中每个key,y里面具有集合相似度最大的key。我能不用遍历完成这个任务吗
我的想法是我可以构造一个大型矩阵,之后算pair distance,但是不知道有没有包能用来算集合相似度啊。。。。。。
我现在也用multiprocessor了,还不知道效果如何。
谢谢大家!