楼主面试了一家公司,Java岗位,有个开放题想不到较为完善的方案,大家来讨论下思路或者解决办法。
题目:给你1000万个不重复商品数据,1000万个不重复违禁词,如何【快速】统计出每个商品的所有违禁词?
目标:精准匹配出每个商品的所有违禁词。
该怎么解决?有没有老哥有思路?
面试的过程突然被问到,仔细一想,竟然想不出比较好的解决方案。
我个人想到了:布隆过滤器加一层,过滤一部分,类似倒排索引的方式单独处理
各种业务上的规避,都被堵死了,也不允许有误差,更不允许加机器。
让我到现在都抓耳挠腮,百思不得其解,哈哈。