我和同事B、同事C、领导D一起做项目,拉通对齐。
之前对工作的说法在这一篇,说过的就不再提及了:
https://leetcode.cn/circle/discuss/CmNafh/
业务保密,所以用类似的业务替代:(大家可以假定实际养鱼人都是草鱼鲤鱼混养,一直为了如何区分草鱼鲤鱼区分而花费大量的精力)如果我们可以在一群草鱼和鲤鱼里面区分草鱼和鲤鱼就可以卖这个系统给养鱼人挣到钱
项目是这个样子的:项目启动(可行性论证) --> 取数据 --> 通过数据设计算法 --> 现网验证。
同事C的任务是: 找了峨眉山的草鱼:鲤鱼 = 10: 1,然后记录了这些鱼的重量、颜色、形状、大小、常出现的水深等十几个特征构建了一个表,
同事C给领导汇报:
然后领导一看有搞头、有很大的经济效益,让我们复现设计一个一样的系统。
第一版数据,同事提了数据版本1.0
我:你给了我数据,里面很多鱼的质量都是NULL和0、0xFFFFFF??这个数据有问题啊???
同事说了:这个是称鱼的人有问题,他忘了称了,你就填个默认值过去就行。至于那个0xFFFFFF啊,那个是称鱼的人站在称上面了,至于0啊,那就是有个鱼没过称。
我:(内心:还有称鱼的站上面这种玩法??)那帮我把数据补一下吧。
同事C:你补一下,反正也简单。
我说:可以。就过大的、0、空值就填默认值是吧??
同事C:对对对。
我粗粗一扫:里面只有10000只草鱼4只鲤鱼
然后我就去质问同事C:哥们,你是不是告诉我草鱼鲤鱼比例是10:1?
同事C说:是的啊。
我:那么为什么鲤鱼只有4条??
同事C:这个放鱼的有问题啊,我立马开会问责养鱼的那边!!然后就去取了数据2.0
我继续检查数据3.0,发现一个问题:里面有5000条草鱼的体重和其他5000条草鱼的体重是一样的,一排序就看见两个相同的数据了。
我说:哥们,有问题啊???你这边数据重复了???
同事C:我不知道啊,我保证我的数据是可信的真实的,你何来此说??
我当场拿来数据:这5000条草鱼每个都有一模一样的另外一个鱼
同事C:我凑??我继续开会问责养鱼的那边!!!
我:你能不能提供个靠谱的数据??就问你:你告诉我:你扔进去草鱼到底有多少条??
同事C:我不知道,我数据源是从从养鱼人那边提供的!!!人家说是全称过了,我就信了,这个养鱼的是真的不负责任!!
开会。我,同事B、同事C、领导D与会。
我提出了一个问题:他们提供了草鱼5000条,鲤鱼500条,重量、颜色、形状、大小、常出现的水深基本一样。
草鱼常出现的水域是深度5-10米,鲤鱼出现的水深是5-10.2米
草鱼的平均重量是10kg,鲤鱼的平均重量是10.5kg
草鱼的颜色是灰色占95%,鲤鱼的颜色是灰色占97%
草鱼的平均大小是200立方厘米, 鲤鱼的平均大小是210立方厘米
我说:这事不是扯淡嘛???我们就明着说:这就XX是一种鱼!!数据有问题啊!!!这区分个屁啊???
这时候领导D出现了,一锤定音:
结论是:加油,大家通过重量和体积来区分草鱼鲤鱼!!!我们要快速的实现功能,快速的到用户那边去验证!!
会议结束。
我被震惊:wc!!!!!这到用户那边去验证???这不是找不自在啊??
开完会,我堵得厉害,你们BD都是傻子啊???这明摆着是一种鱼!!
我就开完会和同事B去谈业务,同事说了:如果我不是开了会,就真的信了你说的数据一模一样的鬼话了,你看:数据有5%的差异!!!我们要通过重量和体积来区分草鱼鲤鱼,这个事情是我们讨论的结果,你为什么就不承认现实呢?既然有差异那么就可以区分!!
我:卧龙!!!!!于是就把同事B从正常人里面剔除了。
我想了想,就想告诉领导:我这边区分不了,这个东西明显是数据有误。草鱼鲤鱼不是一种鱼,平均重量差异只有5%???
好的,一个特征不行,然后不是提供了十几个特征嘛,然后我就对其他十几个特征进行了比较,发现除了一个特征达到了30%以外其他的特征最大5%,最小的差异只有0.3%。
我在下次会议的时候提出了:除了一个特征以外,其他的特征雷同,怀疑数据有误!!!
同事C和领导D给我讲:
然后我就继续去谈:我们不懂养鱼,那么就去找懂养鱼的问一下,这个草鱼和鲤鱼的重量是否雷同,如果人家说雷同是正常的那就推进,如果不是就问数据是否异常,这个逻辑没有问题,我们要做这一步。如果是数据有误,那么就提一版正常的数据出来;如果确认数据无误,重新做可行性论证。
然后,最后会议纪要:
我XXXXX,一群人脑子XXXX。拿到的数据就是鲤鱼草鱼一样重,一样沉、一样大小、一样集群,你让我区分到98???区分什么啊???
我就和别的项目组的大佬E去谈,大佬E的态度:你要拿出证据来证明你的论点,那些领导不懂业务。数据模糊不清领导看不懂,所以给了别人误解的区间。
我于是做了数据可视化,然后曲线严重重合无法区分,铁一样的证据。然后我就给领导D发了:数据有异常。
领导不高兴了:嗯。
我得出来的这个结论,就是难度很大、困难特别大,项目进展会很困难,领导是不爱听的。这个东西没用,有用的是怎么解决。
数据的问题需要同事C去解决(数据有问题是C的责任,区分不出来是我和B的责任),同事C不乐意了:之前除了峨眉山的鱼,武当山也有鱼池,我从武当那边也取20000条鱼,你的出来的结论就站不住了!!!于是从武当鱼池拿出数据想啪啪打我的脸。
我就通过武当山的鱼进行了分析,得出来的结果是:
武当山草鱼常出现的水域是深度20-100米,鲤鱼出现的水深是5-10.2米(峨眉山草鱼常出现的水域是深度5-10米,鲤鱼出现的水深是5-10.2米)
武当山草鱼的平均重量是7kg,鲤鱼的平均重量是10.5kg(峨眉山草鱼的平均重量是10kg,鲤鱼的平均重量是10.5kg)
好了,我的结论结论有了:数据源拿了一大堆鲤鱼来糊弄项目组。
我把这个数据得出来,然后同事C和领导D同时一唱一和:
wc????你们这么来颠倒黑白真的好吗???
大聪明同事B出现了,既然数据没有问题,那就是我算法有问题业务不精,同事B和同事C一唱一和:
我人都傻了:
为了我自己的绩效,我去私下找同事C,同事C的态度:和会议一致,你否认就是推卸责任
我就和他谈到用户测爆炸的结果,一根绳的蚂蚱。
同事C翻脸了:这么玩不合适,会议都拍板了。
同事C:假定如果草鱼鲤鱼真的那么重,各种特征都一样,区分不出来,那么你项目做还是不做?
我:那为什么要做?你到现网是要爆炸的,用户是不会满意的。或者你提供其他有效的特征?
同事C:没有了,我已经尽力了,我没法提供。我拿到的数据就是鲤鱼草鱼一样重,一样沉、一样大小、一样集群。你让我咋办??
我说:那我咋办?你给我鲤鱼草鱼一样重,一样沉、一样大小、一样集群的数据让我区分,我不得数据有误?你只是数据汇总,数据源我和你一起推进不行吗??
过了几天,同事B拿出了泰山的鱼的数据,我又对数据进行了分析
武当山和泰山草鱼常出现的水域是深度20-100米,鲤鱼出现的水深是5-10.2米(峨眉山草鱼常出现的水域是深度5-10米,鲤鱼出现的水深是5-10.2米)
武当山和泰山草鱼的平均重量是7kg,鲤鱼的平均重量是10.5kg(峨眉山草鱼的平均重量是10kg,鲤鱼的平均重量是10.5kg)
我拿出了结论:峨眉山的数据的确有误!!!你看,武当和泰山的结果是一致的,草鱼就是轻、就是喜欢在深水活动,只有峨眉鱼没有区分度。
领导用了一个字来描述我的结论:哦。
同事B这时候用了一个算法来汇报自己的结果:
我当场无语了:
领导反正对这个东西感兴趣了。
卧龙同事B出现了,他使用了完全没有区分度的数据学到了特征,进行了有效的区分!!!
由于我之前给他垫了背(我给领导说了有极大的困难,然后同事B就解决了)
同事C也开舔同事B了(因为我解决不了解决了)
领导的态度:棒棒棒!!!请你吃羊腿!!!同事B:羊腰子也给补上!!
???倒不是说我嫉贤妒能,不愿给同事B做垫脚石,主要同事B是怎么实现的?而且三天一成果五天一进展!!!这谁有这个能力的啊??同事这个能力就是把癌症当感冒治好了!!
看着同事B三天一成果五天一进展,我就去翻他的代码是咋写的,最后发现:
我:你给了我数据,里面很多鱼的质量都是NULL和0、0xFFFFFF??这个数据有问题啊???然后这些异常值就是鲤鱼居多。
也就是说:数据比我想的还要差,同事B拿出来结果就是因为同事C提供的数据异常。真的是完美的闭环。
我是真的无语了。我就开始问其他项目组同事:同事,这个事情我应该咋办?
同事:嘘,你想开群嘲啊???你同时告诉同事B、同事C、领导D都是傻子,他们都不行,就为了凸显你能力,这是官场大忌!!!
我觉得也是,于是提出了第二个问题:请问到了现网爆炸咋办?
其他项目组的同事:没有过失就可以啊。
我:我必然是有过失的啊,这种过失能过试用期嘛?
同事:这个就没办法了。
我想了想领导D,真的是谁汇报的好听就给谁大拇指,同事B也是投其所好,同事C推卸责任,真NB
去找大佬F,大佬F的态度是:
然后大佬的两个问题:
咋办呢,那就没有办法了。
是这样的