有文学某君,说我在技术博客写的那篇《洗衣机,数据挖掘的物理模型》居然也明白可读。真是莫大的鼓励,鉴于更多的朋友懒得点开的我的技术博客,索性全文转过。当然,引用自己写的东西而不注明出处,也算剽窃之一,第一行我给链接啦:
洗衣机,数据挖掘的物理模型
昨天整洗衣机。看着大大小小新新旧旧,机身多赫然印一大字:
FuzzyFuzzy Logic,模糊逻辑控制,大概说”只需按下启动键,从选择程序到漂洗、脱水,实现了全自动的控制。这种模糊逻辑控制的洗衣机可以自动检测洗衣内的衣物重量,从而自动选择水位和洗涤程序,这样不但大大简化了操作步骤,而且可以比较准确的配置水位和洗涤时间,节约了能源。”
看了这些就乐了。原来洗衣机还是这么一个机器学习/数据挖掘的物理模型,一个分类模型吧,输入是一大堆衣物和污渍。一个好的分类模型(洗衣机)要把衣服和污渍尽可能地分离出来,这样洗衣机的输出就是一个二分类变量,比如1代表没有污渍的衣物,0代表污渍。对照洗衣机这么个物理模型,很多问题就可以说开去了。
比如数据挖掘的流程。先从客户手里拿来数据,他们说这衣服你要洗成什么样什么样,如果他们没有见解,我们就说我们能把你们的衣服洗成如何如何。定义好问题,就得准备洗衣粉、脸盆之类的吧。衣服也要进行些预处理,比如一个小物件不适合放进洗衣机,就直接剔掉了。清洗数据,把衣服口袋里的钥匙、小纸条都掏出来,进行分组,比如牛仔裤放一起,床单被罩搁一块。还有一些肉眼就能识别的模式,比如那件裤子上粘的一块大口香糖,用手拨出来就是。诸如此类,数据可以丢进我们的洗衣机了。选用哪个模型?决策树?神经网络?手洗模式?儿童模式?还是Logistic回归?选上一个,我们来设置参数,洗衣机控制面板上那些按钮狂摁一通就是。有时还需要设置阀值,规定模型停止计算的条件,选”洗衣定时”就可以。不管了,把电脑合上,让它跑就是。一个小时后过去看看,电脑屏幕刷出一大块结果,说衣服洗好了。不满意,再加水添洗衣粉。如此反复,期限也快到了,衣服怎么着也得拿出来晾了。衣服洗好了,但还是乱七八糟地躺在洗衣机里,整理一下结果喽,以清晰的方式摆在衣架上,就等着人家来评估实施了。
还拿洗衣机说事,为什么有些人那么相信挖掘模型?这个问题还可以这么表述,为什么我那么相信洗衣机,即使是我以前那台老破旧笨?
- 数据量庞大,衣服床单一大堆,手工计算几乎不可能。要手洗,耗水耗时间,对我而言,洗干净也几乎不可能。还有,看大伙都用上数据挖掘了,我的衣服还手洗就显得落伍了;
- 洗衣机自称”模糊控制”,挺咋呼的听着。决策树、神经网络、最大熵、支持向量机,一个个听着也是能耐大,衣服放进去,有指望;
- 洗衣机跟所有算法一样,都是一个黑箱,把衣服丢进去,设好参数,就等着结果了。要是不满意,再把衣服丢到模型里跑。既然决定不手洗了,而且结果也一定要在某日赶出来,那么你总要把衣服拿出来晾,那时自己也会觉得这模型是好用啊。洗衣店为什么都用洗衣机?似乎手洗的客户不放心,不代表先进生产力。
这样的附会可以一直说开去,大伙可以补充,懒得发挥了,随手记一些:
- 一些小件衣物不适合放洗衣机,羽绒服最好也不要机洗,说明数据挖掘也不是什么都能对付;
- 以前听一个商业案例,说某家的某款洗衣机可以洗土豆。好东西。
- Fuzzy听着挺厉害,现在还有厂家推出NEURO&FUZZY的概念,好像是三洋吧,据说更加智能更加精确。然后LG也有CHAOS&FUZZY,不知道是炒概念还是真有用。这些我是在说BI界的事,潮流瞬息万变。
- ……
吃饭去了。这篇随感写得挺顺,就是老把”洗衣机”敲成”冰箱”。一会想想冰箱像什么。
**这篇小随感刚发布在TTNN,留在这里做个备份。*****