统计学

统计学时代

// 友情提示, 本文又意识流了, 不喜欢这种风格, 不想大脑被打结的请绕行

昨天跟着一群无聊的人一起看腾讯 QQ 在线超过一亿, 峰值大概是 103.29M 的样子, 又是一个新的统计学时代的标记.

一亿同时在线, 意味着什么? 就算我们考虑上那些无聊开 N 个 QQ 挂着的, 就算考虑上那些开着 QQ 但是人不在电脑前面的, 就算加上越南版南非版等大部分人闻所未闻的奇怪版本, 这个数字还是异常夸张的. 同时还可以看到 QQ 游戏最高有 625 万同时在线, QQ Live 最高有 301.9 万同时在线. 在对特殊个体提供服务的同时, 很多策略都更多的是考虑大部分人的需求了. 拥有这么大的用户群, 真的是插根筷子都能发芽, 竖根扁担就能开花. 看看 QQ 影音, QQ 拼音等产品现在的装机量, 再想想现在腾讯还在憋的那些产品, 包括已公开的包括影像医生, 和只是招聘信息里泄漏出来的杀毒产品, 真的只能感慨以后除了微软, 是不是整个桌面都会交给腾讯? 至少目前, 我的机器上的绝大部分都被这两家占据了, 操作系统用 Windows7, 办公软件用 Office 2010, 杀毒用 MSE, 听歌用 WMP, 沟通用 TM, 输入用 QQ 拼音, 看电影用 QQ 影音, 下东西用 QQ 旋风, 管理软件用 QQ 软件管理器, 为了应付大陆太过猖獗的流氓软件而用 QQ 医生, 不多的非 M 非 T 的有 Chrome (虽然我也同时用 IE8), SecureCRT (这个没找到好的替代品), WLM/Hi/LibFetion 几个 IM, Adobe Reader, 7zip, 金山词霸 (这个其实用的少了, 只是装着)

前面那些都是没有联系和实际意义的感慨, 真的感慨是在实际的数据上做了这么久的数据挖掘和机器学习后改变的世界观. 以前总以为学习应该是攒够感性认识后再积淀抽象成理性认识这样的过程, 而经典的知识大部分确实都是这样得来的, 而以前所谓的量变引起质变, 说的大概也就是这么一回事. 但是在信息爆炸数据狂潮里, 要想再这样从感性认识提升到理性认识这个过程实在是太慢了, 我们需要大规模的数据挖掘和机器学习方法来加速这个学习过程, 而这个过程给我的感觉更多是不可控的 :( 并不是说我不明白里面的原理, 特征, 拟合方法等完全看不懂, 而是在海量数据上, 直观感觉往往并不靠谱了, 加上数据分布和数据噪声可能远不是我们想象的那样, 直观上的感觉在最后只会错的更离谱.
按照官方的报告, 中国大陆网民已接近四亿, 其中百度的用户有 80%, 那么保守估计一天里会有至少一亿独立用户会访问百度并进行搜索, 这里说的是一亿的独立用户, 他们的搜索行为绝对远不止一亿, 那么在这一点上, 每天积累的用户数据也是难以想象的海量. 互联网发展到现在, 包括信息检索等技术发展了这么久, 很多直观的规则系统都已经被几乎榨干了潜力, 再想提升就只能去分析用户们各种行为下暗流涌动的奇怪特性, 从而提供更贴近大多数人需求的服务. 这里有一个比较有意思的点, 正如最前面说腾讯的时候说道的, “大多数人需求”. 到了这样一个统计学意义上, 除非一些特别恶劣的特殊情况需要保证一定要纠正, 剩余的已经不能拿抽样来很好的说明问题了, 除非抽样能足够大, 而且抽样后的评估也能完全模拟千奇百怪的网民行为, 否则抽样并不能很好的说明问题, 而最终反应在统计层面上的使用率等才有参考意义.

刨开那些简单的用规则和用机器学习实现没区别的简单特性, 在超大规模的数据下, 越来越觉得机器学习的不可控性越来越大, 很多直观的想法一经实现都会发现只有负面效果, 而很多无心插柳的改进都很不好从前往后推, 只能从结果来分析原因. 我讨厌这种不可控的感觉, 虽然很多时候可以解释成我们的想法太 geek 太高端, 虽然说我们已经努力降低 IQ 下限去站在最广大网民的角度去思考问题但是还是不够, 但是, 在一直出现与预期相差甚远的结果时, 总还是会有那么一点抓狂那么一点沮丧. 虽然还是坚信这个世界总是可以通过可以描述的规律来解释其运转的, 但是发现这样的规律已经越来越飘渺, 越来越不被我等凡人所能理解和掌控.

在互联网这个用户可以完全放心用鼠标和键盘投票的地方, 好和坏还是很容易区分的. 在把基于规则的经典方式做到极致后, 只能通过引入基于学习的方法来提升效果, 而在极致上再做调整, 任何的扰动可能都会带来无法想像的后果. 一直认为, 企业如果需要建立在海量用户上, 那么用户信息便是一个绕不开的巨坑, 此用户信息不一定是用户的具体隐私信息等, 而只是一些使用习惯或其他的行为统计数据, 而且这些数据应该是非特定指向的, 即里面的每条信息的置信度大致一样 (由于需要处理作弊等特殊情况, 不能说完全同等置信度, 或者说经过数据清洗后, 置信度会完全一样). 像 Google 百度这样有传统的搜索引擎很难撼动就在于其拥有的用户数据太多, 很多可能带来扰动的因素都已经被他们纳入机制内, 而后来者如果需要追赶, 也只能是走一样的路, 但是在市场已经有领头羊, 这些数据是否还能有同等置信度就很难说了. 比如谷歌中国累积的那么多数据, 是否就能推广到 80% 以上的中国网民上? 用大多数是受过高等教育, 且学术和政治倾向明显的用户产生的数据来推广, 也只能在同类用户群上获得更好的效果吧?

把视野放开来, 在 SNS 上如果进行充分的数据挖掘和学习, 最终对用户的反馈到底会是怎样? 是会由少部分的先进生产力带动整体, 还是大多数的白痴会传染以致整体越来越白痴? 不过应该还好, 他们的一些基本规则还能在机制里生效, 很多底线最好还是不要过的好. 在桌面软件领域, 如前所说, 腾讯的那么多用户可以一直很快乐的做小白鼠, 在给腾讯提供足够的直接反馈的同时也在统计意义上给出更多的功能取舍选择, 微软和 Google 经常说取消某功能的理由也是 “绝大多数用户不用而且这个功能确实没太多用”, 在这样的迭代速度下后起之秀们估计很难壮大起来了, 毕竟现在技术壁垒已经越来越低, 而用户和数据壁垒越来越高, 而且只要有壁垒的一方不自杀, 那这个壁垒只会继续高下去, 而丝毫不会降低.

就在写到这里的时候, 抽开去看了下说 “360 安全恐吓” 的无敌招数, 这个也算是一个学习和规则并存的产物吧, 看多了 QQ 群里 “xxxx 就送 10 QB” 这样的骗子自然知道是骗子, 但是就这种雉还是会越来越多, 那么从统计意义上这个方式就还能继续生效, 然后只要对这样的方式进行微调, 也许又可以推广到别的领域继续兴风作浪 (比如 360 的安全恐吓?).

在用户的整体素质没得到提高之前, 统计意义上为贴近用户的改进大多还是只能让用户的整体素质越来越低, 做的越好用户则越脑残, 而研发人员只能跟着越来越脑残, 因为统计只能统计过去, 无法预测将来. 而只有在新规则推动下才可能带来革命性的进步, 比如在 iPhone 之前触摸操作为什么就没法这么普及? 比如 Gmail 出现前为什么邮件就必须是一封一封的组织而不是会话模式? 还有 Tag 之类的功能, 无法仔细考究谁提出谁推广. 一般的企业会在已有规则上墨守成规最后把自己做死, 稍好的会在已有规则上用统计学习去让已有规则领域做到极致, 而真正能长盛不衰的企业应该是用新规则去开拓新领域, 等把开荒的暴利赚够后把这个领域扔给后面的二三流企业跟进, 自己再去开辟新时代. 做技术做科研同理, 在攒够二三流能力之后还是需要去努力创新开辟新领域, 这才是傲视群雄的霸气. 以上, 与君共勉.