Author: snoopy

统计学时代

// 友情提示, 本文又意识流了, 不喜欢这种风格, 不想大脑被打结的请绕行

昨天跟着一群无聊的人一起看腾讯 QQ 在线超过一亿, 峰值大概是 103.29M 的样子, 又是一个新的统计学时代的标记.

一亿同时在线, 意味着什么? 就算我们考虑上那些无聊开 N 个 QQ 挂着的, 就算考虑上那些开着 QQ 但是人不在电脑前面的, 就算加上越南版南非版等大部分人闻所未闻的奇怪版本, 这个数字还是异常夸张的. 同时还可以看到 QQ 游戏最高有 625 万同时在线, QQ Live 最高有 301.9 万同时在线. 在对特殊个体提供服务的同时, 很多策略都更多的是考虑大部分人的需求了. 拥有这么大的用户群, 真的是插根筷子都能发芽, 竖根扁担就能开花. 看看 QQ 影音, QQ 拼音等产品现在的装机量, 再想想现在腾讯还在憋的那些产品, 包括已公开的包括影像医生, 和只是招聘信息里泄漏出来的杀毒产品, 真的只能感慨以后除了微软, 是不是整个桌面都会交给腾讯? 至少目前, 我的机器上的绝大部分都被这两家占据了, 操作系统用 Windows7, 办公软件用 Office 2010, 杀毒用 MSE, 听歌用 WMP, 沟通用 TM, 输入用 QQ 拼音, 看电影用 QQ 影音, 下东西用 QQ 旋风, 管理软件用 QQ 软件管理器, 为了应付大陆太过猖獗的流氓软件而用 QQ 医生, 不多的非 M 非 T 的有 Chrome (虽然我也同时用 IE8), SecureCRT (这个没找到好的替代品), WLM/Hi/LibFetion 几个 IM, Adobe Reader, 7zip, 金山词霸 (这个其实用的少了, 只是装着)

前面那些都是没有联系和实际意义的感慨, 真的感慨是在实际的数据上做了这么久的数据挖掘和机器学习后改变的世界观. 以前总以为学习应该是攒够感性认识后再积淀抽象成理性认识这样的过程, 而经典的知识大部分确实都是这样得来的, 而以前所谓的量变引起质变, 说的大概也就是这么一回事. 但是在信息爆炸数据狂潮里, 要想再这样从感性认识提升到理性认识这个过程实在是太慢了, 我们需要大规模的数据挖掘和机器学习方法来加速这个学习过程, 而这个过程给我的感觉更多是不可控的 :( 并不是说我不明白里面的原理, 特征, 拟合方法等完全看不懂, 而是在海量数据上, 直观感觉往往并不靠谱了, 加上数据分布和数据噪声可能远不是我们想象的那样, 直观上的感觉在最后只会错的更离谱.
按照官方的报告, 中国大陆网民已接近四亿, 其中百度的用户有 80%, 那么保守估计一天里会有至少一亿独立用户会访问百度并进行搜索, 这里说的是一亿的独立用户, 他们的搜索行为绝对远不止一亿, 那么在这一点上, 每天积累的用户数据也是难以想象的海量. 互联网发展到现在, 包括信息检索等技术发展了这么久, 很多直观的规则系统都已经被几乎榨干了潜力, 再想提升就只能去分析用户们各种行为下暗流涌动的奇怪特性, 从而提供更贴近大多数人需求的服务. 这里有一个比较有意思的点, 正如最前面说腾讯的时候说道的, “大多数人需求”. 到了这样一个统计学意义上, 除非一些特别恶劣的特殊情况需要保证一定要纠正, 剩余的已经不能拿抽样来很好的说明问题了, 除非抽样能足够大, 而且抽样后的评估也能完全模拟千奇百怪的网民行为, 否则抽样并不能很好的说明问题, 而最终反应在统计层面上的使用率等才有参考意义.

刨开那些简单的用规则和用机器学习实现没区别的简单特性, 在超大规模的数据下, 越来越觉得机器学习的不可控性越来越大, 很多直观的想法一经实现都会发现只有负面效果, 而很多无心插柳的改进都很不好从前往后推, 只能从结果来分析原因. 我讨厌这种不可控的感觉, 虽然很多时候可以解释成我们的想法太 geek 太高端, 虽然说我们已经努力降低 IQ 下限去站在最广大网民的角度去思考问题但是还是不够, 但是, 在一直出现与预期相差甚远的结果时, 总还是会有那么一点抓狂那么一点沮丧. 虽然还是坚信这个世界总是可以通过可以描述的规律来解释其运转的, 但是发现这样的规律已经越来越飘渺, 越来越不被我等凡人所能理解和掌控.

在互联网这个用户可以完全放心用鼠标和键盘投票的地方, 好和坏还是很容易区分的. 在把基于规则的经典方式做到极致后, 只能通过引入基于学习的方法来提升效果, 而在极致上再做调整, 任何的扰动可能都会带来无法想像的后果. 一直认为, 企业如果需要建立在海量用户上, 那么用户信息便是一个绕不开的巨坑, 此用户信息不一定是用户的具体隐私信息等, 而只是一些使用习惯或其他的行为统计数据, 而且这些数据应该是非特定指向的, 即里面的每条信息的置信度大致一样 (由于需要处理作弊等特殊情况, 不能说完全同等置信度, 或者说经过数据清洗后, 置信度会完全一样). 像 Google 百度这样有传统的搜索引擎很难撼动就在于其拥有的用户数据太多, 很多可能带来扰动的因素都已经被他们纳入机制内, 而后来者如果需要追赶, 也只能是走一样的路, 但是在市场已经有领头羊, 这些数据是否还能有同等置信度就很难说了. 比如谷歌中国累积的那么多数据, 是否就能推广到 80% 以上的中国网民上? 用大多数是受过高等教育, 且学术和政治倾向明显的用户产生的数据来推广, 也只能在同类用户群上获得更好的效果吧?

把视野放开来, 在 SNS 上如果进行充分的数据挖掘和学习, 最终对用户的反馈到底会是怎样? 是会由少部分的先进生产力带动整体, 还是大多数的白痴会传染以致整体越来越白痴? 不过应该还好, 他们的一些基本规则还能在机制里生效, 很多底线最好还是不要过的好. 在桌面软件领域, 如前所说, 腾讯的那么多用户可以一直很快乐的做小白鼠, 在给腾讯提供足够的直接反馈的同时也在统计意义上给出更多的功能取舍选择, 微软和 Google 经常说取消某功能的理由也是 “绝大多数用户不用而且这个功能确实没太多用”, 在这样的迭代速度下后起之秀们估计很难壮大起来了, 毕竟现在技术壁垒已经越来越低, 而用户和数据壁垒越来越高, 而且只要有壁垒的一方不自杀, 那这个壁垒只会继续高下去, 而丝毫不会降低.

就在写到这里的时候, 抽开去看了下说 “360 安全恐吓” 的无敌招数, 这个也算是一个学习和规则并存的产物吧, 看多了 QQ 群里 “xxxx 就送 10 QB” 这样的骗子自然知道是骗子, 但是就这种雉还是会越来越多, 那么从统计意义上这个方式就还能继续生效, 然后只要对这样的方式进行微调, 也许又可以推广到别的领域继续兴风作浪 (比如 360 的安全恐吓?).

在用户的整体素质没得到提高之前, 统计意义上为贴近用户的改进大多还是只能让用户的整体素质越来越低, 做的越好用户则越脑残, 而研发人员只能跟着越来越脑残, 因为统计只能统计过去, 无法预测将来. 而只有在新规则推动下才可能带来革命性的进步, 比如在 iPhone 之前触摸操作为什么就没法这么普及? 比如 Gmail 出现前为什么邮件就必须是一封一封的组织而不是会话模式? 还有 Tag 之类的功能, 无法仔细考究谁提出谁推广. 一般的企业会在已有规则上墨守成规最后把自己做死, 稍好的会在已有规则上用统计学习去让已有规则领域做到极致, 而真正能长盛不衰的企业应该是用新规则去开拓新领域, 等把开荒的暴利赚够后把这个领域扔给后面的二三流企业跟进, 自己再去开辟新时代. 做技术做科研同理, 在攒够二三流能力之后还是需要去努力创新开辟新领域, 这才是傲视群雄的霸气. 以上, 与君共勉.

碎碎念 2010/03/03

0. 上次也就突然有空写一下, 果然没法维持每天一篇
1. 上次说完论文还没开始写之后, 当天晚上失眠, 然后脑子里把论文框架和大概内容想好, 第二天早上起来去公司把框架目录记下来
2. 然后周一晚上十一点多才走, 晚上回来继续失眠想工作的事情, 不知道某人会不会继续说我有工作狂的潜质 -.-
3. 昨晚半夜迷迷糊糊半失眠状态中被报警短信弄醒, ft, 然后继续没睡好
4. 早上起来立马调问题, 结果没收到预料的报警短信, 唉… 这知道有 bug 后, 调试的时候, 怕他不来, 又怕他乱来… 所谓少女怀春等情郎啊…
5. 算账, 算到最后自己都算晕了, 09 年 7 月到 10 年 2 月总支出居然有 58k, 能记起来对的上的大概有 50k, 然后 8k 估计就是吃饭打的买零碎了. 其中房租及相关开销约 25k, 不过因为多支付了整半年加押金, 这部分扣除 15k 好了… 还是好贵 T_T
6. 去打羽毛球, 很久不动还是比较累, 只是我还没像其他人会全身酸痛, 或者是因为我只是在瞎玩没投入?
7. 一个人晚上还是挺无聊的, 所以, 在公司加班也许未必是件坏事
8. 觉得好像有很多话说, 但是又想不起来
9. 加湿器坏了说打电话找保修, 说了一个星期了结果每天都忘记
10. 说给表哥帮买相机, 也拖了这么久没动
0x0B. 是不是装叉用下死程序员的计数方法?

碎碎念 2010/02/28

0. 今日元宵, 继续对此类日期没感觉
1. 因为太多人问是不是死了而不更新了, 所以念叨下
2. 其实记录是个好事, 不管是碎碎念还是记账, 今天晚上回去把从 HK 回来后的账理下, 然后开始记粗账, 回归规律的生活
3. 果然很久没记录, 现在翻开本子或者点开输入框, 都不知道要干嘛
4. 关注 SC2 的进展, 既然没有合法的 Beta Key 那就只能关注破解了. 今天试了下 1.0.0.4 的星际大脚, 可以自己造东西玩了, 继续对人族大爱, 雷神还是没有大和变态啊, 虽然那个 6 秒 500 伤害并锁死对方的技能也非常霸道, 可惜不能对空
5. 回北京后在享受暖气和阳光的同时也忍受干燥, 该死的加湿器被清洗了一遍后貌似坏了… 中间抽风好过一次, 但是无法复现, 能复现的只有挂了的情况
6. 回北京后吃坏肚子一次, 上吐下泻外加扁桃体和智齿同时发炎, 现在想吃啥就吃啥的感觉真好
7. 回北京后一个星期上班一直没太多动力, 昏昏沉沉的, 要振奋啊, 貌似 Q2 的工作计划已经出来了
8. 昨天被叫去 K 歌一次, 发现还是老歌比较适合我, 至少能嚎上去, 现在的那些歌手的歌要么不适合唱, 要么嚎不上去, 悲哀. // 老歌也不过是我的初中年代或以前吧
9. 昨天晚上在一家特色店见到一件 Geek Inside 的 T-shirt, 貌似可以无聊一下买一件穿来公司, 然后继续被众人 bs "无聊理工男"
10. 小强去上海了, 一个人住, 那么大的房子确实还是有点浪费, 不过貌似最近也没有合适的人可以合租的, 就这样耗到四月或者五月, 回学校时转人好了
11. 毕业论文的目录写了一半, 又没写下去了, 懒是个问题, 脑子没理清楚也是个问题, 估计等理顺了也就是一天一万字的速度? 翻译速度和打字的 APM 应该够
12. 越来越多的人, 特别是亲戚会关注另一半的事情了. 同时越来越多的朋友也开始被此问题纠缠… // 其实我什么都没想说, 只是觉得光阴似箭岁月如梭而已
13. 看到某人的签名档去看了看有道的上上签, 老实说我没看懂这个产品的理念, 感觉这个东西的负面影响会更大? // 强烈 bs 给我的那个签诗, 刚去换谱名看了看, 继续中下凶签, 太阳!!!
14. 废话不要太多, 保持更新频率就好… 在乎日期的人们元宵快乐~

[zz][Joke] IT 民工的悲剧

本文转载, 不过可以肯定的是, 那个十周年说的不是我现在这家

====分割线呀么分割线,咿呀咿呀哟====

发信人: pcman (好坑专家), 信区: Joke
标 题: IT民工的杯具
发信站: 水木社区 (Sun Jan 17 23:51:53 2010), 站内

新年一过,几个当码农的兄弟聚在一起吃饭喝酒打屁。

酒至半酣,大家不约而同的聊起了自己公司的前景

办过年会拿过阳光普照奖的都知道,从这个奖品中就能了解到公司现状

于是,小A无不得意的说:我们公司还是可以的,发了iPhone手机。

俺们一帮wsn那个羡慕啊

小B说:我们公司更好,发了一台Thinkpad X200。

俺们一帮wsn眼都绿了

轮到俺了,俺说:俺们最杯具,发了一台3、400的S40手机,唉,十年庆典啊,就发这个
,我们算是没救了。

小C这时候发话了

说:你不是最杯具的,俺才是…

俺们年会给每人发了一套杯具!

杯具!

杯具!


不要因为走得太远,就忘了当初为了什么而出发
我们并不是在表述某种存在,而是在努力寻找存在的原因
细节的细节就不再是细节本身
真实永远取决于观察主体
不要在生活中寻找你要的东西,而要努力感受生活中到底发生了什么

※ 来源:·水木社区 newsmth.net·[FROM: 114.250.157.*]

[zz][Joke] 新时代的 AB 卷

发信人: vc12345679 (小刺猬), 信区: Joke
标 题: 与时俱进的AB卷
发信站: 水木社区 (Mon Jan 18 02:06:41 2010), 站内

某门期末考试中,两同学邻座。

“你是什么卷?”
“A卷,你呢?”
“啊哈,老师发错卷了,我也是a卷。”

于是两人对答案对得不亦乐乎…

交卷的时候,只听老师说:”请大A卷的同学把答题纸交到讲台左边,小a卷的同学把答题纸交到讲台右边。”

但行好事 莫问前程

※ 来源:·水木社区 http://newsmth.net·[FROM: 166.111.111.*]

老罗这个…

本文转载, 原文见并不存在的 twitter.com

看着给google献花的照片感动了一会突然反应过来又火了,妈的,去年一月宣传民主和科学并且在拒绝自我审查方面远胜google的牛博网退出中国时,怎么没有人到新中关大厦献花?你们这些洋奴才,老子要在美国给牛博国际注册一个公司再杀回中国,然后再退出中国,看你们这帮孙子到时候献不献花。

Ubuntu 下多网卡配置自动网关

本文纯属转载, 原文: http://yiding-he.javaeye.com/blog/244943

在公司台式机上折腾了个 VirtualBox, 装了个 Ubuntu 9.10 Server, 为了上网同时开了 host-only (主要是可以分配到个固定 IP, 方便主机连), Bridge (方便公司内其他人访问用), NAT (上外网用, 不过现在不用认证了其实这个没啥意义了), 三网卡的壮观就在于经常流量不知道从哪个网卡出去了, 导致访问不到外面, 该死的自动网关…

按上文提到的方法, 直接用个 sudo route add default gw 172.*.*.* (* 处似乎算机密?) 就可以了, 一试果然

阴谋论

1. 美国宣布售台爱国者导弹
2. 01/11 中国在表示抗议的同时公布了 CNMD 的实验
3. 01/12 百度因为美国域名商的问题几个小时无法正常访问, 表面上是伊朗人干的
4. 01/12 中国 “黑客” 反攻伊朗
5. 01/13 Google 宣布退出中国, 因为中国的黑客攻击以及恶劣的人权状况

我什么都不知道, 我什么也没说, 我只是阐述事实

每日愤一句:你所见的未必都是真的[1]

昨天看到有人转豆瓣的帖, 说考研泄题, 后来特意去研究了下是怎么回事, 鉴于那个帖现在打不开了, 大家可以通过这个链接来了解下所谓的 “事实”: http://blog.renren.com/blog/246451305/440420986

根据我个人昨天对该帖分些的情况来看, 主贴是后来被更新了的, 具体的答案是在回帖中陆续泄漏的. 上午 10:50 左右开始出政治答案, 下午 3 点多开始出英语答案. 如果我对考研的规则理解没错, 这个时候早过了可以交卷的时间了, 假设有人花钱报考, 然后故意带试题出来, 接着有人去做卷子, 再发布答案, 这个解释完全是可以说的清楚的

当然, 也有可能就是所谓的泄题, 毕竟我没有事发时实时跟进豆瓣的那个帖, 没法保证说我看到的主贴和回复内容和时间一定都正确. 但是, 至少这个事情是可以解释的清楚的, 而且如果熟悉这样的论坛模式的人都知道, 主贴或者回复都是可以事后被修改的, 是否留下修改记录这个各网站的做法不同. 不过从后续回复中陆陆续续出现答案, 以及非楼主的网友们的回复来看, 至少上午 10:50 前是没有政治答案泄漏的, 下午3:00 前是没有英语答案出来的

如果有人能成功带入通讯设备在考场内接收到外界的信号, 在考试结束前填上泄漏出来的题对应的答案, 依然还是作弊成功. 只不过这个问题的难度在于作弊方法和设备, 而不存在泄题, 因为我花钱进去考试, 记住试题后没到考试结束就交白卷出来, 这个并不违规.

// 2010/01/10 22:49 更新, 找到了事发当时前三页的百度快照, 注意看第三页 15:09:02 的那个帖

第一页 http://cache.baidu.com/c?m=9d78d513d99907e91afa950d100b92235c4380146a8a97452c888448e435061e5a33a3e660600d428e8727361ca44857ecf63d76234460e99492ce0c9fac935b32956271350b8636448e5eff981a32c157c107b6b24ca7e7b7708ee88f9184054ec1520e7c86fb8f471715be2eb64771a5b1983e17&p=8b2a97548c8b06e008e2936f4c&user=baidu

第二页 http://cache.baidu.com/c?m=9d78d513d9d431df4f9b9e697b17c0151d4381132bd6a3027fa58438e5732f42501792ac50530705a3d20c1316df384b9cf32104351420c68cb8835da9cc8558249f5343671cf75664d70edfc85155c137e35dfeae69f0ba802592dec5a5d94320cc44757097878f4e47549460aa5277a1b1983b084255ffa82765880f2a6ecf701ca1478eb16f311ad4b6801b0ede6c8d234ac6b23eb13514b318a0020c2530e10ae248173131964c25fd&p=8b2a960186cc44f246b08e687f&user=baidu

第三页 http://cache.baidu.com/c?m=9d78d513d9d431df4f9b9e697b17c0151d4381132bd6a3027fa58438e5732f42501792ac50530705a3d20c1316df384b9cf32104351420c68cb8835da9cc8558249f5343671cf75664d70edfc85155c137e35dfeae69f0ba802592dec5a5d94320cc44757097878f4e47549460aa5277a1b1983b084255ffa82765880f2a6ecf701ca1478eb16f311ad4b6801b0ede6c8d234ac6b23eb13514b318a0020c2530e10ae248173131964f25fd&p=8c759a40818403ef0be2973657&user=baidu

你所看到的, 未必都是真的, 照相术的发明让我们看到了更多的历史画面, 但是同时由于摄影术在角度/取景等方向的进步, 又让我们看到的内容可以经过更多的处理, 前几天看到一副很经典的图, 左半边截出来, 是一个昏迷的人被一个枪口对着, 右半边截出来, 是一个大兵在给昏迷的人救助喂水, 你愿意相信什么? // 图片暂时没找到, 找到了我将更新此帖 // 更新图片, 请去 http://blog.est.im/archives/285 观看, 或者大图地址 http://i.imgur.com/abMQe.jpg