Author: snoopy

档案户口迁移记

去年曾答应某人写这么一篇教程, 后来想想这样对度娘太不厚道, 而且那个朋友最后也没走, 所以搁下. 不过很遗憾今年很多前同事也走了, 问起来似乎这方面有经验的就是我了, 那就写个教程吧. 以下内容适用于户口/档案由度娘委托海淀人才保管, 且是市内迁移到其他人才机构托管的情况, 其他迁移请查阅相关资料. 由于某狗没入党, 所以没有党组关系迁移的手续, 如果是党员的请注意党组关系要怎么转.

离职流程参考度娘内网, 有很详细的流程, 按图走就行了. 记得工作交接清楚, 能解除的报警短信都解了, 不要像我, 隔三差五还能收到报警短信, 都不知道找谁把那个报警去掉.

档案户口比较烦, 一步一步写.

1. 新单位调档函 (新单位办理)

到新单位要一份调档函, 一般都是一份打印好了直接填个名字就行的表, 并确认新单位的户口/档案托管机构是哪里, 去看看户口/档案调入须知, 比如朝阳区中智的集体户口迁入迁出.

2. 档案户口迁出申请 (度娘处办理)

度娘的档案存在海淀人才, 按海淀人才的档案调入调出页面上的提示, 打印调出表, 填好, 找直接经理签字, 找 HR 盖章. (我上次去的时候 HR 在大厦的 F1-CE 区集中办公)

一定要注意的是, 我们的档案里没有定级表 (研究生) 或见习考核鉴定表 (本科生), 其实已经成了死档, 无法调入调出, 还需要去海淀人才下载中心下载定级表 (研究生用) 或见习考核鉴定表 (本科生用), 跟档案调出表一样, 自己填好个人信息部分, 找直接经理签字, 找 HR 盖章 (什么定级工资啥的都空着, 海淀人才会帮你填, 日期最好也空着找海淀人才填).

离职的时候在 HR 那要求开一份档案/户口转出介绍信, 盖章.

3. 档案户口迁出办理 (海淀人才处办理)

从软件园广场坐 982 到四季青桥北, 下车后往回走小几十米, 路西就是海淀人才服务大厅, 进门, 右拐上二楼, 拿一个档案的号和一个户口的号 (似乎是一个 2 开头一个 3 开头).

办户口那人一般很少, 直接去说要办市内迁移, 他要什么材料就给他什么材料, 完了签字登记, 户口页原件到手.

档案排队人一般很多, 先在拿号那的收款处查下自己的档案托管费是否结清, 度娘似乎是半年一结, 所以一般会欠海淀人才几个月的托管费, 自己补上吧, 如果新单位给报销, 记得要发票. 拿着新单位调函, 档案转出表, 交费单, 定级表或鉴定表, 到办档案的窗口办理档案迁出, 他查好后会让你到另一个没有叫号的窗口去排队等拿资料, 等档案袋调出来, 把你该塞进去的塞进去, 一封口, 档案原件到手.

4. 档案户口迁入办理 (新单位委托的人才机构)

先看看要迁入地的要求, 要复印证件就复印证件, 要填表就填表. 户口还要求有无犯罪记录证明, 这个可以找四季青派出所开, 也可以在自己租房所在地找片警开, 我当时是没时间去四季青派出所, 就找社区里的片警开的.

这个不同的地方有不同的要求, 一般按其网站上的说明来就行了, 没什么要注意的坑, 不行的话问问新单位的 HR, 或打电话问问新委托机构, 而且办理过程一般都很快. (顺带吐槽下, 海淀人才的电话非办公时间没人接, 办公时间根本打不进去, 早上九点卡点打才比较靠谱)

5. 社保?

只要还在北京市, 社保什么都是无缝迁移, 可以不管. 但是缴纳方式可能要注意, 我就是新单位交社保交挂了才想起来要去办户口/档案迁移的.

我毕业时户口还是外地, 所以社保一直按 外埠城镇 缴纳, 到新单位时想户口都落好了, 应该是 本埠城镇 了吧, 结果 HR 告诉我社保交不上去, 还得按原来的交, 然后自己改. (两者缴纳的比例是完全一样的, 2012 年开始单位缴纳比例也完全一样了, 不知道还有什么区别, 我猜改成本埠的要靠谱点)

怎么改直接问新单位的 HR, 我得到的信息是提供: a) 身份证双面复印件 (复印在一张 A4 纸上); b) 户口本户主页 (显示户别类型: 本市城镇页) 和本人页的复印件 (复印在一张 A4 纸上), 后面的事情让 HR 办. 户口那个复印件必须要去托管的人才机构办 (办户口迁移时过自己手的只有本人页的原件), 而且建议是等新委托的机构落户完成后去办理. (这个我还没办完, 此流程仅供参考)

—-伤感的分割线—-

曾经一起追梦的少年, 终究也还是散落四方. 不同于毕业那几天内就人走楼空, 周围熟悉的人慢慢的一个一个少掉这才更让人难过. 祝大家一切都好, 保持联系, 坚持最初的梦想.

爆流量记

缘起

过年回家那几天发现此博客垃圾评论暴涨, 从一周几条涨到一天一千多, 当时懒, 人肉删了就没管. 回北京后发现还是这样, 删是删不及了, 只能把 Akismet 打开, 拦的效果还不错, 再要求访客第一次发表评论的用户要过审核, 这下好了, 基本上能拦住, 偶尔一两条漏的人看一下也就砍掉.

这个空间买的就很便宜, 一个月 5G 流量对纯文本的 blog 来说完全够用. 在搞垃圾评论期间发现流量暴涨, 在一月还剩下没几天的时候收到邮件说流量达到 90%, 当时想了下估计是发垃圾评论的在抓站把流量搞的, 等我把垃圾评论处理了应该就没事, 看后台监控好像没怎么涨了就没继续关心. 第二天收到邮件说流量爆了, 而且登空间后台都登不上去. 没办法只能联系空间提供商 flyssh.net, 说我是被垃圾评论搞挂的, 让帮看看能不能处理, 那边很快回复说看我爆的还挺厉害, 但是因为我也是受害者, 免费给我加了 5G 流量, 但是垃圾评论这事他们搞不了, 祝我尽快搞定.

解决

我观察了下空间后台的流量监控, 发现不是实时更新, 而是一天一次. 另外由于服务器在美国, 上面的时区是 -5:00, 所以是每天下午一点结算, 我搞定了垃圾评论后每天流量还是非常夸张, 之前正常时一天不到 100M, 现在却一天 1.5G+. 想不清楚到底哪里有问题, 看了下后台有 Apache 的日志, 就抓下来分析了下, 这一看不要紧, 怎么 404 的次数这么多而且流量都这么大?

HTML 返回 次数 总字节 平均长度
200 4219 103,647,235.00 24,566.80
301 2597 1,750,723.00 674.13
500 4 13,882.00 3,470.50
302 62 49,992.00 806.32
403 4596 15,855,133.00 3,449.77
304 274 57,134.00 208.52
404 10555 1,488,782,649.00 141,050.00

从大到小挨个分析, 最大的是 404. 看错误绝大部分都是因为下 win7 未遂. 想起来 yewen.us 这个域名曾经在度娘内部提供过下载, 放的是度娘发的 X200/X201 可激活的 Win7 Pro, 估计有人用迅雷或旋风下载过, 结果被他们记住这个链接了. 但是我都返回 404 了居然还不停的请求, 真坑爹. 拦不了迅雷旋风就从自己这改变, 将那个 win7 的链接, 以及下载主入口都添加 301 跳转, 让去找正确的 ourfcr.info 下. 另一个 404 来源的大头是最近被搜索引擎抓站, 因为我没显式提供 robots.txt 也返回 404, 应对办法就是加了个空的 robots.txt 到根目录.

404 的另外一个问题是返回页怎么也都这么大? 本来应该跳转到 /404.shtml, 一个不到 1k 的文件, 实际却跳到了 /blog/404.php. 中间换过一次主题, 新主题的 404 页面包括了整个主题框架, 就因为这所以数据大? 在弄不明白为什么 404 不是跳到 /404.shtml 的情况下, 果断将 /blog/404.php 先改成了一个纯 html 的:

<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">
<HTML><HEAD>
<TITLE>404 Not Found</TITLE>
</HEAD><BODY>
<H1>404 Not Found</H1>
</BODY></HTML>

其次是 200 正常返回, 看了下 Agent, 不少还是垃圾评论发送者和搜索引擎的爬虫, 这没办法, 只能希望搜索引擎爬完后不再爬那些过期页面, 垃圾评论被 ban 掉后不再骚扰.

再一个大头 403, 看记录似乎是某些搜索引擎或垃圾评论发送者的爬虫逻辑写的有问题, 每访问我 blog 的一个页面都会再去访问一个受限的链接, 从而引起大量的 403 错误. 这个不知道怎么写 robots.txt, 就放那吧, 等他抓完了应该就好了.

上面的所有所有修改都完成后, 单天总流量下降到 77.0MB, 算下来是绝对不会超过每月 5000M 的限额了.

其他问题

搞定流量问题后, 还有剩下几个不紧急的问题:
1) 404 为啥是由 /blog/404.php 返回?
2) 开 Akismet 防垃圾评论是不是靠谱?
3) 垃圾评论和爆流量都是换主题后导致的, 中间有联系么?

对 404 那个检查实验了半天, 应该是在 WordPress 开启固定链接时, 在根目录的 .htaccess 里加的 rewrite 参数将不存在的访问默认的都导向 /blog/ 来处理, 所以空间后台的错误页面管理失效, 我那个改动是正确的, 丑点就丑点吧, 反正正常人类浏览遇到 404 点下后退好了, 发垃圾评论什么的我才不管呢.

Akismet 固然是有效的, 但是很多时候也担心是否有性能和流量的问题, 搜了下果然还有更 ws 的解决方案, 那就是中文验证. 之前发到我 blog 的垃圾评论都是英文的, 而考虑到我的 blog 应该不会有全文非中文的评论, 所以只要限制评论必须带中文就行了. 修改主题的 functions.php, 在最前面加上这么一段

function scp_comment_post( $incoming_comment ) {
    $pattern = '/[一-龥]/u';

    // 禁止全英文评论
    if(!preg_match($pattern, $incoming_comment['comment_content'])) {
        wp_die("You should type some Chinese word (like "你好") in your comment to pass the spam-check, thanks for your patience! 您的评论中必须包含汉字!");
    }
    return( $incoming_comment );
}
add_filter('preprocess_comment', 'scp_comment_post');

这下整个世界清静了, 连偶尔一两条 Akismet 放过去, 但因为访客第一次发言进入审核队列的垃圾评论都没有了. (上面那段代码很好理解, 就是把汉字在 utf-8 里的编码位置开头结尾过一遍, 看评论中是否有文字在其中, 不在就报错)

对于换主题导致的问题, 不知道垃圾评论是否有关系, 这个主题用的人挺多, 作者还有几个其他主题也在被很多人用, 应该不至于在主题中嵌代码通报垃圾评论发送者, 只能说是个巧合, 或者说垃圾评论发送者对这个主题有匹配模板, 能快速从搜索引擎那搜到且自动发垃圾评论. 爆流量则是有一定关系了, 一是主题允许换色, 导致多个 css 加载, 二是 404.php 等处理页面太大, 换色的问题想了下让大家忍受下我的审美观, 不准换就行了, 404 的问题前面解决过了.

附小广告
flyssh.net 提供的 ssh/vpn 都挺靠谱, 推荐下, 要折扣优惠码的可以私聊我. 他家虚拟主机如果最便宜那几档还有卖的话也非常划算, 可惜现在最便宜的也是 100RMB/年. 管理员都很 nice, 出问题时都很快很友好的帮助, 都是搞技术的, 沟通特别舒畅.

暖气漏水记

先提醒一下, 本篇是纯无厘头没逻辑的吐槽发泄文, 正常人看不懂是正常的, 也请不要拿此文水准来衡量我的语文水平…

去年冬天搬家后很快就来暖气了, 话说这边暖气那叫一个给力, 洗澡后穿个小内裤在屋里各种活蹦乱跳, 跟以前西二旗那个在家还穿棉衣的地方完全不可同日而语.

回家过了个年, 到北京没两天, 某天晚上门上贴了张条, 如下

喵滴, 某狗向来对这种威胁性口气极度反感, 话说你谁啊, 热力公司的还是邻居? 否则是什么意思? 好歹留一电话我也回过去问问是怎么回事吧. 不对, 难道是小偷探路?

过了小半个小时突然有人敲门, 一看是一老太太, 说是楼下的, 门上那条她贴的. 心想这老太太看起来也还挺慈眉善目的, 怎么写的条就这么凶神恶煞, 嘴上说我家暖气哪漏了我不知道啊, 不然你来看. 老太太说是主卧漏了, 我搬开挡那的小柜子, 还是没啥问题, 地上都干爽着呢. 给她留一电话, 说等热力公司的人吃饭回来过来看 (为啥她就不留个电话呢…). 再过小半小时, 继续有人敲门, 老天太带俩民工大哥过来看, 热力公司的果然就是专业, 一看就说这铝塑管在墙里这段折裂了, 你看水都顺墙下去了, 一边拿一不知道啥工具对墙上一戳, 墙皮一片一片的掉, 还真润润的在渗水. 得, 漏水得修, 大晚上的没法修, 第二天吧. 这房子还是从中介那租的, 房东联系方式都没, 跑到门口那个我爱我家, 居然还没关门, 让给联系房东看看.

第二天上午上着班, 接一电话说是物业, 让回去看怎么弄. 回去就过个马路的事, 但是到家没见有人, 下楼, 往小区门口走, 突然就看那老太太了, 然后话语权就被交到一穿公交制服的物业大爷那, 从这时候开始就持续两天的鸡同鸭讲… 先是联系房东, 因为我是跟中介签的合同, 所以要找中介才有, 中介那说他们管房源的小姑娘还没来, 其他人没权限, 你打电话给她看看. 打电话, 小姑娘说我还在路上, 要一个小时才到. 继续回中介那, 说你们就没个别人有电话的? 一堆人摇头. 转头问物业大爷, 大爷说他留的是一固定电话, 号都空了. 然后莫名其妙的中介那还是翻出了房东电话, 打过去, 说暖气漏了楼底下在闹, 然后就开始扯要怎么修, 别把墙弄坏了如何如何, 那个物业大爷继续各种莫名其妙的交涉, 啥有意义的内容都没说. 找热力, 还是昨天那俩, 开始说各种楼老了没阀门什么的, 这时候, 扯这些干啥, 又不是现在能解决的. 物业大爷就说大过年的给人家点钱呗, 我心想话说难道这还可以不给钱免费修??? 我又不是不给钱. 过来看了后说把从墙里走的管子锯掉换从外面走, 并加阀门, 让我去买料, 问阀门要啥样的, 说你一问人家就知道了, 结果, 在燕丰售货员拿出一外一内两种接口的阀, 我就无奈了, 说都给我吧, 我回去问要哪个, 多的回来退… 回去热力的人说现在搞不方便, 下午吧. 漏水处太低, 盆放下不去, 弄了个京东的塑料袋在那接漏, 半天才滴一滴.

下午继续看, 继续扯各种理由, 说楼里没有阀, 水箱放水要很久什么的, 要修得断两栋楼的暖, 而且修到晚上估计恢复不了供热, 会被一票人投诉, 还得再推一天上午来修吧. 期间房东神奇出现, 看了后说这么屁大点事, 我还以为要怎样怎样呢, 换根管子接个阀就够了, 回头找他要钱. 走的时候房东还特意说了下说楼下老太太各种挑剔, 最好别在上面动静太大… 话说我能弄出啥动静来啊. 房东比其他人比起来磨叽程度要好很多, 只是很奇怪为啥听他描述这楼里住的都是各种奇葩…

第三天 (喵滴居然都第三天了…), 上午九点那俩热力的大哥准时过来, 说很多外面的阀门都关好了, 就等水放完 (话说北京都管阀门叫节门的么? 热力的这么说, 物业也这么说). 本来这种楼应该会在顶楼有一个总闸, 热力的人第一次上去看看能不能关, 人还挺和气的说楼道里是该帮忙, 等第二次上去真关的时候就狗血了, 楼上那老太太 (怎么又是老太太…) 一开门就喊我有心脏病, 我才吃完药, 你们要干嘛要干嘛. 她家姑娘也说凭什么楼下漏水老要去找她家, 拜托这种楼就是这样啊. 更狗血的是热力的人找到那个阀后, 发现上面的铁圈掉了, 方形螺口被他家装修时锯掉了, 锯掉了… 这是怎样的脑袋能干出这事啊. 最后果然还是跟前一天预计的一样, 要关几栋楼的水. 期间中介那个房管姑娘也过来看是怎么回事, 刚好热力说最好进水出水一起换, 还要买管和阀门 (昨天明明说的只要一边 -.-), 就让中介的姑娘帮去买, 特意交代让拿着昨天买好的去对着买, 不然估计还要弄错要退. 等水放差不多时热力的大哥开始卸老的换新的, 就算拿了个盆接, 地上还是一滩水, 我看这架势估计拖把加抹布搞不定, 果断翻了件 BIT 的 T-shirt 出来让其光荣牺牲 (本来就洗成喇叭口了, 而且估计不会再穿了, 所以…). 下原管子的时候热力的大哥把手弄破, 再翻箱倒柜给找创可贴, 买这么久居然这时候用上了 -.-| 热力大哥准备把暖气片里的水也放掉好做别的操作, 但发现出水口的螺丝被挡住, 暴力搞了下后那个螺丝华丽丽的断了… 放弃.

折腾到快十一点终于弄完, 一地狼藉, 给热力的大哥一百块钱人工费, 说给我写个收条吧, 我好跟房东报账. 这热力大哥写了几个字后说不会写字… 我看电脑就在旁边给他打出来抄算了. 这时扭头一看房东又诡异的出现, 热力大哥很开心的说不用写条了直接要吧, 然后跟房东各种吐槽了下六楼的心脏病老太太, 东西一收就走了, 房东顺带看了下房子也走了, 我把地上清干净后, 想这事终于完了.

过几天再接到一陌生电话, 居然是物业打电话回访说弄好没, 答弄好了后又被各种没要点的磨叽叨叨了半天, 这事终于真的完了.

感想:
1. 为啥阀门会被叫做 “节门”? 哪个节? 截?
2. 为啥热力不用生料带而是用麻做接口防漏?
3. 老楼还是容易各种问题, 防御式编程哪都适用 (本例中是自家暖气出入口也留好阀门)
4. 北京大爷大妈各种磨叽各种语言混乱没要点, 沟通太费劲
5. 不讲究的老太太是很可怕的生物

互联网企业的 x 文化?

在去年的年度盘点里有提到一些公司文化差异的问题, 当时想说的是这个世界越来越 x 的文化导向, 怎么就变这样了呢? 民间口语中略有轻浮个人觉得还能接受, 可以用尚未开化完全或民风彪悍等理由解释. 但是在一些公众场合, 特别是有影响力的公众场合, 还是觉得很难忍受, 过 x 的文化在很多地方会被认定为性骚扰才对?

这个问题最早是看 CCAV 某年的内部年会 东方红时空 时想到的, 里面有不少荤段子, 具体细节现在回忆不起来了. 当时看到平常很严肃那些主持人什么的也这么恶搞和低俗, 有点震撼. 不过要说那个片子留下了什么, 最有影响力的应该是电影剪接恶搞的兴起 (胡戈早期的剪接作品都是如此, 一个馒头引发的血案和讲春运的那个), 以及敬一丹还是谁说的一句 “在这样的夜晚, 除了创造人类, 我们还有什么追求”. 但是跟后面的那些比起来, 这个又算很纯洁的了.

后面看到网络上一些对阿里系的传闻, 觉得明显过头了, 比如知乎上在淘宝的工作挑战这个问题中提到的男女关系, 这里面的内容我向一些阿里的员工求证过, 无法证实, 但是从交谈来看, 很多无法证伪不那么夸张的事情似乎也是事实, 甚至都算公司文化了. 另一件很震撼的事是 @Fenng 曾经在新浪微博上转过一个淘宝新人培训时跳恰恰舞的图, 但他转的那个原微博已经被删, 只找到这张图, 搜 “百淘 新人” 能找到不少淘宝人的辟谣, 结合人人奥斯卡上类似的那一段, 应该是谣言. 去年冬天跟一去了淘宝的大学同学聚时也聊了下这方面的话题, 感觉阿里在那方面的企业文化确实是明显超过我的底线了, 淫而不荡, 这个太难了, 在网络上见过太多说着说着就成真的事了. 个人认为之所以阿里系会这样, 是因为阿里是一个销售导向的企业, 当今社会很多生意和黄赌毒都有说不清道不明的关系, 那销售等对外团队中这种文化就比较盛行, 继而带的整个公司都是这样. 由于这个文化冲突, 找实习, 毕业找工作, 换工作时, 阿里系都是被我直接忽略的对象.

到人人后只是觉得这边的某些文化更本土化一些, 连加入的第一个群名字都叫 “土俗骚”, 日常也有一些比较三俗的事, 但是整体还好, 不会过. 在人人奥斯卡上是被小震撼了把, 虽然以前也听说过会很黄很暴力, 但是一看这名字 基情穿越, 再结合下内容, 确实也还是有点过. 听闻销售那边会比较狠, 技术方向会稍微好一点.

回想下以前呆过的那些地方, 似乎都比较保守, 外企对这个问题都很敏感, 毕竟性骚扰是很严重的问题. 百度也挺保守的, 最多就是很熟的小圈子内闷骚下. 是说这些地方的大部分人以前在学校还是比较传统的乖宝宝, 所以比较正派?

不管是假正经还是真正派, 希望自己能一直光明向前, 言行一致. 不抽烟不喝酒, 只混技术圈, 远离人情世故, 会丢掉一些东西损失一些朋友和感情, 但是留下的会是更经得起考验的朋友吧. 不抽烟是因为家里没人抽烟, 自己也没兴趣, 对身体也不好, 不喝酒是因为酒精过敏 (海鲜过敏一般认为是个悲剧, 酒精过敏我看来还算好事了), 只混技术圈是因为不会人情世故不会说话, 出去绝对被各种拍死. 似乎杜月笙还谁说过, 如果一个男人不抽烟不喝酒, 那还有什么靠得住的 (大意如此), 我说是因为那年代没别什么能爱好了吧, 现在随便找个爱好就各种耗时烧包了.

搜索和推荐的需求猜测

最近去围观了几场年会, 刨开文化的差异, 从不同公司里领导层和员工更关注更强调的点也是可以看出来不同产品的差异. 把自己看过做过的一些东西揉进去连起来看, 有一些关于 “需求满足” 的想法, 抛砖引玉, 请大家提供更多的观察角度和建议.

搜索和推荐, 以及计算广告

我不知道业界对 “搜索” 和 “推荐” 的定义分别是什么, 我自己的定义是
推荐: 对一个特定的用户, 根据其历史行为, 推测其可能的需求, 推送满足潜在需求的内容给用户
搜索: 对一次特定的请求, 推送满足该请求的内容给用户

这么一分, 搜索就可以看成是推荐的一个真子集. 搜索相对发展的比较成熟一些, 个人觉得现在的发展重点更多在 “理解需求本身”, “内容丰富度” 以及 “内容时效性” 几个方向上. 而推荐, 现在更多的问题应该都在 “推测需求” 这个环节.

计算广告, 则是在搜索和推荐的内容中加入商业结果, 本质是一样的, 只是需要额外考虑商业收益和可持续性. 任意一家商业公司都需要收入来维持整个公司运作和发展, 在资源受限的情况下, 一般都会先考虑商业结果接入, 毕竟活下去才是王道, 死了就啥都没得搞了.

搜索中的需求

搜索的需求都更直接, 而且相对独立, 比如我搜 “西二旗地铁站附近的饭馆” 或 “北京到上海的机票代理”, 直接给结果就行了. 而一些比较复杂的搜索, 因为事件本身需要更多考虑, 或是因为需求比较难用文字表达, 则会引起一系列的搜索, 但是这一堆搜索请求也都是可以比较容易将其黏合在一起成立一个系列事件. (各搜索引擎的个性化搜索中的短期行为个性化)

因为搜索需求是如此的直接暴力, 用户就是需要某物品或服务, 所以广告也可以直接暴力的给出, 效果还很好 (稍微好点的广告应该都可以做到百分之几的点击率, 转化率也不低)

也因为搜索需求的独立性, 偏搜索的产品在考核时更多都用 PV (Page View, 页面访问数) 说话, 用户黏度不大, 流失风险也不低 (甚至压根就没有用户概念, 只有请求的定义). 个人感觉这就是百度推新首页, 阿拉丁, 开放平台等产品的目的, 留住用户, PV 至上向 UV (User View, 独立用户访问数) 转换, 而且还能降低系统消耗并提升效率 (变现/搜索结果满足需求等效率)

推荐的需求猜测

和推荐有关的东西很多, Netflix 的影片推荐, douban 的读书推荐, 各种个性电台的音乐喜好推荐, 电商网站的商品推荐, Web 2.0/SNS 的内容推荐. 其中有一些是能比较直接带来收入的, 比如影片推荐, 商品推荐, 做的人很多且深入, 而另一些变现能力不明朗的产品, 比如个性化电台, 大部分都还只是玩票, 公司有人的情况下做着玩玩, 攒点技术.

Web 2.0/SNS 的内容推荐在推荐中的位置比较尴尬, 一方面用户需要更多更好的内容推荐 (用户需求强烈), 另一方面变现比较难 (公司投入回报比低). 为了留住用户显然要做推荐, 从中能挤出点商业需求弄点钱让自己活下去也是很多推荐团队要考虑的事.

回到推荐的需求判断, 一般推荐系统都是在根据历史行为猜用户的未来需求 (实时的直接需求那都是搜索, 不管是通用搜索还是站内搜索), 所以最朴素的想法就是用户过去看过啥, 喜欢啥, 关注啥, 买过啥, 就给 TA 推荐类似的东西. 这种简单粗暴的方法在影片推荐什么的会比较有用, 效率高, 相关性也好, 用户的个人喜好一般不会变化太快, 而且会一直有相关需求, 如果需要维持内容丰富度, 可以做一些随机化, 或用用户的朋友的喜好来推荐.

但是其他行业中, 就会有是否是 “持续性需求” 的差异. 电影我看了这部还会看别的, 吃饭我吃过这家店还会考虑别的类似的店, 但是有一些需求一次完成很久不会变, 比如我买了个路由器, 只要不坏或脑子抽了要骚包下, 一般不会去买第二个 (帮别人买这种行为应该分开考虑, 或者现在这种行为也很多?), 再比如学英语我报了个老罗英语后, 至少短时间内我不会再考虑去报个新东方或别的.

不同的持续性, 也应该有不一样的做法. 电影, 音乐等已经有良好分类标签的持续性需求, 可以直接提关键属性来做推荐 (主演, 主唱, 导演, 词曲作者, 风格等), 还会有一些影评乐评等用来辅助标记, 还有排行榜, 感觉相对比较容易, 至少做个原型出来要容易, 同时, 用户兴趣的相似度也是可以考虑的, 比如看了电影 A 的人都看了电影 B, 那现在有一个人说他看了电影 A, 我们也可以推荐他去看电影 B. 视频等没有明确分类标签的持续性需求, 计算被推荐条目和用户的相关性比较麻烦, 也不够准确, 这时候用户之间以及被推荐条目之间的相似度似乎是一个更可以考虑的点, YouTube 曾经发过两篇 paper, 其中 08 年的 paper 有很多很炫的方法, 但是同样的那批人在 10 年发的 paper 就回归到最朴素的相关浏览算法了, 而且还特别说了, 数据量大是一个非常明显的优势, 另外展示位置和展现样式的影响因子也非常非常大 (除非算法有天翻地覆的差异, 位置和样式才是最大的影响因子吧 :P). 而像衣服等 “有搭配的持续性需求”, 除了用户购买的相似度, 是否可以考虑从搭配需求上去做? 比如有 MM 买过一件大衣, 除了继续推荐类似的大衣 (通过所有用户的查看/收藏序列), 其实更应该去推荐可搭配的帽子/围巾/靴子什么的才对? 比如笨狗前年脑抽买了个大显示器, 过了一段就攒了台电脑主机, 然后还买了一个音箱… 这就是典型的可搭配持续性需求. 有关搭配性的持续性需求还没去找相关的 paper, 如果有麻烦告诉我一下.

人人的推荐需求

回到人人或其他生活平台级的推荐系统, 因为信息源过多且不集中, 所以简单的文本提取关键词然后按这些关键词推荐的方式绝对不会工作的很好. 在 NLP/IR/DM 支持下, 我们可以识别出用户讨论的内容, 如果能再识别出 TA 是在说需求还是在提供反馈评论, 那接下来需要一个需求转换图, 按这个有向图的下游节点来推荐就好了. 一个已经买了智能机的用户你给他看无线路由的评测或购买信息是顺理成章的 (当然前提是他还没买路由), 一个正在找留学信息的用户你除了推荐留学中介, 外语培训应该也是可以的, 甚至一些出国教程, 必需品购买等都是可以的 (教人打包行李的日志视频等等)

一个好的推荐系统最大的问题在于怎么识别或预判出一个合理的需求. 大概流程如下

1. 提取用户目前的兴趣点或兴趣方向
2. 判断用户是在 seek 阶段还是 review 阶段
-a. 如果还在 seek, 直接按搜索的方法做推荐, END
-b. 如果是在做 review, 转 3
3. 判断 review 的内容是否有重复性
-a. 如果有重复性, 直接按经典相似度的方法做推荐, END
-b. 如果没有重复性, 但是有搭配延续性, 转 4
4. 离线挖掘有搭配延续性需求的转换图, 按图指导推荐方向, END

在一个信息充分度足够的平台上, 应该更容易做 4 中的那个转换图, 否则平台太过垂直, 就只能做到 2.a 或 3.a 那个地步. 比如京东如果没有商品评论, 他只能知道我现在在京东上找什么, 买过什么, 然后在同类别内做推荐. 但是如果换到一个非常大的平台上, 可以根据一些蛛丝马迹来推荐更多相关的东西 (当然因为信息量更大, 推荐的准确度会下降, 但是整体来最后的成功数应该会接近或更高). 比如知道我买了机票后, 除了可以向我推荐相关酒店, 旅游等资源 (目前 qunar, kuxun 等已经做到的), 当地的纪念品 (以前在百度, 有出差回来带当地小吃给大家分享的传统), 甚至旅行用的拉杆箱 (今天在电梯里看到一个实际案例), 这些都谁可以推荐?

如果推荐靠谱, 而且有更多的信息提交渠道, 用户可以继续提供更丰富的信息, 形成良性循环. (说提交是从数据的角度来看, 产品上包装下可能就是用户非常愿意做的分享, 比如人气之星, 分享送礼等)

订票记

预演

12 月底注册 12306, 定了张一块五的 北京-通州 票玩, 把整个流程走了一遍
1.1 下午刷 12306 玩, 发现 1.12 有 YW, 给堂妹定了张 1.12 的 K157 YW, 提交过程大概半个小时. 付款后通知她去取, 当天说学校代售点的读卡器坏了, 第二天上午取票成功

1.5 尝试了 firefox + firebug 强制改 POST 参数, 确认可行
1.6 尝试了 Chrome 刷票插件, 确认可行
1.6 尝试了部分友人的刷票器, 确认可行
1.6 把电话订票流程仔细的走过一遍, 画流程图, 收集各种可用区号

实战

1.6 早上 7:20 起来, 登 12306 困难, 登陆后实战 firefox + firebug, 压根提不上订单
1.7 早上 7:20 起来, 登 12306 困难, 刷票器在漫天遍野的 502 错误前战斗力连 5 的渣渣都比不上. 电话订票各种系统忙, 各种卡 (最长遇到过快一分钟对面没声音, 最后居然还复活了的)

1.8 早上 5:50 起来, 12306 维护结束后费劲才登上, 余票基本被秒, 订单提交困难. 电话定上 18 号的 L415 RW 两张. 刷 12306 的学生票玩, 发现有初四的返程 YZ (其他几天都没), 用我妹的信息定了张 26 号的 K22 学生硬座保底. 自此一切顺利

插播各种狗血

早上 8:05 左右拨进电话, 19 号的什么坐席都有, 顺利下单两张 YW, 输身份证号后说已经定过了, 你妹的我之前是 18 号的啊, 什么逻辑都
想了一下, 决定把 18 号的两张 RW 退掉, 重新定, 现在还早, 一会至少 RW/YZ 是有戏的, 8:15 左右退票成功
8:31 左右拨进去, 只剩下 YZ, 输身份证号后还是一样的提示, 你妹啊, 我都退票了, 系统有延迟?
挣扎到 8:50 左右, 换用发到站模式订票, 只剩下 YZ 无座, 还是提示身份证已经定过了. 到此各种狗血, 各种鸭子飞了

狗血的解释和解决方法

电话订票时, 同一证件号在同一铁路局一天只能定一次票, 无论最终出发日期是否一样
电话/网络订票似乎有限制同一天同一地点出发的只能有一张票 (这一点没亲自验证, 但是从各种消息源来看是这样的)
护照什么的和身份证可以作为不同身份证件使用 (昨天我怎么就忘了这茬, 哥的护照办好两三年了都没用过呢)

回归实战

1.9 早上 5:50 起来, 直接放弃 12306
6:01 打进去电话捡 19 号的票 (电话订票没取的放回票库), 按发到站订票, 还有 YW, 输完张数就没了
再打都只有无座了, 想了下, 发到站模式不靠谱, 还是按车次定
7:59 打进去电话, 验证了下果然到八点也无法刷新日期, 两分钟后果断挂掉
8:03 再次打进去, 一路顺利, 略犹豫了下要定什么, 但手自动一路按下 K157 YW, 很快返回成功, 输完身份证确认订单后长出口气
出门吃早餐, 8:45 左右在代售点取到纸质票

后来想想其实今天 8:03 那次应该能定上 T5 YW, 不过没敢试了, 线路资源还是让出来给真正有需求的人吧

总结

网络基本是渣, 据某订票成功的同学说, 电信线路比联通线路要靠谱, 其他长宽, 歌华, 宽带通, 校园网什么的就都散了吧
电话打 95105105 基本是渣, 换北京局其他地方的区号吧, 我用 0311, 0317, 0319 的成功概率比较大
多准备个证件没坏处 (护照)
电话提前打进去没用, 可订票日期不自动刷新

2011 年度盘点

按惯例每年写一篇总结, 记录自己的过去, 碎碎念兼反思得失. 下面基本按时间序来说说不同角度的大事

元旦回家, 一个人的春节

避开春节的火车, 选在元旦回家, 家里人基本都在, 该吃吃该睡睡几天也就过去了, 不用像过年一样大把时间都耗在各种走亲戚上, 经常像个小孩一样腻着爸妈, 晚上一起烤火打牌, 随随便便什么都聊下, 也挺好的

过年一个人在北京过, 年前几天和年后才上班的几天公司都冷冷清清的, 没怎么干活, 在做一些自己的小爱好什么的, 其实跟休假差不多. 过年那几天提前把一些吃的屯好, 最后过的倒还行. 装上三国志 11 在这几天通了一次 (应该是简单模式), 也重新回顾了下那段历史, 好像就这段时间把三国演义的小说好好看完了. 期间去了趟地坛庙会, 跟我想的庙会还是有很大落差, 就一游乐场嘛

换室友, 换房子

在西二旗租的房子的前室友 sandy_sp 因为个人原因, 离开北京去了上海银联, 一个听起来很操蛋又很有米, 偶尔想想也很悠闲很爽的地方, 所以室友换成了 boluor. 跟 boluor 还是经常会在晚上扯技术问题, 本来都打算要睡的两个人穿个裤衩站各自门口就一些系统问题扯上一两个小时, 再看下时间不早还是快去睡觉, 第二天还要干活. 后面我走了后 boluor 不无遗憾的说现在没人跟他扯这些了, 只能自己闷头看书, 我好像也觉得现在这个状态并不是非常好, 很多跟人学习的过程是一个隐性的, 要时刻注意

因为换工作的关系, 也因为想离 MM 更近点, 从西二旗那搬来了柳芳, 从 13 号线的那头到了这头. 新房子就在公司对面, 早上上班只要几分钟, 大部分时间还耗在等电梯和等红绿灯上了. 这边更市区一些, 买什么或办点什么事都要方便不少, 生活方式略有变化, 不像在西二旗只能窝家里或公司, 出门就奔上地华联. 新房子有新室友, xenplus, 也是武大集训队的师弟, 在公司的同事, 把我忽悠过来的这只鱼, 不过好像因为在这边和 MM 在一起的时间更多点, 所以都缺少些技术讨论和同步成长? 因为买菜什么的变方便, 所以开伙频度明显增加, 自己厨艺只是略有进步, 某喵倒是越来越强

不那么顺利的工作, 坑爹的事故

上半年做了件大事, 中间因为一个诡异的问题把整个进度拖慢了不少, 但是没等最终好好做完就被大老板整个拍掉. 唉, 总是抓不准做事的时机, 而且坑爹的诡异问题经常被自己撞上, 不知道该自嘲运气实在有问题, 还是自夸做的多也容易错的多? (那个诡异的问题和交换机的 buffer 设置有关, 会导致服务器超时不一致, 但是这种事情谁想的到谁有权限控制啊) 整个过程中因为自己的疏忽和流程的漏洞, 弄得有连着两周都在出各种事故, 后来自己都没法忍了写事故通报时都不知道到底该怪谁

上半年做了另一件自己认为很有意义, 但实际上几乎没有任何老大认可收益的事情. 虽然自己坚持这件事的意义重大, 而且很多还在一线的同事也认可, 但是, 有些东西, 老大说没意义就是没意义, 或者就算老大想认可但评估体系没法考量那这事就是没意义的, sigh

用 Markdown 做基础维护了一个类 wiki 的分享站 ourfcr.info, 帮了不少人, 但是也因为纯属个人爱好和没做好协同编辑, 其实也只是一个人在做. 那一段每天早上六七点到公司, 干这事到九点等大家来了再切回正常工作状态的日子, 是个人习惯和工作效率都很高的一段时间, 很舒服很充实, 后期很多有心无力和懒得搞也慢慢荒了, 现在离职后那个内部站自己都看不到, 索性也算断了这个念想, 不怀旧, 也欺骗自己不愧疚

七月去业务一线实习了一段时间, 从另一个角度看了很多不一样的东西, 颠覆了很多认识, 也有很多想法, 但最后, 却发现大部分事情还是无能为力去改变. 特别是后续的工作方向又发生大变, 正如离职时的告别邮件里说的, 很多未竟的梦想和许诺, 实在抱歉, sigh

在八月还是九月的某个时间, 突然就觉得做的事情真的没意思了, 而且从前面的很多记录都以叹气结尾就知道工作认同感是怎样, 之前的一些不爽和念想就变成了 “我要换个地方看看不一样的活法”, 这直接导致了离职. 这期间本来想作收尾工作的一次小流量, 最后还莫名其妙的出了持续两周的事故, 又是坑爹的诡异问题导致, 真心无奈, 彻底无奈 (这次的问题是持续集成的编译机群新增了一台, 系统环境不一致造成, 又是莫名其妙的不可控也压根想不到的问题)

换工作

十一月初从百度凤巢广告系统策略离开, 到人人来做人群定向, 做事有一定的延续性, 也有挺大的改变. 目前来看一切都还算好玩, 不一样的数据, 不一样的应用场景, 有很多不一样的东西要去学习, 也有很多不一样的坑可以刨

虽然从百度走了, 但是感觉很多时候还是在用百度的方式在思考问题, 跟以前的同事 (同时也都是很好的朋友) 都还保持很好的联系, 让很多人都吐槽 “好像你从来就没走过一样”. 最后几天很 ws 的跑回去参加以前组的年终聚餐, 本只想跟大家聚聚, 然后就一些不涉及两边公司机密的纯技术问题进行下探讨, 最后倒变成了纯混吃 + 恶意占用抽奖 quota, 太损 RP 了

跟大家聊一些技术点的时候, 明显还是能感觉到两边的整体成熟度有很大差异, 人人这边是更年轻更无畏的另一种风格, 其实很像几年前的百度, 没有太多人可以教你, 要你自己学习自己进步. 当然, 人人这边很多事情本身也是在做开拓性的工作, 没有参考也正常

工作环境变朴实了很多, 有些落差, 不过基本上还不影响干活本身, 今天去看了下很快要搬过去的新工作区, 希望继续跌落, 这还是朴实路线啊 (我很厚道的忍住了吐槽没用贬义词, 但是没忍住要加个括号吐槽下) 唯一让我还是觉得不甚喜欢的就是人人跟国内大部分 IT 企业一样, 会有很黄很暴力的氛围, 关于这个, 我准备单独写篇博文讨论下, 草稿和框架已经有了

各项游玩

春天的时候跟槽群的朋友一起射箭, 好玩. 去植物园, 除了天气和交通比较坑爹, 其他都还很赞, 只是大家打 UNO 的兴致没那么高了

小组内组织去开卡丁车, 磕磕碰碰的上手, 意犹未尽的离开, 速度感带来的刺激果然是男生的本能追求. 多的票后来又跟 MM 一起偷偷去了一回

每年一度的大 bui, 凑上 FC2.0 的人一起去的坝上, 想起 07 年都可以组织整个 ECOM 的大 bui, 现在光是 FC 检索端就要两辆大巴, 扩张真快. 草原没有想的那么漂亮, 被牵着走的骑马也挺没劲, 只有回来路上马被别的马惊了下时跑了两下算是比较 high 的体验. 没在草原玩坑爹的游乐设备后面被证明是明智的选择, 跟着老万一起去开的四轮摩托, 在草原上跑的煞是惬意. 长期不晒太阳, 出去随便晒了下背上就脱皮了, 这还是穿了衣服的保护呢

秋天小组 bui 去打了趟高尔夫, 在室内对一块练习场挥杆的那种, 运动细胞还是不咋的啊, 完了不出意外全身酸痛好几天

终于去了趟颐和园, 也去了趟天坛, 想想在北京还有挺多地方没去的, 故宫, 后海, 798, 十三陵, 虽然俗气了点但是还是值得去去吧. 又去爬了两次香山, 都是不同的路线, 锻炼下挺好的, 在室内闷久了逗松鼠玩都是件很有乐趣的事情

冬天来人人后去了次温泉, 第一次去温泉, 泡的挺爽, 只是容易出汗且怕闷的笨狗没法持续的好好享受, 果然不是享受的命 :P

到人人后因为开会, 去密云水库附近的一个度假村呆了两天, 那段时间北京城区的空气实在太糟糕, 出去透透气非常爽. 继去年去皇后镇后再一次看到满天星空, 有种回到无忧无虑小时候的淡淡的幸福和忧伤. 但是那两天已经很冷, 风也挺大, 就没继续文艺下去, 不想在外面冻得像个二逼就回屋里好好当普通青年吧

爸妈来京, 亲情和爱情

7 月份爸妈来京玩, 不过当时在上班, 也没怎么陪他们玩, 景点本身也没什么太大意思, 老爸也喜欢自己到处晃, 就让他们自己玩去了. 爸妈每天早上六点左右出门, 玩到中午回来, 刚好避开游客高峰期和交通高峰期, 也不算太热, 我倒是觉得这种模式挺好

期间我的作息时间跟他们差太多, 一般都是爸妈出门时我妈把睡地板的我捅起来让睡床上去, 然后我还能完整睡上一觉再起来去公司上班. 晚上会比平时早点回来, 一起吃晚饭, 然后在家干会活, 一起聊天扯淡, 发现现在跟爸妈好好谈谈都是件很奢侈的事

一些陪同的项目更多都是吃吃喝喝, 略显无趣. 最后找了天跟老爸一起骑车去晃了圈北体, 堂妹在那边上学, 家里人想看看就看看, 反正也不远

跟爸妈就 MM 的事情好好谈妥了, 坚持到最后, 一开始的问题其实都不是问题. 等某喵也谈妥, 这事就成了算了, 免得夜长梦多 :P

学习

本来毕业后这个词就出现的少了, 自己还是明白得保持学习, 可惜从小到大懒惯了, 虽偶尔想想, 但也没有啥太多进步. 论文还是看的少看的不够深, 该关注的东西贴的不够紧. 还是得经常提醒和敲打下自己. 这个行业本来发展就很快, 从业者又都是即聪明又勤奋的人, 必须逼这自己持续往前跑, 才能跑到别人前面, 至少要维持不掉队吧

本打算在下半年把一些基础的东西重新回顾扎实下, 结果只好好看完了 perl 入门, 做完所有练习题后也没在实际生产中用到, 估计现在又忘的差不多了. 其他诸如数据结构, 算法, 数学等内容, 原来打算在谋划换工作时, 用不拼命工作省下了的时间过一遍, 却没料到来人人的过程会这么快, 这些事后面就被搁下了

运动和健康

考虑到自己的体重实在是有问题, 且锻炼机会越来越少, 为了逼自己锻炼, 也完成许久以来的骚包念想, 五一假的时候去入手了一辆美利达 Duke 500, 开始骑行锻炼

五月份和死猫/囧猫去了趟十三陵水库, 低强度活动, 走八高辅路到昌平城区, 再沿十三陵水库一圈, 原路返回. 期间各种欢乐, 比如赶上国际越野跑, 水库边文艺女青年和她的 A-Bike, 死猫的神奇座杆, 也还遇到有骑车的事故. 长大下坡上 45KM+ 的速度和第一次去滑雪时的感觉一样刺激

之后一直没太有空去骑长途, 有一段终于觉得自己太颓废, 自己拉了一趟香山, 只是到山脚下, 来回 30 多公里花一个多小时, 平均速度 20 多, 自己还挺满意的

秋天和死猫, 猫嫂加囧猫去了趟蟒山, 大部分路线和去十三陵一样, 连中午吃饭都是一个地方. 但是因为绕路和爬山, 对笨狗这样的新手来说强度还是有明显增加的, 途中好几次想放弃登顶, 感谢死猫一直陪我鼓励我到最上面, 最后一路放下来真的是太爽了. 可惜囧猫因为借的车刹车装反导致下山时摔了, 出事和回程少个人还是让这一次骑行还是留下不少遗憾

换工作搬家时从西二旗到柳芳来回骑了几趟, 才开始在城区骑稍远的距离, 对各种红绿灯和自行车道上的不讲究很不爽. 八高等路线上的堵车也还是心烦, 特别是不讲究的汽车把自行车道甚至人行道都霸占了时. 第一次从西二旗到柳芳路上遇到马拉松, 到底是北京此类赛事真的很多还是我运气真的很好老被我碰上?

对体重彻底没法忍, 给自己定的锻炼计划是每天 50 个俯卧撑 30 个仰卧起坐, 执行过程中还是有偏, 最近维持每天早晚一次广播体操 + 45 个俯卧撑, 肥了懒了后运动起来各种不给力啊, 随便弄弄都腰酸手疼的. 目前体重 66.6kg, 看起来不可能在 2012 来之前降到 60kg (一开始的大跃进计划) 或 65kg (后来觉得靠谱点的计划) 了. 但是还是得维持锻炼, 明年给自己定个 60kg 的体重 KPI?

骚包和折腾

清明节的时候突然脑抽进入完成式, 忽悠上阿牛一起去换手机, 入手 HTC Desire (G7/Bravo). 现在回头看, 当时不是一个太好的出手时机, 因为买之前价格坚挺了很久, 而买了后很快就跌了好多, 不过反正都是玩, 过去的事情就过去了吧. 接下来就是各种折腾, S-OFF, ROOT, 刷机, 玩软件, 一开始还有兴趣记录下, 后面就懒得记了, 现在终于回归理性, 就想要个稳定顺手的系统好好用着别出毛病就行了

换房子时重新办宽带, 薅上联通羊毛, 送了个 3G 号加一年的 66 套餐. 鉴于之前移动 159 的号还得用, 而那个 N1200 又给了熊, 干脆再买个诺基亚 C1-02 插移动号当备机, Desire 就换联通 3G 号, 在外面无聊时可以上网玩了. WCDMA 网络速度比 EDGE 确实有质的飞跃, 但是联通的信号稳定性还是不如移动, 希望联通能越来越靠谱, 良性竞争推动整个行业进步, 不要只靠国家强制制式绑定来扩展市场

被 CHH 放毒, 对乐高的科技系列无限 YY, 这不就是从小到大一直想玩却没钱买的东西么. 圣诞节前完成对自己的忽悠, 说忙一年了就当买个大玩具奖励自己吧, 果断出手 2010 科技旗舰 8043. 圣诞当天上午收到同城快递, 下午和晚上就忍不住将其装了起来, 默认的挖掘机形态. 找电池时还想自己以前买那么多 eneloop AA 充电电池终于有正经用途了, 坑爹的是这货居然是 6*AA (机体) + 6*AAA (遥控器), 最后拆各种电视/空调遥控器终于再凑够六节 AAA, 玩的甚爽, 准备元旦或什么时候拆了挖掘机形态换推土机形态

换工作后去办了户口和档案迁移, 真是各种坑. 现在看事情应该都办完了, 回头单写一帖说这个办理过程, 也给其他人一个教程介绍

因为翻墙需要, 在 flyssh.net 上买了一年的 ssh, 后面推荐别人买时发现他家还提供主机服务了, 最便宜的一年才 20 块钱, 试试看的心态就买了个玩. 把 yewen.us 指向这, 也就有了最新的这个 笨狗又一窝, 最近一两个月花了些时间把以前散落各处的日志合并整理到这里, 现在只剩以前 Q-zone 的一百多篇没有分类和打 TAG, 其他的都搬好了, 真是体力活. BBS 上写过的一些东西, 虽然值得纪念, 但找起来都难, 还是算了

终于还是没躲过天涯这一波

上周还吐槽那几家顺便感慨自己还好没中招, 今天把 天涯数据.kz 拖下来, 红果果的发现了笨狗的用户名和那个弱的不能再弱只在挫站上用的弱密码, 邮箱居然还是已经不存在了的一个. 话说我怎么会注册天涯呢, 从那个邮箱来看, 应该是在 06 年或更早的时候注册的, 那时候怎么就脑抽要注册个天涯呢, 难道是为了看那个 红色帝国的暴力美学 那个帖?

1. 用户名是我的, 邮箱已经因为太久没用被服务商关停了
2. 密码是弱密码, 某些很久没更新密码的挫站估计还在用, 有心人不用费心试了
3. kz 用 KuaiZip 解压, 估计他们家软件的安装量这两天翻了至少几十倍
4. 果然文本可以压出很恐怖的压缩率, 1.71G 的 50 个 txt 就被压成了一个 377M 的 .kz, 不过解压速度也放在那, 花了快 6 分钟

CSDN 这个杯具带倒了整个茶几

最近几天要是哪个 IT 民工没有关注 csdn 密码这个事情, 估计要么是被抓去封闭开发了, 要么是死了. 如果还需要回顾下, 具体的事情经过可以参考 http://csdn.aspx2.com/, 按我能统计到的资料, wooyun 的 http://www.wooyun.org/bugs/wooyun-2010-03523 应该是最早的公开信息源, 具体的下载链接我还是不发了, 自己找吧.

csdn 那个库的真实性还是挺高的, 至少周围有不少人能验证上, ACRush 和 Matrix67 都被爆了, 而且被爆的很难看. 但根据网络消息和 scat 等人的人肉分析, 那个库的泄漏时间应该在 09 年. 其他库的真实性存疑, 至少传闻的人人库应该也是 08 或 09 年的数据, 那时候人人还叫校内吧? (刚查了下, 改名是 09 年 8 月的事) 而且密码有效率比较低, 很多能登陆的帐号也都是僵尸号, 没什么内容, 倒是有可能就是以前恶意注册的一堆水号资料被注册的人不小心弄丢了. 而且今天继续流出的新浪微博那个文件 (weibo.com_12160.dbh) 和人人库 (xh-2.txt) 几乎是一样的.

问了人人安全组的人, 以及和人人网黄晶的一些状态互动, 我还是相信人人应该不至于干明文存密码这么弱的事情. 不过从 wooyun 上 http://www.wooyun.org/bugs/wooyun-2010-03337 这个漏洞的回复, 和今天人人上某好友用 HttpFox 检查的结果来看, 这个漏洞很可能是真实存在的, 但是我把这个 bug @黄晶 的时候被否定了, 求有时间的人去验证下. 这种浏览器明文传输密码的事情在 KO 和 littleken 他们做 WOJ 第一版 (Noah) 的时候就被人搞过, 后来通过 SHA1+salt 加密密码, 并在浏览器提交数据前就加密, 才搞定这事.

更多的跟进消息可以见 aspx2 的那个页面, 分析上我个人比较赞同 http://www.36kr.com/p/71020.html 里面的说法, 主要的问题是 1) 新人不懂; 2) 脑残需求; 3) 历史遗留; 4) 政府要求; 5) 站点私心. 问题一个比一个严重, 而且越来越难修复. 一般来说新人不懂还是可以很快学习到, 脑残的需求还是可以被有理想的程序员拍回去, 这两个还算简单, 解决起来也容易. 历史遗留的问题一般大家都不敢动, 能用的系统你没事去改什么改? 又不算 KPI, 再说了, 改挂了谁负责? 而且很多程序员对公司并没有那么大的认同感, 都抱着 “反正过多久我就不在这了, 只要不在我手上出事” 的念头干活, 也难怪现在的很多产品烂成那样. 政府要求这种真的是一朵奇葩, 不过我倒是觉得与其明文存密码, 还不如给政府提供超级通道, 让他可以直接进来, 这样虽然都是被强奸, 好歹也算戴了个套, 痛是必然的, 好歹不会得病和怀孕啊. 站点私心这种完全就是流氓行径了, 小站还有这样可能, 做大了的站应该就不用靠这个赚钱了吧, 还是说这样来钱还是要快很多, 大家还是想赚快钱? 话说开个色情网站用来收密码好像是个挺不错的想法?

目前我看到对此事件的阴谋论包括: 1) robbinfan (csdn 那个头) 得罪了人; 2) csdn 和黑帽价格没谈拢; 3) 反抗政府实名制. 前两个都是就是论事, 听起来也很有道理, 09 年的库现在才爆发, 中间应该在黑市上已经流通很久了, 事实上这么一想, 很可能还有别的新库正在黑帽们手里流通着呢, 而我们还傻乎乎的说还好这次没被爆掉. 反抗政府实名制, 其实也有道理, 让大家看看网络到底多不安全, 还实名个腿, 下次漏的可能就是身份证号和家庭住址了, 再愚昧的民众也会起来反对的. 我个人对反抗实名制这个阴谋论还是挺满意的, 让民众开化最好的方式就是革命, 而革命必然会很痛, 这次痛的人多了点.

一些趣闻八卦

  • CSDN 杯我最喜欢的密码, CSDN 杯程序员最喜欢的邮箱等活动真是大大锻炼了大家的脚本处理能力, 挺好的技术普及活动. (话说为什么我的角度总这么奇怪?) 今天上午面别人就顺手拿这中间的活动所需技术当面试题给出去了, 不过结果不太让我满意 :(
  • 很多爱情段子, 算是本次惨痛的茶几颠覆 (一地杯具) 事件为数不多让人感到温暖的地方.
  • csdn 有两个比较难理解的高频密码, 一个是 dearbook, 这个我猜到都是 “第二书店”, 就是 csdn 的一个业务; 另一个 xiazhili, http://www.guokr.com/ask/item/81227/ 的 12 楼真的太牛逼了…  (正解答案: xiazhili 是 csdn 下载频道 09 年上传比较多的一 MM 会员, 众多程序员意淫的对象, 故 xiazhili 作为密码不足为奇)
  • 类似 “ppnn13%dkstFeb.1st” (娉娉袅袅十三余,豆蔻梢头二月初) 的密码, 果然是文艺到家, 其实我猜这是某百度员工的杰作? 因为百度的很多密码就是唐诗宋词中的某一段变换而来, 连内网给的好密码样例都是 “Hhzstsla!” (黄河之水天上来啊!), 而用过的类似密码更是不计其数. 话说 MySQL 好像也是个好密码? (明月三千里, 好冷…)

有关密码安全机制, 我自己的密码一直是分级的, 目前来看还算安全. 数字密码有一个纯 6 位数字应对脑残的只能用数字做密码的场合 (比如某些电信业务), 有一个好点的 6 位数字密码拿来给银行卡用. 网络密码有一个 6 位弱密码用来注册那些我不甚信任或无所谓的网站, 丢就丢吧, 反正也不是多大个事, 有一个 8 位的大小写字母加数字做一般强密码 (有些地方不然用特殊字符), 最后有 8-12 位的强密码来把关最后的核心业务 (gmail, 网银, 支付等, 且跟钱有关的都分开设定).

设定密码的方式其实用中文拼音转换就挺好的, 很多字符做下变化就模糊掉了, 比如 {数字 1, 大写字母 I, 小写字母 l, 特殊字符 !} 就是个很好的互换集合, 类似的还有 {数字 0, 大写字母 O, 小写字母 o} 等等. 做个样例: “不怕猪一样的对手” -> “bpzyydds” -> “bPz!yDd5”, 这样就又安全又好记了.

我个人建议密码还是学我那么去保存, 或用一个开源的密码管理器来管理, 开源的意思是至少自己信得过这个东西, 不然这一丢更惨, 所有的都没了.

遍地创业机会?

从百度离职后, 看了很多不一样的东西, 也被很多朋友介绍说去创业吧, 所以有此一篇

遍地黄金的创业机会?

接到过一些创业邀请, 主要在 手机应用, 增值服务 两个方向, 听起来就像是说 “遍地是黄金, 谁不捡就是傻子”

移动互联网现在很热, 也确实有很多一夜暴富的案例, 但是是不是真的就遍地黄金想拿就有? 我还是觉得未必, 一是笨狗胆小, 二还是觉得这不符合我理解商业规律. 我个人觉得 90% 的创业公司 (或者说创业项目比较好) 会死掉这个说法绝对不是夸大其词, 甚至在我看来, 只会更高, 特别是现在很多完全没有仔细思考就一猛子扎进去乱搞的人越来越多, 跟当年股市泡沫好像就是一样的嘛. 移动互联网上的很多创业都是 “觉得一个东西好玩” 就去做, 很多都只是创业者自己的小众需求而已, 没法扩大规模, 没法变现, 最后, 只能死掉

商业模式是才是最后赚钱的核心

前一段在回顾浪潮之巅时, 自己掰出来这么一句话:

创业的最高层次是创造新的生活方式, 并衍生新的商业模式

这句话更多的是想说 Twitter 和 Facebook, 这两个公司都是创造了一种新的生活模式, 让个人的信息发布和联络渠道发生了颠覆性改变, 其革命程度不亚于当年 Google 等搜索引擎把大家获取资料的方式从目录检索变成关键词检索. 但是抛开 “伟大” 而言, 大家都是要吃饭的, 再看看这两家的盈利状况呢? Twitter 现在似乎一直没有一个靠谱的盈利模式, 从外界能获取到的信息看来, 能维持运作就不错了, 而且最近 Twitter 的更新越来越慢, 都让人怀疑他们还在没在好好做产品. Facebook 虽然没上市, 没公布其财务状况, 但是外界的信息显示他家今年的利润应该不下 10 亿美元, 而且吸金能力越来越强. 所以, 这两家我看好 faceboook 的前途 (虽然我不喜欢 facebook 这家企业, 但是喜好和看好是两码事), 觉得 twitter 会在不久的将来挂掉.

两者最大的区别就在于是否找到了一个可以健康发展的商业模式. Facebook 利用他强大的用户信息网络, 能将定向投放广告做的越来越准, 而且他的用户黏性保证了这个广告市场只会越来越大, 广告主们竞争越来越激烈, 整个体系是一个健康前进的生态系统. 反观 Twitter, 因为更多的是只言片语, 且有大量的 API/客户端 分流, 用户黏性小 (更多指的是在其网页上的停留时间), 没有定向广告的能力, 又没有从用户那收钱的增值服务, 想不出来后续能靠什么撑下去, 概念最终总还是要落地, 童话的最后公主和王子在一起后, 也还是要过柴米油盐的生活, 不切实际的泡沫总会破灭的.

如果说前面说的更多是对未来的展望和分析, 有个人喜好因素在里面, 那我们回顾下历史. 互联网上这几年 Google 和 Yahoo 应该算是反差最大的两家了吧, G 的绝大部分收入还是来自 AdWords 和 AdSense, 前者依托他强大的搜索技术和用户量, 后者依托其海量数据处理能力和庞大的广告主资源, 虽然 G 一直想多元化经营, 但是很遗憾, 其他部门的营收真的只能算九牛一毛. 而 Y, 一直守着自己的目录式搜索, 跟进关键词搜索的模式还是慢了点, 而且技术也糙了点, 等发现广告市场的风向从 Banner 广告转向精准定位时再去做 panama, 不仅时机上落后于人, 技术上也一直跟不上, 发了那么多 paper 也无济于事. 市场只看结果, Google 两倍于 Yahoo 的 CPM, 再加上几倍的市场份额, 就注定了一个会进入良性循环而另一个在恶性循环中苦苦挣扎, 好像 Yahoo 都快要被收购了?

再举个例子, Apple 和 Nokia. Apple 固然有其工业设计等因素推动其前进, 但是 App Store 确实是个伟大的战略, Apple 通过 iPhone 的强大, 时尚等特性扩大用户群, 然后通过 App Store 来吸引开发者, 把付钱和赚钱的渠道打通, 然后两边都能进入良性循环, 用户能有越来越多的好应用可以使用, 开发者也越来越容易从自己的好作品中获利. 而 Nokia, 现在好像只剩下调侃他 结实 和 续航 的段子了, 功能和设计上的不思进取导致了用户群流失, 对开发者不友好, 开发者很难赚钱导致开发者流失, 最后也就只剩下 Nokia 自己在推官方应用, 以及一些大公司为了安抚用户推出点 Symbian 的客户端, 用户和开发者两边都恶性循环, 最后的结果, 微软要收购诺基亚的谣言好像又越来越盛了?

增值服务都在闷声发大财

前面那个部分基本上都是在吐槽, 也没提出什么建设性意见, 毕竟生活方式的革命不是谁都能想出来的, 最近几年全球在互联网和移动互联网上的大跃进也基本上掏空了大家的需求. 如果不能 revolution, 那回头考虑下 evolution, 很多传统行业还是在低调的赚钱, 赚大钱, 靠的就是 evolution.

因为工作关系的原因, 过去几年关注互联网广告比较多, 这是个很奇怪的市场, 不管是国外的 Google, Yahoo, Bing 等等, 还是国内的 百度, 淘宝 等终端服务商, 都在拼命发展自己的技术能力, 把系统弄的越来越牛逼, 也越来越复杂, 而需要使用此服务的广告商, 根据个人的了解, 不管国内还国外, 都是小白, 而且一个比一个白. 看起来好像是先进生产力和生成方式跟落后劳动者的冲突了, 解决这个问题, 要么是广告主自己学习进化, 去适应更精细的游戏规则, 但是这个途径太麻烦, 并不是每个人都需要在每个领域都成为专家, 特别是很多广告主是中小企业, 压根没有人力来做这个事情, 大企业很多也没有太多人力来做这事, 那要么就是引入中间人, 让专门的人来做专门的事. 说到这, 想起来前段时间京东老总刘强东在微博上说要自己建干线物流, 其实也是类似问题, 要么由中间人 (干线物流公司) 来完成这部分自己不擅长, 也不必要去擅长的工作, 要么就自己花很大成本去做这事了, 这是一个反例.

回到互联网广告的中间人, 一般会管他们叫 广告代理公司 或 SEM (Search Engine Marketing), 这个市场在国外貌似稍微成熟一点, 在国内大都是很糙的起步阶段. 这里面有非常多的事情可以做, 不同的网络媒体, 不同的投放优化方式, 拿人钱财替人消灾, 据说这个行业的毛利润至少有 10%, 佣金是一部分, 优化后的利润空间自己也可以分一部分, 可惜现在这个圈子缺人缺技术, 好多人都是看着钱在面前, 却捞不到, 腾不出手捞, 没空捞.

在互联网广告之外, 帮别人赚钱也是一门很大的生意, 淘宝自己就是干这事的最大中间商, 什么聚划算啦, 直通车啦, 都是为了更好的让卖家赚钱, 同时自己收佣金或压缩成本获利. 在淘宝之外, 目前应该也有好大一批帮淘宝卖家赚钱的创业企业在行动了, 我猜赚钱也是大大的, 低调发财真好. 因为有朋友在这个圈里, 为了不直接导致市场白热化, 这事就不说太白太细了. 继续感慨 “小钱钱, 真心甜.”

游戏行业的暴利

早几周本科室友 6k 来北京玩, 因为他自己是个狂热的游戏玩家, 同时也在游戏行业做了好几年, 于是就扯这行的暴利. 现在在互联网上现在被骚扰的最多的估计就是游戏广告, 而且游戏广告都很贵, 从这点上来看也就知道游戏有多赚钱, 不然他们不会一直烧下去的.

国内的网游应该已经没有靠点卡赚钱的了, 魔兽世界这种极品不是阿猫阿狗都做的出来且能运营好的, 绝大部分都是靠增值服务, 提供钱换时间的服务, 比如更好的装备, 更快的升级等, 更赤果果的是卖道具, 除了好看啥用都没有的道具, 还贼贵. 考虑到现在做一个真正好玩的游戏确实太费时间太难, 点卡赚钱不靠谱, 破坏游戏平衡性的增值服务又不能搞太多, 那么最后现在大部分游戏的运营模式都进入了这样一个外人看不懂的怪圈:

  • 通过免费, 甚至送钱的方式, 吸引大量玩家并努力保持黏性 (赚点卡的境界)
  • 发展高端付费玩家, 让大量玩家陪玩, 使他们获得尽可能大的满足感 (破坏游戏平衡性的增值服务境界)
  • 引起付费玩家的妒忌, 让他们互相砸钱买无用道具来攀比 (让玩家烧钱给自己的境界)

老实说我自己觉得这种方式太下作, 但是人傻钱多这种事情又不是我能决定的, 官二代富二代烧的钱再怎么来路不正我也没有足够能力去明显改变这个世界, 这里只是说下暴利情况. 千万不要看不起烧钱的玩家, 人家都是可以几秒钟花几万人民币的, 所以, 养好你的免费玩家, 甚至雇点职业玩家陪好人民币玩家, 然后就让他们互相在你的游戏里烧钱就行了. 如果没有那么强烈的正义感, 也不像某些游戏制作人一样有真正的梦想, 有点技术又想快点捞钱, 这个路子确实不错. 但是我还是会持续鄙视做这种游戏, 运营这种游戏, 和在游戏里烧钱的人.

这一节主要是想说, 你是否赞同并支持自己做的事和赚钱是不冲突的两回事, 只要你放的下良心和矜持, 钱也还是比较容易来的. 这一点, 比如 Jack M, 嗯 这事不能说太细.

关于毕业去哪里

因为自己最近换了个地方, 看了看最近呆过的这两家, 更像是同一家的不同阶段. 百度已经相对成熟化, 更多的是靠整体技术和制度在驱动, 而人人相对有更多的个人英雄主义和随意性.

对应届生来说, 如果不是自己能力比较强, 或自己有很好的想法, 还是建议去类似百度这样, 还在上升期的技术性大企业, 学东西相对有保障, 周围有热心的大牛的概率也要高很多, 钱可能会少点, 短期收益不会那么明显, 但是长期来看是在打更扎实的基础. 相对的, 爆发期的小企业会有很多机会, 发挥的自由度会大很多, 如果有不错的底子, 只要是不那么坑爹的团队, 总能干出点很赞的事情. 缺点基本上就是两者的优点互换一下, 大企业的整体框架会相对稳定, 制度比较完善, 每个人更多的会扮演螺丝钉的角色, 而且看事情的面会稍微窄一点, 做的比较好也是某个位置上比较优秀的螺丝钉. 而小一点的地方如果遇上好的老大和团队, 确实能更快更好的成长, 但是这种机会相对可遇不可求, 所以除非确定, 按笨狗胆小心理, 是不会去赌的.