工作是为了什么? (1)

填坑, 之前预告过的 “是为兴趣而工作, 还是工作只为糊口, 而兴趣在别处”

首先, 先回忆下自己到底做过什么称得上是工作的事情.

2006, 在 KO, 小强, 高杰完成 WOJ 的第一版 noah 后, 自己做了一套 UI, 该 UI 后面一直被沿用至今, 无聊的群众可以去 http://acm.whu.edu.cn/learn/ 围观, 当时由于没找到漂亮的中文字体, 又不愿意大量用图, 所以当时尽量用英文, 估计不少人看过那个语法错误百出的版本后骂过设计者的英文水平.

2006~07, WHUACM 的负责人, 完整组织过一次华中区邀请赛, 组织出过一次题, 就那么几个人, 也还把事情做了, 也忽悠到后面有人愿意延续, 自认为还不错.

2006~09, 珞珈山水程序站务, 兼任过一段时间的管理站务和美工, 打杂看场居多, 主要是维护稳定性, 几乎无创新, 不过倒是对一些 *nix 的乱七八糟的应用了解了一点, 感谢那台蹂躏我到死的 SUN Fire v880 + Solaris, 以及 KBS 的各维护大神以及前世今生的各开发人员贡献的高质量框架.

2007, 百度 CPRO 实习, 当时时间比较短, 只有两个月, 所以酱油成分居多, 主要是大致明白了文本广告 (Contextual Ads) 的处理流程, 了解了一点关键词提取 (Keyword Extraction, KE) 的技术, 然后做了一段时间的人工评估.

2007~08, 谷歌上海工程院实习, 持续了接近四个月, 中间在做谷歌资讯的正文识别优化和相关性优化, 也非常酱油, 主要是那个系统已经稳定运作了那么久, 加上 Google 的基础技术确实非常强大, 也没有什么好改进的, 自己发现的几个需要改进的点跟进了一段时间后, 发现其实是早就有人发现过的坑, 但是因为 Google 做什么都希望做到 I18N, 然后语言一复杂系统就不可控了, 所以都没人去碰那个烫手山芋, 自己到最后果然也还是没有作出任何本质改进. 期间把整个新闻搜索的抓取/析取/分类等过程大致了解了下, 然后乱七八糟学了一些基础工具和基础知识.

2008, WOJ v2.0 (flood), 跟 ooeyusea 还有 magiii 三个人一起把这个 ACMer 重复发明了无数次的东西再次发明了一次, 自己做的是 Judge 内核, 当时向 xuchuan 和 sempr 等人学了不少东西(部分是偷学), 对整个系统的架构提出了不少目前看来也还是很赞的想法, 可惜的是最后整套系统的中心节点有莫名其妙无法复现的问题无法稳定运行, 最后还是被弃用, sigh.

2008, 本科数据结构课程的上机教辅, 这个没什么特别的地方, 让自己复习了下数据结构而已, 然后看了更多的 bug.

2009, 香港理工大学助研, 一开始是想在 Summarization 这个方向上搞搞看的, 因为老板就是做这个的, 但是后来发现我 Graph Mining 方向上实在是够迟钝的, 于是捡起之前在百度实习时的 KE, 埋头在这个上做优化, 最后硬是把 Graph Mining 和 KE 给搞到一起去了, 结合所谓的社交化趋势, 在论坛等有回复引用等关系的页面场景下不同位置的话题焦点因素引入 KE, 最后成功灌水一篇,不过会都没去开, 活这么大唯一一次有脱离大中华区的机会也没走成.

2009, 微软亚洲研究院实习, 优化一个几年前本质是以图搜图的Best Demo 的性能, 以及寻找该 Demo 的实用化路线, 这里又要把无敌的小强同学再次拉出来, 因为这个 Demo 最早是他实现的, 传了这么多年还是这个样子, 在我手上最后也没能优化到一个能大规模工业化应用的程度, 足以见得小强的强和笨狗的弱, 中间大概明白了所谓的K-means 聚类以及图片内容搜索到底是怎么一回事, 然后无聊自愿去做了一天Vendor 的活去在北京的地铁站里转了一天拍素材, 但是最后实际也只看到了问题表现,没能明白问题本质, 图像特征点提取算法也没看懂.

2009~11, 百度凤巢策略实习/工作, 一开始在做查询语句到关键词扩展的机器学习模型优化, 学写分布式程序 (这个其实本该 07 年在 Google 学会的), 写特征提取框架, 看 Logistic Regression 看到后面自己都晕了也没真正去实现过一次, 主要还是工程方面的工作, 以及一些鸟枪法的特征筛选, 到后面积累到足够多感性认识可以有针对性的优化模型特征集时, 已经没太大优化空间, 而且自己也因为整个大组的重组而换了方向. 换方向后做的是个性化投放, 简单来说就是根据用户特性进行有区分的广告投放, 有人喜欢广告那就给他多出点, 有人不喜欢就少出点, 最好是还能做到更精确的意向识别, 比如某人是做机械产品的, 那电子产品的广告可以给他少出, 而机械方面的可以多出, 但是这个方向在最简单的第一版准备实验时因为要回学校毕业而转手出去, 其实这中间大部分工作还是在做数据积累的调研, 以及工程实现, 对万能的贝叶斯方法初窥门径. 从学校毕业后正式入职, 一开始在做广告客户的转化率优化方向打了段酱油, 还是在做模型的特征提取, 因为之前有做过相关的工作, 所以这边稍微快一点, 但是那个 python 框架最后还是被改成了 C/C++ 的, 因为要跟别的东西兼容, 而公司里是没有官方使用 python 的, 自己调研的程序除外. 然后被卷入整个大组该年最高优先级项目中, 做广告竞价中的计费优化, 为了响应该项目不同时期的需求而把优化方向改了又改, 受 xx 和 yy 两个坑爹的策略影响, 自己做的调研工作虽略有成效但还是无疾而终, 虽然现在又开始捡起当时的一些方向继续下去, 但是这是后话, 也跟自己没啥关系了. 在最高优先级项目上线后, 临时转去做了一把推词的工作, 大意是如果某人想做搜索引擎推广但是不知道买什么关键词, 我们根据他的广告跟别人的相似度给他推荐相关的广告关键词, 没太多技术含量, 救火队员性质的活. 再后面就转来挖现在手头这个坑, 自动出价, 听起来巨高科技巨科幻的一个功能, 事实上做的我整个人也科幻了, 第二次把一个前无古人的功能从头实现到位, 恶心吐了, 目前这个坑在开始出成绩了, 希望结果能好看点, 别跟以前的坑要么做完了就啥都没了, 要么转手给人了, 要么, 要么直接就莫名其妙的没了, 无声无息的没了…

####

太累, 今天写到这里先, 明天继续写 “自己感兴趣过的事情”, 从大学开始几个关键词应该是灌水, DIY, WebUI, 魔方, 铁路, 成仙了一样的无欲无求浑浑噩噩

笨狗又一窝

笨狗的自留地, 闲适时涂鸦撒野, 严肃时讨论技术

工作是为了什么? (1)