八月 21, 2018

记一次时间戳导致的flume写hdfs失败问题

0x01 IO Error大早上被群消息@炸醒了,起床看了下消息,所有昨天的报表数据没跑出来,老板和运营同学没看到...

八月 20, 2018

大数据平台之ETL部分

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(l...

八月 20, 2018

大数据平台从0到1

写在前面:正好上周在给新同学介绍大数据平台,公司wiki上总结了一些文章,把这些文章整理整理,可以总成一篇比较系统性讲述数据平台的文章了。 0x01 数据...

八月 11, 2018

Drill在AI场景下的应用

写在前面:上周偷了懒没有更新博客,说好的坚持写作啪啪打脸,发现和懒惰做斗争真是一项艰巨又光荣的任务。 上一篇文章算一篇科普文章,讲述了SQL on Had...

七月 26, 2018

人生苦短,我用SQL

这是第一篇技术博客,从以往的经历中开始说起吧。 在Qunar的时候,接手过W哥的一个活儿:给搜索结果页的结果排序,当时并没有用上现在流行的机器学习等技术...

七月 25, 2018

千里之行,始于笔下

静谧的夜,mac里放着轻音乐,大脑思索着,像即将出发一样的旅行者一样,怎样开启写作之旅呢。 回想16年来北京的时候,当时上火车之前约好同学来车站接我...