石家庄快餐美食交流组

2017年,我的大数据的得与失!

只看楼主 收藏 回复
  • - -
楼主

点击上方蓝字关注公众号

请您点击“与数据同行”以“关注”,关于数据的实践与思考,每周一我在这里等你!

作者:傅一平 就职于浙江移动大数据中心  微信号:fuyipingmnb  欢迎交流!

2017年,就要过去了,这一年想了很多事,也实践了一些,取得了一些进展,但也留下更多遗憾,需要在2018年去解决,特此分享于你。

1、关于大数据变现

我们成立了对外拓客的模型团队,用精准去赢得客户,这是以前从来没有过的,走在正确的道路上很重要。

一般企业的短信营销点击率(里面有链接)能做到多少呢?我们希望能达到50%,这也许是个不可能完成的任务,但精准的驱动力还是太强了,在很多场景上,我们从1%开始做,迈到了5%,10%,直到34%,虽然没法达成终极目标,但对于精准的探索过程让每个人受益,每次客户的复购对于团队都是莫大的鼓励。

大家开始用越来越多的数据,而不拘泥于原有的那几个,开始借助机器学习的力量,让经验值变得更为科学,开始采用集体决策的方式,而不囿于个人的思维,开始更多的关注前端,与销售一起去见客户,开始从关注数据到关注场景,从用语到渠道到实时,开始越来越多的用数据说话,比如对于给商铺多大范围的人群投放能达到最高的性价比有了科学的数据支持。

2018年,如何规模化、快速、高效及低成本的进行精准拓客是模型团队的挑战,现在靠人工的方式还是慢了。

2、关于大数据建模

正如笔者在以前文章中提到过的,运营商需要围绕位置、内容、推荐、社交及时空建模让数据产生真正的价值,这是运营商规模化变现的未来。

在位置模型上,开始用MR数据来提升位置定位的精准度,从几百米提升到100米以内,取得了不错的开始,无论是在网格化、客流还是其他产品上,已经出现了MR精准定位的身影,但数据质量、定位精度及时效性上还是问题很多,10*10是下一步的目标。

在内容解析上,发布了神灯.行业知识图谱,从商品、视频、阅读、金融再到餐饮积累了4600万条知识,行业知识图谱让运营商的通话、短信及上网数据焕发出新的生命力,成为对外变现强有力的武器,这是需要坚持的道路,2018年会突破亿。

在智能推荐上,围绕视频业务探索了业界主流的算法,从关联规则到协同过滤再到矩阵分解,互联网成熟的东西一定要掌握在自己手中,研发的混合算法终于成为了咪咕爱看的智能化引擎,这对团队的在线推荐能力的提升至关重要,虽然这期间走了很多的弯路,还没有达到预期的效果,但也积累了一定的经验,2018年将在视频、阅读、彩铃等更多方面发力。

在时间序列上,虽然做了很多尝试,比如研发了天盾,但基于单类维度的时间序列的信息还是太少了,基础多维日志数据的模型整合任重而道远,同时大规模频繁项的挖掘对于平台和建模师的挑战很大,我们还缺乏足够的积累,这是下一步需要突破的方向。

在社交网络上,无论是朋友、亲戚等标签的打造、双网的挖潜以及企业成员的拓展,都有了些进展,但大规模社交网络的应用还缺乏好的场景。

今年还探索了TensorFlow,基于CNN跑通了地铁用户的识别,准确率在80%, 2018年需要再来,重点解决适合运营商的场景问题和训练成本问题。

3、关于大数据管理

2017年依托于千人计划,将DACP(数据管理平台)终于推广到一线了,让更多的人以较低的门槛可以访问到所有的数据并能自主的进行开发,这个事情的现实意义不亚于建设一个大数据平台,现在各省的大数据平台差不多,在平台建设喧嚣之后,未来见真功夫的将是大数据平台的运营。

DACP优化做了几个事情,一是贯通了DACP与标签库,实现了标签的一点快速发布,也就是你刚开发完一个模型,就可以按照规则快速转化成标签,所见即所得,以前人工配置标签的代价太大了,二是DACP与yarn等贯通了,可以高效的核查问题了,这个功能折腾了很久,数据管理平台建设的难点就在于要跟各类大数据技术组件结合,成为一个一站式平台,三是针对数据字典不可用的情况,打造了更为贴近用户使用习惯的业务字典,从微信群经常看到有人贴出字典的截图问问题,说明字典真的有人用了,看着是一小步,但实际是数据管理的一大步,四是DACP的运营起来了,通过常态化搜集一线需求,使得平台的优化有了持续的驱动力。

2018年要干几件事,一是机器学习的平民化,打造集成R、Python、SPSS、Spark等各类组件的敏捷挖掘平台,机器学习需要解决面向不同角色的高低搭配的问题、数据挖掘中台问题、快速数据输入输出问题及训练和发布隔离问题,二是模型的快速推广问题,希望能做到“一点发布,全网推广”,让PPT的最佳实践推广能通过平台化手段来解决,这个对于开发的规范性、平台支撑能力提出新的挑战,三是要让DACP的管理能力延伸到源系统,真正解决二级互动的问题,现在虽然在做了,但还远远不够。

4、关于大数据运营

今年启动了千人计划,组织了大数据建模和应用大赛,带动了一定的大数据应用氛围,其实没什么经验,唯一的经验就是努力去尝试,在实践中不停调整策略,敢提千人计划是通过调研得出的结论,让更多的部门参与是多方协调的结果,培训体系的建立首先是团队全员努力的结果。

今年从无到有建立了大数据运营团队,大数据头条电子期刊做了60多期,成为了一个很好的信息发布渠道,智慧运营分析月会对于解决一线的问题起到了作用,全省做数据的微信群的建立也非常不易,当时的一个困惑是不知道全公司哪些同事是跟数据相关的,如何去触达他们,现在也基本解决了。

2018年将从“千人计划”升级到“星火计划”,将在赛事创新、降低门槛、技能提升及快速复制上进一步提升,重点从“人员培养”逐步过渡到“培养+创新”的阶段,依托不断优化的数据中台,为公式的智慧运营赋能吧。

5、关于大数据运维

今年初步实现了大数据运维(调度、告警,故障等)的分层分级管理,以前做经分运维的一个问题是面对庞大的存量,很难有勇气把几万的作业再梳理一遍,虽然大多时候能满足外部要求,但出问题了基本也是救火方式,做数据的,自己的运维却不是用数据来量化管理,想来也是非常汗颜的。

现在运维不能说有多好,但起码在每天运维人员的日报中都有清晰的数字告诉真实状况,包括延迟了多少作业,为什么延迟,这让我们看到了问题,也有了继续改进的机会。

开始尝试在运维团队中引入开发人员,虽然效益还不明显,但觉得运维必须自己做开发才是解决日常问题的关键,比如当前的交换工具还不支持异构hadoop集群的交换,运维人员自己搞了几台机器写了一些脚本来临时解决问题,效率还是很高的。

随着大数据平台规模扩大和引入的组件越来越多,当前数据运维最大的挑战是技术储备不足,导致解决问题的效率不高,这是大数据平台技术百花齐放后带来的必然结果,也是未来相当长时间内需要重点解决的问题。

6、关于团队的进步

2017年有不少的新人加入,让我们的团队越加年轻,充满活力,应该来讲,新一代做数据的人赶上了好时候,他们有更多的机会去学习新的东西,并且学以致用,大数据变现为数据建模师成长提供了绝佳的环境。

笔者记得自己进公司后做的第一个逻辑回归是工作了3-4年后的事情,而现在的新人几个月内就开始用这些算法去解决现实的问题。

随着培训体系的完善和数据中台的建立,新人的培训成本显著降低,这跟以前还是有所不同。

还有一个变化是关于核心能力掌控的,以前运营商BI人员掌握最多的技能是SQL,更多时候却是承担需求管理员的角色,虽然短期来讲可以熟悉业务,但长期却会造成眼高手低的现象。

现在,团队的数据建模师回到了该有的技术路径上来,这算是对于历史最大的纠正,实践也证明这样做是对的,虽然也有合作伙伴的协作,但不再是我说你做,而是一起说分头做,在建模创新上成为了绝对的核心,团队通过了8个集团专利,获得了全国QC的大满贯,在通信建模赛和IT大赛程序题上都得了不错的分数,这在以前是没有过的。

Google团队协作的做法的确是蛮科学的,最近看了李开复的书也坚定了笔者的信心,大家一起办公的目的不是简单的接受任务,而是要通过有效的沟通碰撞出火花,这对于一只创新型团队至关重要,成员做事有时的问题不是不够努力,而是一开始的起点过低,浪费了大量精力和时间,这个道理看似简单,但做到不容易,搞大数据要求大家的心态是开放的。

2018年需要为创新打造更好的协作环境,大数据没有创新就没有未来。

7、关于自己的学习

看书,写作和交流是我能想到的除了实践外,最有效的学习方法,今天书虽然买了不少,读了不少,偶偶还写写笔记,但自己的学习还是不得法的,离大师们差很远,比如李敖买书总是买两本,一本会把精华部分撕下来进行消化,自己就没有这个耐心,不是说形式有多重要,也不是说要读多少,而是要将书的东西转成自身的一部分必然要下更多的苦功夫,不是翻翻书就可以了,这个境界也不是短期能达到的。

今年跑了很多地方,从保险到电力,从大学到论坛,结识了很多朋友,无论是培训和交流,其实都是对自己的一次考验,每次回来都会作一次总结,发现很多不足,以前看人演讲很轻松,但实际全然不是这样,没有深厚的底蕴,是说不出什么东西来的。

2018年,希望能更进一步,与大家共勉!


历史部分文章

关注微信公众号"ysjtx_fyp"后点击精彩文章目录可分类浏览全部

传统BI的认知:

为什么BI取数这么难?

为什么传统BI没前途?

《BI的囚徒困境》

BI自助取数是怎么炼成的?

经分伙伴,我们如何携手度过下一个十年?

十幅图读懂BI自助取数系统!

报表系统的雄心

如何才能做好一张报表?

BI一线管理者的二次创业

《我们需要什么样的ETL?》

BI取数者的职业发展之路?

一本数据字典的三生三世

《为什么数据挖掘很难成功?》


大数据的实践:

大数据,为什么不是传统BI的简单升级?

不忘初心,大数据不是IT的狂欢!

《论运营商当下的大数据变现服务模式》

大数据需要什么样的合作伙伴

一个大数据应用是如何炼成的? 

《为什么选择这样的大数据平台架构?》

《决战大数据的对内运营》

《企业的数据中台的价值》

《为什么没人愿意为大数据洞察报告买单?》

《我们需要什么样的大数据培训?》

《传统企业大数据对内运营变现如何破局?》

《一个传统企业大数据发展的编年史》

一个业务化的大数据PaaS平台启示录

《大数据运维的思考》


数据管理的领悟:

《从DAMA出发,一个指标库到底是如何炼成的?》

《一本数据字典的三生三世》

《思考|谈谈数据管理的原则》

《重装上阵-大数据管理的实践和思考》

我如何完成一本企业数据字典的编写

为什么数据管理工作很难成功?

七幅图读懂企业的数据字典

六把武器? 谈谈DT时代的大数据资产管理


数据人员的修养:

《谈谈我的深入浅出大数据系列讲义课程》

《用数据说话:一份不算总结的半年度总结》

《这五个灵魂问题,解决BI新人80%的困惑》

数据分析师的自我修养

为什么有些人用3年的时间获得了你12年的数据分析经验?

经营分析师如何进一步提升自己的境界

数据从业者与PPT的进阶

运营商大数据:

《运营商大数据运营的现状及思考》

浙江移动发布手机终端大数据分析报告

联通的大数据反欺诈,依赖互联网公司靠谱吗?

电信运营商的反欺诈系统不会侵犯用户隐私!

DPI大数据之战,运营商的艰难抉择

PK BAT大数据?谈谈运营商大数据的价值

唯有数据创新,运营商才能实现大数据变现的突破

逆袭 | 运营商吸引大数据人才的七个优势

中国移动信用分悄然登场了!


我的读书笔记:

《阿里云机器学习平台的思考》

品《阿里巴巴大数据实践-大数据之路》一书(上)

品《阿里巴巴大数据实践-大数据之路》一书(下)

《读吴军的智能时代

如何清晰的理解区块链?

我如何理解深度学习?

进阶: 产品启示录

黑客帝国的前奏:工业大数据的崛起

互联网广告:大数据变现的颜值担当

《理解深度学习的钥匙–参数篇》

《理解深度学习的钥匙 –启蒙篇》




举报 | 1楼 回复

友情链接