欢迎访问leyu乐鱼体育中国历史网!

一文讲透大数据分析【leyu乐鱼体育】

时间:2021-12-01 00:23作者:leyu乐鱼体育首页

本文摘要:作者:燕飞Kyligence 大数据老司机,拥有凌驾15年的大数据/数据堆栈领域从业履历,对大数据/数据堆栈的建设计划、架构设计、技术体系、方法论及主流厂商的产物息争决方案,均有深入的研究和实践。【开胃菜】十五年前,刚开始事情,从帝都回老家。某尊长平和的问我:“事情了啊,做什么的?”我犹豫半天答曰:“挨踢(IT)。

leyu乐鱼体育首页

作者:燕飞Kyligence 大数据老司机,拥有凌驾15年的大数据/数据堆栈领域从业履历,对大数据/数据堆栈的建设计划、架构设计、技术体系、方法论及主流厂商的产物息争决方案,均有深入的研究和实践。【开胃菜】十五年前,刚开始事情,从帝都回老家。某尊长平和的问我:“事情了啊,做什么的?”我犹豫半天答曰:“挨踢(IT)。”尊长不假思索的来了一句:“哦,在中关村卖光盘啊!”我......我.....我......(叔叔,你知道的太多了)【副菜】五年前,一夜之间,“大数据”一词开始红遍大江南北,再遇到别人问我时,我终于可以用一个网红词来轻松回覆:“做大数据的!”(谢谢移动互联网的生长,谢谢各大IT厂商的炒作,谢谢国家的重视和计划,谢谢所有TV和AV)但就在上个周末,跟老妈电话聊家常时,她突然很勤学地问了我一个很有深度的问题: “我知道你是做大数据的,但你们大数据到底都在做些什么?”我一时词穷,不知道该从何说起。

而类似的问题在知乎上也经常被一些即将面临就业、被“大数据”三个字圈粉、希望成为数据人的莘莘学子们所追问,因为人懒,基本上都没有好好回覆过。于是,为了给普及“大数据”孝敬点绵薄之力,为了让边缘人士们对大数据多一点基本明白,也是为了能回覆老妈的问题,我决议写篇文章(省点电话费)来先容一下大数据以及数据人的日常事情。大数据虽然已经是大家耳熟能详的热词,但数据领域里的许多术语和观点仍然会让人不明就里,所以我准备从“做饭”这个普通人应该都有基本相识,老妈更是熟稔于心的领域来切入。

【主菜】正所谓“巧妇难为无米之炊”,做饭首先得有食材,大数据也一样,没有数听说什么都是扯淡,所以数据就是数据人的食材(只要有数据,我不用用饭)。做饭通常都要包罗“买菜~洗菜~配菜~炒菜”这几个必须环节,无论你是开饭馆还是家里一日三餐,做饭的规模巨细会有差别,但流程却是一样的。而这几个环节其实正好对应了数据人的日常事情内容:买菜(数据收罗)~洗菜(数据清洗)~配菜(数据建模)~炒菜(数据加工)。

1、买菜(数据收罗)买菜,出门首先要思量去那里买,到地之后溜达溜达看看买什么食材,看中一个之后讨价、还价、交钱,肉、蛋、青菜,种种要买的食材都得按这个流程来一遍,买齐之后就走人回家了。对于数据人来说,我们把这个买菜的历程叫做数据收罗。菜市场就是我们通常所说的数据源。

买菜的选择许多:超市(种类较少,质量上乘),农贸市场(种类较多,菜品一般),露天早市(啥都可能有,运气好还能吃到野味)。数据源其实也一样,数据库(超市)中存储了却构化的业务数据、生意业务数据,传感器(农贸市场)发生大量半结构化日志数据、机械数据,网络上(早市)。充斥着种种乱七八糟的非结构化数据。

到了菜市场我们得选菜,所有的食材我都想吃,但钱永远是不够的,所以我只能有选择性的买,这个历程叫数据调研,哪些数据是有用的,哪些数据用得起,得有个筛选。溜达了一圈,确定要买猪肉、鸡蛋和黄瓜,得跟卖家挑肥拣瘦、讨价还价、敲定斤两,这个历程叫数据接口规范。

费劲口舌,劳心劳力把菜买齐之后提菜回家,这个历程叫数据传输。凭据买菜方式、习惯的的纷歧样,数据收罗还可以细分出许多类型:肉类保质期长,一次买一周的量,可以叫全量收罗。

青菜讲求新鲜,每次只买当天的菜,可以叫增量收罗。天天早上都得去买菜的,可以叫批量收罗。卖家每次上了新菜都主动给你往家送的(土豪专用),可以叫流式收罗。

2、洗菜(数据清洗)洗菜就很好明白了,无论那里来的食材,都几多存在卫生或者质量问题,买回来后都得洗洁净、摘清楚才气吃,否则小则影响口感,大则损害康健。数据也是一样,拿回来之后得检查一下,数据内容有没有缺斤少两,数据值里有没有烂菜叶,否则后面的报表、分析出来的效果就全是错误结论了,我们把这个检查、纠正数据自己错误的历程叫做数据清洗。由于数字世界里种种数据源的多样性、庞大度远远高于现实生活里的菜市场,数据清洗流程需要面临和处置惩罚的问题也就远远多于洗菜,为相识决和防范数据发生、使用历程中泛起的各方面问题,数据领域细分出了一个专门的研究偏向叫数据治理,好比:为了相识各个菜市场的情况,我们需要记载每个菜市场、每个卖家的猪肉、鸡蛋、黄瓜等种种食材的巨细、颜色、价钱等特点,这个叫元数据治理。

记载完之后发现每家的特点都纷歧样,完全没有可比性,于是我们决议对猪肉、鸡蛋、黄瓜的巨细、颜色、价钱举行统一划定、统一订价,这个叫数据尺度治理。定完尺度之后,我们得定期对各个菜市场举行检查,看看他们有没有按尺度服务,这个叫数据质量治理。

3、配菜(数据建模)配菜指的是凭据要炒什么菜,将需要的种种食材事先搭配好放在一起,好比说我们要炒木须肉,那就把猪肉、鸡蛋、黄瓜都洗净、切好放在一个碗里,这样在炒菜的时候可以手到擒来,无需随处找食材,能够很好的提升炒菜的效率。一般家庭做饭可能不会严格这么做,但对于餐饮行业来说,这是必备环节,想想买回来一车的食材,洗净、切好之后,如果没有一定的摆放纪律,不能充实保证大厨炒菜时的效率,客户半天吃不到菜,那这个饭馆的翻台率和转头率绝对高不了,还是赶早关门大吉。(老妈是个统筹计划能力很强的精致人,无论是宴请来宾还是一日三餐,都市在炒菜之前把各个菜所需要的食材举行事先搭配,所以让我得以相识。

)而在数据工程里,也同样有个专业性很强甚至被神话的配菜流程,这就是传说中的数据建模。数据建模就是建设数据存放模型,把各个数据源过来的种种数据凭据一定的业务规则或者应用需求对数据重新举行计划、设计和整理。配菜这个流程也许在做饭历程中不起眼,有时候无关紧要,可是在数据工程里,数据建模却是个很是关键的环节,所以多说两句。

数据的种类之多、庞大度之高远远凌驾食材,好比一个银行,内部和业务、流程、治理相关的IT系统一般都凌驾100个,这也就是100多个菜市场,而每个菜市场能够提供的食材少则数百个,多则成千上万个,这都放在一起就是几十万个食材,再加上外部越发庞大的其他数据源,这么多差别类型、差别尺度的食材放在一起,怎么才气让后面的炒菜越发高效和科学,其庞大度和可研究性也简直远远高于真正的配菜。正因为如此,在数据生长史上泛起了不少专业的建模(配菜)方法论:好比说按食材种类举行摆放的(猪肉放一堆,鸡蛋放一堆,黄瓜放一堆),我们叫范式建模,你要是开个暖锅店或者准备吃暖锅,那肯定是接纳范式建模来配菜了好比按菜品种类举行摆放的(炒木须肉的放一堆,炒宫保鸡丁的放一堆),我们叫维度建模,你要是吃个家常炒菜,那接纳维度建模方法来配菜就更合理了种种方法论都有其发生配景、适用场景和支持者,为了不引起战争,这里就不做深入讨论了在这些方法论基础上,经由不停的实践和研究,一些领先的数据厂商推出了尺度的行业数据模型,什么叫行业数据模型呢,因为每个行业的业务特点纷歧样,好比说银行业、电信业、零售业的业务模式就有很大差异,数据也是纷歧样的,所以差别行业的数据怎么摆放,数据模型怎么设计,有着很强的行业奇特性,所以每个行业都需要自己特定的数据模型,这叫术业有专攻。上面这段话没看懂?没事。简朴来说,行业数据模型就是“饭馆筹备攻略”。

好比说你以为川菜很赚钱,想开个川菜馆,但你只是个尺度吃货,只吃过猪肉没看过猪跑,怎么办?没事,我这有本“川菜开店筹备攻略”,内里什么都有:首先,攻略里会告诉你川菜里有哪些知名、盛行、脱销的菜品(好比水煮肉、毛血旺等等),定期更新,图文并茂,这样菜单有了。其次,每个菜品应该用什么样的食材,划分的配比是什么样的,攻略里已经终结出来了,而且是来自各台甫厨的履历和终结,于是菜谱也有了。

再次,每种食材在后厨的摆放位置是什么样的,这么摆放能够在厨房的有限空间里最大化的提高峻厨们事情效率,详细的设计图纸攻略里也给你画好了,这样厨房设计图也有了。最后,我还告诉你每种食材去那里能买到,那里最经济实惠,连供应链都帮你买通了所以,万事具备,只欠东风,你只要找个门面,雇两个蓝翔结业生,我们就可以开业大吉,财源滔滔了。什么,找门面很贫苦,没事,我们连店面都可以提供,接待加入我们的加盟连锁计划,我们不光提供攻略,连店面也一起提供,带精装修的、锅碗瓢盆一应俱全。

(传说中的一体秘密进场了,固然,这是另外一个故事,先不展开了。固然,如果不想开川菜店,我这里另有粤菜、湘菜、鲁菜......,嗯,“八大菜系开店攻略”我这里都有。(以上内容稍微有点夸大,开个饭馆不是一本攻略可以搞定的,做大数据也不是只有模型就可以的。

不外许多时候,外人眼里的数据模型就是这么一本“葵花宝典”。)说点题外话,由于数据建模的专业性太强,很是需要履历的积累,于是在数据行业里衍生了一个专门卖力配菜的工种叫“模型设计师”,某全球知名厂商T公司的模型设计师就是业内各大猎头和甲方的香饽饽,T公司一度被挖成重灾区。

leyu乐鱼体育

4、炒菜(数据加工)炒菜相信大家都不生疏,如果配菜是个艺术活,那炒菜就绝对是个技术活了。列位大厨不光要有能力把种种食材组合起来炒熟,还得灵活运用油、盐、酱、醋等多种配料,保证菜品的色香味俱全。而且既然是开门迎客,种种消费者的需求都要能够响应,而且要响应的既快又好。

数据加工就是在炒菜,是个将种种数据举行盘算、汇总、准备的流程,是为最后的数据应用和数据消费者服务的。客户的要求总是千奇百怪的,所以凭据数据消费者的需求差别,数据加工的形式也是百花齐放。老板们时间名贵,注重宏观,所以一般只看重要指标,而且要求图文并茂、简朴易懂。

这就好比天子天天都吃满汉全席,所有菜品都是牢固的,可是菜品得色香味俱全、上菜速度得快。所以大厨们得事先把数据加工成仪表盘、可视化大屏等让人对关键指标一目了然、而且卖相高峻上的数据应用,而且接纳种种技术手段保证数据应用的性能(上菜的速度),否则天子饿了的时候不能实时上菜,谁都背不起这个锅。

官员们各管一摊,天天都要面临种种日常事情和突发情况,所以他们对数据的要求是既要有通例菜品能满足日常治理需要,也要能有分外菜品来应对突发情况,而且上菜速度也不能慢,县官不如现管嘛。所以参考自助餐的模式,数据大厨们可以将数据加工成多维分析、自助分析这类数据应用,凭据履历和官员们的口胃喜好,将有可能用到的菜品通通提供出来,官员们饿了的时候可以凭据需要随意品尝,贴心又暖胃。

员工们也有数据需求,但通常需求简朴,难点在于人多、需求量大,所以将数据加工成报表这种类似于快餐的数据应用就是是最好的方式。数据加工除了满足以上种种数据需求,另有个不得不提的职责就是数据创新。这就好比为了保证饭馆的竞争力和消费者们的新鲜感,不时推出新菜品也是大厨们的职责所在。

而在数据圈里,通过数据举行创新已经成为潮水和共识,于是,数据分析师、数据科学家这些角色开始粉末登场。他们的事情就是通过通过实验种种数据(食材)和参数(调料)的组合方式来探索和掘客新的业务时机。

而由于食材的量实在太大,配料比例的颠簸规模就更是无止境,难以靠人力把种种组合方式举行穷尽。于是,随着数学理论和技术生长,通过算法让盘算机自动举行食材组合、调料配比从而发生新的发现成为可能,也就是我们现场经常听到的数据挖掘、机械学习了。【甜点】码字很累,洋洋洒洒写了不少,但感受有些点还没有写透,有些方面还写的比力牵强,但领会精神最重要,放张大图,大家意会一下吧。

水平一般,能力有限,抛砖引玉,接待种种意见和探讨。


本文关键词:leyu乐鱼体育,一文,讲透,大,数据分析,【,leyu,乐鱼,体育,】

本文来源:leyu乐鱼体育-www.vrdecember.com