首页 > 移动互联 > 数据科学的历史、开拓者和现代趋势

数据科学的历史、开拓者和现代趋势

2017-05-23 admin 移动互联 0人评论 4069

 数据科学的历史、开拓者和现代趋势   移动互联  第1张

数据科学的历史、开拓者和现代趋势随着数据科学的发展,其他相关专业出现了下降趋势,如统计学和计算机科学。谷歌的公开数据如下

自2010年以来,数据分析师的数量不断增加。

自2005年以来,统计学家的数量有所减少。

自2005年以来,计算机科学家的数量有所减少。

自2012年以来,数据科学家的数量激增。

你可以在LinkedIn或Indeed上找到其他的公开数据(每个招聘广告的申请人数),不过这个数据跟招聘市场相关。

其他类似的数据显示,所有传统领域的人数都在减少,比如六西格玛、数据挖掘、统计学、运筹学等。谷歌数据表明,在2011年左右大数据开始出现并呈指数增长趋势,到2013年大数据比数据挖掘和六西格玛更流行了。同样也是根据谷歌数据,尽管大数据的崛起引人注目,但开始于2006年对“分析”这个关键词的搜索量更为壮观。在2012年搜它的人数逐渐减少,但仍然比大数据高出6倍。

当然,在2000年,许多专业人士(包括我),做了统计学、运筹学、计算机科学、六西格玛、精算学、生物统计学,或一些其他的狭义定义的“分析类”活动,积累了丰富的经验、领导能力、广泛的知识、敏锐的商业头脑、跨越许多领域的专业知识。因此他们的职位头衔经历了演变,但他们都有共同点:数据分析行业从业者。同时,数据和现代数据架构的发展,如MapReduce,影响了所有行业,成为许多专业人士的共同特性和必备。

注意 数据科学家比数据挖掘更广泛,包括数据集成、数据采集、数据可视化(包括仪表盘)和数据架构。数据科学家还须度量数据科学活动的投资回报率。

统计学将会复兴

很多人都说统计学会消亡,有些主要的统计学家自己也说统计学会消亡。我相信统计科学最终会复兴,但它会更多地应用于大数据,并适应于大数据,且由更少的模型驱动。它将与计算机科学、预测模型、数据挖掘、机器学习、运筹学和六西格玛的某些方面,以及数据库架构结合在一起,被归纳称为数据科学、业务分析、决策科学、数据情报、分析学,或其他一些尚未被创建或重复使用的术语。我们现在正处于分析学革命的中间阶段。

特别是,像我这样的人,虽然有一个新的职位头衔——数据科学家,但仍然做统计学兼职,有时甚至涉足前沿的理论统计学。对我而言,我已从业25年之久,一直使用那些在1750年被认为太复杂、计算能力不够而被抛弃的,但是足够健壮的技术。在1750年,由于当时计算能力的缺乏,导致了1800年左右一批新颖的、对数学友好的技术出现,它们具有简单的公式、方程形式,如最小二乘回归。这个框架一直延续至今,可能是导致传统统计学家人数减少的原因,现在大数据的健壮性比以往任何时候都更重要,当在分布式系统中(在有MapReduce的云中)几分钟就可以处理10亿字节的数据时,计算的复杂度将不再是问题了。同时,大多数现代科学家、地理学家、医生、计量经济学家、运筹学专业人士、工程师等都具备较好的应用统计知识。然而,软件工程师和计算机科学家有时会像记者一样忽略或误用统计科学,如开发的系统里(例如,推荐引擎)有大量未被发现的虚假评论和欺诈行为。最终,统计科学将开始踏足这些领域。

有人说,大多数数据分析师都是统计学家。在我看来,数据分析师是一个初级头衔,通常是一个有工学学士学位或文学学士学位的人。统计学家有更多的理论背景,在大数据出现之前就使用以前开发好的数据模型,并且拥有硕士或博士学位。每天编写SQL查询和报告的人是数据分析师。

我不当统计学家的部分原因是因为美国统计协会:它改变了统计学家这个关键词的意义,这限制了统计学家的发展前景,使其狭窄且单一,只与医药行业、政府(调查、人口普查、政治事务)、小数据(统计学家的大部分收入来源)相关。在过去15年里,该协会一般不参与或跟随基于大数据的新的统计革命。作为一名比利时公民,我可以对比利时统计协会说同样的话。所以这一趋势不仅限于美国,而且也不仅限于(美式)英语国家,还包括法语和荷兰语国家,以及其他语种国家。

统计学家应该非常熟悉计算机科学、大数据和软件——1万变量的10亿行数据,对真正的统计学家应该是小菜一碟。在云中(甚至在笔记本电脑上的流数据),这个数据量都能够快速处理。第一步是缩减数据,即使你必须保存所有的观测值和变量,仍然可以缩减数据。一个优秀的计算机科学家也能生成置信区间:你不需要因此而成为一名统计学家,只需会使用本书后面讨论的分析桥第一定理即可。计算机科学家和统计学家之间的区别变得越来越小和模糊。但无须担心,虽然你在学校没有学到这些知识(统计学的课程),你仍然可以在网上学习。

历史与开拓者

现在,让我们来看看数据科学的历史,以及一些在分析学和数据科学领域堪称先驱的公司。首先,看一看从20世纪80年代末开始流行的关键词,和对2022年的一个预测。

1988年的关键词:人工智能。另外还有:计算统计学、数据分析、模式识别、规则系统。

1995年的关键词:网络分析。另外还有:机器学习、商业智能、数据挖掘、投资回报率、分布式架构、数据架构、量化、决策科学、知识管理、信息科学。

2003年的关键词:业务分析。另外还有:文本挖掘、非结构化数据、语义网、自然语言处理(NLP)、关键绩效指标(KPI)、预测模型、云计算、升力、收益率、NoSQL、商业智能(BI)、实时分析、协同过滤、推荐引擎和移动分析。

2012年的关键词:数据科学。另外还有:大数据、分析学、软件即服务(SaaS)、按需分析、数字分析、Hadoop、NewSQL、内存数据分析、机器对机器(M2M)、传感器数据、医疗保健分析、效用分析、数据治理、列数据库。

2022年的关键词:数据工程。另外还有:分析工程、数据管理、数据整形、优化的艺术、优化科学、优化工程、业务优化、数据智能。

这些里程碑让我们对如何利用数据有更通用、更全局、更全面的理解。大约开始于1995年的大数据运动,谷歌是最重要的贡献者之一。谷歌通过引入谷歌文件系统、MapReduce,解决了传统的分布式系统/数据库管理系统(DBMS)的数据库存储容量限制。(人们经常在2003年至2006年期间的行业会议上讨论谷歌的Bigtable大表方案。)然后是HBase和Hadoop分布式文件系统(HDFS)。除了谷歌,雅虎和Facebook也对Hadoop和开源社区做出了重大贡献,推动了技术进步。

标签:

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

官方微信公众号
关注搜爱SEO微博
150-6757-5559
09:00 - 22:00
QQ客服: 70755559
客服邮箱: 678128@qq.com