当前位置:首页 > 移动互联 > 数据科学的历史、开拓者和现代趋势

数据科学的历史、开拓者和现代趋势

admin 11个月前 425 0

 数据科学的历史、开拓者和现代趋势  移动互联

数据科学的历史、开拓者和现代趋势随着数据科学的发展,其他相关专业出现了下降趋势,如统计学和计算机科学。谷歌的公开数据如下

自2010年以来,数据分析师的数量不断增加。

自2005年以来,统计学家的数量有所减少。

自2005年以来,计算机科学家的数量有所减少。

自2012年以来,数据科学家的数量激增。

你可以在LinkedIn或Indeed上找到其他的公开数据(每个招聘广告的申请人数),不过这个数据跟招聘市场相关。

其他类似的数据显示,所有传统领域的人数都在减少,比如六西格玛、数据挖掘、统计学、运筹学等。谷歌数据表明,在2011年左右大数据开始出现并呈指数增长趋势,到2013年大数据比数据挖掘和六西格玛更流行了。同样也是根据谷歌数据,尽管大数据的崛起引人注目,但开始于2006年对“分析”这个关键词的搜索量更为壮观。在2012年搜它的人数逐渐减少,但仍然比大数据高出6倍。

当然,在2000年,许多专业人士(包括我),做了统计学、运筹学、计算机科学、六西格玛、精算学、生物统计学,或一些其他的狭义定义的“分析类”活动,积累了丰富的经验、领导能力、广泛的知识、敏锐的商业头脑、跨越许多领域的专业知识。因此他们的职位头衔经历了演变,但他们都有共同点:数据分析行业从业者。同时,数据和现代数据架构的发展,如MapReduce,影响了所有行业,成为许多专业人士的共同特性和必备。

注意 数据科学家比数据挖掘更广泛,包括数据集成、数据采集、数据可视化(包括仪表盘)和数据架构。数据科学家还须度量数据科学活动的投资回报率。

统计学将会复兴

很多人都说统计学会消亡,有些主要的统计学家自己也说统计学会消亡。我相信统计科学最终会复兴,但它会更多地应用于大数据,并适应于大数据,且由更少的模型驱动。它将与计算机科学、预测模型、数据挖掘、机器学习、运筹学和六西格玛的某些方面,以及数据库架构结合在一起,被归纳称为数据科学、业务分析、决策科学、数据情报、分析学,或其他一些尚未被创建或重复使用的术语。我们现在正处于分析学革命的中间阶段。

特别是,像我这样的人,虽然有一个新的职位头衔——数据科学家,但仍然做统计学兼职,有时甚至涉足前沿的理论统计学。对我而言,我已从业25年之久,一直使用那些在1750年被认为太复杂、计算能力不够而被抛弃的,但是足够健壮的技术。在1750年,由于当时计算能力的缺乏,导致了1800年左右一批新颖的、对数学友好的技术出现,它们具有简单的公式、方程形式,如最小二乘回归。这个框架一直延续至今,可能是导致传统统计学家人数减少的原因,现在大数据的健壮性比以往任何时候都更重要,当在分布式系统中(在有MapReduce的云中)几分钟就可以处理10亿字节的数据时,计算的复杂度将不再是问题了。同时,大多数现代科学家、地理学家、医生、计量经济学家、运筹学专业人士、工程师等都具备较好的应用统计知识。然而,软件工程师和计算机科学家有时会像记者一样忽略或误用统计科学,如开发的系统里(例如,推荐引擎)有大量未被发现的虚假评论和欺诈行为。最终,统计科学将开始踏足这些领域。

有人说,大多数数据分析师都是统计学家。在我看来,数据分析师是一个初级头衔,通常是一个有工学学士学位或文学学士学位的人。统计学家有更多的理论背景,在大数据出现之前就使用以前开发好的数据模型,并且拥有硕士或博士学位。每天编写SQL查询和报告的人是数据分析师。

我不当统计学家的部分原因是因为美国统计协会:它改变了统计学家这个关键词的意义,这限制了统计学家的发展前景,使其狭窄且单一,只与医药行业、政府(调查、人口普查、政治事务)、小数据(统计学家的大部分收入来源)相关。在过去15年里,该协会一般不参与或跟随基于大数据的新的统计革命。作为一名比利时公民,我可以对比利时统计协会说同样的话。所以这一趋势不仅限于美国,而且也不仅限于(美式)英语国家,还包括法语和荷兰语国家,以及其他语种国家。

统计学家应该非常熟悉计算机科学、大数据和软件——1万变量的10亿行数据,对真正的统计学家应该是小菜一碟。在云中(甚至在笔记本电脑上的流数据),这个数据量都能够快速处理。第一步是缩减数据,即使你必须保存所有的观测值和变量,仍然可以缩减数据。一个优秀的计算机科学家也能生成置信区间:你不需要因此而成为一名统计学家,只需会使用本书后面讨论的分析桥第一定理即可。计算机科学家和统计学家之间的区别变得越来越小和模糊。但无须担心,虽然你在学校没有学到这些知识(统计学的课程),你仍然可以在网上学习。

历史与开拓者

现在,让我们来看看数据科学的历史,以及一些在分析学和数据科学领域堪称先驱的公司。首先,看一看从20世纪80年代末开始流行的关键词,和对2022年的一个预测。

1988年的关键词:人工智能。另外还有:计算统计学、数据分析、模式识别、规则系统。

1995年的关键词:网络分析。另外还有:机器学习、商业智能、数据挖掘、投资回报率、分布式架构、数据架构、量化、决策科学、知识管理、信息科学。

2003年的关键词:业务分析。另外还有:文本挖掘、非结构化数据、语义网、自然语言处理(NLP)、关键绩效指标(KPI)、预测模型、云计算、升力、收益率、NoSQL、商业智能(BI)、实时分析、协同过滤、推荐引擎和移动分析。

2012年的关键词:数据科学。另外还有:大数据、分析学、软件即服务(SaaS)、按需分析、数字分析、Hadoop、NewSQL、内存数据分析、机器对机器(M2M)、传感器数据、医疗保健分析、效用分析、数据治理、列数据库。

2022年的关键词:数据工程。另外还有:分析工程、数据管理、数据整形、优化的艺术、优化科学、优化工程、业务优化、数据智能。

这些里程碑让我们对如何利用数据有更通用、更全局、更全面的理解。大约开始于1995年的大数据运动,谷歌是最重要的贡献者之一。谷歌通过引入谷歌文件系统、MapReduce,解决了传统的分布式系统/数据库管理系统(DBMS)的数据库存储容量限制。(人们经常在2003年至2006年期间的行业会议上讨论谷歌的Bigtable大表方案。)然后是HBase和Hadoop分布式文件系统(HDFS)。除了谷歌,雅虎和Facebook也对Hadoop和开源社区做出了重大贡献,推动了技术进步。

发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

相关文章

由富士康代工的美图新手机M4 如何补足硬件功课?

由富士康代工的美图新手机M4 如何补足硬件功课?

4月8日,美图手机在北京竞园举办了一场声势浩大的发布会,美图董事长蔡文胜、CEO吴欣鸿均到场站台。除新款美图手机M4外,美图还发布了MEIOS2、美图游戏盒、美图遥控器、美图自拍补光灯等配件...

90后女黑客秒破共享单车:刷别人的钱骑行

90后女黑客秒破共享单车:刷别人的钱骑行

 在演示中,Tyy使用电脑,在同一Wi-Fi下与陌生用户手机相连,几秒钟后,该用户此前的骑行记录便显示在Tyy的电脑上,其中包括用户姓名、余额及密码等。Tyy可借助该操作,用别人的账户扫码...

2017年做SEO优化推广要学习“百度冰桶算法全盘点”

2017年做SEO优化推广要学习“百度冰桶算法全盘点”

2016年,冰桶算法连续发布3个升级版本,现已更新到冰桶算法4.5,辣么多算法,究竟都说了什么呢?冰桶算法,初次推出是2014年,主要打击移动端影响用户体验的落地页行为,从最初的严惩强...

移动营销:内容营销如何颠覆传统营销白皮书?

移动营销:内容营销如何颠覆传统营销白皮书?

前言:社会化媒介时代传统营销方式遭遇壁垒。每一次新的传播平台、新的技术手段的更迭,都对企业传播带来深远影响。企业主如何在移动互联时代进行自我升级,抓住新媒体营销机会?今天九枝兰邀请到NewMed...

Zingbox:打造物联网领域的安全软件

Zingbox:打造物联网领域的安全软件

新浪科技郑峻发自美国硅谷如果在网上搜索Zingbox,得出的结果是一个户外太阳能音箱厂商。“真不好意思,我们一直忙于做产品,还没来得及做任何SEO(搜索引擎优化)。”邹叙非常不好意思地回答。实际...

“淘女郎”何宁宁阿里上市敲钟回来后在做什么

“淘女郎”何宁宁阿里上市敲钟回来后在做什么

    【i天下网商注】“白天装高管,晚上装快递。”这是她对现在生活的真实描述。如今,“淘女郎”何宁宁褪去阿里上市敲钟身份的光环后,正在成长...

FAA败诉 美国再次成为非商业无人机的法外之地?

FAA败诉 美国再次成为非商业无人机的法外之地?

 5月21日科技资讯不过,泰勒案中的法官引用了前总统奥巴马签署的《2012年美国联邦航空局现代化改革法案》进行反驳。该法案规定,FAA“不得颁布关于模型飞机的任何规则或规定”。据FAA介...

GTC大会第二日亮点:NVIDIA将推出

GTC大会第二日亮点:NVIDIA将推出

 Conference(GTC)于美国当地时间5月8日-11日在圣何塞召开。本次大会聚焦于AI、VR、与自动驾驶等前沿技术,预计有7000人将参加这次大会。目前,大会已经进行到了第二天,雷锋...