1. 如何成为数据科学家最快捷
1、如何成为数据科学家——领域知识
如果你只是一个干巴巴的统计学家,你不懂统计,你可以在不了解真正问题的情况下做很多荒谬的事情。例如,一篇发表在医学杂志上的著名文章说,如果父母总是开着婴儿房间的灯睡觉,婴儿就会患上高度近视。后来发现,父母近视程度很高,经常有为孩子开灯的习惯。到底什么导致儿童高度近视,你现在知道,但人们不这样做,所以有必要有一个很深的知识领域,只有那些懂得知识目标字段可以理解它是什么意思,知道哪个方向,判断和分析结果的可能性。如果没有领域知识占主导地位,无论地位如何,对人的分析肯定是误导。在中国,学者们走到哪里都带着他们的理论,就像金正恩走到哪里都带着指示一样。在数据方面。其他一切都是胡说八道。每年,我都会读很多文章,包括一些比赛,这个比赛,那个比赛,很多都是一些无法解释的假设。虽然假设31个省、自治区的数据是正态分布,但这31个省、自治区的数据不是样本,更不是正态分布。
对于科学来说,对于年轻人来说,这是关于理解基础的,如果太花哨就没有意义,如果延伸就没有意义,不要进去也不要出去。
2、如何成为数据科学家——sys
你离得越远,你看得越清楚,你站得越高,你就越能理解全局,你就越能成为一名数据科学家。
不要太具体。不要被这些新的名字和概念所迷惑。用你自己的大脑和常识来看看它们是否有意义。某人的过去是他们的经历,不是你的。它只在特定的情况下有效,在特定的时间,但不是现在。如果你想随波逐流,就意味着你将永远跟随潮流,你将永远不会取得任何成就。没有所谓的炒作。只要观众为你鼓掌,只要观众把自己的头发抹到背后,就没有人会感到困惑。第一个元素是data。什么是数据?照片可以转换成数据。
3、如何成为数据科学家——批判性思维
要成为一名数据分析师(CPDA,上海),一名数据科学家,你需要有基于数据的批判性思维,而不是基于主观经验、权威或本地知识,也不是迎合被溺爱的思维。在中国,我们有一种强烈的溺爱意识。当你说GDP会尽可能地增长时,你并不是这个意思。工具是能力加上计算机系统再加上泛型。
4、如何成为数据科学家——个人还应该能够快速自学,并对数据分析有兴趣
我从来没有学过计算机,也没有学过计算机编程。我从来没有学过英语,但是我一直都是自学的,所以我相信自学。实际上我教的比全职老师还多,但是我教的很多内容都是前一天在网上教的,我认为这些内容很有价值,所以我第二天就把它们放到了课堂上。只有通过不断的自学和不断的学习,才能成为一名教师。如果你一直用80年前的推导来展示你的记忆,你就不是一个好老师。
如何成为数据科学家?掌握这些方法才是数据分析师要会的,对科学来说就这么多了,对年轻人来说,这是关于理解基础的,如果太花哨了就没有意义,如果扩展了也没有意义,你能处理好吗?如果您还担心自己入门不顺利,可以点击本站其他文章进行学习。
2. 数据科学家是干什么的
数据科学家是通过编程来强化他们的数学和统计背景能力来进行分析专数据、创造数学模型属的人。
数据科学家要与与业务端进行交流,包括充分了解领域,以获得洞察力。 数据科学家通常负责分析数据以帮助业务。 他们的结果需要以可理解的方式提供给业务方,这要求数据科学家有能力用口述和视觉结果的形式,与业务方交流那些复杂的结果和观察情况。
3. 大数据科学家必备工具有哪些
Hadoop套件和备选抄工具(例如袭Spark、Storm等)
面向对象编程语言(例如Java、C++、C#、Ruby或Python)
函数型编程语言(例如Clojure、OCaml、Clean、ML、Scala和Haskell)
数据分析软件(例如R、Matlab、SPSS、SAS或是Stata)
数据可视化软件(例如Tableau、Spotfire、Qlikview、Brist、inZite或Prism)
虚拟化程序以及大数据集成系统(例如IBM的BigInsights、Cloudera等)
4. 数据科学家必备工具有哪些
1、学科知识:从数据分析涉及到的专业知识点上看,主要是这些:
(1)统计学:参数检验、非参检验、回归分析等
(2)数学:线性代数、微积分等
(3)社会学:主要是一些社会学量化统计的知识,如问卷调查与统计分析;还有就是一些社会学的知识,这些对于从事营销类的数据分析人员比较有帮助
(4)经济金融:如果是从事这个行业的数据分析人员,经济金融知识是必须的,这里就不多说了
(5)计算机:从事数据分析工作的人必须了解你使用的数据是怎么处理出来的,要了解数据库的结构和基本原理,同时如果条件充足的话,你还能有足够的能力从数据库里提取你需要的数据(比如使用SQL进行查询),这种提取数据分析原材料的能力是每个数据从业者必备的。此外,如果要想走的更远,还要能掌握一些编程能力,从而借住一些专业的数据分析工具,帮助你完成工作。
2、软件相关:从事数据分析方面的工作必备的工具是什么
(1)数据分析报告类:Microsoft Office软件等,如果连excel表格基本的处理操作都不会,连PPT报告都不会做,那我只好说离数据分析的岗位还差的很远。现在的数据呈现不再单单只是表格的形式,而是更多需要以可视化图表去展示你的数据结果,因为数据可视化软件就不能少,BDP个人版、TABLUEA等这些必备的,就看你自己怎么选了。
(2)专业数据分析软件:Office并不是全部,要从在数据分析方面做的比较好,你必须会用(至少要了解)一些比较常用的专业数据分析软件工具,比如SPSS、SAS、Matlab等等,这些软件可以很好地帮助我们完成专业性的算法或模型分析,还有高级的python、R等。
(3)数据库:hive、hadoop、impala等数据库相关的知识可以学习;
(4)辅助工具:比如思维导图软件(如MindManager、MindNode Pro等)也可以很好地帮助我们整理分析思路。
最重要的是:理论知识+软件工具=数据分析基础,最后要把这些数据分析基础运用到实际的工作业务中,好好理解业务逻辑,真正用数据分析驱动网站运营、业务管理,真正发挥数据的价值。
5. 大数据工具,在数据科学家眼中是怎样的存在
大数据工抄具,在数据科学家眼中是怎样的存在
大数据是大量、高速、多变的信息,它需要新型的处理方式去促成更强的决策能力、洞察力与最佳化处理。大数据为企业获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。
借助大数据及相关技术,我们可针对不同行为特征的客户进行针对性营销,甚至能从“将一个产品推荐给一些合适的客户”到“将一些合适的产品推荐给一个客户”,得以更聚焦客户,进行个性化精准营销。
大数据时代下的精准营销是指通过大数据获取对象的喜好,行为偏好,对不同对象进行不同营销。大数据精准营销的核心可以概括为几大关键词:用户、需求、识别、体验。
6. 什么是数据科学家
数据科学家对应的是CDA三级数据分析科学家考试。扮演数据科学家角内色的人可能是运用统计学和容算法的理论知识找到解决数据科学问题的最佳方法的人,可能是建立一个模型来预测下个月信用卡违约的数量的人……你能拿到的薪水:数据科学家是数据科学的编程与实现,数据科学理论和数据的商业影响之间的桥梁,年薪一般在60W以上。理论基础:统计、大数据、数据挖掘、机器学习和商业智能软件要求:必要Excel、SQL;可选R、Python、SAS、Hadoop等业务分析能力带领数据团队,能够将企业的数据资产进行有效的整合和管理,建立内外部数据的连接;熟悉数据仓库的构造理论,可以指导ETL工程师业务工作;可以面向数据挖掘运用主题构造数据集市;在人和数据之间建立有机联系,面向用户数据创造不同特性的产品和系统;具有数据规划的能力。结果展现能力带领数据团队,能够将企业的数据资产进行有效的整合和管理,建立内外部数据的连接;熟悉数据仓库的构造理论,可以指导ETL工程师业务工作;可以面向数据挖掘运用主题构造数据集市;在人和数据之间建立有机联系,面向用户数据创造不同特性的产品和系统;具有数据规划的能力。
7. 数据科学家需要具备什么能力
数学功底:微积分是严格要掌握的。不一定要掌握多元微积分,但一元微积分是必须要熟练掌握并使用的。另外线性代数一定要精通,特别是矩阵的运算、向量空间、秩等概念。当前机器学习框架中很多计算都需要用到矩阵的乘法、转置或是求逆。虽然很多框架都直接提供了这样的工具,但我们至少要了解内部的原型原理,比如如何高效判断一个矩阵是否存在逆矩阵并如何计算等。
数理统计:概率论和各种统计学方法要做到基本掌握,比如贝叶斯概率如何计算?概率分布是怎么回事?虽不要求精通,但对相关背景和术语一定要了解。
交互式数据分析框架:这里并不是指SQL或数据库查询,而是像Apache Hive或Apache Kylin这样的分析交互框架。开源社区中有很多这样类似的框架,可以使用传统的数据分析方式对大数据进行数据分析或数据挖掘。笔者有过使用经验的是Hive和Kylin。不过Hive特别是Hive1是基于MapRece的,性能并非特别出色,而Kylin采用数据立方体的概念结合星型模型,可以做到很低延时的分析速度,况且Kylin是第一个研发团队主力是中国人的Apache孵化项目,因此日益受到广泛的关注。
机器学习框架:机器学习当前真是火爆宇宙了,人人都提机器学习和AI,但笔者一直认为机器学习恰似几年前的云计算一样,目前虽然火爆,但没有实际的落地项目,可能还需要几年的时间才能逐渐成熟。不过在现在就开始储备机器学习的知识总是没有坏处的。说到机器学习的框架,大家耳熟能详的有很多种, 信手拈来的就包括TensorFlow、Caffe8、Keras9、CNTK10、Torch711等,其中又以TensorFlow领衔。笔者当前建议大家选取其中的一个框架进行学习,但以我对这些框架的了解,这些框架大多很方便地封装了各种机器学习算法提供给用户使用,但对于底层算法的了解其实并没有太多可学习之处。因此笔者还是建议可以从机器学习算法的原理来进行学习。
8. 数据科学家的15项原则
数据科学家的15项原则
作为一个数据科学家,我为我的日常工作总结开发出15项原则,这些是我本人也遵循的:
1、不要用数据说谎或吹牛: 对经验性证据要诚实坦率。最重要的是不要用数据自欺欺人。
2、建立永久工具并分享给他人: 花费一些日常工作时间去建立一些能使自己和他人生活变得轻松的工具(译者补充:我为人人,人人为我)。我们可是该死的人类,我们应该是工具的制造者!
3、不断自我教育: 看在佛祖的份上,你可是个科学家哦。去阅读研究生水平的核心数学和统计方法教材吧,永远不要安逸于你在走廊里从同事那得到的对某个方法的拙劣解释,学习基本原理可以让你玩出花样来。阅读最近的论文,参加研讨会,发表和评论论文。对此没有捷径。
4、提高你的技能: 学好一种语言,这样你才能被称为行家里手。其他语言也要学到能与别人沟通。不要忘记,SQL和英语很象,这个星球上每个白痴都能说,但你只有真正掌握它才可以写出优美的诗篇。学习一种编译性语言、一种解释性语言,和R语言。或者只需要学习R!它是丑陋的,但它会给你一个优势。搞透Matlab,你已经不再是没毕业的学生了。学习Unix,即使你平时使用Windows,学习sed和grep等所有那些东西,你可以用bash和powershell做些奇妙的事情。如果你愿意,也学学Hadoop,但要知道它是一个蹩脚的系统。
5、明白数据科学家有个生存意义 “踢人们屁股并让他们震惊”: 每天做一件与此相关的事。(译者注:kick ass在一般情况下指“很厉害;很拽”,但对于数据科学家来说,通常是用数据来揭示人们错误或具有危险性的行为,以此引起关注,所以用本意“踢屁股”反而比较合适)
6、通过向别人展示工作来经常挑战自我:不要害怕一些恶棍会批评你的工作,粉碎他们。如果你想害怕蟑螂的话,那你就不要走路了!
7、不要吝惜知识,也不要害怕问问题: 有些人对他们的知识缺乏信心,不去分享它,原谅他们,但不要成为他们中的一个。
8、先开发出一些思路,然后听取别人的看法,利用他们关于这一领域所知道的知识,但不要让你自己被其束缚: 如果他们真牛到可以用他们所知道的来解决问题,他们就不会来找你要解决方案了。
9、出去和人们在一起,与之交谈,互通有无,他山之石可以攻玉。
10、为你温和的代码建立个令人印象深刻和交互性强的用户界面: 代码是我们的语言(译者注:但不是用户的,所以……),让你的代码通过好的UI来闪耀光辉吧。
11、有效使用可视化技术,避免难以理解的图形: 可视化的唯一用途是使数据易于理解而非令人困惑。
12、学习新技术,努力理解经典技术的原理
13、多揽多做: 这就是天才工作的方式。不要害怕提出创造性的想法。你听说过“低调说话,高调做事”?不要觉得这很华丽,这其实是无能鼠辈工作的方式,不要成为他们中的一个。
14、保持创造力和关注: 你可以通过创造力和关注取得成功(咖啡因对这个有点帮助,但别过头儿)。
15、积极起来,努力工作。如果有人想阻止你,只管碾碎他们。
9. 九个成为数据科学家的必备技能
九个成为数据科学家的必备技能
Works详细列举了从雇主角度看来,数据科学家加强自身市场竞争力所必备的9个数据科学技能。
过去一年中人们对数据科学的兴趣骤然增长。Nate Silver这个名字已经家喻户晓,所有公司都在寻找独角兽,很多不同学科的专业人才都开始关注这份薪水丰厚的职业,并将其当作自己可能的职业选择。
在Burtch Works开展招聘工作时,我们与很多想要在数据科学这一成长性领域有所发展的分析学专家探讨过,对具体的实施方案提出了疑问。我从招聘者的角度列出了在数据科学方面对成功十分关键,并且是招聘经理首先考虑的一些技术类与非技术类技能。
各公司在技能与工具的价值评判上都不尽相同,因此这个列表绝对谈不上详尽,不过在这些领域有过经验的人会在数据科学上占有更大的优势。
技术技能:分析学
1、教育——数据科学家受教育程度都很高,其中88%至少拥有硕士学位,46%有博士学位。虽然有一些名人特例,不过通常来说成为一名数据科学家需要扎实的教育背景,才能掌握所需的深度知识。最常见的研究领域包括数学与统计学(32%),其次是计算机科学(19%)以及工程学(16%)。
2、SAS软件与/或R语言——对其中至少一种分析工具有深入的了解,一般对数据科学来说R语言更好一些。
技术能力:计算机科学
3、都是公司在招聘数据科学类角色时最常提出的语言要求。
4、Hadoop平台——尽管不是总有这个需求,不过在很多情况下掌握它的人优势更大。熟悉Hive或Pig也是很有利的卖点。熟悉类似Amazon S3这样的云工具也会很有优势。
5、SQL数据库/编程——尽管NoSQL和Hadoop已经成为了数据科学很大的组成部分之一,招聘者还是希望能够找到可以编写与执行SQL复杂查询的候选人。
6、非结构化数据——数据科学家能够处理非结构化数据这一点非常重要,无论这些数据是来自社交媒体、视频源或者音频的。
非技术类技能
7、求知欲——毫无疑问最近到处都能看到这个词,尤其是在与数据科学家关联时。Frank Lo在几个月前的博文中描述了这个词的含义,并且讨论了其他必须的“软技能”。
8、商业智慧——想要成为数据科学家,需要充分了解自己工作的行业,并且知道公司想要解决的商业问题是哪些。能够根据数据科学分辨出解决哪些问题对公司来说更为重要,并且能够找出利用数据的新办法,这些是非常关键的。
9、通用技能——寻找优秀数据科学家的公司想要的是这样的人材:能够清楚顺畅地将自己的技术发现转化为非技术团队(比如市场部或者销售部)能够使用的内容。数据科学家必须能得出可用以决策的量化insight,同时了解非技术团队的需求,可以恰当地进行沟通以传达数据。想要了解定量专家在沟通技巧方面的更多信息,请参见我们近期的调查。
一般接下来的问题都是:“怎样能够获得这些技能呢?”网上有很多资源,不过笔者不希望让读者产生这样的错觉——成为数据科学家非常简单,上几节MOOCs就够了。除非你有扎实的定量经验,否则成为数据科学家之路还是颇有挑战的——但也并非不可能。
不过只要你确实对数据有兴趣、有激情,并打算将生命投入到相关的学习上,那么就不要让经验背景成为你追求数据科学生涯的阻碍。下面是我们觉得有用的一些资源:
1、高等学位——为了满足目前的需求,如雨后春笋般出现了更多的数据科学专业的项目,不过数学、统计学与计算机科学专业的项目也有很多。
2、MOOCs——Coursera、Udacity还有codeacademy都是不错的入门方式。
3、证书——KDnuggets编写了一个很长的列表清单。
4、Bootcamps——想要了解这种方式与学历项目或MOOCs的对比情况。
5、Kaggle——Kaggle上有数据科学竞赛,可以进行演练,用杂乱的真实世界数据来磨练技巧,解决真实的商业问题。雇主对Kaggle排名很重视,该排名可以被看作是相关的、经过亲身实践的项目工作。
6、LinkedIn小组——加入相关的小组,与数据科学社区的其他成员互动。
7、数据科学中心与KDnuggets——数据科学中心与KDnuggets都是保持与数据科学行业趋势前沿同步的优秀资源。8、Burtch Works研究:关于数据科学家的薪金,如果想要了解更多信息与当前数据科学家人数统计的话,请下载我们的数据科学家薪金研究报告。
10. 数据科学家需要哪些技能
数学功底:微积分是严格要掌握的。不一定要掌握多元微积分,但一元微积分是必须要熟练掌握并使用的。另外线性代数一定要精通,特别是矩阵的运算、向量空间、秩等概念。当前机器学习框架中很多计算都需要用到矩阵的乘法、转置或是求逆。虽然很多框架都直接提供了这样的工具,但我们至少要了解内部的原型原理,比如如何高效判断一个矩阵是否存在逆矩阵并如何计算等。
数理统计:概率论和各种统计学方法要做到基本掌握,比如贝叶斯概率如何计算?概率分布是怎么回事?虽不要求精通,但对相关背景和术语一定要了解。
交互式数据分析框架:这里并不是指SQL或数据库查询,而是像Apache Hive或Apache Kylin这样的分析交互框架。开源社区中有很多这样类似的框架,可以使用传统的数据分析方式对大数据进行数据分析或数据挖掘。笔者有过使用经验的是Hive和Kylin。不过Hive特别是Hive1是基于MapRece的,性能并非特别出色,而Kylin采用数据立方体的概念结合星型模型,可以做到很低延时的分析速度,况且Kylin是第一个研发团队主力是中国人的Apache孵化项目,因此日益受到广泛的关注。
机器学习框架:机器学习当前真是火爆宇宙了,人人都提机器学习和AI,但笔者一直认为机器学习恰似几年前的云计算一样,目前虽然火爆,但没有实际的落地项目,可能还需要几年的时间才能逐渐成熟。不过在现在就开始储备机器学习的知识总是没有坏处的。说到机器学习的框架,大家耳熟能详的有很多种, 信手拈来的就包括TensorFlow、Caffe8、Keras9、CNTK10、Torch711等,其中又以TensorFlow领衔。笔者当前建议大家选取其中的一个框架进行学习,但以我对这些框架的了解,这些框架大多很方便地封装了各种机器学习算法提供给用户使用,但对于底层算法的了解其实并没有太多可学习之处。因此笔者还是建议可以从机器学习算法的原理来进行学习。