1. 如何成為數據科學家最快捷
1、如何成為數據科學家——領域知識
如果你只是一個乾巴巴的統計學家,你不懂統計,你可以在不了解真正問題的情況下做很多荒謬的事情。例如,一篇發表在醫學雜志上的著名文章說,如果父母總是開著嬰兒房間的燈睡覺,嬰兒就會患上高度近視。後來發現,父母近視程度很高,經常有為孩子開燈的習慣。到底什麼導致兒童高度近視,你現在知道,但人們不這樣做,所以有必要有一個很深的知識領域,只有那些懂得知識目標欄位可以理解它是什麼意思,知道哪個方向,判斷和分析結果的可能性。如果沒有領域知識佔主導地位,無論地位如何,對人的分析肯定是誤導。在中國,學者們走到哪裡都帶著他們的理論,就像金正恩走到哪裡都帶著指示一樣。在數據方面。其他一切都是胡說八道。每年,我都會讀很多文章,包括一些比賽,這個比賽,那個比賽,很多都是一些無法解釋的假設。雖然假設31個省、自治區的數據是正態分布,但這31個省、自治區的數據不是樣本,更不是正態分布。
對於科學來說,對於年輕人來說,這是關於理解基礎的,如果太花哨就沒有意義,如果延伸就沒有意義,不要進去也不要出去。
2、如何成為數據科學家——sys
你離得越遠,你看得越清楚,你站得越高,你就越能理解全局,你就越能成為一名數據科學家。
不要太具體。不要被這些新的名字和概念所迷惑。用你自己的大腦和常識來看看它們是否有意義。某人的過去是他們的經歷,不是你的。它只在特定的情況下有效,在特定的時間,但不是現在。如果你想隨波逐流,就意味著你將永遠跟隨潮流,你將永遠不會取得任何成就。沒有所謂的炒作。只要觀眾為你鼓掌,只要觀眾把自己的頭發抹到背後,就沒有人會感到困惑。第一個元素是data。什麼是數據?照片可以轉換成數據。
3、如何成為數據科學家——批判性思維
要成為一名數據分析師(CPDA,上海),一名數據科學家,你需要有基於數據的批判性思維,而不是基於主觀經驗、權威或本地知識,也不是迎合被溺愛的思維。在中國,我們有一種強烈的溺愛意識。當你說GDP會盡可能地增長時,你並不是這個意思。工具是能力加上計算機系統再加上泛型。
4、如何成為數據科學家——個人還應該能夠快速自學,並對數據分析有興趣
我從來沒有學過計算機,也沒有學過計算機編程。我從來沒有學過英語,但是我一直都是自學的,所以我相信自學。實際上我教的比全職老師還多,但是我教的很多內容都是前一天在網上教的,我認為這些內容很有價值,所以我第二天就把它們放到了課堂上。只有通過不斷的自學和不斷的學習,才能成為一名教師。如果你一直用80年前的推導來展示你的記憶,你就不是一個好老師。
如何成為數據科學家?掌握這些方法才是數據分析師要會的,對科學來說就這么多了,對年輕人來說,這是關於理解基礎的,如果太花哨了就沒有意義,如果擴展了也沒有意義,你能處理好嗎?如果您還擔心自己入門不順利,可以點擊本站其他文章進行學習。
2. 數據科學家是干什麼的
數據科學家是通過編程來強化他們的數學和統計背景能力來進行分析專數據、創造數學模型屬的人。
數據科學家要與與業務端進行交流,包括充分了解領域,以獲得洞察力。 數據科學家通常負責分析數據以幫助業務。 他們的結果需要以可理解的方式提供給業務方,這要求數據科學家有能力用口述和視覺結果的形式,與業務方交流那些復雜的結果和觀察情況。
3. 大數據科學家必備工具有哪些
Hadoop套件和備選抄工具(例如襲Spark、Storm等)
面向對象編程語言(例如Java、C++、C#、Ruby或Python)
函數型編程語言(例如Clojure、OCaml、Clean、ML、Scala和Haskell)
數據分析軟體(例如R、Matlab、SPSS、SAS或是Stata)
數據可視化軟體(例如Tableau、Spotfire、Qlikview、Brist、inZite或Prism)
虛擬化程序以及大數據集成系統(例如IBM的BigInsights、Cloudera等)
4. 數據科學家必備工具有哪些
1、學科知識:從數據分析涉及到的專業知識點上看,主要是這些:
(1)統計學:參數檢驗、非參檢驗、回歸分析等
(2)數學:線性代數、微積分等
(3)社會學:主要是一些社會學量化統計的知識,如問卷調查與統計分析;還有就是一些社會學的知識,這些對於從事營銷類的數據分析人員比較有幫助
(4)經濟金融:如果是從事這個行業的數據分析人員,經濟金融知識是必須的,這里就不多說了
(5)計算機:從事數據分析工作的人必須了解你使用的數據是怎麼處理出來的,要了解資料庫的結構和基本原理,同時如果條件充足的話,你還能有足夠的能力從資料庫里提取你需要的數據(比如使用SQL進行查詢),這種提取數據分析原材料的能力是每個數據從業者必備的。此外,如果要想走的更遠,還要能掌握一些編程能力,從而借住一些專業的數據分析工具,幫助你完成工作。
2、軟體相關:從事數據分析方面的工作必備的工具是什麼
(1)數據分析報告類:Microsoft Office軟體等,如果連excel表格基本的處理操作都不會,連PPT報告都不會做,那我只好說離數據分析的崗位還差的很遠。現在的數據呈現不再單單只是表格的形式,而是更多需要以可視化圖表去展示你的數據結果,因為數據可視化軟體就不能少,BDP個人版、TABLUEA等這些必備的,就看你自己怎麼選了。
(2)專業數據分析軟體:Office並不是全部,要從在數據分析方面做的比較好,你必須會用(至少要了解)一些比較常用的專業數據分析軟體工具,比如SPSS、SAS、Matlab等等,這些軟體可以很好地幫助我們完成專業性的演算法或模型分析,還有高級的python、R等。
(3)資料庫:hive、hadoop、impala等資料庫相關的知識可以學習;
(4)輔助工具:比如思維導圖軟體(如MindManager、MindNode Pro等)也可以很好地幫助我們整理分析思路。
最重要的是:理論知識+軟體工具=數據分析基礎,最後要把這些數據分析基礎運用到實際的工作業務中,好好理解業務邏輯,真正用數據分析驅動網站運營、業務管理,真正發揮數據的價值。
5. 大數據工具,在數據科學家眼中是怎樣的存在
大數據工抄具,在數據科學家眼中是怎樣的存在
大數據是大量、高速、多變的信息,它需要新型的處理方式去促成更強的決策能力、洞察力與最佳化處理。大數據為企業獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。
藉助大數據及相關技術,我們可針對不同行為特徵的客戶進行針對性營銷,甚至能從「將一個產品推薦給一些合適的客戶」到「將一些合適的產品推薦給一個客戶」,得以更聚焦客戶,進行個性化精準營銷。
大數據時代下的精準營銷是指通過大數據獲取對象的喜好,行為偏好,對不同對象進行不同營銷。大數據精準營銷的核心可以概括為幾大關鍵詞:用戶、需求、識別、體驗。
6. 什麼是數據科學家
數據科學家對應的是CDA三級數據分析科學家考試。扮演數據科學家角內色的人可能是運用統計學和容演算法的理論知識找到解決數據科學問題的最佳方法的人,可能是建立一個模型來預測下個月信用卡違約的數量的人……你能拿到的薪水:數據科學家是數據科學的編程與實現,數據科學理論和數據的商業影響之間的橋梁,年薪一般在60W以上。理論基礎:統計、大數據、數據挖掘、機器學習和商業智能軟體要求:必要Excel、SQL;可選R、Python、SAS、Hadoop等業務分析能力帶領數據團隊,能夠將企業的數據資產進行有效的整合和管理,建立內外部數據的連接;熟悉數據倉庫的構造理論,可以指導ETL工程師業務工作;可以面向數據挖掘運用主題構造數據集市;在人和數據之間建立有機聯系,面向用戶數據創造不同特性的產品和系統;具有數據規劃的能力。結果展現能力帶領數據團隊,能夠將企業的數據資產進行有效的整合和管理,建立內外部數據的連接;熟悉數據倉庫的構造理論,可以指導ETL工程師業務工作;可以面向數據挖掘運用主題構造數據集市;在人和數據之間建立有機聯系,面向用戶數據創造不同特性的產品和系統;具有數據規劃的能力。
7. 數據科學家需要具備什麼能力
數學功底:微積分是嚴格要掌握的。不一定要掌握多元微積分,但一元微積分是必須要熟練掌握並使用的。另外線性代數一定要精通,特別是矩陣的運算、向量空間、秩等概念。當前機器學習框架中很多計算都需要用到矩陣的乘法、轉置或是求逆。雖然很多框架都直接提供了這樣的工具,但我們至少要了解內部的原型原理,比如如何高效判斷一個矩陣是否存在逆矩陣並如何計算等。
數理統計:概率論和各種統計學方法要做到基本掌握,比如貝葉斯概率如何計算?概率分布是怎麼回事?雖不要求精通,但對相關背景和術語一定要了解。
互動式數據分析框架:這里並不是指SQL或資料庫查詢,而是像Apache Hive或Apache Kylin這樣的分析交互框架。開源社區中有很多這樣類似的框架,可以使用傳統的數據分析方式對大數據進行數據分析或數據挖掘。筆者有過使用經驗的是Hive和Kylin。不過Hive特別是Hive1是基於MapRece的,性能並非特別出色,而Kylin採用數據立方體的概念結合星型模型,可以做到很低延時的分析速度,況且Kylin是第一個研發團隊主力是中國人的Apache孵化項目,因此日益受到廣泛的關注。
機器學習框架:機器學習當前真是火爆宇宙了,人人都提機器學習和AI,但筆者一直認為機器學習恰似幾年前的雲計算一樣,目前雖然火爆,但沒有實際的落地項目,可能還需要幾年的時間才能逐漸成熟。不過在現在就開始儲備機器學習的知識總是沒有壞處的。說到機器學習的框架,大家耳熟能詳的有很多種, 信手拈來的就包括TensorFlow、Caffe8、Keras9、CNTK10、Torch711等,其中又以TensorFlow領銜。筆者當前建議大家選取其中的一個框架進行學習,但以我對這些框架的了解,這些框架大多很方便地封裝了各種機器學習演算法提供給用戶使用,但對於底層演算法的了解其實並沒有太多可學習之處。因此筆者還是建議可以從機器學習演算法的原理來進行學習。
8. 數據科學家的15項原則
數據科學家的15項原則
作為一個數據科學家,我為我的日常工作總結開發出15項原則,這些是我本人也遵循的:
1、不要用數據說謊或吹牛: 對經驗性證據要誠實坦率。最重要的是不要用數據自欺欺人。
2、建立永久工具並分享給他人: 花費一些日常工作時間去建立一些能使自己和他人生活變得輕松的工具(譯者補充:我為人人,人人為我)。我們可是該死的人類,我們應該是工具的製造者!
3、不斷自我教育: 看在佛祖的份上,你可是個科學家哦。去閱讀研究生水平的核心數學和統計方法教材吧,永遠不要安逸於你在走廊里從同事那得到的對某個方法的拙劣解釋,學習基本原理可以讓你玩出花樣來。閱讀最近的論文,參加研討會,發表和評論論文。對此沒有捷徑。
4、提高你的技能: 學好一種語言,這樣你才能被稱為行家裡手。其他語言也要學到能與別人溝通。不要忘記,SQL和英語很象,這個星球上每個白痴都能說,但你只有真正掌握它才可以寫出優美的詩篇。學習一種編譯性語言、一種解釋性語言,和R語言。或者只需要學習R!它是醜陋的,但它會給你一個優勢。搞透Matlab,你已經不再是沒畢業的學生了。學習Unix,即使你平時使用Windows,學習sed和grep等所有那些東西,你可以用bash和powershell做些奇妙的事情。如果你願意,也學學Hadoop,但要知道它是一個蹩腳的系統。
5、明白數據科學家有個生存意義 「踢人們屁股並讓他們震驚」: 每天做一件與此相關的事。(譯者註:kick ass在一般情況下指「很厲害;很拽」,但對於數據科學家來說,通常是用數據來揭示人們錯誤或具有危險性的行為,以此引起關注,所以用本意「踢屁股」反而比較合適)
6、通過向別人展示工作來經常挑戰自我:不要害怕一些惡棍會批評你的工作,粉碎他們。如果你想害怕蟑螂的話,那你就不要走路了!
7、不要吝惜知識,也不要害怕問問題: 有些人對他們的知識缺乏信心,不去分享它,原諒他們,但不要成為他們中的一個。
8、先開發出一些思路,然後聽取別人的看法,利用他們關於這一領域所知道的知識,但不要讓你自己被其束縛: 如果他們真牛到可以用他們所知道的來解決問題,他們就不會來找你要解決方案了。
9、出去和人們在一起,與之交談,互通有無,他山之石可以攻玉。
10、為你溫和的代碼建立個令人印象深刻和交互性強的用戶界面: 代碼是我們的語言(譯者註:但不是用戶的,所以……),讓你的代碼通過好的UI來閃耀光輝吧。
11、有效使用可視化技術,避免難以理解的圖形: 可視化的唯一用途是使數據易於理解而非令人困惑。
12、學習新技術,努力理解經典技術的原理
13、多攬多做: 這就是天才工作的方式。不要害怕提出創造性的想法。你聽說過「低調說話,高調做事」?不要覺得這很華麗,這其實是無能鼠輩工作的方式,不要成為他們中的一個。
14、保持創造力和關注: 你可以通過創造力和關注取得成功(咖啡因對這個有點幫助,但別過頭兒)。
15、積極起來,努力工作。如果有人想阻止你,只管碾碎他們。
9. 九個成為數據科學家的必備技能
九個成為數據科學家的必備技能
Works詳細列舉了從僱主角度看來,數據科學家加強自身市場競爭力所必備的9個數據科學技能。
過去一年中人們對數據科學的興趣驟然增長。Nate Silver這個名字已經家喻戶曉,所有公司都在尋找獨角獸,很多不同學科的專業人才都開始關注這份薪水豐厚的職業,並將其當作自己可能的職業選擇。
在Burtch Works開展招聘工作時,我們與很多想要在數據科學這一成長性領域有所發展的分析學專家探討過,對具體的實施方案提出了疑問。我從招聘者的角度列出了在數據科學方面對成功十分關鍵,並且是招聘經理首先考慮的一些技術類與非技術類技能。
各公司在技能與工具的價值評判上都不盡相同,因此這個列表絕對談不上詳盡,不過在這些領域有過經驗的人會在數據科學上佔有更大的優勢。
技術技能:分析學
1、教育——數據科學家受教育程度都很高,其中88%至少擁有碩士學位,46%有博士學位。雖然有一些名人特例,不過通常來說成為一名數據科學家需要扎實的教育背景,才能掌握所需的深度知識。最常見的研究領域包括數學與統計學(32%),其次是計算機科學(19%)以及工程學(16%)。
2、SAS軟體與/或R語言——對其中至少一種分析工具有深入的了解,一般對數據科學來說R語言更好一些。
技術能力:計算機科學
3、都是公司在招聘數據科學類角色時最常提出的語言要求。
4、Hadoop平台——盡管不是總有這個需求,不過在很多情況下掌握它的人優勢更大。熟悉Hive或Pig也是很有利的賣點。熟悉類似Amazon S3這樣的雲工具也會很有優勢。
5、SQL資料庫/編程——盡管NoSQL和Hadoop已經成為了數據科學很大的組成部分之一,招聘者還是希望能夠找到可以編寫與執行SQL復雜查詢的候選人。
6、非結構化數據——數據科學家能夠處理非結構化數據這一點非常重要,無論這些數據是來自社交媒體、視頻源或者音頻的。
非技術類技能
7、求知慾——毫無疑問最近到處都能看到這個詞,尤其是在與數據科學家關聯時。Frank Lo在幾個月前的博文中描述了這個詞的含義,並且討論了其他必須的「軟技能」。
8、商業智慧——想要成為數據科學家,需要充分了解自己工作的行業,並且知道公司想要解決的商業問題是哪些。能夠根據數據科學分辨出解決哪些問題對公司來說更為重要,並且能夠找出利用數據的新辦法,這些是非常關鍵的。
9、通用技能——尋找優秀數據科學家的公司想要的是這樣的人材:能夠清楚順暢地將自己的技術發現轉化為非技術團隊(比如市場部或者銷售部)能夠使用的內容。數據科學家必須能得出可用以決策的量化insight,同時了解非技術團隊的需求,可以恰當地進行溝通以傳達數據。想要了解定量專家在溝通技巧方面的更多信息,請參見我們近期的調查。
一般接下來的問題都是:「怎樣能夠獲得這些技能呢?」網上有很多資源,不過筆者不希望讓讀者產生這樣的錯覺——成為數據科學家非常簡單,上幾節MOOCs就夠了。除非你有扎實的定量經驗,否則成為數據科學家之路還是頗有挑戰的——但也並非不可能。
不過只要你確實對數據有興趣、有激情,並打算將生命投入到相關的學習上,那麼就不要讓經驗背景成為你追求數據科學生涯的阻礙。下面是我們覺得有用的一些資源:
1、高等學位——為了滿足目前的需求,如雨後春筍般出現了更多的數據科學專業的項目,不過數學、統計學與計算機科學專業的項目也有很多。
2、MOOCs——Coursera、Udacity還有codeacademy都是不錯的入門方式。
3、證書——KDnuggets編寫了一個很長的列表清單。
4、Bootcamps——想要了解這種方式與學歷項目或MOOCs的對比情況。
5、Kaggle——Kaggle上有數據科學競賽,可以進行演練,用雜亂的真實世界數據來磨練技巧,解決真實的商業問題。僱主對Kaggle排名很重視,該排名可以被看作是相關的、經過親身實踐的項目工作。
6、LinkedIn小組——加入相關的小組,與數據科學社區的其他成員互動。
7、數據科學中心與KDnuggets——數據科學中心與KDnuggets都是保持與數據科學行業趨勢前沿同步的優秀資源。8、Burtch Works研究:關於數據科學家的薪金,如果想要了解更多信息與當前數據科學家人數統計的話,請下載我們的數據科學家薪金研究報告。
10. 數據科學家需要哪些技能
數學功底:微積分是嚴格要掌握的。不一定要掌握多元微積分,但一元微積分是必須要熟練掌握並使用的。另外線性代數一定要精通,特別是矩陣的運算、向量空間、秩等概念。當前機器學習框架中很多計算都需要用到矩陣的乘法、轉置或是求逆。雖然很多框架都直接提供了這樣的工具,但我們至少要了解內部的原型原理,比如如何高效判斷一個矩陣是否存在逆矩陣並如何計算等。
數理統計:概率論和各種統計學方法要做到基本掌握,比如貝葉斯概率如何計算?概率分布是怎麼回事?雖不要求精通,但對相關背景和術語一定要了解。
互動式數據分析框架:這里並不是指SQL或資料庫查詢,而是像Apache Hive或Apache Kylin這樣的分析交互框架。開源社區中有很多這樣類似的框架,可以使用傳統的數據分析方式對大數據進行數據分析或數據挖掘。筆者有過使用經驗的是Hive和Kylin。不過Hive特別是Hive1是基於MapRece的,性能並非特別出色,而Kylin採用數據立方體的概念結合星型模型,可以做到很低延時的分析速度,況且Kylin是第一個研發團隊主力是中國人的Apache孵化項目,因此日益受到廣泛的關注。
機器學習框架:機器學習當前真是火爆宇宙了,人人都提機器學習和AI,但筆者一直認為機器學習恰似幾年前的雲計算一樣,目前雖然火爆,但沒有實際的落地項目,可能還需要幾年的時間才能逐漸成熟。不過在現在就開始儲備機器學習的知識總是沒有壞處的。說到機器學習的框架,大家耳熟能詳的有很多種, 信手拈來的就包括TensorFlow、Caffe8、Keras9、CNTK10、Torch711等,其中又以TensorFlow領銜。筆者當前建議大家選取其中的一個框架進行學習,但以我對這些框架的了解,這些框架大多很方便地封裝了各種機器學習演算法提供給用戶使用,但對於底層演算法的了解其實並沒有太多可學習之處。因此筆者還是建議可以從機器學習演算法的原理來進行學習。