日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
從事數(shù)據(jù)科學(xué)工作需要掌握哪些技能?

本文通過國外KDnuggets論壇上Simplilearn的統(tǒng)計結(jié)果和國內(nèi)某知名招聘網(wǎng)站的招聘要求信息進(jìn)行分析,詳細(xì)介紹在數(shù)據(jù)科學(xué)的工作中,需要掌握哪一些技能以及工具,以及當(dāng)下數(shù)據(jù)科學(xué)工作中,哪些技能和工具是從業(yè)人員的學(xué)習(xí)首選。

10年積累的網(wǎng)站設(shè)計、網(wǎng)站制作經(jīng)驗,可以快速應(yīng)對客戶對網(wǎng)站的新想法和需求。提供各種問題對應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識你,你也不認(rèn)識我。但先網(wǎng)站設(shè)計后付款的網(wǎng)站建設(shè)流程,更有慈溪免費網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。

國外KDnuggets網(wǎng)站曾發(fā)起民意測驗調(diào)查,提出了以下問題:

1)您目前擁有哪些與數(shù)據(jù)科學(xué)/機(jī)器學(xué)習(xí)相關(guān)的技能?

2)您想學(xué)習(xí)或進(jìn)修哪些技能?

KDnuggets調(diào)查結(jié)果分析

該民意調(diào)查獲得了1500份以上有效的答卷,樣本足夠大,由此做出來的推論是比較有參考意義的。本次調(diào)查僅有兩個問題,我們將通過這兩個問題的結(jié)果:現(xiàn)已掌握&計劃學(xué)習(xí)這兩個指標(biāo)進(jìn)行分析。調(diào)查結(jié)果顯示,平均每個人具有10種技能,平均每個人希望學(xué)習(xí)或進(jìn)修6.5種技能。

下面的圖1顯示了主要發(fā)現(xiàn),X軸顯示已有技能,對應(yīng)第一個調(diào)查問題的結(jié)果,Y軸顯示想要技能,對應(yīng)第二個調(diào)查問題的結(jié)果。每個圓圈的大小與擁有該技能的人數(shù)的比例成正比,而顏色則取決于需求/已有的比率(紅色高-大于1,藍(lán)色低-小于1)。

我們注意到此圖中的兩個主要類別。 圖表右側(cè)藍(lán)色虛線矩形中的第一類中包含了擁有率超過40%的技能,其需要/擁有的比率小于1。我們稱其為核心數(shù)據(jù)科學(xué)技能。

其中,最需要增加或改進(jìn)的技能是機(jī)器學(xué)習(xí)(41%)和Python(37%)。增長最少的技能是Excel-只有7%的人希望增加或提高其Excel技能。

第二個集群,是圖1左側(cè)用紅色邊框標(biāo)記的那些,包括當(dāng)前不那么受歡迎(%Have <30%),但是使用比例可能卻在增長的技能,需求/已有比超過1。我們稱其新興的數(shù)據(jù)科學(xué)技能。

有趣的是,盡管有觀點認(rèn)為Hadoop在下降,但在這次調(diào)查中,有更多的人希望學(xué)習(xí)Hadoop,而不是已經(jīng)知道的東西,因此它仍可能越來越流行。

盡管Julia的需求/已有率高達(dá)3.4,但我們并未將其包括在熱門/新興技能中,因為僅有2%的總占比,比例太低,沒有有效的數(shù)據(jù)支撐。

其余技能劃分為第三類,包含了XGBoost,軟件工程,Java,MATLAB,SAS,雖然占比在10%至30%間,使用率并不算低,但并沒有增長,需求/已有比率<1。

具體技能的排名情況如下所示,分別以已有率和需求率的高低進(jìn)行排序展示。

我們可以發(fā)現(xiàn),當(dāng)前和有抱負(fù)的數(shù)據(jù)科學(xué)家最想要學(xué)習(xí)的進(jìn)修的技能是深度學(xué)習(xí),Tensorflow,機(jī)器學(xué)習(xí)和Python。

根據(jù)調(diào)查,我們發(fā)現(xiàn)有一些核心的、穩(wěn)定的數(shù)據(jù)科學(xué)技能,它們有些是使用率很高,有些是當(dāng)前非常重要、熱門的技能。

技術(shù)技能:計算機(jī)科學(xué)

1、教育

數(shù)據(jù)科學(xué)家受過高等教育,并且有高達(dá)88%的人至少具有碩士學(xué)位,46%的人擁有博士學(xué)位。盡管有例外,但通常需要非常強(qiáng)的教育背景,以發(fā)展成為數(shù)據(jù)科學(xué)家所需的知識深度。要成為數(shù)據(jù)科學(xué)家,您可以獲得計算機(jī)科學(xué),社會科學(xué),物理科學(xué)和統(tǒng)計學(xué)的學(xué)士學(xué)位。最常見的研究領(lǐng)域是數(shù)學(xué)和統(tǒng)計學(xué)(32%),其次是計算機(jī)科學(xué)(19%)和工程學(xué)(16%)。這些課程中的任何一個學(xué)位都將為您提供處理和分析大數(shù)據(jù)所需的技能。 完成學(xué)位課程后,并不意味著已經(jīng)成功。事實是,大多數(shù)數(shù)據(jù)科學(xué)家都擁有碩士學(xué)位或博士學(xué)位,并且他們還接受在線培訓(xùn)以學(xué)習(xí)特殊技能,例如如何使用Hadoop或大數(shù)據(jù)查詢。因此,可以通過學(xué)習(xí)數(shù)據(jù)科學(xué),數(shù)學(xué),天體物理學(xué)或任何其他相關(guān)領(lǐng)域的碩士學(xué)位課程。利用在大學(xué)學(xué)到的技能使您輕松過渡到數(shù)據(jù)科學(xué)。 除了課堂學(xué)習(xí)之外,您還可以通過構(gòu)建應(yīng)用程序,創(chuàng)建博客或探索數(shù)據(jù)分析來練習(xí)在課堂上學(xué)到的知識,以使您學(xué)到更多。比如CSDN、Github、Kaggle等。

2、R編程

在過去,通常首選R語音作為對數(shù)據(jù)科學(xué)的分析工具。R是有統(tǒng)計學(xué)家,專門為數(shù)據(jù)科學(xué)需求而設(shè)計的??梢允褂肦解決在數(shù)據(jù)科學(xué)中遇到的任何問題。實際上,現(xiàn)在有43%的數(shù)據(jù)科學(xué)家正在使用R來解決統(tǒng)計問題。但是,R具有陡峭的學(xué)習(xí)曲線。

相對現(xiàn)在非常熱門的python而言,R很難學(xué)習(xí),尤其是如果您已經(jīng)掌握了編程語言。但是,互聯(lián)網(wǎng)上有大量資源可以幫助學(xué)習(xí),對于有抱負(fù)的數(shù)據(jù)科學(xué)家來說,這是一個巨大的資源。

3、Python編碼

不同于Java,Perl或C / C ++,Python是數(shù)據(jù)科學(xué)工作中通常使用到的最常見的編碼語言。對于數(shù)據(jù)科學(xué)家而言,Python是一種很棒的編程語言。這就是為什么接受調(diào)查的受訪者中有40%表示,使用Python作為其主要編程語言的原因。

由于它的多功能性,使用者幾乎可以將Python用于數(shù)據(jù)科學(xué)過程中涉及的所有步驟。它可以采用各種格式的數(shù)據(jù),并且使用者可以輕松地將SQL表導(dǎo)入代碼中??梢詣?chuàng)建數(shù)據(jù)集,并且可以在Google上找到所需要的任何類型的數(shù)據(jù)集。

4、Hadoop平臺

盡管Hadoop并不是必需的,因為他是大數(shù)據(jù)平臺,但在許多情況下,它是首選。擁有Hive或Pig的經(jīng)驗也是一個強(qiáng)項。熟悉諸如Amazon S3之類的云工具也可能會有所幫助。在對3490個數(shù)據(jù)科學(xué)工作者進(jìn)行的一項研究調(diào)參中,Hadoop以49%的占比被評選為數(shù)據(jù)科學(xué)家第二重要技能。 作為數(shù)據(jù)科學(xué)家,可能會遇到這樣一種情況,即擁有的數(shù)據(jù)量超出了系統(tǒng)的內(nèi)存,或者需要將數(shù)據(jù)發(fā)送到其他服務(wù)器,這就是Hadoop的用武之地。使用者可以使用Hadoop來快速將數(shù)據(jù)傳輸?shù)礁鞣N服務(wù)器。同時可以使用Hadoop進(jìn)行數(shù)據(jù)探索,數(shù)據(jù)過濾,數(shù)據(jù)采樣和匯總等各項工作。

5、數(shù)據(jù)庫/SQL編碼

盡管NoSQL和Hadoop已經(jīng)成為數(shù)據(jù)科學(xué)的重要組成部分,但仍需要能夠在SQL中編寫和執(zhí)行復(fù)雜的查詢。SQL(結(jié)構(gòu)化查詢語言)是一種編程語言,可以執(zhí)行數(shù)據(jù)庫中添加,刪除和提取數(shù)據(jù)之類的操作。它還可以執(zhí)行分析功能和轉(zhuǎn)換數(shù)據(jù)庫結(jié)構(gòu)。 作為數(shù)據(jù)科學(xué)家,需要精通SQL。這是因為SQL是專門為訪問、通信和處理數(shù)據(jù)而設(shè)計的。它具有簡潔的命令,可以節(jié)省時間并減少執(zhí)行困難查詢所需的編程量。

6、Apache Spark

Apache Spark正在成為全球很受歡迎的大數(shù)據(jù)技術(shù)。就像Hadoop一樣,它是一個大數(shù)據(jù)計算框架。唯一的區(qū)別是Spark比Hadoop快。這是因為Hadoop讀寫磁盤,這使其速度變慢,但是Spark將其計算緩存在內(nèi)存中。 Spark專為數(shù)據(jù)科學(xué)而設(shè)計,可幫助更快地運行其復(fù)雜算法。處理大量數(shù)據(jù)時,它有助于傳播數(shù)據(jù)處理,從而節(jié)省時間。它還可以幫助數(shù)據(jù)科學(xué)家處理復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)集。可以在一臺或多臺計算機(jī)上使用它。

Spark使數(shù)據(jù)科學(xué)家可以防止數(shù)據(jù)科學(xué)中的數(shù)據(jù)丟失。Spark的優(yōu)勢在于其速度和平臺,這使得執(zhí)行數(shù)據(jù)科學(xué)項目變得容易。使用Spark,可以進(jìn)行從數(shù)據(jù)獲取到分布式計算的分析。

7、機(jī)器學(xué)習(xí)與人工智能

大量數(shù)據(jù)科學(xué)家并不精通機(jī)器學(xué)習(xí)領(lǐng)域和技術(shù)。這包括神經(jīng)網(wǎng)絡(luò),強(qiáng)化學(xué)習(xí),對抗學(xué)習(xí)等。如果您想在其他數(shù)據(jù)科學(xué)家中脫穎而出,則需要了解機(jī)器學(xué)習(xí)技術(shù),例如監(jiān)督機(jī)器學(xué)習(xí),決策樹,邏輯回歸等。這些技能將幫助您解決基于主要組織成果預(yù)測的不同數(shù)據(jù)科學(xué)問題。 數(shù)據(jù)科學(xué)需要在機(jī)器學(xué)習(xí)的不同領(lǐng)域中應(yīng)用技能。Kaggle在其一項調(diào)查中顯示,一小部分?jǐn)?shù)據(jù)專業(yè)人員具備高級機(jī)器學(xué)習(xí)技能,例如有監(jiān)督的機(jī)器學(xué)習(xí),無監(jiān)督的機(jī)器學(xué)習(xí),時間序列,自然語言處理,離群值檢測,計算機(jī)視覺,推薦引擎,生存能力分析,強(qiáng)化學(xué)習(xí)和對抗學(xué)習(xí)。

8、數(shù)據(jù)可視化

商業(yè)世界經(jīng)常產(chǎn)生大量數(shù)據(jù)。需要將這些數(shù)據(jù)轉(zhuǎn)換為易于理解的格式。人們自然比原始數(shù)據(jù)更了解圖表和圖形形式的圖片。 作為數(shù)據(jù)科學(xué)家,必須能夠借助數(shù)據(jù)可視化工具(例如ggplot、BI、Matplottlib和Tableau)可視化數(shù)據(jù)。這些工具將幫助您將項目中的復(fù)雜結(jié)果轉(zhuǎn)換為易于理解的形式。例如很多人不了解序列相關(guān)性或p值等專業(yè)性的較強(qiáng)的詞匯所表達(dá)的意思。您需要直觀地向他們展示這些術(shù)語在您的結(jié)果中代表什么。 數(shù)據(jù)可視化使組織能夠直接使用數(shù)據(jù),可以快速掌握見解,從而幫助他們把握新的商機(jī)并保持競爭優(yōu)勢。

9、非結(jié)構(gòu)化數(shù)據(jù)

數(shù)據(jù)科學(xué)家能夠處理非結(jié)構(gòu)化數(shù)據(jù)至關(guān)重要。非結(jié)構(gòu)化數(shù)據(jù)是不適合數(shù)據(jù)庫表的未定義內(nèi)容。例如包括視頻,博客文章,客戶評論,社交媒體文章,視頻供稿,音頻等。它們是復(fù)雜的文本、音頻匯集在一起。 因為這些類型的數(shù)據(jù)沒有被簡化,所以很難對其進(jìn)行排序。 由于非結(jié)構(gòu)化數(shù)據(jù)的復(fù)雜性,大多數(shù)人將其稱為“黑暗分析”。使用非結(jié)構(gòu)化數(shù)據(jù)可幫助您揭示對決策有用的見解。作為數(shù)據(jù)科學(xué)家,必須具備理解和操縱非結(jié)構(gòu)化數(shù)據(jù)的能力。

非技術(shù)技能

10、求知欲

“我沒有特殊才能。我只是充滿好奇?!?--愛因斯坦。 好奇心可以定義為獲取更多知識的愿望。作為數(shù)據(jù)科學(xué)家,需要能夠提出有關(guān)數(shù)據(jù)的問題,因為數(shù)據(jù)科學(xué)家花費大約80%的時間來發(fā)現(xiàn)和準(zhǔn)備數(shù)據(jù)。這是因為數(shù)據(jù)科學(xué)領(lǐng)域是一個發(fā)展迅速的領(lǐng)域,數(shù)據(jù)科學(xué)家必須學(xué)習(xí)更多以跟上步伐。 數(shù)據(jù)科學(xué)家需要通過在線閱讀內(nèi)容并閱讀有關(guān)數(shù)據(jù)科學(xué)趨勢的相關(guān)書籍來定期更新知識。不要被遍布互聯(lián)網(wǎng)的龐大數(shù)據(jù)量所淹沒,數(shù)據(jù)科學(xué)家必須要能夠知道如何理解所有數(shù)據(jù)。好奇心是成功成為數(shù)據(jù)科學(xué)家所需的技能之一。例如,他可能不會對所收集的數(shù)據(jù)有太多了解,但好奇心使他可以篩選數(shù)據(jù)以找到答案和更多見解。

11、商業(yè)頭腦

要成為數(shù)據(jù)科學(xué)家,需要對自身所從事的行業(yè)有扎實的了解,并且知道本公司正在試圖解決哪些業(yè)務(wù)問題。在數(shù)據(jù)科學(xué)方面,除了確定業(yè)務(wù)應(yīng)該利用其數(shù)據(jù)的新方法之外,還要能夠辨別哪些問題對于業(yè)務(wù)而言至關(guān)重要。 為此,必須了解解決的問題是如何影響業(yè)務(wù)的。

12、溝通技巧

尋找強(qiáng)大數(shù)據(jù)科學(xué)家的公司正在尋找可以清楚,流利地將其技術(shù)發(fā)現(xiàn)轉(zhuǎn)化到非技術(shù)團(tuán)隊的人員,例如市場或銷售部門。數(shù)據(jù)科學(xué)家除了了解非技術(shù)同事的需求以適當(dāng)?shù)卣頂?shù)據(jù)外,還必須通過用量化的見解武裝他們來使企業(yè)做出決策。 除了說公司所能理解的相同語言外,還需要使用數(shù)據(jù)講故事進(jìn)行交流。作為數(shù)據(jù)科學(xué)家,必須知道如何圍繞數(shù)據(jù)創(chuàng)建故事情節(jié),以使任何人都易于理解。例如,呈現(xiàn)數(shù)據(jù)表,并不像以講故事的方式共享來自那些數(shù)據(jù)的見解那樣有效。講故事將幫助您正確地將您的發(fā)現(xiàn)傳達(dá)給您的雇主。交流時,請注意在分析數(shù)據(jù)中嵌入結(jié)果和值。大多數(shù)企業(yè)所有者不希望知道您所分析的內(nèi)容,而是對它如何對他們的業(yè)務(wù)產(chǎn)生積極影響感興趣。學(xué)會專注于通過交流傳遞價值并建立持久的關(guān)系。

13、團(tuán)隊合作

數(shù)據(jù)科學(xué)家不能獨自工作。必須得和公司高管一起制定戰(zhàn)略,與產(chǎn)品經(jīng)理和設(shè)計師一起創(chuàng)造更好的產(chǎn)品,與市場人員一起開展轉(zhuǎn)換效果更好的活動,與客戶和服務(wù)器軟件開發(fā)商一起創(chuàng)建數(shù)據(jù)管道并改善工作流程。實際上,數(shù)據(jù)科學(xué)家將必須與公司中的每個人,甚至包括客戶一起工作。 本質(zhì)上,數(shù)據(jù)科學(xué)家將與團(tuán)隊成員合作開發(fā)數(shù)據(jù)產(chǎn)品,了解解決問題所需的業(yè)務(wù)目標(biāo)和數(shù)據(jù)。并且需要知道解決問題的正確方法,解決問題所需的數(shù)據(jù)以及如何將結(jié)果轉(zhuǎn)換和呈現(xiàn)為所涉及的每個人都易于理解的內(nèi)容。

數(shù)據(jù)分析某知名招聘網(wǎng)站的招聘信息

相對于國外的情況,國內(nèi)的情況又是如何呢?進(jìn)行數(shù)據(jù)分析相關(guān)工作又需要哪些工作技能呢?為此,特意爬取某招聘網(wǎng)站的有關(guān)數(shù)據(jù)分析相關(guān)職位的相關(guān)信息來進(jìn)行分析,探索國內(nèi)數(shù)據(jù)分析工作的技能要求。

將工具提取出來制作成詞云圖,其中字體越大,顏色越深的工具出現(xiàn)的頻率越高,說明也越多企業(yè)希望能招到掌握此技能的員工??梢院苊黠@的看出,python是其中需求較高的技能,其次還有SQL、Spark、Hadoop、Excel等。

根據(jù)工具與其出現(xiàn)的詞頻,繪制成條形圖:

  • python作為近年來最熱門的編程語言,在數(shù)據(jù)科學(xué)領(lǐng)域也有這舉足輕重的地位,在所有招聘數(shù)據(jù)分析工作者的崗位中,有多達(dá)1329家企業(yè)明確希望找到能使用python的員工。
  • 而作為傳統(tǒng)統(tǒng)計分析編程軟件的R,位列第六,崗位需求僅有不到800,遠(yuǎn)不及python的需求量。
  • 同為編程語言的Hadoop和Spark分別位列第二、第四,均有1000上下的需求,說明當(dāng)前大數(shù)據(jù)方向在數(shù)據(jù)科學(xué)中的重要性,市場對擁有大數(shù)據(jù)分析技能的人才有著很大的需求。
  • 作為非傳統(tǒng)數(shù)據(jù)處理、清洗、分析的編程軟件Java和C語言,同樣在這一領(lǐng)域有這不少的需求量,也在側(cè)面說明了編程能力對于數(shù)據(jù)科學(xué)領(lǐng)域是一個重要的能力。
  • 在數(shù)據(jù)庫方面,Hive、Hbase、MySQL、Oracle出現(xiàn)的頻數(shù)較高,sql作為數(shù)據(jù)庫的編程語句,并不屬于一種獨立的軟件,其實也包括了MySQL、Oracle在內(nèi)的一些數(shù)據(jù)庫,所以MySQL和Oracle實際會有更高的市場人才需求。
  • Excel、SAS、SPSS也是數(shù)據(jù)分析工作中較多人使用的工具,目前市場上對掌握此類技能的人才也有這大量的需求。 

網(wǎng)站名稱:從事數(shù)據(jù)科學(xué)工作需要掌握哪些技能?
網(wǎng)站鏈接:http://m.5511xx.com/article/cdcdhcg.html