您現在的位置是:首頁 > 綜藝首頁綜藝
想成為資料工程師,你需要做哪些準備?
資料處理工程師是幹什麼的
全文共
2765
字,預計學習時長
7
分鐘
圖源:Google
與其他技術角色不同,資料工程沒有那麼容易,許多人在上大學課程時可能從來沒有聽說過資料工程師。然而,像Facebook、Amazon、PayPal和Walmart這樣的公司卻都有資料工程的職位空缺,也有很多初創公司在尋找資料工程師。
但是如何從大學生變成資料工程師呢?資料工程師需要什麼學位?如何成為資料工程師?資料工程師有哪些技能?資料工程師每天都做些什麼?這些是筆者在過去一年中遇到的一些問題,我想寫一篇文章來回答這些問題。
資料工程師需要什麼學位?
筆者曾與資料工程師共事,他們擁有從英語到物理等多個領域的學位。儘管許多職位描述似乎要求資料工程師、擁有數學或工程學位,但如果你有合適的經驗,學位往往沒那麼重要。當然,這就引出了一個問題:你是如何獲得這種經驗的。
作為一名資料工程師,如何獲得真正的工作經驗?
有一些方法很管用。首先,你可以獲得一個數據工程師的實習機會。這個時候的門檻最低,僱主們願意找一個沒有工作經驗的人。
另一種方法是側面獲得該職位。通常情況下,即使你沒有計算機科學或數學背景,你仍然可以透過獲得分析師或專案經理的職位進入資料工程領域。從那裡你可以開始著手越來越多的資料工程領域的工作。
筆者已經多次幫助許多人從不同崗位起步來了解這份工作。但是你不僅需要做自己份內的工作,也要做一些額外的資料工程工作。你也可以試著爭取與資料工程師非常接近的職位,比如商業智慧分析師。
資料工程師應具備哪些技能?
高水平的資料工程師將資料從A點傳輸到B點,並將其重新構建為分析師和資料科學家可以輕鬆使用的格式。
從技能的角度來看,這意味著資料工程師需要ETLs(提取、轉換、載入)、自動化(通常使用Python或其他程式語言)、資料建模或者資料倉庫、SQL和NoSQL資料操作以及資料視覺化等專業技能。
對於許多人來說,ETLs和資料倉庫是一種新技能。在獲得學士學位後,通常會在碩士或證書課程中得到更多的涉獵。
資料工程師使用什麼工具?
圖源:Google
資料工程師使用各種工具,從程式語言到拖放工具,從雲資料倉庫到資料視覺化程式。可供資料工程師使用的工具比一個人一生可能掌握的工具要多得多。例如,資料工程工具包括SSIS、Azuredata Factory、Tableau、Informatica、Matillion、Fivetran、Snowflake、Redshift和Databricks等等。
ETL/ELTs
· Airflow and Luigi
· SSIS
· Fivetran
· Informatica
資料倉庫
· Snowflake
· Redshift
· BigQuery
· Azure Synapse
資料視覺化
· Tableau
· PowerBI
· Looker
資料流
· Kafka
· AWS Kinesis
其他
· Spark
· Presto
· Hadoop
資料工程工作機會很難找到嗎?
資料工程工作存在於世界各地的公司和各個行業。你可以在銀行業、醫療保健業、大型科技企業、初創企業和其他行業找到工作機會。
資料工程師和資料科學家有什麼區別?
筆者經常被問到這個問題,有許多文章可以提供每個技能與技能之間的差異。然而,這次的答案筆者將把重點放在二者的目標上。這可以更容易地看到不同的工具和技能如何為這兩個資料專業排列。
資料工程師的目標更著眼於全域性和開發。資料工程師建立自動化系統和模型資料結構,以使資料得到有效處理。這意味著資料工程師的目標是建立及開發表和資料管道,以支援分析儀表板和其他資料客戶(如資料科學家、分析師和其他工程師)。這和大多數工程師很相似。有很多設計、假設、限制和開發,能夠建立某種最終的強健系統。
這個系統可能是一個數據倉庫和ETL或者流式管道。所有這些都是為成百上千需要訪問可靠資料來幫助回答問題的使用者而設計的。
相比之下,資料科學家往往以問題為中心,因為他們正在尋找降低成本、增加利潤或改善客戶體驗或提高業務效率的方法。這意味著他們需要先提出問題,然後回答問題(提出問題、假設,然後得出結論)。
他們需要提出一些問題,比如影響患者的再入院率的因素,如果給客戶看A vs。 B這樣的廣告,客戶是否會花更多的錢,或者是否有一個更快的途徑來運送包裹。跳過剩下的過程,這裡的目標是找到任何一個問題的答案。它可能是一個最終結論或更多的問題。在整個過程中,資料科學家分析、收集支援,並對問題得出結論。
關於資料工程有哪些線上課程可以學習?
有很多很好的課程可以用來學習更多的資料工程知識。筆者將把其分解為兩種不同型別的課程培訓:專門的技能課程和一般的培訓。
圖源:unsplash
· 擁有谷歌雲專業證書的資料工程
摘要:Coursera的這門優秀的課程涵蓋了學習資料工程所需的全部技能。
這個100%線上課程提供了一個靈活的時間表,給你提供了一個練習關鍵工作技能的機會,比如使用資料處理系統和機器學習模型。這是一門中級課程,要求你對SQL有基本的熟練程度。本課程包括各種演示、實驗和演示,使你能夠透過資料的收集、轉換和釋出來學習資料驅動的決策。
· 面向商業智慧專業化的資料倉庫
摘要:透過這門100%線上、完全靈活的課程,你將學習資料建模的基礎知識,並使用SQL深入瞭解資料操作和資料倉庫的設計。本課程將提供使用大型資料集和使用視覺化分析建立儀表板的機會。透過這個全面的專業化,你將瞭解資料視覺化、Pentaho和資料倉庫。
· 用Apache Spark和Python處理大資料
摘要:在本課程中,你將學習如何在Spark3中使用結構流和資料幀,以及如何使用亞馬遜的Elastic MapReduce服務在Hadoop上使用叢集。筆者最喜歡的重點是它教你如何在大資料分析中構建問題,比如spark問題。
如何成為資料工程師?
成為資料工程師的道路不止一條。即使你們來自不同的背景和學科,但仍然能夠成功。比起學位更重要的是,你有技術技能和軟技能,這將使你成為一個強大的資料工程師。
如果你的目標是成為一名資料工程師,花點時間評估一下你的技能,看看你可以在哪裡擴充套件。開始你的旅程吧!
留言點贊關注
我們一起分享AI學習與發展的乾貨
如轉載,請後臺留言,遵守轉載規範