Хотя Data Engineer vs Data Scientist — это не очень удачное сравнение, потому что один из них — инженерная роль, а другой — аналитическая/количественная роль. Работа одного начинается только после завершения работы другого. Очень разные карьерные пути и навыки.
Инженер данных
Data Engineer работает над конвейером данных. Здесь слово «конвейер» очень увлекательно, и значение этого слова такое же, о котором вы сейчас думаете.
Что такое трубопроводы:
Трубопровод — это путь, по которому нефть, вода или любая другая жидкость может попасть в другое место. Точно так же и в области инженерии данных мы можем передавать данные из восходящей системы в нисходящую. Несомненно, здесь мы также можем применить некоторую бизнес-логику или валидацию, чтобы ограничить данные в определенной форме.
Таким образом, инженер данных может очистить данные от сырых данных и получить некоторые полезные данные из восходящего потока (фактическое место хранения данных (источник)) в нисходящий поток (место, которое должно быть размещено (место назначения)).
Считается, что:
Данные — это новая нефть
Каждая компания пытается получить все больше и больше нефти, чтобы стать богатой в мире технологий.
Мое мнение о Data Engineering:
Я думаю, что лучше сравнивать инженерию данных с программной инженерией. Разница в том, что инженеры программного обеспечения создают инструменты, а инженеры данных используют инструменты.
Например
Инженеры-программисты создают Spark, а инженеры данных используют Spark.
Именно здесь инженерия данных не так интеллектуально сложна. Подумайте, хотели бы вы быть тем, кто создает распределенные системы, лежащие в основе Spark, или вы просто хотите работать в компаниях, которым просто нужно сделать хороший продукт с хорошим UI/UX? Если вы работаете в такой компании, то, на мой взгляд, Data Engineering немного более интеллектуально сложна, чем фронтенд-веб-разработка. Если вы хотите создавать крутые распределенные системы, то вам нужно идти работать в такие компании, как Google, Alibaba, Amazon или даже IBM.
Возможно, лучше сравнить DE с бэкенд-инженерией. Я думаю, что бэкенд-инженер с хорошими навыками моделирования данных и знаниями баз данных сможет легко перейти на роль DE. Однако DE, который работает только с pyspark и облачными технологиями, будет немного сложнее перейти на роль бэкенд-инженера.
Data Scientist
Роль Data Scientist очень проста. Он работает с данными Downstream или данными, предоставленными инженером по обработке данных. Data Scientist использует данные, чтобы сделать некоторые выводы о каком-либо продукте. Его работа больше похожа на стратегии прогнозирования и рекомендаций.
Например
Вы просматриваете airbuds на AliExpress, было замечено, что AliExpress рекомендует нам много других подобных товаров. То же самое происходит и в случае с рекомендацией видео на YouTube.
Специалист по науке о данных создал автоматизированную модель, используя данные, полученные в результате анализа, для получения полезных выводов. Очевидно, что для работы в области науки о данных необходимо обладать глубокими знаниями математики и технологий.
Обе эти области очень увлекательны для меня, и я надеюсь, что после ознакомления с различиями и их ролью у вас появятся те же намерения.
Заключение
Если «инженер» хочет оставаться актуальным и «зверем», то он должен создавать инструменты, а не использовать их.
Кстати, я влюбляюсь в Big Data 💖.
Присоединяйтесь к моей экосистеме:
LinkedIn
ZapeeoSheikh