Введение в Python для инженерии данных


Настройка инструментов.

Чтобы использовать python, на вашем компьютере должен быть установлен редактор кода и необходимые библиотеки и модули. В этой статье рассказывается о том, как запустить python на jupyter notebook, работающем на vs code. Мы начнем с установки vs code на нашу машину. Vs code работает на всех машинах, начиная от windows, mac и заканчивая Linux. Если на вашем компьютере не установлен vs code, посетите сайт https://code.visualstudio.com/ для загрузки и установки. Vs code имеет открытый исходный код, поэтому он бесплатен и прост в установке. После установки vs code и его открытия ваш экран будет выглядеть так, как показано ниже.

Нажмите на расширение в левой части окна и в поиске введите Jupyter notebook.

Затем щелкните на значке jupyter notebook и установите его. Повторите ту же процедуру для любой библиотеки, которую вы хотите установить в код vs. После этого установите anaconda на вашу машину. Если вы еще не установили anaconda, посетите сайт https://anaconda.org/ для получения руководства по установке. После этого нажмите кнопку «Пуск» на вашей машине windows и введите anaconda prompt.

Нажмите на приглашение anaconda, и вы будете направлены в терминал conda. Затем создайте рабочую среду. Я создал среду под названием datascience_basics и буду использовать python 3.9 в этом проекте. Команда для создания этого окружения в anaconda будет следующей

C:UsersHP.DESKTOP-QMIMHR3>conda create --name datascience_basics python==3.9
Войти в полноэкранный режим Выйти из полноэкранного режима

После выполнения команды ваш экран будет выглядеть так, как показано ниже.

Будет установлено несколько пакетов, как показано на скриншоте. После этого нам нужно активировать наше окружение. Для активации среды выполните следующую команду в терминале.

C:UsersHP.DESKTOP-QMIMHR3>conda activate datascience_basics
Войти в полноэкранный режим Выйти из полноэкранного режима

Мы можем проверить, правильно ли установлен jupyter, выполнив команду

Conda list jupyter.
Войти в полноэкранный режим Выйти из полноэкранного режима

Если вы установили его правильно, ваш экран будет выглядеть так, как показано ниже

Затем перейдем на рабочий стол и создадим папку для data science. Затем мы установим jupyter в созданную папку.

(datascience_basics) C:UsersHP.DESKTOP-QMIMHR3>cd Desktop
Вход в полноэкранный режим Выход из полноэкранного режима
(datascience_basics) C:UsersHP.DESKTOP-QMIMHR3Desktop>mkdir datascience1
Войти в полноэкранный режим Выйти из полноэкранного режима

Экран будет выглядеть так, как показано ниже.

Теперь откройте код vs из терминала, используя

(datascience_basics) C:UsersHP.DESKTOP-QMIMHR3Desktop>code .
Войти в полноэкранный режим Выйти из полноэкранного режима

На панели задач vs code нажмите view, затем command pallet, а затем new jupyter notebook. Ваш экран должен выглядеть так, как показано ниже


Вы можете переключиться с python на markdown с помощью самой верхней иконки на редакторе vs code. Теперь ваше рабочее пространство создано и готово к использованию. Вы сможете использовать все библиотеки и пакеты python. В блокноте Jupyter используется выпадающий список, и ваше рабочее пространство будет выглядеть так, как показано на экране ниже.

Зачем нужен python в инженерии данных?

Инженеры по обработке данных собирают данные из различных источников и преобразуют их в нужный формат, прежде чем передать их нужной команде. Инженеры по обработке данных подготавливают данные, выполняя такие действия, как удаление повторяющихся данных и сбор недостающих данных, а также другие действия по очистке и предварительной обработке данных. Затем очищенные данные передаются группе аналитиков. Ниже приведен краткий перечень обязанностей инженеров по обработке данных.

  1. Ввод данных из различных источников данных
  2. Проведение оптимизации данных для их анализа
  3. Удаление испорченных данных в наборе данных
  4. Разработка, конструирование, тестирование и поддержание структуры данных.Рост инженерии данных способствовал росту инженерии данных. Большие данные — это очень большие массивы данных, которые традиционные системы управления данными не могут экономически эффективно анализировать. Росту больших данных способствовал рост IoT, мобильных приложений и интеллектуальных датчиков. По данным IDC на 2021 год, насчитывается более 10 миллиардов подключенных устройств. Согласно прогнозам, к 2030 году это число возрастет до 25,4 миллиарда. Это означает, что в секунду к интернету будет подключаться более 15000 миллионов устройств. В связи с этим компании, организации и правительства вкладывают значительные средства в то, как получать такие данные и хранить их для экономических целей. В прошлые годы данные были в основном структурированными. Данные из мобильных приложений, страниц веб-сайтов и iot в основном содержат изображения, видео или аудио, такие данные являются неструктурированными. Мы можем получить данные с этих устройств в виде формата JSON. Такие данные описываются как полуструктурированные. Полуструктурированные данные описываются с помощью пяти аспектов, которые помогают специалистам по анализу данных получать ценные сведения из данных, и в то же время помогают ученым, аналитикам и инженерам по данным стать клиентоориентированными. К этим 5vs относятся:
    • Объем: это количество существующих данных. Когда объем данных достаточно велик, данные называют большими данными.
    • Разнообразие: относится к разнообразию типов данных. Организация может получать данные из различных источников, которые иногда отличаются по типу. Собранные данные могут быть структурированными, полуструктурированными или неструктурированными.
    • Скорость: это относится к тому, как быстро данные производятся и перемещаются. Этот аспект очень важен для компании, чтобы отслеживать движение данных и делать их доступными в нужное время.
    • достоверность: Это качество и ценность собранных данных. Собранные данные могут содержать недостающие значения или неправильные форматы, что делает их беспорядочными и сложными для использования.
    • Ценность: Это относится к полезности данных для организации. Иногда кажется, что data engineering и data scientist — это одно и то же. Однако эти два термина совершенно разные. Чтобы понять их суть, давайте рассмотрим их различия.

Трубопроводы данных.

Данные — это новая форма нефти. Как нефть переходит из сырой в различные формы, так и данные. Необработанные данные попадают в руки инженеров-машиностроителей, которые подготавливают данные и очищают их, прежде чем передать их специалистам по анализу данных. Специалисты по анализу данных манипулируют данными и анализируют их для получения различных выводов. Компании получают данные из различных источников, и им необходимо хранить эти данные. Для этого инженеры по обработке данных разрабатывают и строят конвейеры данных. Эти конвейеры данных используются для автоматизации потока данных из одного места в другое. В зависимости от характера источника данных, данные могут обрабатываться либо в потоках данных, либо в пакетах.
Прежде чем что-то делать с данными в системе, инженеры убеждаются в том, что они эффективно циркулируют в системе. В качестве исходных данных могут выступать любые изображения, видео, потоки данных JSON и XML, своевременные пакеты данных или даже данные с установленных датчиков. Инженеры по данным разрабатывают системы, которые принимают эти данные на вход, преобразуют их, а затем хранят в нужном формате, чтобы их могли использовать специалисты по анализу данных, инженеры по машинному обучению и другие специалисты по данным. Такие системы иногда называют конвейерами извлечения, преобразования и загрузки (ETL).
Поскольку данные поступают в систему, они должны соответствовать определенным стандартам архитектуры. Чтобы сделать данные более доступными для пользователя, выполняется нормализация данных.
К числу мероприятий по нормализации данных относятся удаление дубликатов, исправление отсутствующих и противоречивых данных, а также преобразование данных в нужный формат. Неструктурированные данные хранятся в озерах данных, а хранилища данных используются для хранения информации реляционных баз данных.
озера и хранилища данных
Озеро данных хранит данные как из внутренних, так и из внешних источников. Озера данных и хранилища данных отличаются друг от друга. Приведем некоторые из их отличий

Каталог данных для озер данных хранит записи о
— Источники данных
— Место, где должны храниться данные
— Владелец данных
— Как часто обновляются данные
Библиотеки Python для инженерии данных.
Python в основном используется в инженерии данных благодаря своим богатым библиотекам и модулям. Некоторые из библиотек Python для инженерии данных включают:
Pandas. Библиотека Pandas используется инженерами данных для чтения, запроса, записи или манипулирования данными. Pandas может читать файлы форматов JSON и CSV. Pandas также может использоваться для устранения таких проблем, как отсутствие данных в наборах данных. Инженеры по обработке данных используют Pandas для преобразования данных в удобочитаемый формат.
Psycopg2/pyodbc/sqlalchemy: инженеры данных используют mypostgresql для хранения данных. Эти библиотеки используются для подключения к базе данных. mypostgresql работает со структурированными данными.
Elasticsearch. Инженеры по обработке данных используют эту библиотеку для управления базой данных NoSQL.
Scipy. Эта библиотека предлагает быстрые математические решения. Инженеры по данным используют ее для выполнения научных расчетов по проблемам, связанным с данными.
Beautiful soup: Эта библиотека используется для добычи данных и веб-скраббинга. Инженеры по обработке данных используют beautiful soup для извлечения данных с определенных веб-сайтов. Beautiful soup поддерживает форматы данных HTML и JSON.
Petl: Эта библиотека используется для извлечения и изменения табличных данных. Инженеры по обработке данных используют эту библиотеку при построении конвейеров извлечения, преобразования и загрузки данных (ETL).
Pygrametl: это библиотека, которая используется во время развертывания конвейера данных ETL.
Из того, что мы рассмотрели, становится ясно, что python — один из лучших языков для использования в инженерии данных. Это объясняется его простотой и богатством библиотек для инженерии данных. Python также является ресурсом с открытым исходным кодом, поэтому каждый может свободно улучшать и использовать уже существующие ресурсы в личных целях.

Оцените статью
devanswers.ru
Добавить комментарий