4 ключа к быстрому анализу данных

  1. Не храните данные, которые вам не нужны. Звучит глупо, но многие данные, которые вам приходится читать, не являются полезными.

  2. Не читайте данные, которые вам не нужны. Отбрасывайте данные с помощью индексов или любого другого инструмента, который предоставляет ваша база данных/фреймворк.

  3. Выполняйте тяжелые операции позже. Например, фильтрация данных происходит быстрее, чем их агрегирование, поэтому при обработке данных всегда сначала выполняйте фильтрацию, а другие тяжелые операции делайте позже (объединения, агрегирование и так далее).

  4. Сортируйте данные перед их хранением. Сортировка данных делает сжатие намного лучше, и вы используете всю мощь текущего оборудования (последовательное чтение в 100 раз быстрее, чем случайный доступ).

Следуя этим 3 правилам, я обрабатываю большие массивы данных в 100-1000 раз быстрее, чем обычно.

(изображение с сайта craiyon.com сгенерировано с помощью «f1 going fast»)

Оцените статью
devanswers.ru
Добавить комментарий