Слово «большие данные» было придумано, когда ведущие ТНК, такие как Google, Facebook, Amazon появились на свет. До этого мы обычно имели дело с обычными данными, которые после изобретения Больших Данных стали называться Малыми Данными.
Основное различие между большими и малыми данными заключается в их размере и объеме. Несомненно, с увеличением объема данных способ их хранения также увеличивается экспоненциально.
Компания использует Большие данные для получения полезных сведений. Они используют Большие данные для добычи данных, анализа данных и науки о данных. [Подробнее о науке о данных].
Что такое малые данные?
Малые данные в основном имеют структурированную форму. Они могут быть в виде таблиц, XML или графического формата. Максимальный размер малых данных содержит терабайт данных. ТБ — это максимальный размер, который может хранить структурный формат, например, SQL или Oracle.
Поскольку размер данных невелик, мы используем узлы, чтобы проникнуть в малые данные. 90% малых данных являются общедоступными. Мы можем использовать малые данные для анализа других проектов, но в случае с большими данными они не являются публичными.
Что касается больших данных:
Большие данные в основном неструктурированные и имеют объем в петабайты, эксабайты, зетабайты и йоттабайты. Если вы думаете, как можно генерировать такой большой объем данных?
Позвольте мне рассказать вам.
Facebook ежедневно генерирует 4 ПБ данных. Эти данные включают в себя все записи о ваших изображениях, лайках или видео, которые вы разместили в этот день.
Большие данные не могут быть собраны в одном месте. Эти данные могут быть распределены глобально. Более того, мы используем мультикластеры для работы с большими данными. В Больших Данных мы в основном используем Hadoop, Spark или pyspark для хранения PB, EB, ZB и YB данных.