HDFS - Activicsoft

Hadoop Distributed File System (HDFS) – это распределенная файловая система, которая используется для хранения и управления большими объемами данных в кластере Apache Hadoop. HDFS разбивает файлы на блоки данных и хранит эти блоки на различных узлах в кластере, обеспечивая отказоустойчивость и распределенный доступ к данным. HDFS используется как хранилище для данных, обрабатываемых с использованием Apache Hadoop, и обеспечивает высокую пропускную способность и отказоустойчивость благодаря распределенной архитектуре.

Все блоки в HDFS (кроме последнего блока файла) имеют одинаковый размер, и каждый блок может быть размещён на нескольких узлах, размер блока и коэффициент репликации (количество узлов, на которых должен быть размещён каждый блок) определяются в настройках на уровне файла. Благодаря репликации обеспечивается устойчивость распределённой системы к отказам отдельных узлов. Файлы в HDFS могут быть записаны лишь однажды (модификация не поддерживается), а запись в файл в одно время может вести только один процесс. Организация файлов в пространстве имён — традиционная иерархическая: есть корневой каталог, также поддерживается вложение каталогов, в одном каталоге могут располагаться и файлы, и другие каталоги.

Развёртывание экземпляра HDFS предусматривает наличие центрального узла имён, хранящего метаданные файловой системы и метаинформацию о распределении блоков, и серии узлов данных, непосредственно хранящих блоки файлов. Узел имён отвечает за обработку операций уровня файлов и каталогов — открытие и закрытие файлов, манипуляция с каталогами, узлы данных непосредственно отрабатывают операции по записи и чтению данных. Узел имён и узлы данных снабжаются веб-серверами, отображающими текущий статус узлов и позволяющими просматривать содержимое файловой системы. Административные функции доступны из интерфейса командной строки.

HDFS является неотъемлемой частью проекта, однако, Hadoop поддерживает работу и с другими распределёнными файловыми системами без использования HDFS, поддержка Amazon S3 и CloudStore реализована в основном дистрибутиве. С другой стороны, HDFS может использоваться не только для запуска MapReduce-заданий, но и как распределённая файловая система общего назначения, в частности, поверх неё реализована распределённая NoSQL СУБД HBase, в её среде работает масштабируемая система, реализующая машинное обучение Apache Mahout.

Преимущества файловой системы HDFS (Hadoop Distributed File System):

1. Масштабируемость: HDFS спроектирована для работы с большими объемами данных и обеспечивает возможность масштабирования до петабайт и более.

2. Отказоустойчивость: благодаря репликации данных и механизмам восстановления при сбоях узлов, HDFS обладает высокой степенью отказоустойчивости.

3. Экономичность: использование дешевого оборудования и возможность горизонтального масштабирования позволяют снизить затраты на хранение и обработку данных.

4. Простота использования: HDFS построена с использованием простых принципов и предоставляет удобные средства для управления данными.

Недостатки файловой системы HDFS:

1. Низкая производительность для малых файлов: из-за особенностей работы с блоками данных, HDFS может показывать неоптимальные результаты при работе с небольшими файлами.

2. Ограничения по производительности при записи данных: при записи большого объема данных в HDFS может возникать проблема с производительностью из-за алгоритмов управления данными и распределения нагрузки.

3. Сложности настройки и администрирования: для эффективной работы с HDFS требуется наличие довольно редких квалифицированных специалистов с опытом работы с данной технологией.

4. Ограничения по поддержке некоторых типов данных: HDFS может иметь ограничения при работе с некоторыми специфическими типами данных, например, транзакционными данными.