Spark — это быстрый и распространенный вычислительный движок, совместимый с данными Hadoop. Spark может работать в кластере Hadoop, используя диспетчер пакетов YARN, и обрабатывать данные любого типа в HDFS, HBase, Hive и Hadoop.
Взаимодействие Spark с HDFS и YARN