Запустить задачу на кластере Spark
Пример будет использовать CSV-файл объемом 7.8 ГБ, собранный из данных, расположенных на сайте kaggle. Данные содержат записи с датчиков погоды.
Создайте Jupyter Server с доступом к кластеру Spark или подключитесь к уже существующему.
Загрузите скачанный пример в NFS-хранилище запущенного Jupyter Server с доступом к кластеру Spark.
Последовательно выполняйте блоки в запущенном Jupyter Server.
В результате будет осуществлена предварительная обработка данных, размер датасета уменьшится с 97 288 452 до 485 строк.