Пример запуска задачи с использованием Spark

Пример будет использовать CSV-файл объемом 7.8 ГБ, собранный из данных, расположенных на сайте kaggle. Данные содержат записи с датчиков погоды.

  1. Скачайте пример Jupyter Notebook.

  2. Создайте Jupyter Server с доступом к кластеру Spark или подключитесь к уже существующему.

  3. Загрузите скачанный пример в NFS-хранилище запущенного Jupyter Server с доступом к Spark.

  4. Последовательно выполняйте блоки в запущенном Jupyter Server.

В результате будет осуществлена предварительная обработка данных, размер датасета уменьшится с 97 288 452 до 485 строк.

Масштабная конференция
GoCloud 2024:
облачные грани будущего