- tocdepth
2
Пример запуска задачи с использованием Spark
Пример будет использовать CSV-файл объемом 7.8 ГБ, собранный из данных, расположенных на сайте kaggle. Данные содержат записи с датчиков погоды.
Создайте Jupyter Server с доступом к кластеру Spark или подключитесь к уже существующему.
Загрузите скачанный пример в NFS-хранилище запущенного Jupyter Server с доступом к Spark.
Последовательно выполняйте блоки в запущенном Jupyter Server.
В результате будет осуществлена предварительная обработка данных, размер датасета уменьшится с 97 288 452 до 485 строк.
Была ли статья полезной?
Запустили Evolution free tier
для Dev & Test
Получить
для Dev & Test