Чтобы работать с данными, извлекать из них какие-то инсайты или обучать на них модели машинного обучения, необходимо чтобы данные были собраны в удобном единообразном формате. К обработке данных относится сбор данных из разрозненных файлов, объединение таблиц, нормализация данных, фильтрация значений, обработка пропущенных значений и другие процедуры. К сожалению, очень часто данные, с которыми мы работаем грязные, и львиная доля времени уходит именно на обработку данных, чтобы сделать их пригодными для дальнейшего анализа или машинного обучения