Для того чтобы аналитики данных и специалисты по исследованию данных могли извлекать полезные бизнес-знания из потока информации и массива больших данных, эти большие данные необходимо правильно собирать и хранить.
Это и входит в обязанности big data инженера, а также и создание инфраструктуры для больших данных, корпоративных информационных хранилищ, систем ETL, внутренних баз данных и сторонних источников (электронная почта, CRM, ERP и другие прикладные системы).
Таким образом, инженер по данным выполняет следующие задачи:
- Организация автоматического сбора данных из различных источников в одно централизованное хранилище (хранилище данных) или озеро данных (data lake).
- Перемещение и хранение массивов данных.
- Настройка, интеграция и создание карт данных для работы аналитиков и исследователей.
- Создание регулярного и непрерывного конвейера подготовки данных (CI/CD pipeline).
- Мониторинг и улучшение качества данных.
Big data инженеры востребованы во всех сферах бизнеса, где происходит поток разнообразных данных, которые необходимо анализировать, включая электронную коммерцию, финансы, туризм и строительство.