Как следует из названия должности, инженеры по обработке данных принимают непосредственное участие в доставке, хранении и обработке информации. Они создают рабочие процессы, конвейеры данных и процессы ETL (обработка и преобразование информации).
Другими словами, инженеры строят все каналы связи, начиная с процесса сбора информации и заканчивая ее преобразованием в нужный формат. Например, промышленные симуляторы, такие как Factorio или Satisfactory, они находят источник данных и трубопровод для их передачи и создания инфраструктуры для обработки и преобразования информации.
С появлением больших данных сфера ответственности кардинально изменилась. Если раньше мы использовали такие инструменты, как Informatica ETL, Pentaho ETL и Talend для написания больших SQL-запросов и извлечения данных, то сейчас растет спрос на инженеров по обработке данных.
Многие компании, желающие нанять инженеров по обработке данных, предъявляют следующие требования:
- Отличное знание SQL и Python.
- Опыт использования облачных платформ, в частности Amazon Web Services.
- Желательно знание Java/Scala.
- Хорошее понимание баз данных SQL и NoSQL (моделирование данных, хранение данных).