Data Science — это работа с большими данными (big data). Большие данные — это огромный объем неструктурированной информации, например, данные о погоде за определенный период времени, статистика запросов в поисковых системах, результаты спортивных соревнований, геномные базы данных микроорганизмов и т.д.
Специалисты, выполняющие такую работу, называются data scientist (или ученые, изучающие данные). Они анализируют большие данные и делают прогнозы. Тип прогноза, который делается, зависит от решаемой проблемы.
Результатом работы исследователя данных является прогностическая модель. Проще говоря, это программный алгоритм, который находит наилучшее решение поставленной задачи.
Специалисты по анализу данных должны обладать реальными рабочими знаниями методов статистического анализа данных, навыками построения математических моделей (от нейронных сетей до кластеризации, от факторного анализа до корреляционного анализа), умением работать с большими массивами данных и уникальной способностью выявлять закономерности.