«Хорошо сформулированная проблема – это наполовину решенная проблема»
– Чарльз Кеттеринг, изобретатель и инженер
Вот пять вопросов, которые вам следует задать, прежде чем приступать к работе с данными:
1. Почему эта проблема важна?
2. Кого затрагивает эта проблема?
3. Что, если у нас нет нужных данных?
4. Когда проект будет завершен?
5. Что, если нам не понравятся результаты?
команда дата-сайентистов идет не линейным, а извилистым путем, адаптируясь к совершенным по дороге открытиям. По мере продвижения они возвращаются к более ранним этапам и обнаруживают новые пути.
Этот итеративный процесс обнаружения и тщательного изучения данных известен как разведочный анализ данных (EDA, exploratory data analysis). Он был предложен статистиком Джоном Тьюки в 1970-х годах в качестве способа осмысления данных с помощью сводной статистики и визуализации перед применением более сложных методов[36].