«Хорошо сформулированная проблема – это наполовину решенная проблема»
– Чарльз Кеттеринг, изобретатель и инженер
Вот пять вопросов, которые вам следует задать, прежде чем приступать к работе с данными:
1. Почему эта проблема важна?
2. Кого затрагивает эта проблема?
3. Что, если у нас нет нужных данных?
4. Когда проект будет завершен?
5. Что, если нам не понравятся результаты?
Возможность какой-либо группировки данных зависит от выбранного алгоритма, его реализации, качества исходных данных и существующей в них вариации.
алгоритм k-средних пытается выявить в данных естественные кластеры и постепенно стягивает k-случайных начальных точек к центрам этих кластеров
-первых, когда речь идет о столбце в наборе данных, хорошим синонимом информации является дисперсия (мера разброса). Подумайте об этом так. Предположим, что мы добавили новый столбец в набор данных о спортсменах, показанный на рис. 8.2, под названием «Любимая марка обуви», и каждый спортсмен ответил: «Nike». В таком случае в этом столбце не было бы никаких вариаций, позволяющих отличить одного спортсмена от другого. Нет вариации = нет информации.
Раньше у вас было несколько коррелирующих между собой измерений. Однако четыре новых измерения представляют собой четыре составных признака, которые не коррелируют друг с другом. А отсутствие корреляции означает, что каждое новое измерение предоставляет новую, непересекающуюся информацию.
Если еще конкретнее, то вы использовали алгоритм контролируемой классификации под названием метод k-ближайших соседей[6]. Если K = 1, посмотрите на ближайший рест
Мораль: для принятия обоснованных решений требуются данные.
Простейшая нейронная сеть из всех возможных. Четыре входных параметра обрабатываются функцией активаци
Простейшая нейронная сеть из всех возможных. Четыре входных параметра обрабатываются функцией актива