Более того, исключение элементов данных может привести к искаженным результатам в отношении отдельных групп. Например, коты могут менее охотно, чем другие, раскрывать информацию о количестве приобретаемых фруктов. Если мы удалим такие покупки, коты будут недостаточно представлены в итоговой выборке.
Приближение. Если пропущено значение бинарного или категориального типа, его можно заменить самым типичным значением (модой) переменной. А для целочисленных или непрерывных переменных используется медиана. Применение этого метода к табл. 1 позволит нам предположить, что кот приобрел 5 фруктов, поскольку, согласно остальным семи записям, именно таково среднее число покупаемых фруктов.
алгоритм, наоборот, слишком нечувствителен и основные закономерности упустил. Эта проблема известна как недообучение (underfitting). Такая модель способна пренебрегать важными тенденциями и дает менее точные предсказания как для текущих, так и для будущих данных.