PD>Сколько в своей жизни этот ребенок видел кошек и собак ? Живых — хорошо если пару десятков, возможно, что и меньше. Ну еще сколько-то на картинках, в фильмах и т.д. Тоже десятки, ну пусть сотню-две.
PD>Но не 140 тысяч же!
Ну так делаются алгоритмы способные узнавать картинку после единственного предъявления. Просто они ещё развиваются, и таких впечатляющих результатов нет, но работа идёт.
Человечков всё-таки миллионы лет эволюция хардкодила на 3-х мерный мир, живое/неживое, выделение контуров, и так далее. Ребёнку очень легко отделить кошку от окружения просто за счёт того что кошка движется и видно какие её части как связаны. Плюс у нас есть умение "вычитать всё известное из картинки". Вот сидит на траве неведомый зверь, и ребёнку говорят "кошка", и он сразу понимает что трава уже известна и название у неё другое, значит минус траву, ветка вообще неживая, минус и ветку, и т.д. а то что осталось — получается кошка. Для нейросетей такие алгоритмы "дообучения" ещё только придумывают, улучшают. Тот же Stable Diffusion уже можно "дообучить" на конкретных фотках, без нееобходимости обучать с нуля. Про ещё более передовые вещи можно узнать только из публикаций, написанных достаточно сложным языком.
Пока компу приходится увидеть кошку много раз просто чтобы понять где заканчиваются кошачьи пиксели и начинаются пиксели окружающего мира. При этом в 140 тысячах фоток и кошки разные и их окружение разное. Компу в каком-то смысле даже сложнее.
Люди вот захардкодили устройства по запоминанию данных, и сейчас любой HDD способен точно запомнить больше данных чем целая куча людей, сколько бы повторений они не делали. И с котиками тоже самое будет. Придумаются более совершенные подходы и обязательно будет.