Не хочу показаться очень умным, но разве эта задача не сводится полностью к классическим "тяжелым" AI проблемам (speech/object/music recognition, etc), по которым есть куча исследований и информации. Приделать сверху поиск не представляет никакой сложности. Мне кажется, что на это и намекал Sinclair...