Literature on categorization in psychology:
Skróty: PP=Przestrzeń Psychologiczna
Książka o PP - powinienem mieć xero fragmentów.
Neurodynamika w układach biologicznych realizowana jest przez układy
o bardzo wielu stopniach swobody. Szczególną klasą takich układów
są systemy o stosunkowo niewielkiej liczbie wejść i wyjść a złożonej
strukturze wewnętrznej. W oparciu o proste układy modelowe należy:
a) scharakteryzować neurodynamikę przez opis struktury przestrzeni konfiguracyjnych,
basenów atraktorów i
repelerów, oraz fragmentów trajektorii dochodzących do atraktorów (transients).
W najprostszym przypadku eksperymenty dotyczące kategoryzacji zakładają jakąś funkcję logiczną, np. kombinacje dwóch cech, można to wówczas przedstawić w 3 wymiarach, cechy A, B, plus kategoria. W eksperymentach Nosofsky'ego były to coraz bardziej złożone funkcje logiczne. Pan Janiak próbował robić wizualizację basenów atrakcji dla takich przypadków, znalazłem formę kanoniczną równań neurodynamiki, tzn. równania dla 3 zmiennych (x,y,z) takie, że neurodynamika ma atraktory punktowe dla z=x O y, gdzie O jest jakąś funkcją logiczną. Nie wiem, jak to związać z jakąś realną neurodynamiką, w szczególności atraktory punktowe to nierealistyczne uproszczenie.
b) zbadać możliwości zastąpienia takiej dynamiki przez prostszy opis
w podprzestrzeni wyróżnionych zmiennych
konfiguracyjnych (przestrzeni psychologicznej, jeśli te zmienne odnieść
można do sygnałów zmysłowych), w
szczególności przez dynamike gradientową z szumem, korzystającą z uproszczonych
równań różniczkowych.
c) opracować metody analizy dynamiki gradientowej z szumem, zachodzącej
w przestrzeni psychologicznej, z
neurodynamiką.
d) opracować konkretny model dla eksperymentów związanych z kategoryzacją,
próbując wyjaśnić pewne subtelne
efekty (np. inverse base rates) - jest tu sporo modeli psychologicznych
i dużo danych eksperymentalnych
(prawdopodobieństw odpowiedzi w konkretnych sytuacjach eksperymentalnych).
Można zacząć od zbadania najprostszego przejścia od modelu dynamicznego do PP. Weźmy w tym celu model Hopfielda (mam swoj stary program) i jakiś przykład dotyczący kategoryzacji, np. wyrazu twarzy w przestrzeni jednego lub dwóch parametrów, typu wygięcie ust czy rozstaw oczu (mam parę prac japońskich z konferencji w Iizuce i JACI o modelowaniu wyrazu twarzy, w jednej z nich są efekty dynamiczne, program generuje różne wyrazy i śledzi zmianę nastroju, muszę to poszukać), lub różnie pisanych dwóch liter, gdzie jeden lub dwa parametry decydują o kształcie. Z jednej strony możemy zbudować PP na realnych danych z eksperymentów związanych z kategoryzacją, lub użyć jakiegoś rozkładu prawd. przypisania obiektu do danej klasy; z drugiej strony możemy wyprodukować wysokowymiarową reprezentację takich obrazków w postaci pikseli, np. 20x20, przesłanych do modelu Hopfielda. Możemy nastepnie dla każdego punktu PP utworzyć odpowiedni obrazek i badać zachowanie modelu Hopfielda dla tego obrazka; pozwoli to nam nakreślić w PP obszary odpowiadające granicom basenów atrakcji i nastepnie badać relację pomiędzy tym, czego nauczy się model Hopfielda a opisem w PP.
Jeśli zrobimy więcej klas będziemy mogli rozszerzyć ten model i dodając
szum wytrącający model Hopfielda z przyjętego minimum badać również efekty
dynamiczne, tj. przejścia od jednego basenu do drugiego, którym powinny
odpowiadać przejścia pomiędzy maksimami gęstości prawdopodobieństwa reprezentującymi
te baseny w PP, zachodzące również dzięki stochastycznym siłom działającym
w PP. Będziemy mieli z jednej strony siły przyciągające "stan umysłu" do
maksimów gestości prawdopodobieństw, a z drugiej strony siły stochastyczne,
popychające model od jednego stanu do drugiego.
Wewnętrzny stan sieci można na początku pominąć zakładając, że wejście
w pełni determinuje stan początkowy modelu, a więc mamy tyle neuronów w
modelu Hopfielda co wejść. W dalszych rozważaniach model można poszerzyć
zakładając, że część neuronów zanjduje się w stanie wewnętrznym niezależnym
od wejść, czyli liczba wewnętrznych stopni swobody modelu jest większa
niż wymiar wektora wejściowego. Nie znam jednak takich prac na temat sieci
dynamicznych, które zbadały by systematycznie jak relacje pomiędzy tymi
wymiarami wpływają na zachowanie sieci.
Możemy też rozważać zachowania sekwencyjne takiego modelu, np. produkować stany emocjonalne (w postaci wyrazów twarzy robionych za pomoca paru kresek) podążają za czytaniem tekstu - widziałem podobną pracę japońską, chociaż robioną całkiem inaczej. W przypadku liter mamy bazę danych w 16-wymiarowej przestrzeni prezentującą różne kształty liter.
Dotychczas nie udało się jeszcze nikomu powiązać wyższych czynności
psychicznych z opisem neurodynamicznym.
Wydaje się, że neuronowe modele przestrzeni psychologicznych mogą na
to pozwolić. Możliwa interpretacja takiego modelu: uczenie się może zachodzić
szybko w sieciach z rekurencją, dzialających w dużej liczbie wymiarów,
lub powoli przez to, że rezultaty działania takich sieci - decyzje motoryczne
- są używane do trenowania prostszych sieci feedforward działających w
PP, czyli w oparciu o bardziej przetworzone cechy. Mamy więc nastepującą
sytuację: wektory X w PP o k_x wymiarach, wektory Y dla modelu Hopfielda
o wymiarach k_y > k_x, zbiór K określonych na PP gęstości prawdopodobieństwa
p_i, po jednej na kategorię, funkcję f(H(X)) przyporządkowującą stanowi
modelu Hopfielda startującego z wektora X określoną kategorię. Ponieważ
model Hopfielda jest stochastyczny nie zawsze dla danego X mamy to samo
f(H(X)) po skończeniu ewolucji, co oznacza, że uruchamiamy go wiele razy
by otrzymać wartości funkcji p_i(X). Sieć dynamiczna używana jest tylko
na początku, zanim nie powstaną odpowiednie detektory cech pozwalające
na uczenie się w niskowymiarowych PP za pomocą sieci typu MLP.
Pracę można rozwijać w różnych kierunkach.
1. Jest to uogólnienie metod rozumowania opartych na precedensach (memory-based lub case-based reasoning, MBR, CBR). Są to bardzo dobrze działające metody używane w AI do rozumowania statycznego, a więc modelującego intuicję, i nadające się do opisu kategoryzacji. Kategorie tworzą się przez rozmycie zbioru przykładów tworząc w przestrzeni psychologicznej skomplikowane, rozmyte obiekty. Shimon Edelman pokazał, że w rozpoznawaniu obiektów zapamiętanie kilku obrazków obiektu widzianego pod różnymi kątami daje bardzo dobre rezultaty. Argumentował również, że rozpoznanie polega na uczeniu się niskowymiarowych reprezentacji, a więc definiowaniu przestrzeni psychologicznych, przy czym relacje pomiędzy rzeczywistymi obiektami a reprezentowanymi nie są bezpośrednie - nie ma tu podobieństwa, jest natomiast podobieństwo "drugiego rzędu", czyli ocena podobieństw pomiędzy dwoma obiektami w PP powinna być podobna jak między pierwotnymi obiektami. Tu artykuł z BBS o reprezentowaniu podobieństw. W Cognition 67 są artykuły Ullmana i Tarra na ten temat, trójwymiarowe obiekty Greebles używane przez Tarra.
Zwolennikiem CBR jest David Waltz z NEC Research (Princeton), był bardzo zainteresowany możliwością rozszerzenia tego schematu na zachowania dynamiczne, czyli rozumowanie wychodzące poza proste asocjacje wystarczające do wyjaśnienia prostych eksperymentów dotyczących kategoryzacji. Warto popatrzeć na dynamikę przechodzenia od jednego obiektu do drugiego, może to symulować kilka kroków rozumowania lub swobodne skojarzenia, np. strumień myśli, jeśli tylko na samą dynamikę narzuci się odpowiednie ograniczenia. Jeff Elman zrobił krok w tym kierunku traktując język jako system dynamiczny.
2. Kognitywna teoria umysłu Baarsa czyli jego "teatr świadomości" istnieje tylko na poziomie psychologicznym (krótkie podsumowanie jest tu). Przynajmniej w prostych przypadkach powinno się dać ją zrealizować za pomocą PP i podać przykład neuronowej realizacji.
3. Całkiem teoretyczny kierunek to próba opisu PP za pomocą przestrzeni Finslera.
4. Najciekawsze wydaje mi się zbadanie na ile ten model dobrze działa
jako model tworzenia się reprezentacji mentalnych - jest to jedno z najmniej
zrozumiałych zjawisk związanych z mózgiem. Jeśli założyć, że tworzenie
się śladów pamięci zachodzi poczatkowo w hipokampie, w obszarze CA3 odpowiedzialnym
za pamięć autoasocjacyjną, to można to modelować jako sieć Hopfielda; stała
pamięć - reprezentacja metnalna - tworzy się powoli na podstawie obserwacji
kategoryzacji dokonywanej przez tą pamięć pośrednią, poprzez korelację
tej kategoryzacji z niewielką liczbą cech. Jesli nie ma odpowidnich cech
potrzebny jest mechanizm skalowania wielowymiarowego wytwarzający takie
niskowymiarowe cechy. Sytuację mozna opsiać albo za pomocą sieci opartych
na zlokalizoanych funkcjach estymujących gęstości prawdopodobieństw (np.
RBF czy FSM) albo za pomoca zwykłego MLP, którego warstwa ukryta tworzy
wektor aktywacji, zachowujący się podobnie jak centrum funkcji zlokalziowanej
tj. na dendrogramie pokazujący podobieństwo wytworzonych reprezentacji
wewnętrznych. Dobry artykuł - po co nam dwa sytemy pamięci, to:
McClelland, J. L., McNaughton, B. L., and O'Reilly, R. C. (1995). Why
there are complementary learning systems in
hippocampus and neocortex: Insights from the successes and failures
of connectionist models of learning and memory.
Psychological Review, 102, 419-457.
dostępna ze strony O'Reilly,
warto zobaczyć w szczególności jego pracę doktorską z 1996 roku.
Byłoby rzeczą ciekawą powtórzyć eksperymenty z tej pracy wychodząc
od sieci Hopfielda i tworząc sieć MLP taką jak w tej pracy.