Uwagi dotyczące tematów, o których chcemy porozmawiać.
Szukamy nowej formuły działania, więc to jest eksperyment, z natury rzeczy musi być trochę chaotycznie.
Konferencje nie do końca są przydatne, referaty krótkie a po dłuższej sesji trudno pamietać kto co o czym mówił;
ludzie skupiają się na wąskich problemach, zwykle brakuje wizji ogólnego rozwoju dziedziny; za mało jest czasu na dyskusje i interakcje ...
Jaką strukturę powinny mieć spotkania, na których będzie można przedyskutować najważniejsze kierunki rozwoju intersujących nas dziedzin? Czym warto się zająć w pierwszym rzędzie, jakie problemy rozwiązywać?
Żle się dzieje w nauce, metodologia oceny prac nie jest poprawna, w efekcie mało się uczymy czytając krótkie prace.
Są tysiące możliwych sposobów robienia tego samego i w efekcie większość dziedzin zamiast się rozwijać kręci się w koło rozważając te same problemy co 20 a nawet 40 lat temu.
Trudno wymyśleć dobrą organizację i mam nadzieję, że wspólnie znajdziemy ciekawe rozwiązania, które da się wypróbować i dopracowac się jakiejś nowej formy.
Co chemy osiągnąć? Na konferencji opublikować pracę i pojechać w ciekawe miejsce, spotkać znanych ludzi i starych zajomych ...
Nauczyć się czegoś czy zrozumieć coś?
Problemy są liczne: poczatkujący studenci nie mają jeszcze wyobrażenia o całej dziedzinie, więc trudno by stawiali jakieś ciekawe problemy; eksperci stawiają .
Może kombinacja szkoły - tutoriali i dyskusji na temat problemów?
Może wcześniejsze udostepnianie tekstów prac przed konferencją tak by można było poszukać interesujących i spotkać się z autorami? Automatyczna klasteryzacja zainteresowań?
Jakieś pomysły?
Dość łatwo jest skupić się nad jedną metodą i rozwijać formalizm, ale najtrudniejsze i najciekawsze jest myślenie koncepcyjne, tworzenie nowych pojęć i kierunków. Najłatwiej też wtedy schodzić na manowce ...
Co ja właściwie robię i jak to się robić powinno? Co chcę osiągnąć?
Format tego workshopu to prezentacje wprowadzające do zagadnienia i długie dyskusje, burze mózgów na tematy do dyskusji. Nie chcemy by warsztaty przerodziły się w konferencję lub szkołę, chcemy uporządkowania pewnych idei, orientacji w intersujących tematach i problemach w wybranych dziedzinach, przedyskutowania pomysłów na możliwe rozwiązania.
Selekcja informacji ma wiele różnych aspektów.
Co z tego porównania możemy się nauczyć?
Aby szukać, trzeba najpierw znaleźć!
Mechanizmy torowania uwagi powodują filtrowanie tego, co nie jest jakoś antycypowane, co nie pasuje do bieżącego kontekstu.
Czyszczenie danych - usuwanie cech nie wnoszących istotnych informacji.
Redukcja danych lub kompresja danych: zarówno przypadków jak i cech, często daje lepsze wyniki.
Odkrywanie nowych danych przez kombinacje liniowe, np. projection pursuit, ICA, PCA, MI.
Konstrukcja nowych cech: kombinacje nielinowe, od pikseli do krawędzi do kształtów.
Scientific law discovery: szukanie naturalnych relacji w przetransformowanych danych.
Dane relacyjne?
Selekcja uniwersalna czy wbudowana w systemy decyzyjne?
Biblioteki programów do selekcji i dyskretyzacji?
Co z tego wynika dla selekcji? Lepiej tworzyć kombinacje cech? SVM robi projekcję do wysokowymiarowych p-ni, a wiec tworzy wiele cech zamiast robić selekcję. Co z tego wynika?
Czy można zrobić jeden algorytm selekcji dobry do wszystkiego? Jakie algorytmy pasują do jakich danych?
Przypadki ekstremalne i wymiary zagadnienia:
Cechy binarne: czy można zrobić coś więcej niż Bayes? Praca o filtrach.
Cechy dyskretne: w którym miejscu stają się prawie ciągłe?
praca Formana z ML: oceny pasujące do tekstów.
Njaprostsza miara: wsp. CC korelacji liniowej Pearsona.
Kiedy nie działa? Kiedy jest nieliniowa korelacja.
Dla binarnych cech i dwóch klas przy jednakowym p(x)=p(c)=1/2 korelacja CC i Bayesowskie indeksy daja to samo (pomijajac znak, czyli biorac wartosc |CC|). Jak to jest dla innych sytuacji nie jestem pewien ale permutacje to psuja.
Mamy 3 klasy; latwo zobaczyc, ze cecha, ktora ma doskonala korelacje moze dac duze lub male CC, np. mamy 3 klasy i 2 cechy, srednie dla x sa 0 a dla klas 1.
x = -1,-1,0,0,1,1 dla rozkładu klas
C= 0,0,1,1,2,2 to mamy pełna korelację, CC= Sum_i x_i(C_i-1) = 1
Jesli natomiast
x = -1,-1,0,0,1,1 dla rozkładu klas
C= 0,0,2,2,1,1 to mamy CC=0.5
Żeby się od tego uwolnic trzeba dla każdej cechy osobno szukać permutacji, która da najlepszy CC ...
Inne rozwiązanie? Lepiej miary teorioinformatyczne lub probabilistyczne?
CP=Sum_x max_i p(Ci|x)/n da tu w obu przypadkach 1. To jest indeks Bayesowski. Indeksy teorioinformatyczne są tu tylko przybliżeniem.
Gdyby nie było żadnej korelacji dla dwóch klas to p(Ci|x) = 0.5 i suma da też 0.5.
Jeśli x jest zmienną ciągłą to potrzebujemy dyskretyzacji.
Ważenie cech za pomocą CC lub innych współczynników? Drzewa są niezmiennicze ze względu na skalowanie, ale inne metody nie; lokalny układ wsp.
Jedna z metod, ktora poradzila sobie dobrze na NIPS jest oparta na "margin-based features selection",
http://www.cs.huji.ac.il/labs/learning/code/feature_selection/
Jest tam tez link do programu w Matlabie; uzywaja marginesu w sposób wymagajacy liczenia
odleglosci, ale za to uwzgledniajacy korelacje, podobnie jak w Relief.
Łączna informacja wzajemna - dotychczas nie używaliśmy.
Czemu używać czegokolwiek innego niż BC?
Zbieżność dla różnych indeksów w przypadku .
Problem małej próbki - jak ocenić niepewność?
Filtry oparte na entropii Renyi i Tsallisa; nigdy nie robione?
Zastosowanie takich indeksów do drzew decyzji.
Kiedy można się spodziewać intersujących rezultatów? Wykrywanie rzadkich zdarzeń lub częstych zdarzeń?
Powiązanie oceny entropii rozkładów z częstością róznych zdarzeń.
Inne tematy: