Inteligencja obliczeniowa w selekcji informacji

Uwagi dotyczące tematów, o których chcemy porozmawiać.

Szukamy nowej formuły działania, więc to jest eksperyment, z natury rzeczy musi być trochę chaotycznie.
Konferencje nie do końca są przydatne, referaty krótkie a po dłuższej sesji trudno pamietać kto co o czym mówił; ludzie skupiają się na wąskich problemach, zwykle brakuje wizji ogólnego rozwoju dziedziny; za mało jest czasu na dyskusje i interakcje ...

Jaką strukturę powinny mieć spotkania, na których będzie można przedyskutować najważniejsze kierunki rozwoju intersujących nas dziedzin? Czym warto się zająć w pierwszym rzędzie, jakie problemy rozwiązywać?
Żle się dzieje w nauce, metodologia oceny prac nie jest poprawna, w efekcie mało się uczymy czytając krótkie prace. Są tysiące możliwych sposobów robienia tego samego i w efekcie większość dziedzin zamiast się rozwijać kręci się w koło rozważając te same problemy co 20 a nawet 40 lat temu.
Trudno wymyśleć dobrą organizację i mam nadzieję, że wspólnie znajdziemy ciekawe rozwiązania, które da się wypróbować i dopracowac się jakiejś nowej formy.

Co chemy osiągnąć? Na konferencji opublikować pracę i pojechać w ciekawe miejsce, spotkać znanych ludzi i starych zajomych ...
Nauczyć się czegoś czy zrozumieć coś?

Problemy są liczne: poczatkujący studenci nie mają jeszcze wyobrażenia o całej dziedzinie, więc trudno by stawiali jakieś ciekawe problemy; eksperci stawiają .
Może kombinacja szkoły - tutoriali i dyskusji na temat problemów?
Może wcześniejsze udostepnianie tekstów prac przed konferencją tak by można było poszukać interesujących i spotkać się z autorami? Automatyczna klasteryzacja zainteresowań?

Jakieś pomysły?

Dość łatwo jest skupić się nad jedną metodą i rozwijać formalizm, ale najtrudniejsze i najciekawsze jest myślenie koncepcyjne, tworzenie nowych pojęć i kierunków. Najłatwiej też wtedy schodzić na manowce ...
Co ja właściwie robię i jak to się robić powinno? Co chcę osiągnąć?

Format tego workshopu to prezentacje wprowadzające do zagadnienia i długie dyskusje, burze mózgów na tematy do dyskusji. Nie chcemy by warsztaty przerodziły się w konferencję lub szkołę, chcemy uporządkowania pewnych idei, orientacji w intersujących tematach i problemach w wybranych dziedzinach, przedyskutowania pomysłów na możliwe rozwiązania.

Selekcja informacji.

Aspekty ogólne: waga problemu.

Selekcja informacji ma wiele różnych aspektów.

Jest to fundamentalny proces w naszych mózgach, oparty na mechanizmach uwagi.

Co z tego porównania możemy się nauczyć?
Aby szukać, trzeba najpierw znaleźć!
Mechanizmy torowania uwagi powodują filtrowanie tego, co nie jest jakoś antycypowane, co nie pasuje do bieżącego kontekstu.

W data mining selekcja informacji jest to część transformacji danych i wstępnego przetwarzania.

Czyszczenie danych - usuwanie cech nie wnoszących istotnych informacji.
Redukcja danych lub kompresja danych: zarówno przypadków jak i cech, często daje lepsze wyniki.
Odkrywanie nowych danych przez kombinacje liniowe, np. projection pursuit, ICA, PCA, MI.
Konstrukcja nowych cech: kombinacje nielinowe, od pikseli do krawędzi do kształtów.
Scientific law discovery: szukanie naturalnych relacji w przetransformowanych danych.
Dane relacyjne?

Zadania i wyzwania:

Selekcja uniwersalna czy wbudowana w systemy decyzyjne?
Biblioteki programów do selekcji i dyskretyzacji?

Przekleństwo wymiarowości.

Co z tego wynika dla selekcji? Lepiej tworzyć kombinacje cech? SVM robi projekcję do wysokowymiarowych p-ni, a wiec tworzy wiele cech zamiast robić selekcję. Co z tego wynika?

Selekcja informacji w różnych dziedzinach.

Czy można zrobić jeden algorytm selekcji dobry do wszystkiego? Jakie algorytmy pasują do jakich danych?

Przypadki ekstremalne i wymiary zagadnienia:

cechy binarne - dyskretne - ciągłe,
liczba cech << liczby przypadków, np. dane typu sygnałów, gdzie jest dużo pomiarów;
liczba cech >> liczby przypadków, np. dane bioinformatyczne, gdzie jest b. mało pomiarów;
rzadko występujące cechy są istotne lub nie, np. w danych tekstowych;
często wystepujące cechy są istotne lub nie, np. w danych tekstowych;

Inne wymiary?
Pewność danych.
Braki: intencjonalne lub przypadkowe.
Szum - różny, jeśli wiele indeksów odrzuca to szum.
Wartości odstające.
Uwzględnienie wiedzy a priori.
Częstość klas - bardzo rzadkie zdarzenia. Jakie miary?
Klasy niezbalasnowane i agregacja klas? Nie zawsze się da.

Cechy binarne: czy można zrobić coś więcej niż Bayes? Praca o filtrach.

Cechy dyskretne: w którym miejscu stają się prawie ciągłe?
praca Formana z ML: oceny pasujące do tekstów.

Njaprostsza miara: wsp. CC korelacji liniowej Pearsona.
Kiedy nie działa? Kiedy jest nieliniowa korelacja.
Dla binarnych cech i dwóch klas przy jednakowym p(x)=p(c)=1/2 korelacja CC i Bayesowskie indeksy daja to samo (pomijajac znak, czyli biorac wartosc |CC|). Jak to jest dla innych sytuacji nie jestem pewien ale permutacje to psuja.

Mamy 3 klasy; latwo zobaczyc, ze cecha, ktora ma doskonala korelacje moze dac duze lub male CC, np. mamy 3 klasy i 2 cechy, srednie dla x sa 0 a dla klas 1.
x = -1,-1,0,0,1,1 dla rozkładu klas
C= 0,0,1,1,2,2 to mamy pełna korelację, CC= Sum_i x_i(C_i-1) = 1
Jesli natomiast
x = -1,-1,0,0,1,1 dla rozkładu klas
C= 0,0,2,2,1,1 to mamy CC=0.5
Żeby się od tego uwolnic trzeba dla każdej cechy osobno szukać permutacji, która da najlepszy CC ...
Inne rozwiązanie? Lepiej miary teorioinformatyczne lub probabilistyczne?
CP=Sum_x max_i p(Ci|x)/n da tu w obu przypadkach 1. To jest indeks Bayesowski. Indeksy teorioinformatyczne są tu tylko przybliżeniem.
Gdyby nie było żadnej korelacji dla dwóch klas to p(Ci|x) = 0.5 i suma da też 0.5.
Jeśli x jest zmienną ciągłą to potrzebujemy dyskretyzacji.

Ważenie cech za pomocą CC lub innych współczynników? Drzewa są niezmiennicze ze względu na skalowanie, ale inne metody nie; lokalny układ wsp.

Rola marginesów w selekcji cech

Jedna z metod, ktora poradzila sobie dobrze na NIPS jest oparta na "margin-based features selection",
http://www.cs.huji.ac.il/labs/learning/code/feature_selection/
Jest tam tez link do programu w Matlabie; uzywaja marginesu w sposób wymagajacy liczenia odleglosci, ale za to uwzgledniajacy korelacje, podobnie jak w Relief.
Łączna informacja wzajemna - dotychczas nie używaliśmy.

Czemu używać czegokolwiek innego niż BC?
Zbieżność dla różnych indeksów w przypadku .
Problem małej próbki - jak ocenić niepewność?

Filtry oparte na entropii Renyi i Tsallisa; nigdy nie robione?
Zastosowanie takich indeksów do drzew decyzji.
Kiedy można się spodziewać intersujących rezultatów? Wykrywanie rzadkich zdarzeń lub częstych zdarzeń? Powiązanie oceny entropii rozkładów z częstością róznych zdarzeń.

Inne tematy:

Baysowskie podejście do filtrowania cech, porównania z innymi;
podejścia teorio-informacyjne, kresy, pokrycia Markova;
filtry korelacyjne i metody statystyczne, testy permutacyjne;
filtry badające podobieństwo rozkładów prawdopodobieństwa;
filtry oparte na drzewach decyzji, lasy drzew, zastosowanie entropii Renyi i Tsallisa do drzew;
zalety i wady różnych indeksów używanych do filtracji informacji z punktu widzenia dokładności ocenianych wskaźników;
przejście od rankingu do selekcji, metody szukania optymalnych podzbiorów;
inne metody używane w konkursie NIPS;
zagadnienia dyskretyzacji bądź wygładzania;
metody agregacji cech, PCA, ICA, FDA, KL, MI i inne;
metody selekcji prototypów i ich połączenie z selekcją cech;
zastosowania w szukaniu obrazów.

12.05.2005, Strona workshopu | Wlodzislaw Duch