Analiza danychjako narzędzie pracy lekarza
Elżbieta Pleszczyńska,
Instytut Podstaw Informatyki PAN
Nowa twarz statystyki
Lekarze i studenci medycyny żyją w przeświadczeniu, że zaplanowanie badań i opracowanie ich wyników wymaga trudnej do opanowania wiedzy i specjalnych narzędzi w postaci kosztownych pakietów komputerowych. Ale to nieprawda. Wiele można osiągnąć samodzielnie analizując dane i nie ponosząc przy tym kosztów.
Umożliwia to nowa twarz statystyki w zestawieniu z nowymi narzędziami informatycznymi. Ta nowa twarz to analiza danych
Kierunek zmian: od abstrakcji do konkretu
0
1
1
Dawniej
Teraz
dane jedno i dwuwymiarowe
dane wielowymiarowe normalne
dane wielowymiarowe na różnych skalach
Klasyczna statystykaKlasyczna statystyka zwana matematyczną odchodzi w przeszłość lub raczej przesuwa się na stosowne miejsce w procesach podejmowania decyzji – zarezerwowane głównie dla wielkich programów międzynarodowych, w których planowanie badań i zbieranie danych podlega szczególnie ostrym rygorom. Do głównych niedostatków statystyki należy to, że dostarcza odpowiedzi w sposób bardzo pokrętny, a przy tym zwykle nie potrafi odpowiedzieć na te pytania, które naprawdę interesują lekarza. Niedostatki statystyki są powszechnie znane, ale do niedawna nie było wiadomo, jak im zaradzić posługując się teoriami opartymi na matematyce.
Współczesna analiza danych
Współczesna analiza danych rozwija się na obrzeżach informatyki i rewolucyjnie zmienia statystykę. Jej nowa gałąź zwana gradacyjną analizą danych wprowadza nawet nową strukturę pojęciową, stosowną i dla analizy danych i dla statystyki. W zespole osób z Instytutu Podstaw Informatyki PAN, który tę infrastrukturę stworzył, jest dr Olaf Matyja - autor nowego programu o nazwie GradeStat, implementującego pojęcia i metody gradacyjnej analizy danych. Program ten jest już udostępniony polskiemu środowisku lekarskiemu pod adresem http://gradestat.ipipan.waw.pl
GradeStat – narzędzie swobodnego kontaktu z danymi
GradeStat – Eureka(wg „Przegląd EUREKA, Serwis Informacji Naukowo-Technicznej
KBN, nr 5(15) 2003, str. 17):
Aplikacja licząca 35000 linii kodu dotyczy mało znanej, choć dynamicznie rozwijającej się gałęzi statystyki, jaką jest gradacyjna analiza danych. Jest to metoda przetwarzania danych niezależna od wpływu nieistotnych parametrów rozkładów brzegowych. Aplikacja była stosowana m.in. przy badaniu budżetów gospodarstw domowych w Wielkiej Brytanii (Cambridge University), przy badaniu właściwości kompozytów cementu (IPPT PAN), do przetwarzania ankiet w badaniach rynkowych, do analizy wyników wyborów do Sejmu.
Kiedy GradeStat może być szczególnie przydatny
zlokalizowania i bezpośredniego poprawienia błędnych zapisów,
wyznaczenia głównych trendów i cech ukrytych, wyszukania elementów odstających (outlierów), uzupełnienia brakujących danych, wprowadzenia do zbioru nowego obiektu (obiektów)
i wizualizacji jego pozycji na tle zbioru, dokonania uporządkowanej analizy skupień.
Gdy mają Państwo zebrane własne dane i chcą je wstępnie rozpoznać, a nawet „zobaczyć” w postaci mapek i wykresów (line charts), zaczynając od
Wizualizacja struktury żywienia w krajach Unii Europejskiej
Wa
rzyw
a
Ryb
yO
leje
Zb
ożo
we Z
iem
nia
ki
Mię
so
Ow
oce
Jaja
Cu
kie
rT
łusz
cze
zw
.
Mle
ko
Uży
wki
Grecja
Hiszpania
Portugalia
Polska
Włochy
Belgia i Luks.
Francja
W. Brytania
Dania
Niemcy
Irlandia
Austria
Holandia
Finlandia
Szwecja
Grecja
Hiszpania
Portugalia
Polska
Włochy
Belgia i Luks.
Francja
W. Brytania
Dania
Niemcy
Irlandia
Austria
Holandia
Finlandia
SzwecjaW
arz
ywa
Ryb
yO
leje
Zb
ożo
we
Mię
so
Ow
oce
Zie
mn
iaki
Jaja
Cu
kie
r
Mle
ko
Uży
wki
Tłu
szcz
e z
w.
Grecja
Hiszpania
Portugalia
Włochy
Polska
Belgia i Luks.
Francja
W. Brytania
Dania
Niemcy
AustriaHolandiaSzwecja
Hiszpania
Włochy
Belgia i Luks.
W. Brytania
Niemcy
Irlandia
Finlandia
Książka „Analiza danych medycznych i demograficznych przy użyciu programu
GradeStat”
Maria GrzegorekEmilia Jarochowska
Analiza danych medycznych i demograficznych
przy użyciu programu GradeStat
Jarosław HirnyMarek Wiech
pod redakcją J. B. Książyka, O. Matyji i E. Pleszczyńskiej
dołączona p łyta CD
z programem
GradeSta t
• Książka pisana przez czwororóżnych autorów przedstawiana praktycznych przykładachrozmaite podejścia do analizydanych medycznychi demograficznych• Wykorzystywane są pakietyExcel (lub darmowy OpenOffice)oraz darmowy GradeStat
Książka „Współczesna statystyka matematyczna w medycynie (w arkuszach
kalkulacyjnych)”
Autorzy: M. Maliński, J. Szymszal Książka dla środowiska medycznego,
umożliwiająca samodzielne analizowanie danych.
Książka ta jest ukierunkowana przede wszystkim na tradycyjną statystykę w ujęciu matematycznym.
Powody skłaniające środowisko lekarskie do kultywowania tradycji
Odpowiedzialność, która przy stosowaniu tego co tradycyjne, nie spada bezpośrednio na lekarza, lecz na powszechnie stosowane (ale niekoniecznie dobre) procedury.
Trudności, jakie powoduje odejście od utartych standardów przy publikowaniu rezultatów badań w redakcjach czasopism i wydawnictw, u recenzentów, u odbiorców informacji.
Przy ujęciu tradycyjnym oprawa statystyczna wymaga od lekarza niewielkiego nakładu pracy, a w dodatku można znaleźć pomoc u profesjonalnego statystyka.
Bariery stojące przed indywidualną analizą danych
Indywidualna analiza danych za pomocą takich narzędzi, jak GradeStat i Excel jest nietrudna, ale wymaga samodzielnej współpracy z programem. Wprawdzie pierwszy wizualny kontakt z danymi uzyskuje się w GradeStacie bardzo szybko i zdobywa się natychmiast ogólny obraz zbioru, ale kompletna analiza wymaga często: czyszczenia danych, sukcesywnego uzupełniania elementów brakujących, wyodrębniania elementów odstających i trudnych przypadków, znajdowanie cech ukrytych i cech o znaczeniu priorytetowym, analizy skupień etc.). To jednak owocuje głębokim wglądem w zbiór danych oraz porządkuje i syntetyzuje zdobyte informacje
Lekarz a informacja
Lekarz przyszłości to lekarz wspierający stale swą wiedzę, intuicję i doświadczenie zawodowe bieżącym kontaktem z informacją medyczną.
Powinien umieć skorzystać z usług infobrokera, analityka danych, analityka eksperckich sondaży informacyjnych.
Nowe specjalności Infobroker jest dostawcą informacji, którą
wyszukuje w zasobach informacyjnych. Analityk danych wykrywa i wizualizuje trendy (oraz
odstępstwa od nich) w zbiorach danych, konstruuje skupienia uporządkowanych jednorodnych obiektów, klasyfikuje dane, pomaga podejmować decyzje, diagnozować bieżący stan.
Analityk eksperckich sondaży informacyjnych projektuje ankiety i analizuje ich wyniki, klasyfikuje respondentów oraz specyfikuje, interpretuje i wizualizuje wykryte trendy.
Darmowe oprogramowanie
GradeStat do ściągnięcia: http://gradestat.ipipan.waw.pl
OpenOffice (darmowy odpowiednik Microsoft Office, w pełni z nim kompatybilny) :http://www.openoffice.pl
Top Related