Kartograficzne aspekty zastosowania data mining do pozyskiwania wiedzy z danych Powszechnego Spisu Rolnego i Narodowego Spisu Powszechnego Ludności i Mieszkań

Anna Fiedukowicz
Politechnika Warszawska
Wydział Geodezji i Kartografii
Zakład Kartografii
Polska

Jędrzej Gąsiorowski
Instytut Geodezji i Kartografii, Warszawa
Polska

Streszczenie

Wyzwaniem jakie niesie w sobie efekt powszechnej dostępności danych staje się problem twórczego ich przetworzenia, pozwalającego na uzyskanie użytecznej wiedzy na podstawie wnikliwej analizy informacji źródłowej. Prawidłowość ta powszechna w czasach rozwoju sieci globalnej, dotyczy także danych o charakterze przestrzennym, w tym szczególnie interesujących, danych o charakterze statystycznym. Celem autorów opracowania było zastosowanie zaawansowanych technik cyfrowego "drążenia danych przestrzennych" (ang. spatial data mining) zgromadzonych przez ankieterów GUS w ramach realizacji dwóch spisów powszechnych: Państwowego Spisu Rolnego (PSR) i Narodowego Spisu Powszechnego (NSP) oraz ich "wzbogacenia" (ang. data enrichment). Wykorzystanie tego podejścia, będącego współczesnym odpowiednikiem kartograficznej metody badań, pozwala nie tylko na "odkrycie" wzorców i prawidłowości przestrzennych, ale przede wszystkim na "ujawnienie" wiedzy zawartej w bazie danych i nadanie jej postaci explicite. Biorąc pod uwagę zakres oraz szczegółowość (najniższym udostępnianym przez GUS poziomem agregacji są gminy) danych pozyskanych w ramach obu spisów można spodziewać się występowania wielu zależności zachodzących między danymi – zarówno intuicyjnych, wymagających jedynie statystycznego potwierdzenia oraz kartograficznej wizualizacji, jak i bardziej złożonych i niejako "ukrytych" w danych. Identyfikacja, analiza i wizualizacja tych zależności pozwolą na uzyskanie dodatkowej wiedzy, która może być wykorzystana do realizacji rozwoju polityki przestrzennego zagospodarowania kraju.
Autorzy przedstawili propozycje zarówno analiz statystycznych, jak również kartograficznej prezentacji wyników tych analiz, które mogą być przydatne w realizacji celów, jakie stawia sobie geoportal statystyczny. W artykule opisano dwa przykłady takich analiz. Pierwsza z nich bazuje na wykorzystaniu analizy regresji wielorakiej z uwzględnieniem relacji sąsiedztwa. W wyniku tej analizy zbudowany został model opisujący zależności pomiędzy zmiennymi rejestrowanymi w jednostkach podziału administracyjnego kraju. Drugim przykładem opisanym w artykule jest analiza skupień realizowana za pomocą algorytmu k-średnich. Metoda ta została wykorzystana do klasyfikacji statystycznych powiatów, pozwalającej na wyodrębnienie grup homogenicznych pod względem wieloczynnikowego podobieństwa wyznaczanego w niemetrycznej przestrzeni cech.

Słowa kluczowe:

dane statystyczne; data mining; portal geostatystyczny

Pełny tekst:

PDF

Bibliografia

Fiedukowicz A., Gąsiorowski J., Kowalski P. J., Olszewski R., Pillich-Kolipińska A., 2012: The statistical geoportal and the cartographic “added value”– creation of the spatial knowledge infrastructure. Geodesy and Cartography, Vol. 61, No. 1, zaakceptowany w redakcji.

Hartigan J. A., Wong M. A., 1979: A K-Means Clustering Algorithm. Applied Statistics Vol. 28, No. 1, 100-108.

Iwaniak A., 2011: Inteligentny geoportal, III Konferencja z cyklu „Wolne oprogramowanie w geoinformatyce", Wroclaw.

Kantardzic M., 2003: Data mining: Concepts, Models, Methods and Algoritms. John Wiley & Sons, New York.

Kopczewska K., Kopczewski T., Wójcik P., 2009: Metody ilościowe w R. Aplikacje ekonomiczne i finansowe, CeDeWu.pl, Warszawa.

Koronacki J., Ćwik J., 2008: Statystyczne systemy uczące się. Akademicka Oficyna Wydawnicza EXIT, Warszawa.

Tibshirani R., Walther G., 2005: Cluster Validation by Prediction Strength. Journal of Computational and Graphical Statistics, Vol. 14, Issue 3, 511-528.

Witkowski B., 2010: Zastosowanie metod ekonometrii przestrzennej. Prace Instytutu Ekonomii, Szkoła Główna Handlowa, Kolegium Analiz Ekonomicznych.