Przyszłość Big Data to Zarządzanie Danymi - sas.com · 5 Wstęp — Zarządzanie Danymi: w...

23
Przyszlość Big Data to Zarządzanie Danymi

Transcript of Przyszłość Big Data to Zarządzanie Danymi - sas.com · 5 Wstęp — Zarządzanie Danymi: w...

Przyszłość Big Data to Zarządzanie Danymi

Przyszłość Big Data to Zarządzanie DanymiMasz świadomość znaczenia Twoich danych, ale czy potrafisz je efektywnie wykorzystać?

3

index

04

07

10

17

WstępZarządzanie Danymi: w poszukiwaniu nowej żyły złota

Część 1Wprowadzenie do Zarządzania Danymi

Część 2Czym jest Zarządzanie Jakością Danych?

Część 3Integracja Danych

4

The future of Big Data is Data Management

Zarządzanie Danymi: w poszukiwaniu nowej żyły złota

Wstęp

5

Wstęp — Zarządzanie Danymi: w poszukiwaniu nowej żyły złota

Można śmiało powiedzieć, że po 250 latach od odkrycia złotego kruszcu w Kalifornii, które zapoczątkowało okres tzw. gorączki złota, znajdujemy się w podobnej sytuacji, gdzie nową żyłą złota naszych czasów są dane. Wartość ukryta w danych oraz umiejętność jej wydobycia i efektywnego wykorzystania leżą u podstaw nowej społeczno-gospodarczej rewolucji naszego wieku. Można przyjąć, że złoto czyni jego posiadacza osobą szczęśliwą – natomiast w przypadku danych nie można od razu przyjąć podobnego założenia. Przedsiębiorstwa mogą czerpać korzyści z posiadanych danych i zwiększać ich wartość tylko wtedy, gdy są one w prawidłowy sposób zbierane, czyszczone, interpretowane i przetwarzane w ramach całej organizacji.

Termin Big Data jest nam znany od lat i nie jest to już nowe zjawisko. Jednak pochodzenie danych i sposób, w jaki są przetwarzane nieustannie się zmienia. Dynamiczny rozwój Big Data trwa od 2001 roku, a coraz więcej urządzeń, które wykorzystujemy do codziennej pracy lub zabawy, stale dostarcza nowe dane.

6

Przyszłość Big Data to Zarządzanie Danymi

Przyszłość Big Data zależy od podejścia do Zarządzania Danymi. Dotyczy to nie tylko istniejącej infrastruktury i procesów biznesowych, ale także tych, które zostaną wprowadzone w przyszłości.

Na początku naszego stulecia możliwość gromadzenia i przetwarzania wielkich zbiorów danych została uznana za wielki przełom. Dziś jest to fundament nowoczesnego, innowacyjnego i efektywnego podejścia do wykorzystywania analityki w kreowaniu biznesu, produktów i usług. Zarządzanie danymi jest niezbędne dla realizacji obecnych i przyszłych wyzwań analizy danych i wykorzystywania informacji w przedsiębior-stwach. Zapewnia im stały dostęp do prawidłowych, zaufanych i użytecznych danych, które są niezbędne, aby efektywnie realizować cele i wspierać strategiczne decyzje.

1960

Dane Big Data*

* Akademickie pochodzenie terminu: http://www.ssc.upenn.edu/~fdiebold/

papers/paper40/temp-wc.PDF

Zarządzanie Danymi w świecie Big Data

2000 2016

3 — Titolo del capitolo in cui siamo

7

Wprowadzenie do Zarządzania Danymi

Część 1

8

Przyszłość Big Data to Zarządzanie Danymi

Zarządzanie Danymi to proces, który zapewnia, że dane pozyskiwane i przetwarzane w organizacji są zawsze poprawne i efektywnie wspierają realizację celów biznesowych.

Zarządzanie Danymi usprawnia pracę specjalistów, którzy się nimi zajmują (np. analityków danych lub data scientists) i wspiera procesy dostarczania wiarygodnych informacji we właściwym miejscu i we właściwym czasie. We właściwym miejscu, ponieważ dzięki wykorzys-taniu technologii Data Management dane gromadzone i przetwarzane przez różne działy w różnych sys-temach zostają ujednolicone i udostępnione wszys-tkim zainteresowanym stronom, co powoduje, że np. działy biznesowe i dział IT pracują wspólnie na tych samych danych. Jest to możliwe dzięki integracji narzędzi, technologii i wiedzy. We właściwym czasie, ponieważ dzięki temu podejściu wszystkie informacje są dostępne do wykorzystania niemal w czasie rzeczywistym.

Podobnie jak w przypadku złota, które musi zostać dokładnie przesiane, technologie Zarządzania Danymi dostarczają analitykom informacje sprawdzone i wyczyszczone z błędów, które mogłyby prowadzić do niewiarygodnych wyników w procesie analizy. Odpowiednio przygotowane dane mają zasadnicze znaczenie dla efektywnego funkcjonowania organizacji, a jednocześnie muszą być łatwo i szybko dostępne dla użytkowników. Aby informacja była przydatna, musi zostać przedstawiona w odpowiednim kontekście.

9

1 — Wprowadzenie do Zarządzania Danymi

Dane muszą być przekazane użytkownikowi w okre-ślonym formacie, w spójnej formie, co można uzyskać w procesie ich integracji i dzięki scaleniu wielu źródeł.

Oto praktyczny przykład, który pokazuje rolę Zarządzania Danymi w codziennych decyzjach biznesowych: Jan jest kierownikiem dużego hotelu wypoczynkowego nad morzem, w którym jest ponad sto pokoi, centrum odnowy biologicznej i spa z kompleksem basenowym, ekskluzywna restauracja oraz ośrodek sportów wodnych, gdzie odbywają się zawody sportowe. Dzięki oferowanym usługom Jan może liczyć na szeroką gamę klientów przez cały rok – to mogą być rodziny z dziećmi szukające wypoczynku w luksusowym hotelu, ale także sportowcy i ich zespoły w trakcie i przed zawodami. Stosując nieuporządkowane podejście do Zarządzania Danymi, Jan może narazić się na utratę przychodów w sytuacji, gdy dane tych dwóch grup klientów zostaną złączone. Dzięki technologii Zarządzania Danymi Jan może bezbłędnie zapanować nad informacjami dotyczącymi różnych klas klientów i ich preferencjach, a co za tym idzie w wyniku analizy danych zaoferować im dopasowane usługi i pakiety. Ponadto, jeżeli zasada ta będzie stosowana w sposób ciągły, Jan będzie mógł dostosować usługi do swoich klientów, a tym samym lepiej zaspokoić ich potrzeby, także w przyszłości podejmując właściwe decyzje strategiczne dotyczące rozwoju swojego hotelu.

Skuteczna strategia Zarządzania Danymi opiera się na dwóch głównych narzędziach: Zarządzaniu Jakością Danych i Integracji Danych.

10

The future of Big Data is Data Management

Czym jest Zarządzanie Jakością Danych?

Część 2

11

2 — Czym jest Zarządzanie Jakością Danych?

Zarządzanie Jakością Danych to zbiór aktywności i procesów prowadzących do zmierzenia i podnie-sienia przydatności danych we wspieraniu procesów biznesowych i celów organizacji.

Wybierając dany produkt lub usługę, kupujący często nieświadomie myśli o tym, z czego jest gotów zrezygno-wać (zarówno w sensie finansowym, jak i niefinansowym), aby uzyskać dany towar. Kiedy umowa zostaje zawarta, kupujący oczekuje, że towar będzie adekwatny do ceny, którą zapłacił i sprosta jego oczekiwaniom. Ta sama zasada dotyczy danych: po co wydawać duże kwoty pieniędzy, aby uzyskać ogromne ilości danych, które nie generują odpowiedniej wartości biznesowej? Duże zbiory danych złej jakości to ogromna strata czasu dla firmy. A w świecie biznesu, zmarnowany czas pociąga za sobą straty finansowe i marnotrawstwo zasobów.

Wysoka jakość danych pozwala zaoszczędzić czas, który przeznaczony byłby na analizę niespójności w wynikach analiz lub ręczne poszukiwanie przyczyn błędów w podejmowanych decyzjach. Jednak najważniejsze we właściwym Zarządzaniu Jakością Danych jest ograniczanie ryzyka podejmowania decyzji biznesowych w oparciu o nieprawdziwe informacje.

Wielokanałowy marketing i obsługa klienta, świat cyfrowy i aplikacje biznesowe generują w trybie ciągłym ogromną ilość niezintegrowanych danych, w których ukryte są cenne informacje potrzebne organizacjom do podejmowania strategicznych decyzji biznesowych.

12

Przyszłość Big Data to Zarządzanie Danymi

Narzędzia do zapewnienia jakości danych są niezbędne do “wyczyszczenia” tych danych i wydobycia z nich spójnych i prawdziwych informacji oraz wyeliminowania błędów, które mogłyby mieć wpływ na wiarygodność wyników analiz.

Firmy zawsze dążą do tego, by zwiększyć sprzedaż i zoptymalizować doświadczenie klienta. W dobie Big Data, cele te stały się z jednej strony bardziej osiągalne, ale jednocześnie ich efektywna realizacja staje się dla organizacji coraz większym wyzwaniem. Pomyślmy, w jaki sposób ludzie robią obecnie zakupy: miliony użytkowników wyszukują w Internecie produkty, którymi są zainteresowani, ale potem finalizują zakup albo w świecie realnym albo wirtualnym. Komunikują się z firmami za pośrednictwem różnych kanałów i w różnym czasie. Analizując kontakty na linii firma-klient, można określić zwyczaje i zachowania konsumentów, w celu opracowania spersonalizowanych kampanii marketingowych, poprawiając tym samym wyniki firmy i zapobiegając marnowaniu zasobów oraz ponoszeniu niepotrzebnych kosztów.

Ponadto klienci rozmawiają ze sobą, wymieniają się doświadczeniami i opiniami na temat towarów i usług on-line (np.: w mediach społecznościowych, na blogach). Jeżeli klient zajmuje centralne miejsce w strategii biznesowej firmy, słuchanie jego opinii jest niezbędne do uzyskania cennej wiedzy pozwalającej na zapewnienie jak najlepszego zestawu doświadczeń i przygotowywania ofert, które spełnią jego oczekiwania.

13

Proces czyszczenia danych można porównać do budowania fundamentów budynku: narzędzia Zarządzania Jakością Danych kontrolują każdy etap od powstawania, poprzez pozyskiwanie i dystrybucję danych w celu zagwarantowania możliwie najlepszej jakości informacji wykorzystywanych przez firmę. Jednak często jest to postrzegane jako “narzędzie ostatniej szansy” – wykorzystywane jedynie do rozwiązywania już zaistniałych problemów wynikających z niespójnych i błędnych danych, które trzeba uporządkować. Nie jest to właściwe podejście: jakością danych należy zarządzać przez cały czas, w każdym firmowym procesie i przy współudziale wszystkich użytkowników. Tylko takie podejście zapewnia zwiększenie użyteczności danych w ramach procesów biznesowych.

Kolejnym krokiem jest określenie bardziej szczegółowych atrybutów dotyczących jakości danych, w zależności od ich oczekiwanego wpływu na decyzje biznesowe. Proces Zarządzania Jakością Danych uwzględnia analizę różnego rodzaju aspektów związanych z jakością danych, np.:

Dlaczego Jakość Danych jest ważna?

dokładność: czy wartość danych jest poprawna i zgodna z rzeczywistością?

kompletność: czy mój zbiór zawiera wszystkie dostępne dane?

spójność: czy moje dane nie zaprzeczają sobie wzajemnie?

zgodność czasowa: czy dane są aktualne?

2 — Czym jest Zarządzanie Jakością Danych?

14

Przyszłość Big Data to Zarządzanie Danymi

dostępność: czy dostęp i dystrybucja danych są właściwie realizowane?

zrozumiałość: czy moje dane są interpretowane zgodnie z ich znaczeniem?

użyteczność: czy moje dane przynoszą wartość biznesową i są zgodne z oczekiwaniami użytkowników?

Przyjmowanie przez dane prawidłowych wartości (zgodnych z faktami), przedstawionych w zestandaryzo-wany sposób, czyli zgodnie z definicją, w określonym formacie i jednostce. Z brakiem poprawności mamy do czynienia we wszystkich przypadkach, gdy wartość nie odpowiada rzeczywistości, np.: błędny PESEL, wartość netto zamiast brutto itp.

Kompletność można rozważać dwojako: jako kompletność opisywanych obiektów lub jako kompletność wypełnienia cech dla tych obiektów. Brak kompletności to brak niektórych elementów zbiorowości, np. nie wszyscy klienci danej firmy lub braki w opisie tych klientów (np. brak numeru telefonu).

Odpowiednie zaprojektowanie danych dające możliwość łączenia ze sobą różnych faktów, przy jednoczesnym braku wewnętrznych sprzeczności w ramach rekordu, bazy, domeny. Brak spójności to np. sprzedaż w systemie produktowym jest różna od tej samej zmiennej w systemie księgowym lub data urodzenia jest inna, niż to wynika z numeru PESEL.

Poprawność

Kompletność

Spójność

15

2 — Czym jest Zarządzanie Jakością Danych?

Ulotność, czyli trwałość przechowywania i udostępniania informacji. Aktualność, czyli opóźnienie w uzyskaniu informacji i jej zdolność do reprezentacji rzeczywistości.

Występowanie danych w postaci łatwej do użycia przez użytkownika oraz zgodnie z ustalonymi reżimami czasowymi. Sposób prezentacji danych musi być dostosowany do możliwości i umiejętności odbiorcy. Bezpieczeństwo danych zgodne z regulacjami i zasadami działania organizacji.

Możliwość łatwej interpretacji danych.Czytelna charakterystyka danych w celu ich prawidłowego użycia. Zrozumiałość zależy od wielu czynników, takich jak prawidłowe standardy obserwacji danych, odpowiednie oprogramowanie oraz właściwe udostępnienie danych.

Dokładność, weryfikowalność, interpretowalność, wia- rygodność.Zgodność z oczekiwaniami, dopasowanie do potrzeb użytkownika i/lub realizowanego procesu biznesowego.

Zgodność czasowa

Dostępność

Zrozumiałość

Użyteczność

16

Przyszłość Big Data to Zarządzanie Danymi

Aby wyjaśnić, w jaki sposób działają narzędzia Zarządzania Jakością Danych w przygotowaniu dokładnych i wiarygodnych danych do analiz, raz jeszcze posłużymy się przykładem hotelu Jana. Po przybyciu do hotelu, Michał Jacek Kowalski, wieloletni klient i gość hotelu, daje recepcjoniście dowód potrzebny do rejestracji. Pan Kowalski rezerwuje także stolik dla dwóch osób w hotelowej restauracji pod nazwiskiem Michał Kowalski, a następnego dnia postanawia odwiedzić hotelowe SPA, lecz pracownik błędnie wprowadza dane zapisując „M. J. Kowalskiego”. Skuteczne podejście do Zarządzania Jakością Danych pozwoli wyeliminować niejasności i Michał Kowalski zostanie rozpoznany jako ten sam klient w różnych systemach informatycznych, unikając tym samym błędów w analizie informacji o jego pobycie i preferencjach.

3 — Titolo del capitolo in cui siamo

17

Integracja Danych

Część 3

18

Przyszłość Big Data to Zarządzanie Danymi

Integracja Danych jest kombinacją procesów i technologii służących do Zarządzania Danymi pochodzącymi z różnych źródeł wewnętrznych i zewnętrznych dla organizacji. Dane są przetwarzane i zapisywane w jednym formacie, co zapewnia ich spójność i przydatność do dalszych analiz, a w rezultacie wymierną wartość biznesową.

Od wielu lat analiza danych zapewnia firmom przewagę konkurencyjną. Technologia ETL – Extract, Transform, Load (ekstrakcja, transformacja i ładowanie) jest od dłuższego czasu podstawowym narzędziem wsparcia w tym obszarze. Jednak firmy często mają problemy z realizacją projektów związanych z Integracją Danych. Uzyskanie dostępu do danych oraz ich przetwarzanie, w sytuacji, gdy pochodzą z różnych źródeł, często jest utrudnione z powodu niewłaściwego doboru narzędzi lub w związku z trudnościami wynikającymi z dopasowania konkretnych narzędzi do różnych źródeł i typów danych.

Dotychczas działy biznesowe i działy IT zazwyczaj pracowały oddzielnie i samodzielnie wybierały narzędzia, które uważały za najbardziej odpowiednie do realizacji swoich celów. Doprowadziło to do powstania w ramach organizacji dużych silosów danych i informacji, które były niemożliwe do zintegrowania. Pociągało to za sobą także wysokie koszty przechowywania danych, utrzymania systemów i szkoleń pracowników.

19

3 — Integracja Danych

zachowanie prostoty i przejrzystości przepływu danych w organizacji

elastyczność włączania nowych danych i wprowadzania zmian dla istniejących przepływów

Od niedawna Integracja Danych odgrywa jednak coraz ważniejszą i centralną rolę w zarządzaniu organizacją, ponieważ jej zoptymalizowane i współdzielone stoso-wanie wpływa na wszystkie procesy biznesowe, a także przyśpiesza i upraszcza wymianę informacji.

Obecnie, przy wyborze narzędzia Integracji Danych kluczowym kryterium jest standaryzacja. Narzędzia Integracji Danych w połączeniu z narzędziami Zarzą-dzania Jakością Danych pozwalają na zapanowanie nad dowolnymi klasami i typami danych, sprowadzając je do jednego, scalonego i uporządkowanego zbioru danych, dostarczającego wymiernych korzyści biznesowych. Pozwala to na obniżenie kosztów i podniesienie efektywności i skuteczności działań, zarówno z ope- racyjnego, jak i strategicznego punktu widzenia.

Poprzez utrzymanie zagadnień Zarządzania Jakością Danych w centrum wszystkich aktywności i programów związanych z Integracją Danych organizacje uzyskują zdolność do sprawnego włączania do utrzymywanych swoich zbiorów danych nowych informacji. Połączenie to nie tylko zapewni nowy potencjał danych biznesowych, ale także pozwoli odnaleźć już zebrane informacje, które będzie można wzbogacić i rozszerzyć.

Organizacje, które odnoszą sukcesy rynkowe, to zazwy-czaj te, które zdążyły już wdrożyć strategię opartą na Integracji Danych, jako podstawę budowania przewagi konkurencyjnej. Takie podejście pozwala na:

20

Przyszłość Big Data to Zarządzanie Danymi

krótszy czas reakcji na zmieniające się zjawiska rynkowe i preferencje klientów

Aby lepiej zrozumieć znaczenie Integracji Danych, ponownie odwołamy się do przykładu hotelu Jana. Ponieważ adekwatna i wysoka jakość danych została już zagwarantowana dzięki wykorzystaniu narzędzi Zarządzania Jakością Danych, informacje pochodzące z restauracji, spa oraz ośrodka sportowego mogą zostać w łatwy sposób połączone. Dzięki temu mamy obraz całego pobytu klienta, a po zakończeniu procesu Zarządzania Danymi możemy zrozumieć, czy Michał Kowalski powinien zostać uwzględniony w kampanii marketingowej oferującej 100-złotowy kupon wynajmu sprzętu sportowego dla osób, które rezerwują pokój na minimum dwie noce. Jednak zamiast aktywnego wypoczynku, Michał preferuje relaks nad basenem. Dlatego też, może zostać włączony do innej grupy docelowej kampanii marketingowej, w której oferowane są rabaty na usługi spa i siłownię.

Demokratyzacja analityki i rola specjalistów data science

Oczywiste jest, że efektywna strategia Zarządzania Danymi wymaga wykorzystania kombinacji różnych technologii i narzędzi, takich jak Zarządzanie Jakością Danych i Integracja Danych. Wraz z rosnącą dynamicznie ilością danych oraz dostępnością coraz bardziej zaawansowanych narzędzi analitycznych, strategia Zarządzania Danymi stanowi podstawowy element w procesach podejmowania decyzji i ma kluczowe znaczenie dla efektywnego zarządzania zarówno firmami z sektora MŚP, jak i dużymi przedsiębiorstwami, które w codziennej działalności mają do czynienia z wielkimi wolumenami

21

różnorodnych danych pochodzących z wielu źródeł. Kompleksowa platforma Zarządzania Danymi może działać jako filtr danych i zapewnić dostęp do szerokiego zakresu informacji o odpowiedniej jakości, które są potem analizowane i przetwarzane w wartościową wiedzę. Właściwie zarządzane, zintegrowane dane o wysokiej jakości mają istotny wpływ na wydajność i efektywność procesów podejmowania decyzji.

Dzięki zastosowaniu najnowszych technologii i narzędzi open source takich jak Hadoop, wdrożenie strategii Zarządzania Danymi w firmie jest teraz prostym procesem. Dostępność samoobsługowych narzędzi do Integracji i Zarzadzania Jakością Danych daje możliwość korzystania z platformy Hadoop użytkowni-kom biznesowym, którzy nie posiadają kompetencji technicznych. Dane są dostępne dla każdego i z każdego źródła; specjaliści data science (wszechstronni, kreatywni specjaliści, nazywani badaczami danych) nie będą już musieli przechodzić przez proces przygotowania danych, który zazwyczaj pochłaniał 50% czasu. Czas ten może być teraz wykorzystany do szybszego generowania analiz.

Powszechny dostęp do oprogramowania Zarządzania Danymi, rosnąca ilość dostępnych danych i niższe koszty ich przechowywania zmieniają podejście do informacji jako cennych zasobów i ich wykorzystywania w procesach biznesowych. Analiza danych znajduje się dziś w centrum zainteresowania firm i jest postrzegana jako źródło budowania przewagi konkurencyjnej, a co za tym idzie przyszłego wzrostu wartości firmy. Zwiększa się też potrzeba coraz bardziej powszechnego wykorzystania analityki w organizacji i tendencja ta została nazwana przez International Institute for Analytics “demokratyzacją analityki”. Sprzyja ona tworzeniu nowej klasy analityków: Citizen Data Scientists.

3 — Integracja Danych

22

Przyszłość Big Data to Zarządzanie Danymi

Citizen Data Scientist ma wszechstronną wiedzę biznesową i merytoryczną oraz podstawową wiedzę matematyczną i statystyczną. Jest osobą dociekliwą, która będzie pełnić rolę mediatora między dwiema głównymi “stronami” w świecie Big Data: IT i Biznesem. Te dwa obszary nie komunikują się łatwo, ponieważ mówią dwoma różnymi (zawodowymi) językami, ale muszą spotkać się w połowie drogi, aby umożliwić firmie dalszy rozwój. Jednak sam Citizen Data Scientist nie jest w stanie osiągnąć zbyt wiele bez wydajnych narzędzi analitycznych oraz technologii Zarządzania Danymi.

Zarządzanie Danymi sprawia, że wyniki analiz są wiarygodne, dzięki możliwości łatwego wykorzystania nowych danych oraz dzięki gwarancji jakości danych wykorzystanych do analizy.

www.sas.com/poland

SAS Institute Polska, ul. Gdańska 27/31, 01-633 Warszawa, +48 22 560 46 00

Bądź na bieżąco