Co to jest Big Data i czy ta wiedza jest Ci do czegoś potrzebna?
news
autorSport Analytics / 2017-09-12

Może się wydawać, że tekst ten będzie bardzo „techniczny”, ale nie daj się zwieść. Jeśli poczujesz się zmęczony (a starałem się, by tak nie było), obiecaj, że spojrzysz na ostatni akapit. Mamy dla Ciebie niespodziankę. I tak – już odpowiem, że wiedza ta będzie Ci potrzebna.

Big Mess – czyli co rozumiemy przez Big Data w biznesie?

Odkąd termin „Big Data” pojawił się w biznesie jest rozumiany tak różnie jak to tylko możliwe. Językiem manipulujemy w sposób tak bajeczny, że za kilka dni Big Data może znaczyć po prostu korzystanie z informacji. Tymczasem od bardzo dawna mamy już do czynienia ze zjawiskami takimi jak Business Intelligence, czy zwykłą analityką. Rozwinięcie się World Wide Web sprawiło oczywiście, że analityka stała się łatwiejsza, ciekawsza i bardziej rozpowszechniona, ale przecież zawsze gdzieś tam była. Co nowego jest w Big Data? Czy Big Data musi być „big”? I czy oznacza to, że małe firmy raczej nie muszą się tym przejmować (ponieważ i tak ich na to nie stać)?
Zacznijmy od znanej już definicji 4V Gartnera. Definicję tę ładowano do właściwie każdego tekstu o Big Data, więc ja sam przytoczę ją krótko. Z Big Data mamy do czynienia wtedy, gdy istnieje duża ilość danych (volume), dane charakteryzują się dużą zmiennością – tzn. szybko wchodzą do systemu i z niego wychodzą (velocity), są różnorodne – np. mają różne formaty lub nie są ustrukturyzowane (variety) oraz gdy ich analiza może zostać przełożona na konkretną wartość (value). Jak widać ostatnie „V” dołożył świat biznesu, raczej średnio przejmujący się spójnością i przejrzystością definicji.

Ilość danych – od kiedy liczymy „big”?

Gigabajty? Terabajty? Petabajty? Ile to jest „dużo” i od jakiego momentu możemy o tym mówić? Dla mojego komputera „dużo” oznaczało swego czasu kilkadziesiąt gigabajtów danych. Odkąd nauczyłem się obsługiwać BigQuery z konsoli R – problemem są już tylko pieniądze (zresztą opłaty są niewielkie i dla dużego przedsiębiorstwa utrzymanie wieloterabajtowej bazy danych to grosze). Ale czy samo BigQuery można nazwać rozwiązaniem Big Data? Dla analityka Big Query niewiele różni się od tradycyjnych systemów SQL. Czyli? Jeśli sama ilość danych oznacza „Big Data”, to właściwie co to za rewolucja? To jak kupić większy telewizor.
No i rzeczywiście – BigQuery jest zdolne do przechowywania naprawdę ogromnych zbiorów, jest bardzo szybkie, pod względem technicznym różni się od „tradycyjnych” serwerów SQL, ale ostatecznie to naprawdę po prostu większa baza danych. Dlatego w kontekście Big Data częściej mówi się o innych rozwiązaniach.

Velocity – przetwarzaj, gdy śpię, chodzę i śpiewam

W tekstach o Big Data pojawiają się często określenia takie jak „skalowalność” i „analiza w czasie rzeczywistym”. To właśnie w tym kontekście najczęściej mówi się o paradygmacie MapReduce umożliwiającym – w dużym uproszczeniu – przetwarzanie (filtrowanie, przeobrażanie) bardzo dużych zbiorów danych, które w dodatku wciąż napływają do systemu. Mowa oczywiście o danych, które nie są ustrukturyzowane, a które muszą być np. przełożone na formę tabelaryczną (SQL), by można je było poddać zaawansowanej analizie. MapReduce to nowy (względnie – Google stosowało go już na szeroką skalę w 2004 roku) i znacząco inny sposób rozwiązywania problemów analitycznych niż te stosowane dotychczas. Z drugiej jednak strony coraz częściej zauważa się , że bardzo podobne efekty można osiągnąć przy zastosowaniu Pythona, Ruby i wszelkich innych języków przeznaczonych do manipulowania danymi. Często szybciej niż wykorzystując do tego np. Apache Hadoop (absolutny cesarz MapReduce). I rzeczywiście – znacząca większośc firm nie będzie potrzebowała tego rozwiązania, bo ich dane nie są większe niż terabajt. Wniosek? Jednak powinniśmy wrócić do pierwszej części definicji – tak, w pewnym sensie w Big Data chodzi o ilość danych. I tak, taka definicja oznacza pewną rewolucję w świecie programistów, ale niekoniecznie w świecie biznesu. Owszem, możliwość analizowania np. danych z maszyn produkcyjnych może znacząco przyczynić się do polepszenia wyników firmy, ale czy naprawdę powinniśmy się wszyscy tym ekscytować? Przecież większość z nas i tak pozostanie na etapie nudnego Business Intelligence.

Różnorodność przede wszystkim. Czy Big Data to Data Jiujitsu?

Co w ogóle oznacza różnorodność danych? Jak myślicie, ile firm analizuje coś więcej niż dane tabelaryczne? Zdjęcia, filmy, nagrania dźwiękowe – to domena dużych firm. Facebook i Google już dawno opracowało algorytmy, które pozwalają na wyciąganie informacji np. z tekstu mówionego. Klasyczny text mining gości tam od dawna. Ale czy gości u Ciebie w firmie?
No właśnie – tymczasem z Big Data mamy do czynienia wtedy, gdy dane nie są przedstawione w oczywistej formie. Większą częścią mojej pracy jako data scientist często nie jest sama analiza, a czyszczenie i formatowanie danych – np. przetworzenie swobodnego tekstu z forum internetowego do tabeli relacyjnej z kilkunastoma zmiennymi.
Być może więc właśnie to jest esencją Big Data?
Cóż, niekoniecznie – przecież bazy danych, na których pracuję, nie ważą zwykle więcej niż 1-2 GB. Daleko temu do „big”, nie sądzicie?

Chaos? Mamy odpowiedź.

Trochę chciałem, by tekst ten wywoływał wrażenie chaosu. Miałem w tym swój cel. Wracamy bowiem do początku – szał z Big Data spowodował, że poza ludźmi pracującymi w BI i analityce mało kto wie jeszcze o co w tym wszystkim chodzi. Dlatego uznaliśmy, że stworzenie porządnego mini-ebooka jest potrzebne. Zwłaszcza tym wszystkim osobom, które mogłyby czerpać korzyści z rewolucji Big Data, a nie czerpią, bo temat wydaje im się zbyt zagmatwany i „techniczny”.
Chcesz się wreszcie dowiedzieć, czym jest Big Data? Sprawdź: „Big Data – mini-podręcznik dla laików”.

Sport Success