Linux E X P R E S

Facebook

Big data - Revoluce, která změní způsob, jak žijeme, pracujeme a myslíme

Big_data.png

„Big data“ - tento termín slýcháme neustále, ale co doopravdy znamená? Bestseller Viktora Mayera-Schönbergera a Kennetha Cukiera se snaží na tuto otázku odpovědět pomocí popsaných ukázek využití Big data v praxi.


Big data okolo nás

O datech se již dávno přestalo uvažovat jako o něčem, co je jen statické (nemění se), zastarává a je možné to zahodit, jakmile to splní svůj účel. Data se naopak změnila na surovinu, se kterou se obchoduje. Pokud se použije správný myšlenkový přístup, můžeme data opakovaně využít a extrahovat z nich další a další informace.

Definic, co vlastně jsou nebo nejsou Big data, je mnoho. Nejčastěji se tímto termínem označují tak velké soubory dat, že jejich zachycení, správa a zpracování výrazně převyšuje rozumné časové možnosti při využití běžných softwarových prostředků.

Příchod Big data (v knize se často používá český překlad „veledata“) je jen důsledkem technologické evoluce. Poprvé v historii máme možnost jednoduše a levně zachytit a uchovat obrovské množství dat, což dříve nebylo možné. Tato změna znamená, že nejsme nadále omezeni statickými metodami vzorkování nebo odhadování pro získání závěrů z dat.

Nyní můžeme shromažďovat všechna data a provádět nad nimi analýzu. Analýza nad kompletní sadou dat (koncept N=all) je mnohem výhodnější, než doufat, že se nám podaří vybrat reprezentativní podmnožinu na základě náhodného výběru dat.

Využití velkých dat

Jeden z primárních smyslů Big data spočívá v předpovědích. To si můžeme vysvětlit v rámci disciplíny zvané umělá inteligence. Na velké objemy dat aplikujeme matematické postupy, které umožní určit pravděpodobnost, zda napsaná písmena "tkato" měla tvořit slovo "takto", jestli e-mail je spam apod. Systémy zpracovávající data a aplikující matematické postupy jsou navrhnuty tak, aby se postupem času zlepšovaly, tzn. že pravděpodobnost správného určení daného jevu se časem zvyšuje.

Využití je však mnohem více. Mezi složitější úlohy, které dnes tyto systémy umí, patří doporučení nejvhodnější knihy (Amazon), zjištění, co má uživatel rád (Facebook), určení nejrelevantnějšího webu (Google) nebo odvození lidí, které známe (LinkedIn). Technologie, jež využívají tyto systémy, se uplatní například při diagnóze nemocí a doporučení vhodné léčby.

Práce s velkým datasetem má však své problémy. Kupříkladu je zde větší pravděpodobnost, že bude obsahovat chyby. Jejich oprava by stála analytiky mnoho času. Naštěstí výzkumníci zjistili, že i když data obsahují velké množství chyb, jsou výsledky přesnější než u menších vzorků obsahujících menší množství chyb.

Můžeme si to hezky ukázat na příkladu z knihy. Je zde popsán příklad z měření teplot na vinici. Pokud máme pouze jeden senzor na celý pozemek, budeme od něj chtít velkou přesnost a nepřetržitý provoz. V této aplikaci si nemůžeme žádnou chybovost dovolit. Jestliže ale vybavíme senzorem každou rostlinu, můžeme použít levnější a jednodušší senzory.

U některých senzorů se pravděpodobně může časem objevit porucha a dojde ke změření nesprávné hodnoty, takže dostaneme méně přesnou („chybovější“) datovou sadu, než jakou bychom dostali v případě jednoho přesného senzoru. Konkrétní měření nemusí být nutně správné, ale agregací (spojování, seskupování) mnoha dat dostaneme mnohem detailnější obrázek. Dataset obsahuje více záznamů, takže nám poskytne mnohem cennější výstupy, jejichž hodnota velmi pravděpodobně převáží nad nižší přesností.

Shrnutí

Knihu lze číst téměř jako beletrii. Nezabíhá do technických podrobností, pouze popisuje a nutí k zamyšlení nad vlastní rolí v současném světě a zároveň nás navádí, abychom se zamysleli, kam to vše může na základě znalostí ze současnosti směrovat.

Ať už jsou vaše otázky historického rázu nebo spíše směřují do budoucnosti, tak v knize „Big data: Revoluce, která změní způsob, jak žijeme, pracujeme a myslíme“ najdete odpovědi. Po přečtení pravděpodobně odejdete ohromeni, informováni a hlavně s touhou zjistit další možnosti využití, které leží před námi, studiem Big data.

Diskuze (1) Nahoru