Za poslední dva roky se na světě vygenerovalo 90 % celkového objemu dat

Objem dat, které generuje lidstvo, vzrůstá exponenciálně. Za poslední dva roky se na světě vygenerovalo 90 % z jejich celkového objemu. Tento trend tak brzy zasáhne i střední firmy, například z oblastí e-commerce, nebo financí. Na zpracování Big Data by se však měly připravit již nyní, aby z nich mohly efektivně těžit poznatky pro svůj byznys.

Prakticky každá firma dnes generuje data, jejich objemy se neustále zvyšují a stejně tak i způsoby, jak je využít. Není tajemstvím, že e-shopy, jako je například Alza, provádí screening návštěvníků. Dokážou zaznamenat každé kliknutí myší, vědí, odkud návštěvníci přichází a znají tak celý nákupní proces. Třeba počet kroků nutných k nákupu, což je pro firmu velmi cenný ukazatel. 

Jaká data jsou již pro firmy příliš velká?

Podle definice jsou Big Data jakákoliv data, která nelze zpracovat za stanovený čas pomocí dostupné technologie. Obecně pak ještě platí, že objemy dat rostou rychleji než samotný byznys. Jeden z předních obchodních řetězců v USA vygeneruje něco kolem 2 PB dat za jedinou hodinu, které je pak nutné zpracovat. Díky tomu mohou firmy dělat predikce poptávky, analýzu skladových zásob, nebo lépe cílit marketing. 

Pokud objemy dat přesahují možnosti firem, mají prakticky dvě možnosti škálování. Scale-up znamená posílení hardwaru, scale-out pak škálování infrastruktury pomocí distribuce datových toků. Druhá varianta je výhodná v tom, že umožňuje virtualizaci – nepracujete s reálnými daty, ale pouze s jejich obrazem. Umožňuje tak velmi efektivně zpracovávat velké množství nestrukturovaných dat, ať už jsou v cloudu, nebo on-premise. 

Velcí hráči představují své služby pro zpracování Big Data 

Na zpracování Big Data se nyní připravují ti největší hráči na technologickém trhu a své služby přizpůsobují i středním firmám. A to nejen v oblasti cloudu, kde dominují Amazon, Microsoft a Google. Tyto společnosti již vydávají své služby pro zpracování Big Data, přičemž jejich využívání by se mělo stát mainstreamem zhruba do 20 let. Pro firmy je to pak otázkou predikce do budoucna – jakmile nedokážou v rozumném čase zpracovávat a distribuovat klíčové reporty, nebo monitorovat sklad, měly by investice do těchto služeb zvážit.

Kupodivu pro využití těchto služeb nebude třeba nutně vlastnit nejnovější hardware – což by ani nedávalo ekonomicky smysl, pokud nedojde k zásadnímu technologickému průlomu (například v oblasti kvantových počítačů). Nové modely procesorů jsou totiž rychlejší pouze o jednotky procent oproti svým předchůdcům. Prakticky se jedná o zpracování terabajtů dat, což zvládne i železo dostupné středním firmám (u nových modelů se navíc kvůli nedostatku surovin očekává zdražování). Právě proto se pozornost velkých hráčů zaměřuje právě na software.

Microsoft Big Data Cluster – novinka brzy dostupná pro mainstream

Na technologii SQL Server spoléhá většina českých firem, právě pro ty nedávno Microsoft představil novinku Big Data Cluster, která umožňuje práci s velkými objemy strukturovaných i nestrukturovaných dat. Představuje komplexní ekosystém pro zpracování velkých datových objemů. Je tvořen celou řadou komponent a služeb jako jsou Kubernetes, Docker, MS SQL Server, HDFS, Spark, InfluxDB, ElasticSearch, Grafana, Kibana a další. Ať jso udata uložena v jakémkoliv formátu, je možné je dotazovat a zpracovávat například pomocí jazyků jako T-SQL, R, Python, Java, Scala.

Big Data Cluster dokáže využívat data uložená v cloudu i on-premise. Jeho výhodou je pak rychlé nasazení, snadné skriptování i update, který probíhá jednoduše nahrazením starého kontejneru novým. Zatímco u běžného databázového systému můžeme s daty manipulovat operacemi (INSERT, UPDATE, DELETE) u Big Data Cluster je manipulace omezena na INSERT a TRUNCATE nebo DROP. Je tedy nutné zvyknout si na fakt, že změna řádků v tabulce se dá provést pouze smazáním celého obsahu tabulky a opětovným vložením. Z hlediska integrace Big Data Cluster umožňuje nasazení modelů umělé inteligence a strojového učení v běžných jazycích, jako jsou Python či Java. Cena licence Big Data Cluster by pak měla odpovídat ceně enterprise licence pro SQL Server.

Zpracování Big Data je tak očekávaným trendem blízké budoucnosti, se kterým by měly firmy dopředu počítat. Efektivní infrastruktura a práce s daty bude tím, co jim přinese klíčovou výhodu v řadě oblastí, ať už se jedná o retail, finance, logistika nebo průmysl.

Přednášku na téma zpracování Big Data pomocí Microsoft Big Data Clusteru vedl David Hlaváček ze společnosti ČMIS. Ten je expertem na Microsoft SQL server s více než 15 lety zkušeností, a to jak z pozice lektora, tak jako správce databází pro největší tuzemskou e-commerce firmu Alza. Akce proběhla na setkání VIP IT Clubu, který sdružuje představitele a IT specialisty z předních českých firem.

Total
0
Shares
Další články