De 3 S’en van Big Data: snel, samengevat en soepel

Structure your Data

Big Data is een verzamelterm voor alle gegevens die worden verzameld door nieuwe technologie, zoals Internet of Things maar ook grote websites als Facebook, Google, Amazon, enz..
Het wordt gekenmerkt door de 3 S’en snel, samengevat, en soepel.

Snelheid

Er worden dagelijks duizenden berichten verstuurd via een medium als Facebook Messenger, WhatsApp of Twitter. Al deze berichten worden op een hoop gegooid en bijna real-time verwerkt, zodat de ontvanger ze kan lezen binnen 1 seconde. Een traditionele MySQL database doet er veel langer over om grote hoeveelheden gegevens te verwerken. Het is ook niet voor niets dat Big Data in de schijnwerpers staat van grootbedrijven zoals Walmart, Bol.COM en Wehkamp. Door dat gegevens worden ontdaan van alle rompslomp, die gemoeid gaat met MySQL, kunnen ze in hoge snelheid worden overgebracht van de ene gebruiker of server naar de andere. Big Data heeft geen vaste opslagplaats, het zweeft als het ware in de Cloud, te vergelijken met een zwerm vogels die naar Spanje vliegt in de winter.

Samenvatting

Naast de hoge snelheid van Big Data, worden gegevens ook op een zeer beknopte wijze opgeslagen zonder franje. Doordat gegevens op kale wijze in een zeer groot tekstbestand staan, oogt dit heel netjes, een beetje als een samenvatting van een boek. Met algoritmes kun je data nóg compacter (‘clotted’) maken. Ieder datacomplex heeft weer zijn eigen foefjes in huis. Dat maakt het zo’n boeiende en intrigerende wereld. Door te spelen met teksten (bijvoorbeeld door alle lidwoorden als ‘de’, ‘het’ en ‘een’ uit teksten te verwijderen) kun je ze makkelijk analyseren. Of misschien wilt u alle kernzinnen van de alinea los opschrijven en deze verwerken tot een rapport?

Soepelheid

Big Data is ten derde ook soepel. In HTML vorm staan er bijvoorbeeld allemaal tags (zoals <p> of <h1>) rondom woorden. Dat wordt er allemaal uitgefilterd als u de artikelen van WordPress in een Big Data bestand zet. Het is voor tekstanalyse niet zo nuttig om te weten of een woord vetgedrukt staat of geel is (in MySQL is dit wel handig en zelfs noodzakelijk). Big Data is dus een vorm van pure gegevensopslag die overal voor te gebruiken is. U kunt het in stukjes knippen of juist samenvoegen naar wens.

Geen reacties

Je reactie toevoegen