| Na het volgen van deze cursus kunnen de studenten
- uitleggen hoe een data centrum is opgezet, en de uitdagingen van het programmeren op de schaal van een data centrum benoemen;
- de architectuur van map-reduce en moderne varianten zoals Spark beschrijven en analyseren;
- deze architectuur inzetten voor het oplossen van big data problematiek;
- veelgebruikte algorithmen, data-structuren en implementatietechnieken analyseren en gebruiken.
|
| Hoe programmeer je een data centrum in plaats van een enkele computer? Wil je weten hoe internetbedrijven als Amazon, Facebook, Google, Twitter en Yahoo hun oplossingen bouwen? In deze cursus maak je kennis met technieken om grote hoeveelheden data efficiënt te bewerken. We behandelen de motivatie voor big data, de redenen om big data problemen met grootschalige compute infrastructuur op te lossen, de benodigde algorithmiek, en de daarvoor ontwikkelde grootschalige software platforms. |
|
|
|
Big data, large scale data engineering, access patterns, latency vs. throughput, distributed file systems, mapreduce / Hadoop, Spark, NOSQL, locality sensitive hashing, inverted files, sharding, streaming, replication, fault-tolerance. |
Via een schriftelijk tentamen (examinering in twee toetsen), praktische opdrachten, en een afsluitend project. |
Basiskennis programmeren (niveau van de propedeuse informatica). |
Literatuur wordt beschikbaar gemaakt via Blackboard. |
• 32 uur begeleid individueel project werk • 32 uur hoorcollege • 104 uur zelfstudie Toelichting werkvormen: De cursus is gericht op het versterken van praktische vaardigheden, waaronder het gebruik van Spark, github en Docker. Opdrachten bereiden de studenten voor op een eindproject waarin wordt gewerkt met een grote webcrawl (~150 TB) op het nationale Hadoop cluster van SurfSara. |
| | Verplicht materiaalWordt nader bekendgemaaktLiteratuur wordt beschikbaar gemaakt via Blackboard. |
|
| WerkvormenCursusAanwezigheidsplicht | | Ja |
| HoorcollegeAanwezigheidsplicht | | Ja |
| ProjectAanwezigheidsplicht | | Ja |
| Zelfstudie AlgemeenDe cursus is gericht op het versterken van praktische vaardigheden, waaronder het gebruik van Spark, github en Docker. Opdrachten bereiden de studenten voor op een eindproject waarin wordt gewerkt met een grote webcrawl (~150 TB) op het nationale Hadoop cluster van SurfSara.
|
| ToetsenTentamenWeging | | 1 |
Gelegenheden | | Blok KW4, Blok KW4 |
|
|
| |