Spark & Zeppelin

Apache Spark

Apache Spark on tarkoitettu hajautettuun laskentaan suurille datamäärille klusteroidussa ympäristössä. Spark on avointa lähdekoodia ja projektin hallinnoijana toimii Apache Software Foundation. Spark on tarkoitettu etenkin käyttötarkoituksiin, joissa sovellukset käsittelevät samaa datajoukkoa useaan kertaan. Tällaisia sovelluksia ovat esimerkiksi iteratiiviset sovellukset tai interaktiivisen analyysin sovellukset. Tämän ansiosta Spark soveltuu erinomaisesti koneoppimiseen (iteratiiviset sovellukset) tai sovelluksiin joissa samaan datajoukkoon kohdistuu toistuvasti samanlaisia kyselyitä, esimerkiksi datan visualisointiin. Tehokkuutensa Spark saavuttaa tietomallillaan, jossa data jaetaan klusterin jäsenille vain luku tilassa ja jäsenet palauttavat laskentansa tulokset muokkaamatta saamaansa dataa. Tällöin data on jo valmiiksi muistissa seuraavaa laskentaa varten. Spark tukee suoraan Java, Python, R ja Scala -ohjelmointikieliä ja lisäajurien avulla voidaan lisätä tuki myös monille muille ohjelmointikielille.

Apache Zeppelin

Apache Zeppelin on suurten datamäärien visualisointiin ja interaktiiviseen analyysiin tarkoitettu avoimen lähdekoodin ohjelmisto. Zeppelin on selainpohjainen ja toimii helposti kaikilla alustoilla. Zeppelinillä onnistuu helposti datan visualisointi erilaisina kuvaajina tai analysointi taulukoina ja ryhmittelyinä. Valmiit visualisoinnit voi koota dashboardiksi eli raportointinäkymäksi käyttäjille. Dynaamiset lomakkeet mahdollistavat dashboardien muodostamisen käyttäjäkohtaisesti, jolloin jokainen käyttäjä voi nähdä dashboardissa omat tietonsa. Zeppelin tukee suoraan Pythonin käyttöä datan käsittelyyn ja kuvaajien muodostukseen, mutta saatavilla on lisäajureita useille eri ohjelmointikielille. Zeppelinin ytimenä toimii Apache Spark klusteri, jolla ajetaan datan käsittelyyn tarvittava laskenta.