Apache Hadoop

Apache Hadoop je nástroj, který využívá velká část z nás, ale zná jej jen několik málo odborníků. Jde o open source Framework, který obsahuje řadu důležitých komponent a nástrojů, které lze využít pro distribuované výpočty především v kontextu big data.


Základem je myšlenka rozložení výpočetní kapacity na více strojů, které spolu určitým způsobem kooperují. Jestliže tak o big data hovoříme jako o takových datech, která mají objem v řádu petabytů, tak jejich rozprostředím na 4000 clasterů (to je maximum co aktuální verze umí) po řádově desítkách jader se dostáváme pouze na stovky či desítky gigabytů, což jsou již rozumným způsobem zpracovatelná data, především s ohledem na velikost paměti RAM. Pro ukládání dat se využívá speciální souborový systém HDFS.
Systém dnes využívají v různých modifikacích firmy jako Amazon, eBay, Facebook, Yahoo či Twitter a IBM. Jeho nejrůznější komerční modifikace jsou pak základem většiny běžných systémů na práci s Big data či jiných distribuovaných výpočtů v komerčním sektoru.

Categories: , , , , , Share

Leave a Reply