Záhady vesmíru bude řešit 150 tisíc počítačů v cloudu

Karel Javůrek  |  Technika
Zdroj: CERN

Největší urychlovač částic LHC v CERNu generuje obrovské množství dat, které je nutné efektivně zpracovat a analyzovat. CERN proto buduje počítačový cloud se snadnou správou.

Large Hadron Colider neboli zkráceně LHC je největší urychlovač částic na světě. Extrémně složitá konstrukce vyžadovala spolupráci více než dvou tisíc vědců z celého světa.

Srážkami částic je ale generováno obrovské množství dat, které se musí nejdříve uložit a později analyzovat dle konkrétních potřeb jednotlivých vědeckých týmů. Nejedná se navíc o jeden velký výpočet, ale každá skupina vědců jde jiným způsobem po jiných datech.

Pro základní zpracování dat je v Ženevě dostupné datacentrum, jeho výkon je dnes silně limitován dostupnou elektrickou energií, kterou si z velké části vezme sám urychlovač. LHC má spotřebu kolem 120 MW a pro tamní datacentrum s jedenácti servery tak zbývá pouze 3,5 MW.

Cílem je tak postavit další supervýkonné datacentrum, které by zároveň pokrylo potřeby velkého množství týmů, které potřebují s daty pracovat vždy trochu jinak.

150 000 virtuálních strojů a správa z jednoho místa

Pro LHC se tak začalo vyvíjet nové datacentrum v Budapešti, které by mělo mít spotřebu kolem 2,7 MW. Nabídne pět tisíc nových serverů. Prvních sedm set serverů bylo spuštěno letos v lednu, do plného počtu se datacentrum dostane v roce 2015.

Problém je ale v samotných virtuálních strojích, které lze konfigurovat pro konkrétní potřeby a dle přání vědeckých týmů. Ty si pro konkrétní výzkumy musí napsat nejen vlastní program (třeba na hledání Higgsova bosonu), ale v některých případech musí upravovat a optimalizovat samotné operační systémy.

V současné době jsou možnosti v této oblasti velmi omezené. V případě tvorby virtuálního stroje běžícího pod KVM (Linux) nebo Hyper-V (Windows) bylo nutné vybrat pouze čtyři vybrané konfigurace. I tak se jedná o pokrok oproti dřívější době, kdy bylo pro konkrétní konfiguraci nutné čekat i několik měsíců na úpravu fyzického serveru. Stále je to ale velké omezení.

Mezi servery... Zdroj: CERN
Mezi servery… Zdroj: CERN

Řešením by měla být platforma založená na technologii OpenStack, která nabídne podobné možnosti jako například Amazon Elastic Compute Cloud. OpenStack je cloudový operační systém, který umožňuje z jednoho místa a takřka bez omezení efektivně řídit veškeré části infrastruktury. Vše lze navíc velmi snadno škálovat a v současném plánu do roku 2015 je tvorba 150 tisíc virtuálních strojů, které poběží na celkem 16 tisících fyzických serverech.

OpenStack se postará o správu až 150 000 virtuálních strojů
OpenStack se postará o správu až 150 000 virtuálních strojů

Vědecké týmy tak budou moci nakonfigurovat počet procesorů, operační paměti, kapacitu diskového systému a další části. Do několika minut to bude hotové a připravené pro práci. OpenStack poběží na Scientific Linuxu spolu se softwarem Puppet.

Do cloudu zkrátka přejdou i vědecké výpočty a spolupráce vědců po celém světě.

Petabajt dat za sekundu

Zdroj:CERN

Z jednotlivých experimentů při srážkách částic v urychlovači vzniká přibližně jeden petabajt dat za sekundu. Toto množství je ale naštěstí filtrováno a v konečném výsledku je tak nutné ukládat přibližně 25 GB za sekundu pomocí systému Castor.

Filtrování, které výrazně zmenší objem dat, ale vytíží přibližně 6 tisíc serverů. Takže ani v tomto případě nejde o jednoduchou záležitost. I tyto servery by ale měly být součástí platformy OpenStack, takže je bude možné využít i během odstávek.

Řešení jednotné správy a možnost vytvořit 100 hypervizorů během jednoho týdne. Škálovatelnost na 150 000 virtuálních strojů, které si mohou vědci konfigurovat z pohledu hardwaru i softwaru… To by ještě před několika lety bylo jen těžko představitelné.

Některé oblasti sítě ale zůstanou mimo OpenStack, půjde přibližně o 10 % infrastruktury. Například Active Directory s informacemi o 44 000 uživatelích bude stále běžet na samostatných serverech.

Nejčtenější