Car-tech

A Heftiest szuperszámítógépek a legnehezebbek, a kutató azt javasolja, hogy

Stalawa ft Nazizi - Ukiangalia

Stalawa ft Nazizi - Ukiangalia

Tartalomjegyzék:

Anonim

A szuperszámítógépek erőteljesebb növekedésével a beépített komponensek növekvő mennyiségének köszönhetően egyre nagyobb sebezhetőségűek lesznek a hibákkal szemben. Néhány kutató a múlt héten az Utah Salt Lake Cityben tartott SC12 konferencián felajánlotta a lehetséges problémákat.

A mai nagyteljesítményű számítástechnikai rendszerek (HPC) 100 000 csomóponttal vagy annál több lehetnek - mindegyik csomópont több memóriakomponensek, processzorok, buszok és egyéb áramkörök. Statisztikus értelemben ezek a komponensek valamikor meghiúsulnak, és megállítják a műveleteket, amikor ezt teszik "- mondta David Fiala, Ph.D hallgató az Észak-Karolinai Állami Egyetemen az SC12-es beszélgetés során.

A probléma nem egy új, persze. Amikor a Lawrence Livermore Nemzeti Laboratórium 600-node ASCI (Gyorsított Stratégiai Számítógép Kezdeményezés) fehér szuperszámítógépet 2001-ben érkezett meg, az átlagos hibaarány (MTBF) mindössze öt óra volt, részben az alkatrészhibák miatt. A későbbi tuning erőfeszítések 55 hónapra javították az ASCI White MTBF-et, mondta Fiala.

De ahogy a szuperszámítógépek csomóinak száma nő, a probléma is így van. "Ehhez valamit kell csinálni, ami egyre rosszabb lesz, amikor elmegyünk exascale-ra" - mondta Fiala, és arra hivatkozva, hogy a következő évtized szuperszámítógépeinek várhatóan tízszer akkora lesz a számítási teljesítményük, mint a mai modellek. a rendszerszintű meghibásodások kezelése nem feltétlenül mérséklődik, mondta Fiala. Ő idézett ellenőrző pontot, amelyben egy futó program ideiglenesen leállt, és állapotát lemezre mentették. Ha a program összeomlik, akkor a rendszer képes újraindítani a feladatot az utolsó ellenőrzőpontról.

NCSUDavid Fiala

A Fiala szerint az ellenőrző ponttal kapcsolatos probléma az, hogy amint a csomópontok száma nő, szükséges, hogy az ellenőrzőpontok is növekedjenek - és exponenciálisan növekszik. Például egy 100 000 csomópontos szuperszámítógépen a tevékenység végrehajtásának csak mintegy 35 százaléka vesz részt. A többit ellenőrző ponttal fogják felvenni, és - ha a Fiala becslése szerint egy rendszerhiba-helyreállítási műveletre van szükség.

Az összes olyan kiegészítő hardver miatt, amely a több millió vagy több összetevőből álló exascale rendszerekhez szükséges, a rendszer megbízhatósága hogy 100% -kal javuljon, hogy ugyanazt a MTBF-et megőrizze, amit a mai szuperszámítógépek élveznek "- mondta Fiala.

Régi, jó tanácsok: az adatok biztonsági mentése

Fiala olyan technológiát mutatott be, amelyet ő és kutatói kifejlesztettek,. A technológia megoldja a csendes adatok romlását, amikor a rendszerek észrevétlenül hibákat írnak le a lemezre írva.

Alapvetően a kutatók megközelítése abból áll, hogy egyszerre több másolatot vagy "klónt" futtatnak, majd összehasonlítják a válaszokat. A RedMPI nevű program az MPI (Message Passing Interface, MPI) segítségével fut, amely több szerverre futtatja a futó alkalmazásokat, így a program különböző részeinek párhuzamosan is végrehajthatók.

A RedMPI lefedi és megismétli minden MPI-t üzenet, amelyet egy alkalmazás küldi és elküldi az üzenet másolatát a program klónja (vagy klónjai) számára. Ha különböző klónok különböző válaszokat számolnak ki, akkor a számokat újra lehet újraszámolni, ami időt és erőforrásokat takarít meg a teljes program futtatásával.

"A redundancia végrehajtása nem drága, amelyek szükségesek, de elkerüli a újraellenőrzés újraellenőrzésének szükségességét "- mondta Fiala. "Az alternatíva természetesen egyszerű újbóli munkahelyreállítása, amíg úgy gondolja, hogy nem a megfelelő válasz."

Fiala javasolta, hogy minden program két biztonsági másolatot indítson, a hármas redundanciára. Bár a többszörös másolatok egy program kezdetben több erőforrást igényelnek, az idő múlásával ténylegesen hatékonyabb lehet, mivel a programoknak nem kell újra beavatkozniuk a válaszok ellenőrzésére. A többszörös másolatok futtatásához nem szükséges azonban az ellenőrzőpontok megadása, ami a rendszer erőforrásaihoz is mentené.

UCSCEthan Miller

"Azt hiszem, a redundancia elképzelés valójában egy nagyszerű ötlet. [Nagyon nagy számítások esetén, amelyek több százezer csomópontot foglalnak magukban, biztosan esély van arra, hogy hibák lépjenek fel" - mondta Ethan Miller a kaliforniai Santa Cruz-i Egyetem informatikai tanára, aki részt vett a prezentációban. De azt mondta, hogy a megközelítés nem feltétlenül alkalmas arra, hogy az ilyen redundancia által létrehozott hálózati forgalom mennyisége legyen. Azt javasolta, hogy minden alkalmazásban ugyanazokat a csomópontokat futtassák, amelyek minimálisra csökkenthetik a belső forgalom forgalmát.

Egy másik előadásban Ana Gainaru, az Illinois-i Egyetem Ph.D hallgatója Urbana-Champaignban bemutatta a log fájlok, amelyek megjósolhatják a rendszer hibáinak bekövetkezését.

A munka egyesíti a jelelemzést az adatbányászatsal. A jelelemzés a normális viselkedés jellemzésére szolgál, így amikor hiba történik, könnyen észrevehető. Az adatbányászat a külön jelentett hibák közötti összefüggéseket keresi. Más kutatók azt mutatják, hogy a többszörös meghibásodások néha korrelálnak egymással, mivel az egyik technológiával való meghibásodás másokat is befolyásolhat a Gainaru szerint. Például, ha egy hálózati kártya sikertelen, hamarosan meggátolja a hálózati kommunikációra épülő egyéb rendszerfolyamatokat.

A kutatók azt találták, hogy a korrelált hibák 70 százaléka több mint 10 másodperces ablakot biztosít. Másként fogalmazva, amikor a hiba első jele észlelhető, a rendszer akár 10 másodpercet is igénybe vehet munkájának megőrzéséhez, vagy áthelyezheti a munkát egy másik csomópontra, mielőtt még több kritikus hiba lép fel. "A hiba-előrejelzés más hibatűrő technikákkal is összevonható" - mondta Gainaru.

Joab Jackson a vállalati szoftvert és az általános technológiai hírleveleket a

Az IDG News Service -re fedi le. Kövesse Joabot a Twitteren a @Joab_Jackson-on. Joab e-mail címe [email protected]