Stalawa ft Nazizi - Ukiangalia
Tartalomjegyzék:
A szuperszámítógépek erőteljesebb növekedésével a beépített komponensek növekvő mennyiségének köszönhetően egyre nagyobb sebezhetőségűek lesznek a hibákkal szemben. Néhány kutató a múlt héten az Utah Salt Lake Cityben tartott SC12 konferencián felajánlotta a lehetséges problémákat.
A mai nagyteljesítményű számítástechnikai rendszerek (HPC) 100 000 csomóponttal vagy annál több lehetnek - mindegyik csomópont több memóriakomponensek, processzorok, buszok és egyéb áramkörök. Statisztikus értelemben ezek a komponensek valamikor meghiúsulnak, és megállítják a műveleteket, amikor ezt teszik "- mondta David Fiala, Ph.D hallgató az Észak-Karolinai Állami Egyetemen az SC12-es beszélgetés során.
A probléma nem egy új, persze. Amikor a Lawrence Livermore Nemzeti Laboratórium 600-node ASCI (Gyorsított Stratégiai Számítógép Kezdeményezés) fehér szuperszámítógépet 2001-ben érkezett meg, az átlagos hibaarány (MTBF) mindössze öt óra volt, részben az alkatrészhibák miatt. A későbbi tuning erőfeszítések 55 hónapra javították az ASCI White MTBF-et, mondta Fiala.
De ahogy a szuperszámítógépek csomóinak száma nő, a probléma is így van. "Ehhez valamit kell csinálni, ami egyre rosszabb lesz, amikor elmegyünk exascale-ra" - mondta Fiala, és arra hivatkozva, hogy a következő évtized szuperszámítógépeinek várhatóan tízszer akkora lesz a számítási teljesítményük, mint a mai modellek. a rendszerszintű meghibásodások kezelése nem feltétlenül mérséklődik, mondta Fiala. Ő idézett ellenőrző pontot, amelyben egy futó program ideiglenesen leállt, és állapotát lemezre mentették. Ha a program összeomlik, akkor a rendszer képes újraindítani a feladatot az utolsó ellenőrzőpontról.
NCSUDavid Fiala
Az összes olyan kiegészítő hardver miatt, amely a több millió vagy több összetevőből álló exascale rendszerekhez szükséges, a rendszer megbízhatósága hogy 100% -kal javuljon, hogy ugyanazt a MTBF-et megőrizze, amit a mai szuperszámítógépek élveznek "- mondta Fiala.
Régi, jó tanácsok: az adatok biztonsági mentése
Fiala olyan technológiát mutatott be, amelyet ő és kutatói kifejlesztettek,. A technológia megoldja a csendes adatok romlását, amikor a rendszerek észrevétlenül hibákat írnak le a lemezre írva.
Alapvetően a kutatók megközelítése abból áll, hogy egyszerre több másolatot vagy "klónt" futtatnak, majd összehasonlítják a válaszokat. A RedMPI nevű program az MPI (Message Passing Interface, MPI) segítségével fut, amely több szerverre futtatja a futó alkalmazásokat, így a program különböző részeinek párhuzamosan is végrehajthatók.
A RedMPI lefedi és megismétli minden MPI-t üzenet, amelyet egy alkalmazás küldi és elküldi az üzenet másolatát a program klónja (vagy klónjai) számára. Ha különböző klónok különböző válaszokat számolnak ki, akkor a számokat újra lehet újraszámolni, ami időt és erőforrásokat takarít meg a teljes program futtatásával.
"A redundancia végrehajtása nem drága, amelyek szükségesek, de elkerüli a újraellenőrzés újraellenőrzésének szükségességét "- mondta Fiala. "Az alternatíva természetesen egyszerű újbóli munkahelyreállítása, amíg úgy gondolja, hogy nem a megfelelő válasz."
Fiala javasolta, hogy minden program két biztonsági másolatot indítson, a hármas redundanciára. Bár a többszörös másolatok egy program kezdetben több erőforrást igényelnek, az idő múlásával ténylegesen hatékonyabb lehet, mivel a programoknak nem kell újra beavatkozniuk a válaszok ellenőrzésére. A többszörös másolatok futtatásához nem szükséges azonban az ellenőrzőpontok megadása, ami a rendszer erőforrásaihoz is mentené.
UCSCEthan Miller
Egy másik előadásban Ana Gainaru, az Illinois-i Egyetem Ph.D hallgatója Urbana-Champaignban bemutatta a log fájlok, amelyek megjósolhatják a rendszer hibáinak bekövetkezését.
A munka egyesíti a jelelemzést az adatbányászatsal. A jelelemzés a normális viselkedés jellemzésére szolgál, így amikor hiba történik, könnyen észrevehető. Az adatbányászat a külön jelentett hibák közötti összefüggéseket keresi. Más kutatók azt mutatják, hogy a többszörös meghibásodások néha korrelálnak egymással, mivel az egyik technológiával való meghibásodás másokat is befolyásolhat a Gainaru szerint. Például, ha egy hálózati kártya sikertelen, hamarosan meggátolja a hálózati kommunikációra épülő egyéb rendszerfolyamatokat.
A kutatók azt találták, hogy a korrelált hibák 70 százaléka több mint 10 másodperces ablakot biztosít. Másként fogalmazva, amikor a hiba első jele észlelhető, a rendszer akár 10 másodpercet is igénybe vehet munkájának megőrzéséhez, vagy áthelyezheti a munkát egy másik csomópontra, mielőtt még több kritikus hiba lép fel. "A hiba-előrejelzés más hibatűrő technikákkal is összevonható" - mondta Gainaru.
Joab Jackson a vállalati szoftvert és az általános technológiai hírleveleket a
Az IDG News Service -re fedi le. Kövesse Joabot a Twitteren a @Joab_Jackson-on. Joab e-mail címe [email protected]
Műalkotás: Chip TaylorAz amerikai Recording Industry Association, az internetes szolgáltatóknak az illegális fájlmegosztás elleni küzdelemben való részvételére irányuló terve jelenleg folyamatban van. Az AT & T és a Cox egyaránt megerősítették a PC World-nek, hogy valamilyen formában kezdtek együttműködni a RIAA-val. A Comcast nem azt mondta, hogy együttműködött a RIAA-val, de azt állította, hogy a felvételi ipar nevében üzenetet küld az ügyfeleknek. Még mindig rejtély, hogy az ISP-k milyen mért

A RIAA bejelentette a stratégia elmozdulását tavaly decemberben: a múltban megtett perek, a szervezet az internetszolgáltatókkal együttműködve megtalálja a feltételezett elkövetőket, és - egy sor figyelmeztetés után - potenciálisan megszünteti Internet-hozzáférését. A RIAA kezdetben azt mondta, hogy "a legfontosabb internetszolgáltatók" részt vesznek, és nem mutatnak be sem konkrét cégeket, sem határozott időkeretet a program elindításához.
Az Egyesült Államok Szövetségi Kereskedelmi Bizottsága küldött figyelmeztető levelet 10 weboldal üzemeltetőjének, akik azt tették, amit a "megkérdőjelezhető" ügynökség azt állítja, hogy az általuk értékesített termékek megakadályozhatják, kezelhetik vagy gyógyíthatják a H1N1 influenza, gyakran úgynevezett sertésinfluenza. Az FTC a múlt héten küldött levélben azt mondta az amerikai weboldal üzemeltetőinek, hogy ha nem rendelkeznek tudományos bizonyítékokkal az állításuk alátámasztására,

Az FTC a sertésinfluenza-szerekkel kapcsolatos kérelmeket a A nemzetközi fogyasztóvédelmi hálózat 11. internetes sweepje, amely szeptember 21-25. Között zajlott le. A séta során a fogyasztóvédelmi ügynökségek világszerte az interneten való csalás és megtévesztő magatartás gyors növekedését célozták, különös hangsúlyt fektetve a termékek vagy szolgáltatások kihasználására a pénzügyi válságok vagy a természeti katasztrófák, például a H1N1-es járvány, az FTC azt mondta:
"A Firefox 3.5 ma a világ legnépszerûbb böngészõje" - mondta Aodhan Cullen, a StatCounter vezérigazgatója, a statisztikát összeállító vállalat. Cullen gyorsan hozzátette, hogy a Firefox összes verziója nem egyenlő az IE összes verziójával, de azt állítja, hogy a statisztika mindazonáltal azt állítja, hogy a Firefox piaci részesedése tovább növekszik, míg az IE továbbra is erodál. A StatCounter ügyfelei weboldalain a webes elemző cég Global Stats webszolgáltatásánál használt böngésző-tí

Of persze, csak a böngészők egyes változatainak összehasonlításakor a Firefox előrébb jár. Egy másik statisztikai pillanatkép ugyanazokkal az adatokkal és ugyanazon a héten, a felhasználók 55,44% -a halmozottan használta az Internet Explorer változatát, míg a felhasználók 32,12 százaléka telepítette a Firefox néhány verzióját.