• úvod
  • témata
  • události
  • tržiště
  • diskuze
  • nástěnka
  • přihlásit
    registrace
    ztracené heslo?
    DELVITLinux pro zacatecniky a obycejne uzivatele (NO FLAMES!)
    AQUARIUS
    AQUARIUS --- ---
    RATTKIN: mas nejakou cerstvejsi zkusenost s podporou x86 serveru od IBM? Situace se dost menila, co to prevzalo Lenovo, za me IBM nebrat... :) ano, jsem trochu zaujatej
    Obecne mas ale pravdu v tom, ze znackovy servery, co maji ECC pameti, obvykle umoznuji radove komfortnejsi uroven ladeni.
    RATTKIN, DANYSEK: ze aplikace zpusobi restart serveru je pomerne beznej stav a ani se nemusi nic prehrivat, obecne tyhle ulohy, co bezi delsi dobu, maji tendenci zatizit hardware i OS zpusobem, jakej pri bezny praci nikdy nevyvolame a u blbe napsany aplikace muze k padu stacit fakt malo. No a ze padne i OS? Zadnej sw neni bez chyb, u SLESu 11 se nam servery rebootovaly, kdyz na sitovou kartu prisel paket vetsi nez 1500b (coz v siti, kde se pouzivaly jumbo frames nebylo uplne fajn).
    GRIGORIJ
    GRIGORIJ --- ---
    PISKVOR: ja si to myslel, jen tak špekuluju. Az tenhle vzorek dobehne (jestli), tak zkusim tu pamet.
    PISKVOR
    PISKVOR --- ---
    GRIGORIJ: Nope, to by muselo dělat nějakou úplnou šílenost. JVM mnohem dřív spadne na OutOfMemoryError, než ta RAMka fakt dojde ;) Ani plnej disk by neměl vyvolat restart, maximálně různý divnostavy "co nejde spustit a kam všude nejde zapsat."
    DANYSEK
    DANYSEK --- ---
    RATTKIN: tak vlivem behu scriptu / vypoctu muze dojit k prilisnemu zahrati HW komponent... a co si budeme povidat, osetreni podobnych stavu na urovni OS nebyva vzdy dokonale :)
    CHOROBA
    CHOROBA --- ---
    jo Java ;) ta mozna dokaze sestrelit i operacni system. Jakejkoliv ;p
    RATTKIN
    RATTKIN --- ---
    GRIGORIJ: mě to nepadá když dojde disk, ale zas takový expert nejsem (ale testujeme to celkiem často ;-) ), jen aplikace začne blbnout. Případně nejde vůbec spustit.
    na IBM serverech si nepamatuju, že by něco spadlo, mimo vadný komponent.
    GRIGORIJ
    GRIGORIJ --- ---
    RATTKIN: ja vlastne taky ne, leda by javovy tmp ucpaly systemovy disk (budu to muset pro jistotu zmenit), ale nevim jestli by to vyustilo v restart... navic to naposled spadlo kratce po spusteni, kdyz vsechno probiha na datovem disku.

    Kazdopadne dik za rady vsem!
    RATTKIN
    RATTKIN --- ---
    GRIGORIJ: neumim si představit, že chyba skriptu restartuje náhodně operační systém. Jedině že by nějak hrozně došla operační paměť, to by bylo v logu (oom killer a podobně)
    Tak hodně štěstí s reklamací.
    GRIGORIJ
    GRIGORIJ --- ---
    RATTKIN: dik, potrebuju doanalyzovat jeste tenhle vzorek a pak se v tom budu vrtat. Az vyloucim, ze je chyba na strane meho skriptu, tak jim to na hlavu hodim samozrejme :)

    ERGOSUM: to se mi moc nezda, ale vim ja jak jsou napsane ty alignery.
    ERGOSUM
    ERGOSUM --- ---
    GRIGORIJ: Ja nevim. Treba se stihne mezivypocet, nez se nacte pamet a tady jeste neni.
    RATTKIN
    RATTKIN --- ---
    GRIGORIJ: Paměti testuj jako první, ale když proběhne memtest jednou, nemusí to znamenat, že problém není. Nech memtest přes víkend.
    Taky to může být chlazení, zdroj, základní deska.

    To asi neni kvalitní server? Na tohle je dobrá podpora, hodíš jim to na hlavu ať se s tím štvou oni. Takhle to funguje u IBM. Já vím, je to dražší..
    GRIGORIJ
    GRIGORIJ --- ---
    DANYSEK: samozrejme se mezivysledky ukladaji, na ktere jde navazat, akorat to uz budu muset navazovat ja a ne kolegyne v laboratori a tak bych se tomu nejradsi vyhnul :)


    ERGOSUM: tomu moc nerozumim...
    ERGOSUM
    ERGOSUM --- ---
    GRIGORIJ: " ale zas na jinych pocitacich s tim problemy nebyly, az na nedostatek pameti, coz by tady byt issue nemelo. "
    To by paradoxně mohla být příčina. Tam kde oni čekají na paměť...
    DANYSEK
    DANYSEK --- ---
    GRIGORIJ: projit vsechny logy neni od veci, kdyz je problem.
    Jinak me zarazi, ze aplikace, co neco pocita par dnu si nikam neuklada nejake prubezne mezivysledky, na ktere jde navazat.. :) A to i pro pripad ladeni - pokud je pricinou padu stav one aplikace, stravi se na tom cele mladi...
    GRIGORIJ
    GRIGORIJ --- ---
    CHOROBA: jo syslog, nebyl jsem si jisty, ktery log je ten pravy, dik.

    SATAI,AQUARIUS: Diky zkusim. Aplikace muze byt take docela dobre na vine - je to mix mych skriptu a skriptu jinych lidi na analyzu skevenacnich dat, ale zas na jinych pocitacich s tim problemy nebyly, az na nedostatek pameti, coz by tady byt issue nemelo.
    AQUARIUS
    AQUARIUS --- ---
    GRIGORIJ: az otestujes pameti a zkontrolujes logy, tak si tam rozjed kdump, z toho se da zjistit vic. Mimochodem, co to je za aplikaci?
    SATAI
    SATAI --- ---
    GRIGORIJ: začal bych tím, co CHOROBA a tím, že bych otestoval paměti
    Ten tvůj výpočet někam loguje?

    Jsi za UPS?
    CHOROBA
    CHOROBA --- ---
    se podivej do /var/log/syslog a koukej coto v minutach/sekundach kol rebootu blilo
    GRIGORIJ
    GRIGORIJ --- ---
    ahoj! potrebuji radu - novy pocitc se mi behem vikendu dvakrat restartoval behem vypoctu. Kam bych se mel koukat pro pricine? prvni, co me napadlo, ze dododavatel procesory pretaktuje (ale zaroven tvrdi, ze je tak uchladi), tak jsem to pretaktovani vypnul a nepomohlo to.

    Jinak je to 12 vlaknovy I7, 64GB ram, posledni lts linux ubuntu

    Je to docel otravne, kdyz nektere vypocty bezi par dnu, a na druhou stranu se to spatne demonstrujruje pri reklamci... no a na treti stranu ten pocitac potrebujeme ted...

    Dik za napady!
    SATAI
    SATAI --- ---
    PISKVOR: Je to v principu korektni, ale je porusuje to princip nejmensiho prekvapeni. Kdyby nebylo lepsi slovicko (SSD), ktere nevyvolava zavedajici asociace, tak bychom to museli prekousnout. Ale takhle je to ciste matouci.


    PISKVOR: Presne tak. Ale clovek obzvlaste v pripade te flashky udela lepe, kdyz bude pouzivat nejaka lepe pojmenovana zarizeni v /dev strome.
    Kliknutím sem můžete změnit nastavení reklam