• úvod
  • témata
  • události
  • tržiště
  • diskuze
  • nástěnka
  • přihlásit
    registrace
    ztracené heslo?
    HALELUJANagios - dohledový systém počítačových sítí a jeho nadstavby (Centreon, Nagvis, Cacti,..)
    Diskuze, rady, novinky na poli dohledových systémů a jejich rozšíření. Především se zaměřením na Nagios a Centreon. Nagios (dříve Netsaint) - Open source nástroj pro monitorování sítě a techniky v ní se nacházející. Jde monitorovat v podstatě vše. Od dostupnosti síťových zařízení (ping), služeb, přes vyčítání informací přes SNMP, či pomocí NRPE, NSCA a counterů. Případné problémy systém vyhodnotí dle předem nastavených kriterií a provede akci (pošle sms, e-mail, zavolá, něco spustí, vypne,..). Potřebný nástroj pro každou firmu s kritickými aplikacemi, servery atd Centreon (dříve Oreon) - Open source nadstavba Nagiosu. Především nabízí přehledné webové prostředí pro konfiguraci Nagiosu, správu grafů, statistik, logů. Další informace: Oficiální stránky Nagios Oficiální stránky Centreon Nagios na Wikipedii CZ
    rozbalit záhlaví
    AQUARIUS
    AQUARIUS --- ---
    ERROR: ja jsem si rikal, ze je nejlepsi nedrzet unikatni nrpe.cfg pro kazdej stroj/skupinu a veskery konfigurovatelny parametry centralizovat do konfigurace na strane nagios serveru... Ono i takhle uz mi deploy novy konfigurace par minut trva :)
    ERROR
    ERROR --- ---
    my teda mame nrpe.cfg uplne vsude stejny a samotny checky jsou v /etc/nrpe.d/ coz je adresar kterej je includnutej
    KRISHNA
    KRISHNA --- ---
    AQUARIUS: jo taak :)
    AQUARIUS
    AQUARIUS --- ---
    KRISHNA: dont_blame_nrpe=1 - nrpe pracuje s promennejma.
    KRISHNA
    KRISHNA --- ---
    AQUARIUS: A ty máš teda nrpe.cfg na všech strojích uplně stejnej? U nás by to nešlo, protože máme třeba na každym stroji s databází její check, a každá má jiný názvy tabulek, co se maji kontrolovat, pak různý checky logů, jestli obsahujou danej string, taky na každym stroji jinak atd.. Máš hodně podobnejch strojů?
    AQUARIUS
    AQUARIUS --- ---
    KRISHNA: hehe, pekny... ja jsem na to sel trochu jinak. Celou konfiguraci mam ulozenou v svn, nrpe.cfg mam pro vsechny servery spolecnej, taky v svn. Kdyz potrebuju rozdistribuovat zmenu nrpe, tak vytvorim novej balik nrpe-client (mam to automatizovany, takze checkout+build+zarazeni do repository je jednim prikazem) a ten pak instaluju na servery normalnim update mechanismem. Vyhoda je, ze verzi konfigurace muzu zjistit podle verze baliku nrpe clienta, nevyhoda pak ta, ze kdyz tohle potrebuju udelat na diskless stroji, kterej bezi z image, tak to neni tak elegantni.
    Pluginy resim analogicky pres balicky, dneska uz tech balicku mam asi 5 kvuli checkum, co pouzivam jenom nekde a maji zavislosti navic. Proti distribuci tarballem zasadni vyhoda spociva prave ve vyreseni zavislosti. Upravu sudoers a dalsich konfiguraku resim v ramci post-install/post-uninstall skriptu.
    KRISHNA
    KRISHNA --- ---
    AQUARIUS: No, máme master server, řikejme mu BigBrother (z historickejch důvodů, dřív tam totiž běžel big brother monitoring software, kterej ale časem nestačil, tak se přemigroval na nagios a hostname zustal) na něm běží nagios+mysql v který je tabulka databáze "nagupdate" v níž jsou uložený configy pro všechny hosty. Na všech linuxovejch strojích máme definovanej check_nagupdate, kterej se spouští jednou denně z bigbrother, nebo jeho satellitu přes nrpe stejně jako třeba check_disk nebo check_cpu nebo cokoliv jinýho. Je to perlovej script, kterej se z toho hosta připojí do mysql bigbrothera a zjistí, jaká je aktuální konfigurace toho danýho hosta, když zjistí rozdíl, tak stáhne nejnovější config (/etc/nagios/nrpe.cfg) nahradí starej, restartuje nagios-nrpe-server a vrátí exit 0 s datumem a časem aktualizace zpět na bigbrother. Tohle všechno by bylo poněkud složitý kdyby šlo jen o configy. Ten perl script krom stažení configu ještě zkontroluje jeho obsah, jestli neobsahuje nějakej neznámej check (máme vlastní pluginy třeba na kontrolu drupalu, Postgresql, dell chasis, IPMI a další věci, co nejsou v nrpe serveru defaultně) a když jo, tak stáhne tarball se všema pluginama a rozbalí je do plugins adresáře nagios nrpe serveru. Abych nekecal, tak windows stroje (kterej je teda minimum) máme taky přes templaty
    AQUARIUS
    AQUARIUS --- ---
    KRISHNA: mohl bys, prosim, malinko rozepsat, jak ta kontrola konfiguraci funguje? Ja na tohle pouzivam sablony, takze zmena konfigurace 100 hostu se dela zmenou sablony, ale ne vzdy to je uplne pouzitelny.
    KRISHNA
    KRISHNA --- ---
    ERROR: jo no, já věřim, že se to dá dostat do použítelnýho stavu, ale já nikdy nějak neměl tu trpělivost a teď jsem skoro rád
    KRISHNA
    KRISHNA --- ---
    ok, s tim nemam zkušenost. Mě v poslední době nutěj na všechno psát scripty i když jsem se ze začátku cukal že to neumim, tak člověk se v tom docela brzo rozkouká. S centreonem mam blbý zkušenosti, že to nikdy nějak nedělalo co jsem si přál. Hlavně náš nagios je spojenej s MySQL databází, kde máme seznam všech hostů a jejich servisů, zároveň máme automatickej check, kterej kontroluje nejnovější configy a pluginy na jednotlivejch hostech. Takže potom můžeš měnit config třeba na 100 hostech najednou, což myslim, že právě v centreonu nešlo a kvuli tomu jsme udělali takhle "manuálně" a je to nakonec určitě lepší.

    Takže teď máme na celou infrastrukturu v podstatě spojení Nagios+mysql+cacti+ntop+ Remedy což je nějakej ulítlej anglickej ticketovací systém, kterej je spojenej s cacti+nagiosem a vytváří/edituje/zavírá tickety
    ERROR
    ERROR --- ---
    filosofie je takova ze na monitoring porad pouzivame nagios, ale kdyz je potreba se kouknout do historie co se delo tak se kouknem do centreonu kterej ma vsechny historicky data v db
    ERROR
    ERROR --- ---
    KRISHNA: problem cacti je ze je spis na monitoring infrastruktury, a my monitorujem nejen infrastrukturu ale i aplikacni metriky jako pocet obednavek atd...takze potrebujeme mit moznost ty data sledovat, treba i v zavislosti na ostatnich datech atd.. a to centreon umi docela dobre (nadefinujes do nejakyho view presne co chces videt)
    KRISHNA
    KRISHNA --- ---
    ERROR: Jaký data potřebujete sbírat? Cacti bych řek, že toho umí víc, než munin a hlavně má snad i nějaký pluginy pro nagios..?
    ERROR
    ERROR --- ---
    cacti nepripada v uvahu protoze by se to muselo vsechno predelat na zeleny louce...
    ERROR
    ERROR --- ---
    KRISHNA: my potrebujeme neco na centralni sber dat nad nagiosem (nagiosama)...doted mame vsude muniny ktery jsou ale proste na houby protoze s tim nic neudelas, muzes na to maximale tak kazdej den rano hodinu cumet...a hlavne ty data casem degradujou (snizuje se rozliseni)
    KRISHNA
    KRISHNA --- ---
    ERROR: Kašli na centreon .)
    ERROR
    ERROR --- ---
    zdar,

    jak je to s importem nagiosich templat co centreonu?
    nedari se mi importnout ani tuhle jednoduchou..
    nebo centreon chape templaty uplne jinak nez nagios ?
    (snazim se naroubovat centreon na nagios s ~7000 servicema takze bych docela potreboval aby ty templaty umel nacist stejne jako hosty,servicy..)



    define service{
    use SYSMON-template
    name SYSMON-HA

    max_check_attempts 3
    normal_check_interval 300
    retry_check_interval 120
    notification_interval 300
    contact_groups blabla-adm
    register 0
    }
    HALELUJA
    HALELUJA --- ---
    Nevíte jestli funguje checkování velikosti disku i s desetinnýma čárkama pomocí check_centreon_nt (nsclient) případně na konkrétní hodnotu (MB)? bez psaní skriptu
    HALELUJA
    HALELUJA --- ---
    SAMGARR: tak super :))
    SAMGARR
    SAMGARR --- ---
    HALELUJA: uz to bezi, chyba byla v zapisu mountu ve fstabu
    HALELUJA
    HALELUJA --- ---
    SAMGARR: ještě zápis toho commandu ideálně
    Kliknutím sem můžete změnit nastavení reklam