Nagios - dohledový systém počítačových sítí a jeho nadstavby (Centreon, Nagvis, Cacti,..)

Diskuze, rady, novinky na poli dohledových systémů a jejich rozšíření. Především se zaměřením na Nagios a Centreon. Nagios (dříve Netsaint) - Open source nástroj pro monitorování sítě a techniky v ní se nacházející. Jde monitorovat v podstatě vše. Od dostupnosti síťových zařízení (ping), služeb, přes vyčítání informací přes SNMP, či pomocí NRPE, NSCA a counterů. Případné problémy systém vyhodnotí dle předem nastavených kriterií a provede akci (pošle sms, e-mail, zavolá, něco spustí, vypne,..). Potřebný nástroj pro každou firmu s kritickými aplikacemi, servery atd Centreon (dříve Oreon) - Open source nadstavba Nagiosu. Především nabízí přehledné webové prostředí pro konfiguraci Nagiosu, správu grafů, statistik, logů. Další informace: Oficiální stránky Nagios Oficiální stránky Centreon Nagios na Wikipedii CZ

rozbalit záhlaví

AQUARIUS --- --- 17:03:23 21.4.2012

ERROR: ja jsem si rikal, ze je nejlepsi nedrzet unikatni nrpe.cfg pro kazdej stroj/skupinu a veskery konfigurovatelny parametry centralizovat do konfigurace na strane nagios serveru... Ono i takhle uz mi deploy novy konfigurace par minut trva :)

ERROR --- --- 15:15:37 21.4.2012

1 odpověď

my teda mame nrpe.cfg uplne vsude stejny a samotny checky jsou v /etc/nrpe.d/ coz je adresar kterej je includnutej

KRISHNA --- --- 14:34:15 21.4.2012

AQUARIUS: jo taak :)

AQUARIUS --- --- 14:25:20 21.4.2012

1 odpověď

KRISHNA: dont_blame_nrpe=1 - nrpe pracuje s promennejma.

KRISHNA --- --- 14:07:30 21.4.2012

1 odpověď

AQUARIUS: A ty máš teda nrpe.cfg na všech strojích uplně stejnej? U nás by to nešlo, protože máme třeba na každym stroji s databází její check, a každá má jiný názvy tabulek, co se maji kontrolovat, pak různý checky logů, jestli obsahujou danej string, taky na každym stroji jinak atd.. Máš hodně podobnejch strojů?

AQUARIUS --- --- 13:56:29 21.4.2012

1 odpověď +1

KRISHNA: hehe, pekny... ja jsem na to sel trochu jinak. Celou konfiguraci mam ulozenou v svn, nrpe.cfg mam pro vsechny servery spolecnej, taky v svn. Kdyz potrebuju rozdistribuovat zmenu nrpe, tak vytvorim novej balik nrpe-client (mam to automatizovany, takze checkout+build+zarazeni do repository je jednim prikazem) a ten pak instaluju na servery normalnim update mechanismem. Vyhoda je, ze verzi konfigurace muzu zjistit podle verze baliku nrpe clienta, nevyhoda pak ta, ze kdyz tohle potrebuju udelat na diskless stroji, kterej bezi z image, tak to neni tak elegantni.
Pluginy resim analogicky pres balicky, dneska uz tech balicku mam asi 5 kvuli checkum, co pouzivam jenom nekde a maji zavislosti navic. Proti distribuci tarballem zasadni vyhoda spociva prave ve vyreseni zavislosti. Upravu sudoers a dalsich konfiguraku resim v ramci post-install/post-uninstall skriptu.

KRISHNA --- --- 13:44:59 21.4.2012

1 odpověď

AQUARIUS: No, máme master server, řikejme mu BigBrother (z historickejch důvodů, dřív tam totiž běžel big brother monitoring software, kterej ale časem nestačil, tak se přemigroval na nagios a hostname zustal) na něm běží nagios+mysql v který je tabulka databáze "nagupdate" v níž jsou uložený configy pro všechny hosty. Na všech linuxovejch strojích máme definovanej check_nagupdate, kterej se spouští jednou denně z bigbrother, nebo jeho satellitu přes nrpe stejně jako třeba check_disk nebo check_cpu nebo cokoliv jinýho. Je to perlovej script, kterej se z toho hosta připojí do mysql bigbrothera a zjistí, jaká je aktuální konfigurace toho danýho hosta, když zjistí rozdíl, tak stáhne nejnovější config (/etc/nagios/nrpe.cfg) nahradí starej, restartuje nagios-nrpe-server a vrátí exit 0 s datumem a časem aktualizace zpět na bigbrother. Tohle všechno by bylo poněkud složitý kdyby šlo jen o configy. Ten perl script krom stažení configu ještě zkontroluje jeho obsah, jestli neobsahuje nějakej neznámej check (máme vlastní pluginy třeba na kontrolu drupalu, Postgresql, dell chasis, IPMI a další věci, co nejsou v nrpe serveru defaultně) a když jo, tak stáhne tarball se všema pluginama a rozbalí je do plugins adresáře nagios nrpe serveru. Abych nekecal, tak windows stroje (kterej je teda minimum) máme taky přes templaty

AQUARIUS --- --- 0:48:56 21.4.2012

1 odpověď

KRISHNA: mohl bys, prosim, malinko rozepsat, jak ta kontrola konfiguraci funguje? Ja na tohle pouzivam sablony, takze zmena konfigurace 100 hostu se dela zmenou sablony, ale ne vzdy to je uplne pouzitelny.

KRISHNA --- --- 17:12:13 20.4.2012

ERROR: jo no, já věřim, že se to dá dostat do použítelnýho stavu, ale já nikdy nějak neměl tu trpělivost a teď jsem skoro rád

KRISHNA --- --- 17:11:17 20.4.2012

1 odpověď

ok, s tim nemam zkušenost. Mě v poslední době nutěj na všechno psát scripty i když jsem se ze začátku cukal že to neumim, tak člověk se v tom docela brzo rozkouká. S centreonem mam blbý zkušenosti, že to nikdy nějak nedělalo co jsem si přál. Hlavně náš nagios je spojenej s MySQL databází, kde máme seznam všech hostů a jejich servisů, zároveň máme automatickej check, kterej kontroluje nejnovější configy a pluginy na jednotlivejch hostech. Takže potom můžeš měnit config třeba na 100 hostech najednou, což myslim, že právě v centreonu nešlo a kvuli tomu jsme udělali takhle "manuálně" a je to nakonec určitě lepší.

Takže teď máme na celou infrastrukturu v podstatě spojení Nagios+mysql+cacti+ntop+ Remedy což je nějakej ulítlej anglickej ticketovací systém, kterej je spojenej s cacti+nagiosem a vytváří/edituje/zavírá tickety

ERROR --- --- 16:46:03 20.4.2012

1 odpověď

filosofie je takova ze na monitoring porad pouzivame nagios, ale kdyz je potreba se kouknout do historie co se delo tak se kouknem do centreonu kterej ma vsechny historicky data v db

ERROR --- --- 16:43:35 20.4.2012

KRISHNA: problem cacti je ze je spis na monitoring infrastruktury, a my monitorujem nejen infrastrukturu ale i aplikacni metriky jako pocet obednavek atd...takze potrebujeme mit moznost ty data sledovat, treba i v zavislosti na ostatnich datech atd.. a to centreon umi docela dobre (nadefinujes do nejakyho view presne co chces videt)

KRISHNA --- --- 16:39:28 20.4.2012

1 odpověď

ERROR: Jaký data potřebujete sbírat? Cacti bych řek, že toho umí víc, než munin a hlavně má snad i nějaký pluginy pro nagios..?

ERROR --- --- 16:38:41 20.4.2012

cacti nepripada v uvahu protoze by se to muselo vsechno predelat na zeleny louce...

ERROR --- --- 16:37:21 20.4.2012

1 odpověď

KRISHNA: my potrebujeme neco na centralni sber dat nad nagiosem (nagiosama)...doted mame vsude muniny ktery jsou ale proste na houby protoze s tim nic neudelas, muzes na to maximale tak kazdej den rano hodinu cumet...a hlavne ty data casem degradujou (snizuje se rozliseni)

KRISHNA --- --- 16:34:07 20.4.2012

1 odpověď

ERROR: Kašli na centreon .)

ERROR --- --- 16:16:43 20.4.2012

1 odpověď

zdar,

jak je to s importem nagiosich templat co centreonu?
nedari se mi importnout ani tuhle jednoduchou..
nebo centreon chape templaty uplne jinak nez nagios ?
(snazim se naroubovat centreon na nagios s ~7000 servicema takze bych docela potreboval aby ty templaty umel nacist stejne jako hosty,servicy..)





define service{

	use 				SYSMON-template

	name				SYSMON-HA



        max_check_attempts              3

        normal_check_interval           300

        retry_check_interval            120

        notification_interval           300

	contact_groups			blabla-adm

	register			0

}

HALELUJA --- --- 19:32:56 13.12.2011

Nevíte jestli funguje checkování velikosti disku i s desetinnýma čárkama pomocí check_centreon_nt (nsclient) případně na konkrétní hodnotu (MB)? bez psaní skriptu

HALELUJA --- --- 11:05:57 28.10.2011

SAMGARR: tak super :))

SAMGARR --- --- 14:06:12 26.10.2011

1 odpověď +1

HALELUJA: uz to bezi, chyba byla v zapisu mountu ve fstabu

HALELUJA --- --- 11:44:07 26.10.2011

1 odpověď

SAMGARR: ještě zápis toho commandu ideálně

Kliknutím sem můžete změnit nastavení reklam

přezdívka
heslo


pamatuj si mě
registrace
ztracené heslo?