• úvod
  • témata
  • události
  • tržiště
  • diskuze
  • nástěnka
  • přihlásit
    registrace
    ztracené heslo?
    HALELUJANagios - dohledový systém počítačových sítí a jeho nadstavby (Centreon, Nagvis, Cacti,..)
    Diskuze, rady, novinky na poli dohledových systémů a jejich rozšíření. Především se zaměřením na Nagios a Centreon. Nagios (dříve Netsaint) - Open source nástroj pro monitorování sítě a techniky v ní se nacházející. Jde monitorovat v podstatě vše. Od dostupnosti síťových zařízení (ping), služeb, přes vyčítání informací přes SNMP, či pomocí NRPE, NSCA a counterů. Případné problémy systém vyhodnotí dle předem nastavených kriterií a provede akci (pošle sms, e-mail, zavolá, něco spustí, vypne,..). Potřebný nástroj pro každou firmu s kritickými aplikacemi, servery atd Centreon (dříve Oreon) - Open source nadstavba Nagiosu. Především nabízí přehledné webové prostředí pro konfiguraci Nagiosu, správu grafů, statistik, logů. Další informace: Oficiální stránky Nagios Oficiální stránky Centreon Nagios na Wikipedii CZ
    rozbalit záhlaví
    RUDOLF
    RUDOLF --- ---
    AQUARIUS: díky, jasně že jsem nerestartoval nrpe:-) už to běží, došlo mi to už včera asi hodinu poté..
    AQUARIUS
    AQUARIUS --- ---
    RUDOLF: restartoval jsi nrpe po uprave tech konfiguraku? Co vidis v tcpdumpu?
    RUDOLF
    RUDOLF --- ---
    ahoj, začínám s nagiosem

    .. změnila se teď IP adresa nagios serveru:

    intranet:/usr/lib/nagios/plugins # rcnagios status
    Checking for nagios : running
    Tj. nagios běží bez xinet.d


    intranet:/usr/lib/nagios/plugins # ./check_nrpe -H localhost
    Connection refused by host
    intranet:/usr/lib/nagios/plugins # ./check_nrpe -H public
    CHECK_NRPE: Error - Could not complete SSL handshake.

    na nagios serveru jsem změnil IP tady:
    intranet:/usr/lib/nagios/plugins # grep -r 10.3.0.28 /etc/
    /etc/hosts:10.3.0.28 intranet intranet
    /etc/nagios/objects/hosts.cfg: address 10.3.0.28

    na remote jsem zmenil:
    /etc/nagios/nrpe.cfg:allowed_hosts=***.***.***.***,10.3.0.28 //hvezdicky jsou public IP

    všechny stroje mi hlasí:
    CHECK_NRPE: Error - Could not complete SSL handshake.

    dokumentace nějak nepomohla.. možná něco s certifikáty, ale ty jsou přeci na domain name a né na IP..

    jakékoliv nápady ocením!
    KRISHNA
    KRISHNA --- ---
    A nebo "first notification delay" v define services

    Object Definitions
    http://nagios.sourceforge.net/docs/3_0/objectdefinitions.html#service
    AQUARIUS
    AQUARIUS --- ---
    KRISHNA: podle toho, co pise, bych spis predpokladal, ze hleda notification escalations.
    KRISHNA
    KRISHNA --- ---
    HALELUJA: Nuu, nastavíš si retry_interval na 1 a max_check_attempts na 10.. ?
    HALELUJA
    HALELUJA --- ---
    Já sem dneska nějak ultra natvrdlej.. můžete mě nakopnout jak udělat, aby u generic-hosta byl kromě ostatních notifikačních kontaktů ještě jeden, na kterej se ale bude notifikovat až po deseti minutách stavu down/up?
    HALELUJA
    HALELUJA --- ---
    ALLES32: mno nic moc jsem tam užitečného zatím nenašel :/
    nasazuju vždy a všude nagios. icinga se zdá, že by mohla být dobrá, ale momentálně nemám potřebu přecházet na něco jiného. to spíš z novejch věcí pokuju po Livestatusu - teď jsem ho zkušebně nasazoval kvůli jNagu a vypadá to pěkně a navíc nenáročně - jenže si to zas tak úplně nerozumí s Centreonem
    AQUARIUS
    AQUARIUS --- ---
    KRISHNA: Pokud je celej server dole (host down event), pak se na nefunkcni sluzby neupozornuje. Zavislostma dosahnes jinejch veci. Napriklad mam sluzbu NFS server na serveru A a sluzbu "NFS mounts" na serverech B-Z. Pokud nejede NFS server, tak nema smysl kontrolovat, ze maji klienti namountovano, takze udelam service dependency. Dale se, pokud pouzivas NRPE, velice hodi kontrolovat beh NRPE jako takovyho a na nej jako zavislosti navesit vsechny sluzby, ktery pres NRPE kontrolujes - v pripade problemu ti tech mailu prijde o dost min.
    Jinak ja mam zatim kompletni konfiguraci v textovejch souborech a diky duslednymu pouzivani sablon to nepovazuju za nejaky zasadni omezeni.
    ALLES32: Zatim Icingu jen tak otukavam a moje poznatky by se daly shrnout takto:
    1. Icinga ma o neco lip reseny webovy rozhrani (classic UI), daji se tam treba elegantne posilat hromadne prikazy (to je v nagiosu skutecne bolestiva zalezitost)
    2. Icinga web je hodne zajimavej projekt, nicmene jsem tam nenasel ekvivalent "unhandled services" z classic UI, sice tam jdou nastavovat custom filtry a hromada dalsich veci, ale dost casto ty vypisy jsou celkem neprehledny - ve chvili, kdy mi tisic sluzeb hlasi nejakej problem, potrebuju to i za cenu, ze to bude pomaly, videt na jedny strance a ne se tim proklikavat.
    3. Icinga umi IPv6, coz by vas mohlo nektere zajimat. Mne se to bohuzel nejspis jeste dost dlouho tykat nebude.

    Mimochodem, nedavno jsem videl prezentaci komercniho nagiosu (Nagios IX) a v zasade mi prislo, ze je nenabizi nic navic proti tomu, co zvladne Icinga s novym UI a par addonama (BPI, pnp4nagios).
    KRISHNA
    KRISHNA --- ---
    ...Aquarius:

    Jinak v konfigurácích jsem objevil (pro mě novej) definition a to define service/host dependency.. Ještě jsem o tom nic nezjišťoval, ale tušim, že by se přes to dalo nastavit, aby mě to neupozorňovalo na každou nefunkční službu na serveru, když je celej server down..? Jsem línej číst dokumentaci, když nejsem v práci :))

    Máme to hlavně dost rozlezlý, ty dependency jsou ve zvlášť konfiguráku než zbytek object definitions.. Stejně tak jako "host ext info", ty máme taky všechny ve zvlášť .cfg souborech.

    Nejspíš je to kvuli tý mysql databázi v který máme všechny konfigy
    ALLES32
    ALLES32 --- ---
    HALELUJA: na publib.boulder.ibm.com info neni?

    HALELUJA: a nasazujes nagios a nebo icingu?

    jesli nekdo na icingu presel, mohl by, prosim, do par bodu sepsat, v cem mu ulehcila praci?
    HALELUJA
    HALELUJA --- ---
    máte někdo zkušenosti s dohledem AIX 5.3 serverů? hlavně performance data.. na netu není skoro nic :/
    HALELUJA
    HALELUJA --- ---
    ALLES32: mno já právě teď upgraduju nagios i centreon všude u zakošů a zatím bez problému. navíc ten skok byl velkej a změny k lepšímu

    jinak centreon je podle mě super nadstavba, která hodně věcí ulehčuje a navíc přidává grafy, zmíněné acl atd
    ALLES32
    ALLES32 --- ---
    KRISHNA: von centreon neni zadnej dlouhletej hrac bych rekl. kdys jsem se snim seznamil poprve, tak nebyla prakticky zadna dokumentace, jenom nejaky wiki utrzky, ale pouze ve francouzstine(u me problem). no, mohl's vysolit zlatku za support. udelat chybu a neco rozbit slo lehce.
    nakonec se ale centreon ukazal docela blbuvzdornej s drobnostma, co potesej. pred nim jsem neco podobnyho nepouzival a konfiguraci jsem mel napsanou v textaku, ale prisel mi job udelat monitoring vetsiho kusu site, s pozadavkem nejakyho prehlednyho a centralizovanyho pristupu a na nic jinaciho jsem tehdy nenarazil. zakaznik si to pak naplnil datama sam, bez nejakejch zbytecnejch dotazu. testoval jsem to nejdrive na svem nagiosu a v ty dobe jsem uz vedel, ze tydlety vychytavkovaci udelatka si vsechno prekonfaj posvem, v tomdle me neprekvapil. naopak jsem ocenil, ze v tom mojim chlivu udelal poradek. jako bonus jsem na nem ocenil system acl, tzn. helpdesk vidi co potrebuje, technik vidi co potrebuje a vedeni vidi ty pekny grafiky, ktery vlastne vubec nepotrebuje ;]. ndoutils jsou uzitecny, diky tomu se daj naladovat data do databaze a lip se pak s tim pracuje - skriptuje. pravda, musis privohnout but tvoje skripty, a nebo centreon. jinak pokdu neco prepises v konfigu generovanym centreonem tak, aby tomu rozumel, se gui prizpusobi. vnimam ho jen jako takovej prijemnej vstup a prehlednej vystup.
    monitoring postavenej na nagiosu muze bejt poskladanej s hafo drobnosti. i proto jsem to vsechno oddelil ( ale ne do /opt, jaxem psal, ale do /usr/local/nagios, to je default nedistribucniho nagiosu a vetsiny komponent). staci pak smazat jeden adresar. a protoze to obsahovalo uz prezpriliz komponent, ktery jednak v debianu nebyly nejaktualnejsi a druhak ty satelity muzou bejt nekde, kde bezi nedebian, tak jsem se rozhodnul pro virtual a kompilaci. celej sys je ze stejnejma verzema. dneska uz jsou zase ty verze postarsi, kdo by se ale sral s aktualizacema. kdys to funguje, tak na to nesahat ;]
    k zabezpeceni je hafo dalsich moznosti a ten, kdo tvrdi, ze webgui neni bezpecny, tak pravdepodobne zadny moznosti zabezpeceni nezna.
    KRISHNA
    KRISHNA --- ---
    ALLES32: ani nevim.. Asi to, že jsem měl už poměrně hezky zavedenej nagios, pak jsem nainstaloval centreon a ten mi rozvrtal všechno nastavení bez toho, aby se mě na něco zeptal (občas jsem trochu hrr, tak jestli se mě fakt ptal, tak dost neokatě ;). Vlastně se mi to ani pořádně nastavit nepodařilo, když jsem tam potom zkusil nadefinovat hosty, tak uplně zmizely z mapy, zustaly tam jenom services. Později jsem zjistil, že to je kvuli tomu, že mam blbě nastavený NDOutils, který se mi nakonec ani nastavit nepovedlo, tak jsem si řek, že to nechci a začal to mazat. Ale do dneška po centreonu nacházim v systému nějaký pozůstatky v sudoers, v apache a všude možně :))

    My jsme právě přebírali ten zavedenej nagios system a když jsem se ptal, proč nepoužívaj centreon, tak mi řekli, že to je moc nebezpečný a moc nepohodlný.. :))
    Pro vysvětlení v tý firmě se bojej nainstalovat i phpmyadmin, protože ten server je "pouze" jeden skok za firewallem .)) A nepohodlný z toho důvodu, že když chceš najednou přidat 30 serverů, tak je tam musíš ručně naklíkávat (to nevim, jestli je pravda v centreonu jsem nezkoušel), kdežto když umíš aspoň trochu Perl, tak si napíšeš script, co ti ty configuráky vysype... Já bych to teda nezvlád, ale takhle mi to předali :))

    My ve firmě moc manažerů nemáme, resp máme, ale neni tu nikdo, koho by výstup z nagiosu/centreonu zajímal. Máme tu obří obrazovku, na který je permanentě 50 - 200 nefunkčních služeb a my je podle důležitosti/vytíženosti řešíme :))
    ALLES32
    ALLES32 --- ---
    ALLES32: vystup co je v nagiosu je dost nuda. ale jesli pouzivate ten placenej XI nebo jak se jmenuje, tak ten ma celkem koukatelnej interfejs. me se libi centreoni. jesli mas nejakou dalsi alternativu, tak sem s ni.
    ALLES32
    ALLES32 --- ---
    RAINBOF: > snmp zvlada nagios paradne. da se monitorovat na co si vzpomenes. pluginy neni tezky udelat, muzes si je napsat od bashe po cecko.


    KRISHNA: > co je spatny na centreonu? jednu vyhodu vidim pohodlny konfiguraci, a druhou v tom, ze ma vystup optimalizovanej pro managory, pekne eyecady.
    ALLES32
    ALLES32 --- ---
    RAINBOF: > ja sem si vybuildil dva virtualy, zaklad na deblijanu, monitorovatko mam kompilovany do /opt a oddeleny od zbytku systemu. jeden virtual jako Principal a druhej jako Satelit. satelity pak strkam do vseljakech subnetu, odkud principalovi posilaj info a ten ho ulozi do mysql. info pak odprezentuje centreon. je dobry pouziva nsca a pasivni checking, pak neni srani s firewllem (vetsinou bejva na outputu defaultne accept).
    nejvic zajimavy na nagiosu mi prijdou event handlery. diky nim pak, pri trose peclivosti, nemusi cek sahnout na praci ;]
    KRISHNA
    KRISHNA --- ---
    My monitorujem hlavně to, jestli z encoderů jde stream, jestli databáze obsahujou všechny tabulky, který tam maj bejt, jestli jsou spuštěný servisy s názvem tim a tim, pak samozřejmě všechny normální servisy jako load, hdd space, memory, swap usage, uptime....

    Mam jeden testovací nagios na svym serveru, je tam asi 15 hostů, ti dam login jestli chceš a když slíbíš, že budeš hodnej, tak i root práva do administrace
    KRISHNA
    KRISHNA --- ---
    RAINBOF: A jaký služby na switches? Akorát veřejný? http, ftp, ssh nebo i další? Na routery, linux a workstations to je dělaný, tiskárny přes SNMP, nebo HP tiskárny přes nějakej ten JetDirect či jak se to jmenuje.. .)
    RAINBOF
    RAINBOF --- ---
    myslel jsem sluzby :) me by se hodilo monitorovat switche, routery, workstation s windows stanicema, tiskarny, linux servery...
    Kliknutím sem můžete změnit nastavení reklam