• úvod
  • témata
  • události
  • tržiště
  • diskuze
  • nástěnka
  • přihlásit
    registrace
    ztracené heslo?
    HALELUJANagios - dohledový systém počítačových sítí a jeho nadstavby (Centreon, Nagvis, Cacti,..)
    TLOUDEV
    TLOUDEV --- ---
    AQUARIUS: a propos: nejde to primo nejak v cacti, poskladat graf z nekolika datasources z vice hostu?
    TLOUDEV
    TLOUDEV --- ---
    AQUARIUS: no vidis.. ja vedel ze nekoho napadne jednodussi cesta.
    Ja tam samozrejme ty hodnoty mam. Akorat budu muset nasprtat rrd v perlu. A hlavne nekde definovat, kterych grafu se to tyka. Vlastne to ani nemusi byt integrovano v cacti, bude mi pak stacit viewgraph.cgi nebo jak se ten jejich blbinec jmenuje..
    AQUARIUS
    AQUARIUS --- ---
    TLOUDEV: neni jednodussi si napsat skript, kterej ty hodnoty vytahne z jednotlivejch rrd databazi a pak to akorat hodi do jednoho grafu? vyhoda je, ze to budes rovnou mit i s historii.
    TLOUDEV
    TLOUDEV --- ---
    Hi, jsem postaven pred nelehky ukol agregovat do cacti do jednoho grafu vstupy z vice stroju. Mam-li byt konkretni, jedna se o "secteni" vsech IO operaci vsech stroju, abych videl, zda nahrazeni storage jednotlivych stroju jednim centralnim ulozistem bude diskove operace stihat. Tedy v podstate "secteni" hodnot. V cacti jsou templates, jak znamo, delany pro jednotlive stroje. Tusite nekdo, jak si z takovou integraci poradit? Cely ukol je jednorazovy, tzn nemusi fubgovat univerzalne, genericky..
    Moje idea do zacatku je, napsat check script, ktery vezme nejaky seznam stroju a jejich SNMP parametry (diskIOread, diskIOwrite), secte, pokud je k dispozici soubor s predeslou hodnotou, pak ji odecte a do rrd zapise rozdil, pokud neni, vrati 0 a ulozi hodnotu nekam do souboru.
    Otazka do plena: neni nejaka jednodussi cesta ci jiz hotove reseni?
    HALELUJA
    HALELUJA --- ---
    KRISHNA: nj ale to ovlivní všechny :/

    AQUARIUS: odjel sem na dovču a vysral se na to, ale vypadá to, že to buď nejde a nebo jedině nějak v kombinaci s těmi eskalacemi

    KRISHNA: když to je taky globální pro celej template. já to potřebuju jen pro ten jeden kontakt.. možná, že natvrdlost se mě furt drží :D
    RUDOLF
    RUDOLF --- ---
    AQUARIUS: díky, jasně že jsem nerestartoval nrpe:-) už to běží, došlo mi to už včera asi hodinu poté..
    AQUARIUS
    AQUARIUS --- ---
    RUDOLF: restartoval jsi nrpe po uprave tech konfiguraku? Co vidis v tcpdumpu?
    RUDOLF
    RUDOLF --- ---
    ahoj, začínám s nagiosem

    .. změnila se teď IP adresa nagios serveru:

    intranet:/usr/lib/nagios/plugins # rcnagios status
    Checking for nagios : running
    Tj. nagios běží bez xinet.d


    intranet:/usr/lib/nagios/plugins # ./check_nrpe -H localhost
    Connection refused by host
    intranet:/usr/lib/nagios/plugins # ./check_nrpe -H public
    CHECK_NRPE: Error - Could not complete SSL handshake.

    na nagios serveru jsem změnil IP tady:
    intranet:/usr/lib/nagios/plugins # grep -r 10.3.0.28 /etc/
    /etc/hosts:10.3.0.28 intranet intranet
    /etc/nagios/objects/hosts.cfg: address 10.3.0.28

    na remote jsem zmenil:
    /etc/nagios/nrpe.cfg:allowed_hosts=***.***.***.***,10.3.0.28 //hvezdicky jsou public IP

    všechny stroje mi hlasí:
    CHECK_NRPE: Error - Could not complete SSL handshake.

    dokumentace nějak nepomohla.. možná něco s certifikáty, ale ty jsou přeci na domain name a né na IP..

    jakékoliv nápady ocením!
    KRISHNA
    KRISHNA --- ---
    A nebo "first notification delay" v define services

    Object Definitions
    http://nagios.sourceforge.net/docs/3_0/objectdefinitions.html#service
    AQUARIUS
    AQUARIUS --- ---
    KRISHNA: podle toho, co pise, bych spis predpokladal, ze hleda notification escalations.
    KRISHNA
    KRISHNA --- ---
    HALELUJA: Nuu, nastavíš si retry_interval na 1 a max_check_attempts na 10.. ?
    HALELUJA
    HALELUJA --- ---
    Já sem dneska nějak ultra natvrdlej.. můžete mě nakopnout jak udělat, aby u generic-hosta byl kromě ostatních notifikačních kontaktů ještě jeden, na kterej se ale bude notifikovat až po deseti minutách stavu down/up?
    HALELUJA
    HALELUJA --- ---
    ALLES32: mno nic moc jsem tam užitečného zatím nenašel :/
    nasazuju vždy a všude nagios. icinga se zdá, že by mohla být dobrá, ale momentálně nemám potřebu přecházet na něco jiného. to spíš z novejch věcí pokuju po Livestatusu - teď jsem ho zkušebně nasazoval kvůli jNagu a vypadá to pěkně a navíc nenáročně - jenže si to zas tak úplně nerozumí s Centreonem
    AQUARIUS
    AQUARIUS --- ---
    KRISHNA: Pokud je celej server dole (host down event), pak se na nefunkcni sluzby neupozornuje. Zavislostma dosahnes jinejch veci. Napriklad mam sluzbu NFS server na serveru A a sluzbu "NFS mounts" na serverech B-Z. Pokud nejede NFS server, tak nema smysl kontrolovat, ze maji klienti namountovano, takze udelam service dependency. Dale se, pokud pouzivas NRPE, velice hodi kontrolovat beh NRPE jako takovyho a na nej jako zavislosti navesit vsechny sluzby, ktery pres NRPE kontrolujes - v pripade problemu ti tech mailu prijde o dost min.
    Jinak ja mam zatim kompletni konfiguraci v textovejch souborech a diky duslednymu pouzivani sablon to nepovazuju za nejaky zasadni omezeni.
    ALLES32: Zatim Icingu jen tak otukavam a moje poznatky by se daly shrnout takto:
    1. Icinga ma o neco lip reseny webovy rozhrani (classic UI), daji se tam treba elegantne posilat hromadne prikazy (to je v nagiosu skutecne bolestiva zalezitost)
    2. Icinga web je hodne zajimavej projekt, nicmene jsem tam nenasel ekvivalent "unhandled services" z classic UI, sice tam jdou nastavovat custom filtry a hromada dalsich veci, ale dost casto ty vypisy jsou celkem neprehledny - ve chvili, kdy mi tisic sluzeb hlasi nejakej problem, potrebuju to i za cenu, ze to bude pomaly, videt na jedny strance a ne se tim proklikavat.
    3. Icinga umi IPv6, coz by vas mohlo nektere zajimat. Mne se to bohuzel nejspis jeste dost dlouho tykat nebude.

    Mimochodem, nedavno jsem videl prezentaci komercniho nagiosu (Nagios IX) a v zasade mi prislo, ze je nenabizi nic navic proti tomu, co zvladne Icinga s novym UI a par addonama (BPI, pnp4nagios).
    KRISHNA
    KRISHNA --- ---
    ...Aquarius:

    Jinak v konfigurácích jsem objevil (pro mě novej) definition a to define service/host dependency.. Ještě jsem o tom nic nezjišťoval, ale tušim, že by se přes to dalo nastavit, aby mě to neupozorňovalo na každou nefunkční službu na serveru, když je celej server down..? Jsem línej číst dokumentaci, když nejsem v práci :))

    Máme to hlavně dost rozlezlý, ty dependency jsou ve zvlášť konfiguráku než zbytek object definitions.. Stejně tak jako "host ext info", ty máme taky všechny ve zvlášť .cfg souborech.

    Nejspíš je to kvuli tý mysql databázi v který máme všechny konfigy
    ALLES32
    ALLES32 --- ---
    HALELUJA: na publib.boulder.ibm.com info neni?

    HALELUJA: a nasazujes nagios a nebo icingu?

    jesli nekdo na icingu presel, mohl by, prosim, do par bodu sepsat, v cem mu ulehcila praci?
    HALELUJA
    HALELUJA --- ---
    máte někdo zkušenosti s dohledem AIX 5.3 serverů? hlavně performance data.. na netu není skoro nic :/
    HALELUJA
    HALELUJA --- ---
    ALLES32: mno já právě teď upgraduju nagios i centreon všude u zakošů a zatím bez problému. navíc ten skok byl velkej a změny k lepšímu

    jinak centreon je podle mě super nadstavba, která hodně věcí ulehčuje a navíc přidává grafy, zmíněné acl atd
    ALLES32
    ALLES32 --- ---
    KRISHNA: von centreon neni zadnej dlouhletej hrac bych rekl. kdys jsem se snim seznamil poprve, tak nebyla prakticky zadna dokumentace, jenom nejaky wiki utrzky, ale pouze ve francouzstine(u me problem). no, mohl's vysolit zlatku za support. udelat chybu a neco rozbit slo lehce.
    nakonec se ale centreon ukazal docela blbuvzdornej s drobnostma, co potesej. pred nim jsem neco podobnyho nepouzival a konfiguraci jsem mel napsanou v textaku, ale prisel mi job udelat monitoring vetsiho kusu site, s pozadavkem nejakyho prehlednyho a centralizovanyho pristupu a na nic jinaciho jsem tehdy nenarazil. zakaznik si to pak naplnil datama sam, bez nejakejch zbytecnejch dotazu. testoval jsem to nejdrive na svem nagiosu a v ty dobe jsem uz vedel, ze tydlety vychytavkovaci udelatka si vsechno prekonfaj posvem, v tomdle me neprekvapil. naopak jsem ocenil, ze v tom mojim chlivu udelal poradek. jako bonus jsem na nem ocenil system acl, tzn. helpdesk vidi co potrebuje, technik vidi co potrebuje a vedeni vidi ty pekny grafiky, ktery vlastne vubec nepotrebuje ;]. ndoutils jsou uzitecny, diky tomu se daj naladovat data do databaze a lip se pak s tim pracuje - skriptuje. pravda, musis privohnout but tvoje skripty, a nebo centreon. jinak pokdu neco prepises v konfigu generovanym centreonem tak, aby tomu rozumel, se gui prizpusobi. vnimam ho jen jako takovej prijemnej vstup a prehlednej vystup.
    monitoring postavenej na nagiosu muze bejt poskladanej s hafo drobnosti. i proto jsem to vsechno oddelil ( ale ne do /opt, jaxem psal, ale do /usr/local/nagios, to je default nedistribucniho nagiosu a vetsiny komponent). staci pak smazat jeden adresar. a protoze to obsahovalo uz prezpriliz komponent, ktery jednak v debianu nebyly nejaktualnejsi a druhak ty satelity muzou bejt nekde, kde bezi nedebian, tak jsem se rozhodnul pro virtual a kompilaci. celej sys je ze stejnejma verzema. dneska uz jsou zase ty verze postarsi, kdo by se ale sral s aktualizacema. kdys to funguje, tak na to nesahat ;]
    k zabezpeceni je hafo dalsich moznosti a ten, kdo tvrdi, ze webgui neni bezpecny, tak pravdepodobne zadny moznosti zabezpeceni nezna.
    Kliknutím sem můžete změnit nastavení reklam