Zabbix, nagios a další monitorovací nástroje

RUDOLF --- --- 17:05:58 7.12.2020

TOTAL: moje zkušenost, že za vše můžou špatně koncipovaný Query;-)

osobně se na postgres dívám, jen skrz nějakou appku, co z toho vytahá zajímavý věci.. přes psql-fu jsem se málokdy k něčemu kloudnýmu dostal..

QUIP --- --- 17:03:22 7.12.2020

1 odpověď

TOTAL: "Vytizeni masiny neni nijak strasne" to znamean co? Ze mas malo zatizeny CPU, nebo malo zatizeny disky, nebo malo vyuzivanou RAM?
Jakmile zacnou trvat dlouho transakce, tak to je patrne problem se zapisama na disk. Muze to byt tim, ze disk vytezuje i neco jineho, muze to byt tim, ze disk se postupne zaplnuje a soubory na filesystemu jsou hodne fragmentovane (pokud to neni SSD ale HDD, tak je fragmentace znacne zpomalujici faktor). Muze to byt tim, ze se v tabulce vyskytuje stale vetsi pocet zaznamu a jestli se nad nima dela i nejaky update, ktery musi upravovat i index, zase to bude s casem porad pomalejsi a pomalejsi.

Mas vsechna data v jedne tabulce, nebo pouzivas partitions pro rozdelovani tabulek treba po mesici, aby ti prave nedochazelo k tomu, ze se porad zvetsuje objem aktivnich dat? Jak velka ta databaze je / kolik tam mas zaznamu?
Ale asi by bylo lepsi to resit v auditku o tuningu PostgreSQL

RUDOLF --- --- 17:03:09 7.12.2020

TBC: hele, tak v současným farmaceutickým korporátu, dostaneme přístupy do datadog a od ledna povinný agenty na všech strojích, tak dám nějakou svoji zkušenost za pár měsíců..

co se týče networkingu, tak je to u nás hell.. náš korporátní networking je do AWS zadrátovaný, zatím jsem neviděl žádný popis toho řešení, ale slyšel jsem nějaké divočiny, jak data v rámci regionu lítají občas přes oceán;-) Tak uvidím co se dozvím časem.

tady freeminar na datadog serverless, co nám teď dorazil..

Bits of Serverless | Datadog
https://www.datadoghq.com/...tm_medium=VirtualEvent&utm_campaign=VirtualEvent-202012ServerlessWeekES

TOTAL --- --- 16:40:14 7.12.2020

2 odpovědi

Opet zdravim vespolek ! Resim ted problemy s vykonem POSTGRESQL ... v logu se pravidelne objevuje .. Zabbix server se viditelne zpomalil.

4945:20201129:224118.925 slow query: 5.121216 sec, "commit;"
4928:20201129:224118.934 slow query: 3.123032 sec, "commit;"
5002:20201129:224119.442 slow query: 16.384187 sec, "update hosts set lastaccess=1606686063 where hostid=10270;

To je znamka toho, ze DB ma docela problemy. Vytizeni masiny neni nijak strasne. Snazil jsem se zvetsovat cache (jak v ZABBIXU, tak i v POSTGRESQL) a ladit, ale pomohlo na par dni. Nejake tipy a triky ? Diky moc za pripadne reakce.

RUDOLF --- --- 10:29:24 14.11.2020

TBC: já jsem onpremise nepotřeboval.. provozní zkušenost nemám, jel jsem několik produktů v trial.. tehdy jsem koukal, jak to vidí do kontejnerů.. ale máme zaplacený new relic, ten je taky drahej ale ten app monitoring s info o DB používáme na debugging úspěšně.

TBC --- --- 13:23:58 13.11.2020

2 odpovědi

RUDOLF: mas s tim nejakou provozni zkusenost? jinak mi prijde ze to nenabizi onpremise reseni v rozashle velke interni siti nebo ano?

RUDOLF --- --- 11:35:04 13.11.2020

1 odpověď

mít peníze tak data dog..

CHOROBA --- --- 17:16:03 3.11.2020

je to uz olddkool ;) v kazdy lokaci mame collector, co sbira metriku, threshholds, logy, authlogy....., atd, prezvejka a vysledek vybleje kazdou minutu do centralniho node, ten neni na nicem postaveny, normalne php/mysql. ELK tu mame jen na delani veselych grafu pro vedeni a navstevy

TBC --- --- 16:19:58 3.11.2020

CHOROBA: vlastni system, ze ho mate napsany, na jake technologii? tech stack jak pise
SAMGARR: bych bral prave neco jako jako vlasnti reseni, par virtualu na elk uz se na to najde. no hotovy reseni jsou molochy typu IBM Netcool apod.

CHOROBA --- --- 14:12:56 3.11.2020

1 odpověď

otazka pak, esli nejni levnejsi hotovy reseni, nez HW pro ELK stack, co bude sbirat par desitek tisic metrik a logu.

SAMGARR --- --- 13:45:38 3.11.2020

1 odpověď

TBC: Nevim jestli existuje nejaky hotovy reseni, ale kombinace ELK stack, Elastalert, Grafana a Alerta toho resi docela dost.

CHOROBA --- --- 12:22:17 3.11.2020

na todle mame holt vlastni system (radius logy, syslocy, metriky, monitoring z Cacti..)

TBC --- --- 11:12:03 3.11.2020

AQUARIUS: elastic bych bral spis jako jednu z komponent na log analyze atd, zastrenej pod tu umberellu ... melo by to mit nejakou consolu pro event handling, prihlasovani uzivatelu, acknoweledgovani, enrichment, predavani atd.. rekneme neco s cim bude pracovat treba 10 operatoru.. rekneme ze tam budou dene 10-100tisic eventu, pochopitelne cast zpracovana automaticky atd.

AQUARIUS --- --- 10:44:45 3.11.2020

1 odpověď

TBC: Co to vsechno agregovat v Elastic stacku? Jednu dobu jsem si hral s agregaci Icingabeats a syslogu, nicmene zatim provozuju ELK pouze jako proof of concept, takze jsem vzhledem k hw omezenim musel nakonec Icingu odstrihnout, tech dat bylo nasobne vic, nez ze syslogu.

TBC --- --- 10:27:12 3.11.2020

2 odpovědi

dotaz, nevim jest/li to nepresahuje scope diskuse, ale pouzivate nejakej umberella fault management, pod kterym mate treba prave nagios, zabix, pak treba tam posilate smnp trapy, eventy ze syslogu, nebo jine protokoly pro nejake vetsi reseni? v radek stovek a tisicu hostů atd?

a pokud ano jake? muze byt i nemusi byt opensource

MLEKAR_STEIN --- --- 16:05:54 8.9.2020

ahoj,
mam trabl s grafana api.
potrebuju udelat snapshot jednoho konkretniho dashboardu,
umim pres api ziskat jeho vlastnosti atd.
akorat jsem v dokumentaci nenasel, jak vubec udelat smysluplny snapshot, kde nastavim treba konkretni casy, od kdy do kdy se ten snapshot ma udelat, jak nastavim jmeno dashboardu, ze ktereho to chci delat atd.
a kdyby nekdo nahodou mel odkaz na nejakou stranku, ktera bude obsahlejsi, nez je dokumentace ke grafane, tak bych byl asi stastnejsi.
diky moc.

DRON --- --- 11:42:31 27.7.2020

TOTAL: super, zrovna sem to rozepisoval :-) pouzivam "Template OS Linux" a disky jsou tam pekne detekovany pomoci autodiscovery pravidel, ktere vytvori prislusne itemy a triggery. Verim, ze to je tento template ;-) https://share.zabbix.com/official-templates/operating-systems/official-os-linux-template

TOTAL --- --- 11:37:03 27.7.2020

1 odpověď

DRON: Uz jsem to rozchodil, diky ;)

vfs.fs.size[/home,pused].last()}>85

DRON --- --- 21:43:47 24.7.2020

1 odpověď

TOTAL: jen vystrel od boku, nejsem komplu. Tohle pouzivam a funguje mi to i po migraci 4.x -> 5.0. U zabbixu je problem, ze pri update se neaktualizuji defaultne dodavane templates, takze moje domnenka je, ze si mozna tahnes nejaky takovy template z nejake hodne stare verze a pouziva neco, co uz v 5tce nefunguje. Zkusil bych updatnout ten template. Pripadne ti v tydnu mrknu jak to mam ja.

TOTAL --- --- 21:06:28 24.7.2020

1 odpověď

Takze check pro proxy data mi uz funguje (bohuzel jsem neprisel na zpusob, jak ho pridat do template ZABBIX PROXY APP, tak, aby byl pouzitelny vsude, kde je treba) Tak je na kazdem stroji zvlast. Promenna pro nazev proxy .. Netusim, jak to resit. Funguje to, ale kdyby nekdo vedel, jak toho docilit lip ;)

Ted resim stale trigger pro upozorneni (80%) misto na disku. Ve verzi 4 bez problemu, verze 5 zatim neuspech ;/ Pouziva te to nekdo ? Diky za nakopnuti.

Kliknutím sem můžete změnit nastavení reklam

přezdívka
heslo


pamatuj si mě
registrace
ztracené heslo?