Jump to content

freebsd 10.1 - виснет намертво


Recommended Posts

Как тут правильно советуют - отключить все тюнинги. Либо подробно изучать как со времени 7.2 менялся каждый из параметров. Вслепую вставлять туда все собраное на всевозможных помойках стремно. Они ведь не константы, зависят много от чего в _конкретной_ системе. Проверить память мемтестом дело плевое, но времени немножко занимает.

ок, спс.

начну с памяти,

отключу тюнинг,

отпишусь.

Link to post
Share on other sites
  • Replies 222
  • Created
  • Last Reply

Top Posters In This Topic

Top Posters In This Topic

Popular Posts

Очень сильно утрировав напишу: "сайт билинга" работал на машине с 8Гб памяти и в соотв. переменных выделял 4Гб какому-то процессу. Вы бездумно скопировали это на машину с 1Гб памяти. Так понятней? Вот

linux . от добра добра не ищут ))))  Ставим старый добрый линух.

Боже.. Поставь уже линукс и живи спокойно.

Posted Images

Может в железе проблема?

 

П.С.

 

У меня работает

 uname -rsm
FreeBSD 10.1-BETA3 amd64
 

 Pf nat 

 

 pfctl -si
No ALTQ support in kernel
ALTQ related functions disabled
Status: Enabled for 0 days 04:38:22           Debug: Urgent
 
State Table                          Total             Rate
  current entries                   146879
  searches                      3703725204       221753.4/s
  inserts                         44169564         2644.6/s
  removals                        44022472         2635.8/s
Counters
  match                         2482144208       148613.6/s
  bad-offset                             0            0.0/s
  fragment                              29            0.0/s
  short                                882            0.1/s
  normalize                              0            0.0/s
  memory                                 0            0.0/s
  bad-timestamp                          0            0.0/s
  congestion                             0            0.0/s
  ip-option                          18601            1.1/s
  proto-cksum                            0            0.0/s
  state-mismatch                     22236            1.3/s
  state-insert                          29            0.0/s
  state-limit                            0            0.0/s
  src-limit                              0            0.0/s
  synproxy                               0            0.0/s
 
 grep -i cpu /var/run/dmesg.boot
CPU: Intel® Xeon® CPU E3-1220 V2 @ 3.10GHz (3093.04-MHz K8-class CPU)
FreeBSD/SMP: Multiprocessor System Detected: 4 CPUs
 
 

post-6450-0-63717400-1419444157_thumb.png

post-6450-0-58026600-1419444525_thumb.png

Edited by wifi_master
Link to post
Share on other sites

Может в железе проблема?

может,

буду пробовать менять ОЗУ,

но 7.2 пашет, 9.2 виснет.

 

Повторюсь: на тестовой машине (без нагрузки) пашет, в продакш - висяк.

Edited by kvirtu
Link to post
Share on other sites

 

 

буду пробовать менять ОЗУ,

 

Смысл вслепую менять если можно проверить? Возьми инстал исошку с той-же убунтой, залей на флешку и загрузи - в стартовом меню есть тест диска и памяти. 

Link to post
Share on other sites

 

буду пробовать менять ОЗУ,

 

Смысл вслепую менять если можно проверить? Возьми инстал исошку с той-же убунтой, залей на флешку и загрузи - в стартовом меню есть тест диска и памяти.

 

абоны сожрут
Link to post
Share on other sites

 

 

буду пробовать менять ОЗУ,

 

Смысл вслепую менять если можно проверить? Возьми инстал исошку с той-же убунтой, залей на флешку и загрузи - в стартовом меню есть тест диска и памяти.

 

абоны сожрут

 

У вас 1 акцес сервер ? У вас акесник и биллинг на 1 машине? Никакого резервирования? Вы ставите карент на живую сеть ? Монсер вы явно занимаетесь не тем бизнесом.

PS по теме. 10ка жует 300 мб траффика проц i3, и не жужжит ааааще. 

 

last pid:  8172;  load averages:  0.47,  0.50,  0.55                                    up 54+12:43:55  00:01:33
142 processes: 5 running, 100 sleeping, 9 zombie, 28 waiting
CPU 0:  0.4% user,  0.0% nice,  5.9% system, 17.3% interrupt, 76.5% idle
CPU 1:  0.0% user,  0.0% nice,  0.4% system, 11.4% interrupt, 88.2% idle
CPU 2:  0.4% user,  0.0% nice,  1.2% system,  3.5% interrupt, 94.9% idle
CPU 3:  0.4% user,  0.0% nice,  1.2% system,  4.7% interrupt, 93.7% idle
Mem: 35M Active, 1144M Inact, 408M Wired, 406M Buf, 2252M Free
Swap: 4096M Total, 4096M Free

ребутал при пересборке ядра. С вашими нагрузками, тюнить ненадо ничего в принципе. Вобще. Должно работать из коробки. Трабла 99% в железе. Правила фаервола тоже тут непричем.

вобще, вы свой сисцтл выложили. Сколько там строк написанно осознанно с пониманием того что они значат? Или это просто копипаста? Прелесть фрихи в том, что она работает ровно до тех пор, пока в нее не начинают лезть.

 

Edited by maxx
Link to post
Share on other sites

To maxx :

Да,  у меня все на одной машине: сервер доступа, биллинг - все работает нормально. Резервирование есть: лежит дома точно такой-же винт с настроенной фрей 7.2.,

ежедневный бекап базы данных. Рейду не доверяю - был случай когда в рейде ( зеркало ) начался сыпаться первый, данные записывались  (копировались) не правильно. В итоге имел полностью нерабочую систему.

Новую систему пробую ставить на живую сеть (я как по другому ?) , в холостую (правда на другой машине (послабее) )  - пашет нормально.

 

По тюнингу ( кроме DDOS ) , брал данные с сайта биллинга:

вот копипастю с сайта:

Оптимизация системы (для ng_car)

/etc/sysctl.conf

kern.ipc.maxsockbuf=8388608
net.graph.recvspace=256000
# TCP bufer size
net.inet.tcp.recvspace=65535

# incoming TCP queue size
kern.ipc.somaxconn=1024
# incoming packets queue size
net.inet.ip.intr_queue_maxlen=2000

 

Для MPD:

в /etc/sysctl.conf:

net.graph.maxdgram=128000
net.graph.recvspace=128000

 

 

Поменяю память, поубиваю ВЕСЬ тюнинг - буду пробовать.

Edited by kvirtu
Link to post
Share on other sites
По тюнингу ( кроме DDOS ) , брал данные с сайта биллинга:

 

Очень сильно утрировав напишу: "сайт билинга" работал на машине с 8Гб памяти и в соотв. переменных выделял 4Гб какому-то процессу. Вы бездумно скопировали это на машину с 1Гб памяти. Так понятней? Вот тот же Ваш  kern.ipc.maxsockbuf=8388608

Вы осознаете почему там именно 8388608 и не 8388607?

Edited by kha0s
Link to post
Share on other sites

 

отключите все тюнинги в loader & sysctl

и на картах сетевых tso lro и тд и попробуйте

кстати сколько трафа идет через него ?

Из тюнинга только: (на 7.2 все пашет)

sysctl.conf

 

 

# Uncomment this to prevent users from seeing information about processes that

# are being run under another UID.

#security.bsd.see_other_uids=0

kern.ipc.maxsockbuf=8388608

net.graph.recvspace=256000

net.graph.maxdgram=128000

 

# TCP bufer size

kern.ipc.maxsockbuf=8388608

net.inet.tcp.recvspace=65535

 

# incoming TCP queue size

#kern.ipc.somaxconn=1024

# incoming packets queue size

net.inet.ip.intr_queue_maxlen=2000

#

net.inet.ip.fastforwarding=1

net.inet.ip.portrange.randomized=0

net.inet.tcp.nolocaltimewait=1

kern.ipc.nmbclusters=65536

kern.ipc.maxsockets=204800

net.inet.ip.dummynet.hash_size=512

kern.ipc.somaxconn=1024

net.inet.tcp.maxtcptw=40960

#DDOS

net.inet.tcp.msl=7500

net.inet.tcp.blackhole=2

net.inet.udp.blackhole=1

net.inet.icmp.icmplim=500

kern.ipc.somaxconn=32768

net.inet.icmp.bmcastecho=0

net.inet.icmp.maskrepl=0

net.inet.icmp.drop_redirect=1

net.inet.tcp.sack.enable=0

net.link.ether.inet.max_age=1200

#Bufer size

net.inet.tcp.sendspace=32768

net.inet.tcp.recvspace=32768

 

 

 

tso lro - нет

 

траффика понты - 50-60 Мбит

 

Поставьте какойнидь дебиан, на таком трафике и тюнить то ничего не нужно будет...

Link to post
Share on other sites

 

По тюнингу ( кроме DDOS ) , брал данные с сайта биллинга:

 

Очень сильно утрировав напишу: "сайт билинга" работал на машине с 8Гб памяти и в соотв. переменных выделял 4Гб какому-то процессу. Вы бездумно скопировали это на машину с 1Гб памяти. Так понятней? Вот тот же Ваш  kern.ipc.maxsockbuf=8388608

Вы осознаете почему там именно 8388608 и не 8388607?

 

сижу, читаю, описание всех переменных для фри 9.2

памяти у меня 2 гига, загрузка до 1,2 (это 1 гиг на тестовой).

Спецом на тестовой поставил планку 512Мб - конечно, своп-раздел, использовался на всю,  Но фря работала, не падала

Link to post
Share on other sites

To maxx :

Да,  у меня все на одной машине: сервер доступа, биллинг - все работает нормально. Резервирование есть: лежит дома точно такой-же винт с настроенной фрей 7.2.,

ежедневный бекап базы данных. Рейду не доверяю - был случай когда в рейде ( зеркало ) начался сыпаться первый, данные записывались  (копировались) не правильно. В итоге имел полностью нерабочую систему.

Новую систему пробую ставить на живую сеть (я как по другому ?) , в холостую (правда на другой машине (послабее) )  - пашет нормально.

 

По тюнингу ( кроме DDOS ) , брал данные с сайта биллинга:

вот копипастю с сайта:

Оптимизация системы (для ng_car)

/etc/sysctl.conf

kern.ipc.maxsockbuf=8388608

net.graph.recvspace=256000

# TCP bufer size

net.inet.tcp.recvspace=65535

 

# incoming TCP queue size

kern.ipc.somaxconn=1024

# incoming packets queue size

net.inet.ip.intr_queue_maxlen=2000

 

Для MPD:

в /etc/sysctl.conf:

net.graph.maxdgram=128000

net.graph.recvspace=128000

 

 

Поменяю память, поубиваю ВЕСЬ тюнинг - буду пробовать.

резервирование в моем понимании это наличие 2 и более акцес серверов которые дублируют друг друга. Что позволит в любое время вам, потушить 1 из них, и работать по человечески а не в 3 ночи в холодном поту (я для експеримента поставил 3 идентичных железки, на 7.2, 9.2 и 10.0, самой производительной пока себя показывает 9 я). Биллинг на 1 машине с акцесниками держать, тоже идея оооооооочень поганая. Как вариант для вас, с малыми обьемами 1 физическая машина и на ней 3 виртуалки. 1 под биллинг и 2 акцесника с разными версиями ОС. Но это уже грабли от бедности. Тем более что в абилсе очень толково реализованная нарезка скоростей нжикаром. За одно это я люблю этот биллинг.

пс по поводу рейда, вы видимо просто не умеете его готовить. Спросите не стесняйтесь.

Edited by maxx
Link to post
Share on other sites

 

To maxx :

Да,  у меня все на одной машине: сервер доступа, биллинг - все работает нормально. Резервирование есть: лежит дома точно такой-же винт с настроенной фрей 7.2.,

ежедневный бекап базы данных. Рейду не доверяю - был случай когда в рейде ( зеркало ) начался сыпаться первый, данные записывались  (копировались) не правильно. В итоге имел полностью нерабочую систему.

Новую систему пробую ставить на живую сеть (я как по другому ?) , в холостую (правда на другой машине (послабее) )  - пашет нормально.

 

По тюнингу ( кроме DDOS ) , брал данные с сайта биллинга:

вот копипастю с сайта:

Оптимизация системы (для ng_car)

/etc/sysctl.conf

kern.ipc.maxsockbuf=8388608

net.graph.recvspace=256000

# TCP bufer size

net.inet.tcp.recvspace=65535

 

# incoming TCP queue size

kern.ipc.somaxconn=1024

# incoming packets queue size

net.inet.ip.intr_queue_maxlen=2000

 

Для MPD:

в /etc/sysctl.conf:

net.graph.maxdgram=128000

net.graph.recvspace=128000

 

 

Поменяю память, поубиваю ВЕСЬ тюнинг - буду пробовать.

резервирование в моем понимании это наличие 2 и более акцес серверов которые дублируют друг друга. Что позволит в любое время вам, потушить 1 из них, и работать по человечески а не в 3 ночи в холодном поту (я для експеримента поставил 3 идентичных железки, на 7.2, 9.2 и 10.0, самой производительной пока себя показывает 9 я). Биллинг на 1 машине с акцесниками держать, тоже идея оооооооочень поганая. Как вариант для вас, с малыми обьемами 1 физическая машина и на ней 3 виртуалки. 1 под биллинг и 2 акцесника с разными версиями ОС. Но это уже грабли от бедности. Тем более что в абилсе очень толково реализованная нарезка скоростей нжикаром. За одно это я люблю этот биллинг.

пс по поводу рейда, вы видимо просто не умеете его готовить. Спросите не стесняйтесь.

 

сетка небольшая, много серверов - пока роскошь.

Абилс - работает, тюнинг как-раз под него и ng_car и прописывался в sysctl

Link to post
Share on other sites

итак,

1. переменные, необходимы для нормальной работы net_graph.

Со значениями по умолчанию, шейпер скорость не резал#For mpd5net.graph.maxdgram=128000net.graph.recvspace=128000

2. Защита от сканирования:

#Anti-DDOSnet.inet.tcp.blackhole=2net.inet.udp.blackhole=1net.inet.icmp.drop_redirect=1

Без низ в логи стали сыпаться сообщения о сканировании портов

 

3. Polling - на сколько он нужен ли не нужен ?

   как бы уменьшается нагрузка на процессор, но может увеличиться латентность

   сетевые fxp - поллинг поддерживают

Link to post
Share on other sites

To maxx :

Да,  у меня все на одной машине: сервер доступа, биллинг - все работает нормально. Резервирование есть: лежит дома точно такой-же винт с настроенной фрей 7.2.,

ежедневный бекап базы данных. Рейду не доверяю - был случай когда в рейде ( зеркало ) начался сыпаться первый, данные записывались  (копировались) не правильно. В итоге имел полностью нерабочую систему.

Новую систему пробую ставить на живую сеть (я как по другому ?) , в холостую (правда на другой машине (послабее) )  - пашет нормально.

 

По тюнингу ( кроме DDOS ) , брал данные с сайта биллинга:

вот копипастю с сайта:

Оптимизация системы (для ng_car)

/etc/sysctl.conf

kern.ipc.maxsockbuf=8388608

net.graph.recvspace=256000

# TCP bufer size

net.inet.tcp.recvspace=65535

 

# incoming TCP queue size

kern.ipc.somaxconn=1024

# incoming packets queue size

net.inet.ip.intr_queue_maxlen=2000

 

Для MPD:

в /etc/sysctl.conf:

net.graph.maxdgram=128000

net.graph.recvspace=128000

 

 

Поменяю память, поубиваю ВЕСЬ тюнинг - буду пробовать.

 

у меня на серваках стоит 11каррент- полет нормальный

 

а ты просто поймал софтовое "горлышко"

 

а то было, что 8 ядерный булыжник ( без гипертридига ) работал хуже одноядерной ))))

 

1) тюнинг отключи полностью и посмотри, что установлено в дефолтных настройках - то, что было в 9-ке в 10 и выше уже не актуально

2) гипертридинг нах!

3) на каких сетевых картах работаешь?

4) сколько сессий на тазике?

 

5) увеличь буфера для натирования pf

 

/boot/loader.conf

#man 4 pf

 

net.pf.states_hashsize="524288"

net.pf.source_nodes_hashsize="131072"

 

пиши...

 

Edited by pashaumka
Link to post
Share on other sites
  • 3 weeks later...

вчера опять пробовал: поменял память, sysctl.conf & loader.conf - полностью чистые.

проработав минут 90 - опять завис.

В логах удалось поймать:

named[1406]: *** POKED TIMER ***

как я понял - это что-то связанное с CPU и таймером ?

Link to post
Share on other sites

Вот вывод :sysctl kern.timecounter

kern.timecounter.fast_gettime: 1
kern.timecounter.tick: 1
kern.timecounter.choice: TSC-low(1000) ACPI-fast(900) HPET(950) i8254(0) dummy(-1000000)
kern.timecounter.hardware: TSC-low
kern.timecounter.stepwarnings: 0
kern.timecounter.tc.i8254.mask: 65535
kern.timecounter.tc.i8254.counter: 2166
kern.timecounter.tc.i8254.frequency: 1193182
kern.timecounter.tc.i8254.quality: 0
kern.timecounter.tc.HPET.mask: 4294967295
kern.timecounter.tc.HPET.counter: 2118224384
kern.timecounter.tc.HPET.frequency: 14318180
kern.timecounter.tc.HPET.quality: 950
kern.timecounter.tc.ACPI-fast.mask: 16777215
kern.timecounter.tc.ACPI-fast.counter: 2979399
kern.timecounter.tc.ACPI-fast.frequency: 3579545
kern.timecounter.tc.ACPI-fast.quality: 900
kern.timecounter.tc.TSC-low.mask: 4294967295
kern.timecounter.tc.TSC-low.counter: 303884981
kern.timecounter.tc.TSC-low.frequency: 1249994343
kern.timecounter.tc.TSC-low.quality: 1000
kern.timecounter.tsc_shift: 1
kern.timecounter.smp_tsc_adjust: 0
kern.timecounter.smp_tsc: 1
kern.timecounter.invariant_tsc: 1

 

vmstat -i | grep cpu - ничего не выдает

Link to post
Share on other sites

 

named[1406]: *** POKED TIMER ***
как я понял - это что-то связанное с CPU и таймером ?
Нет. Это специфично днс серверу и кривоватой работе таймаутов, у меня тут как раз его исходники под рукой, вот там комментарий:

 

"Sometimes, pthread_cond_timedwait() doesn't actually return when the time expires, so here, we check to see if we're 15 seconds or more behind, and if we are, we signal the dispatcher. "

Link to post
Share on other sites

 

named[1406]: *** POKED TIMER ***
как я понял - это что-то связанное с CPU и таймером ?
Нет. Это специфично днс серверу и кривоватой работе таймаутов, у меня тут как раз его исходники под рукой, вот там комментарий:

 

"Sometimes, pthread_cond_timedwait() doesn't actually return when the time expires, so here, we check to see if we're 15 seconds or more behind, and if we are, we signal the dispatcher. "

 

блин, ну х.з., сколь уже гуглю у многих схожая трабля, вот к примеру:

Hi,

I have this problem.

 

Random my server crashes 2 times per day in /var/log/messages i get

 

named - ** POKED TIMER **

 

может это bind ложит сервак ?

Link to post
Share on other sites

 

 

named[1406]: *** POKED TIMER ***
как я понял - это что-то связанное с CPU и таймером ?
Нет. Это специфично днс серверу и кривоватой работе таймаутов, у меня тут как раз его исходники под рукой, вот там комментарий:

 

"Sometimes, pthread_cond_timedwait() doesn't actually return when the time expires, so here, we check to see if we're 15 seconds or more behind, and if we are, we signal the dispatcher. "

 

блин, ну х.з., сколь уже гуглю у многих схожая трабля, вот к примеру:

Hi,

I have this problem.

 

Random my server crashes 2 times per day in /var/log/messages i get

 

named - ** POKED TIMER **

 

может это bind ложит сервак ?

 

Спробуйте unbound та переконайтесь :)

Link to post
Share on other sites

может это bind ложит сервак ?

Да нет, это просто механизм в бинде, чтобы убедиться, что таймаут сработает и подтолкнуть, если не сработал (потому и слово pok используют в логе), т.е. это именно следствие подвисания, а не причина. Причина где-то в ядре, как по мне где-нибудь в параллельном коде, может в нетграфе, может в пф.
Link to post
Share on other sites

 

 

 

named[1406]: *** POKED TIMER ***
как я понял - это что-то связанное с CPU и таймером ?
Нет. Это специфично днс серверу и кривоватой работе таймаутов, у меня тут как раз его исходники под рукой, вот там комментарий:

 

"Sometimes, pthread_cond_timedwait() doesn't actually return when the time expires, so here, we check to see if we're 15 seconds or more behind, and if we are, we signal the dispatcher. "

 

блин, ну х.з., сколь уже гуглю у многих схожая трабля, вот к примеру:

Hi,

I have this problem.

 

Random my server crashes 2 times per day in /var/log/messages i get

 

named - ** POKED TIMER **

 

может это bind ложит сервак ?

 

Спробуйте unbound та переконайтесь :)

 

уже над этим задумался,

а у Вас было похожее ???

Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
  • Recently Browsing   0 members

    No registered users viewing this page.


×
×
  • Create New...