Перейти до

freebsd 10.1 - виснет намертво


Рекомендованные сообщения

Как тут правильно советуют - отключить все тюнинги. Либо подробно изучать как со времени 7.2 менялся каждый из параметров. Вслепую вставлять туда все собраное на всевозможных помойках стремно. Они ведь не константы, зависят много от чего в _конкретной_ системе. Проверить память мемтестом дело плевое, но времени немножко занимает.

ок, спс.

начну с памяти,

отключу тюнинг,

отпишусь.

Ссылка на сообщение
Поделиться на других сайтах
  • Відповіді 222
  • Створено
  • Остання відповідь

Top Posters In This Topic

Top Posters In This Topic

Popular Posts

Очень сильно утрировав напишу: "сайт билинга" работал на машине с 8Гб памяти и в соотв. переменных выделял 4Гб какому-то процессу. Вы бездумно скопировали это на машину с 1Гб памяти. Так понятней? Вот

linux . от добра добра не ищут ))))  Ставим старый добрый линух.

Боже.. Поставь уже линукс и живи спокойно.

Posted Images

Может в железе проблема?

 

П.С.

 

У меня работает

 uname -rsm
FreeBSD 10.1-BETA3 amd64
 

 Pf nat 

 

 pfctl -si
No ALTQ support in kernel
ALTQ related functions disabled
Status: Enabled for 0 days 04:38:22           Debug: Urgent
 
State Table                          Total             Rate
  current entries                   146879
  searches                      3703725204       221753.4/s
  inserts                         44169564         2644.6/s
  removals                        44022472         2635.8/s
Counters
  match                         2482144208       148613.6/s
  bad-offset                             0            0.0/s
  fragment                              29            0.0/s
  short                                882            0.1/s
  normalize                              0            0.0/s
  memory                                 0            0.0/s
  bad-timestamp                          0            0.0/s
  congestion                             0            0.0/s
  ip-option                          18601            1.1/s
  proto-cksum                            0            0.0/s
  state-mismatch                     22236            1.3/s
  state-insert                          29            0.0/s
  state-limit                            0            0.0/s
  src-limit                              0            0.0/s
  synproxy                               0            0.0/s
 
 grep -i cpu /var/run/dmesg.boot
CPU: Intel® Xeon® CPU E3-1220 V2 @ 3.10GHz (3093.04-MHz K8-class CPU)
FreeBSD/SMP: Multiprocessor System Detected: 4 CPUs
 
 

post-6450-0-63717400-1419444157_thumb.png

post-6450-0-58026600-1419444525_thumb.png

Відредаговано wifi_master
Ссылка на сообщение
Поделиться на других сайтах
Опубліковано: (відредаговано)

Может в железе проблема?

может,

буду пробовать менять ОЗУ,

но 7.2 пашет, 9.2 виснет.

 

Повторюсь: на тестовой машине (без нагрузки) пашет, в продакш - висяк.

Відредаговано kvirtu
Ссылка на сообщение
Поделиться на других сайтах

 

 

буду пробовать менять ОЗУ,

 

Смысл вслепую менять если можно проверить? Возьми инстал исошку с той-же убунтой, залей на флешку и загрузи - в стартовом меню есть тест диска и памяти. 

Ссылка на сообщение
Поделиться на других сайтах

 

буду пробовать менять ОЗУ,

 

Смысл вслепую менять если можно проверить? Возьми инстал исошку с той-же убунтой, залей на флешку и загрузи - в стартовом меню есть тест диска и памяти.

 

абоны сожрут
Ссылка на сообщение
Поделиться на других сайтах

 

 

буду пробовать менять ОЗУ,

 

Смысл вслепую менять если можно проверить? Возьми инстал исошку с той-же убунтой, залей на флешку и загрузи - в стартовом меню есть тест диска и памяти.

 

абоны сожрут

 

У вас 1 акцес сервер ? У вас акесник и биллинг на 1 машине? Никакого резервирования? Вы ставите карент на живую сеть ? Монсер вы явно занимаетесь не тем бизнесом.

PS по теме. 10ка жует 300 мб траффика проц i3, и не жужжит ааааще. 

 

last pid:  8172;  load averages:  0.47,  0.50,  0.55                                    up 54+12:43:55  00:01:33
142 processes: 5 running, 100 sleeping, 9 zombie, 28 waiting
CPU 0:  0.4% user,  0.0% nice,  5.9% system, 17.3% interrupt, 76.5% idle
CPU 1:  0.0% user,  0.0% nice,  0.4% system, 11.4% interrupt, 88.2% idle
CPU 2:  0.4% user,  0.0% nice,  1.2% system,  3.5% interrupt, 94.9% idle
CPU 3:  0.4% user,  0.0% nice,  1.2% system,  4.7% interrupt, 93.7% idle
Mem: 35M Active, 1144M Inact, 408M Wired, 406M Buf, 2252M Free
Swap: 4096M Total, 4096M Free

ребутал при пересборке ядра. С вашими нагрузками, тюнить ненадо ничего в принципе. Вобще. Должно работать из коробки. Трабла 99% в железе. Правила фаервола тоже тут непричем.

вобще, вы свой сисцтл выложили. Сколько там строк написанно осознанно с пониманием того что они значат? Или это просто копипаста? Прелесть фрихи в том, что она работает ровно до тех пор, пока в нее не начинают лезть.

 

Відредаговано maxx
Ссылка на сообщение
Поделиться на других сайтах
Опубліковано: (відредаговано)

To maxx :

Да,  у меня все на одной машине: сервер доступа, биллинг - все работает нормально. Резервирование есть: лежит дома точно такой-же винт с настроенной фрей 7.2.,

ежедневный бекап базы данных. Рейду не доверяю - был случай когда в рейде ( зеркало ) начался сыпаться первый, данные записывались  (копировались) не правильно. В итоге имел полностью нерабочую систему.

Новую систему пробую ставить на живую сеть (я как по другому ?) , в холостую (правда на другой машине (послабее) )  - пашет нормально.

 

По тюнингу ( кроме DDOS ) , брал данные с сайта биллинга:

вот копипастю с сайта:

Оптимизация системы (для ng_car)

/etc/sysctl.conf

kern.ipc.maxsockbuf=8388608
net.graph.recvspace=256000
# TCP bufer size
net.inet.tcp.recvspace=65535

# incoming TCP queue size
kern.ipc.somaxconn=1024
# incoming packets queue size
net.inet.ip.intr_queue_maxlen=2000

 

Для MPD:

в /etc/sysctl.conf:

net.graph.maxdgram=128000
net.graph.recvspace=128000

 

 

Поменяю память, поубиваю ВЕСЬ тюнинг - буду пробовать.

Відредаговано kvirtu
Ссылка на сообщение
Поделиться на других сайтах
По тюнингу ( кроме DDOS ) , брал данные с сайта биллинга:

 

Очень сильно утрировав напишу: "сайт билинга" работал на машине с 8Гб памяти и в соотв. переменных выделял 4Гб какому-то процессу. Вы бездумно скопировали это на машину с 1Гб памяти. Так понятней? Вот тот же Ваш  kern.ipc.maxsockbuf=8388608

Вы осознаете почему там именно 8388608 и не 8388607?

Відредаговано kha0s
Ссылка на сообщение
Поделиться на других сайтах

 

отключите все тюнинги в loader & sysctl

и на картах сетевых tso lro и тд и попробуйте

кстати сколько трафа идет через него ?

Из тюнинга только: (на 7.2 все пашет)

sysctl.conf

 

 

# Uncomment this to prevent users from seeing information about processes that

# are being run under another UID.

#security.bsd.see_other_uids=0

kern.ipc.maxsockbuf=8388608

net.graph.recvspace=256000

net.graph.maxdgram=128000

 

# TCP bufer size

kern.ipc.maxsockbuf=8388608

net.inet.tcp.recvspace=65535

 

# incoming TCP queue size

#kern.ipc.somaxconn=1024

# incoming packets queue size

net.inet.ip.intr_queue_maxlen=2000

#

net.inet.ip.fastforwarding=1

net.inet.ip.portrange.randomized=0

net.inet.tcp.nolocaltimewait=1

kern.ipc.nmbclusters=65536

kern.ipc.maxsockets=204800

net.inet.ip.dummynet.hash_size=512

kern.ipc.somaxconn=1024

net.inet.tcp.maxtcptw=40960

#DDOS

net.inet.tcp.msl=7500

net.inet.tcp.blackhole=2

net.inet.udp.blackhole=1

net.inet.icmp.icmplim=500

kern.ipc.somaxconn=32768

net.inet.icmp.bmcastecho=0

net.inet.icmp.maskrepl=0

net.inet.icmp.drop_redirect=1

net.inet.tcp.sack.enable=0

net.link.ether.inet.max_age=1200

#Bufer size

net.inet.tcp.sendspace=32768

net.inet.tcp.recvspace=32768

 

 

 

tso lro - нет

 

траффика понты - 50-60 Мбит

 

Поставьте какойнидь дебиан, на таком трафике и тюнить то ничего не нужно будет...

Ссылка на сообщение
Поделиться на других сайтах

 

По тюнингу ( кроме DDOS ) , брал данные с сайта биллинга:

 

Очень сильно утрировав напишу: "сайт билинга" работал на машине с 8Гб памяти и в соотв. переменных выделял 4Гб какому-то процессу. Вы бездумно скопировали это на машину с 1Гб памяти. Так понятней? Вот тот же Ваш  kern.ipc.maxsockbuf=8388608

Вы осознаете почему там именно 8388608 и не 8388607?

 

сижу, читаю, описание всех переменных для фри 9.2

памяти у меня 2 гига, загрузка до 1,2 (это 1 гиг на тестовой).

Спецом на тестовой поставил планку 512Мб - конечно, своп-раздел, использовался на всю,  Но фря работала, не падала

Ссылка на сообщение
Поделиться на других сайтах

To maxx :

Да,  у меня все на одной машине: сервер доступа, биллинг - все работает нормально. Резервирование есть: лежит дома точно такой-же винт с настроенной фрей 7.2.,

ежедневный бекап базы данных. Рейду не доверяю - был случай когда в рейде ( зеркало ) начался сыпаться первый, данные записывались  (копировались) не правильно. В итоге имел полностью нерабочую систему.

Новую систему пробую ставить на живую сеть (я как по другому ?) , в холостую (правда на другой машине (послабее) )  - пашет нормально.

 

По тюнингу ( кроме DDOS ) , брал данные с сайта биллинга:

вот копипастю с сайта:

Оптимизация системы (для ng_car)

/etc/sysctl.conf

kern.ipc.maxsockbuf=8388608

net.graph.recvspace=256000

# TCP bufer size

net.inet.tcp.recvspace=65535

 

# incoming TCP queue size

kern.ipc.somaxconn=1024

# incoming packets queue size

net.inet.ip.intr_queue_maxlen=2000

 

Для MPD:

в /etc/sysctl.conf:

net.graph.maxdgram=128000

net.graph.recvspace=128000

 

 

Поменяю память, поубиваю ВЕСЬ тюнинг - буду пробовать.

резервирование в моем понимании это наличие 2 и более акцес серверов которые дублируют друг друга. Что позволит в любое время вам, потушить 1 из них, и работать по человечески а не в 3 ночи в холодном поту (я для експеримента поставил 3 идентичных железки, на 7.2, 9.2 и 10.0, самой производительной пока себя показывает 9 я). Биллинг на 1 машине с акцесниками держать, тоже идея оооооооочень поганая. Как вариант для вас, с малыми обьемами 1 физическая машина и на ней 3 виртуалки. 1 под биллинг и 2 акцесника с разными версиями ОС. Но это уже грабли от бедности. Тем более что в абилсе очень толково реализованная нарезка скоростей нжикаром. За одно это я люблю этот биллинг.

пс по поводу рейда, вы видимо просто не умеете его готовить. Спросите не стесняйтесь.

Відредаговано maxx
Ссылка на сообщение
Поделиться на других сайтах

 

To maxx :

Да,  у меня все на одной машине: сервер доступа, биллинг - все работает нормально. Резервирование есть: лежит дома точно такой-же винт с настроенной фрей 7.2.,

ежедневный бекап базы данных. Рейду не доверяю - был случай когда в рейде ( зеркало ) начался сыпаться первый, данные записывались  (копировались) не правильно. В итоге имел полностью нерабочую систему.

Новую систему пробую ставить на живую сеть (я как по другому ?) , в холостую (правда на другой машине (послабее) )  - пашет нормально.

 

По тюнингу ( кроме DDOS ) , брал данные с сайта биллинга:

вот копипастю с сайта:

Оптимизация системы (для ng_car)

/etc/sysctl.conf

kern.ipc.maxsockbuf=8388608

net.graph.recvspace=256000

# TCP bufer size

net.inet.tcp.recvspace=65535

 

# incoming TCP queue size

kern.ipc.somaxconn=1024

# incoming packets queue size

net.inet.ip.intr_queue_maxlen=2000

 

Для MPD:

в /etc/sysctl.conf:

net.graph.maxdgram=128000

net.graph.recvspace=128000

 

 

Поменяю память, поубиваю ВЕСЬ тюнинг - буду пробовать.

резервирование в моем понимании это наличие 2 и более акцес серверов которые дублируют друг друга. Что позволит в любое время вам, потушить 1 из них, и работать по человечески а не в 3 ночи в холодном поту (я для експеримента поставил 3 идентичных железки, на 7.2, 9.2 и 10.0, самой производительной пока себя показывает 9 я). Биллинг на 1 машине с акцесниками держать, тоже идея оооооооочень поганая. Как вариант для вас, с малыми обьемами 1 физическая машина и на ней 3 виртуалки. 1 под биллинг и 2 акцесника с разными версиями ОС. Но это уже грабли от бедности. Тем более что в абилсе очень толково реализованная нарезка скоростей нжикаром. За одно это я люблю этот биллинг.

пс по поводу рейда, вы видимо просто не умеете его готовить. Спросите не стесняйтесь.

 

сетка небольшая, много серверов - пока роскошь.

Абилс - работает, тюнинг как-раз под него и ng_car и прописывался в sysctl

Ссылка на сообщение
Поделиться на других сайтах

итак,

1. переменные, необходимы для нормальной работы net_graph.

Со значениями по умолчанию, шейпер скорость не резал#For mpd5net.graph.maxdgram=128000net.graph.recvspace=128000

2. Защита от сканирования:

#Anti-DDOSnet.inet.tcp.blackhole=2net.inet.udp.blackhole=1net.inet.icmp.drop_redirect=1

Без низ в логи стали сыпаться сообщения о сканировании портов

 

3. Polling - на сколько он нужен ли не нужен ?

   как бы уменьшается нагрузка на процессор, но может увеличиться латентность

   сетевые fxp - поллинг поддерживают

Ссылка на сообщение
Поделиться на других сайтах

To maxx :

Да,  у меня все на одной машине: сервер доступа, биллинг - все работает нормально. Резервирование есть: лежит дома точно такой-же винт с настроенной фрей 7.2.,

ежедневный бекап базы данных. Рейду не доверяю - был случай когда в рейде ( зеркало ) начался сыпаться первый, данные записывались  (копировались) не правильно. В итоге имел полностью нерабочую систему.

Новую систему пробую ставить на живую сеть (я как по другому ?) , в холостую (правда на другой машине (послабее) )  - пашет нормально.

 

По тюнингу ( кроме DDOS ) , брал данные с сайта биллинга:

вот копипастю с сайта:

Оптимизация системы (для ng_car)

/etc/sysctl.conf

kern.ipc.maxsockbuf=8388608

net.graph.recvspace=256000

# TCP bufer size

net.inet.tcp.recvspace=65535

 

# incoming TCP queue size

kern.ipc.somaxconn=1024

# incoming packets queue size

net.inet.ip.intr_queue_maxlen=2000

 

Для MPD:

в /etc/sysctl.conf:

net.graph.maxdgram=128000

net.graph.recvspace=128000

 

 

Поменяю память, поубиваю ВЕСЬ тюнинг - буду пробовать.

 

у меня на серваках стоит 11каррент- полет нормальный

 

а ты просто поймал софтовое "горлышко"

 

а то было, что 8 ядерный булыжник ( без гипертридига ) работал хуже одноядерной ))))

 

1) тюнинг отключи полностью и посмотри, что установлено в дефолтных настройках - то, что было в 9-ке в 10 и выше уже не актуально

2) гипертридинг нах!

3) на каких сетевых картах работаешь?

4) сколько сессий на тазике?

 

5) увеличь буфера для натирования pf

 

/boot/loader.conf

#man 4 pf

 

net.pf.states_hashsize="524288"

net.pf.source_nodes_hashsize="131072"

 

пиши...

 

Відредаговано pashaumka
Ссылка на сообщение
Поделиться на других сайтах
  • 3 weeks later...

вчера опять пробовал: поменял память, sysctl.conf & loader.conf - полностью чистые.

проработав минут 90 - опять завис.

В логах удалось поймать:

named[1406]: *** POKED TIMER ***

как я понял - это что-то связанное с CPU и таймером ?

Ссылка на сообщение
Поделиться на других сайтах

Вот вывод :sysctl kern.timecounter

kern.timecounter.fast_gettime: 1
kern.timecounter.tick: 1
kern.timecounter.choice: TSC-low(1000) ACPI-fast(900) HPET(950) i8254(0) dummy(-1000000)
kern.timecounter.hardware: TSC-low
kern.timecounter.stepwarnings: 0
kern.timecounter.tc.i8254.mask: 65535
kern.timecounter.tc.i8254.counter: 2166
kern.timecounter.tc.i8254.frequency: 1193182
kern.timecounter.tc.i8254.quality: 0
kern.timecounter.tc.HPET.mask: 4294967295
kern.timecounter.tc.HPET.counter: 2118224384
kern.timecounter.tc.HPET.frequency: 14318180
kern.timecounter.tc.HPET.quality: 950
kern.timecounter.tc.ACPI-fast.mask: 16777215
kern.timecounter.tc.ACPI-fast.counter: 2979399
kern.timecounter.tc.ACPI-fast.frequency: 3579545
kern.timecounter.tc.ACPI-fast.quality: 900
kern.timecounter.tc.TSC-low.mask: 4294967295
kern.timecounter.tc.TSC-low.counter: 303884981
kern.timecounter.tc.TSC-low.frequency: 1249994343
kern.timecounter.tc.TSC-low.quality: 1000
kern.timecounter.tsc_shift: 1
kern.timecounter.smp_tsc_adjust: 0
kern.timecounter.smp_tsc: 1
kern.timecounter.invariant_tsc: 1

 

vmstat -i | grep cpu - ничего не выдает

Ссылка на сообщение
Поделиться на других сайтах

 

named[1406]: *** POKED TIMER ***
как я понял - это что-то связанное с CPU и таймером ?
Нет. Это специфично днс серверу и кривоватой работе таймаутов, у меня тут как раз его исходники под рукой, вот там комментарий:

 

"Sometimes, pthread_cond_timedwait() doesn't actually return when the time expires, so here, we check to see if we're 15 seconds or more behind, and if we are, we signal the dispatcher. "

Ссылка на сообщение
Поделиться на других сайтах

 

named[1406]: *** POKED TIMER ***
как я понял - это что-то связанное с CPU и таймером ?
Нет. Это специфично днс серверу и кривоватой работе таймаутов, у меня тут как раз его исходники под рукой, вот там комментарий:

 

"Sometimes, pthread_cond_timedwait() doesn't actually return when the time expires, so here, we check to see if we're 15 seconds or more behind, and if we are, we signal the dispatcher. "

 

блин, ну х.з., сколь уже гуглю у многих схожая трабля, вот к примеру:

Hi,

I have this problem.

 

Random my server crashes 2 times per day in /var/log/messages i get

 

named - ** POKED TIMER **

 

может это bind ложит сервак ?

Ссылка на сообщение
Поделиться на других сайтах

 

 

named[1406]: *** POKED TIMER ***
как я понял - это что-то связанное с CPU и таймером ?
Нет. Это специфично днс серверу и кривоватой работе таймаутов, у меня тут как раз его исходники под рукой, вот там комментарий:

 

"Sometimes, pthread_cond_timedwait() doesn't actually return when the time expires, so here, we check to see if we're 15 seconds or more behind, and if we are, we signal the dispatcher. "

 

блин, ну х.з., сколь уже гуглю у многих схожая трабля, вот к примеру:

Hi,

I have this problem.

 

Random my server crashes 2 times per day in /var/log/messages i get

 

named - ** POKED TIMER **

 

может это bind ложит сервак ?

 

Спробуйте unbound та переконайтесь :)

Ссылка на сообщение
Поделиться на других сайтах

может это bind ложит сервак ?

Да нет, это просто механизм в бинде, чтобы убедиться, что таймаут сработает и подтолкнуть, если не сработал (потому и слово pok используют в логе), т.е. это именно следствие подвисания, а не причина. Причина где-то в ядре, как по мне где-нибудь в параллельном коде, может в нетграфе, может в пф.
Ссылка на сообщение
Поделиться на других сайтах

 

 

 

named[1406]: *** POKED TIMER ***
как я понял - это что-то связанное с CPU и таймером ?
Нет. Это специфично днс серверу и кривоватой работе таймаутов, у меня тут как раз его исходники под рукой, вот там комментарий:

 

"Sometimes, pthread_cond_timedwait() doesn't actually return when the time expires, so here, we check to see if we're 15 seconds or more behind, and if we are, we signal the dispatcher. "

 

блин, ну х.з., сколь уже гуглю у многих схожая трабля, вот к примеру:

Hi,

I have this problem.

 

Random my server crashes 2 times per day in /var/log/messages i get

 

named - ** POKED TIMER **

 

может это bind ложит сервак ?

 

Спробуйте unbound та переконайтесь :)

 

уже над этим задумался,

а у Вас было похожее ???

Ссылка на сообщение
Поделиться на других сайтах

Создайте аккаунт или войдите в него для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать аккаунт

Зарегистрируйтесь для получения аккаунта. Это просто!

Зарегистрировать аккаунт

Вхід

Уже зарегистрированы? Войдите здесь.

Войти сейчас
  • Зараз на сторінці   0 користувачів

    Немає користувачів, що переглядають цю сторінку.


×
×
  • Створити нове...