Jump to content
Local
Sign in to follow this  
outsourcing.you

Падает сервер

Recommended Posts

Добрий день.

 

Столкнулись с проблемой не понятной, и хотелось би услишать какойта совет, с чем ето может бить связано.

 

Есть 2 сервера с едентичними системами linux (Debian 8), на обоих стоит accel-ppp для терминации pppoe.

В правилах firewall только нат и блокирования при негативном депозите.

 

Проблема:

 

1 сервер падает раз в неделю в 5 дней, перед етим он падал реже раз 1 месяц. 

 

На обоих серверах стоят одинаковие сетевие intel et.

 

Что делалось:

 

На 1 сервере поменяли полностю железо 2 раза так как думали что причина в ньом. 

 

В логе падения сначяла ничего небило. 

 

Потом пару раз появлялось сообщение о проблемах IRQ.

 

Единственное отличие между серверами ето то что на 1 есть пользователи с реальними ip адресами. 

 

Ситуация заводит в тупик из за того что машини идентични в настройках. 

 

Если кто стикался или имеет идеи буду рад услишать.

Share this post


Link to post
Share on other sites

Под словом падает может быть все что хочешь. Опишите детально как ведет себя система. Atop натравите на каждые 10 мин для начала. Чтобы видеть перед падением. Клава мыш работает?

Share this post


Link to post
Share on other sites

По поводу atop да идея хорошая не подумал. Поставим. 
Зависает на гулхо. Только с кнопки помогает. 

Ничего там в поведенни нету особого. 
Падает когда есть нагрузка и когда нету. 
Нагрузка всегда нулевая. Один раз заметил перед падением реский рост нагрузки, после чего все служби отпали и сам сервер завис через 10 - 15 минут. 
В лог kernel panic пишет через раз, сегодня например он просто завис без единого слова в лог. 
Грешил на nf_conntrack но там всьо розширено hash увеличен.

Посмотрю ищьо через atop что там в конце его жизни происходит.

Share this post


Link to post
Share on other sites

 

 

Под словом падает может быть все что хочешь
 

Согласен описано не сильно подробно. Извеняюсь по ходу того что буду споминать буду дописивать. 

Share this post


Link to post
Share on other sites

хотелось би услишать какойта совет, с чем ето может бить связано

сначяла ничего небило.

идентични

стикался 

буду споминать

 

ИМХО малограмотным в стиле одно слово 2 АШИБКИИ лучше идти в гопы - мотороллы, и забыть про IT как про страшный сон

Share this post


Link to post
Share on other sites

Если падает линукс на терминаторе тоннелей - обновите ядро, это первое что нужно было сделать.

Share this post


Link to post
Share on other sites

примерно похожая проблема , так и не победили.

Share this post


Link to post
Share on other sites

если на сервере есть accel-ppp, то покажите ядро, версию акселя, конфиг акселя и правила iptables

а заодно чипсет материнки

Edited by betatest

Share this post


Link to post
Share on other sites

откатиться на ядро 3.4 или 3.10 для начала (не знаю какое там на дебиане стоит), либо - обновитесь на 4.8.х... потом - убрать деинициализацию шейпера, и убрать sfq.

Share this post


Link to post
Share on other sites

 

 

хотелось би услишать какойта совет, с чем ето может бить связано сначяла ничего небило. идентични стикался  буду споминать   ИМХО малограмотным в стиле одно слово 2 АШИБКИИ лучше идти в гопы - мотороллы, и забыть про IT как про страшный сон
 
Умники я смотрю уже пожаловали к нам.
 

 

 

В лог kernel panic пишет через раз
 

 

Да пишет через раз

 

Версия ядра:

Linux debian 3.16.0-4-amd64 #1 SMP Debian 3.16.36-1+deb8u2 (2016-10-19) x86_64 GNU/Linux

[modules]
#path=/usr/local/lib/accel-ppp
log_file
#log_tcp
#log_pgsql
pptp
pppoe
#l2tp
#auth_mschap_v2
#auth_mschap_v1
#auth_chap_md5
auth_pap
radius
#ippool
sigchld
pppd_compat
#shaper_tbf
#chap-secrets
shaper


[core]
log-error=/var/log/accel-ppp/core.log
thread-count=4

[ppp]
verbose=1
min-mtu=1000
mtu=1492
mru=1492
#ccp=0
#sid-case=upper
check-ip=1
single-session=deny
#mppe=require

[lcp]
echo-interval=30
echo-failure=3

[pptp]
echo-interval=30
verbose=1

[pppoe]
interface=re:eth2*
#interface=vlan2
#interface=vlan3
#interface=vlan4
#ac-name=xxx
#service-name=yyy
pado-delay=1,-1:850
#pado-delay=0,100:100,200:200,-1:500
#ifname-in-sid=called-sid
#tr101=1
verbose=1

#[l2tp]
#dictionary=/usr/local/share/accel-ppp/l2tp/dictionary
#hello-interval=60
#timeout=60
#rtimeout=5
#retransmit=5
#host-name=accel-ppp
#verbose=1

[dns]
dns1=******
dns2=*******

[radius]
dictionary=/usr/local/share/accel-ppp/radius/dictionary
nas-identifier=accel-ppp
nas-ip-address=******
gw-ip-address=*****
auth-server=****
acct-server=****
dae-server=****
verbose=1
#timeout=5
max-try=99
acct-timeout=0
acct-delay-time=0

#[client-ip-range]
#192.168.0.0/24 #

#[ip-pool]
#gw-ip-address=192.168.0.1
#192.168.0.2-255
#192.168.1.1-255
#192.168.2.1-255
#192.168.3.1-255
#192.168.4.0/24

[log]
log-file=/var/log/accel-ppp/accel-ppp.log
log-emerg=/var/log/accel-ppp/emerg.log
log-fail-file=/var/log/accel-ppp/auth-fail.log
#log-debug=/dev/stdout
#log-tcp=127.0.0.1:3000
copy=1
#color=1
#per-user-dir=per_user
#per-session-dir=per_session
#per-session=1
level=3
#log-tcp=127.0.0.1:3000

#[log-pgsql]
#conninfo=user=log
#log-table=log

[pppd-compat]
#ip-pre-up=/etc/ppp/ip-pre-up
ip-up=/etc/ppp/ip-up.local
ip-down=/etc/ppp/ip-down.local
#ip-change=/etc/ppp/ip-change
radattr-prefix=/var/run/radattr
verbose=1

#[chap-secrets]
#gw-ip-address=192.168.100.1
#chap-secrets=/etc/ppp/chap-secrets

[tbf]
#attr=Filter-Id
#down-burst-factor=0.1
#up-burst-factor=1.0
#latency=50
attr-down=PPPD-Downstream-Speed-Limit
attr-up=PPPD-Upstream-Speed-Limit

[shaper]
#attr=Filter-Id
#attr-down=PPPD-Downstream-Speed-Limit
#attr-up=PPPD-Upstream-Speed-Limit
attr-down=PPPD-Upstream-Speed-Limit
attr-up=PPPD-Downstream-Speed-Limit
down-burst-factor=0.01
#up-burst-factor=1.0
#up-burst-factor=0.5
latency=5
#mpu=0
#r2q=30
#quantum=5000
#cburst=10000
ifb=ifb0
mtu=100000
up-limiter=policy
down-limiter=tbf
#leaf-qdisc=sfq perturb 10
verbose=1


[cli]
telnet=127.0.0.1:2000
password=*********
tcp=127.0.0.1:2001

iptables 
Chain FORWARD (policy ACCEPT)
target     prot opt source               destination         
ACCEPT     all  --  anywhere             *.*.*.*  match-set blacklist src
ACCEPT     all  --  anywhere             *.*.*.*  match-set blacklist src
ACCEPT     all  --  anywhere             10.10.10.1           match-set blacklist src
DROP       all  --  anywhere             anywhere             match-set blacklist src
ACCEPT     all  --  anywhere             anywhere             match-set allownet src
ACCEPT     all  --  anywhere             anywhere             match-set allownet dst
ACCEPT     all  --  anywhere             anywhere             match-set allowip src
ACCEPT     all  --  anywhere             anywhere             match-set allowip dst

Chain PREROUTING (policy ACCEPT)
target     prot opt source               destination         
DNAT       tcp  --  anywhere             snyatyn-14.dataline.net.ua  tcp dpt:8888 to:80.80.11.11:80
ACCEPT     all  --  anywhere             anywhere             match-set allownet src
ACCEPT     all  --  anywhere             anywhere             match-set allowip src

Chain INPUT (policy ACCEPT)
target     prot opt source               destination         

Chain OUTPUT (policy ACCEPT)
target     prot opt source               destination         

Chain POSTROUTING (policy ACCEPT)
target     prot opt source               destination         
SNAT       all  --  10.10.11.0/24        anywhere             to:*.*.*.*
SNAT       all  --  172.16.50.0/24       anywhere             to:*.*.*.*
SNAT       all  --  172.16.51.0/24       anywhere             to:*.*.*.*
SNAT       all  --  172.16.52.0/24       anywhere             to:*.*.*.*
SNAT       all  --  172.16.53.0/24       anywhere             to:*.*.*.*
SNAT       all  --  172.16.54.0/24       anywhere             to:*.*.*.*
SNAT       all  --  172.16.55.0/24       anywhere             to:*.*.*.*
SNAT       all  --  172.16.56.0/24       anywhere             to:*.*.*.*
SNAT       all  --  172.16.57.0/24       anywhere             to:*.*.*.*
SNAT       all  --  172.16.58.0/24       anywhere             to:*.*.*.*

Ядро обновил до последнего актуального что есть в DEbian смисла ставить другое так как на втором сервере стоит такое же ядро. 
Мать такая ASUSTeK COMPUTER INC F2A85-V
Перед етим стояла MSI не помню какая.

Share this post


Link to post
Share on other sites

 

 

примерно похожая проблема , так и не победили.

B что дальше падает у вас сервер ? 

Share this post


Link to post
Share on other sites

 

 

Ядро обновил до последнего актуального что есть в DEbian смисла ставить другое так как на втором сервере стоит такое же ядро.

ну нет так нет, дело ваше, ищите волшебное решение...

Share this post


Link to post
Share on other sites

 

 

10 ноя 2016 - 1:58 PM outsourcing.you писал: Ядро обновил до последнего актуального что есть в DEbian смисла ставить другое так как на втором сервере стоит такое же ядро. ну нет так нет, дело ваше, ищите волшебное решение... 0 Ответить Цитата+ Пожаловаться


Да ето вариант.

Как идею тоже буду расматривать. 

Share this post


Link to post
Share on other sites

Может проблема банальная  - сбоит память ?

Share this post


Link to post
Share on other sites

Била у меня такая проблема давно. Первим делом ейо проверял. 
Потому поменял 3 раза оперативу сняв с рабочих компов.

Share this post


Link to post
Share on other sites

в accel-ppp.conf

[ppp]
verbose=1
min-mtu=1280
mtu=1420
mru=1420
в iptables

iptables -t mangle -A FORWARD -o ppp+ -p tcp -m tcp --tcp-flags SYN,RST SYN -m tcpmss --mss 1360:65535 -j TCPMSS --clamp-mss-to-pmtu
iptables -t mangle -A FORWARD -i ppp+ -p tcp -m tcp --tcp-flags SYN,RST SYN -m tcpmss --mss 1360:65535 -j TCPMSS --clamp-mss-to-pmtu
на сетевых tso/gso выключены

/etc/network/interfaces

# The primary network interface
auto eth0
allow-hotplug eth0
iface eth0 inet manual
pre-up ethtool -K eth0 rx on
pre-up ethtool -K eth0 tx on
pre-up ethtool -K eth0 sg on
pre-up ethtool -K eth0 tso off
pre-up ethtool -K eth0 ufo off
pre-up ethtool -K eth0 gso off
pre-up ethtool -K eth0 gro off
pre-up ethtool -K eth0 lro off
pre-up ethtool -K eth0 ntuple off
pre-up ethtool -K eth0 rxhash off
Edited by betatest

Share this post


Link to post
Share on other sites

 

 

Может проблема банальная - сбоит память ?

на 3.14+ при отключении шейпера в if-down (удаление qdisc на ppp) с интервалом раз в пару недель происходили краши (они остались и на 4.1.х - убирание прибивания шейпера из if-down в if-up существенно стаилизировало брас, на 3.14 не пробовал). в 3.19+ добавились грабли с race condition в pppoe session termination (когда и демон, и ядро пытались прибить туннель по PADT - раньше это было, но деинициализация не была асинхронной и race condition не случался), которые вроде как подчистили в 4.8 (сам еще не пробовал).

 

на 3.2, 3.4 и 3.10 брасы вполне стабильны.

 

ну и да, неплохо бы на стэктрейс паники посмотреть, иначе - гадание на кофейной жиже...

Share this post


Link to post
Share on other sites

Йо дети с флажками подтянулись ...  И шо  на  фре все кошерней ? 

Share this post


Link to post
Share on other sites

Загадочные грабли акселя это реально и по моему  с осью тут особо мудрить ни к чему . 

Share this post


Link to post
Share on other sites

 

 

на 3.2, 3.4 и 3.10 брасы вполне стабильны.
 

Не морочь человека. Сказал же что "поставил паследнии ядро и смисла ставить другое нет", пусть железо меняет.

Share this post


Link to post
Share on other sites

 

 

Загадочные грабли акселя это реально и по моему с осью тут особо мудрить ни к чему .

тут скорее спящие баги ядра, которых имеется достаточно, и которые вылазят в процессе рефакторинга ядра (там сейчас все активно пилится в сторону асинхронности).

Share this post


Link to post
Share on other sites

 

 

Загадочные грабли акселя это реально и по моему  с осью тут особо мудрить ни к чему . 
 

Accel - вполне себе userspace приложение, и вешать сервер он не может. Все подобные темы заканчиваются заменой железа или обновлением/откатом ядра.

Share this post


Link to post
Share on other sites

Железо менял уже 2 раза. Freebsd до етого и там те же проблеми. 
Попробую поигратся с ядрами. 
И другими советами. 
Спасибо за совети и отзиви. 

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this  

  • Recently Browsing   0 members

    No registered users viewing this page.

  • Similar Content

    • By vector_zuriel
      Везде есть черная тема и тепер она и в ABillS 
      Как вам ?




    • By fox_fan
      Добрый день.
       
      Имеем коммутатор BDCOM(tm) S5612 Software, Version 2.2.0B Build 37303

      пытались подключить по лагу с линукс машиной, на которой настроен бондинг.
      До этого машина работала на стенде по двум 10Г портам с коммутатором FORCE10 и дилинк. Было все ок.
      Нужно было переключить машину в этот бдком.
      Настройки на бдкоме:

      enable
      config
      interface Port-aggregator6
      description 20G_LACP
      no spanning-tree
      switchport trunk vlan-allowed 2,1000-1999
      switchport mode trunk
      exit
      interface tgigaEthernet 1/11
      no spanning-tree
      aggregator-group 6 mode lacp
      switchport trunk vlan-allowed 2,1000-1999
      switchport mode trunk
      exit
      interface tgigaEthernet 1/10
      no spanning-tree
      aggregator-group 6 mode lacp
      switchport trunk vlan-allowed 2,1000-1999
      switchport mode trunk
      exit

      !
      aggregator-group load-balance both-ip
      !
       
      Переключили физически в порты бдкома - порты поднимаются, а lacp down - не поднимается.
      tg1/10  with_eth1           up        Trunk(1)    full     10000Mb  10Giga-FX        
      tg1/11  with_eth2           up        Trunk(1)    full     10000Mb  10Giga-FX        
      p6     20G_LACP        down        Trunk(1)    
       
      Прошивка была 2.2.0B 37303
      обновляли -> 2.2.0C 42666 -> 2.2.0C 50891 -> и на последнюю 2.2.0C 69953

       
      Добавление вилана 1 помогло - заработало:
      interface Port-aggregator6
      switchport trunk vlan-allowed add 1

       
      Хотя между коммутаторов работает без 1 (дефаулт) влана.
      Может кому пригодиться, намучались немного
       
      # cat interfaces
      auto lo
      iface lo inet loopback
      auto eth1
      iface eth1 inet manual
          bond-master bond0
          up ifconfig $IFACE mtu 9000
          post-down ifconfig $IFACE down
      auto eth2
      iface eth2 inet manual
          bond-master bond0
          up ifconfig $IFACE mtu 9000
          post-down ifconfig $IFACE down
      auto bond0
      iface bond0 inet manual
          bond-mode 802.3ad
          bond-miimon 100
          bond-downdelay 200
          bond-updelay 200
          bond-lacp-rate 1
          bond-xmit-hash-policy 1
          bond-slaves eth1 eth2
          up ifconfig $IFACE mtu 9000
      auto bond0.2
      iface bond0.2 inet static
          address 192.168.200.200
          netmask 255.255.0.0
          gateway 192.168.200.120
          dns-nameservers 8.8.8.8
          vlan_raw_device bond0



      cat /proc/net/bonding/bond0
      Ethernet Channel Bonding Driver: v3.7.1 (April 27, 2011)

      Bonding Mode: IEEE 802.3ad Dynamic link aggregation
      Transmit Hash Policy: layer3+4 (1)
    • By KGroup
      Всем привет!
      Подскажите плиз: Как очистить содержимое всех файлов в каталоге на системе linux без удаления самих файлов?
      Может скрипт какой есть для примера?
       
      зы.
      sudo cat /dev/null > file.txt работает только с одним файлом...
       
    • By Nekut
      Данный модуль рисует столбчатые диаграммы показывая количество подключенных абонентов за год.

      Кого заинтересовало, пишите

    • By Nekut
      Если кто-то работал с кодом абилса или писал модуля для него, отзовитесь пожалуйста. 
      Нужно подсказать пару моментов их собственного шаблонизатора. 
×