Jump to content

Роутер под FreeBSD 8\9 рандомно зависает.


Recommended Posts

"No space buffer available"

"No buffer space available"

как бы так ? началась с 8ки...

Платформа amd64, мать интел и соответствующее все остальное ;) задрочили ее до дыр ;)

НОЛЬ прихода, тема как у вас, Но только с буфером ;) не висла ;), хотя припоминаю после этого события ребутилась, ТОЧНО ! ребутилась, в логах 000000000, гугл тоже стерли, траф от 4мбит))) до 4Гбит), точно такая же мамка на 32 пыхтит и в ус не дует чудеса)

Здаеться косяк конкретного железа с ОСью(

 

 

ЗЫ как бжп ипользуем ;) через анал ;)

Link to post
Share on other sites

Может, процы слишком шустрые, и где-то в ведре (в драйвере сетевухи либо в части ядра, связанной с обработкой MSI-X прерываний) вылазит race condition? Попробуйте еще ради эксперимента все 10 гбит зафлудить чем-то и посмотреть на результат (упадет раньше/позже/не упадет вообще). Хотя может и железо глюкавое таки - нет под рукой какой-то офисной лга1155 мамки на тест, убедиться, что мат.плата ни при чем?

1. Драйвер сетевухи точно такой же, как ставится на линуха. Один в один. А там вроде как про проблемы данной карточки не слышно. MSI-X можно попробовать отключить, но для 10Г карт это ж вроде совсем не вариант.

2. Материнка на сокете 2011 и в категории "офисных" их нет. А если речь про заменить "мать+проц", так уже сделано - выше отписАл.

3. А чем "зафлудить" ВСЕ 10 ГБ - мне и самому интересно, чем.

Кроме иперфа или пары тысяч живых хомяков вариантов в голову не приходит )

Link to post
Share on other sites

Может, процы слишком шустрые, и где-то в ведре (в драйвере сетевухи либо в части ядра, связанной с обработкой MSI-X прерываний) вылазит race condition? Попробуйте еще ради эксперимента все 10 гбит зафлудить чем-то и посмотреть на результат (упадет раньше/позже/не упадет вообще). Хотя может и железо глюкавое таки - нет под рукой какой-то офисной лга1155 мамки на тест, убедиться, что мат.плата ни при чем?

1. Драйвер сетевухи точно такой же, как ставится на линуха. Один в один. А там вроде как про проблемы данной карточки не слышно. MSI-X можно попробовать отключить, но для 10Г карт это ж вроде совсем не вариант.

2. Материнка на сокете 2011 и в категории "офисных" их нет. А если речь про заменить "мать+проц", так уже сделано - выше отписАл.

3. А чем "зафлудить" ВСЕ 10 ГБ - мне и самому интересно, чем.

Кроме иперфа или пары тысяч живых хомяков вариантов в голову не приходит )

Так оно продолжает виснуть ?

Link to post
Share on other sites

Ах да, забыл дописать - пока полет нормальный =)

Просто в пару прошлых раз ОНО тоже работало больше суток, а потом в самый "подходящий" момент падало.

Поэтому просто скрестив пальцы жду завтрашнего дня.

 

п.с. Взяли на тест замену АсРоковской материнке - Интеловскую DX79TO

Завтра попробую на ней.

Link to post
Share on other sites

1. Драйвер сетевухи точно такой же, как ставится на линуха. Один в один. А там вроде как про проблемы данной карточки не слышно. MSI-X можно попробовать отключить, но для 10Г карт это ж вроде совсем не вариант.

Такой же, за исключением части, тесно взаимодействующей с API ядра. А это, думается, немало кода. И не исключено, что грабля в самом ядре где-то зарыта.

 

2. Материнка на сокете 2011 и в категории "офисных" их нет. А если речь про заменить "мать+проц", так уже сделано - выше отписАл.

Подкинуть какой-то i5 2500k значит, или еще кого из схожих по шустрости родственников... Еще как вариант - попытаться отключить на текущей плате гипертрейдинг, ну и прочими плясками с бубном заняться.

 

3. А чем "зафлудить" ВСЕ 10 ГБ - мне и самому интересно, чем.

Кроме иперфа или пары тысяч живых хомяков вариантов в голову не приходит )

В бзде есть же генератор пакетов, весьма шустрый... Создать удп флуд, и посмотреть - помрет или нет.

Link to post
Share on other sites

Таксь. Результаты:

1. На ДРУГОМ железе (мать+проц), но с той же картой 10Г система работает стабильно вторые сутки.

2. После выключения на мамке АсРок всех вариантов энергосбережения, C-state, Турбо, HT итд итп, короче, ВСЁ выключил, что нашел, второй сервак с 50МБт проработал сутки без аварий. Далее выключил, ибо приехала новая мамка Intel DX79TO, поставил на тест вместо АсРоковской.

Link to post
Share on other sites

Реже ?? Ахаха )

Если почитать наг, то походу зато там других проблем завались ...

п.с. не будем переводить тему с железок на вечный срач линух\фря.

Link to post
Share on other sites

Реже ?? Ахаха )

Если почитать наг, то походу зато там других проблем завались ...

Если почитать наг, то фрю там пользуют полторы калеки - от того и проблем описывают меньше...

У меня беспричинное зависание линукса намертво, без каких-либо сообщений, было только на одной железке - игровом сервере, на который поставили неподдерживаемый официально мамкой 4-головый проц (что, в принципе, не удивительно). И еще один сервер беспричинно крашился под нагрузкой, но с выводом в логи сообщений (мамка была виновата, кривая видать попалась). Все. И это - из солидного кол-ва разных железяк под разными ядрами/дистрами, с 2008 года, начиная с древних раритетов типа К5 заканчивая новым железом.

Link to post
Share on other sites

У меня это вторая материнка с проблемами из тоже немалого количества, которая работает с непонятными проблемами на фре.

И обе использовались под софт-роутеры.

Link to post
Share on other sites

В общем, результат: на Интеловской мамке работает как часы.

Асроковскую както уже и трогать не хочется - нервы мне дороже.

Link to post
Share on other sites

И снова доброго дня.

В продолжение этой же темы:

Наблюдаю странный глюк: Собраны два сервера.

Из ОТЛИЧАЮЩИХСЯ комплектующих в серверах - винт, видео и марка памяти.

На винчестерах ось клонирована с одного на другой.

Через сервер номер 1 бегает в 1,5 раза больше трафика (1600\1600 против 1100\1100), чем через сервер 2.

Но ЗАГРУЗКА проца выше в ТРИ раза ...23% и 7% соответственно.

БИОС на обоих одинаковых версий, настройки - тоже.

Сетевуха и видео вставлены в точно такие же слоты, что и в другом сервере.

Даже лог загрузки одинаков ..=(

Характер трафика должен быть не сильно отличающийся - сеть просто поделена на два больших куска. Каждый проходит через свой сервер.

Топ с более загруженного сервера:

last pid:  2200;  load averages:  1.30,  1.32,  1.25                      up 0+01:08:54  23:33:12
124 processes: 8 running, 86 sleeping, 30 waiting
CPU 0:  0.0% user,  0.0% nice,  5.3% system, 13.5% interrupt, 81.2% idle
CPU 1:  0.0% user,  0.0% nice,  4.5% system, 17.7% interrupt, 77.8% idle
CPU 2:  0.0% user,  0.0% nice,  3.7% system, 15.0% interrupt, 81.3% idle
CPU 3:  0.0% user,  0.0% nice,  3.4% system, 15.0% interrupt, 81.6% idle
CPU 4:  0.0% user,  0.0% nice,  0.4% system, 15.0% interrupt, 84.6% idle
CPU 5:  0.0% user,  0.0% nice,  0.4% system, 10.5% interrupt, 89.1% idle
Mem: 37M Active, 13M Inact, 180M Wired, 304K Cache, 23M Buf, 3637M Free
Swap: 2048M Total, 2048M Free

 PID USERNAME PRI NICE   SIZE    RES STATE   C   TIME   WCPU COMMAND
  11 root     171 ki31     0K    96K CPU4    4  56:30 92.72% idle{idle: cpu4}
  11 root     171 ki31     0K    96K CPU5    5  56:40 91.80% idle{idle: cpu5}
  11 root     171 ki31     0K    96K CPU3    3  56:27 90.38% idle{idle: cpu3}
  11 root     171 ki31     0K    96K RUN     2  54:55 85.84% idle{idle: cpu2}
  11 root     171 ki31     0K    96K RUN     0  52:13 84.18% idle{idle: cpu0}
  11 root     171 ki31     0K    96K CPU1    1  53:27 83.69% idle{idle: cpu1}
  12 root     -68    -     0K   496K CPU1    1  11:23 17.24% intr{irq257: ix0:que }
  12 root     -68    -     0K   496K WAIT    2  10:40 15.62% intr{irq258: ix0:que }
  12 root     -68    -     0K   496K WAIT    0  11:58 14.89% intr{irq256: ix0:que }
  12 root     -68    -     0K   496K WAIT    3  10:31 14.21% intr{irq259: ix0:que }
  12 root     -68    -     0K   496K WAIT    5  11:44 13.92% intr{irq261: ix0:que }
  12 root     -68    -     0K   496K WAIT    4  11:29 12.94% intr{irq260: ix0:que }
   0 root     -68    0     0K   416K -       4   2:11  2.93% kernel{ix0 que}
   0 root     -68    0     0K   416K -       0   2:21  2.88% kernel{ix0 que}
   0 root     -68    0     0K   416K -       0   2:21  2.73% kernel{ix0 que}
   0 root     -68    0     0K   416K -       3   2:12  2.73% kernel{ix0 que}
   0 root     -68    0     0K   416K -       1   2:15  2.44% kernel{ix0 que}
   0 root     -68    0     0K   416K -       2   1:56  2.39% kernel{ix0 que}
1840 root      44    0 31380K  9736K select  0   0:43  0.24% snmpd

 

Проверил все, что мог. Если и есть разница в выдаваемых различными утилитами результатах, то на уровне 10%

Сижу, смотрю на все это и молча удивляюсь.

Есть ли у более опытных товарисчей идеи, в чем подвох ?

Link to post
Share on other sites

может быть нелинейная зависимость. попробуйте местами сервера поменять.

з.ы. кстати зря экономили, проще было сразу взять e3 ксеоны с соответствующими мамками. сберегли бы себе нервы.

Link to post
Share on other sites

может быть нелинейная зависимость. попробуйте местами сервера поменять.

з.ы. кстати зря экономили, проще было сразу взять e3 ксеоны с соответствующими мамками. сберегли бы себе нервы.

Ох ... давайте не будем о грустном ....

Link to post
Share on other sites

ОМГ !!!!!!!!!

Кажется, нашел причину ...

Как ни странно, НО:

На первом сервере:

dev.cpu.0.freq: 1200

На втором:

dev.cpu.0.freq: 3200

Как раз около 3х раз и получается ......

Ну это уже вообще номер из ряда вон !!!

Завтра обновлю биос до крайнего (да да .. не пинайте ногами) и проверим, что получится ...

п.с. Хотя вчера делал дифф между sysctl -a на обоих серверах и такого не было.

Кажется, то ли глюк с Интел СпидТест на первом сервере (не отключился ??), то ли хз...

 

 

Апд:

Зашел в биос, сбросил в дефолт и перенастроил все заново.

Теперь на первом тоже

dev.cpu.0.freq: 3200

Но эффекта ноль - загрузка совсем не упала ...

Link to post
Share on other sites

Через сервер номер 1 бегает в 1,5 раза больше трафика (16001600 против 11001100), чем через сервер 2.

Но ЗАГРУЗКА проца выше в ТРИ раза ...23% и 7% соответственно.

Хм. а чему вы удивляетесь? Рост нагрузки на проц нелинеен, это общеизвестный, давно всем знакомый, факт.

Link to post
Share on other sites

з.ы. кстати зря экономили, проще было сразу взять e3 ксеоны с соответствующими мамками. сберегли бы себе нервы.

не ну че ксеоны, пусть цисарь или джунипер купит.

ЗЫ i5 одним ядром молотит пол гига ппое траффика. Зачем платить больше.

http://clip2net.com/s/26lxd

Link to post
Share on other sites

Через сервер номер 1 бегает в 1,5 раза больше трафика (16001600 против 11001100), чем через сервер 2.

Но ЗАГРУЗКА проца выше в ТРИ раза ...23% и 7% соответственно.

Хм. а чему вы удивляетесь? Рост нагрузки на проц нелинеен, это общеизвестный, давно всем знакомый, факт.

Хм, а чему ж тут не удивляться то ?

Судя по Вашим словам, этот проц на ~3ГБт трафика уже должен будет загнуться ? Хаха три раза.

п.с. Пускаю ВЕСЬ трафик через второй сервер (там как раз 33 ГБт) - загрузка около 20%.

Link to post
Share on other sites

п.с. Пускаю ВЕСЬ трафик через второй сервер (там как раз 33 ГБт) - загрузка около 20%.

3 гига ппое траффик на 1 ядро i5 проца?

И монсер нерпавильно понял мою фразу. Нужно открыть ссылку после моего поста что бы увидеть как пол гига пппое грузят I5 десктопный процессор.

Link to post
Share on other sites

з.ы. кстати зря экономили, проще было сразу взять e3 ксеоны с соответствующими мамками. сберегли бы себе нервы.

не ну че ксеоны, пусть цисарь или джунипер купит.

ЗЫ i5 одним ядром молотит пол гига ппое траффика. Зачем платить больше.

http://clip2net.com/s/26lxd

вы же не вникли в суть. ТС купил одну мамку, потом купил другую. А мог купить один раз нормальное _серверное_ железо в ту же цену.

Я отлично понимаю когда покупают сервера вместо джуниперов и цисок. но я не понимаю когда экономят копейки, ставя десктопное железо.

Link to post
Share on other sites

В общем, итог номер два:

Проблема была все таки в БИОСе.

Несмотря на то, что версии и настройки были одинаковые, первый сервер все таки както подглюкивал.

Обновил БИОС до последнего - нагрузка упала до нормы в 7%.

Хотя на втором сервере со старым БИОСом проблем не было изначально.

п.с. Обновил и его ... мало ли ...

 

По поводу серверного железа:

На момент выбора данных железяк серверного комплекта (по крайней мере от Супермикры) еще не было в наличии. Даже цен еще не было. Обещали наличие на тот момент через месяц, не ранее. Поэтому решили "затестить" на том, что было.

Собственно, с этого момента и вылился данный топик.

Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
  • Recently Browsing   0 members

    No registered users viewing this page.

  • Similar Content

    • By kotqq
      Продам Cisco Nexus 3548-X | 48-Port 10G SFP+, ціна 300$
       
       
      Характеристики:
      Модель: Cisco Nexus 3548-X
      Кількість портів: 48 x 10GbE
      Пропускна здатність: До 1,44 Тбіт/с
      Затримка: < 250 нс
      Підтримка VXLAN: Так
      Управління:  CLI, SNMP, API
      Форм-фактор: 1U
      Енергоспоживання: ~250 Вт
      Розміри: 43.9 x 43.2 x 4.4 см
      Вага: 7.9 кг
       




    • By Dilan
      Продам свитч Arista DCS 7124SX
      Два блока питания, 24 порта 10г.
      Без ушей 
      Цена 12тыс + торг 
    • By Dilan
      Продам свитч Arista DCS 7050S-52
      2 блока питания, уши+ салазки
      Цена 20 тыс + торг
    • By mac
      Глюк в тому, що один (так - тільки один) mac адрес onu існує в білінгу у вигляді строки. Це трохи заважає.
      olt - bdcom gepon.
      Наскільки зрозумів, це виключно проблема реалізації snmpwalk у freebsd, де snmpwalk може на свій розсуд віддати mac адресу не як hex-string, а як звичайний string.
      Можливо snmpwalk тригериться на якомусь символі, мені невідомо.
       
      # tcpdump -vv -i em0 udp port 161 and host olt and host ub | grep "3320.101.10.4.1.1.241 ... olt.snmp > ub.47940: [udp sum ok] { SNMPv2c C="*****" { GetResponse(44) R=93278354 E:3320.101.10.4.1.1.241="8LO"W*" } } ub.47940 > olt.snmp: [udp sum ok] { SNMPv2c C="*****" { GetNextRequest(34) R=93278355 E:3320.101.10.4.1.1.241 } } snmpwalk -c***** -v2c -t5 olt .1.3.6.1.4.1.3320.101.10.4.1.1 SNMPv2-SMI::enterprises.3320.101.10.4.1.1.241 = STRING: "8LO\"W*" snmpwalk -Ox -c***** -v2c -t5 olt .1.3.6.1.4.1.3320.101.10.4.1.1 SNMPv2-SMI::enterprises.3320.101.10.4.1.1.241 = Hex-STRING: 38 4C 4F 22 57 2A  
      Це стосується таких параметрів у snmp конфізі bdcom
       
      [signal] MACINDEX=".1.3.6.1.4.1.3320.101.10.4.1.1" [misc] ONUINDEX=".1.3.6.1.4.1.3320.101.11.1.1.3"  
      За для усунення глюку спробував трошки змінити код і завдати тип snmp параметру явно у ./api/libs/api.ponbdcom.php у function collect()
      Це працює. Мабуть станеться у нагоді:
       
      # diff api.ponbdcom.php{.new,.bak} 37c37 < $onuIndex = $this->snmp->walk('-Ox ' . $oltIp . ':' . self::SNMPPORT, $oltCommunity, $onuIndexOid, self::SNMPCACHE); --- > $onuIndex = $this->snmp->walk($oltIp . ':' . self::SNMPPORT, $oltCommunity, $onuIndexOid, self::SNMPCACHE); 91c91 < $macIndex = $this->snmp->walk('-Ox ' . $oltIp . ':' . self::SNMPPORT, $oltCommunity, $macIndexOID, self::SNMPCACHE); --- > $macIndex = $this->snmp->walk($oltIp . ':' . self::SNMPPORT, $oltCommunity, $macIndexOID, self::SNMPCACHE);  
      P.S. Створив тему, а зараз міркую: а може це глюк у ПЗ olt. Оновлю фірмваре olt та перевірю...
       

    • By Parallels
      Продам конвертори 10g CX4-SFP+ D-Link DMC-805x
      Ціна 3000 грн
       
      Також є в наявності до них кабелі стеку CX4-CX4

×
×
  • Create New...