Jump to content
Local
Sign in to follow this  
morfey

Пропадание трафика у DHCP клиентов, P3616

Recommended Posts

Нарисовалась странная проблема.

 

Все клиенты сидят в своем влане и получают адреса по DHCP. На олте шаблон, который присваевает влан онушке.
Но 1-3 раза в сутки у юзеров пропадает траф. Через 2-3мин все восстанавливается. Сессия не рвется (accel-ipoe)Не нашел какой-то закономерности.

Перелопатил все, грешу только на олт.

Причем может отваливатся на всем сегменте куда включен этот олт в пределах свича агрегации. Но в основном только на олте.

 

Пробовал разные прошивки, потом обновил все олты до "стабильной" 33463.

Так же пробовал включать-выключать stp, snooping, isg. До одного места.

В логах тож нет ничего

 

Так же на агрегации стоит длинк с QinQ. К нему олты подключены как напрямую так и через дополнительные свичи. На 3310 падения были только там, где в тот же свич включен 3316. Из общих у них только влан управления.

 

Со статическим ip ок

 

+ Сегодня поставлю ноут для снятия дампа трафа..

 

Конфиг https://pastebin.com/YSs4Pr1u

post-4773-0-82212700-1493212278_thumb.png

Edited by morfey

Share this post


Link to post
Share on other sites

был похожий геморрой на 3310 вылечилось заменой олт на новый. 

Share this post


Link to post
Share on other sites

Уже меняли.

Share this post


Link to post
Share on other sites
!
ip dhcp-relay snooping
ip verify source vlan  1096-2119
!

В мене трішки не так

!
ip dhcpd snooping arp
ip dhcpd enable
!
ip dhcp-relay snooping
ip dhcp-relay snooping vlan  500-516
ip verify source vlan  500-516
ip dhcp-relay snooping database-agent 192.168.200.1
ip dhcp-relay snooping db-file bdcom3616/fc:fa:f7:44:4a:1b-leases
ip dhcp-relay snooping write-time 30
ip dhcp-relay snooping write-immediately
ip dhcp-relay snooping information option format hn-type
ip dhcp-relay snooping log
!

Share this post


Link to post
Share on other sites

Гуру wireshark,  что-то можно сказать по этих данных?) А то я глаза поломал уже)

 

Подключил ноут через ону к олту.

post-4773-0-91632400-1493320270_thumb.png

dump.pcap.zip

Share this post


Link to post
Share on other sites

Так же выносил управление конкретного олта в отдельный влан на всякий.

Есть дамп со стороны dhcp сервера к тестовому ноуту..

dump_pup.pcap.zip

Share this post


Link to post
Share on other sites

Может банально в НАСе проблема с очередями\шейпингом?? На том же НАСе еще какието ОЛТы крутятся? С ними все норм?

Share this post


Link to post
Share on other sites

Может банально в НАСе проблема с очередями\шейпингом?? На том же НАСе еще какието ОЛТы крутятся? С ними все норм?

Там все олты. Проблема только с 3316 (

Share this post


Link to post
Share on other sites

Чудес не бывает.

1) Пинги хоть есть на хосты с DHCP сервера в момент обрыва?

2) Что показывает tcpdump в абон вланах? (вайршарк не хочу ставить) Хоть чтото бегает или ваще полный 0?

3) линк точно стабильный? на аплинках нет ошибок? Логи свича агрегации тоже молчат? А они включены?

4) Логи ДХЦП сервера ниче не пишут? Влан не падает? Ошибок нет? Я так понял ДХЦП сервер = НАС?

Edited by Dimkers

Share this post


Link to post
Share on other sites

Чудес не бывает.

1) Пинги хоть есть на хосты с DHCP сервера в момент обрыва?

2) Что показывает tcpdump в абон вланах? (вайршарк не хочу ставить) Хоть чтото бегает или ваще полный 0?

3) линк точно стабильный? на аплинках нет ошибок? Логи свича агрегации тоже молчат? А они включены?

4) Логи ДХЦП сервера ниче не пишут? Влан не падает? Ошибок нет? Я так понял ДХЦП сервер = НАС?

Та я знаю что не бывает.

1. Пинга нет. Делаю на ноуте 2 интерфейса. Один статический, второй dhcp. Статический без потерь, dhcp пропадает.

2. Броадкасты пролетают. Со стороны клиента тоже пролетают проадкасты, запрашивает dhcp реквесты, но на брасе их уже не видно.

3. Ошибок нет, пробовали разные порты, меняли ID вланов(а вдруг)). Логи включены. Когда выключен snooping на ОЛТе, свич отлавливает dhcp серверы левые..(Пробовал разные вариации)

4. Реквесты не доходят до браса, соответственно нечего в лог писать. Если пропадание не надолго, то сессия не рвется и просто продолжает все работать. Если более длительное время, сессия рвется по времени лизы, клиент запрашивает IP и опять дальше все работает. Да, dhcp сервер - НАС, (accel-ipoe)

Share this post


Link to post
Share on other sites

Берем проблемный ОЛТ, настраиваем как соседний, меняем, наблюдаем.

Share this post


Link to post
Share on other sites
!
epon onu-config-template vlan2058
 cmd-sequence 1 epon onu port 1 ctc vlan mode tag 2058
 cmd-sequence 2 exit
 cmd-sequence 3 write ifindex
!

!
interface EPON0/5:1
!
interface EPON0/5:2
!
interface EPON0/5:3
!

Никто ничего странного не заметил?

Или это на 36хх так и должно быть?

 

UPD Ну и по идее, в темплейте нужно 2 раза "exit", и "write all" вместо "write ifindex"

Edited by Ромка

Share this post


Link to post
Share on other sites

Берем проблемный ОЛТ, настраиваем как соседний, меняем, наблюдаем.

В продакшине их 2. Меняли. Меняли на новый третий.

 

 

!
epon onu-config-template vlan2058
 cmd-sequence 1 epon onu port 1 ctc vlan mode tag 2058
 cmd-sequence 2 exit
 cmd-sequence 3 write ifindex
!

!
interface EPON0/5:1
!
interface EPON0/5:2
!
interface EPON0/5:3
!

Никто ничего странного не заметил?

Или это на 36хх так и должно быть?

 

UPD Ну и по идее, в темплейте нужно 2 раза "exit", и "write all" вместо "write ifindex"

 

В 3316 немного по другому. Один раз exit. При write all и 600 онлайн абонентов он либо заведется через минут 30 либо уйдет в ребут. Проц перегружается от количества перезаписей.

Share this post


Link to post
Share on other sites
В продакшине их 2. Меняли. Меняли на новый третий.

Не. в смысле вот есть у Вас 3310 к примеру рядом в продакшене? Вот замесь его и тыкаете.

 

И таки да, признаюсь - конфиг не глядел. Но конфиг снят с ОЛТа без онушек? А то вроде как все незареганые(скролом покрутил)... Зареганые на 3312 вот так выглядят:

interface EPON0/1:51
  epon onu port 1 ctc vlan mode tag 39
  epon onu port 1 ctc loopback detect
  epon onu port 1 mac address-table dynamic maximum 8
  epon onu port 1 storm-control mode 2 threshold 256
!
interface EPON0/1:52
!
interface EPON0/1:53
!
interface EPON0/1:54
  epon onu port 1 ctc vlan mode tag 39
  epon onu port 1 ctc loopback detect
  epon onu port 1 mac address-table dynamic maximum 8
  epon onu port 1 storm-control mode 2 threshold 256
!

3316 также должен быть

Edited by Dimkers

Share this post


Link to post
Share on other sites

 

В продакшине их 2. Меняли. Меняли на новый третий.

Не. в смысле вот есть у Вас 3310 к примеру рядом в продакшене? Вот замесь его и тыкаете.

 

И таки да, признаюсь - конфиг не глядел. Но конфиг снят с ОЛТа без онушек? А то вроде как все незареганые(скролом покрутил)... Зареганые на 3312 вот так выглядят:

interface EPON0/1:51
  epon onu port 1 ctc vlan mode tag 39
  epon onu port 1 ctc loopback detect
  epon onu port 1 mac address-table dynamic maximum 8
  epon onu port 1 storm-control mode 2 threshold 256
!
interface EPON0/1:52
!
interface EPON0/1:53
!
interface EPON0/1:54
  epon onu port 1 ctc vlan mode tag 39
  epon onu port 1 ctc loopback detect
  epon onu port 1 mac address-table dynamic maximum 8
  epon onu port 1 storm-control mode 2 threshold 256
!

3316 также должен быть

 

Ну то startup-config. Я так понял 36 серия не сохраняет в конфиге настройки ону, оно в sql базе.

 

В продакшине 3310 - 12шт стоит. Вместо 4х 3310 начали ставить 3616, грубо говоря с теми же конфигами(номера влан и т.д.). Глобальные настройки тож.

Edited by morfey

Share this post


Link to post
Share on other sites

Поставьте вместо любого 3310, включеного в этот же аггр.Длинк - 3316. и посмотрите.

У меня шото чуйка, шо кольцо дето, и рубает его не ОЛТ, а Длинк, от того трафик отваливается именно на весь ОЛТ. Была такая шляпа когда то со свичами планет на доступе+длинк в агрегации. Планет не успевал рубануть по лупдетекту абон интерхфейс, а вот длинк довольно таки быстро рубал весь траф на планет. Как то так... Хотя вы говорите, шо по логам на Длинке ниче не сыпецо.... Может таки логи просто не включены?

 

 

Я так понял 36 серия не сохраняет в конфиге настройки ону, оно в sql базе.

Я вам привел кусок ран конфига.

Edited by Dimkers

Share this post


Link to post
Share on other sites

Поставьте вместо любого 3310, включеного в этот же аггр.Длинк - 3316. и посмотрите.

У меня шото чуйка, шо кольцо дето, и рубает его не ОЛТ, а Длинк, от того трафик отваливается именно на весь ОЛТ. Была такая шляпа когда то со свичами планет на доступе+длинк в агрегации. Планет не успевал рубануть по лупдетекту абон интерхфейс, а вот длинк довольно таки быстро рубал весь траф на планет. Как то так... Хотя вы говорите, шо по логам на Длинке ниче не сыпецо.... Может таки логи просто не включены?

 

 

Я так понял 36 серия не сохраняет в конфиге настройки ону, оно в sql базе.

Я вам привел кусок ран конфига.

 

loopback-detection на портах олтов отключил для теста. При включении петель не находит. Логи включены. Функционал обнаружения петель срабатывает, проверял.

3316 стали именно на места портов 3310

 LBD Global Settings
 ---------------------------
 Status           : Enabled
 Mode             : VLAN-based
 Interval         : 10 sec
 Recover Time     : 60 sec
 Trap State       : None
 Log State        : Enabled
 Function Version : v4.04

Из run :

interface EPON0/5:1
  epon onu port 1 ctc vlan mode tag 1352
!
interface EPON0/5:2
  epon onu port 1 ctc vlan mode tag 1353
!
interface EPON0/5:3
  epon onu port 1 ctc vlan mode tag 1354
!


UPD. Так же отключил на агрегации всевозможные bpdu_filter, traffic_conrol и т.д. filter dhcp_server тож отключал, по логам он ловит неправильно втыкнутые роутеры в сеть. Единицы. Но ловит

Edited by morfey

Share this post


Link to post
Share on other sites

не пробывали по 1-й ветке переносить, а не все сразу?

Что за Длинк на агрегации?

Edited by Dimkers

Share this post


Link to post
Share on other sites

не пробывали по 1-й ветке переносить, а не все сразу?

Что за Длинк на агрегации?

 

Пробовали)

Но на вот этом моменте уже не помню на 100%, не буду врать. Когда-то была такая проблема перед НГ, и сама собой исчезла.

Но по моему вместе с 3316 пропадал траф и на 3310, когда они ехали через один QinQ влан, но разных портах. vlanID менял. В отдельном влане 3310 ехает норм

 

Жует 3шт DGS-3120

Share this post


Link to post
Share on other sites
Пробовали)

И что? Сразу после переноса первой ветки получаете картину с провалами трафа, или после переноса последней?

Edited by Dimkers

Share this post


Link to post
Share on other sites

 

Пробовали)

И что? Сразу после переноса первой ветки получаете картину с провалами трафа, или после переноса последней?

 

Я же говорю. Оставили 4 порта в 3316, остальные разнесли по 3 олтам 3310. И провалы были на все устройствах. При условии что все попадали в один и тот же QinQ влан

Share this post


Link to post
Share on other sites

Тю. Я думал что 3 Длинка жует сей заопарк..... Так пропадает на все 3x3310+3316, которые включены в один и тот же длинк и находятся в одном и том же оутпут влане?

Edited by Dimkers

Share this post


Link to post
Share on other sites

Тю. Я думал что 3 Длинка жует сей заопарк..... 

Ну так и есть. Сейчас один 3316 включен напрямую к длинку. Еще один стоит на отдаленном узле. Он включен в E-core 4612 (3316->ES4612->DGS3120) . При тесте с 3310, все были включены в DGS-3120

 

 

 

Так пропадает на все 3x3310+3316, которые включены в один и тот же длинк и находятся в одном и том же оутпут влане?

Именно, без 3616 все работает, на даный момент напрямую в длинк включены 2шт 3310, проблем нет.

Share this post


Link to post
Share on other sites

 

Чудес не бывает.

1) Пинги хоть есть на хосты с DHCP сервера в момент обрыва?

2) Что показывает tcpdump в абон вланах? (вайршарк не хочу ставить) Хоть чтото бегает или ваще полный 0?

3) линк точно стабильный? на аплинках нет ошибок? Логи свича агрегации тоже молчат? А они включены?

4) Логи ДХЦП сервера ниче не пишут? Влан не падает? Ошибок нет? Я так понял ДХЦП сервер = НАС?

Та я знаю что не бывает.

1. Пинга нет. Делаю на ноуте 2 интерфейса. Один статический, второй dhcp. Статический без потерь, dhcp пропадает.

2. Броадкасты пролетают. Со стороны клиента тоже пролетают проадкасты, запрашивает dhcp реквесты, но на брасе их уже не видно.

3. Ошибок нет, пробовали разные порты, меняли ID вланов(а вдруг)). Логи включены. Когда выключен snooping на ОЛТе, свич отлавливает dhcp серверы левые..(Пробовал разные вариации)

4. Реквесты не доходят до браса, соответственно нечего в лог писать. Если пропадание не надолго, то сессия не рвется и просто продолжает все работать. Если более длительное время, сессия рвется по времени лизы, клиент запрашивает IP и опять дальше все работает. Да, dhcp сервер - НАС, (accel-ipoe)

 

1 - а пинговали что со статического интерфейса? тот же адрес шлюза что выдавался по дхцп?

 

QinQ на длинке собираете? НАС в этот же длинк включен или между ними есть что то промежуточное? Если есть то срабатывает ли на нем лупдетект/броадкаст контроль? Картиночку с порта какой железки рисуете?

Share this post


Link to post
Share on other sites

1 - а пинговали что со статического интерфейса? тот же адрес шлюза что выдавался по дхцп?

 

QinQ на длинке собираете? НАС в этот же длинк включен или между ними есть что то промежуточное? Если есть то срабатывает ли на нем лупдетект/броадкаст контроль? Картиночку с порта какой железки рисуете?

 

Пингую ОЛТ по IP влана управления, клиента по 1. статическому IP, IP выданному по DHCP. Пингую с БРАСа и еще одного сервака.

Траф пропадает только для интерфейса DHCP. В остальном пинг идет. 

 

Длинк собирает(port role uni), разбираю на БРАСе.

БРАС включен в длинк, один ОЛТ тоже. Не срабатывает ничего, отключение фильтров тоже не дало толку.

 

Картинки рисую со всего, и длинк и олт. Вы графики загрузки имеете в виду?

 

Если интересно. Есть свежий дамп для вирешарка с браса и клиента. С 20:05 упало. Но часовая метка в дампе 17:05 почему-то.

dump.zip

Edited by morfey

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this  

  • Recently Browsing   0 members

    No registered users viewing this page.

  • Similar Content

    • By ziguzar
      помогите разобраться с ситуацыеей: у нас в сети гуляет DHCP  - 192.168.1.xxx, и постоянно меняется мac на шлюзе 192.168.1.1 - и это наши абоны с разных VLAN? Работаем по PPPoE pool 172.16.x.x
       
    • By xtiv
      Отваливаються ONU по сигналу после DHCP запроса от роутера. Олт bdcom epon, последним временем все больше таких случаев случается, олт говорит что сигнала с ону нету, пока последнюю не перезагрузить по питанию, замена ону не помогает на новых тоже самое. При этом на другом олте та же онушка работает нормально, и наоборот. Может кто то сталкивался? Как можно решить?
      --------------
      1-й олт: P3310B Software, Version 10.1.0B Build 17696
      2-й олт: BDCOM(tm) P3310B Software, Version 10.1.0B Build 29333
    • By Poseidon
      Подскажите пожалуйста, как можно сделать, чтобы UBilling брал лог DHCP с микротик.  Надо MAC+IP который выдал дхцп сервер микрота, назначать абону статикой, если такой IP уже есть в базе биллинга, менять на свободный и отсылать на микротик.
    • By Baneff
      Доброго всем дня.
      Стояла себе сетка з раздачей адресов по DHCP c FreeBSD  сервака через isc-dhcp44-server и всё работало. Захотелось раздавать адреса не в соответствии с МАС адресами клиентов, а в соответствии с сетевым интерфейсом, через который клиент подключен независимо от его MAC адреса. Для этого понадобилось установить isc-dhcp44-relay, который умеет снимать имена интерфейсов с входных запросов и передавать их DHCP серверу. И тут вылезла проблема. Если isc-dhcp44-relay и isc-dhcp44-server находятся на физически разных компах, то всё работает без проблем. Однако, держать отдельно специальный комп только под isc-dhcp44-server как-то не хочется, хотелось бы всё это впихнуть на один комп и вот тут - никак. Эти два продукта одной фирмы садятся в сетевой стек очень глубоко, на уровне BPF и пытаются одновременно занять одни и те-же ресурсы. Попытка поместить isc-dhcp44-server в Jail и даже в виртуальную машину тоже успеха не принесла. Попытки заменить на продукты других разработчиков пока не дали работоспособной конфигурации тоже. Кто-то сталкивался с такой задачей? Есть хоть какая-то возможность совместить оба продукта ISC на одном FreeBSD компе? Или, возможно, есть другое рабочее решение для раздачи IP адресов клиентам не по MAC-ам, а по интерфейсам подключения с помощью одного FreeBSD компа?
      Спасибо.
    • By WideAreaNetwork
      подскажите пжл возможно ли организовать dhcp relay по такой схеме?
       
      dhcp_server-->Mikrotik1--> Mikrotik2-->Clients Mikrotik3-->Mikrotik4-->Clients  
×