Jump to content

Сбор багов и feature requests


Recommended Posts

Пробую установить впервые

Версия Stg v. 2.407

тренируюсь на кошках, ставлю в виртуальной машине на свежеустановленный и обновленный Debian Squeeze

После доустановки нужных компонентов сервер собрался и установился нормально

(build я перед этим не правил)

пытаюсь запустить:

 

устанавливал и пытался запускать рутом. В чем может быть причина, почему не видится файл конфигурации?

А вы делали симлинк из conf-available.d в conf-enabled.d на модуль хранения?

Link to post
Share on other sites
  • Replies 512
  • Created
  • Last Reply

Top Posters In This Topic

Top Posters In This Topic

Popular Posts

Не выбор кодировки а исключительно Unicode. Не понимаю людей которые до сих пор пользуются koi8/cp1251/cp866 и прочими пережитками прошлого.

Допиливаю rc3

Вот у меня есть некая функция, которая вытягивает из тарифа скорость. А, еще что забыл, в названии тарифного плана, должна стоять скорость, например: Думаю идея ясна. Чем хороша эта функци, тем, чт

Posted Images

 

А вы делали симлинк из conf-available.d в conf-enabled.d на модуль хранения?

 

нет конечно, я ведь делал все по инструкции, сначала раздел "2.2 Запуск сервера", а до раздела "3 Настройка системы" я еще не дошел :rolleyes:

 

Спасибо.

Link to post
Share on other sites
  • 5 months later...

FreeBSD 8.2-p2, установлен Stargazer stg-2.407-p1.

Периодически в конфигураторе выскакивает сообщение "Recv header answer error", а у пользователей inetaccess загорается красным и не реконнектится. Файлы монитора продолжают писаться.

При попытке зайти телнетом на config порт соединение сбрасывается.

В лог ничего военного не пишет.

Что можно с этим сделать и какая статистика необходима по проблеме ?

 

2011-10-18 16:28:09 -- Stg v. 2.407-p1

2011-10-18 16:28:09 -- Message queue created successfully. msgKey=5555 msgID=524288

2011-10-18 16:28:09 -- Timer thread started successfully.

2011-10-18 16:28:09 -- Storage plugin: mysql_store v.0.67. Loading successfull.

2011-10-18 16:28:10 -- Users started successfully.

2011-10-18 16:28:10 -- Traffcounter started successfully.

2011-10-18 16:28:10 -- Module: 'bpf_cap v.1.0'. Start successfull.

2011-10-18 16:28:10 -- Module: 'InetAccess authorization plugin v.1.4'. Start successfull.

2011-10-18 16:28:33 -- Module: 'Always Online authorizator v.1.0'. Start successfull.

2011-10-18 16:28:33 -- Module: 'Pinger v.1.01'. Start successfull.

2011-10-18 16:28:33 -- Module: 'Stargazer RPC v. 0.2'. Start successfull.

2011-10-18 16:28:33 -- Module: 'Stg configurator v.0.08'. Start successfull.

2011-10-18 16:28:33 -- Stg started successfully.

Link to post
Share on other sites

вытянул 2.408-rc2 и сегодня после очередного падения сегодня в срочном порядке поставил его.

Итог: он даже не стартует полностью, виснет где-то в процессе авторизации пользователей с галочкой 'Always Online'

Конфигуратор выдает ту же ошибку "Recv header answer error", авторизатор висит, у юзеров inetaccess горит красным.

2011-10-19 13:20:04 -- Stg v. 2.408-rc1

2011-10-19 13:20:04 -- Message queue created successfully. msgKey=5555 msgID=720896

2011-10-19 13:20:04 -- Timer thread started successfully.

2011-10-19 13:20:04 -- Storage plugin: mysql_store v.0.67. Loading successfull.

2011-10-19 13:20:05 -- Users started successfully.

2011-10-19 13:20:05 -- Traffcounter started successfully.

2011-10-19 13:20:05 -- Module: 'bpf_cap v.1.0'. Start successfull.

2011-10-19 13:20:05 -- Module: 'InetAccess authorization plugin v.1.4'. Start successfull.

2011-10-19 13:20:05 -- Module: 'Always Online authorizator v.1.0'. Start successfull.

2011-10-19 13:20:05 -- Module: 'Pinger v.1.01'. Start successfull.

2011-10-19 13:20:05 -- Module: 'Stargazer RPC v. 0.2'. Start successfull.

2011-10-19 13:20:05 -- Module: 'Stg configurator v.0.08'. Start successfull.

2011-10-19 13:20:05 -- Stg started successfully.

2011-10-19 13:20:05 -- +++++++++++++++++++++++++++++++++++++++++++++

 

после этого мы виснем, попытка корректного рестарта ни к чему не приводит, какой то из модулей не стопится, приходится убивать все по kill -9, запускаем снова и снова почти сразу виснем (через 3-5 секунд). После чего в спешке возвращаем старый 2.407, который запускается нормально и пока работает.

вот кусок лога попытки останова 2.408-rc2 и последующий его рестарт, обращает на себя ошибка конфигуратора и полторы минуты его зависона перед тем как выдать ошибку

2011-10-19 13:21:47 -- +++++++++++++++++++++++++++++++++++++++++++++

2011-10-19 13:21:48 -- Module: 'Stargazer RPC v. 0.2'. Stop successfull.

2011-10-19 13:23:08 -- Module 'Stg configurator v.0.08': Error:

2011-10-19 13:23:08 -- Module: 'Stg configurator v.0.08'. Stop successfull.

2011-10-19 13:24:34 -- Stg v. 2.408-rc1

2011-10-19 13:24:34 -- Message queue created successfully. msgKey=5555 msgID=786432

2011-10-19 13:24:34 -- Timer thread started successfully.

2011-10-19 13:24:34 -- Storage plugin: mysql_store v.0.67. Loading successfull.

2011-10-19 13:24:35 -- Users started successfully.

2011-10-19 13:24:35 -- Traffcounter started successfully.

2011-10-19 13:24:35 -- Module: 'bpf_cap v.1.0'. Start successfull.

2011-10-19 13:24:35 -- Module: 'InetAccess authorization plugin v.1.4'. Start successfull.

2011-10-19 13:24:35 -- Module: 'Always Online authorizator v.1.0'. Start successfull.

2011-10-19 13:24:35 -- Module: 'Pinger v.1.01'. Start successfull.

2011-10-19 13:24:35 -- Module: 'Stargazer RPC v. 0.2'. Start successfull.

2011-10-19 13:24:35 -- Module: 'Stg configurator v.0.08'. Start successfull.

2011-10-19 13:24:35 -- Stg started successfully.

Link to post
Share on other sites

вытянул 2.408-rc2 и сегодня после очередного падения сегодня в срочном порядке поставил его.

Итог: он даже не стартует полностью, виснет где-то в процессе авторизации пользователей с галочкой 'Always Online'

Конфигуратор выдает ту же ошибку "Recv header answer error", авторизатор висит, у юзеров inetaccess горит красным.

...

Занятно.

1. Есть ли уверенность в том что rc2 был корректно установлен? Что плагины, которые он подгружал, были именно его версии, а не остались от 2.407?

2. Есть ли возможность повторить это зависание и в момент зависания выполнить следующее:

$ cat /var/run/stargazer.pid

запомнить PID

$ gdb /usr/sbin/stargazer

(gdb) attach <PID> - тут указать запомненный PID

(gdb) thread attch all bt

вывод этой комманды сохранить и либо отправить мне по почте на faust@stg.dp.ua либо выложить на каком-нибуть pastebin.

(gdb) detach

(gdb) quit

3. Сколько примерно юзеров всего в базе и сколько из них имеют флаг alwaysOnline?

Link to post
Share on other sites

1. я собирал и ставил projects/stargazer, projects/sgconf, projects/sgconf_xml, в соответствии с инструкцией, остальное мною не используется. за последние несколько дней эту операцию я производил уже около десятка раз с разными версиями, всякий раз по крайней мере бинарники заменялись новыми версиями, насчет библиотек я не уверен на 100%, но сейчас все .so библиотеки от 2.407, а все .a - от 2.408-rc2

2. как только оно упадет, я соберу данные gdb c 2.407 и с 2.408

3. всего 728 юзеров, с always online - 270.

Link to post
Share on other sites

Я уже рапортовал о проблеме долго запуска СТГ.

 

2011-10-19 05:35:01 -- +++++++++++++++++++++++++++++++++++++++++++++
2011-10-19 05:35:01 -- Module: 'Stg configurator v.0.08'. Stop successfull.
2011-10-19 05:35:02 -- Module: 'Pinger v.1.01'. Stop successfull.
2011-10-19 05:36:31 -- Stg v. 2.407-p1
2011-10-19 05:36:31 -- Message queue created successfully. msgKey=5555 msgID=163840
2011-10-19 05:36:31 -- Timer thread started successfully.
2011-10-19 05:36:31 -- Storage plugin: file_store v.1.04. Loading successfull.
2011-10-19 05:36:32 -- Users started successfully.
2011-10-19 05:36:32 -- Traffcounter started successfully.
2011-10-19 05:36:32 -- Module: 'Ether_cap v.1.2'. Start successfull.
2011-10-19 05:36:32 -- Module: 'InetAccess authorization plugin v.1.4'. Start successfull.
2011-10-19 05:38:59 -- Module: 'Always Online authorizator v.1.0'. Start successfull.
2011-10-19 05:39:03 -- Module: 'Pinger v.1.01'. Start successfull.
2011-10-19 05:39:03 -- Module: 'Stg configurator v.0.08'. Start successfull.
2011-10-19 05:39:03 -- Stg started successfully.
2011-10-19 05:39:03 -- +++++++++++++++++++++++++++++++++++++++++++++

Как видим запуск

2011-10-19 05:36:32 -- Module: 'InetAccess authorization plugin v.1.4'. Start successfull.
2011-10-19 05:38:59 -- Module: 'Always Online authorizator v.1.0'. Start successfull.

Почти 2 минуты. База - файловая. Юзеров 1,5к всегда в онлайне около 70.

Дебаг на продакшен сервере сделать не могу.

При рестарте стг в новом авторизаторе (2.61-11.8) вылазит Dysconnect SYN.

Авторизаторы подключаются в течении 5-ти минут после старта СТГ. Старые авторизаторы подключаются чуть быстрее.

Link to post
Share on other sites

1. я собирал и ставил projects/stargazer, projects/sgconf, projects/sgconf_xml, в соответствии с инструкцией, остальное мною не используется. за последние несколько дней эту операцию я производил уже около десятка раз с разными версиями, всякий раз по крайней мере бинарники заменялись новыми версиями, насчет библиотек я не уверен на 100%, но сейчас все .so библиотеки от 2.407, а все .a - от 2.408-rc2

...

В 2.408 больше не используются динамические библиотеки, по этому *.so остались от 2.407. МИеня больше интересуют файлы mod_*.so (которые плагины). Не получилось ли так что они остались от старой версии?

Link to post
Share on other sites

Я уже рапортовал о проблеме долго запуска СТГ.

 

2011-10-19 05:35:01 -- +++++++++++++++++++++++++++++++++++++++++++++
2011-10-19 05:35:01 -- Module: 'Stg configurator v.0.08'. Stop successfull.
2011-10-19 05:35:02 -- Module: 'Pinger v.1.01'. Stop successfull.
2011-10-19 05:36:31 -- Stg v. 2.407-p1
2011-10-19 05:36:31 -- Message queue created successfully. msgKey=5555 msgID=163840
2011-10-19 05:36:31 -- Timer thread started successfully.
2011-10-19 05:36:31 -- Storage plugin: file_store v.1.04. Loading successfull.
2011-10-19 05:36:32 -- Users started successfully.
2011-10-19 05:36:32 -- Traffcounter started successfully.
2011-10-19 05:36:32 -- Module: 'Ether_cap v.1.2'. Start successfull.
2011-10-19 05:36:32 -- Module: 'InetAccess authorization plugin v.1.4'. Start successfull.
2011-10-19 05:38:59 -- Module: 'Always Online authorizator v.1.0'. Start successfull.
2011-10-19 05:39:03 -- Module: 'Pinger v.1.01'. Start successfull.
2011-10-19 05:39:03 -- Module: 'Stg configurator v.0.08'. Start successfull.
2011-10-19 05:39:03 -- Stg started successfully.
2011-10-19 05:39:03 -- +++++++++++++++++++++++++++++++++++++++++++++

Как видим запуск

2011-10-19 05:36:32 -- Module: 'InetAccess authorization plugin v.1.4'. Start successfull.
2011-10-19 05:38:59 -- Module: 'Always Online authorizator v.1.0'. Start successfull.

Почти 2 минуты. База - файловая. Юзеров 1,5к всегда в онлайне около 70.

Дебаг на продакшен сервере сделать не могу.

При рестарте стг в новом авторизаторе (2.61-11.8) вылазит Dysconnect SYN.

Авторизаторы подключаются в течении 5-ти минут после старта СТГ. Старые авторизаторы подключаются чуть быстрее.

В 2.408 это тоже проявляется?

Link to post
Share on other sites

 

В 2.408 больше не используются динамические библиотеки, по этому *.so остались от 2.407. МИеня больше интересуют файлы mod_*.so (которые плагины). Не получилось ли так что они остались от старой версии?

 

да нет, это очень врядли, во время инсталла они затираются новыми версиями, в любом случае теперь перед инсталлом я обязательно сделаю rm -f /usr/lib/stg/*

пока жду, что оно упадет, пока не падает, 2.407-p1 падал где-то раз в сутки, сейчас крутится 2.407

Link to post
Share on other sites

В 2.408 это тоже проявляется?

2.408 пока не ставил.

В 2.408 существенно поменялся процесс авторизации. Может само исправилось...

Link to post
Share on other sites

2.407-p1 не падает работает нормально. Кроме вот такого небольшого бага при запуске больше не отловил. Ставить 2.408 пока нет желания. Возможно на него перейду вместе с Убиллингом после финала (:

Link to post
Share on other sites

Нет, ну так никуда не годится. Неужели негде смоделировать ситуацию? Хотя-бы на рабочей машине? Никто больше о таком не заявлял.

Link to post
Share on other sites

Прошу прощения за задержку с ответом, но до сегодняшнего дня выкладывать было нечего, 2.407 не падал.

После общения с манагерами этой домосети выяснилось, что они научились прогнозировать его падения, в зависимости

от своих действий в конфигураторе, те. например после заведения(изменения) юзера в определенном тарифе, и(или) с определенным набором

опций, конфигуратор зависал, и вместе с ним зависал старгазер, причем последний зависал намертво и попытки подключиться к нему

уже ни к чему уже не приводили. Причем завести юзера в другом тарифе и потом переключить на этот проблемный было вполне возможно.

Прямо при мне это было продемонстрировано, 2.407 упал, и дамп был снят (http://pastebin.com/4zqdiqTB)

 

После этого я снес все, что было в /usr/lib/stg, собрал и проинсталлил projects/stargazer из 2.408-rc2

projects/sgconf и projects/sgconf_xml я не трогал, и они остались от старого 2.407

В таком виде все запустилось и заработало, причем запустилось гораздо быстрее, чем 2.407, который обычно запускался больше минуты,

этот секунды через 2 уже принимал соединения.

Потом манагеры попробовали уложить его разными способами, но у них не получалось - конфигуратор либо выдавал ошибку

"пользователь не был создан", либо падал с "invalid exception fault", либо отваливался от старгазера с "connection reset by peer", либо зависал сам по себе,

но ни разу это не привело к падению или зависанию самого stg.

Не знаю с чем это связано, то ли с тем, что я очистил /usr/lib/stg перед установкой нового stg, то ли с тем, что я использовал sgconf от старого релиза,

но факт остается фактом, бектрейса упавшего 2.408-rc2 получить мне _пока_ не удалось, а в прошлую его установку он падал почти сразу..

сейчас работает 2.408-rc2, пока без нареканий.

 

2011-10-25 18:38:48 -- Stg v. 2.408-rc1

2011-10-25 18:38:48 -- Message queue created successfully. msgKey=5555 msgID=393216

2011-10-25 18:38:48 -- Timer thread started successfully.

2011-10-25 18:38:48 -- Storage plugin: mysql_store v.0.67. Loading successfull.

2011-10-25 18:38:49 -- Users started successfully.

2011-10-25 18:38:49 -- Traffcounter started successfully.

2011-10-25 18:38:49 -- Module: 'bpf_cap v.1.0'. Start successfull.

2011-10-25 18:38:49 -- Module: 'InetAccess authorization plugin v.1.4'. Start successfull.

2011-10-25 18:38:49 -- Module: 'Always Online authorizator v.1.0'. Start successfull.

2011-10-25 18:38:49 -- Module: 'Pinger v.1.01'. Start successfull.

2011-10-25 18:38:49 -- Module: 'Stargazer RPC v. 0.2'. Start successfull.

2011-10-25 18:38:49 -- Module: 'Stg configurator v.0.08'. Start successfull.

2011-10-25 18:38:49 -- Stg started successfully.

2011-10-25 18:38:49 -- +++++++++++++++++++++++++++++++++++++++++++++

Link to post
Share on other sites
  • 3 weeks later...

Жесть какая. Судя по дампу, у вас обрушились одновременно аж 6 нитей с повреждением стека. У вас с hardware все в порядке? Память не битая, проц не перегревается?

Link to post
Share on other sites

Да нет, с железом там все в порядке, оно совсем новое, и выдержало стрестесты, после этого сервер даже не перегружался, его аптайм уже почти месяц, старгазер просто перестрелили и поехали дальше.

Пока падать перестал.

Link to post
Share on other sites

Просто в представленных вами дампах вообще нет никакого смысла. Как будто все работало-работало, а потом бац - и перестало. Магическим образом.

Я бы память все-таки проверил.

Link to post
Share on other sites

Вот взять, например, вот этот кусок стека:

#9  0x080c9bbe in std::_Rb_tree<RAW_PACKET, std::pair<RAW_PACKET const, PACKET_EXTRA_DATA>, std::_Select1st<std::pair<RAW_PACKET const, PACKET_EXTRA_DATA> >, std::less<RAW_PACKET>, std::allocator<std::pair<RAW_PACKET const, PACKET_EXTRA_DATA> > >::_S_key ()
#10 0x28157b98 in pthread_mutex_getprioceiling () from /lib/libthr.so.3
#11 0x080a3583 in STG_LOCKER::STG_LOCKER ()

По нему выходит что конструктор класса STG_LOCKER (который только захватывает мьютекс) начинает вдруг заниматься разбором пакетов. В нем нет такого кода!

Такое может произойти только если внутри вызова конструктора разрушается стек. Но внутри него происходят только вызовы функций из системной libpthread.so - а уж они-то точно не могут содержать ошибок, иначе весь сервер глючил бы.

Есть, конечно, вариант, что сам вызов происходит при уже разрушенном стеке, но тогда непонятно кто его разрушает. TRAFFCOUNTER_IMPL::Process() что-ли?

Патчи на код какие-нибуть накладывались?

Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
  • Recently Browsing   0 members

    No registered users viewing this page.


×
×
  • Create New...