Sanito 129 Опубликовано: 2010-12-08 09:02:02 Share Опубликовано: 2010-12-08 09:02:02 Всем привет. Может кто-то сталкивался, но я так и не понял что это было. Имеется FreeBSD 8.1, неожиданно начала пропадать. С трудом удалось удаленно зайти на машину и увидеть на ней такую картину по top -P: CPU 0: 0.0% user, 0.0% nice, 100.0% system, 0.0% interrupt, 0.0% idleCPU 1: 0.0% user, 0.0% nice, 100.0% system, 0.0% interrupt, 0.0% idle CPU 2: 0.0% user, 0.0% nice, 100.0% system, 0.0% interrupt, 0.0% idle CPU 3: 0.0% user, 0.0% nice, 36.5% system, 0.0% interrupt, 63.5% idle по top -S: 0 root 12 -68 0 0K 176K - 3 91:10 295.75% kernel Первым правилом фаервола там ipfw deny ip from not 'table(77)' to me В таблице 77 только разрешенные блоки и адреса, т.е. dos исключается (исключается ли?). Через минут 20 всё стабилизировалось так же неожиданно как и началось. Вопрос - что это могло быть? Что может делать кернел на трёх ядрах по 100%? Ссылка на сообщение Поделиться на других сайтах
alex_o 1 194 Опубліковано: 2010-12-08 09:07:27 Share Опубліковано: 2010-12-08 09:07:27 Ну так как интерапты были по 0%, то это не дос. Ищите процессы в ядре. Ссылка на сообщение Поделиться на других сайтах
Sanito 129 Опубліковано: 2010-12-08 09:19:05 Автор Share Опубліковано: 2010-12-08 09:19:05 Ищите процессы в ядре. Намекните как) Ядро - GENERIC, пересобранное без FLOWTABLE Ссылка на сообщение Поделиться на других сайтах
assasinwar 7 Опубліковано: 2010-12-08 09:47:29 Share Опубліковано: 2010-12-08 09:47:29 Вы лучше в подробностях опишите что на сервере крутится? ps ax предоставте Ссылка на сообщение Поделиться на других сайтах
Mobil 68 Опубліковано: 2010-12-08 10:32:02 Share Опубліковано: 2010-12-08 10:32:02 вообще 8.1 Realese оказался полной лажей( Ссылка на сообщение Поделиться на других сайтах
VitalyMoiseev 112 Опубліковано: 2010-12-08 10:38:24 Share Опубліковано: 2010-12-08 10:38:24 вообще 8.1 Realese оказался полной лажей( Прикинь, а пацаны то и не знают! (с) У кучи народа (и у меня в том числе) на 8,1 куча серверов пашут без проблем. Может мы че не так делаем? Ссылка на сообщение Поделиться на других сайтах
Sanito 129 Опубліковано: 2010-12-08 12:45:09 Автор Share Опубліковано: 2010-12-08 12:45:09 ps -ax: PID TT STAT TIME COMMAND 0 ?? DLs 272:49.07 [kernel] 1 ?? ILs 0:00.00 /sbin/init -- 2 ?? DL 0:00.57 [g_event] 3 ?? DL 0:11.38 [g_up] 4 ?? DL 0:03.26 [g_down] 5 ?? DL 0:00.05 [fdc0] 6 ?? DL 0:00.00 [sctp_iterator] 7 ?? DL 0:11.81 [pfpurge] 8 ?? DL 0:00.00 [xpt_thrd] 9 ?? DL 0:00.01 [pagedaemon] 10 ?? DL 0:00.00 [audit] 11 ?? RL 824:07.48 [idle] 12 ?? WL 1:37.20 [intr] 13 ?? DL 0:25.55 [yarrow] 14 ?? DL 0:00.00 [vmdaemon] 15 ?? DL 0:00.00 [pagezero] 16 ?? DL 0:00.02 [idlepoll] 17 ?? DL 0:00.54 [bufdaemon] 18 ?? DL 0:00.06 [vnlru] 19 ?? DL 0:03.06 [syncer] 20 ?? DL 0:02.93 [softdepflush] 1175 ?? Is 0:00.44 /usr/local/sbin/zebra -d 1181 ?? Ss 0:02.89 /usr/local/sbin/bgpd -d 1378 ?? Is 0:00.00 /sbin/devd 1668 ?? Is 0:00.03 /usr/sbin/syslogd -l /var/run/log -l /var/named/var/run/log -s 2163 ?? Is 0:00.00 /usr/sbin/sshd 2174 ?? Is 0:00.03 /usr/sbin/cron -s 2291 ?? Is 0:00.05 sshd: sanito [priv] (sshd) 2294 ?? S 0:01.96 sshd: sanito@pts/0 (sshd) 25074 ?? Is 0:00.27 /usr/sbin/named -t /var/named -u bind 25084 ?? S 0:07.11 /usr/local/sbin/snmpd -p /var/run/snmpd.pid 25093 ?? Is 0:00.00 nginx: master process /usr/local/sbin/nginx 25094 ?? IN 0:00.02 nginx: worker process (nginx) 2283 v0 Is+ 0:00.00 /usr/libexec/getty Pc ttyv0 2284 v1 Is+ 0:00.00 /usr/libexec/getty Pc ttyv1 2285 v2 Is+ 0:00.00 /usr/libexec/getty Pc ttyv2 2286 v3 Is+ 0:00.00 /usr/libexec/getty Pc ttyv3 2287 v4 Is+ 0:00.00 /usr/libexec/getty Pc ttyv4 2288 v5 Is+ 0:00.00 /usr/libexec/getty Pc ttyv5 2289 v6 Is+ 0:00.00 /usr/libexec/getty Pc ttyv6 2290 v7 Is+ 0:00.00 /usr/libexec/getty Pc ttyv7 2295 0 Is 0:00.00 -bash (bash) 2296 0 I 0:00.00 sudo -s 2297 0 I 0:00.00 /usr/local/bin/bash 2298 0 S+ 0:00.99 mc -b 2299 1 Ss 0:00.13 bash -rcfile .bashrc 3856 1 R+ 0:00.00 ps -ax Ссылка на сообщение Поделиться на других сайтах
Sanito 129 Опубліковано: 2010-12-08 15:41:05 Автор Share Опубліковано: 2010-12-08 15:41:05 В общем, как обычно всё оказалось просто. 99.9% что виноват винт, которой скоро накроется медным тазом: kernel: ad0: TIMEOUT - WRITE_DMA retrying (1 retry left) LBA=54471455kernel: ad0: WARNING - WRITE_DMA requeued due to channel reset LBA=171160635 kernel: ad0: TIMEOUT - WRITE_DMA retrying (1 retry left) LBA=171154579 kernel: g_vfs_done():ad0s1d[WRITE(offset=84412987392, length=2048)]error = 5 Вылезло недавно. И машина зависла. Ссылка на сообщение Поделиться на других сайтах
natiss 16 Опубліковано: 2010-12-08 16:08:46 Share Опубліковано: 2010-12-08 16:08:46 а fsck что говорит? я заметил, что в новых фрях, когда непроверенный раздел монтируется и потом мусолится фсцк в бэкграунде бывает и не такое. надо несколько раз прогнать fsck до устанения всех ошибок и всё в порядке. Ссылка на сообщение Поделиться на других сайтах
Sanito 129 Опубліковано: 2010-12-08 17:56:47 Автор Share Опубліковано: 2010-12-08 17:56:47 fsck говорит что всё в порядке. машина зависла просто так, не после ребута. Ссылка на сообщение Поделиться на других сайтах
alex_o 1 194 Опубліковано: 2010-12-08 18:04:04 Share Опубліковано: 2010-12-08 18:04:04 Наверное действительно винт/его шнур/сата-контролер. Там ведь контролер по-старинке прерывание юзает не только программное, но и аппаратное (NMI). Оно как раз и может ввести проц в абсолютный ступор, и не отслеживается ничем, потому как оно безусловное неоткладываемое и неотвратимое . Ссылка на сообщение Поделиться на других сайтах
Рекомендованные сообщения
Создайте аккаунт или войдите в него для комментирования
Вы должны быть пользователем, чтобы оставить комментарий
Создать аккаунт
Зарегистрируйтесь для получения аккаунта. Это просто!
Зарегистрировать аккаунтВхід
Уже зарегистрированы? Войдите здесь.
Войти сейчас