Помогите разобраться со smartctl: Pre-Fail !?

kvirtu · 2017-04-17 17:49:50

всем привет !

Ось FreeBSD 9.3 , smartctl показал вот такую картинку :

Пробую еще 2 диска, та же картина с Pre-Fail ....

Это значит , что всем 3 дискам пипец пришел или есть варианты ???

Заранее спасибо.

adeep · 2017-04-17 19:10:53

Из всей картинки я нашел слово "Pre-fail" только в столбце типа значения. Надо сравнивать значение из столбика VALUE со столбиком THRESH, если оно около THRESH - беда.

Всякие Error_Read_Rate сложно соотнести к помиранию, это может быть нормой, это может быть проблема в кабеле и т.п.

Основные параметры умирания:

когда значения последнего столбика для Offline_uncorrectable, Total_Pending_Sectors больше нуля - это неисправимые ошибки на винте.

Если больше нуля Reallocated_Events_Count - это предвестник умирания винта.

kvirtu · 2017-04-17 19:19:21

В 17.04.2017 в 19:10, adeep сказав:

Из всей картинки я нашел слово "Pre-fail" только в столбце типа значения. Надо сравнивать значение из столбика VALUE со столбиком THRESH, если оно около THRESH - беда.

Всякие Error_Read_Rate сложно соотнести к помиранию, это может быть нормой, это может быть проблема в кабеле и т.п.

Основные параметры умирания:

когда значения последнего столбика для Offline_uncorrectable, Total_Pending_Sectors больше нуля - это неисправимые ошибки на винте.

Если больше нуля Reallocated_Events_Count - это предвестник умирания винта.

понял, спс.

Так, а почему же все таки Pre-fail ?

Как часто можно опрашивать винт на предмет , примеру , Reallocated_Events_Count - что бы лишний раз его не нагружать ?

adeep · 2017-04-17 19:26:25

В 17.04.2017 в 19:19, kvirtu сказав:

В 17.04.2017 в 19:10, adeep сказав:

Из всей картинки я нашел слово "Pre-fail" только в столбце типа значения. Надо сравнивать значение из столбика VALUE со столбиком THRESH, если оно около THRESH - беда.

Всякие Error_Read_Rate сложно соотнести к помиранию, это может быть нормой, это может быть проблема в кабеле и т.п.

Основные параметры умирания:

когда значения последнего столбика для Offline_uncorrectable, Total_Pending_Sectors больше нуля - это неисправимые ошибки на винте.

Если больше нуля Reallocated_Events_Count - это предвестник умирания винта.

понял, спс.

Так, а почему же все таки Pre-fail ?

Как часто можно опрашивать винт на предмет , примеру , Reallocated_Events_Count - что бы лишний раз его не нагружать ?

Это тип алярма. Pre-fail - значит значение изменится перед потенциальным умиранием винта. Считается в условных процентах. Последний столбец показывает raw - прямое значение счетчика.

Тип Old_age - показывает просто жизненный цикл винта. Количество start-stop циклов, время во включенном состоянии, прочитанное число байт и т.д.

Значения у разных винтов могут меняться.

smartmontools умеет демоном запускаться и по мере необходимости писать в почту руту или кому укажете в конфиге. Так и стоит это делать

Или настроить мониторинговую систему на опрос, раз в 5 минут не напряжет винт никак.

Вот кстати в тему из сегодняшнего syslog:

Apr 17 21:27:26 hh smartd[1246]: Device: /dev/sda [sAT], 224 Currently unreadable (pending) sectors

Apr 17 21:27:26 hh smartd[1246]: Device: /dev/sda [sAT], 224 Offline uncorrectable sectors

Apr 17 21:27:26 hh smartd[1246]: Device: /dev/sda [sAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 105 to 117

Apr 17 21:27:27 hh smartd[1246]: Device: /dev/sdb [sAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 32 to 31

Трындец винту в виде 224 невосстановимых секторов. И увеличение ошибок чтения как предвестник дальнейшего умирания.

Відредаговано 2017-04-17 19:29:50 adeep

kvirtu · 2017-04-17 19:45:18

Ну вот к примеру Reallocated Sector Count - Почему pre-FAil ? при значениях: Value=253 THRESH=10 RAW=0

adeep · 2017-04-17 20:01:57

В 17.04.2017 в 19:45, kvirtu сказав:
Ну вот к примеру Reallocated Sector Count - Почему pre-FAil ? при значениях: Value=253 THRESH=10 RAW=0

Блин. pre-fail - это не ситуация, это тип значения. Тип измерения. Группа счетчиков, если так будет понятнее - группа показывающая характеристики работоспособности винта, другая группа Old_age - показывает характеристики сколько успел за свою жизнь винт наработать.

Значения: Value = 253 - это высчитанная метрика по формулам смарта, чем больше - тем лучше.

THRESH = 10 - минимальное значение для VALUE когда винт будет кричать беда. То есть если Value опустится до этого значения, у винта в смарте сработает алярма.

RAW = 0 - фактическое (или абсолютное) значение.

Поскольку это значение обозначает количество секторов, то RAW можно расшифровать как 0 перемещенных (=восстановленных) секторов. За этим значением лучше наблюдать за фактическим значением, поскольку появление даже первого сектора может означать скорую кончину винта. А THRESH может сработать когда это значение будет, к примеру, пару сотен.

Відредаговано 2017-04-17 20:03:15 adeep

NiTr0 · 2017-04-17 20:29:10

В 17.04.2017 в 19:45, kvirtu сказав:
Почему pre-FAil ?

да потому что рост сигнализирует о грядущем отказе. потому и тип параметра - pre-fail.

у power-on hours рост - нормальное явление (т.к. винт работает, часики тикают), потому и тип - old-age.

в чем проблема-то?

kvirtu · 2017-04-18 06:28:23

Получается, что винт рабочий, но его сразу менять - как только появятся Reallocated Sector Count ?

Відредаговано 2017-04-18 06:28:37 kvirtu

KaYot · 2017-04-18 07:14:29

В 18.04.2017 в 06:28, kvirtu сказав:
Получается, что винт рабочий, но его сразу менять - как только появятся Reallocated Sector Count ?

В идеале да. Но в реальности единичные reallocated sectors вовсе не означают скорую смерть,

у диска есть некий запас этих самых запасных секторов и постепенная замена нестабильных новыми - вполне нормальный процесс.

Ну а по теме - выше правильно написали, Pre-fail это не более чем тип переменной. Если любая переменная этого вида быстро растет - значит винту приходит fail.

Відредаговано 2017-04-18 07:16:03 KaYot

kvirtu · 2017-04-18 07:23:39

в моем случае надо мониторить Reallocated Sector Count & Current Pending Sector Count.

В случае их роста - backup и замена ?

Відредаговано 2017-04-18 07:23:47 kvirtu

kvirtu · 2017-04-18 11:52:06

всем спасибо, разобрался , напишу как мне понятно:

Pre-fail - это Критичные атрибуты (параметры) для работы диска, за ними необходимо следить в первую очередь. Old_age - не критичные.Значение VALUE стало меньше THRESH для Pre-fail атрибута -  диск может вылетит в любую минуту - менять срочно.Если VALUE стало меньше THRESH в случае Old_age атрибута - есть большая вероятность, что диск вылетит, т.к. выработан его ресурс. Вот только когда - это как повезет.

adeep · 2017-04-18 12:28:17

В 18.04.2017 в 11:52, kvirtu сказав:

всем спасибо, разобрался , напишу как мне понятно:

Pre-fail - это Критичные атрибуты (параметры) для работы диска, за ними необходимо следить в первую очередь. Old_age - не критичные.Значение VALUE стало меньше THRESH для Pre-fail атрибута -  диск может вылетит в любую минуту - менять срочно.Если VALUE стало меньше THRESH в случае Old_age атрибута - есть большая вероятность, что диск вылетит, т.к. выработан его ресурс. Вот только когда - это как повезет.

Примерно так.

Следить надо за Reallocated Sectors - если число начало отличаться от нуля = поверхность начала сыпаться. Сколько она проживет - неизвестно. У меня есть винт который с 6 reallocated секторами и 1 невосстановимым прожил еще 10 лет (пришлось отрезать в конце винта кусок правда). А были случаи мгновенного роста reallocated до момента заполнения резервного места с последующим вылетом винта.

Ну а Current Pending Sector Count и Offline uncorrectable sectors - это уже можно выкидывать винт, но информацию еще можно спасти (кроме той что попалась на эти сектора)

Відредаговано 2017-04-18 12:28:36 adeep

kvirtu · 2017-04-18 13:09:40

В 18.04.2017 в 12:28, adeep сказав:
В 18.04.2017 в 11:52, kvirtu сказав:
всем спасибо, разобрался , напишу как мне понятно:
Pre-fail - это Критичные атрибуты (параметры) для работы диска, за ними необходимо следить в первую очередь. Old_age - не критичные.Значение VALUE стало меньше THRESH для Pre-fail атрибута -  диск может вылетит в любую минуту - менять срочно.Если VALUE стало меньше THRESH в случае Old_age атрибута - есть большая вероятность, что диск вылетит, т.к. выработан его ресурс. Вот только когда - это как повезет.
Примерно так.

Следить надо за Reallocated Sectors - если число начало отличаться от нуля = поверхность начала сыпаться. Сколько она проживет - неизвестно. У меня есть винт который с 6 reallocated секторами и 1 невосстановимым прожил еще 10 лет (пришлось отрезать в конце винта кусок правда). А были случаи мгновенного роста reallocated до момента заполнения резервного места с последующим вылетом винта.

Ну а Current Pending Sector Count и Offline uncorrectable sectors - это уже можно выкидывать винт, но информацию еще можно спасти (кроме той что попалась на эти сектора)

спасибо, Reallocated Sectors - поставил на мониторинг

foreverok · 2017-04-18 14:43:30

В 18.04.2017 в 07:23, kvirtu сказав:

в моем случае надо мониторить Reallocated Sector Count & Current Pending Sector Count.

В случае их роста - backup и замена ?

Поставьте 2 диска в зеркало. В случае выхода из строя одного из дисков, замените.

Відредаговано 2017-04-18 14:44:16 foreverok

adeep · 2017-04-18 17:29:35

В 18.04.2017 в 14:43, foreverok сказав:

В 18.04.2017 в 07:23, kvirtu сказав:

в моем случае надо мониторить Reallocated Sector Count & Current Pending Sector Count.

В случае их роста - backup и замена ?

Поставьте 2 диска в зеркало. В случае выхода из строя одного из дисков, замените.

если бы это решало все проблемы

foreverok · 2017-04-18 18:07:47

В 18.04.2017 в 17:29, adeep сказав:

В 18.04.2017 в 14:43, foreverok сказав:

В 18.04.2017 в 07:23, kvirtu сказав:

в моем случае надо мониторить Reallocated Sector Count & Current Pending Sector Count.

В случае их роста - backup и замена ?

Поставьте 2 диска в зеркало. В случае выхода из строя одного из дисков, замените.

если бы это решало все проблемы

Все? Это что вы имеете ввиду?

Зеркало решает только проблему с поломкой одного из дисков.

NiTr0 · 2017-04-18 19:20:28

В 18.04.2017 в 12:28, adeep сказав:
Ну а Current Pending Sector Count и Offline uncorrectable sectors - это уже можно выкидывать винт, но информацию еще можно спасти (кроме той что попалась на эти сектора)

собссно пендинги - те, которые уже не читаются, но еще не попали в реаллокейты. пендинг попадает в реаллокейт при записи в него (вернее, если записался успешно - не попадает, нечитаем после записи - идет в реаллокейты).

минуя пендинги в реаллокейты вроде как ничего не попадает (я вроде не встречал винтов, которые сами переносят инфу из плохо читаемого сектора в резервный, делая реаллокейт).

Увійти

Помогите разобраться со smartctl: Pre-Fail !?

Рекомендованные сообщения

kvirtu 315

Ссылка на сообщение

Поделиться на других сайтах

adeep 212

Ссылка на сообщение

Поделиться на других сайтах

kvirtu 315

Ссылка на сообщение

Поделиться на других сайтах

adeep 212

Ссылка на сообщение

Поделиться на других сайтах

kvirtu 315

Ссылка на сообщение

Поделиться на других сайтах

adeep 212

Ссылка на сообщение

Поделиться на других сайтах

NiTr0 585

Ссылка на сообщение

Поделиться на других сайтах

kvirtu 315

Ссылка на сообщение

Поделиться на других сайтах

KaYot 3 732

Ссылка на сообщение

Поделиться на других сайтах

kvirtu 315

Ссылка на сообщение

Поделиться на других сайтах

kvirtu 315

Ссылка на сообщение

Поделиться на других сайтах

adeep 212

Ссылка на сообщение

Поделиться на других сайтах

kvirtu 315

Ссылка на сообщение

Поделиться на других сайтах

foreverok 95

Ссылка на сообщение

Поделиться на других сайтах

adeep 212

Ссылка на сообщение

Поделиться на других сайтах

foreverok 95

Ссылка на сообщение

Поделиться на других сайтах

NiTr0 585

Ссылка на сообщение

Поделиться на других сайтах

Создайте аккаунт или войдите в него для комментирования

Создать аккаунт

Вхід

Зараз на сторінці 0 користувачів

KaYot 3 732