Перейти до

Помогите разобраться со smartctl: Pre-Fail !?


Рекомендованные сообщения

всем привет !

Ось FreeBSD 9.3 , smartctl показал вот такую картинку :

 

b6d66695dc8a.jpg

 

Пробую еще 2 диска, та же картина с Pre-Fail  ....

Это значит , что  всем 3 дискам пипец пришел или есть варианты ???

Заранее спасибо.

Ссылка на сообщение
Поделиться на других сайтах

Из всей картинки я нашел слово "Pre-fail" только в столбце типа значения. Надо сравнивать значение из столбика VALUE со столбиком THRESH, если оно около THRESH - беда.

 

Всякие Error_Read_Rate сложно соотнести к помиранию, это может быть нормой, это может быть проблема в кабеле и т.п.

 

Основные параметры умирания:

когда значения последнего столбика для Offline_uncorrectable, Total_Pending_Sectors больше нуля - это неисправимые ошибки на винте.

Если больше нуля Reallocated_Events_Count - это предвестник умирания винта.

Ссылка на сообщение
Поделиться на других сайтах

Из всей картинки я нашел слово "Pre-fail" только в столбце типа значения. Надо сравнивать значение из столбика VALUE со столбиком THRESH, если оно около THRESH - беда.

 

Всякие Error_Read_Rate сложно соотнести к помиранию, это может быть нормой, это может быть проблема в кабеле и т.п.

 

Основные параметры умирания:

когда значения последнего столбика для Offline_uncorrectable, Total_Pending_Sectors больше нуля - это неисправимые ошибки на винте.

Если больше нуля Reallocated_Events_Count - это предвестник умирания винта.

понял, спс.

Так, а почему же все таки Pre-fail ?

Как часто можно опрашивать винт на предмет ,  примеру , Reallocated_Events_Count - что бы лишний раз его не нагружать ?

Ссылка на сообщение
Поделиться на других сайтах

 

Из всей картинки я нашел слово "Pre-fail" только в столбце типа значения. Надо сравнивать значение из столбика VALUE со столбиком THRESH, если оно около THRESH - беда.

 

Всякие Error_Read_Rate сложно соотнести к помиранию, это может быть нормой, это может быть проблема в кабеле и т.п.

 

Основные параметры умирания:

когда значения последнего столбика для Offline_uncorrectable, Total_Pending_Sectors больше нуля - это неисправимые ошибки на винте.

Если больше нуля Reallocated_Events_Count - это предвестник умирания винта.

понял, спс.

Так, а почему же все таки Pre-fail ?

Как часто можно опрашивать винт на предмет ,  примеру , Reallocated_Events_Count - что бы лишний раз его не нагружать ?

 

Это тип алярма. Pre-fail - значит значение изменится перед потенциальным умиранием винта. Считается в условных процентах. Последний столбец показывает raw - прямое значение счетчика.

Тип Old_age - показывает просто жизненный цикл винта. Количество start-stop циклов, время во включенном состоянии, прочитанное число байт и т.д.

Значения у разных винтов могут меняться.

 

smartmontools умеет демоном запускаться и по мере необходимости писать в почту руту или кому укажете в конфиге. Так и стоит это делать :)

Или настроить мониторинговую систему на опрос, раз в 5 минут не напряжет винт никак.

 

Вот кстати в тему из сегодняшнего syslog:

Apr 17 21:27:26 hh smartd[1246]: Device: /dev/sda [sAT], 224 Currently unreadable (pending) sectors

Apr 17 21:27:26 hh smartd[1246]: Device: /dev/sda [sAT], 224 Offline uncorrectable sectors

Apr 17 21:27:26 hh smartd[1246]: Device: /dev/sda [sAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 105 to 117

Apr 17 21:27:27 hh smartd[1246]: Device: /dev/sdb [sAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 32 to 31

 

Трындец винту в виде 224 невосстановимых секторов. И увеличение ошибок чтения как предвестник дальнейшего умирания.

Відредаговано adeep
Ссылка на сообщение
Поделиться на других сайтах

Ну вот к примеру Reallocated Sector Count - Почему pre-FAil ? при значениях:  Value=253 THRESH=10 RAW=0

Блин. pre-fail - это не ситуация, это тип значения. Тип измерения. Группа счетчиков, если так будет понятнее - группа показывающая характеристики работоспособности винта, другая группа Old_age - показывает характеристики сколько успел за свою жизнь винт наработать.

 

Значения: Value = 253 - это высчитанная метрика по формулам смарта, чем больше - тем лучше.

THRESH = 10 - минимальное значение для VALUE когда винт будет кричать беда. То есть если Value опустится до этого значения, у винта в смарте сработает алярма.

RAW = 0 - фактическое (или абсолютное) значение.

 

Поскольку это значение обозначает количество секторов, то RAW можно расшифровать как 0 перемещенных (=восстановленных) секторов. За этим значением лучше наблюдать за фактическим значением, поскольку появление даже первого сектора может означать скорую кончину винта. А THRESH может сработать когда это значение будет, к примеру, пару сотен.

Відредаговано adeep
Ссылка на сообщение
Поделиться на других сайтах

 

 

Почему pre-FAil ?

да потому что рост сигнализирует о грядущем отказе. потому и тип параметра - pre-fail.

у power-on hours рост - нормальное явление (т.к. винт работает, часики тикают), потому и тип - old-age.

в чем проблема-то?

Ссылка на сообщение
Поделиться на других сайтах
Опубліковано: (відредаговано)

Получается, что винт рабочий, но его сразу менять - как только появятся Reallocated Sector Count ?

Відредаговано kvirtu
Ссылка на сообщение
Поделиться на других сайтах

Получается, что винт рабочий, но его сразу менять - как только появятся Reallocated Sector Count ?

В идеале да. Но в реальности единичные reallocated sectors вовсе не означают скорую смерть,

у диска есть некий запас этих самых запасных секторов и постепенная замена нестабильных новыми - вполне нормальный процесс.

Ну а по теме - выше правильно написали, Pre-fail это не более чем тип переменной. Если любая переменная этого вида быстро растет - значит винту приходит fail.

Відредаговано KaYot
Ссылка на сообщение
Поделиться на других сайтах
Опубліковано: (відредаговано)

в моем случае надо мониторить Reallocated Sector Count & Current Pending Sector Count.

В случае их роста - backup и замена ?

Відредаговано kvirtu
Ссылка на сообщение
Поделиться на других сайтах

всем спасибо, разобрался :)  , напишу как мне понятно:

Pre-fail - это Критичные атрибуты (параметры) для работы диска, за ними необходимо следить в первую очередь. Old_age - не критичные.Значение VALUE стало меньше THRESH для Pre-fail атрибута -  диск может вылетит в любую минуту - менять срочно.Если VALUE стало меньше THRESH в случае Old_age атрибута - есть большая вероятность, что диск вылетит, т.к. выработан его ресурс. Вот только когда - это как повезет.
Ссылка на сообщение
Поделиться на других сайтах

 

всем спасибо, разобрался :)  , напишу как мне понятно:

Pre-fail - это Критичные атрибуты (параметры) для работы диска, за ними необходимо следить в первую очередь. Old_age - не критичные.Значение VALUE стало меньше THRESH для Pre-fail атрибута -  диск может вылетит в любую минуту - менять срочно.Если VALUE стало меньше THRESH в случае Old_age атрибута - есть большая вероятность, что диск вылетит, т.к. выработан его ресурс. Вот только когда - это как повезет.

Примерно так.

Следить надо за Reallocated Sectors - если число начало отличаться от нуля = поверхность начала сыпаться. Сколько она проживет - неизвестно. У меня есть винт который с 6 reallocated секторами и 1 невосстановимым прожил еще 10 лет (пришлось отрезать в конце винта кусок правда). А были случаи мгновенного роста reallocated до момента заполнения резервного места с последующим вылетом винта.

Ну а Current Pending Sector Count и Offline uncorrectable sectors - это уже можно выкидывать винт, но информацию еще можно спасти (кроме той что попалась на эти сектора)

Відредаговано adeep
Ссылка на сообщение
Поделиться на других сайтах

 

 

всем спасибо, разобрался :)  , напишу как мне понятно:

Pre-fail - это Критичные атрибуты (параметры) для работы диска, за ними необходимо следить в первую очередь. Old_age - не критичные.Значение VALUE стало меньше THRESH для Pre-fail атрибута -  диск может вылетит в любую минуту - менять срочно.Если VALUE стало меньше THRESH в случае Old_age атрибута - есть большая вероятность, что диск вылетит, т.к. выработан его ресурс. Вот только когда - это как повезет.

Примерно так.

Следить надо за Reallocated Sectors - если число начало отличаться от нуля = поверхность начала сыпаться. Сколько она проживет - неизвестно. У меня есть винт который с 6 reallocated секторами и 1 невосстановимым прожил еще 10 лет (пришлось отрезать в конце винта кусок правда). А были случаи мгновенного роста reallocated до момента заполнения резервного места с последующим вылетом винта.

Ну а Current Pending Sector Count и Offline uncorrectable sectors - это уже можно выкидывать винт, но информацию еще можно спасти (кроме той что попалась на эти сектора)

 

спасибо,  Reallocated Sectors - поставил на мониторинг

Ссылка на сообщение
Поделиться на других сайтах

в моем случае надо мониторить Reallocated Sector Count & Current Pending Sector Count.

В случае их роста - backup и замена ?

Поставьте 2 диска в зеркало. В случае выхода из строя одного из дисков, замените.

Відредаговано foreverok
Ссылка на сообщение
Поделиться на других сайтах

 

в моем случае надо мониторить Reallocated Sector Count & Current Pending Sector Count.

В случае их роста - backup и замена ?

Поставьте 2 диска в зеркало. В случае выхода из строя одного из дисков, замените.

 

если бы это решало все проблемы :)

Ссылка на сообщение
Поделиться на других сайтах

 

 

в моем случае надо мониторить Reallocated Sector Count & Current Pending Sector Count.

В случае их роста - backup и замена ?

Поставьте 2 диска в зеркало. В случае выхода из строя одного из дисков, замените.

 

если бы это решало все проблемы :)

 

Все? Это что вы имеете ввиду?

Зеркало решает только проблему с поломкой одного из дисков.

Ссылка на сообщение
Поделиться на других сайтах

 

 

Ну а Current Pending Sector Count и Offline uncorrectable sectors - это уже можно выкидывать винт, но информацию еще можно спасти (кроме той что попалась на эти сектора)

собссно пендинги - те, которые уже не читаются, но еще не попали в реаллокейты. пендинг попадает в реаллокейт при записи в него (вернее, если записался успешно - не попадает, нечитаем после записи - идет в реаллокейты).

 

минуя пендинги в реаллокейты вроде как ничего не попадает (я вроде не встречал винтов, которые сами переносят инфу из плохо читаемого сектора в резервный, делая реаллокейт).

Ссылка на сообщение
Поделиться на других сайтах

Создайте аккаунт или войдите в него для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать аккаунт

Зарегистрируйтесь для получения аккаунта. Это просто!

Зарегистрировать аккаунт

Вхід

Уже зарегистрированы? Войдите здесь.

Войти сейчас
  • Зараз на сторінці   0 користувачів

    Немає користувачів, що переглядають цю сторінку.

×
×
  • Створити нове...