Jump to content
Local
Sign in to follow this  
kvirtu

Помогите разобраться со smartctl: Pre-Fail !?

Recommended Posts

всем привет !

Ось FreeBSD 9.3 , smartctl показал вот такую картинку :

 

b6d66695dc8a.jpg

 

Пробую еще 2 диска, та же картина с Pre-Fail  ....

Это значит , что  всем 3 дискам пипец пришел или есть варианты ???

Заранее спасибо.

Share this post


Link to post
Share on other sites

Из всей картинки я нашел слово "Pre-fail" только в столбце типа значения. Надо сравнивать значение из столбика VALUE со столбиком THRESH, если оно около THRESH - беда.

 

Всякие Error_Read_Rate сложно соотнести к помиранию, это может быть нормой, это может быть проблема в кабеле и т.п.

 

Основные параметры умирания:

когда значения последнего столбика для Offline_uncorrectable, Total_Pending_Sectors больше нуля - это неисправимые ошибки на винте.

Если больше нуля Reallocated_Events_Count - это предвестник умирания винта.

Share this post


Link to post
Share on other sites

Из всей картинки я нашел слово "Pre-fail" только в столбце типа значения. Надо сравнивать значение из столбика VALUE со столбиком THRESH, если оно около THRESH - беда.

 

Всякие Error_Read_Rate сложно соотнести к помиранию, это может быть нормой, это может быть проблема в кабеле и т.п.

 

Основные параметры умирания:

когда значения последнего столбика для Offline_uncorrectable, Total_Pending_Sectors больше нуля - это неисправимые ошибки на винте.

Если больше нуля Reallocated_Events_Count - это предвестник умирания винта.

понял, спс.

Так, а почему же все таки Pre-fail ?

Как часто можно опрашивать винт на предмет ,  примеру , Reallocated_Events_Count - что бы лишний раз его не нагружать ?

Share this post


Link to post
Share on other sites

 

Из всей картинки я нашел слово "Pre-fail" только в столбце типа значения. Надо сравнивать значение из столбика VALUE со столбиком THRESH, если оно около THRESH - беда.

 

Всякие Error_Read_Rate сложно соотнести к помиранию, это может быть нормой, это может быть проблема в кабеле и т.п.

 

Основные параметры умирания:

когда значения последнего столбика для Offline_uncorrectable, Total_Pending_Sectors больше нуля - это неисправимые ошибки на винте.

Если больше нуля Reallocated_Events_Count - это предвестник умирания винта.

понял, спс.

Так, а почему же все таки Pre-fail ?

Как часто можно опрашивать винт на предмет ,  примеру , Reallocated_Events_Count - что бы лишний раз его не нагружать ?

 

Это тип алярма. Pre-fail - значит значение изменится перед потенциальным умиранием винта. Считается в условных процентах. Последний столбец показывает raw - прямое значение счетчика.

Тип Old_age - показывает просто жизненный цикл винта. Количество start-stop циклов, время во включенном состоянии, прочитанное число байт и т.д.

Значения у разных винтов могут меняться.

 

smartmontools умеет демоном запускаться и по мере необходимости писать в почту руту или кому укажете в конфиге. Так и стоит это делать :)

Или настроить мониторинговую систему на опрос, раз в 5 минут не напряжет винт никак.

 

Вот кстати в тему из сегодняшнего syslog:

Apr 17 21:27:26 hh smartd[1246]: Device: /dev/sda [sAT], 224 Currently unreadable (pending) sectors

Apr 17 21:27:26 hh smartd[1246]: Device: /dev/sda [sAT], 224 Offline uncorrectable sectors

Apr 17 21:27:26 hh smartd[1246]: Device: /dev/sda [sAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 105 to 117

Apr 17 21:27:27 hh smartd[1246]: Device: /dev/sdb [sAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 32 to 31

 

Трындец винту в виде 224 невосстановимых секторов. И увеличение ошибок чтения как предвестник дальнейшего умирания.

Edited by adeep

Share this post


Link to post
Share on other sites

Ну вот к примеру Reallocated Sector Count - Почему pre-FAil ? при значениях:  Value=253 THRESH=10 RAW=0

Share this post


Link to post
Share on other sites

Ну вот к примеру Reallocated Sector Count - Почему pre-FAil ? при значениях:  Value=253 THRESH=10 RAW=0

Блин. pre-fail - это не ситуация, это тип значения. Тип измерения. Группа счетчиков, если так будет понятнее - группа показывающая характеристики работоспособности винта, другая группа Old_age - показывает характеристики сколько успел за свою жизнь винт наработать.

 

Значения: Value = 253 - это высчитанная метрика по формулам смарта, чем больше - тем лучше.

THRESH = 10 - минимальное значение для VALUE когда винт будет кричать беда. То есть если Value опустится до этого значения, у винта в смарте сработает алярма.

RAW = 0 - фактическое (или абсолютное) значение.

 

Поскольку это значение обозначает количество секторов, то RAW можно расшифровать как 0 перемещенных (=восстановленных) секторов. За этим значением лучше наблюдать за фактическим значением, поскольку появление даже первого сектора может означать скорую кончину винта. А THRESH может сработать когда это значение будет, к примеру, пару сотен.

Edited by adeep

Share this post


Link to post
Share on other sites

 

 

Почему pre-FAil ?

да потому что рост сигнализирует о грядущем отказе. потому и тип параметра - pre-fail.

у power-on hours рост - нормальное явление (т.к. винт работает, часики тикают), потому и тип - old-age.

в чем проблема-то?

Share this post


Link to post
Share on other sites

Получается, что винт рабочий, но его сразу менять - как только появятся Reallocated Sector Count ?

Edited by kvirtu

Share this post


Link to post
Share on other sites

Получается, что винт рабочий, но его сразу менять - как только появятся Reallocated Sector Count ?

В идеале да. Но в реальности единичные reallocated sectors вовсе не означают скорую смерть,

у диска есть некий запас этих самых запасных секторов и постепенная замена нестабильных новыми - вполне нормальный процесс.

Ну а по теме - выше правильно написали, Pre-fail это не более чем тип переменной. Если любая переменная этого вида быстро растет - значит винту приходит fail.

Edited by KaYot

Share this post


Link to post
Share on other sites

в моем случае надо мониторить Reallocated Sector Count & Current Pending Sector Count.

В случае их роста - backup и замена ?

Edited by kvirtu

Share this post


Link to post
Share on other sites

всем спасибо, разобрался :)  , напишу как мне понятно:

Pre-fail - это Критичные атрибуты (параметры) для работы диска, за ними необходимо следить в первую очередь. Old_age - не критичные.Значение VALUE стало меньше THRESH для Pre-fail атрибута -  диск может вылетит в любую минуту - менять срочно.Если VALUE стало меньше THRESH в случае Old_age атрибута - есть большая вероятность, что диск вылетит, т.к. выработан его ресурс. Вот только когда - это как повезет.

Share this post


Link to post
Share on other sites

 

всем спасибо, разобрался :)  , напишу как мне понятно:

Pre-fail - это Критичные атрибуты (параметры) для работы диска, за ними необходимо следить в первую очередь. Old_age - не критичные.Значение VALUE стало меньше THRESH для Pre-fail атрибута -  диск может вылетит в любую минуту - менять срочно.Если VALUE стало меньше THRESH в случае Old_age атрибута - есть большая вероятность, что диск вылетит, т.к. выработан его ресурс. Вот только когда - это как повезет.

Примерно так.

Следить надо за Reallocated Sectors - если число начало отличаться от нуля = поверхность начала сыпаться. Сколько она проживет - неизвестно. У меня есть винт который с 6 reallocated секторами и 1 невосстановимым прожил еще 10 лет (пришлось отрезать в конце винта кусок правда). А были случаи мгновенного роста reallocated до момента заполнения резервного места с последующим вылетом винта.

Ну а Current Pending Sector Count и Offline uncorrectable sectors - это уже можно выкидывать винт, но информацию еще можно спасти (кроме той что попалась на эти сектора)

Edited by adeep

Share this post


Link to post
Share on other sites

 

 

всем спасибо, разобрался :)  , напишу как мне понятно:

Pre-fail - это Критичные атрибуты (параметры) для работы диска, за ними необходимо следить в первую очередь. Old_age - не критичные.Значение VALUE стало меньше THRESH для Pre-fail атрибута -  диск может вылетит в любую минуту - менять срочно.Если VALUE стало меньше THRESH в случае Old_age атрибута - есть большая вероятность, что диск вылетит, т.к. выработан его ресурс. Вот только когда - это как повезет.

Примерно так.

Следить надо за Reallocated Sectors - если число начало отличаться от нуля = поверхность начала сыпаться. Сколько она проживет - неизвестно. У меня есть винт который с 6 reallocated секторами и 1 невосстановимым прожил еще 10 лет (пришлось отрезать в конце винта кусок правда). А были случаи мгновенного роста reallocated до момента заполнения резервного места с последующим вылетом винта.

Ну а Current Pending Sector Count и Offline uncorrectable sectors - это уже можно выкидывать винт, но информацию еще можно спасти (кроме той что попалась на эти сектора)

 

спасибо,  Reallocated Sectors - поставил на мониторинг

Share this post


Link to post
Share on other sites

в моем случае надо мониторить Reallocated Sector Count & Current Pending Sector Count.

В случае их роста - backup и замена ?

Поставьте 2 диска в зеркало. В случае выхода из строя одного из дисков, замените.

Edited by foreverok

Share this post


Link to post
Share on other sites

 

в моем случае надо мониторить Reallocated Sector Count & Current Pending Sector Count.

В случае их роста - backup и замена ?

Поставьте 2 диска в зеркало. В случае выхода из строя одного из дисков, замените.

 

если бы это решало все проблемы :)

Share this post


Link to post
Share on other sites

 

 

в моем случае надо мониторить Reallocated Sector Count & Current Pending Sector Count.

В случае их роста - backup и замена ?

Поставьте 2 диска в зеркало. В случае выхода из строя одного из дисков, замените.

 

если бы это решало все проблемы :)

 

Все? Это что вы имеете ввиду?

Зеркало решает только проблему с поломкой одного из дисков.

Share this post


Link to post
Share on other sites

 

 

Ну а Current Pending Sector Count и Offline uncorrectable sectors - это уже можно выкидывать винт, но информацию еще можно спасти (кроме той что попалась на эти сектора)

собссно пендинги - те, которые уже не читаются, но еще не попали в реаллокейты. пендинг попадает в реаллокейт при записи в него (вернее, если записался успешно - не попадает, нечитаем после записи - идет в реаллокейты).

 

минуя пендинги в реаллокейты вроде как ничего не попадает (я вроде не встречал винтов, которые сами переносят инфу из плохо читаемого сектора в резервный, делая реаллокейт).

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this  

  • Recently Browsing   0 members

    No registered users viewing this page.

×