kvirtu 315 Posted 2017-04-17 17:49:50 Share Posted 2017-04-17 17:49:50 всем привет ! Ось FreeBSD 9.3 , smartctl показал вот такую картинку : Пробую еще 2 диска, та же картина с Pre-Fail .... Это значит , что всем 3 дискам пипец пришел или есть варианты ??? Заранее спасибо. Link to post Share on other sites
adeep 212 Posted 2017-04-17 19:10:53 Share Posted 2017-04-17 19:10:53 Из всей картинки я нашел слово "Pre-fail" только в столбце типа значения. Надо сравнивать значение из столбика VALUE со столбиком THRESH, если оно около THRESH - беда. Всякие Error_Read_Rate сложно соотнести к помиранию, это может быть нормой, это может быть проблема в кабеле и т.п. Основные параметры умирания: когда значения последнего столбика для Offline_uncorrectable, Total_Pending_Sectors больше нуля - это неисправимые ошибки на винте. Если больше нуля Reallocated_Events_Count - это предвестник умирания винта. Link to post Share on other sites
kvirtu 315 Posted 2017-04-17 19:19:21 Author Share Posted 2017-04-17 19:19:21 Из всей картинки я нашел слово "Pre-fail" только в столбце типа значения. Надо сравнивать значение из столбика VALUE со столбиком THRESH, если оно около THRESH - беда. Всякие Error_Read_Rate сложно соотнести к помиранию, это может быть нормой, это может быть проблема в кабеле и т.п. Основные параметры умирания: когда значения последнего столбика для Offline_uncorrectable, Total_Pending_Sectors больше нуля - это неисправимые ошибки на винте. Если больше нуля Reallocated_Events_Count - это предвестник умирания винта. понял, спс. Так, а почему же все таки Pre-fail ? Как часто можно опрашивать винт на предмет , примеру , Reallocated_Events_Count - что бы лишний раз его не нагружать ? Link to post Share on other sites
adeep 212 Posted 2017-04-17 19:26:25 Share Posted 2017-04-17 19:26:25 (edited) Из всей картинки я нашел слово "Pre-fail" только в столбце типа значения. Надо сравнивать значение из столбика VALUE со столбиком THRESH, если оно около THRESH - беда. Всякие Error_Read_Rate сложно соотнести к помиранию, это может быть нормой, это может быть проблема в кабеле и т.п. Основные параметры умирания: когда значения последнего столбика для Offline_uncorrectable, Total_Pending_Sectors больше нуля - это неисправимые ошибки на винте. Если больше нуля Reallocated_Events_Count - это предвестник умирания винта. понял, спс. Так, а почему же все таки Pre-fail ? Как часто можно опрашивать винт на предмет , примеру , Reallocated_Events_Count - что бы лишний раз его не нагружать ? Это тип алярма. Pre-fail - значит значение изменится перед потенциальным умиранием винта. Считается в условных процентах. Последний столбец показывает raw - прямое значение счетчика. Тип Old_age - показывает просто жизненный цикл винта. Количество start-stop циклов, время во включенном состоянии, прочитанное число байт и т.д. Значения у разных винтов могут меняться. smartmontools умеет демоном запускаться и по мере необходимости писать в почту руту или кому укажете в конфиге. Так и стоит это делать Или настроить мониторинговую систему на опрос, раз в 5 минут не напряжет винт никак. Вот кстати в тему из сегодняшнего syslog: Apr 17 21:27:26 hh smartd[1246]: Device: /dev/sda [sAT], 224 Currently unreadable (pending) sectors Apr 17 21:27:26 hh smartd[1246]: Device: /dev/sda [sAT], 224 Offline uncorrectable sectors Apr 17 21:27:26 hh smartd[1246]: Device: /dev/sda [sAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 105 to 117 Apr 17 21:27:27 hh smartd[1246]: Device: /dev/sdb [sAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 32 to 31 Трындец винту в виде 224 невосстановимых секторов. И увеличение ошибок чтения как предвестник дальнейшего умирания. Edited 2017-04-17 19:29:50 by adeep Link to post Share on other sites
kvirtu 315 Posted 2017-04-17 19:45:18 Author Share Posted 2017-04-17 19:45:18 Ну вот к примеру Reallocated Sector Count - Почему pre-FAil ? при значениях: Value=253 THRESH=10 RAW=0 Link to post Share on other sites
adeep 212 Posted 2017-04-17 20:01:57 Share Posted 2017-04-17 20:01:57 (edited) Ну вот к примеру Reallocated Sector Count - Почему pre-FAil ? при значениях: Value=253 THRESH=10 RAW=0 Блин. pre-fail - это не ситуация, это тип значения. Тип измерения. Группа счетчиков, если так будет понятнее - группа показывающая характеристики работоспособности винта, другая группа Old_age - показывает характеристики сколько успел за свою жизнь винт наработать. Значения: Value = 253 - это высчитанная метрика по формулам смарта, чем больше - тем лучше. THRESH = 10 - минимальное значение для VALUE когда винт будет кричать беда. То есть если Value опустится до этого значения, у винта в смарте сработает алярма. RAW = 0 - фактическое (или абсолютное) значение. Поскольку это значение обозначает количество секторов, то RAW можно расшифровать как 0 перемещенных (=восстановленных) секторов. За этим значением лучше наблюдать за фактическим значением, поскольку появление даже первого сектора может означать скорую кончину винта. А THRESH может сработать когда это значение будет, к примеру, пару сотен. Edited 2017-04-17 20:03:15 by adeep Link to post Share on other sites
NiTr0 585 Posted 2017-04-17 20:29:10 Share Posted 2017-04-17 20:29:10 Почему pre-FAil ? да потому что рост сигнализирует о грядущем отказе. потому и тип параметра - pre-fail. у power-on hours рост - нормальное явление (т.к. винт работает, часики тикают), потому и тип - old-age. в чем проблема-то? Link to post Share on other sites
kvirtu 315 Posted 2017-04-18 06:28:23 Author Share Posted 2017-04-18 06:28:23 (edited) Получается, что винт рабочий, но его сразу менять - как только появятся Reallocated Sector Count ? Edited 2017-04-18 06:28:37 by kvirtu Link to post Share on other sites
KaYot 3,732 Posted 2017-04-18 07:14:29 Share Posted 2017-04-18 07:14:29 (edited) Получается, что винт рабочий, но его сразу менять - как только появятся Reallocated Sector Count ?В идеале да. Но в реальности единичные reallocated sectors вовсе не означают скорую смерть, у диска есть некий запас этих самых запасных секторов и постепенная замена нестабильных новыми - вполне нормальный процесс. Ну а по теме - выше правильно написали, Pre-fail это не более чем тип переменной. Если любая переменная этого вида быстро растет - значит винту приходит fail. Edited 2017-04-18 07:16:03 by KaYot Link to post Share on other sites
kvirtu 315 Posted 2017-04-18 07:23:39 Author Share Posted 2017-04-18 07:23:39 (edited) в моем случае надо мониторить Reallocated Sector Count & Current Pending Sector Count. В случае их роста - backup и замена ? Edited 2017-04-18 07:23:47 by kvirtu Link to post Share on other sites
kvirtu 315 Posted 2017-04-18 11:52:06 Author Share Posted 2017-04-18 11:52:06 всем спасибо, разобрался , напишу как мне понятно: Pre-fail - это Критичные атрибуты (параметры) для работы диска, за ними необходимо следить в первую очередь. Old_age - не критичные.Значение VALUE стало меньше THRESH для Pre-fail атрибута - диск может вылетит в любую минуту - менять срочно.Если VALUE стало меньше THRESH в случае Old_age атрибута - есть большая вероятность, что диск вылетит, т.к. выработан его ресурс. Вот только когда - это как повезет. Link to post Share on other sites
adeep 212 Posted 2017-04-18 12:28:17 Share Posted 2017-04-18 12:28:17 (edited) всем спасибо, разобрался , напишу как мне понятно: Pre-fail - это Критичные атрибуты (параметры) для работы диска, за ними необходимо следить в первую очередь. Old_age - не критичные.Значение VALUE стало меньше THRESH для Pre-fail атрибута - диск может вылетит в любую минуту - менять срочно.Если VALUE стало меньше THRESH в случае Old_age атрибута - есть большая вероятность, что диск вылетит, т.к. выработан его ресурс. Вот только когда - это как повезет. Примерно так. Следить надо за Reallocated Sectors - если число начало отличаться от нуля = поверхность начала сыпаться. Сколько она проживет - неизвестно. У меня есть винт который с 6 reallocated секторами и 1 невосстановимым прожил еще 10 лет (пришлось отрезать в конце винта кусок правда). А были случаи мгновенного роста reallocated до момента заполнения резервного места с последующим вылетом винта. Ну а Current Pending Sector Count и Offline uncorrectable sectors - это уже можно выкидывать винт, но информацию еще можно спасти (кроме той что попалась на эти сектора) Edited 2017-04-18 12:28:36 by adeep Link to post Share on other sites
kvirtu 315 Posted 2017-04-18 13:09:40 Author Share Posted 2017-04-18 13:09:40 всем спасибо, разобрался , напишу как мне понятно: Pre-fail - это Критичные атрибуты (параметры) для работы диска, за ними необходимо следить в первую очередь. Old_age - не критичные.Значение VALUE стало меньше THRESH для Pre-fail атрибута - диск может вылетит в любую минуту - менять срочно.Если VALUE стало меньше THRESH в случае Old_age атрибута - есть большая вероятность, что диск вылетит, т.к. выработан его ресурс. Вот только когда - это как повезет. Примерно так. Следить надо за Reallocated Sectors - если число начало отличаться от нуля = поверхность начала сыпаться. Сколько она проживет - неизвестно. У меня есть винт который с 6 reallocated секторами и 1 невосстановимым прожил еще 10 лет (пришлось отрезать в конце винта кусок правда). А были случаи мгновенного роста reallocated до момента заполнения резервного места с последующим вылетом винта. Ну а Current Pending Sector Count и Offline uncorrectable sectors - это уже можно выкидывать винт, но информацию еще можно спасти (кроме той что попалась на эти сектора) спасибо, Reallocated Sectors - поставил на мониторинг Link to post Share on other sites
foreverok 95 Posted 2017-04-18 14:43:30 Share Posted 2017-04-18 14:43:30 (edited) в моем случае надо мониторить Reallocated Sector Count & Current Pending Sector Count. В случае их роста - backup и замена ? Поставьте 2 диска в зеркало. В случае выхода из строя одного из дисков, замените. Edited 2017-04-18 14:44:16 by foreverok Link to post Share on other sites
adeep 212 Posted 2017-04-18 17:29:35 Share Posted 2017-04-18 17:29:35 в моем случае надо мониторить Reallocated Sector Count & Current Pending Sector Count. В случае их роста - backup и замена ? Поставьте 2 диска в зеркало. В случае выхода из строя одного из дисков, замените. если бы это решало все проблемы Link to post Share on other sites
foreverok 95 Posted 2017-04-18 18:07:47 Share Posted 2017-04-18 18:07:47 в моем случае надо мониторить Reallocated Sector Count & Current Pending Sector Count. В случае их роста - backup и замена ? Поставьте 2 диска в зеркало. В случае выхода из строя одного из дисков, замените. если бы это решало все проблемы Все? Это что вы имеете ввиду? Зеркало решает только проблему с поломкой одного из дисков. Link to post Share on other sites
NiTr0 585 Posted 2017-04-18 19:20:28 Share Posted 2017-04-18 19:20:28 Ну а Current Pending Sector Count и Offline uncorrectable sectors - это уже можно выкидывать винт, но информацию еще можно спасти (кроме той что попалась на эти сектора) собссно пендинги - те, которые уже не читаются, но еще не попали в реаллокейты. пендинг попадает в реаллокейт при записи в него (вернее, если записался успешно - не попадает, нечитаем после записи - идет в реаллокейты). минуя пендинги в реаллокейты вроде как ничего не попадает (я вроде не встречал винтов, которые сами переносят инфу из плохо читаемого сектора в резервный, делая реаллокейт). Link to post Share on other sites
Recommended Posts
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now