Технология
S.M.A.R.T.
1.1. Общее
описание.
Технология S.M.A.R.T.
- Self-Monitoring, Analysis and Reporting Technology
(от англ. "Технология
Самодиагностики, Анализа и
Отчета") - была разработана
для повышения надежности и
сохранности данных на жестких
дисках. В большинстве случаев, SMART-совместимые
устройства позволяют
предсказать появление
наиболее вероятных ошибок и,
тем самым, дают пользователю
возможность своевременно
сделать резервную копию данных
и/или полностью заменить
накопитель до выхода его из
строя.
S.M.A.R.T.
представляет собой набор
мини-подпрограмм, которые
являются частью микрокода
накопителя и определяют
поддерживаемые
диагностические функции.
Наиболее распространенные
среди них:
- набор атрибутов,
отражающих состояние
отдельных параметров
накопителя (до 30)
- внутренние тесты
накопителя (self-test)
- журналы S.M.A.R.T.
(ошибок, общего состояния,
дефектных секторов и т.п.)
В настоящий момент не
существует официальной
документации или стандарта на
технологию S.M.A.R.T.
В связи с этим, производители
не публикуют полные
характеристики и
поддерживаемые функции S.M.A.R.T. в своих
накопителях. Обязательный
минимум описан в последнем
стандарте ATA/ATAPI-6.
1.2. Развитие
технологии S.M.A.R.T.
История технологии S.M.A.R.T. не так уж
и богата подробностями:
- SMART I предусматривал
мониторинг основных
жизненно важных
параметров и запускался
только после команды по
интерфейсу
- в SMART II появилась
возможность фоновой
проверки поверхности,
которая выполнялась
накопителем автоматически
во время "холостого
хода"; появилась функция
журналирования ошибок
- в SMART III впервые
появилась не только
функция обнаружения
дефектов поверхности, но и
возможность их
восстановления
"прозрачно" для
пользователя и многие
другие новшества
Известно, что первыми
разработали основы и
предложили эту технологию
совместно Western Digital, Seagate
и Quantum. После этого их уже
поддержали такие компании как IBM,
Maxtor и Samsung. Hitachi
приняла участие в развитии
технологии S.M.A.R.T.
уже на стадии разработки SMART II,
первыми предложив методику
полной самодиагностики
накопителя (extended self-test).
В настоящее время
производители жестких дисков
готовятся принять к
использованию новый вариант
технологии S.M.A.R.T.
- "1024 S.M.A.R.T.",
характерной особенностью
которого будет заметно бОльший
размер журналов, повсеместное
использование мультисекторных
журналов, более точные
алгоритмы анализа показаний
встроенных в накопитель
сенсоров (термодатчики,
сенсоры ударов, и т.п.) и многое
другое.
Вот несколько новых
функций:
- введение алгоритма
анализа температурного
режима накопителя
- введение ограничения по
минимальной и
максимальной температуре
в рабочем состоянии
- введение счетчика общего
количества записанных
секторов на протяжении
жизненного цикла
накопителя
- введение счетчика
запусков внутренних
алгоритмов восстановления
(recovery counters)
Главным же плюсом можно
считать введение новых
атрибутов, которые позволят
контролировать состояние и
рабочие характеристики по
каждой из головок
чтения/записи:
- относительная
устойчивость
(стабильность
"полета") головки
- исправление ошибок чтения
(со "скрытыми"
повторными попытками)
- автоматическое
перераспределение
дефектных участков
поверхности при операциях
записи
- счетчик-накопитель G-List
для учета количества
принятых ударных нагрузок
- счетчик-накопитель S-List
для учета общего
количества
"программных" ошибок
Атрибуты.
Атрибуты S.M.A.R.T.
- особые характеристики,
которые используются при
анализе состояния и запаса
производительности
накопителя. Атрибуты
выбираются производителем
накопителя, основываясь на
способности этих атрибутов
предсказывать ухудшение
рабочих характеристик
накопителя или определить его
дефектность. Каждый
производитель имеет свой
характерный набор атрибутов и
может свободно вносить
изменения в этот набор в
соответствиии со своими
собственными требованиями и
без уведомления об этом
фирм-продавцов и конечных
пользователей.
1.3.1. Значения
атрибутов.
Значения атрибутов (value)
используются для
представления относительной
надежности отдельного
эксплуатационного или
эталонного атрибута.
Допустимое значение атрибута
лежит в диапазоне от 1 до 255.
Высокое значение атрибута
говорит о том, что результат
анализа данной рабочей
характеристики указывает на
низкую вероятность ее
ухудшения или выхода
накопителя из строя.
Соответственно, низкое
значение атрибута говорит о
том, что результат анализа
данной рабочей характеристики
указывает на высокую
вероятность ее ухудшения или
выхода накопителя из строя.
1.3.2. Пороговые
значения атрибутов.
Каждый атрибут имеет
собственное пороговое
значение (threshold), которое
используется для сравнения со
значением атрибута (value) и
указывает на ухудшение рабочих
характеристик или дефектность
накопителя. Числовое значение
порогового атрибута
определяется производителем
накопителя через
конструкционные особенности
накопителя и анализ
результатов испытаний на
надежность. Пороговое значение
каждого атрибута указывает на
нижнюю допустимую границу
значения атрибута, вплоть до
которой сохраняется
положительный статус
надежности.
Пороговые значения
устанавливаются в заводских
условиях производителем
накопителя и, в большинстве
случаев, могут быть изменены
только после переключения
накопителя в технологический (factory
mode). Допустимое пороговое
значение атрибута может
находится в диапазоне от 1
до 255.
Если значение одного или
более атрибутов, имеющих тип pre-failure
(в HDD Speed отмечаются символом
"*"), меньше
или равно соответствующего
порогового значения, то это
свидетельствует о предстоящем
ухудшении рабочих
характеристик и/или полном
выходе накопителя из строя.
1.3.3.
Краткое описание основных
атрибутов.
Данный перечень атрибутов
является наиболее полным
из доступных на сегодняшний
момент в Сети или иных
источниках. Назначение
атрибутов и способ
интерпретации их значений
выявлены либо опытным путем,
либо получены от служб
технической поддержки
компаний-производителей
накопителей.
Ниже приведена сводная
таблица всех известных мне
атрибутов (55) и краткое
описание к большинству (38)
из них.
ID |
Название атрибута |
0 |
= атрибут не
используется |
1 |
Raw Read Error Rate |
2 |
Throughput Performance |
3 |
Spin Up Time |
4 |
Start/Stop Count |
5 |
Reallocated Sector Count |
6 |
Read Channel Margin |
7 |
Seek Error Rate |
8 |
Seek Time Performance |
9 |
Power-On Hours Count |
10 |
Spin Retry Count |
11 |
Recalibration Retries |
12 |
Device Power Cycle Count |
13 |
Soft Read Error Rate |
?? |
Emergency Re-track (Hitachi) |
?? |
ECC On-The-Fly Count (Hitachi) |
96 |
? (Maxtor) |
97 |
? (Maxtor) |
98 |
? (Maxtor) |
99 |
? (Maxtor) |
100 |
? (Maxtor) |
101 |
? (Maxtor) |
191 |
G-Sense Error Rate |
192 |
Power-Off Retract Cycle |
193 |
Load/Unload Cycle Count |
194 |
Temperature |
195 |
? (Quantum AS,
Seagate, Maxtor) |
196 |
Reallocation Events Count |
197 |
Current Pending Sector Count |
198 |
Uncorrectable Sector Count |
199 |
UltraDMA CRC Error Rate |
200 |
Write Error Rate (в WD - MultiZone Error
Rate) |
201 |
TA Counter Detected |
202 |
TA Counter Increased |
203 |
? (Maxtor) |
204 |
? (Maxtor) |
205 |
? (Maxtor) |
206 |
? (Maxtor) |
207 |
? (Maxtor) |
208 |
? (Maxtor) |
209 |
? (Maxtor) |
220 |
Disk Shift |
221 |
G-Sense Error Rate (в Hitachi - Shock
Sense Error Rate) |
222 |
Loaded Hours |
223 |
Load/Unload Retry Count |
224 |
Load Friction |
225 |
Load/Unload Cycle Count |
226 |
Load-in Time |
227 |
Torque Amplification Count |
228 |
Power-Off Retract Count |
229 |
? (IBM DTTA, thanx
to Vladislav Shaklein) |
230 |
GMR Head Amplitude |
231 |
Temperature |
240 |
Head Flying Hours (Hitachi) |
250 |
Read Error Retry Rate |
Краткое описание
известных атрибутов.
- * (используется
в программе HDD Speed)
Данный указатель
показывает, что
соответствующий атрибут S.M.A.R.T.
является критическим для
нормального
функционирования
накопителя. Ухудшение
значений таких атрибутов с
наибольшей вероятностью
приводит к выходу
накопителя из строя. В
новых материнских платах
BIOS имеют встроенную
функцию контроля
состояния накопителя
именно по этим атрибутам.
- Raw Read Error Rate
Частота появления ошибок
при чтении данных с диска.
Данный параметр
показывает частоту
появления ошибок при
операциях чтения с
поверхности диска по вине
аппаратной части
накопителя.
- Throughput Performance
Средняя
производительность
(пропускная способность)
диска.
Уменьшение значения value
этого атрибута с большой
вероятностью указывает на
проблемы в накопителе.
- Spin Up Time
Время раскрутки шпинделя.
Среднее время раскрутки
шпинделя диска от 0 RPM до
рабочей скорости.
Предположительно, в поле raw
value содержится время в
миллисекундах/секундах.
- Start/Stop Count
Количество циклов
запуск/останов шпинделя.
Поле raw value хранит общее
количество
включений/выключений
диска.
- Reallocated Sectors
Count
Количество
переназначенных секторов.
Когда жесткий диск
встречает ошибку
чтения/записи/верификации
он пытается переместить
данные из него в
специальную резервную
область (spare area) и, в
случае успеха, помечает
сектор как
"переназначенный".
Также, этот процесс
называют remapping, а
переназначенный сектор - remap.
Благодаря этой
возможности, на
современных жестких
дисках очень редко видны
[при тестировании
поверхности] так
называемые bad block.
Однако, при большом
количестве ремапов, на
графике чтения с
поверхности будут заметны
"провалы" - резкое
падение скорости чтения
(до 10% и более).
Поле raw value содержит
общее количество
переназначенных секторов.
- Read Channel Margin
Запас канала чтения.
Назначение этого атрибута
не документировано и в
современных накопителях
он не используется.
- Seek Error Rate
Частота появления ошибок
позиционирования БМГ.
В случае сбоя в
механической системе
позиционирования,
повреждения сервометок (servo),
сильного термического
расширения дисков и т.п.
возникают ошибки
позиционирования. Чем их
больше, тем хуже состояние
механики и/или поверхности
жесткого диска.
- Seek Time Performance
Средняя
производительность
операций позиционирования
БМГ.
Данный параметр
показывает среднюю
скорость позиционирования
привода БМГ на указанный
сектор. Снижение значения
этого атрибута говорит о
неполадках в механике
привода.
- Power-On Hours
Количество отработанных
часов во включенном
состоянии.
Поле raw value этого
атрибута показывает
количество часов (минут,
секунд - в зависимости от
производителя),
отработанных жестким
диском. Снижение значения (value)
атрибута до критического
уровня (threshold)
указывает на выработку
диском ресурса (MTBF - Mean
Time Between Failures). На
практике, даже падение
этого атрибута до нулевого
значения не всегда
указывает на реальное
исчерпывание ресурса и
накопитель может
продолжать нормально
функционировать.
- Spin Retry Count
Количество повторов
попыток старта шпинделя
диска.
Данный атрибут фиксирует
общее количество попыток
раскрутки шпинделя и его
выхода на рабочую
скорость, при условии, что
первая попытка была
неудачной. Снижение
значения этого атрибута
говорит о неполадках в
механике привода.
- Recalibration Retries
Количество повторов
попыток рекалибровки
накопителя.
Данный атрибут фиксирует
общее количество попыток
сброса состояния
накопителя и установки
головок на нулевую
дорожку, при условии, что
первая попытка была
неудачной. Снижение
значения этого атрибута
говорит о неполадках в
механике привода.
- Device Power Cycle Count
Количество полных циклов
запуска/останова жесткого
диска.
- Soft Read Error Rate
Частота появления
"программных" ошибок
при чтении данных с диска.
Данный параметр
показывает частоту
появления ошибок при
операциях чтения с
поверхности диска по вине
программного обеспечения,
а не аппаратной части
накопителя.
- Emergency Re-track
- ECC On-The-Fly Count
|