WikiDer > Программирование с учетом иммунитета
Эта статья поднимает множество проблем. Пожалуйста помоги Улучши это или обсудите эти вопросы на страница обсуждения. (Узнайте, как и когда удалить эти сообщения-шаблоны) (Узнайте, как и когда удалить этот шаблон сообщения)
|
При написании прошивка для Встроенная система, программирование с учетом иммунитета относится к методам программирования, которые улучшают устойчивость к переходным ошибкам в счетчик команд или другие модули программы, которые иначе привели бы к сбою. Временные ошибки обычно вызваны одиночные события, недостаточная мощность, или сильная электромагнитный сигналы, передаваемые каким-либо другим «исходным» устройством.
Программирование с учетом иммунитета является примером защитное программирование и Программирование с учетом ЭМС. Хотя большинство из этих методов применимы к программному обеспечению в устройстве «жертвы», чтобы сделать его более надежным, некоторые из этих методов применимы к программному обеспечению в устройстве-источнике, чтобы заставить его излучать меньше нежелательного шума.
Задача и задачи
Микроконтроллеры' прошивка может недорого улучшить электромагнитная совместимость из Встроенная система.
Прошивка встроенных систем обычно не считается источником радиопомехи. Радиоизлучение часто вызывается гармонический частоты системных часов и коммутируемые токи. Импульсы на этих проводах могут иметь быстрое время нарастания и спада, заставляя их провода действовать как радиопередатчики. Этот эффект усиливается плохо спроектированными печатные платы. Эти эффекты уменьшаются за счет использования выходных драйверов микроконтроллера с более медленным временем нарастания или путем отключения компонентов системы.
Микроконтроллер прост в управлении. Он также подвержен ошибкам из-за радиочастотных помех. Следовательно, если заставить программное обеспечение микроконтроллера сопротивляться таким ошибкам, можно дешево повысить устойчивость системы к электромагнитным помехам, уменьшив потребность в модификации оборудования.
Возможные помехи систем на базе микроконтроллеров
CMOS микроконтроллеры имеют определенные слабые места, которые можно усилить с помощью программного обеспечения, работающего против электромагнитных помех. Анализ видов и последствий отказов системы и ее требований часто требуется. К такому анализу легко добавить вопросы электромагнитной совместимости.
Источник питания
Медленные изменения напряжения источника питания не вызывают серьезных помех, но быстрые изменения могут создать непредсказуемые проблемы. Если напряжение превышает параметры, указанные в паспорте контроллера на 150 процентов, это может привести к зависанию порта ввода или вывода в одном состоянии, известном как CMOS. захват.[1] Без внутреннего контроля тока фиксация приводит к перегоранию микроконтроллера. Стандартное решение - это сочетание изменений программного и аппаратного обеспечения. Большинство встроенных систем имеют сторожевой таймер. Этот сторожевой таймер должен быть внешним по отношению к микроконтроллеру, чтобы он был невосприимчив к любым вероятным электромагнитным помехам. Он должен сбросить питание, ненадолго выключив его. Период сторожевого таймера должен составлять половину или меньше времени и мощности, необходимых для сгорания микроконтроллера. Блок питания должен быть хорошо заземлен и развязан с помощью конденсаторов и катушек индуктивности рядом с микроконтроллером; некоторые типичные значения - 100 мкФ и 0,1 мкФ параллельно.
Низкое энергопотребление может вызвать серьезные неисправности в большинстве микроконтроллеров. Чтобы ЦП мог успешно декодировать и выполнять инструкции, подаваемое напряжение не должно падать ниже минимального уровня напряжения. Когда подаваемое напряжение падает ниже этого уровня, ЦП может начать некорректно выполнять некоторые инструкции. Результат - неожиданная активность внутренних данных и линий управления. Эта деятельность может вызвать:
- Повреждение реестра ЦП
- Повреждение регистра ввода / вывода
- Случайное переключение контактов ввода / вывода
- Повреждение SRAM
- EEPROM коррупция
Отключение Обнаружение решает большинство этих проблем в большинстве систем, вызывая отключение системы, когда основное питание ненадежно. Одна типичная система перезапускает таймер каждый раз, когда напряжение сети переменного тока превышает 90% его номинального напряжения. Если таймер истекает, он прерывает работу микроконтроллера, который затем выключает свою систему. Многие системы также измеряют напряжение источника питания, чтобы предотвратить медленное ухудшение характеристик источника питания.
Осциллятор
Входные порты CMOS генераторы иметь высокий сопротивление, и поэтому очень восприимчивы к кратковременным помехам. В соответствии с Закон Ома, высокий импеданс вызывает большие перепады напряжения. Они также очень чувствительны к короткое замыкание от влаги или пыли.
Один из типичных отказов - это нарушение стабильности генераторов. Это может привести к его остановке или изменению периода. Обычные системные изгороди должны иметь вспомогательный генератор, использующий какую-либо дешевую, надежную схему, такую как кольцо инверторов или таймер однократного действия резистор-конденсатор. После сброса (возможно, вызванного сторожевым таймером) система может использовать их по умолчанию, включив только чувствительный кварцевый генератор, как только временные измерения подтвердят его стабильность. В высоконадежных системах также принято измерять тактовую частоту, сравнивая ее с внешним стандартом, обычно с тактовым сигналом связи, линией питания или таймером резистора-конденсатора.
Всплески электромагнитная интерференция может сократить периоды тактовой частоты или вызвать прерывистые импульсы, которые приводят к неправильному доступу к данным или выполнению команд. Результат - неправильное содержимое памяти или указатели программ. Стандартный метод аппаратного преодоления этого - использование встроенного чипа. фазовая автоподстройка частоты для генерации фактического тактового сигнала микроконтроллера. Программного обеспечения может периодически проверять структуры данных и читать критические порты, используя голосование, распределяя чтение во времени или пространстве.
Порты ввода / вывода
Порты ввода / вывода, включая адресные линии и линии данных, соединенные длинными линиями или внешними периферийными устройствами, представляют собой антенны, которые позволяют помехам оказывать влияние. Электромагнитные помехи могут привести к неправильным данным и адресам в этих строках. Сильные колебания могут привести к тому, что компьютер неправильно прочитает регистры ввода-вывода или даже прекратит обмен данными с этими портами. Электростатический разряд может фактически разрушить порты или вызвать сбои в работе.
Контакты большинства микроконтроллеров являются входами с высоким сопротивлением или смешанными входами и выходами. Входные контакты с высоким импедансом чувствительны к шуму и могут регистрировать ложные уровни, если не подключены должным образом. К выводам, которые не оканчиваются внутри ИС, необходимо присоединить резисторы. Они должны быть подключены к земле или источнику питания, чтобы гарантировать известное логическое состояние.
Корректирующие действия
Очень важен анализ возможных ошибок перед исправлением. Чтобы устранить проблему, необходимо определить причину.
В Ассоциация надежности программного обеспечения автомобильной промышленности определяет необходимые действия в случае ошибки следующим образом:[2]
- Информация / предупреждение пользователя
- Сохраняйте ошибочные данные до тех пор, пока не будет выполнен определенный сброс.
- Поддерживайте систему в определенном состоянии до тех пор, пока ошибка не будет исправлена.
По сути, для противодействия сбоям используется резервирование. Сюда входит запуск дополнительного кода (избыточность во времени), а также сохранение дополнительных битов (избыточность в пространстве).
Управление ошибками указателя инструкций (IP)
Встревоженный указатель инструкции может привести к серьезным ошибкам, таким как неопределенный переход к произвольной точке памяти, где читаются недопустимые инструкции. Состояние системы будет неопределенным. Ошибки IP можно обрабатывать с помощью программных решений, таких как жетоны функций и Слайд NOP(s).
Многие процессоры, такие как Motorola 680x0, имеют аппаратную ловушку при обнаружении недопустимой инструкции. Выполняется правильная инструкция, определенная в векторе ловушки, а не случайная. Ловушки могут обрабатывать ошибки большего диапазона, чем токены функций и слайды NOP. Помимо недопустимых инструкций, аппаратные ловушки надежно обрабатывают нарушения доступа к памяти, переполнения или деление на ноль.
Передача токена (токен функции)
Повышенная помехозащищенность может быть достигнута за счет управления потоком выполнения, известного как передача токена. На рисунке справа схематично показан принцип действия. Этот метод имеет дело с ошибками выполнения программы, вызванными указателями инструкций.
Реализация проста и эффективна. Каждая функция имеет уникальный идентификатор функции. Когда функция вызывается, идентификатор функции сохраняется в глобальной переменной. Функция выполняется только в том случае, если идентификатор функции в глобальной переменной и идентификатор функции совпадают. Если идентификаторы не совпадают, произошла ошибка указателя инструкции, и можно предпринять определенные корректирующие действия. Пример реализации передачи токена с использованием глобальной переменной, запрограммированной на C, приведен в следующем листинге источников.
По сути, это последовательность «постановка / выстрел» для каждого вызова функции. Требование такой последовательности является частью методов безопасного программирования, поскольку она порождает устойчивость к ошибкам одного бита (или, в данном случае, ошибочного указателя команд).
Реализация функциональных токенов увеличивает размер программного кода на 10-20% и снижает производительность. Чтобы улучшить реализацию, вместо глобальных переменных, как указано выше, идентификатор функции можно передать в качестве аргумента в заголовке функции, как показано в примере кода ниже.
Слайд NOP
С помощью NOP-Fills в некоторых случаях можно повысить надежность системы в случае нарушения указателя команд. Вся программная память, которая не используется программным кодом, заполняется No-Operation (NOP) инструкции. В машинном коде инструкция NOP часто представлена 0x00 (например, Intel 8051, ATmega16 и т. Д.). Система поддерживается в определенном состоянии. В конце физической программной памяти должна быть реализована обработка ошибок указателя инструкций (IPEH IP-Error-Handler). В некоторых случаях это может быть простой сброс.
Если во время выполнения возникает ошибка указателя инструкции и программа указывает на сегмент памяти, заполненный командами NOP, неизбежно возникает ошибка, которая распознается.
Возможны три метода реализации NOP-Fills:
- В первом методе неиспользуемая физическая память устанавливается на 0x00 вручную путем поиска и замены в (HEX) программный файл. Недостатком этого метода является то, что это нужно делать после каждой компиляции.
- Второй метод использует наполнять опция компоновщика, которая заполняет неиспользуемые области памяти предопределенной константой (в данном случае 0x00).
- Третий способ - включить соответствующее количество NOP ассемблер директивы прямо в программном коде.
При использовании CodevisionAVR C компилятор, заполнение NOP может быть легко реализовано. Программист чипа предлагает возможность редактирования программы вспышка и EEPROM чтобы заполнить его определенным значением. Используя Атмель ATmega16, никакого перехода к адресу сброса 0x00 не требуется, поскольку переполнение указателя инструкции автоматически устанавливает его значение в 0x00. К сожалению, сброс из-за переполнения не эквивалентен преднамеренному сбросу. Во время запланированного сброса все необходимые регистры MC сбрасываются аппаратно, что не выполняется переходом на 0x00. Таким образом, этот метод не будет применяться в следующих тестах.
Ошибки регистра ввода / вывода
Архитектура микроконтроллера требует, чтобы выводы ввода / вывода располагались на внешнем крае кремниевого кристалла. Таким образом, контакты ввода / вывода сильно подвержены влиянию переходных помех на пути к кремниевому ядру, а регистры ввода / вывода являются одной из наиболее уязвимых частей микроконтроллера. Неправильно прочитанные регистры ввода-вывода могут привести к неправильному состоянию системы. Наиболее серьезные ошибки могут возникнуть в портах сброса и портах ввода прерывания. Регистры направления нарушенных данных (DDR) могут препятствовать записи на шину.
Эти нарушения можно предотвратить следующим образом:
1. Циклическое обновление наиболее важных регистров
- Путем циклического обновления наиболее важного регистра и данных в регистрах направления данных в кратчайшие возможные интервалы можно уменьшить количество ошибок. Таким образом, неправильно установленный бит может быть исправлен до того, как это может иметь негативные последствия.
2. Множественное чтение входных регистров.
- Еще один метод фильтрации помех - многократное считывание входных регистров. Затем считанные значения проверяются на непротиворечивость. Если значения совпадают, их можно считать действительными. Определение диапазона значений и / или вычисление среднего значения может улучшить результаты для некоторых приложений.
- Побочный эффект: повышенная активность
- Недостатком является повышенная активность из-за постоянных обновлений и считываний периферийных устройств. Эта деятельность может добавить дополнительные выбросы и сбои.
- Порты внешних прерываний; переполнение стека
- Внешние прерывания запускаются спадающими / нарастающими фронтами или высоким / низким потенциалом на порте прерывания, что приводит к запросу прерывания (IRQ) в контроллере. Аппаратные прерывания делятся на маскируемые прерывания и немаскируемые прерывания (NMI). Запуск маскируемых прерываний может быть остановлен в некоторых критических по времени функциях. Если вызывается прерывание, текущий указатель инструкции (IP) сохраняется в стеке, а указатель стека (SP) уменьшается. Адрес процедура обслуживания прерывания (ISR) считывается из таблицы векторов прерываний и загружается в регистр IP, и как следствие выполняется ISR.
- Если прерывания - из-за помех - генерируются быстрее, чем обрабатываются, стек увеличивается до тех пор, пока не будет использована вся память. Данные в стеке или другие данные могут быть перезаписаны. Может применяться защитная стратегия программного обеспечения. Указатель стека (SP) можно наблюдать. После этого рост стека сверх определенного адреса можно остановить. Значение указателя стека можно проверить в начале процедуры обслуживания прерывания. Если SP указывает на адрес за пределами определенных ограничений стека, может быть выполнен сброс.
Избыточность данных
В системах без устройств обнаружения и исправления ошибок надежность системы можно повысить, обеспечив защиту с помощью программного обеспечения. Защита всей памяти (кода и данных) может оказаться непрактичной в программном обеспечении, так как вызывает недопустимое количество накладных расходов, но это недорогое программное решение для сегментов кода.
Еще одно элементарное требование цифровых систем - безупречная передача данных. Связь с другими компонентами может быть слабым местом и источником ошибок системы. Продуманный протокол передачи очень важен. Описанные ниже методы также могут применяться к передаваемым данным, что увеличивает надежность передачи.
Циклическое резервирование и проверка четности
А циклическая проверка избыточности это тип хэш-функция используется для производства контрольная сумма, которое представляет собой небольшое целое число из большого блока данных, например сетевого трафика или компьютерных файлов. CRC вычисляются до и после передачи или дублирования и сравниваются для подтверждения их равенства. CRC обнаруживает все одно- или двухбитовые ошибки, все нечетные ошибки, все ошибки пакета, если пакет меньше CRC, и большинство ошибок большого пакета. Проверки на четность может применяться к одиночным символам (VRC—вертикальный контроль избыточности), что привело к дополнительному бит четности или в блок данных (LRC—проверка продольного дублирования), выдавая символ проверки блока. Оба метода могут быть довольно легко реализованы с помощью операции XOR. Компромисс заключается в том, что можно обнаружить меньше ошибок, чем при использовании CRC. Проверки четности обнаруживают только нечетное количество перевернутых битов. Четное количество битовых ошибок остается незамеченным. Возможное улучшение - использование как VRC, так и LRC, называемых Двойная четность или же Оптимальный прямоугольный код (ORC).
Некоторые микроконтроллеры оснащены аппаратным блоком CRC.
Различные виды дублирования
Конкретный метод избыточности данных - это дублирование, которое может применяться несколькими способами, как описано ниже:
- Дублирование данных
- Чтобы справиться с повреждением данных, можно сохранить несколько копий важных регистров и переменных. Затем при доступе к данным могут выполняться проверки согласованности между ячейками памяти, в которых хранятся одни и те же значения, или методы голосования.
- Необходимо выполнить две разные модификации исходного кода.
- Первый соответствует дублированию некоторых или всех переменных программы для введения избыточности данных и модификации всех операторов для управления введенной копией переменных.
- Вторая модификация вводит проверки согласованности в потоке управления, так что согласованность между двумя копиями каждой переменной проверяется.
Когда данные считываются, два набора данных сравниваются. Нарушение обнаруживается, если два набора данных не равны. Можно сообщить об ошибке. Если оба набора данных повреждены, может быть сообщено о значительной ошибке, и система может соответствующим образом отреагировать.
В большинстве случаев критически важные для безопасности приложения имеют строгие ограничения с точки зрения использования памяти и производительности системы. Дублирование всего набора переменных и введение проверки согласованности перед каждой операцией чтения представляют собой оптимальный выбор с точки зрения покрытия ошибок. Дублирование всего набора переменных позволяет покрыть чрезвычайно высокий процент отказов с помощью этого метода программного резервирования. С другой стороны, дублируя меньший процент переменных, можно получить компромисс между полученным покрытием ошибок и затратами времени ЦП.
Результат эксперимента показывает, что дублирования только 50% переменных достаточно, чтобы покрыть 85% ошибок с накладными расходами процессорного времени всего 28%.
Следует также обратить внимание на реализацию проверки согласованности, поскольку она обычно выполняется после каждой операции чтения или в конце периода жизни каждой переменной. Тщательная реализация этой проверки может минимизировать время процессора и размер кода для этого приложения.
- Дублирование параметров функции
Поскольку обнаружение ошибок в данных достигается путем дублирования всех переменных и добавления проверок согласованности после каждой операции чтения, следует учитывать особые соображения в соответствии с интерфейсами процедур. Параметры, передаваемые процедурам, а также возвращаемые значения считаются переменными. Следовательно, каждый параметр процедуры дублируется, как и возвращаемые значения. Процедура по-прежнему вызывается только один раз, но она возвращает два результата, которые должны содержать одно и то же значение. В листинге источников справа показан пример реализации дублирования параметров функции.
- Дублирование теста
Дублирование теста - один из самых надежных методов, которые существуют для общего обнаружения программных ошибок. Недостатком является то, что нельзя сделать никаких строгих предположений ни о причине ошибок (EMI, ESD и т. Д.), Ни о типе ожидаемых ошибок (ошибки, влияющие на поток управления, ошибки, влияющие на данные и т. Д.). Известны ошибочные изменения битов в байтах данных при хранении в памяти, кэше, регистре или передаче по шине. Эти байты данных могут быть кодами операций (инструкциями), адресами памяти или данными. Таким образом, этот метод может обнаруживать широкий спектр неисправностей и не ограничивается конкретной моделью неисправности. При использовании этого метода память увеличивается примерно в четыре раза, а время выполнения примерно в 2,5 раза больше, чем у той же программы без дублирования тестов. В листинге источников справа показан пример реализации дублирования условий тестирования.
- Разветвленное дублирование
По сравнению с дублированием теста, где перекрестно проверяется одно условие, при дублировании ветвления условие дублируется.
Для каждого условного теста в программе необходимо переоценить условие и результирующий переход, как показано на рисунке. Переход выполняется только при повторном выполнении условия, иначе возникла ошибка.
- Дублирование инструкций и разнообразие в реализации
Какая польза от дублирования данных, тестов и ветвей при неверном вычисленном результате? Одно из решений - полностью продублировать инструкции, но реализовать их по-другому. Таким образом, выполняются две разные программы с одинаковой функциональностью, но с разными наборами данных и разными реализациями. Их выходы сравниваются и должны быть равны. Этот метод охватывает не только перевороты битов или сбои процессора, но и ошибки программирования (ошибки). Если оно предназначено специально для обработки аппаратных сбоев (ЦП), программное обеспечение может быть реализовано с использованием различных частей оборудования; например, одна реализация использует аппаратное умножение, а другая реализация умножает путем сдвига или добавления. Это вызывает значительные накладные расходы (более чем в два раза в зависимости от размера кода). С другой стороны, результаты выдающиеся.
Порты
Сбросить порты и порты прерывания
Сбросить порты и прерывания очень важны, так как они могут быть вызваны нарастающими / падающими фронтами или высоким / низким потенциалом на порте прерывания. Переходные нарушения могут привести к нежелательным перезагрузкам или запускать прерывания и, таким образом, вызвать сбой всей системы. Для каждого инициированного прерывания указатель инструкции сохраняется в стеке, а указатель стека уменьшается.
Постарайтесь уменьшить количество прерывания по фронту. Если прерывания могут запускаться только с уровнем, то это помогает гарантировать, что шум на выводе прерывания не вызовет нежелательной операции. Следует иметь в виду, что прерывания, инициируемые уровнем, могут приводить к повторным прерываниям, пока уровень остается высоким. При реализации эту характеристику необходимо учитывать; повторяющиеся нежелательные прерывания должны быть отключены в ISR. Если это невозможно, то при немедленном входе в прерывание, запускаемое фронтом, достаточно программной проверки вывода, чтобы определить, правильный ли уровень.
Для всех неиспользуемых прерываний должна быть реализована процедура обработки ошибок, чтобы поддерживать систему в определенном состоянии после непреднамеренного прерывания.
Непреднамеренные перезагрузки мешают правильному выполнению программы и неприемлемы для обширных приложений или критически важных систем безопасности.
Сброс дифференциации (холодный / теплый старт)
Частым системным требованием является автоматическое возобновление работы после сбоя / сбоя. Может быть полезно записывать состояние системы при выключении и сохранять данные в энергонезависимой памяти. При запуске система может оценить, перезагружается ли система из-за сбоя или сбоя (теплый запуск), и состояние системы может быть восстановлено или может быть указана ошибка. В случае холодного запуска данные, сохраненные в памяти, можно считать действительными.
Измерение внешнего потребления тока
Этот метод представляет собой комбинацию аппаратной и программной реализации. Он предлагает простую схему для обнаружения электромагнитных помех с использованием собственных ресурсов устройства. Большинство микроконтроллеров, таких как ATmega16, содержат аналого-цифровые преобразователи (АЦП), которые можно использовать для обнаружения необычных колебаний источника питания, вызванных помехами.
Когда программное обеспечение обнаруживает помехи, микроконтроллер может перейти в безопасное состояние, ожидая, пока агрессия пройдет. В этом безопасном состоянии критическое выполнение не допускается. На графике показано, как может быть выполнено обнаружение помех. Эту технику можно легко использовать с любым микроконтроллером, имеющим АЦП.
Сторожевая собака
Сторожевой таймер - это электронный таймер, который обнаруживает ненормальную работу других компонентов и инициирует корректирующие действия для восстановления нормальной работы. Это особенно гарантирует, что устройства, управляемые микроконтроллером, не выйдут из строя полностью при возникновении программной ошибки или кратковременной ошибки оборудования. Сторожевые таймеры обычно основаны на моностабильный таймер или цифровой счетчик. Схема таймера может быть встроена в микросхему микроконтроллера или реализована как внешняя схема. Сторожевые таймеры могут значительно повысить надежность микроконтроллера в среде с электромагнитным воздействием.
Программа регулярно информирует сторожевой таймер о том, что он все еще работает правильно. Если сторожевой таймер не проинформирован, это означает, что программное обеспечение больше не работает, как указано. Затем сторожевой таймер сбрасывает систему в определенное состояние. Во время сброса устройство не может обрабатывать данные и не реагирует на звонки.
Поскольку стратегия сброса сторожевого таймера очень важна, необходимо соблюдать два требования:
- Сброс сторожевого таймера возможен только в том случае, если все процедуры работают правильно.
- Сброс должен быть выполнен как можно быстрее.
Простая активация сторожевого таймера и регулярные сбросы таймера не позволяют оптимально использовать сторожевой таймер. Для достижения наилучших результатов цикл обновления таймера должен быть как можно короче и вызываться из основной функции, чтобы можно было выполнить сброс до того, как будет нанесен ущерб или возникнет ошибка. Если микроконтроллер не имеет внутреннего сторожевого таймера, аналогичная функция может быть реализована с помощью прерывания по таймеру или внешнего устройства.
Затухание
А потемнение Схема контролирует уровень VCC во время работы, сравнивая его с фиксированным уровнем запуска. Когда VCC падает ниже уровня срабатывания триггера, немедленно активируется сброс после отключения. Когда VCC снова повышается, MCU перезапускается после определенной задержки.
Смотрите также
- Электромагнитная совместимость
- Программирование с учетом ЭМС
- Программирование с учетом выбросов
- Отказоустойчивая компьютерная система
- Отказоустойчивое программное обеспечение
- Список директив EMC
- Отказоустойчивость программного обеспечения
Примечания
- ^ Latch-up - также известный как Одно событие (SEL) - это короткое замыкание VDD (положительный источник питания) и VSS (отрицательный источник питания). Защелкивание вызвано паразитные транзисторы (транзисторы, которые не могут быть активированы в нормальных условиях эксплуатации) КМОП схемы. Сильные переходные помехи могут активировать транзисторы и термически разрушить устройство.
- ^ [1]