Win10 WHEA_UNCORRECTABLE_ERROR

Приветствую!

В последнее время участились случаи выпадения системы в BSOD с кодом WHEA_UNCORRECTABLE_ERROR.
Причем обычно это случается при просмотре веб-страниц или при запуске прог, написанных на Java. В моем случае - это Ghidra.

Система Win10 x64
CPU: Intel i9-7940x 3.1 GHz
RAM: 64 Gb
GPU: GTX 1070
Блок питания Corsair RM1000i 1000W

Жесткий диск проверял, сбойных секторов нет.
Температура проца 33-35 C.

Есть идеи, в чем проблема?

При непонятных бсодах обычно советуется проверить память memtest’ом.

Или может быть какой-нибудь недавно обновленный драйвер виноват.

Память тоже проверял - все ок.

Сегодня поставил новый SDD и на него поставил чистую систему. Снова упала.

Дело может быть и в каком-нибудь недавнем обновлении винды.


А BlueScreenView не показывает ничего интересного о том, что вызывает бсод?

Нет, ничего интересного. Файл дампа оказался поврежденным.

Может размер файла дампа слишком мал?
Можно пробовать совсем его отключить.
Какой шестнадцатеричный код ошибки, не обратили внимание?

Так 64 ГБ и без него должно хватать )

Да мало ли как систему глючит…
Может видит большой объем ОЗУ и не обращая внимания малый размер дампа пихает часть данных из ОЗУ. Данные не влезли, бац ошибка при следующем обращении к ним.

P. S.
Первым делом бы попробовал бы следующее:
В настройках электропитания переназначил бы кнопки, Завершение работы по умолчанию переводит систему в гибернацию.
Указать кнопке Завершение работы - именно завершение работы.
Кнопке Сон - именно режим сна (вроде по умолчанию так и есть), точно не помню.
Если ноут, то по закрытию крышки - Гибернация (задействуются файл дампа и подкачки).
Далее установил бы фиксированный размер файла подкачки размером равным рекомендуемым системой, или вручную помножить размер ОЗУ на 1,5 = размер подкачки.
Дамп ядра установить Полный (максимальный) дамп

Понаблюдал бы пару дней за работой системы.

Если ошибка повторяется. Отключаем дамп ядра и указываем системе работать без файла подкачки (гибернация в таком режиме будет вызывать ошибки).
Снова наблюдаем за работой системы…

0x00000124 WHEA_UNCORRECABLE_ERROR

Это почти 100 ГБ будет

Вот тут не понял. Есть полный дамп, он будет равен объему ОЗУ + чуть оверхеда. А есть дамп памяти ядра, который только данные из kernel mode пишет.

Сейчас у меня стоит сохранение дампа памяти ядра. Но он вот повредился. Хотя места на диске было достаточно.

Ошибка стала возникать достаточно часто. Вчера, например, когда вкладки листал в браузере два раза упало.

Про отключение файла подкачки - попробую, спасибо.

Есть три режима:
без дампа;
малый дамп;
дамп ядра (его подразумевал как полный).

Как точно эти режимы в 10-ке именованы не помню.

Без подкачки нужно дамп делать малым или совсем отключать.

Если ресурс накопителя ограничен, можно указать:
исходный размер - 512 МБ
максимальный - тот что рекомендуется системой.
Будет динамично изменяться размер по мере необходимости…

0x00000124, там дальше в скобках еще ряд ошибок должно быть. По ним можно более детально анализировать последовательность отказов…

Попробуйте снять всю оперативу, лишние девайсы отключите. Может быть какая то планка битая?
Видяху снимите если есть встроенная.

Везде пишут что это проблема с железом. На матери все нормально?? Может там кто нибудь надулся?

Может какая нибудь запись есть в журнале ??

Софт пробовали какой нибудь?? АИДА например. там есть состояние температурных датчиков всей системы. Может где то перегрев??

Не, никого не видно.

Память достали?? попробуйте с одной планкой запустить и потестировать.
Может какой нагрузочный тест дать?? И посмотреть на температуру под нагрузкой?

Так падает же вроде не под ней )


Чтобы исключить проблемы с ОС/драйверами можно на линуксе посидеть )
Винду в виртуалке если очень нужна.

НУ вот если бы был какой нибудь профиль загрузки… ))
Ну я бы снял для начала все лишнее оборудование и оставил бы все в минимальной конфигурации.
Потом можно было бы с загрузить с какго нибудь ливсд запустить тест там.

Отключил подкачку.

Гидра перемалывает большие файлы. Пока полет нормальный.
Планки памяти пока не вынимал.

Если еще упадет, попробую с Линукса посидеть.

Обратил внимание, что иногда одно ядро греется больше остальных. Т.е. у всех по ~33 градуса, а у одного 40. Это нормально?

Да, наверно его использует какое-то однопоточное приложение в это время.

После нескольких недель нормальной работы случился BSOD. Понятней ситуация не стала.

WHEA_UNCORRECTABLE_ERROR (124)
A fatal hardware error has occurred. Parameter 1 identifies the type of error
source that reported the error. Parameter 2 holds the address of the
WHEA_ERROR_RECORD structure that describes the error conditon.
Arguments:
Arg1: 0000000000000000, Machine Check Exception
Arg2: ffffe388aa591028, Address of the WHEA_ERROR_RECORD structure.
Arg3: 00000000b2000000, High order 32-bits of the MCi_STATUS value.
Arg4: 0000000000070005, Low order 32-bits of the MCi_STATUS value.

Debugging Details:
------------------

Page 105ef6f not present in the dump file. Type ".hh dbgerr004" for details
Page 105ef6f not present in the dump file. Type ".hh dbgerr004" for details

KEY_VALUES_STRING: 1

    Key  : Analysis.CPU.Sec
    Value: 3

    Key  : Analysis.DebugAnalysisProvider.CPP
    Value: Create: 8007007e on DEV-MAIN-PC

    Key  : Analysis.DebugData
    Value: CreateObject

    Key  : Analysis.DebugModel
    Value: CreateObject

    Key  : Analysis.Elapsed.Sec
    Value: 33

    Key  : Analysis.Memory.CommitPeak.Mb
    Value: 78

    Key  : Analysis.System
    Value: CreateObject


BUGCHECK_CODE:  124

BUGCHECK_P1: 0

BUGCHECK_P2: ffffe388aa591028

BUGCHECK_P3: b2000000

BUGCHECK_P4: 70005

PROCESS_NAME:  chrome.exe

STACK_TEXT:  
ffffa081`ddc8d058 fffff803`787a4178 : 00000000`00000124 00000000`00000000 ffffe388`aa591028 00000000`b2000000 : nt!KeBugCheckEx
ffffa081`ddc8d060 fffff803`7c981920 : ffffe388`a6ce3690 00000000`00000000 ffffe388`aa591028 00000000`00000000 : hal!HalBugCheckSystem+0xd8
ffffa081`ddc8d0a0 fffff803`78b40062 : ffffe388`a6ce3690 ffffa081`ddc8d129 00000000`00000000 ffffe388`aa591028 : PSHED!PshedBugCheckSystem+0x10
ffffa081`ddc8d0d0 fffff803`787a5ad6 : ffffa081`ddc8d1f0 00000000`00000004 ffffe388`a6ce36e0 ffffe388`a6ce3690 : nt!WheaReportHwError+0x382
ffffa081`ddc8d190 fffff803`787a5f6a : 00000000`00000010 ffffe388`a6ce36e0 ffffa081`ddc8d348 ffffa081`ddc8d590 : hal!HalpMcaReportError+0x72
ffffa081`ddc8d2f0 fffff803`787a5e44 : ffffe388`a66e22c0 00000000`00000001 00000000`00000000 00000000`00000000 : hal!HalpMceHandlerCore+0xf2
ffffa081`ddc8d340 fffff803`787a60b0 : 00000000`0000001c 00000000`00000001 00000000`00000000 00000000`00000000 : hal!HalpMceHandler+0xe0
ffffa081`ddc8d380 fffff803`787a5158 : 00000000`00000000 ffffa081`ddc8d610 00000000`00000000 00000000`00000000 : hal!HalpMceHandlerWithRendezvous+0xd4
ffffa081`ddc8d3b0 fffff803`787a6337 : ffffe388`a66e22c0 00000000`00000000 00000000`00000000 00000000`00000000 : hal!HalpHandleMachineCheck+0x5c
ffffa081`ddc8d3e0 fffff803`78aa42e0 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : hal!HalHandleMcheck+0x37
ffffa081`ddc8d410 fffff803`789d2afa : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiHandleMcheck+0x10
ffffa081`ddc8d440 fffff803`789d27af : 00000000`00000000 00000000`00000000 00007ff9`d889555c 00000000`00000000 : nt!KxMcheckAbort+0x7a
ffffa081`ddc8d580 00007ff9`d88910d1 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiMcheckAbort+0x26f
0000001f`e8dfca80 00000000`00000000 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : 0x00007ff9`d88910d1


MODULE_NAME: GenuineIntel

IMAGE_NAME:  GenuineIntel.sys

STACK_COMMAND:  .thread ; .cxr ; kb

FAILURE_BUCKET_ID:  0x124_GenuineIntel_PROCESSOR_MAE_INTERNAL_PARITY

OS_VERSION:  10.0.18362.1

BUILDLAB_STR:  19h1_release

OSPLATFORM_TYPE:  x64

OSNAME:  Windows 10

FAILURE_ID_HASH:  {ad18667d-e4af-4a49-4062-3121e823755f}

Followup:     MachineOwner

По багу нашел Bug Check 0x124, и похоже что как-то связано с Machine Check Architecture.

Дополнительно: Анализ дампов с стоп кодом 0x124

Спасибо, проанализировал структуру как по ссылке выше.
ErrorType: Micro-Architectural Error
Error: Internal parity (Proc 4 Bank 0)

===============================================================================
Common Platform Error Record @ ffffe388aa591028
-------------------------------------------------------------------------------
Record Id     : 01d6c93060920e0f
Severity      : Fatal (1)
Length        : 872
Creator       : Microsoft
Notify Type   : Machine Check Exception
Timestamp     : 12/3/2020 17:59:34 (UTC)
Flags         : 0x00000000

===============================================================================
Section 0     : Processor Generic
-------------------------------------------------------------------------------
Descriptor    @ ffffe388aa5910a8
Section       @ ffffe388aa591180
Offset        : 344
Length        : 192
Flags         : 0x00000001 Primary
Severity      : Fatal

Proc. Type    : x86/x64
Instr. Set    : x64
Error Type    : Micro-Architectural Error
Flags         : 0x00
CPU Version   : 0x0000000000050654
Processor ID  : 0x0000000000000004

===============================================================================
Section 1     : x86/x64 Processor Specific
-------------------------------------------------------------------------------
Descriptor    @ ffffe388aa5910f0
Section       @ ffffe388aa591240
Offset        : 536
Length        : 64
Flags         : 0x00000000
Severity      : Fatal

Local APIC Id : 0x0000000000000004
CPU Id        : 54...... - bf ......
                00 00 00 00 00 00 00 00 - 00 00 00 00 00 00 00 00
                00 00 00 00 00 00 00 00 - 00 00 00 00 00 00 00 00

===============================================================================
Section 2     : x86/x64 MCA
-------------------------------------------------------------------------------
Descriptor    @ ffffe388aa591138
Section       @ ffffe388aa591280
Offset        : 600
Length        : 272
Flags         : 0x00000000
Severity      : Fatal

Error         : Internal parity (Proc 4 Bank 0)
  Status      : 0xb200000000070005