C++ ときどき ごはん、わりとてぃーぶれいく☆

USAGI.NETWORKのなかのひとのブログ。主にC++。

CPUとMBの間にゴミが詰まっていてもPCは動く事がある。但し今回はメモリーの不調の原因でした。のメモ

Threadripper のメモリー回りがシビア過ぎるせいだと思って半ば諦めていたメモリー認識の問題が解決したメモです。

状況

  • PCの電源をONすると、ランダム発生っぽい感じでメモリーが1枚認識されなかったり(†1)、本来のメモリー性能を発揮できない認識になったり(†2)する
  • たまに期待動作する
  • このPCはツクモ店頭で部品単位で店員さんと相談しつつ購入し、組み立てはツクモのひとにお金を払って代行して貰いケースに収まった状態で自宅へ発送して貰っていた
    • これまでCPUクーラーの取り外しまでは何度かしているけれど、交換するようなCPUではないし、"CPUの物理的なインストールは正常にできているのでPOSTをクリアーできている…"と思い込んでいたため、CPUを取り外して確認した事は無かったのです…

(†1),(†2): CMOSクリアー、BIOSアップデートなどを行い再起動すると抽選が発生。使用開始直後はだいたい期待動作していたが、数ヶ月、1年、…と時の経過に比例してメモリーXMP設定や調整でPOST死したり、メモリー3枚しか実用可能な認識状態にならない率が高まり、最近ではすべてのメモリーを認識し、XMPのSPEC通りの設定で動作する事は稀なほどになっていました。そのため、期待動作したら電源を落とさないように使っていたのですが、今朝はいよいよ期待動作しなくなったようでした。

(†1): BIOS(UEFIだけど)の"メイン"ほかではメモリーが1枚認識されていない扱いになる状態でも↓のメモリーのprofileを読み出す画面では認識できている謎の状態になる。認識されなくなるスロットもランダムっぽく変わるが、発症するとリセットしただけでは認識がおかしくなるスロットも変わらなくなる。

f:id:USAGI-WRP:20200204093917j:plain

(†2): XMP 設定にするとメモリーエラーが発生してPOST死したり、細かいメモリー設定のチューン、ダウンクロック、昇圧などを安全な気がする程度の範囲してもPOST死したりする。発症中はJEDEC#1から2133MHzのprofileを自動認識させた場合のみPOSTを抜けるようになる。

PCの構成

  • CPU: AMD Ryzen Threadripper 2990WX
  • MB: ASRock X399 Taichi
  • RAM: G.Skill F4-3200C16D-16GTZRX (合計4枚、32GB)

試したけれど無駄だった事

  • 「メモリー部品の不良」や「MBの不良」を疑い、
    • 差し替えたり
    • memtest したり
    • BIOS アップデートしたり
    • BIOS をデフォルトへリセットしたり
    • CMOS クリアーしたり
    • GPU 抜いてみたり変えてみたり、CPUとMB以外の部分を分解/再実装したり取り替えてみたり…
    • モリーに関係しそうなチューニング向けの設定をいじってみたり...

解決に至った答え

同様の症状を相談した ASRock のフォーラムで mhp 曰く、

Problem was solved when I re-seated the CPU on the MB. Thanks a lot to xhue for the advice! I couldn't find a bent pin but probably there was a pin (or more) not touching where it should :)

訳:

CPUをMBに再装着してみたら解決したよ!アドバイスありがとう xhue ! 曲がったピンは見つけられなかったけど、たぶんどこかのピンが接触不良だったに違いない😂

さらに、このスレッドには同様の症状が同様にCPUの再装着で解決できたという報告が追加で寄せられていました。

「なるほど、そういう事もあるかもしれませんね…」と薄い期待を懐き、一応ほかにもう手も無いので試してみる事にしました。(私の場合はCPUをMBへインストールしたのはツクモの組み立て代行のプロフェッショナルでお金払ってやってもらった信頼の仕事…だったはずだから、まあその手の問題ではないでしょうけど…と思いながら。)

↓CPUオープン…んむむむむー???!

f:id:USAGI-WRP:20200204100355j:plain

CPUに何かが付着しているか、あるいは端子のめっきが剥がれているか破損している???などと思い、よーく観察すると、どうやら「付着」の方らしい気配。(精密工作用のルーペを使用した目視による判断)

f:id:USAGI-WRP:20200204112027p:plain

↓ピンセットでつまんで、とりあえずCPUをスライド・インする橙の枠部分へ移動してみたの図:

f:id:USAGI-WRP:20200204100719j:plain

"ちょうど Threadripper 2990WX の端子1つ分ほどの大きさで、金属光沢を感じる、とても薄い何か"でした。目視ではそれ以上の事はわかりません。これが食べ物だった場合は異物混入として原因特定可能な程度に製造者(会社)が分析を試みてくれたりもしますが、これは組み立てを担当してくれたツクモさんに報告しても原因特定を目的とした分析まではたぶんしてくれないかな。謎の物体は謎の物体のまま。

f:id:USAGI-WRP:20200204112115p:plain

ともかく、この謎の物体を除去したところ、これまでのメモリーの不調が完全に解消されました。めでたしめでたし。

f:id:USAGI-WRP:20200204105352j:plain

XMP自動設定でも試した限りでは100%正常に期待動作するようになってくれました。もちろん、挿したすべてのメモリーが認識されています😃

だそく

ツクモさんには状況の報告を優しくしつつ、分析用にほしければこの謎の物体もキープしてあるので送りますよと連絡します。プロもミスはします。ただ、このミスは丁寧に仕事をしていればおそらく状況発生しなかったようにも思います。AMDの出荷時に既に謎の物体が付着していた可能性もあるかもしれませんが、ピンセットで特に苦労もなくつまめる物体が出荷前の洗浄工程以後に付いたとは…考え難いかなって思います。

CPUとMBの間に謎のゴミが挟まって、一見動作するけれど何かが極めて気難しい"不調"な動作になる。そういう事が起こる驚きと知見の取得の楽しさに比べれば、ツクモさんのミスへの負の感情はほぼありません。

この件で、ツクモさんや担当してくれた方を中傷したり、謝罪を要求したりはしませんが、さすがにプロの仕事で相応の代金もとってやって頂いていた事でしたから、私個人としてのツクモさんへの信頼低下はさすがにどうしようもありません。ツクモさんは好きなお店のままですし、今回の件の社内での情報共有と再発防止も図られるでしょう(たぶん)。