그래픽카드(GPU)가 갑자기 화면을 출력하지 못하거나, 게임 도중 기이한 색깔의 점과 줄이 생기거나, 윈도우 장치 관리자에 코드 10 또는 코드 43 오류가 뜨는 경우, 많은 사람들이 드라이버 재설치나 PCIe 슬롯 청소로 해결을 시도합니다. 하지만 이런 증상의 상당수는 사실 VRAM(비디오 메모리) 칩 자체의 물리적 불량에서 비롯됩니다.
VRAM 불량은 크게 두 가지 경로로 발생합니다. 첫 번째는 납땜 불량(솔더 크랙)으로, 반복적인 열팽창과 수축으로 인해 GPU 칩 또는 VRAM 칩과 PCB 사이의 솔더볼이 미세하게 떨어지는 현상입니다. 두 번째는 칩 자체의 열화로, 특히 과클럭이나 냉각 불량으로 장기간 높은 온도에 노출된 VRAM 칩이 내부 셀 단위에서 데이터를 정상적으로 쓰고 읽지 못하게 되는 경우입니다.
문제는 어떤 칩이 문제인지 정확히 찾아내는 것이 매우 어렵다는 점입니다. GPU 위에는 여러 개의 VRAM 칩이 분산 배치되어 있으며, 각 칩은 GPU의 메모리 컨트롤러를 통해 FBIO(Frame Buffer I/O) 채널로 연결됩니다. 일반 소프트웨어로는 어느 채널, 어느 칩에서 에러가 발생하는지 특정할 수가 없습니다.
NVIDIA의 MODS(Modular Diagnostic Suite) 안에 포함된 MATS와 AMD의 TserverLite는 원래 각 사의 OEM 파트너 및 내부 품질 검증에 사용되던 저수준(low-level) 진단 소프트웨어입니다. 이 도구들은 OS 드라이버 스택을 우회하여 GPU 메모리 컨트롤러와 직접 통신하기 때문에 어떤 FBIO 채널의 어떤 칩에서 에러가 발생하는지 정확하게 출력해 줍니다. 이 정보가 있어야 비로소 교체해야 할 칩을 특정하고 정밀 수리가 가능합니다.
이 방법에서 다루는 주요 증상
화면 아티팩트 (깨짐 현상)
화면에 무작위한 색깔의 점, 선, 블록이 나타나는 현상. 특히 게임 중 또는 GPU 부하 상승 시 악화되면 VRAM 불량을 강하게 의심할 수 있습니다.
장치 관리자 코드 10 / 코드 43
드라이버를 재설치해도 반복되는 오류. GPU 하드웨어가 정상적으로 초기화되지 않거나 자기 진단에서 이상을 감지했을 때 발생합니다.
화면 무출력 (No Display)
팬은 돌고 전원은 들어오지만 화면이 전혀 나오지 않는 상태. VRAM 초기화 실패 또는 GPU 코어 손상이 원인일 수 있습니다.
게임 중 블루스크린 / 랜덤 크래시
특정 3D 부하 조건에서만 발생하는 시스템 충돌. VRAM의 일부 영역에서만 에러가 발생하는 경우 이러한 간헐적 증상이 나타납니다.
NVIDIA MODS와 MATS란 무엇인가 — 도구 구조와 작동 원리
MODS(Modular Diagnostic Suite)는 NVIDIA가 자사 GPU 제품의 생산 및 출하 단계에서 품질 검증(QA)을 위해 개발한 내부 진단 소프트웨어 모음입니다. 원래는 OEM 제조사(ASUS, MSI, Gigabyte 등)와 NVIDIA 공인 수리 센터에만 제공되었으나, 일부 버전이 외부로 유출되어 현재는 전 세계 사설 수리점의 비공식 표준 도구로 광범위하게 활용되고 있습니다.
MODS는 두 가지 핵심 도구를 중심으로 구성됩니다.
mods — GPU 코어 진단 도구
GPU 칩 자체(코어)를 테스트합니다. 셰이더 연산, 렌더링 파이프라인, 클럭 안정성, 전력 관리 회로 등을 검증하는 다양한 테스트 스크립트(.js 파일)를 실행할 수 있습니다. OEM 검증용(-mfg)과 출하 QA용(-oqa) 모드를 지원합니다.
mats — VRAM 메모리 진단 도구
VRAM 칩들을 채널별로 정밀 테스트합니다. 각 FBIO 채널에 연결된 개별 메모리 칩에 데이터를 직접 쓰고 읽어 에러를 카운트합니다. 화면 아티팩트나 코드 43 같은 증상의 원인 칩을 특정하는 데 핵심 도구입니다.
소프트웨어 구조 및 배포 형태
유출된 MODS는 초소형 리눅스 배포판(Arch Linux 기반) 형태의 ZIP 아카이브로 배포됩니다. 별도의 OS 설치 없이 부팅 가능한 USB 드라이브를 만들어 독립 실행이 가능하며, 모든 의존성 파일과 드라이버가 내부에 포함되어 있습니다. 테스트 실행 결과는 report.txt 텍스트 파일로 USB에 저장됩니다.
기술적 숙련도 요구 사항
MODS/MATS는 리눅스 명령줄 환경, 하드웨어 구조에 대한 기본 지식, 그리고 부팅 가능한 USB 제작 경험이 필요합니다. 그래픽카드 수리 경험이 없는 상태에서 단순히 VRAM 불량 여부만 확인하고자 한다면, 전문 수리점에서 진단을 의뢰하는 편이 더 안전합니다. 이 가이드는 수리 기술자 또는 고급 사용자를 대상으로 합니다.
MODS 버전별 지원 아키텍처 — 내 그래픽카드에 맞는 버전 선택하기
MODS는 버전마다 지원하는 GPU 아키텍처가 다릅니다. 반드시 테스트하려는 그래픽카드의 세대에 맞는 버전을 사용해야 하며, 잘못된 버전을 사용하면 GPU를 인식하지 못하거나 테스트가 정상적으로 완료되지 않습니다.
| MODS 버전 | 포함 도구 | 지원 아키텍처 | 대표 지원 모델 | 운영체제 기반 |
|---|---|---|---|---|
| 367.38.1 | mods + mats + 전체 문서 | Maxwell / Pascal (이하) | GTX 10xx, GTX 9xx, GTX 7xx 시리즈 | Arch Linux |
| 400.184 | mods + mats | Turing | RTX 20xx, GTX 16xx 시리즈 | Arch Linux |
| 455.127 | mods + mats | Ampere | RTX 30xx 시리즈 (3080, 3070, 3060 등) | Arch Linux |
하드웨어 요구 사항
CPU: x86_64 또는 aarch64 아키텍처, PAE(Physical Address Extension) 지원 필수
RAM: 최소 4GB 이상 (테스트 중 시스템 메모리도 사용됨)
USB: 최소 1GB 이상 (버전 및 포함 파일에 따라 다름)
BIOS: Secure Boot 비활성화 필수
아키텍처별 GPU 모델 확인 방법
자신의 그래픽카드 아키텍처를 확인하는 가장 간단한 방법은 GPU-Z 소프트웨어를 실행하여 ‘GPU’ 항목 옆 이름을 확인하는 것입니다. 예를 들어 GA104는 Ampere 아키텍처(RTX 30xx)이고, TU102는 Turing(RTX 20xx), GP102는 Pascal(GTX 10xx)입니다. MODS 버전을 선택할 때는 반드시 이 아키텍처 정보를 기준으로 하십시오.
MODS 부팅 가능한 USB 드라이브 제작 방법
MODS는 주로 러시아 기술 포럼이나 해외 수리 관련 커뮤니티 사이트에서 구할 수 있습니다. 검색 시 버전 번호를 포함하여 찾으면 됩니다. 다운로드 후 아래 절차에 따라 부팅 USB를 제작합니다.
1. Rufus로 FreeDOS 부팅 USB 기반 생성
Rufus(https://rufus.ie)를 실행합니다. 장치 선택에서 사용할 USB를 고르고, 부트 선택에서 FreeDOS를 선택한 뒤 시작합니다. USB는 최소 2GB를 권장하며, 기존 데이터는 모두 삭제되므로 주의하십시오.
2 MODS ZIP 파일 압축 해제 후 USB로 복사
다운로드한 MODS ZIP 아카이브를 압축 해제합니다. 압축 해제된 폴더 내 모든 내용물(mods 폴더, 리눅스 부트 파일 등)을 USB 루트 디렉토리에 복사합니다.
3. autoexec.bat 파일 편집 — 부트 체인 연결
USB 루트에 있는 autoexec.bat 파일을 메모장으로 열고, 파일 끝에 아래 코드를 추가합니다. 이 코드는 FreeDOS 부팅 직후 MODS 리눅스 환경으로 자동 전환되도록 Grub 부트로더를 호출합니다.
autoexec.bat — 추가 코드
:: MODS 패키지 파일을 실행 경로로 복사 copy c:\mods\367381.pkg c:\mods\pkgname copy c:\mods\runmods.rbt c:\mods\runmods :: Grub을 통해 리눅스 커널로 체인 부팅 \grub --config-file="find --set-root /tiny/kernel; configfile /dos2lin/dos2lin.lst"
4. ARGS 파일 확인 — 자동 실행 테스트 지정
/mods/ARGS 파일에 부팅 시 자동으로 실행할 테스트 스크립트가 지정되어 있습니다. 기본값은 대개 gputest.js로 설정되어 있으며, MATS만 실행하도록 수정할 수도 있습니다.
5. (선택사항) 화면 무출력 카드를 위한 자동 종료 설정
테스트할 카드에서 화면 출력이 되지 않아 테스트 완료 시점을 알 수 없다면, /mods/runmats 파일 맨 끝에 poweroff 명령어를 추가하십시오. 테스트 완료 후 PC가 자동으로 꺼지므로, 전원이 꺼지는 시점이 곧 테스트 종료 시점입니다.
BIOS 설정 필수 확인 사항
부팅 전 메인보드 BIOS에서 반드시 다음을 확인하십시오.
① Primary Display Output: 테스트할 외장 그래픽카드가 꽂힌 PCIe 슬롯으로 설정
② iGPU: 비활성화 또는 외장 GPU 우선으로 설정 (내장 그래픽이 활성화된 상태로 부팅 시 에러 발생 가능)
③ Secure Boot: Disabled
④ CSM(Compatibility Support Module): Enabled (Legacy 부팅 지원)
대안: mats.img 이미지 파일 직접 사용
일부 버전은 mats.img라는 디스크 이미지 파일 형태로 배포됩니다. 이 경우 autoexec.bat 편집 없이 더 간단하게 USB를 만들 수 있습니다. balenaEtcher 또는 Rufus를 사용하여 128MB 이상의 USB에 이미지를 그대로 굽기만 하면 됩니다. 단, 이미지를 구운 후에는 윈도우에서 USB 드라이브가 열리지 않을 수 있습니다 — 이는 정상적인 현상입니다.
MODS / MATS 진단 실행 방법 — 부팅 및 수동 명령어 완전 정리
부팅 USB가 준비되면 해당 USB로 부팅하여 테스트를 실행합니다. 자동 모드와 수동 명령어 모드 두 가지 방법이 있습니다.
자동 실행 모드 (권장)
USB로 부팅하면 MODS 리눅스 환경이 로드되고, /mods/ARGS 파일에 지정된 테스트 스크립트가 자동으로 실행됩니다. 테스트는 GPU 종류와 VRAM 용량에 따라 다르지만 보통 수 분 내에 완료됩니다.
수동 실행 명령어 (Linux 환경)
이미 리눅스 환경이 준비되어 있거나 MODS 환경에서 셸에 직접 접근할 수 있다면 아래 명령어를 통해 필요한 테스트만 선택적으로 실행할 수 있습니다.
MODS — GPU 코어 테스트 명령어
# CEM(Compliance Engineering Module) 제조 테스트 모드 mods gputest.js -mfg # OEM 출하 품질 보증(QA) 테스트 모드 mods gputest.js -oqa # 특정 테스트 항목만 실행 mods memtest.js -test_duration 60
MATS — VRAM 메모리 테스트 명령어
# 기본 VRAM 테스트 실행 (에러 허용 횟수: 10) ./mats -e 10 # 3D 카드 모드로 10MB 용량 메모리 영역 테스트 ./mats -3d_card -e 10 # 결과 파일(report.txt) 확인 less /report.txt # 또는 nano report.txt
패키지 설치가 필요한 경우 (수동 리눅스 환경)
# MODS 의존성 패키지 설치 스크립트 실행 ./install_module.sh --install # 설치 완료 후 MATS 실행 ./runmats
-e 옵션의 의미
-e 10의 -e 플래그는 ‘에러 발생 시 얼마나 많은 에러를 허용한 뒤 테스트를 중단할 것인가’를 지정합니다. 값을 크게 설정할수록 더 많은 에러를 수집한 뒤 완전한 보고서를 생성합니다. 값을 작게 설정하면 첫 에러 발생 직후 빠르게 중단됩니다.
MATS 결과 파일(report.txt) 분석 방법 — 정상과 불량 판별
MATS 테스트가 완료되면 report.txt 파일이 생성됩니다. 이 파일에는 각 FBIO(Frame Buffer I/O) 채널별, 그리고 개별 메모리 칩별 에러 통계가 기록됩니다. 아래에서 정상(Pass) 케이스와 불량(Fail) 케이스를 비교해 보겠습니다.
정상 결과 (Pass)
MATS Version: 400.184
GPU: GeForce RTX 2080 Ti
VRAM: 11264 MB GDDR6
[ FBIO CHANNEL TEST ]
FBIOA[ 31: 0]
Read Error Count : 0
Write Error Count : 0
Failing Bits : None
FBIOB[ 31: 0]
Read Error Count : 0
Write Error Count : 0
Failing Bits : None
Error Code = 00000000 (OK)
TEST RESULT: PASS
불량 결과 (Fail) — GTX 1080 예시
MATS Version: 367.38.1
GPU: GeForce GTX 1080
VRAM: 8192 MB GDDR5X
[ FBIO CHANNEL TEST ]
FBIOA[ 31: 0]
Read Error Count : 0
Write Error Count : 0
FBIOC[ 31: 0]
Read Error Count : 0
Write Error Count : 33
Failing Bits : 0x000000FF
Error Code = 00000004 (MEM_ERROR)
TEST RESULT: FAIL
결과 해석 핵심 포인트
Read/Write Error Count가 0이 아닌 경우, 해당 FBIO 채널에 연결된 메모리 칩에서 비트 오류가 발생하고 있다는 의미입니다.
위 예시의 FBIOC[ 31: 0]에서 Write Error Count: 33이 나왔다면, FBIOC 채널에 연결된 VRAM 칩에서 33회의 쓰기 오류가 감지되었음을 뜻합니다. 이는 해당 채널의 메모리 칩 자체 불량, GPU의 메모리 컨트롤러 해당 채널 불량, 또는 관련 배선/회로 불량 가능성을 시사합니다.
Failing Bits 항목에 16진수 값이 나타난다면, 이는 오류가 발생한 비트의 패턴을 나타냅니다. 모든 비트에 걸쳐 오류가 나타나는 경우(0xFFFFFFFF)는 칩 자체의 심각한 불량이거나 물리적 연결 불량(솔더 크랙)일 가능성이 높습니다.
에러가 나왔다고 바로 칩 교체는 금물
MATS에서 특정 FBIO 채널 에러가 나왔다고 해서 무조건 해당 채널의 VRAM 칩을 교체하면 안 됩니다. 에러의 원인은 칩 자체 불량, GPU 메모리 컨트롤러 손상, PCB 단선, 솔더 볼 크랙 등 다양합니다. 추가적인 육안 검사(현미경), 서멀 이미징, 저항 측정 등을 병행하는 것이 좋습니다.
불량 메모리 칩 위치 특정 방법 — FBIO 채널과 실제 기판의 매핑
report.txt에서 어떤 FBIO 채널(FBIOA, FBIOB, FBIOC 등)에서 에러가 났는지 확인했다면, 다음 단계는 이 채널이 실제 PCB 기판 위의 어느 VRAM 칩에 해당하는지 찾는 것입니다.
NVIDIA GPU VRAM 칩 번호 매기기 규칙
NVIDIA 그래픽카드는 일반적으로 PCI-E 슬롯 연결부를 아래로 향하게 놓았을 때, GPU 코어 칩을 중심으로 반시계 방향(CCW)으로 VRAM 칩 번호를 매깁니다. 즉, GPU 우측 상단에 있는 칩이 보통 Bank 1 또는 FBIOA에 해당하고, 반시계 방향으로 돌면서 순서대로 번호가 증가합니다.
실전 매핑 팁
정확한 칩-채널 매핑은 모델에 따라 다를 수 있으므로, 해당 GPU 모델의 보드 레이아웃 다이어그램 또는 서비스 매뉴얼을 참조하는 것이 가장 정확합니다. 고급 수리 커뮤니티(러시아 포럼, 중국 수리 포럼)에는 주요 모델별 FBIO-칩 매핑표가 공유되어 있습니다. 또한 빈 보드에서 개별 칩의 저항값을 측정하는 방식으로도 교차 검증이 가능합니다.
| MATS 보고서 표시 | 일반적 위치 (반시계 방향 기준) | 의미 |
|---|---|---|
FBIOA | GPU 기준 첫 번째 채널 (우측 상단부터 시작) | A 채널 VRAM 칩 군 |
FBIOB | 반시계 방향 두 번째 위치 | B 채널 VRAM 칩 군 |
FBIOC | 반시계 방향 세 번째 위치 | C 채널 VRAM 칩 군 |
FBIOD ~ | 이하 동일 패턴으로 반시계 방향 계속 | D 채널 이후 VRAM 칩 군 |
AMD 그래픽카드 VRAM 진단 — TserverLite 사용법
NVIDIA에 MODS/MATS가 있다면, AMD에는 TserverLite가 있습니다. TserverLite는 AMD 내부에서 사용되던 진단 소프트웨어의 유출 버전으로 알려져 있으며, 사설 수리 업계에서 AMD 그래픽카드의 VRAM 불량 진단을 위한 비공식 표준 도구로 활용됩니다.
TserverLite의 특징과 한계
TserverLite는 리눅스 기반의 전용 부팅 이미지 형태로 작동합니다. MATS와 마찬가지로 GPU 드라이버 스택을 우회하여 메모리 컨트롤러와 직접 통신하고, 각 메모리 뱅크(Bank)별로 Read/Write 에러 카운트를 출력합니다.
단, NVIDIA MATS에 비해 인터페이스가 불친절하고, 지원하는 GPU 아키텍처(Polaris, Vega, Navi 등)마다 다른 버전의 스크립트를 사용해야 해서 익숙하지 않은 사용자에게는 다소 까다롭습니다. 또한 카드 세대별 지원 스크립트가 분리되어 있어 사전에 올바른 버전을 확인해야 합니다.
TserverLite 진단 실행 절차
1 부팅 후 AMD 옵션(3번) 선택
E2B(Easy2Boot) 멀티 부팅 USB 사용 시, 부트 메뉴에서 AMD 진단 항목(일반적으로 3번)을 선택합니다.
2 유지보수 모드 진입
부팅 과정 마지막에 “Press ENTER for maintenance” 메시지가 나타나면 Enter를 눌러 셸에 진입합니다.
3 지원 모델 목록 확인
ls 명령어를 입력하면 현재 버전이 지원하는 GPU 모델 목록이 표시됩니다. 테스트할 카드가 목록에 있는지 확인합니다.
4 테스트 실행 및 결과 확인
모델 번호에 해당하는 스크립트를 실행합니다. 예: R9-390 모델이라면 ./390을 입력하여 테스트를 시작하고, 완료 후 ./390g로 결과 로그를 출력합니다.
TserverLite 실행 예시 명령어
# 지원 모델 목록 확인 ls # R9-390 카드 테스트 실행 ./390 # 테스트 완료 후 결과 로그 출력 ./390g
| AMD 아키텍처 | 대표 모델 | TServer 지원 여부 |
|---|---|---|
| Southern Islands / Volcanic Islands | R9 280, HD7970, R9 390 | 지원 |
| Polaris | RX 470, RX 480, RX 570, RX 580 | 지원 |
| Vega | RX Vega 56, Vega 64 | 지원 |
| Navi (RDNA) | RX 5700, RX 5600 XT | 일부 지원 |
| RDNA2 이상 | RX 6000 시리즈 이상 | 제한적/미지원 |
Easy2Boot(E2B) 통합 진단 USB 구축 — NVIDIA + AMD 올인원 환경
수리 현장에서는 다양한 브랜드와 세대의 그래픽카드를 다루게 됩니다. 매번 다른 USB를 꽂는 불편함을 해소하고자, Easy2Boot(E2B)라는 멀티 부팅 프레임워크를 활용해 하나의 USB에 NVIDIA 모든 세대와 AMD 진단 도구를 통합하는 방법이 수리 커뮤니티에서 정립되었습니다.
파티션 구성 — 80GB 이상 USB 권장
모든 이미지를 담으려면 충분한 용량이 필요합니다. 아래는 권장 파티션 구성입니다.
P1
P2
P3 (AMD + 대용량 이미지)
P1: NTFS 8GB+ (메인 메뉴 + NVIDIA RTX 30xx/20xx)P2: FAT32 1~2GB (agFM UEFI 부트로더)P3: NTFS/EXT4 60GB+ (AMD TServer 이미지)
| 파티션 | 파일시스템 | 용량 | 내용 | 대상 GPU |
|---|---|---|---|---|
| Partition 1 | NTFS | 8GB+ | E2B 메인 메뉴 + NVIDIA 455.127, 400.xxx 이미지 | RTX 30xx, 20xx, GTX 16xx |
| Partition 2 | FAT32 | 1~2GB | agFM UEFI 부트로더 전용 영역 | — |
| Partition 3 | NTFS / EXT4 | 60GB+ | AMD TServer 이미지, NVIDIA 367.xxx (레거시) | AMD RX/R9/HD + GTX 10xx 이하 |
파일 연속성(Contiguous) 관리
E2B에서 .imgPTN 이미지 파일이 정상 작동하려면 해당 파일이 USB 내에서 조각나지 않고 연속적으로(contiguous) 저장되어야 합니다. 파일 복사 후 Defraggler 또는 Windows 기본 조각 모음 도구로 파일 연속성을 확인하고 최적화하십시오.
EXT4 파티션 인식 오류 해결 (Kings_Overkill 이미지)
일부 오래된 Grub4dos 부트로더는 최신 64-bit EXT4 파티션을 인식하지 못하는 문제가 있습니다. 이 경우 다음 두 가지 방법으로 해결할 수 있습니다.
EXT4 64-bit → 32-bit 다운그레이드 명령어
# GParted 또는 리눅스 터미널에서 실행 # /dev/sda3 는 실제 파티션 경로로 변경할 것 sudo resize2fs -s /dev/sda3 # 또는 최신 grldr 파일로 교체하는 방법도 유효
Python 기반 GPU 메모리 테스트 스크립트 — 고급 사용자를 위한 대안
MODS/MATS와 TserverLite 외에도, 리눅스 환경에서 Python으로 작성된 저수준 메모리 접근 스크립트를 이용해 GPU VRAM을 직접 테스트하는 방법이 있습니다. 이는 수리 커뮤니티의 고급 사용자들이 개발·공유한 방식으로, 특정 하드웨어 아키텍처에 종속되지 않는 유연성이 장점입니다.
작동 원리
이 방식의 핵심은 GPU 드라이버가 로드되지 않은 상태에서 작동한다는 점입니다. 드라이버가 없으면 GPU의 메모리 주소 공간이 시스템 메모리처럼 직접 매핑될 수 있습니다. 스크립트는 이 주소 공간에 미리 정해진 테스트 패턴 데이터를 쓰고(write), 다시 읽어(read) 원본과 대조합니다. 값이 불일치하는 주소가 있다면 해당 주소 범위의 메모리 셀이 불량임을 의미합니다.
장점
매우 가볍고 별도의 대형 이미지 파일 없이 실행 가능합니다. 특정 GPU 세대에 종속되지 않아 코드 수정으로 새로운 아키텍처에 빠르게 대응할 수 있습니다.
단점 및 주의사항
리눅스 터미널 환경에 숙련되어야 합니다. 소프트웨어상의 메모리 주소와 PCB 기판 위 물리적 칩의 위치를 연결하는 매핑 테이블 지식이 없으면 정확한 불량 칩을 특정할 수 없습니다.
매핑 테이블이란?
소프트웨어는 GPU의 VRAM을 하나의 연속된 주소 공간으로 봅니다. 그러나 실제로는 여러 개의 물리 칩이 메모리 컨트롤러를 통해 인터리빙(interleaving) 방식으로 연결되어 있습니다. 따라서 “주소 0x10000000에서 에러”라는 정보가 있어도, 이 주소가 기판의 몇 번 칩에 해당하는지 알려면 해당 GPU 모델의 메모리 인터리빙 구조를 나타낸 매핑 테이블이 필요합니다. 이 정보는 공식 문서로는 공개되지 않으며 수리 커뮤니티에서 역분석을 통해 공유됩니다.
진단 이후 — 불량 VRAM 수리 전략과 올바른 접근법
MATS 또는 TserverLite로 특정 메모리 채널/칩의 불량이 확인되면, 다음 단계는 실제 수리입니다. 이 단계에서 중요한 판단이 필요합니다.
리볼링(Re-balling)은 해결책이 아닌 임시방편
일부 수리점에서는 불량 VRAM 칩을 새 칩으로 교체하는 대신, 기존 칩을 다시 분리했다가 새로운 솔더볼을 붙여 재부착하는 리볼링(Re-balling)을 시도합니다. 납땜 크랙이 원인인 경우 단기적으로 효과가 있을 수 있으나, 칩 자체가 열화된 경우라면 리볼링 후에도 동일한 에러가 재발할 가능성이 매우 높습니다.
핵심 수리 원칙
MATS에서 특정 메모리 칩(Bank)의 불량이 확인되면, 해당 칩을 동일 사양의 새 부품으로 교체하는 것이 유일한 항구적 해결책입니다. 단순히 기존 칩을 다시 붙이는 리볼링 작업은 칩 자체의 열화(degradation) 때문에 재발 확률이 높아 권장하지 않습니다.
수리 전 고려사항
경제성 판단
VRAM 칩 교체는 BGA 리워크 스테이션이 필요한 고난도 작업입니다. 수리 비용이 GPU 중고 시세의 60~80%를 초과한다면 교체를 검토하는 것이 합리적입니다.
교체 칩 사양 일치
교체할 VRAM 칩은 제조사, 용량, 속도 등급, 패키지 타입이 원본과 완전히 일치해야 합니다. 일부 모델은 동일 사양 칩의 구하기가 어려울 수 있습니다.
수리 후 재검증
VRAM 칩 교체 후 반드시 MATS를 다시 실행하여 수리가 완료되었음을 확인해야 합니다. 추가 에러가 없는 상태(Error Count: 0)가 나와야 수리 완료로 판정합니다.
자주 묻는 질문 (FAQ)
MATS로 정상이 나왔는데도 화면 아티팩트가 생깁니다. 무엇이 문제일까요?
MATS는 VRAM 칩 자체의 비트 에러를 테스트합니다. MATS 정상이라도 GPU 코어(셰이더, ROPs, TMUs)의 문제, PCIe 인터페이스 불량, 전원부(VRM) 불안정, 과열로 인한 쓰로틀링 등이 아티팩트를 일으킬 수 있습니다. 이 경우 mods gputest.js -oqa 등의 GPU 코어 테스트를 추가로 실행해 보십시오. 또한 GPU 온도를 모니터링하고 서멀 패드/서멀 컴파운드 교체를 검토하십시오.
내 그래픽카드 아키텍처가 어떤 MODS 버전에 해당하는지 모르겠습니다
GPU-Z를 실행하면 GPU 이름 옆에 칩 코드명이 표시됩니다. GP104(Pascal/GTX 10xx)→367.38.1, TU102~TU116(Turing/RTX 20xx, GTX 16xx)→400.184, GA102~GA106(Ampere/RTX 30xx)→455.127을 사용하십시오. 칩 코드명 앞 두 글자가 GP=Pascal, TU=Turing, GA=Ampere입니다.
MODS USB로 부팅이 안 됩니다. 검은 화면만 나옵니다.
다음을 순서대로 확인하십시오. ①BIOS에서 Secure Boot이 Disabled인지 확인. ②CSM(Legacy Boot)이 활성화되어 있는지 확인. ③부팅 장치 우선순위에 해당 USB가 최상위에 있는지 확인. ④BIOS Primary Display Output이 외장 그래픽(PCIe)으로 설정되어 있는지 확인. ⑤autoexec.bat 파일 편집이 올바르게 되었는지 재확인.
화면이 전혀 출력되지 않는 GPU도 MATS로 테스트할 수 있나요?
가능합니다. 화면이 나오지 않아도 MATS는 GPU와의 통신을 시도하며 백그라운드에서 테스트를 수행합니다. 앞서 설명한 것처럼 runmats 파일 끝에 poweroff 명령어를 추가하면 테스트 완료 시 자동으로 PC가 꺼지므로 종료 시점을 알 수 있습니다. 이후 USB를 다른 PC에 꽂아 report.txt를 읽으면 됩니다.