PC 및 IT관련.

각 그래픽카드 최신 ML 기능(DLSS/FSR) 성능 차이 및 탑제 유무 이유??

ジーエムクン지하블로그 2026. 6. 9. 00:37

브금용

 

[ Radeon ]

RX 6000 (RDNA2), RX 7000 (RDNA3), RX 9000 (RDNA4)

출시 세대 2020~2022 2022~2024 2025~
AI Accelerator ❌ 없음 ✅ 1세대 ✅ 2세대
전용 AI 연산기 없음 있음 있음
FP8 지원
INT8 지원 제한적
INT4 지원
FSR4 공식 지원 2027 예정 2026년 7월 예정 기본 지원
FSR4 동작 방식 INT8 경로 INT8 경로 FP8 네이티브
RT Accelerator 1세대 2세대 3세대
PT(Path Tracing) 적성 낮음 보통 높음

 

 

AMD RDNA™ Architecture

Designed to deliver the graphics compute you need to accelerate games, creation, and professional applications.

www.amd.com

AMD 공식 RDNA 아키텍처 자료에 따르면 RDNA2는 AI Accelerator 자체가 존재하지 않으며, 

RDNA3부터 AI Accelerator가 추가됨. RDNA4는 FP8/INT4를 지원하는 2세대 AI Accelerator로 대폭 강화됨.

 

기능 RX 6000, RX 7000, RX 9000

FSR3
FSR3 FG
FSR4 ML Upscaling 예정 예정
FSR4 Redstone 미정 미정 우선 지원
Ray Regeneration 제한적 가능 최적
Neural Radiance Cache 사실상 불리 가능성 있음 목표 플랫폼

 

 

AMD makes FSR 4 upscaling official for Radeon RX 7000- and 6000-series cards — RDNA 3 and RDNA 2 chips will soon enjoy improve

Welcome news for owners of older hardware, especially in the current GPU landscape

www.tomshardware.com

AMD는 RX7000은 2026년 7월, RX6000은 2027년 초에 FSR4.1을 제공할 예정이라고 공식 발표했음.

 

Ancient Gameplays) AMD 아드레날린 26.6.1 출시! FSR 4.1 성능 더 좋아졌다? 🔥

게임, 애니, 버튜버, IT, 유머짤, 그래픽카드 세팅 후기 등을 올리는 잡탕형 개인 아카이브 블로그

gmbunkerlab.blogspot.com

근대 설정파일 및 해금해서 쓰는건지 모르겟는대 구형들도 적용 사례가 없지는 않음.

옵티 스케일러 처럼 우회루트 까지는 굳이 포함 안한 자료이다.

 

하드웨어 구조 차이

RX 6000 (RDNA2)

  • AI 전용 유닛 없음
  • WMMA 계열 명령어 없음
  • 사실상 일반 셰이더로 AI 연산 처리
  • FSR4는 사실상 "돌아가는 수준"

➡️ DLSS로 치면 Tensor Core 없는 GTX에서 돌리는 느낌


RX 7000 (RDNA3)

  • 최초 AI Accelerator 탑재
  • WMMA(Matrix) 연산 지원
  • AI 추론 가능
  • FP8 없음

➡️ DLSS 2~3 세대와 비슷한 포지션


RX 9000 (RDNA4)

  • FP8 지원
  • INT4 지원
  • AI Scheduler 개선
  • FSR4 개발 기준 플랫폼

AMD 발표 기준 최대 8배 수준의 AI 처리량 향상이 가능하다고 설명. 

(그런대 PT는 커녕 RT도 안풀어서 욕먹고 있음)

 

➡️ AMD 최초로 진짜 "DLSS 대응" 가능한 세대

[ NVIDIA RTX ]

RTX 3000 (Ampere), RTX 4000 (Ada), RTX 5000 (Blackwell)

Tensor Core 3세대 4세대 5세대
AI 전용 유닛
FP16
INT8
FP8
DLSS 2
DLSS 3 FG 제한적
DLSS 4 MFG 일부
Transformer Model 제한적 가능 최적
PT 적성 보통 높음 매우 높음

PT (패스트 트레이싱) 찍먹 등급 GPU(재미로만 봐.)

S RTX 5090
A+ RTX 5080
A RTX 5070 Ti
B+ RX 9070 XT
B RTX 4070 Ti Super
C RX 7900 XTX
D RX 6800 XT

분명 9070xt는 체급은 됨 5070ti랑 비등하거나 낮은 성능이라.

문재는 드라이버 단에서 뭐든 기술을 먹이는대 라데온은 RT조차 안푼게 의문

NTE (Neverness to Everness) | Path-Traced RTX On Showcase

 

NVIDIA Path Tracing(패스 트레이싱) 완벽 정리

Path Tracing이란?

Path Tracing(패스 트레이싱)은 기존 Ray Tracing(레이트레이싱)을 더욱 발전시킨 실시간 광원 렌더링 기술이다.

기존 게임들은 그림자, 반사, 간접광, AO(Ambient Occlusion) 등을 각각 별도의 기술로 처리했지만, Path Tracing은 실제 빛의 움직임을 물리적으로 계산하여 하나의 시스템으로 통합한다.

빛이 광원에서 출발하여 벽, 바닥, 유리, 금속 등에 여러 번 반사되는 과정을 시뮬레이션하여 현실에 가까운 조명 환경을 구현한다.


Ray Tracing vs Path Tracing 비교

항목Ray TracingPath Tracing

그림자 O O
반사 O O
굴절 일부 완전 지원
간접광 제한적 매우 정교
컬러 블리딩 일부 자연스럽게 구현
광선 반사 횟수 적음 매우 많음
현실성 높음 매우 높음
성능 요구량 높음 매우 높음
영화 CGI 수준 부분적 거의 동일

왜 그렇게 무거운가?

Path Tracing은 화면의 모든 픽셀마다 수백~수천 개의 광선을 추적한다.

예시)

태양광

벽 반사

바닥 반사

유리 굴절

금속 반사

사용자 눈

이 과정을 수백만 번 반복 계산해야 한다.

4K 해상도 기준:

  • 3840 × 2160
  • 약 829만 픽셀

각 픽셀마다 수많은 광선을 계산하기 때문에 엄청난 GPU 성능이 필요하다.


NVIDIA가 사용하는 보조 기술

Path Tracing만으로는 현재 GPU 성능으로 높은 프레임 유지가 어렵다.

그래서 NVIDIA는 AI 기술을 함께 사용한다.

기술역할

DLSS AI 업스케일링
Frame Generation AI 프레임 생성
Multi Frame Generation 여러 프레임 추가 생성
Ray Reconstruction AI 노이즈 제거
Reflex 입력 지연 감소

AMD Radeon과 NVIDIA GeForce 비교

항목RadeonGeForce RTX

일반 게임 성능 강점 강점
가성비 우세 상대적으로 불리
VRAM 용량 우세 상대적으로 적음
레이트레이싱 가능 강점
패스 트레이싱 가능 매우 강점
AI 업스케일링 FSR DLSS
프레임 생성 AFMF Frame Generation
패스 트레이싱 최적화 보통 최상급

대표적인 Path Tracing 지원 게임

Cyberpunk 2077

  • Overdrive Mode 제공
  • 현재 Path Tracing 대표 사례

Alan Wake 2

  • 사실적인 실내 조명 구현

Portal RTX

  • 고전 게임의 그래픽 혁신 사례

Minecraft RTX

  • 블록 게임이 영화처럼 보이는 사례

Half-Life 2 RTX

  • RTX Remix 기반 리마스터

쉽게 비유하면

기술비유

기존 그래픽 영화 세트장 조명
Ray Tracing 실제 조명 일부 설치
Path Tracing 태양부터 반사광까지 전부 계산

결론

Path Tracing은 단순한 그래픽 옵션이 아니다.

게임 속 모든 빛의 움직임을 물리적으로 계산하여 영화 CGI 수준의 조명과 반사를 구현하는 차세대 렌더링 기술이다.

현재 기준으로는 NVIDIA RTX 시리즈가 가장 강력한 성능을 제공하며, 특히 Cyberpunk 2077 Overdrive Mode는 Path Tracing 기술의 대표적인 시연 사례로 평가받고 있다.

한 줄 요약

"Ray Tracing이 현실적인 그래픽의 시작이라면, Path Tracing은 실시간 CGI의 완성형이다."

 

공식 자료

AMD RDNA 아키텍처

AMD RDNA Architecture 공식 페이지

 

AMD RDNA™ Architecture

Designed to deliver the graphics compute you need to accelerate games, creation, and professional applications.

www.amd.com

 

AMD FSR4.1 발표

AMD FSR4.1 RX7000/RX6000 지원 기사(Tom's Hardware)

 

AMD makes FSR 4 upscaling official for Radeon RX 7000- and 6000-series cards — RDNA 3 and RDNA 2 chips will soon enjoy improve

Welcome news for owners of older hardware, especially in the current GPU landscape

www.tomshardware.com

 

NVIDIA Tensor Core 공식

NVIDIA Tensor Core 기술 개요

 

NVIDIA Tensor Cores: Versatility for HPC & AI

Tensor Cores Features Multi-Precision Computing for Efficient AI inference.

www.nvidia.com

 

NVIDIA Blackwell 공식

NVIDIA Blackwell Architecture 공식 자료

 

NVIDIA Blackwell Architecture

The Engine Behind AI Factories For The Age of AI Reasoning.

www.nvidia.com

 

[ 요약 하며 ]

FSR4와 DLSS4, "지원"과 "제대로 동작"은 다른 이야기

최근 AMD가 RX 6000/7000 시리즈에도 FSR 4.1 지원을 예고하면서 많은 사람들이 "구형 그래픽카드도 최신 AI 업스케일링을 쓸 수 있게 되는 것 아니냐"는 기대를 하고 있다.

하지만 여기서 중요한 점은 지원(Compatibility)최적 성능(Performance) 은 완전히 다른 개념이라는 것이다.


AMD : RDNA2 → RDNA3 → RDNA4

RX 6000 (RDNA2)

  • AI Accelerator 없음
  • FP8 연산 지원 없음
  • 전용 AI 행렬 연산기 없음
  • FSR4는 대부분 셰이더 기반 우회 처리

즉 FSR4가 실행은 가능하지만 원래 설계된 방식으로 동작하는 것이 아니다.


RX 7000 (RDNA3)

  • 1세대 AI Accelerator 탑재
  • WMMA(Matrix) 연산 지원
  • AI 추론 가능
  • FP8 미지원

FSR4 구동은 가능하지만 RDNA4 기준 기능 일부는 효율이 떨어질 수 있다.


RX 9000 (RDNA4)

  • 2세대 AI Accelerator
  • FP8 지원
  • INT4 지원
  • AI 처리량 대폭 증가
  • FSR4 개발 기준 플랫폼

현재 AMD의 ML 기반 기술은 사실상 RDNA4를 기준으로 설계되고 있다.


NVIDIA : Ampere → Ada → Blackwell

RTX 3000 (Ampere)

  • 3세대 Tensor Core
  • DLSS 지원
  • AI 업스케일링 가능

하지만 최신 AI 기능을 모두 사용할 수 있는 것은 아니다.

예를 들어:

  • DLSS 업스케일링 가능
  • DLAA 가능
  • Ray Reconstruction 가능

반면

  • Frame Generation 불가
  • Multi Frame Generation 불가

RTX 4000 (Ada Lovelace)

  • 4세대 Tensor Core
  • 3세대 RT Core
  • Optical Flow Accelerator 개선

추가 지원:

  • DLSS 3 Frame Generation
  • Ray Reconstruction
  • Transformer 기반 DLSS 모델

RTX3000에서는 불가능했던 프레임 생성 기능이 가능해졌다.


RTX 5000 (Blackwell)

  • 5세대 Tensor Core
  • FP8 지원
  • Transformer 모델 최적화
  • AI 처리량 대폭 증가

추가 지원:

  • DLSS4
  • Multi Frame Generation
  • 향상된 Ray Reconstruction

현재 NVIDIA AI 기술의 기준 플랫폼이다.


왜 같은 기술인데 성능 차이가 나는가?

예를 들어 자동차로 비유하면

RTX 5000:

하이브리드 엔진 전용 차량

RTX 4000:

일반 엔진 + 일부 하이브리드 기능

RTX 3000:

일반 엔진에 보조 시스템 추가

정도로 볼 수 있다.

같은 목적지까지 갈 수는 있지만 효율은 다르다.


FP8, FP16, FP32 우회 구현의 차이

최신 AI 모델은 보통 FP8 같은 저정밀 연산을 활용한다.

원래 설계:

FP8 → Tensor Core / AI Accelerator

구형 GPU:

FP16 또는 FP32 → 일반 연산 유닛

이런 식으로 우회 처리된다.

결과는 비슷하게 나올 수 있지만

  • 전력 소모 증가
  • 연산량 증가
  • GPU 점유율 증가
  • FPS 감소
  • 지연시간 증가

등의 차이가 발생한다.

즉 "실행 가능"과 "효율적 실행"은 전혀 다른 이야기다.


왜 모든 기능이 하위 세대로 내려오지 않는가?

대표 사례가 DLSS4이다.

RTX5000:

  • DLSS4
  • Multi Frame Generation
  • 최신 Transformer 모델

RTX4000:

  • DLSS4 업스케일링
  • Frame Generation

RTX3000:

  • DLSS4 업스케일링 일부
  • Frame Generation 미지원

이는 단순한 소프트웨어 제한이 아니라 필요한 하드웨어 블록 자체가 다르기 때문이다.

AMD 역시 비슷하다.

향후 FSR4 Redstone 계열 기능인

  • Neural Radiance Cache
  • Ray Regeneration
  • 차세대 AI 기반 렌더링 기능

등은 RDNA4 중심으로 개발되고 있다.


최종 요약

많은 사람들이 "지원된다"는 말을 듣고 최신 그래픽카드와 동일한 경험을 기대하지만 실제로는 그렇지 않다.

AMD 기준

RX6000 < RX7000 < RX9000

NVIDIA 기준

RTX3000 < RTX4000 < RTX5000

순으로 AI 하드웨어 자체가 발전해 왔다.

따라서 FSR4나 DLSS4 같은 ML 기반 기능이 구형 제품으로 확대되더라도:

  • 기능은 사용할 수 있음
  • 화질은 개선될 수 있음
  • 그러나 성능 효율은 신형보다 떨어짐
  • 일부 기능은 하드웨어 한계로 지원 불가
  • 최신 세대가 항상 기준 플랫폼

이라는 점을 이해해야 한다.

결론적으로 "지원"은 가능 여부를 의미할 뿐, "동일한 경험"을 의미하지는 않는다.

 

DLSS 4.5, 구형 그래픽카드에서 성능저하 뚜렷

엔비디아(NVIDIA)의 최신 DLSS 4.5 슈퍼 레졸루션(Super Resolution)이 출시되면서, …

quasarzone.com

 

 

DLSS 4.5 테스트 결과 디테일 좋아졌으나 구형 GPU는 성능 20% 이상 하락 : 클리앙

GIF 해외 기사를 번역한 것이므로 오역이 있을 수 있습니다. 초기 DLSS 4.5 테스트 결과 디테일은 획기적으로 선명해졌으나 구세대 RTX GPU는 성능이 거의 20% 이상 하락 구형 RTX GPU는 더 나은 시각적

www.clien.net

 

 

DLSS 4.5, 구형 그래픽카드에서 성능저하 뚜렷

엔비디아(NVIDIA)의 최신 DLSS 4.5 슈퍼 레졸루션(Super Resolution)이 출시되면서, 구형 지포스 RTX 그래픽 카드에서 상당한 성능 저하가 발생하는 것으로 나타났다.  독일 매체 컴퓨터베이스와 유튜브

www.inven.co.kr

어찌보면 당연하다 ㅇㅇ 

 

[ 각 ML 용어 해설 및 정리 ]

AI(ML) 성능에서 FP32, FP16, FP8, INT8, INT4가 중요한 이유

최근 DLSS4, FSR4, Frame Generation, Ray Reconstruction 같은

AI 기반 그래픽 기술이 늘어나면서 FP32, FP16, FP8, INT8 같은 용어를 자주 볼 수 있게 되었다.

 

하지만 많은 사람들이 "지원 여부"만 보고 판단하는 경우가 많다.

실제로는 같은 AI 기능을 지원하더라도 GPU 내부에서

어떤 정밀도(Precision)를 얼마나 효율적으로 처리할 수 있는지에 따라 성능과 전력 효율이 크게 달라진다.


정밀도(Precision)란 무엇인가?

AI는 결국 엄청난 양의 숫자를 계산하는 작업이다.

정밀도는 이 숫자를 몇 비트(Bit)로 저장하고 계산하는지를 의미한다.

 

쉽게 말하면:

 

구분의미

정밀도가 높음 정확함
정밀도가 낮음 빠름

이라는 관계를 가진다.


AI 연산 정밀도 비교

종류, 비트 수, 특징, 속도, 정확도

FP32 32bit 전통적인 GPU 계산 느림 매우 높음
TF32 19bit급 NVIDIA AI 전용 최적화 보통 높음
FP16 16bit 현재까지 가장 널리 사용 빠름 높음
BF16 16bit 대형 AI 모델 학습용 빠름 높음
FP8 8bit 최신 AI 추론 핵심 매우 빠름 충분
INT8 8bit AI 업스케일링 다수 사용 매우 빠름 보통
INT4 4bit 초경량 AI 모델용 최고속 낮음

FP32

FP32는 오랫동안 GPU가 사용해 온 기본 계산 방식이다.

 

장점 / 단점

높은 정확도 연산량 많음
과학 및 공학 계산 가능 전력 소모 큼
- AI 처리 효율 낮음

과거 GPU들은 대부분 FP32 성능을 중심으로 발전했다.


FP16

AI 시대를 열었던 핵심 기술이다.

FP32보다 절반 크기의 데이터를 사용하면서도 상당한 정확도를 유지한다.

 

대표 사용 세대

RTX 2000
RTX 3000
RTX 4000
RDNA3 일부

현재까지도 많은 AI 모델이 FP16 기반으로 동작한다.


BF16

Google TPU와 대규모 AI 학습 환경에서 많이 사용된다.

FP16보다 더 넓은 표현 범위를 제공하여 대형 언어 모델(LLM) 학습에 적합하다.

 

대표 사례

GPT 계열
Gemini
Claude

TF32

Tensor Float 32는 NVIDIA가 개발한 AI 전용 형식이다.

 

항목내용

목적 FP32 수준 정확도 유지
특징 Tensor Core에서 고속 처리
활용 세대 RTX 3000 이후

RTX 3000 이후 Tensor Core에서 적극 활용된다.


FP8

현재 AI 업계가 가장 주목하는 정밀도이다.

 

특징

FP16 대비 메모리 사용량 감소
더 높은 AI 처리량
추론(Inference) 성능 향상

 

대표 지원 GPU

RTX 5000 시리즈 (Blackwell)
RX 9000 시리즈 (RDNA4)

현재 최신 AI 가속기의 핵심 기술이다.


INT8

AI 추론에서 오랫동안 사용된 방식이다.

소수점 대신 정수(Integer)를 사용하여 계산한다.

 

장점단점

매우 빠름 정밀도 손실
낮은 메모리 사용량 -

 

대표 사용 분야

DLSS 초기 버전
XeSS
FSR4 일부 경로

INT4

현재 가장 공격적인 압축 방식 중 하나다.

 

특징

메모리 사용량 최소화
AI 처리량 극대화

대표 지원

NVIDIA Blackwell
AMD RDNA4

최근 LLM 추론 최적화에서 많이 활용된다.


왜 최신 GPU가 유리한가?

예를 들어 동일한 AI 모델을 실행한다고 가정하자.

 

구형 GPU최신 GPU

FP32 또는 FP16 중심 처리 FP8 또는 INT4 전용 하드웨어 사용

결과적으로:

 

기대 효과

처리량 증가
전력 효율 향상
지연시간 감소
프레임 생성 성능 향상

을 얻을 수 있다.


AMD 세대별 차이

세대, AI Accelerator, FP8, INT4

RX 6000 (RDNA2) 없음 없음 없음
RX 7000 (RDNA3) 1세대 없음 없음
RX 9000 (RDNA4) 2세대 지원 지원

세대특징

RDNA2 AI 전용 하드웨어 없음, 셰이더 기반 우회 처리
RDNA3 AI Accelerator 추가, FP8 미지원
RDNA4 FP8 및 INT4 지원, FSR4 기준 플랫폼

NVIDIA 세대별 차이

세대, Tensor Core, FP8, Multi Frame Generation

RTX 3000 3세대 없음 불가
RTX 4000 4세대 없음 불가
RTX 5000 5세대 지원 지원

 

세대특징

RTX 3000 DLSS4 업스케일링 가능
RTX 4000 Frame Generation 가능
RTX 5000 FP8 기반 AI 처리 및 Multi Frame Generation 지원

지원 여부와 성능은 다르다

많은 사람들이 착각하는 부분이 바로 이것이다.

 

예를 들어:

 

지원 사례

FSR4가 RX 6000에 지원
DLSS4가 RTX 3000에 지원

하지만 이는 "기능을 사용할 수 있다"는 의미일 뿐이다.

 

최신 세대처럼 동일한 효율로 동작한다는 의미는 아니다.

 

구형 GPU는:

 

한계 요소

FP8 미지원
INT4 미지원
전용 AI 연산기 부족

등의 이유로 더 많은 연산 자원을 사용하게 된다.

 

결국 같은 기능이라도:

 

발생 가능 문제

성능 손실
전력 증가
지연시간 증가

가 발생할 수밖에 없다.


최종 정리

AI 그래픽 기술은 이제 단순한 셰이더 성능 경쟁이 아니다.

 

시대GPU 경쟁력 기준

과거 FP32 성능 = GPU 성능
현재 FP8 / INT4 AI 처리 성능 = GPU 경쟁력

 

따라서 앞으로 DLSS, FSR, Frame Generation, Ray Reconstruction, Neural Rendering 같은

기술이 확대될수록 단순한 래스터 성능보다 AI 가속 하드웨어의 중요성이 더욱 커질 가능성이 높다.

 

결론적으로 "지원된다"와 "최적으로 동작한다"는 전혀 다른 이야기이며,

최신 GPU일수록 AI 기반 기능에서 훨씬 유리한 구조를 갖고 있다.