로딩로딩중

ARM Mali GPU

최근 수정 시각:

분류

파일:mLKzb22.jpg

1. 개요2. 상세3. GPU 제품 라인업
3.1. Utgard 아키텍처
3.1.1. Mali-553.1.2. Mali-200 / Mali-3003.1.3. Mali-4003.1.4. Mali-4503.1.5. Mali-470
3.2. 1세대 Midgard 아키텍처
3.2.1. Mali-T6043.2.2. Mali-T658
3.3. 2세대 Midgard 아키텍처
3.3.1. Mali-T62X
3.3.1.1. Mali-T6223.3.1.2. Mali-T6243.3.1.3. Mali-T628
3.3.2. Mali-T678
3.4. 3세대 Midgard 아키텍처
3.4.1. Mali-T7203.4.2. Mali-T760
3.5. 4세대 Midgard 아키텍처
3.5.1. Mali-T8203.5.2. Mali-T8303.5.3. Mali-T8603.5.4. Mali-T880
3.6. 1세대 Bifrost 아키텍처 기반
3.6.1. Mali-G713.6.2. Mali-G51
3.7. 2세대 Bifrost 아키텍처 기반
3.7.1. Mali-G723.7.2. Mali-G52
3.8. 3세대 Bifrost 아키텍처 기반
3.8.1. Mali-G76
4. Video 칩셋 라인업
4.1. Mali-V5004.2. Mali-V550
5. Display 칩셋 라인업
5.1. Mali-DP5005.2. Mali-DP5505.3. Mali-DP650
6. 문제점7. 관련 문서

1. 개요[편집]

ARM Holdings에서 설계하는 그래픽 칩셋 브랜드. 잉글랜드 본사가 아닌 ARM Holdings 노르웨이 지사에서 주로 개발을 담당한다.

2. 상세[편집]

2006년 ARM Holdings가 Falanx Microsystems를 인수한 후에 본격적으로 개발에 들어간 GPU 솔루션이다. 이후 이 회사는 ARM 노르웨이 지사로 개편되었다.

ARM이 GPU 개발에 뛰어든 이유는 크게 두 가지로,

  • 모바일 AP, 특히 ARM 아키텍처 기반의 AP에서 사용할 GPU 솔루션의 부재.

  • 일종의 대세가 되어 가는 GPGPU 기술개발의 목적.


등이 있다.

과거 피처폰 시절부터 ARM은 모바일 AP 부분에서는 강자에 속했었다. 인텔 역시 DEC를 인수하면서 얻은 ARM CPU 라인업을 XScale로 발전시켰으나 Marvell에 대부분을 매각했다. 모바일 임베디드 시장이 점진적으로 확대되고, 이 시장이 기존의 PC의 영역까지 침범하게 될 가능성이 높아지자, CPU가 처리하지 못하는 더욱 높은 수준의 그래픽 작업 능력을 지원하기 위해 AP 안에 GPU를 탑재하기 위해 개발에 들어갔다는 것이다. 비단 ARM 뿐만이 아니라 대표적인 CPU 아키텍처 라이센스 구입사인 퀄컴에서도 이전 ATI에서 인수한 Imageon 모바일 사업부의 자체 GPU를 자사의 AP에 통합하기 시작했고, TI 같은 타 라이센스 구입사의 경우 PC 그래픽 시장에서 도태되어 모바일 GPU 시장으로 시선을 돌린 Imagination Technologies 사의 PowerVR SGX 시리즈를 GPU 솔루션으로 사용하고 있었다. 때문에 ARM에서는 기존의 ARM의 CPU 아키텍처를 라이센스를 받는 것과 비슷한 형식으로 GPU 솔루션을 개발, 라이센스를 판매하여 기반 기술이 부족한 구매사라도 수월하게 시장에 진출하게 하기 위해 GPU 솔루션을 개발하기로 한 것이다.

또한 연산 유닛이 CPU에 비해 압도적으로 많은 GPU를 일반적인 연산에 응용하기 위해서 당시에 여러 회사에서 많은 시도가 있었기 때문에 시장에서 도태되지 않기 위해 개발을 시도한 것이라고 한다.

3. GPU 제품 라인업[편집]

관련 성능은 모두 ARM의 발표치로 실 성능은 반토막 정도 난다고 보면 편하다. 였는데... 지금까지 실 성능을 측정하던 GFXbench 앱이 3.0으로 업데이트 되고 난 후 이론 성능에 95%에 가까운 실성능을 보여주고 있다.

3.1. Utgard 아키텍처[편집]

3.1.1. Mali-55[편집]

3.1.2. Mali-200 / Mali-300[편집]

파일:jPoViUV.jpg

클럭

성능

타겟공정

210 MHz

23 Mtri/s, 210 Mpix/s

40nm LP

500 MHz

55 Mtri/s, 500 Mpix/s

28nm HPM


극 초창기의 Mali 제품군이다. 사용한 예를 거의 찾아 볼 수 없다. 굳이 찾자면 국내 업체인 텔레칩스의 TCC89XX시리즈 정도가 Mali-200을 탑재한 사례다. 당시 기준으로는 그렇게 좋지 않은 성능은 아니었으나, 시기 자체가 GPU의 중요도가 없었던 시기였기 때문에 묻힌 감이 없지 않아 있다.

현재 Mali-200은 ARM 공식 사이트에서도 언급되지 않는 상태이며 성능이 비슷한 Mali-300만 남아있다.

3.1.3. Mali-400[편집]

파일:74bt0ST.jpg

싱글코어 기준

클럭

성능

타겟공정

210 MHz

23 Mtri/s, 210 Mpix/s

40nm LP

500 MHz

55 Mtri/s, 500 Mpix/s

28nm HPM

쿼드코어 기준[1]

클럭

성능

타겟공정

210 MHz

23 Mtri/s, 840 Mpix/s, 7.6 GFLOPS

40nm LP

500 MHz

55 Mtri/s, 2 Gpix/s, 18 GFLOPS

28nm HPM

표만보면 Mali-300의 멀티코어 지원 버전으로 보인다.

멀티코어 구성이 가능한 최초의 Mali GPU이다. 최대 지원 개수는 4개이다. 이전의 Mali-300과 같이 독립 셰이더 구조로, 버텍스를 담당하는 코어와 픽셀을 담당하는 코어가 각각 나누어져 있다. 버텍스 코어는 항상 1개로 코어 수에 포함되지 않고 독립적으로 픽셀을 처리하는 Fragment Processor 하나가 추가되는 수준이다... 그렇기에 싱글코어든 쿼드코어든 버텍스 성능은 같아 Mali-400을 탑재한 기기들이 벤치마크 점수에서 힘을 못 쓰는 발단이 되었다.

삼성전자의 자체 AP인 엑시노스 4210에 쿼드코어 266 MHz 구성으로 최초로 탑재되었다. 당시 ARM에서는 400 MHz로 들어갈 것을 권고했으나, 발열 문제를 우려해 클럭을 낮췄다고 한다. 그리고 이 AP를 최초로 사용한 갤럭시 S II에서 역시 Mali-400을 최초로 사용했다. 루팅한 뒤 부트로더를 건드려주면 기존 클럭치인 400 MHz로 오버클럭이 가능하나, 역시나 발열 문제가 발생한다. 또한 평상시 클럭인 266 MHz로도 웬만한 애플리케이션은 문제없이 구동시킨다. 초반에는 호환성이 있는 애플리케이션이 거의 없는 관계로 많은 사람들이 우려를 표했으나, 갤럭시 S II 자체가 삼성전자의 플래그십 스마트폰이었고, 또 당시 안드로이드 진영에서는 사실상 유일하게 iPhone에 맞설 수 있는 기업이었기 때문에 글로벌 판매량이 굉장히 높았다. 그로 인해 실질적으로 사용하는 사람들이 많아졌고, 더 나아가 삼성전자 자체에서도 쇼미더머니를 시전하여 호환성을 끌어올렸기 때문에 문제가 쉽게 해결될 수 있었다고 한다. 그렇게 우리가 생각하는 삼성전자 희대의 명작인 갤럭시 S II가 되었다

이후 엑시노스 4210의 공정 개선판인 엑시노스 4212에는 정상적으로 440 MHz의 클럭으로 탑재되었고, 같은 공정을 사용하는 엑시노스 4412에도 그대로 적용되어 이 AP를 사용한 갤럭시 S III갤럭시 노트 II에는 최대 533 MHz의 클럭까지 적용되었다고 한다. 갤럭시 그랜드에도..

삼성전자엑시노스 4210이 호환성 문제를 해결하자, 후발 주자로 ST에릭슨과 락칩에서도 다양한 구성으로 사용되었다.

비교적 구세대인 독립 셰이더 구조 때문에 떨어지는 버텍스 성능으로 인한 병목 현상이 일어나며 절대적인 성능도 2013년 현재 퀄컴 Adreno 320 같은 경쟁 GPU와 비교했을 때 다소 떨어지는 편이지만, 아직까지 모바일에서는 버텍스 성능이 중요한 폴리곤보다 픽셀 성능이 중요한 텍스처를 주로 많이 쓰기 때문에 무난한 성능을 보여주고 있다. 특히 갤럭시 S II, 갤럭시 S III를 비롯한 삼성 엑시노스 4210, 4412 탑재 기기들이 안드로이드 점유율에 지대한 영향력을 끼치기 때문에 각종 애플리케이션 개발자들로부터 지원 역시 활발히 받고 있다.역시 물량의 삼성

다만, Open GL 3.0을 지원하지 않기에 Android 4.3 젤리빈에서는 큰 영향력을 행사하기 어렵다.

3.1.4. Mali-450[편집]

파일:go88bzh.jpg

쿼드코어 기준

클럭

성능

타겟공정

270 MHz

59 Mtri/s, 1.1 Gpix/s

40nm LP

650 MHz

142 Mtri/s, 2.6 Gpix/s

28nm HPM

옥타코어 기준[2]

클럭

성능

타겟공정

270 MHz

59 Mtri/s, 2.2 Gpix/s

40nm LP

650 MHz

142 Mtri/s, 5.2 Gpix/s

28nm HPM

레알 옥타코어 GPU

Utgard 기반의 끝판왕으로 불리지만 구조 자체는 Mali-400을 2개 붙인 것과 크게 다르지 않다. 다만, Mali-400에서 문제점으로 지적된 버텍스 성능이 두 배로 증가시켜 어느정도 문제를 해결하였다. 또한 Mali-400이 쿼드코어까지 지원했기 때문에 단순히 2개를 붙인 Mali-450은 총 8개까지 지원할 수 있다.

여기에 약간의 기술 개선이 이루어져 권고 클럭까지 상승하여 Mali-400의 버텍스 성능보다 약 3배 가능 높은 성능을 보여 준다. 또한 원래 괴물이었던 픽셀 성능은 2013년 당시 고성능 GPU 중 하나인 퀄컴 Adreno 320보다 2.5배 더 높은 성능을 보여 준다.

다만, Mali-400이 모체인 만큼 구세대 독립 셰이더 구조의 GPU라는 것은 변하지 않기 때문에 전력 소모 문제를 생각하면 이 것보다는 차기작인 Midgard 기반의 GPU를 탑재하는 것이 정신건강에 이롭다. 때문에 실제로 탑재할 AP가 있을지는 의문인 상황. 거기에 Open GL 지원 역시 Mali-400을 따라 2.0까지만 지원한다.

2013년 4분기 드디어 실 탑재 제품이 등장했다. 미디어텍의 MTK6592와 Amlogic의 AML-M802. 벤치를 보면 코어수는 포커처서단순 마켓팅만이 아닌 성능을 보여준다. 버텍스 코어가 2개 로 늘어서 병목현상이 대폭 줄었는지 Mali-400을 단순 2배 한 것보다도 성능이 잘 나온다. 이는 넥서스10의 Mali-T604보다 높으며, 예상대로 Adreno320급의 성능. 특히 Mali-400에서 최적화가 끝난 드라이버와 앱의 호환성 그리고 전력 대비 성능이 매우 우수하다. 의외로 쓸만했다... 그것도 많이

3.1.5. Mali-470[편집]

3.2. 1세대 Midgard 아키텍처[편집]

3.2.1. Mali-T604[편집]

파일:QQn6qwg.jpg

쿼드코어 기준[3]

클럭

성능

타겟공정

533 MHz

533 Mtri/s, 2 Gpix/s, 72 GFLOPS

28nm HPM

출처

삼성전자엑시노스 5250에 최초로 탑재되었으며 출시된 제품으로는 넥서스 10이 있다.

1세대 Midgard 기반의 첫 GPU이며, 이전 Utgard 기반의 GPU와 비교 시 가장 큰 차이점은 통합 셰이더 구조라는 점에 있다. 때문에 각각의 코어에 코어 당 2개씩 연산 유닛이 있고, 텍스처 유닛이 별도로 들어간다. Midgard 아키텍처는 1ALU당 FP32 성능이 17 ops/cycle이고 Mali-T604에는 4코어 기준 8ALUs가 들어간다. 이로 인해 기존의 Utgard 기반에서 하나의 코어만 버텍스 작업을 담당했다면 이번에는 픽셀 코어와 동등한 버텍스 코어를 가지게 되었다. 때문에 기존보다 4배 이상 버텍스 성능이 상향되었다.

픽셀 성능은 기존에 비해 크게 오르지 않았지만, 기존의 픽셀 성능이 매우 기형적으로 훌륭했다는 것을 볼 때 별 문제가 아닌 것으로 보인다. 그래도 전체적인 성능은 퀄컴 Adreno 320 400 MHz와 비슷하다.

2015년 기준 최신인 OpenGL ES 3.1 까지 지원하는데, 동시기 Adreno 320은 고사하고, Adreno 330도 OpenGL ES 3.0까지 밖에 지원하지 못한 것을 본다면, 출시 시기를 기준으로도 상당히 미래 지향적인 설계로 API 지원이 훌륭한 GPU이다.

3.2.2. Mali-T658[편집]

파일:RoDwJ83.jpg

옥타코어 기준

클럭

성능

타겟공정

? MHz

? Mtri/s, ? Gpix/s

?

출처
1세대 Midgard 기반으로 T604와 같이 발표되었다.

기본적으로 Mali-400과 Mali-450처럼 Mali T604를 2개를 붙여 놓은 모습을 가지고 있지만, 각 셰이더 코어 당 연산 유닛의 수가 4개로 늘어 총 32개의 연산 유닛을 가지고 있게 되었다. Midgard 아키텍처는 1ALU당 FP32 성능이 17 ops/cycle이다. 한 마디로 말해서 괴물.

정확한 수치가 공개되지 않아 언급하기 어려운 점이 있지만, ARM의 발표대로라면 Mali-400의 10배, Mali T604의 4배의 성능을 보인다고 한다.

하지만 ARM에서 라인업 개편을 시행하면서 ARM의 라인업에서 사라졌다. 여담으로 비슷한 시기에 삼성전자에서 엑시노스 5410의 GPU를 선정하려 움직였으나 1순위였던 이 녀석이 드랍되는 바람에 결국 PowerVR SGX544 트리플코어를 채용하는 방향으로 틀어졌다고 한다. 그리고 이 것은 신의 악(惡)수가 되었다.

그래도 존재 자체는 아직도 있는 것으로 보인다. 화웨이의 자체 AP인 K3V2의 후속으로 계획 중인 big.LITTLE 기술 적용 AP인 K3V3에 들어간다는 뉴스가 뜬금없이 떴다. 다만 전작을 볼 때 성능은 보장을 못한다.

3.3. 2세대 Midgard 아키텍처[편집]

3.3.1. Mali-T62X[편집]

헥사코어 기준

클럭

성능

700 MHz

600 Mtri/s, 4.2 Gpix/s, 143 GFLOPS

533 MHz

457 Mtri/s, 3.2 Gpix/s, 109 GFLOPS

출처


2012년 8월 2세대 Midgard 기반의 T624와 T628이 T678과 같이 공개되었다. T622는 2013년 6월 2일에 CPU 아키텍처인 Cortex-A12와 함께, 별개로 공개되었다. 2013년 4분기 기준으로 사용하는 AP는 삼성전자엑시노스 5420이 유일하며 탑재된 기기로 갤럭시 노트3갤럭시 노트 10.1 2014이 있다. 이들이 워낙 많이 팔려 그랬듯이호환성 문제는 곧 없어지겠지만...
그리고, ASTC 압축 포맷을 지원하고 Open GL 4.3과 Open GL ES 3.0에 대응한다.

이전 T60X 시리즈에 비해서 약 50%의 성능 향상이 있다고 한다.

벤치마크상 헥사코어 버전의 성능은 퀄컴의 아드레노 330과 거의 비슷한 성능. 다만 Mali 계열은 이전까지 6개월 정도 드라이버 최적화 과정 후 성능이 눈에 띄게 올라가는 것이 다반사사실 항상였기 때문에 조금 더 지켜볼 필요가 있다.

마찬가지로 T62x 시리즈도 사람들의 관심사에서 멀어질 때 쯤 하여 최적화 드라이버가 기기에 적용되었다. 특히나 Open GL ES 3.0 환경에서 프레임이 2배 가 되어, 상대적으로 차이가 많이 나던 Adreno 330 기기과 정말로 동급이, 또는 상위가 되어 버렸다. 일해라 ARM !! Adreno 330대비 비교적 떨어졌던 프레임도 동급이 되어 버리고, 결정적으로 T62x 시리즈는 Open GLES 3.1 API를 지원하면서 Adreno 330과의 경쟁은 T628 MP6의 판정승(...)

여담으로, GPU 명에 마지막으로 들어가는 숫자는 최대 코어 개수를 의미한다. 때문에 엑시노스 5420이 T628을 옥타 코어가 아닌 셰이더 코어 2개를 덜어내어 헥사 코어로 사용하고 있다.

3.3.1.1. Mali-T622[편집]

파일:jtNwZk0.jpg

듀얼코어 기준

클럭

성능

타겟공정

? MHz

? Mtri/s, ? Gpix/s

32nm , 28nm

3.3.1.2. Mali-T624[편집]

파일:BhZTV55.jpg

쿼드코어 기준

클럭

성능

타겟공정

? MHz

? Mtri/s, ? Gpix/s

32nm , 28nm

3.3.1.3. Mali-T628[편집]

파일:gWl1iOk.jpg

옥타코어 기준

클럭

성능

타겟공정

695 MHz

? Mtri/s, ? Gpix/s

32nm , 28nm


삼성 엑시노스 5420/5422(5800)/5430에 들어간 GPU이다. 위에서 언급되었듯이 초창기에는 퀄컴 스냅드래곤 800/801에 들어간 Adreno 330에 비해 낮은 성능을 보여주었으나 현재는 대부분의 벤치마크에서 더욱 높은 성능을 보여주고 있다. 이로서 엑시노스 5430퀄컴 스냅드래곤 805 APQ8084보다 한 단계 높은 CPU 연산성능을 보였으나 낮은 GPU성능을 보였던 것이 어느 정도 향상되었다.

3.3.2. Mali-T678[편집]

옥타코어 기준

클럭

성능

타겟공정

? MHz

? Mtri/s, ? Gpix/s

28nm


1개의 셰이더 코어당 4개의 ALU 모듈이 있으며, 이는 이전 Mali T658의 개선 버전으로 추정됨. Midgard 아키텍처는 1ALU당 FP32 성능이 17 ops/cycle이고 Mali-T678에는 T658과 마찬가지로 8코어 기준 32ALUs가 들어간다. 다만 시장에 실 탑재된 제품이 출시되지도 않고, 어느 순간부터 ARM의 제품 리스트에서도 사라졌다.

3.4. 3세대 Midgard 아키텍처[편집]

3.4.1. Mali-T720[편집]

파일:5f2lydf.jpg

옥타코어 기준

클럭

성능

공정

650 MHz

650 Mtri/s, 5.2 Gpix/s, 88.4 GFLOPS

28nm HPM


2013년 10월 발표된 ARM의 새로운 중급 라인업의 GPU이다. 2세대 Midgard 기반의 GPU지만[4], 일단 라인업상 Mali-450을 잇는 중급 라인업. 그러나 공개된 스펙을 보면 중급의 그것이 아닌데, 현세대인 Mali-T62X 시리즈와 비슷하거나 그 이상의 성능을 보여 준다. 전력효율은 150%, 성능은 50% 상승이라고 하는데, 기준이 Utgard 라고 하면 너무 높고 Midgard 라고 한다면 낮다.

현재 시장에서 T62X시리즈를 탑재하고 시장에 출시된 제품은 삼성전자의 삼성 엑시노스 5 시리즈가 유일하며, 이것은 Utgard 기반의 GPU가 라이센스와 양산이 쉬워서 많은 제조사들이 채택했다는 것에 비해서 너무 접근성이 떨어진다는 상황을 잘 보여주고 있다. 양산이나 설계 능력이 떨어지는 제작사들은 Midgard 보다는 기존의 Utgard 기반의 Mali-450을 탑재하고 있는 상황에서 양산의 용이성을 높이고 성능 효율을 끌어올린 기존 T600 시리즈를 최적화한 버전이라고 할 수 있겠다. 특히 중요한 점은, 동일 공정에서 다이 사이즈도 30% 줄었다는 것.

나중에 상세히 밝혀진 바로는 각 코어의 연산 모듈의 수가 1개로 같이 공개된 T760의 반토막 버전이라고 할 수 있다.

실 제품은 2015년 하반기나 되어서 출시 되었는데, 탑재 제품이 대부분 보급형을 타겟 성능으로 잡아서 1~2 코어 구성으로 나왔다. 따라서 GFX벤치 2.7 티렉스 기준 25fps를 찍어주는 T628 헥사코어에 비해서는 성능이 상당히 낮게 나온다. 엑시노스 7580의 Mali-T720MP2가 티렉스 14fps정도를 찍는 수준으로 Adreno 320과 비슷한 성능이다. 실 제품으로 출시된 T760의 다이 크기가 생각보다 상당히 커서[5]여전히 삼성 위주로 사용 되었다는 것과 대비해 보면, T720은 2015년 현재 최신 API인 Open GLES 3.1을 지원하며 무난히 중/저가형 포지션을 책임 질 만큼의 성능과 생산성을 가진 GPU IP로 각광 받고 있다. 이것이 어느 정도 영향이 있었는지, 미디어텍 같은 경우 자사의 ARMv8 라인업에서 1세대 제품을 재빨리 단종 시키고, GPU를 T760에서 T720으로 다운그레이드 시킨 2세대 모델을 시장에 일찍 출시하였다.

3.4.2. Mali-T760[편집]

파일:fEGVdn3.jpg

16코어 기준

클럭

성능

공정

695 MHz

1390 Mtri/s, 11.2 Gpix/s, 378 GFLOPS

28nm HPM


Mali-T720과 같이 공개된 하이엔드 라인업. 공개된 성능만으로 보면 Mali-T720과 같은 코어로 추정되며, 최대 16개의 코어를 추가할 수 있다. 각 코어당 2개의 연산모듈이 들어가며, 전력효율은 기존 1세대 Midgard인 T604의 4배라고 한다. 다만 순수 아키텍처 개선이 아닌 공정밀도 미세화까지 반영된 전력효율이다.

압축 기술인 AFBC(ARM Frame Buffer Compression)과 Smart Composition 기술을 적용해, 이미지와 텍스처를 읽어들일 때 기존보다 메모리 대역폭과 전력 소비가 50% 줄었다고 한다.

CES 2014에서 첫 탑재 AP가 공개되었다. 제조사는 중국의 락칩. 4개라는 비교적 적은 수의 셰이더 코어가 탑재된 T764 구성으로도 현재 시장에 정식 출시된 모든 AP를 상회하는 성능을 보여준다고. 다만 대대로 뛰어난 GPU 성능을 보여 준 Nvidia Tegra K1의 GPU보다는 저성능이다. 나중에 수율 문제가 있었는지 정식 출시 성능은 발표때의 반토막 보다는 소폭 높은 성능이다.

삼성 엑시노스 7 Octa (5433)에 헥사코어 구성으로, 7420에 옥타코어 구성으로 들어갔다. 옥타코어 구성의 Mali-T760 772mhz는 FP32 기준 210 GFLOPS의 연산성능과 6.2 GPix/s의 픽셀 필레이트를 보여준다.

보여주는 성능은 동시기 비교군 대비 그리 우월하거나 눈에 띄게 뛰어나지 않지만 다중 코어 구성으로 다양한 라인업에 사용될 수 있다는 예시가 되었다.[6]

여담으로 GPU 코어의 다이가 이전 Mali스럽지 않게 큰 편이다. 1:1 코어 비교시 Cortex A57과 거의 비슷한 크기.

3.5. 4세대 Midgard 아키텍처[편집]

3.5.1. Mali-T820[편집]

파일:JGBHhWi.jpg

4코어 기준

클럭

성능

공정

650 MHz

400 Mtri/s, 2.6 Gpix/s

28nm HPM


T720의 개선 버전으로, 각 셰이더 코어에서 ALU 모듈의 수는 1개로 유지하고 성능을 개선, 텍셀 필 레이트 성능을 20%끌어올렸다. ARM의 주장으로는 같은 코어 구성에서 이전 T62x 시리즈 대비 40% 높은 성능을 보인다고 한다.

3.5.2. Mali-T830[편집]

파일:Od1wV3z.jpg

4코어 기준

클럭

성능

공정

650 MHz

400 Mtri/s, 2.6 Gpix/s

28nm HPM


820에 비해 달라진게 없다?!
드디어 Mali Cost Efficient Graphics 라인업에서 각 셰이더 코어 당 2 개의 ALU 모듈을 갖는 GPU IP이다.

T820 대비 높은 연산성능을 보여줄것으로 예상되며, 같은 코어 구성에서 Mali T62x 대비 55% 높은 성능을 보여 준다고 한다. 삼성의 엑시노스 7 Octa 7870, 7880에 각각 싱글, 트리플 코어구성으로 들어갔다. 7870의 실 사용 성능은 처참한 수준이다.

3.5.3. Mali-T860[편집]

파일:9tdGN6X.jpg

16코어 기준

클럭

성능

공정

650 MHz

1300 Mtri/s, 10.4 Gpix/s, 353.6 GFLOPS

28nm HPM


전작 T700 라인업의 동일한 하이엔드급 GPU인 Mali-T760과 동일한 IPC를 가진다. 그러니깐 동일한 코어수와 동일한 클럭수면 동일한 픽셀 필레이트와 동일한 FP32 연산능력을 가진다는 것이다. 다만 전력효율을 전작대비 20% 끌어올렸고 GPU 자체의 효율증가로 동일 클럭에 GFX 3.0 맨해튼 기준 +20%의 성능향상을 보여주었다. T760이 경쟁작 Adreno나 PowerVR의 GPU보다 전성비가 상대적으로 낮은 문제를 해소한 걸로 보인다.

3.5.4. Mali-T880[편집]

파일:oVSzhxm.jpg

16코어 기준

클럭

성능

공정

850 MHz

1700 Mtri/s, 13.6 Gpix/s, 693.6 GFLOPS

16nm (16 FinFET)


최종보스 등장 인줄 알았는데 사실은 하자품
점점 GPU의 연산성능을 중요시하는 현세대의 트렌드를 반영하여 드디어 각 코어당 연산 모듈의 수가 3개로 늘어났다.그 효과로 Mali-T860 대비 연산능력이 1.5배 상승했다. 픽셀, 텍셀 필 레이트는 동일하다. 그러나 사골 미드가르드 아키텍처를 또다시 사용했기 때문에 여러 커뮤니티에서 성능에 대한 우려의 목소리가 나왔다.

2015년 11월 12일 삼성전자에서 공식발표한 엑시노스 8890에 12코어 구성으로 들어가고 하이실리콘 Kirin 950와 955에는 4코어 구성으로 돌아간다. Kirin 950의 Mali-T880 4코어 구성에 900MHz의 클럭으로 엑시노스 7 Octa (5433)의 Mali-T760 6코어와 Adreno 420과 동일한 성능을 보여준다. 다만 이들 모두 무려 맥스웰 마이크로아키텍처를 사용한 NVIDIA Tegra X1의 GPU인 GM20B보다는 저성능이다.

결국 12코어 탑재 기기인 갤럭시 S7이 나왔는데, 우려대로 생각보다 실망스러운 퍼포먼스를 보여주었다. 동시기 같은급으로 출시된 퀄컴의 아드레노 530에게 벤치에서는 2~30%가량, 실제 게이밍에서는 비교할 수도 없이 밀리는 것으로 나왔는데, 이는 우릴대로 왕창 우려먹은 미드가르드 아키텍처가 이미 한계에 도달한 것이라고 여러 커뮤니티에서 입이 모아졌다. 이는 아키텍처를 대대적으로 개선하는것 말고는 방법이 없는 모양인 듯. 결국 다음 모델인 G71에선 아키텍처가 바뀌면서 성능이 어느 정도 향상되었다.

3.6. 1세대 Bifrost 아키텍처 기반[편집]

3.6.1. Mali-G71[편집]

파일:external/www.arm.com/Mali-G71-chip-diagram-LG.jpg
ARM Mali-G71

1 ~ 32코어 구성이 가능한 유연한 구조이며, Mali-T880 대비 20%의 전력효율 증가, 40%의 성능집적도 증가, 20%의 외부 메모리 대역폭 절약. 차세대 10nm 공정으로 먼저 적용된다. 본격적인 AR/VR, Vulkan 지원 등을 염두에 두었다. 삼성 엑시노스 9 8895에 G71 MP20, 삼성 엑시노스 7 7885에 G71 MP2로 각각 20코어, 2코어가 탑재가 확인되었다.

이전 저조한 평가를 받은 T880에 비해 성능이 대폭 개선되었다. 몇년동안 우려먹었던 Midgard 아키텍처를 드디어 버린 것인데, 덕분에 항상 퀄컴에게 밀렸던 GPU가 이제 벤치마크에서만큼은 거의 대등하게 되었다. 더불어 연산구조가 벡터에서 스칼라 구조로 바뀌면서 연산성능 또한 향상되었다. 하지만 전성비나 실제 게이밍에서는 여전히 좀 뒤떨어지는 모습을 보여 준다. 최대성능 자체는 경쟁모델인 아드레노 540과 대등하나[7], 전성비가 크게 밀리고, 발열량이 많아 스로틀링이 쉽게 걸려버리며, 이로인해 실제 퍼포먼스는 부족하다. 허나 부드러운 게이밍을 포기하다시피했던 전작들에 비하면 크게 개선된 모습을 보인다.

로드맵 상 간만의 대규모 아키텍처 변화가 있는 세대였음에도 불구하고, 몇년간 성능과 전력소모에는 불리한 방향인 소형화에만 집중했던 아드레노를 따라잡기는커녕 오히려 크게 뒤떨어졌다는 사실은, ARM과 퀄컴의 GPU 기술 격차를 보여 준다. 이 다음 세대의 아드레노에서는 모델명의 앞자리 숫자가 바뀌면서 큰 성능 개선이 있었고, 이미 이전 버전에서 전력을 다해 마이너 업그레이드밖에 되지 않은 Mali-G72로 아드레노를 상대해야 했던 삼성은 무려 2.5배나 되는 거대한 다이사이즈를 때려박아 가면서 성능은 큰 폭으로 밀리지만 전성비에라도 겨우 동급을 맞추었다. 똥꼬쑈 ARM도 정말 한심한데 똥으로 전자제품을 만드는 삼성도 정말 대단하다.

Mali-G71 GPU

아키텍처

Bifrost

코어 수

1~32

클럭

(16nm FinFET 기준) 850 MHz

처리량

(16nm FinFET 기준) 850Mtri/s, 27.2Gpix/s

API

OpenGL ES 1.1/2.0/3.0/3.1/3.2
Vulkan 1.0
Direct3D 12 (Feature Level 11_1)
OpenCL 1.1/1.2/2.0
RenderScript™

3.6.2. Mali-G51[편집]

3.7. 2세대 Bifrost 아키텍처 기반[편집]

3.7.1. Mali-G72[편집]

파일:g72_575px.png

1 ~ 32코어 구성이 가능한 유연한 구조이며, 동일 공정 노드에서 G71보다 성능 밀도 +20%, 전력 효율이 +25%가 향상되었다. 다만, G72가 G71 대비 면적이 +4.2% 정도 증가해서 G71보다 최대 구성은 소폭 감소할 것으로 예상된다.

....라고 예상되었으나 엑시노스 9810의 G72 MP18기준, 그래픽 성능 +15%, 연산성능 동급으로 나와서 성능 개선이 매우 아쉽게 나왔다. 그나마 다행인 점은 전력 효율은 발표대로 +25%가 향상되었다. 일단 성능은 아드레노보다 크게 떨어지지만, 전력소모량은 별로 밀리지 않는 모습을 보여준다. 원래는 전력소모마저 밀렸는데 이걸 칭찬해야되나 말아야 되나? 하지만 이 배경에는 GPU 면적을 아드레노의 2.5배나 때려박은 삼성의 노력이 있었다. 셰이더코어 구성을 줄이고 클럭을 올리면 면적은 아낄 수 있었겠지만 G72에서 그나마 개선된 전력소모 절감 효과도 보지 못했을 것이다. 2.5배나 되는 면적을 가지고도 전성비는 겨우 동급 턱밑까지 따라잡고 성능은 밀리는 물건을 선보이는 ARM도 대단하지만 매번 똥을 가지고 쓸만한 물건을 만들어내는 삼성도 대단하다.

Mali-G72 GPU

아키텍처

Bifrost

코어 수

1~32

클럭

(16nm FinFET 기준) 850 MHz

처리량

(16nm FinFET 기준) 850Mtri/s, 27.2Gpix/s

API

OpenGL ES 1.1/2.0/3.0/3.1/3.2
Vulkan 1.0
Direct3D 12 (Feature Level 11_1)
OpenCL 1.1/1.2/2.0
RenderScript™


3.7.2. Mali-G52[편집]

파일:Arm-Mali-G52-917x1024.png

중급기용 GPU다.

Mali-G52 GPU

아키텍처

Bifrost

코어 수

1~4

클럭

(16nm FinFET 기준) 850 MHz

처리량

(16nm FinFET 기준) 6.8 Gpix/s

API

OpenGL ES 1.1/2.0/3.0/3.1/3.2
Vulkan 1.0
OpenCL 1.1/1.2/2.0
RenderScript™

3.8. 3세대 Bifrost 아키텍처 기반[편집]

3.8.1. Mali-G76[편집]

파일:photo_5643_25522803.png
전작인 G72 전력 효율을 제외하곤 큰 실망감을 안겨주었으나, G76은 성능 개선에 중점을 둔 GPU이다. 7nm 기준이지만 RTL(Register Transfer Level)이라 어떤 공정이건 쓸 수 있으며, 7~10nm 공정이 주로 이용될 것으로 추정된다. 코어구성은 전작보다 줄어든 4~20코어이며, 7nm 공정에서 G72보다 성능이 최대 50% 향상되었고, 성능밀도와 전성비는 30%, 머신러닝은 2.7배 향상되었다. ALU가 G72보다 2배 늘어났다.

Mali-G76 MP20의 경우 Mali-G72MP32 대비 최대 25% 성능이 개선되었고, 7nm 공정에서 Mali-G76MP12 구성시 10nmLPP 스냅드래곤 845 대비 성능이 최대 13% 뛰어나고, 전성비는 40%정도 우수하다고 한다. 물론 공정이 다르므로 성능자체는 845랑 유사할 것으로 추정되며, 내년에 공개할 스냅드래곤 855(가칭)에겐 여전히 밀릴 것으로 추측된다. 엑시노스 9820에는 MP14~16이 탑재될 것으로 예상되며, 전작보단 그래픽이 많이 나아지겠으나 경쟁사에겐 여전히 밀릴 가능성이 높다.

Mali-G76 GPU

아키텍처

Bifrost

코어 수

4~20

클럭

(7nm FinFET 기준) MHz

처리량

(16nm FinFET 기준) Mtri/s, Gpix/s

API

OpenGL ES 1.1/2.0/3.0/3.1/3.2
Vulkan 1.1
OpenCL 1.1/1.2/2.0


2018년 6월 11일 기준, 클럭과 처리량, API 공개가 다 이뤄지지 않아서 여백이 있다.
추후 추가 바람

4. Video 칩셋 라인업[편집]

원래는 GPU가 담당할 비디오의 인/디코딩이나 디스플레이 출력을 위한 Mali 라인업들이 있다. 이는 기존의 GPU가 고사양을 필요로 하는 3D 연산을 하는것은 물론, 4K 해상도 비디오의 인/디코딩 및 디스플레이 출력 등에 많은 리소스가 필요해짐에 따라서 본래 GPU의 목적인 GPU의 3D연산을 발목 잡거나 리소스의 처리에 GPU를 활용하는것이 전력 효용성이 떨어지는 부분을 보충하기 위한 보조 코어로써 단독이 아닌 Mali T62x/7xx 번대 GPU와 같이 사용되는 것을 전제로 설계되었다.

4.1. Mali-V500[편집]

파일:eHVrHmB.jpg

Mali-V500은 최대 8코어 구성의 비디오 인/디코딩 전용 칩이다. 최대 600MHz로 동작하며, 1개의 코어로 1080p 60fps의 인/디코딩을, 8개의 모든 코어를 사용하다면 2160p 120fps 처리가 가능하다.

H.265를 제외한 대부분의 코덱을 지원하며, ARM의 대역폭 압축 기술인 ARM Frame Buffer Compression (AFBC)기술로 기존의 50%의 대역폭만 사용하여 영상을 처리할 수 있다.

4.2. Mali-V550[편집]

파일:6nQ09y8.jpg

5. Display 칩셋 라인업[편집]

5.1. Mali-DP500[편집]

파일:udLyXLb.jpg

2014년 2월 Cortex A17과 같이 공개된 Mali-DP500은 디스플레이 출력전용 칩이다.

비디오의 합성, 색채, 회전 및 3D효과를 처리하며, 4K 12bit를 VESA, CEA, HDMI, MIPI DPI 등의 규격으로 출력이 가능하다. Mali-V500과 같이 ARM의 대역폭 압축 기술인 ARM Frame Buffer Compression (AFBC)기술로 기존 대비 대역폭의 사용이 50%감소.

5.2. Mali-DP550[편집]

파일:ZldssTN.jpg

5.3. Mali-DP650[편집]

파일:external/gigglehd.com/6794e992d421b9c3c4491eb43dbe323b.png
2.5K 해상도에 최적화 되었고, 최대 4K 60fps까지 출력 가능하다.

6. 문제점[편집]

Mali-400의 경우 버텍스 성능이 떨어진다는 지적을 받았다. 엑시노스 4412를 예시로 들면 픽셀 필레이트는 2GPix/s 이지만 FP32 연산능력은 19.2 GFLOPS이다. 부동소숫점 연산능력은 버텍스 성능에 영향을 준다. 그리고 Midgard 구조로 오면서 이 문제는 해결되었지만 타사 그래픽에 비해서 전성비가 떨어진다는 지적이 있다.

http://www.anandtech.com/show/9330/exynos-7420-deep-dive/7

저 자료에 없는 Mali-T604가 저 문제가 가장 심각한 것으로 알려져 있고 저 자료를 보면 맨해튼 벤치마크의 전성비 항목에서 Mali-T628 같은 경우는 꽤 양호하다. 갤럭시 알파 자료를 보면 4W대의 전력소모로 전성비가 하위권이지만 메이주 탑재 T628을 보면 3W대의 소비전력을 보여주고 이 자료를 보면 3W대의 소비전력을 가지는거 보면 3W정도의 전력소모를 보여줄거라는게 중론. Mali-T760의 경우 낮은 전성비의 문제가 꽤 심한 것이 보여진다. 물론 Adreno 430도 420보다 더 정밀한 공정인 TSMC 20SoC를 사용하지만 420 대비 전성비가 오히려 급락하고 문제가 되는 T760은 14LPE 공정으로 전성비가 2배정도 급등한거 보면 GPU 설계를 직접 이용하는 AP 제작 회사(팹리스/파운드리 둘다)의 능력이 중요한 걸 알수있다.

7. 관련 문서[편집]


[1] Mali-400의 최대 구성 가능 개수[2] 최대 지원 개수[3] 최대 지원 개수[4] T700 시리즈로 넘버링이 올라가면서 3세대 미드가르드로 바뀌었을 가능성을 배제할 수 없으니, 세대가 밝혀지면 추후에 수정 바람.[5] 1코어가 동 공정의 Cortex-A57 1코어와 거의 같은 크기[6] 시장에 출시된 제품으로 비교해 보자면 단순 코어 수 조절 만으로, MP2 = 퀄컴 Adreno 320 / MP4 = 퀄컴 Adreno 330 / MP6 = 퀄컴 Adreno 420 / MP8 = 퀄컴 Adreno 430 과 비슷한 성능을 낼 수 있다.[7] GFX벤치에서는 엑시노스 우위, 3DMark에서는 스냅드래곤 우위