
<aside> ๐ก
๊ฐํ ํ์ต์ ํตํด CPU ๋ฐ GPU ์ ๋ ฅ์ ๋์ ์ผ๋ก ์กฐ์ ํด ํน์ On-Device LLM Inference ์๋๋ฆฌ์ค์ ๋ง๊ฒ ์๋์ง ํจ์จ์ ๋์ ๋๋ค.
โ Target ์ฑ๋ฅ ๋๋น 27.3% ํฅ์, ๊ธฐ์กด ์ ๋ ฅ ๋ชจ๋ ๋๋น ๋ฐฐํฐ๋ฆฌ ์๋ช 61.04% ํฅ์
</aside>
Cloud vs On-device
| Cloud-based inference | On-device inference |
|---|---|
| ์ง์ฐ ์๊ฐ โฌ๏ธ | |
| Privacy ๋ฌธ์ ์ผ๊ธฐ | |
| ๋คํธ์ํฌ ์ฐ๊ฒฐ ํ์ | ์ง์ฐ ์๊ฐ โฌ๏ธ |
| Privacy ๋ฌธ์ ํด๊ฒฐ | |
| ๋คํธ์ํฌ ์์กด์ฑ ๊ฐ์ |
๊ธฐ์กด ์ฐ๊ตฌ์ ์ฐจ์ด์
๊ธฐ์กด LLM์ ๋์ ์๋์ง ์๋น ๋ฌธ์ ๋ ์ฃผ๋ก ๋ฐ์ดํฐ ์ผํฐ ํ๊ฒฝ์์ ์ต์ ํ๋์ด ์๋ค.
= ๋ฐฐ์น ์์ฒญ ์ฒ๋ฆฌ(batch processing) ์ค์ฌ์ผ๋ก ์ต์ ํ
โก๏ธย On-device inference์์์ ์ฑ๊ธ ์ ์ ์๋๋ฆฌ์ค์ ์ ํฉํ์ง ์์

CPU ๋ฐ GPU ์ฃผํ์์ ๋ฐ๋ฅธ LLM Throughput ๋ณํ

CPU ๋ฐ GPU ์ฃผํ์์ ๋ฐ๋ฅธ ์๋์ง ์๋น๋ ๋ณํ
LLM์ ์ฒ๋ฆฌ๋๊ณผ ์๋์ง ์๋น๋ CPU์ GPU ์ฃผํ์ ์กฐ์ ์ ๋งค์ฐ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์
์ง๋์น๊ฒ ๋ฎ์ CPU ์ฃผํ์ โ ์ถ๋ก ์๊ฐโฌ๏ธย ์ด ์๋์ง ์ฌ์ฉ๋โฌ๏ธ
โ Adaptive frequency scaling์ ํตํด ์ถ๋ก ํจ์จ๊ณผ ์๋์ง ์๋น์ ๊ท ํ์ ํจ๊ณผ์ ์ผ๋ก ๋ง์ถค
<aside> <img src="/icons/light-bulb_gray.svg" alt="/icons/light-bulb_gray.svg" width="40px" />
๋ชฉ์ฐจ
</aside>
<aside> <img src="/icons/arrow-northeast_gray.svg" alt="/icons/arrow-northeast_gray.svg" width="40px" />
๋ฐ๋ก๊ฐ๊ธฐ
</aside>

$\alpha = 100$, $\beta = 3$
<aside> ๐
Scenario Design + Data collection
Scenario Design + Data collection
</aside>
<aside> ๐
Environment + Agent
</aside>