
์ด๋ฒ ํ๋ก์ ํธ์ ์ฒซ ๊ธ์ด๋ ๋ฐฐ๊ฒฝ์ ๊ฐ๋จํ ์ ์๋ฉด, ํด๋น ํ๋ก์ ํธ๋ ์ฌ๋ฃ ๋ผ๋ฒจ๊ณผ ์ฑ๋ถ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ๋ณดํธ์์๊ฒ ๋ณด์ฌ์ค ์ฌ๋ฃ ์ฑ์ ํ๋ฅผ ๋ง๋ ๋ค. ์ฑ์ ํ์ ํต์ฌ ํ๋จ์ ๊ท์น ๊ธฐ๋ฐ ํ์ดํ๋ผ์ธ์ด ๋ด๋นํ๋ค. LLM์ ๋ฑ๊ธ์ด๋ ์ฌ์ค์ ์๋ก ํ๋จํ์ง ์๊ณ ์ด๋ฏธ ๊ณ์ฐ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณดํธ์๊ฐ ์ฝ๊ธฐ ์ฌ์ด ๋ฌธ์ฅ์ผ๋ก ๋ค๋ฌ๋ ์ญํ ๋ง ๋งก๋๋ค.
๊ทธ๋ฐ๋ฐ ์ด ๋ฌธ์ฅ ๋ค๋ฌ๊ธฐ ํ ๋ฒ์ ์ฝ `$0.06`์ด ๋์๋ค..
์ฒ์์๋ ๋ชจ๋ธ ๋จ๊ฐ๋ถํฐ ์์ฌํ๋ค.. ๋ฌธ์ฅ ๋ช ๊ฐ๋ฅผ ๋ค๋ฌ๋ ์ผ์ธ๋ฐ ํ ๋ฒ์ `$0.06`์ด๋ฉด ์ด์ ๋น์ฉ์ผ๋ก ๋ถ๋ด์ด ํฌ๋ค๊ณ ๋๊ผ๋ค.
๋ค๋ง ๋ฐ๋ก ๋ชจ๋ธ์ ๋ฎ์ถ๊ฑฐ๋ ํ๋กฌํํธ๋ฅผ ์ค์ด๊ธฐ ์ ์, ๋จผ์ ์ค์ usage๋ถํฐ ํ์ธํ๋ค. ๋น์ฉ์ด ์ ๋ง ์ด์ํ๊ฒ ๋์จ ๊ฒ์ธ์ง, ์๋๋ฉด ๋ด๊ฐ ์์ฒญ์ ํฌ๊ธฐ๋ฅผ ์๊ฒ ์ฐฉ๊ฐํ๊ณ ์์๋์ง๋ถํฐ ๋ถ๋ฆฌํด์ ๋ด์ผ ํ๋ค.
ํ์ธํด๋ณด๋ ๊ณผ๊ธ ์์ฒด๋ ์ด์ํ์ง ์์๋ค.
input_tokens: 14,448
output_tokens: 1,034
model: claude-sonnet-4-20250514
cache_creation_input_tokens: 0
cache_read_input_tokens: 0
Anthropic ๊ณต์ ๊ฐ๊ฒฉํ ๊ธฐ์ค์ผ๋ก Claude Sonnet 4 ๊ณ์ด์ ์ ๋ ฅ `$3 / 1M tokens`, ์ถ๋ ฅ `$15 / 1M tokens`๋ค.
๊ณ์ฐ์ ๋จ์ํ๋ค.
์ ๋ ฅ: 14,448 * $3 / 1,000,000 = ์ฝ $0.043
์ถ๋ ฅ: 1,034 * $15 / 1,000,000 = ์ฝ $0.015
ํฉ๊ณ: ์ฝ $0.058
์ด๊ฑธ ๋ณด๋.. `$0.06`์ ๋น์ฐํ ๊ณผ๊ธ์ด์๋ค ๐ฅฒ
(ํด๋น ๋ฌธ๋จ์ ์ฝ์ง ์์๋ ๊ด์ฐฎ์์!)
์ด ๊ณผ์ ์์ ํ๋ ๋ ๋ฐ๊ฒฌํ ๊ฒ๋ ์์๋ค. ๋น์ ํ๋ก์ ํธ์์ ์ฐ๋ `claude-sonnet-4-20250514`๋ 2026๋ 5์ ๊ธฐ์ค Anthropic ๋ฌธ์์์ deprecated ์ํ๋ก ํ์๋์ด ์์๋ค. deprecated๋ ์์ง ๋์ํ์ง๋ง ๋ ์ด์ ๊ถ์ฅ๋์ง ์๋ ์ํ์ธ๋ฐ, retirement ์ดํ์๋ ์คํจํ ์ ์๋ค. ๋ฌธ์์ ์ ํ retirement ์์ ์ผ์ 2026๋ 6์ 15์ผ ์ด์๊ณ ๋ฐ๋ก `claude-sonnet-4-6`์ผ๋ก ๋ณ๊ฒฝํ๋ค ๐
๊ทธ๋์ ์ด ๋ฌธ์ ๋ ๋ ๊ฐ๋์๋ค.
ํ๋๋ `$0.06`์ด ์ ๋์๋์ง ์ดํดํ๋ ๊ฒ!
๋ค๋ฅธ ํ๋๋ deprecated ๋ชจ๋ธ์ ๊ณ์ ์ฐ์ง ์๋๋ก ๊ธฐ๋ณธ ๋ชจ๋ธ์ ๋ฐ๊พธ๋ ๊ฒ!
๋์ ๊ด๋ จ์ ์์ง๋ง ๊ฐ์ ๋ฌธ์ ๋ ์๋์๋ค. ๋ชจ๋ธ์ ๋ฐ๊พผ๋ค๊ณ ์ด ์์ฒญ์ด ๊ฐ์๊ธฐ ์ธ์ง๋ ๊ฒ์ด ์๋์๊ธฐ ๋๋ฌธ์ด๋ค.. Sonnet 4์ Sonnet 4.6์ ๊ธฐ๋ณธ ์ ๋ ฅ/์ถ๋ ฅ ๋จ๊ฐ๋ ๊ฐ์ ๊ตฌ๊ฐ์ด์๊ณ ๊ทธ๋ ๊ธฐ์ ๋น์ฉ ๋ฌธ์ ๋ ์์ฒญ ๊ตฌ์กฐ๋ฅผ ๋ด์ผ ํ๋ค.
๋ค๋ง ๋ฐ๋ก ํ๋กฌํํธ๋ฅผ ์ค์ด๊ธฐ์ ๋ถ์ํ๋ค. ์ด 1.4๋ง ํ ํฐ ์์๋ ๋ฌด์๋ฏธํ ๋ฌธ์ฅ์ด ์๋๋ผ, ์ฌ๋ฃ ์ฑ์ ํ์ ํ์ง์ ๋ง์ถ๊ธฐ ์ํ ๊ธฐ์ค ๋ฌธ์์ ๋ชจ๋ฒ ์์๊ฐ ๋ค์ด ์์๋ค. ๊ณผ๊ธ์ด ์ ์์ด๋ผ๋ ๊ฒ๊ณผ, ๊ทธ ํ๋กฌํํธ ์์ด ์ต์ ์ด๋ผ๋ ๊ฒ์ ๋ค๋ฅธ ๋ฌธ์ ์๊ธฐ์.. ๋น์ฉ์ด ์ ๋ฐ์ํ๋์ง ํ์ธํ๊ณ ๋์ ๋ฌด์์ ์ ์งํ๊ณ ๋ฌด์์ ์ค์ผ ์ ์๋์ง ๋๋ ์ ๋ด์ผ ํ๋ค.
์ฌ๊ธฐ์๋ถํฐ ์ฝ๊ธฐ ํธํ๊ฒ ์ฃผ์ ๋ฅผ ๋๋ ๋ณด๊ฒ ๋ค
๋ฌธ์ ๋ ๋ชจ๋ธ์ด ์๋๋ผ ์์ฒญ ๊ตฌ์กฐ์๋ค
์ฌ๋ฃ ์ฑ์ ํ๋ฅผ ๋ง๋ค ๋ LLM ํธ์ถ์๋ ์ฌ๋ฃ๋ง๋ค ๋ฌ๋ผ์ง๋ ์ ๋ณด๋ง ๋ค์ด๊ฐ์ง ์์๋ค. ์๋ฅผ ๋ค์ด ํน์ ์ ํ์ ์์ฌ๋ฃ, ๋ณด์ฆ์ฑ๋ถ, ์นผ์/์ธ ํ๊ธฐ ์ฌ๋ถ, ์ฒ๋ฐฉ์ ์ฌ๋ถ์ฒ๋ผ ์ ํ ๋ผ๋ฒจ์์ ์ถ์ถํ ์ฌ์ค ๋ฐ์ดํฐ๊ฐ ๋ค์ด๊ฐ๋ค. ๊ทธ๋ฐ๋ฐ ์ฌ๊ธฐ์ ๋ํด, ๋ฌธ์ฅ ํ์ง์ ๋ง์ถ๊ธฐ ์ํ ๊ณ ์ ๋ฌธ์๋ ํจ๊ป ๋ค์ด๊ฐ๋ค.
์๋ฅผ ๋ค๋ฉด ์ด๋ฐ ๊ฒ๋ค์ด๋ค.
- 2026๋ ์ฌ๋ฃ ์ฑ์ ํ ์์ฑ ๊ฐ์ด๋
- ๋ณดํธ์์ฉ ๋ฌธ์ฅ ํค์ค๋งค๋
- ๋ด๋ถ ์ฑ์ ์ฉ์ด๋ฅผ ๋ ธ์ถํ์ง ๋ง๋ผ๋ ๊ท์น
- ์นผ์/์ธ ๋๋ฝ, ์ฒ๋ฐฉ์ ๋ฑ ํ์ ๊ณ ์ง ๋ฌธ๊ตฌ
- ์ฐธ๊ณ ๋ฅผ ์ํ ๋ชจ๋ฒ ์ฑ์ ํ ์์
์ด ๋ฌธ์๋ค์ ์ฌ๋ฃ๊ฐ ๋ฐ๋์ด๋ ๊ฑฐ์ ๋์ผํ๋ค. ๋ก์์บ๋์ ๋ถ์ํ ๋๋ ๋ค์ด๊ฐ๊ณ , ๋ค๋ฅธ ๋ธ๋๋๋ฅผ ๋ถ์ํ ๋๋ ๋ค์ด๊ฐ๋ค. ๊ทธ๋ฐ๋ฐ ์บ์ฑ์ด ์์ผ๋ฉด ๋งค ์์ฒญ๋ง๋ค ๊ฐ์ ๋ฌธ์๋ฅผ ์ ์ ๋ ฅ ํ ํฐ์ผ๋ก ๊ฒฐ์ ํ๋ค.
๊ทธ๋ ๊ฒ ์ ๋ฆฌํ ์์ฒญ ๊ตฌ์กฐ ๋ฌธ์ ๋ ์ด๋ ๋ค.
์ฌ๋ฃ๋ณ๋ก ๋ฌ๋ผ์ง๋ ์ ๋ณด๋ ์ผ๋ถ์ธ๋ฐ, ์ฌ๋ฃ๋ณ๋ก ๋ฌ๋ผ์ง์ง ์๋ ๊ธด ๊ธฐ์ค ๋ฌธ์๊ฐ ๋งค๋ฒ ์๋ก ์ฝํ๊ณ ์์๋ค.
ํ์ง๋ง ์ด ๊ธฐ์ค ๋ฌธ์๋ฅผ ์ผ๋ง๋ ์ค์ผ ์ ์๋์ง๋ ๋ณ๋๋ผ ์๊ฐํ๋ค. ๋ฌด์์ ์ค์ด๋ฉด ๋น์ฉ์ ๋ด๋ ค๊ฐ๊ฒ ์ง๋ง, ์ฑ์ ํ ๋ฌธ์ฅ์ด ๋ชจ๋ฒ ์ฑ์ ํ ์์์์ ๋ฉ์ด์ง ์ ์๋ค. ๊ทธ๋์ ์ฒซ ๋ฒ์งธ ์ ํ์ง๋ ํ๋กฌํํธ ์ถ์๊ฐ ์๋๋ผ ์บ์ฑ์ด์๋ค. ๊ฐ์ ๊ธฐ์ค ๋ฌธ์๋ฅผ ์ ์งํ๋, ๋ฐ๋ณต ์ ๋ ฅ ๋น์ฉ๋ถํฐ ์ค์ด๋ ์ชฝ์ด ํ์ง ๋ฆฌ์คํฌ๊ฐ ๊ฐ์ฅ ์์๋ค.
Prompt Caching์ ๋ต๋ณ ์บ์๊ฐ ์๋๋ค
Prompt Caching์ ์์ฑ๋ ์ฑ์ ํ๋ฅผ ์ ์ฅํด๋๋ ๊ธฐ๋ฅ์ด ์๋๋ค. LLM ๋ชจ๋ธ์ด ๋ฐ๋ณต๋๋ ํ๋กฌํํธ ์๋ถ๋ถ์ ๋ค์ ์ฒ๋ฆฌํ์ง ์๋๋ก ์ฌ์ฌ์ฉํ๋ ๊ธฐ๋ฅ์ด๋ค.
์ด๋ ๋ฐ๋ณต๋๋ ์๋ถ๋ถ์ ์บ์ ๋์์ด ๋๋ ๊ณ ์ ํ๋กฌํํธ๋ผ๊ณ ๋ถ๋ฅด๊ฒ ๋ค.
๋ด๊ฐ ์๊ฐํ๋ ์ข์ ๊ตฌ์กฐ๋ ์ด๋ ๋ค.
[๊ณ ์ ์์คํ ์ง์นจ]
[์ฌ๋ฃ ์ฑ์ ํ ์์ฑ ๊ฐ์ด๋]
[๋ชจ๋ฒ ์ฑ์ ํ ์์]
[ํ์ ๊ณ ์ง ๊ท์น]
------------------------- ์ฌ๊ธฐ๊น์ง๋ฅผ cache ๋์์ผ๋ก ๋ดค๋ค
[์ฌ๋ฃ๋ณ๋ก ๋ฌ๋ผ์ง๋ ์์ฌ๋ฃ·์ฑ๋ถํ·๊ธ์ฌ ์ ๋ณด]
[๋ฃฐ ์์ง์ด ์ด๋ฏธ ๊ณ์ฐํ ๋ฑ๊ธ ๊ฒฐ๊ณผ]
[๋ฃฐ ์์ง์ด ๋ง๋ ๊ธฐ๋ณธ ์ฌ๋ฃ ๋ฑ๊ธํ]
[์ด๋ฒ ์์ฒญ์ ์ฌ์ฉ์ ์กฐ๊ฑด]
์์ชฝ์ ๊ณ ์ ์ง์นจ๊ณผ ์์๋ ์ฌ๋ฃ๊ฐ ๋ฐ๋์ด๋ ๊ฑฐ์ ๊ฐ๋ค. ๊ทธ๋์ cache ๋์์ด ๋๋ค.
ํ์ง๋ง ๊ตฌ๋ถ์ ์๋์ ๋ด์ฉ์ ์์ฒญ๋ง๋ค ๋ฌ๋ผ์ง๋ค. ์ด ๊ฐ๋ค์ cache ๋์์ด ์๋๋ค. ํนํ `๋ฃฐ ์์ง์ด ์ด๋ฏธ ๊ณ์ฐํ ๋ฑ๊ธ ๊ฒฐ๊ณผ`๋ LLM์ด ์๋ก ๋ง๋๋ ๊ฒฐ๊ณผ๊ฐ ์๋๋ผ, ๋ฃฐ ์์ง์ด ๊ณ์ฐํ ๊ฒฐ๊ณผ๋ฅผ LLM์๊ฒ ๋๊ฒจ์ฃผ๋ ๊ฐ์ด๋ค. LLM์ ์ด ๊ฐ์ ๋ณด๊ณ ๋ฌธ์ฅ์ ๋ง์ถ ๋ฟ, ๋ฑ๊ธ ์์ฒด๋ฅผ ๋ฐ๊พธ๋ฉด ์ ๋๋ค.
๊ทธ๋์ ๋์ ๊ตฌ์กฐ๋ ์๋์ ๊ฐ๋ค๊ณ ๋ณธ๋ค.
[์ฌ๋ฃ ์ด๋ฆ]
[์ฌ์ฉ์ ์กฐ๊ฑด]
[ํ์ฌ ์๊ฐ]
[๊ณ ์ ๊ฐ์ด๋]
[๋ชจ๋ฒ ์ฑ์ ํ]
๋งค๋ฒ ๋ฐ๋๋ ๊ฐ์ด ์์ ์์ด๋ฉด cache hit๊ฐ ๊นจ์ง๋ค. Prompt Caching์ ๋์ผํ prefix๊ฐ ๋ค์ ๋ค์ด์์ ๋ ํจ๊ณผ๊ฐ ๋๊ธฐ ๋๋ฌธ์ด๋ค.
Claude์์๋ ์ด๋ป๊ฒ ํ์ธํ๋
Anthropic Claude API์์๋ Prompt Caching์ ์ฐ๋ ค๋ฉด ์์ฒญ์ `cache_control`์ ๋ฃ์ด์ผ ํ๋ค.
(Anthropic์ block๋ณ ์ง์ ์์ด top-level cache_control๋ก breakpoint๋ฅผ ์๋ ๋ฐฐ์นํ๋ ๋ฐฉ์๋ ์ง์ํ๋ ์ด ๋ถ๋ถ ๋งํฌ๋ ์ฒจ๋ถํด ๋๊ฒ ๋ค!)
๊ทธ๋ฆฌ๊ณ ์บ์ฑ์ด ์ค์ ๋ก ๋๋์ง๋ ์๋ต์ `usage`ํ๋๋ฅผ ๋ณด๋ฉด ๋๋ค.
top-level ๋๋ content block ๋จ์์ cache_control์ ๋ฃ๋๋ค.
ํต์ฌ ํ๋๋ ์ธ ๊ฐ๋ค.
{
"usage": {
"input_tokens": 500,
"cache_creation_input_tokens": 12095,
"cache_read_input_tokens": 0,
"output_tokens": 800
}
}
์๋ฏธ๋ ์ด๋ ๋ค.
cache_creation_input_tokens
์ด๋ฒ ์์ฒญ์์ ์บ์์ ์๋ก ์ด ํ ํฐ ์
cache_read_input_tokens
์ด๋ฒ ์์ฒญ์์ ์ด๋ฏธ ์บ์๋ prefix๋ฅผ ์ฝ์ ํ ํฐ ์
input_tokens
์บ์๋์ง ์์ ์ผ๋ฐ ์ ๋ ฅ ํ ํฐ ์
์ด ๋ถ๋ถ์ ์ค์ ๋ก ๋ ๋ฒ ์ฐ์ ํธ์ถํด์ ํ์ธํ๋ค. ์ฒซ ๋ฒ์งธ ์์ฒญ์์๋ ๊ณ ์ ํ๋กฌํํธ๊ฐ cache write๋ก ์กํ๋์ง ๋ณด๊ณ , ๊ฐ์ ๊ณ ์ ํ๋กฌํํธ๋ก ๋ ๋ฒ์งธ ์์ฒญ์ ๋ณด๋ด cache read๊ฐ ์กํ๋์ง ๋ดค๋ค. ๋น์ฉ ๊ทธ๋ํ๋ฅผ ๋์ผ๋ก ๋ณด๋ ๊ฒ๋ณด๋ค ์๋ต usage์ ์ฐํ๋ ์ซ์๋ฅผ ํ์ธํ๋ ํธ์ด ํจ์ฌ ๋ช ํํ๋ค. (usage๋ API ์๋ต JSON body ์์ ํ๋๋ค)
์ ์์ ์ผ๋ก ์บ์๊ฐ ์กํ๋ฉด ์ฒซ ์์ฒญ๊ณผ ๋ ๋ฒ์งธ ์์ฒญ์ usage๊ฐ ๋ค๋ฅด๊ฒ ๋์จ๋ค.
<์ฒซ ๋ฒ์งธ ์์ฒญ>
cache_creation_input_tokens = 12095
cache_read_input_tokens = 0
<๋ ๋ฒ์งธ ์์ฒญ>
cache_creation_input_tokens = 0
cache_read_input_tokens = 12095
์ด ๊ฒฐ๊ณผ๋ ๊ณ ์ ํ๋กฌํํธ 12,095ํ ํฐ์ด ์ฒซ ์์ฒญ์์ ์บ์์ ์ฐ์๊ณ , ๋ ๋ฒ์งธ ์์ฒญ์์ ์ฌ์ฌ์ฉ๋๋ค๋ ๋ป์ด๋ค.
๋ฐ๋๋ก ์๋์ฒ๋ผ ๋์ค๋ฉด ์บ์ฑ์ด ์ ๋ ๊ฒ์ด๋ค.
cache_creation_input_tokens = 0
cache_read_input_tokens = 0
์ด๋๋ `cache_control`์ด ๋น ์ก๋์ง, ๊ณ ์ ํ๋กฌํํธ๊ฐ ์์ฒญ๋ง๋ค ๋ฌ๋ผ์ง๋์ง, ์ ํ๋ณ ๋ฐ์ดํฐ๊ฐ ์บ์ ๊ตฌ๊ฐ ์์ ์์๋์ง, ์บ์ ์ ํจ์๊ฐ์ด ์ง๋ฌ๋์ง ํ์ธํด์ผ ํ๋ค.
Claude์์ ์ ์ฒด ์ ๋ ฅ ํ ํฐ์ ๋ณผ ๋๋ ์ฃผ์๊ฐ ํ์ํ๋ค. `input_tokens`๋ง ๋ณด๋ฉด ์ ์ฒด ์ ๋ ฅ์ด ์๋๋ค.
const total_input_tokens =
input_tokens
+ cache_creation_input_tokens
+ cache_read_input_tokens
ํ ๋ฒ์ ํ ์คํธ ํธ์ถ์์๋ usage๋ฅผ ์ง์ ๋ณด๋ฉด ๋๋ค. ํ์ง๋ง ์ด์ ํ๊ฒฝ์์๋ ์์ฒญ์ด ๊ณ์ ๋ค์ด์ด์ผ๋ก ๋งค๋ฒ ์๋ต JSON์ ์ฌ๋์ด ํ์ธํ๊ธด ํ๋ค๋ค๊ณ ์๊ฐํ๋ค. ๊ทธ๋์ ๋ฌธ์ฅ ๋ค๋ฌ๊ธฐ ํธ์ถ๋ง๋ค ์ต์ํ ์๋ ๊ฐ์ ๋ก๊ทธ๋ ๋ฉํธ๋ฆญ์ผ๋ก ๋จ๊ฒจ๋๋ ค ํ๋ค.
provider
model
input_tokens
output_tokens
cache_creation_input_tokens
cache_read_input_tokens
copy_source report_reused
estimated_cost
์บ์ฑ์ ์ ์ฉํ ๋ค์๋ ๋จ์ํ ์ฒญ๊ตฌ ๊ธ์ก์ด ์ค์๋์ง๋ง ๋ณด๋ฉด ๋ถ์กฑํ๋ค. Claude ์๋ต์ `cache_read_input_tokens`๊ฐ 0๋ณด๋ค ํฌ๊ฒ ๋์ค๋์ง ํ์ธํด์ผ ํ๋ค. ์ด ๊ฐ์ด ์์ด์ผ ๊ณ ์ ํ๋กฌํํธ๋ฅผ ๋งค๋ฒ ์๋ก ์ฝ๋ ๊ฒ์ด ์๋๋ผ, ์ค์ ๋ก ์บ์์์ ์ฌ์ฌ์ฉํ๋ค๋ ๋ป์ด ๋๋ค!
์บ์๋ ์ผ๋ง๋ ์ ์ง๋๋
๋ค๋ง ๋น์ฐํ๊ฒ๋ ์บ์๋ ์๊ตฌ ์ ์ฅ์๊ฐ ์๋๋ค!
์ ํจ์๊ฐ์ด ์ง๋๋ฉด ๋ค์ ์์ฒญ์ ๋ค์ cache miss๊ฐ ๋๊ณ , ๊ทธ ์๊ฐ ์ ๋ ฅ ๋น์ฉ์ด ๋ค์ ํ๋ค ๐ฅฒ
Anthropic ๊ณต์ ๋ฌธ์ ๊ธฐ์ค์ผ๋ก Claude์ `ephemeral` cache๋ ๊ธฐ๋ณธ์ ์ผ๋ก 5๋ถ lifetime์ ๊ฐ์ง๋ค. 1์๊ฐ TTL๋ ์ ํํ ์ ์์ง๋ง.. write ๋น์ฉ์ด ๋ ๋น์ธ๋ค..! (๊ทธ๋ฌ๋ ๋ฌด์์ ์ ํํ์ง ๋ง์!)
๊ฐ๊ฒฉ ๊ตฌ์กฐ๋ ์ด๋ ๋ค.
5๋ถ cache write: ์ผ๋ฐ input ๊ฐ๊ฒฉ์ 1.25๋ฐฐ
1์๊ฐ cache write: ์ผ๋ฐ input ๊ฐ๊ฒฉ์ 2๋ฐฐ
cache read: ์ผ๋ฐ input ๊ฐ๊ฒฉ์ 0.1๋ฐฐ
๋ฐ๋ผ์ ํธ๋ํฝ์ด ๊พธ์คํ ๋ค์ด์ค๋ ์๋น์ค๋ผ๋ฉด 5๋ถ ์บ์๊ฐ ํจ์จ์ ์ด๋ผ ์๊ฐํ๋ค. 5๋ถ ์์ ๊ฐ์ ๊ณ ์ ํ๋กฌํํธ๊ฐ ๋ฐ๋ณตํด์ ์ฌ์ฉ๋๋ฉด cache read๊ฐ ๋ฐ์ํ๊ณ , ๊ณต์ ๋ฌธ์ ๊ธฐ์ค์ผ๋ก 5๋ถ ์บ์๋ ๊ณ์ refresh๋ ์ ์๋ค.
๋ฐ๋๋ก ์์ฒญ ๊ฐ๊ฒฉ์ด 5๋ถ์ ์์ฃผ ๋๋๋ค๋ฉด ์ฒซ ์์ฒญ๋ง๋ค ๋ค์ cache write๊ฐ ๋ฐ์ํ๋ค. ์ด ๊ฒฝ์ฐ ๋น์ฉ์ด ๋ค์ ํ๋ค..
์ด๋ฐ ์ํฌ๋ก๋์์๋ 1์๊ฐ TTL์ ๊ฒํ ํ ์ ์๋ค. ๋ค๋ง 1์๊ฐ cache write๋ 2๋ฐฐ ๊ฐ๊ฒฉ์ด๋ฏ๋ก, ์์ฒญ ๋น๋์ cache hit ๊ฐ๋ฅ์ฑ์ ๋ณด๊ณ ๊ฒฐ์ ํด์ผ ํ๋ค.
์์ฝ ์ ๋ฆฌํ์๋ฉด ์ด๋ ๋ค.
์งง์ ์๊ฐ ์์ ๋ฐ๋ณต ํธ์ถ์ด ๋ง๋ค → 5๋ถ cache๊ฐ ์ ๋ฆฌํ ๊ฐ๋ฅ์ฑ์ด ํผ
์์ฒญ ๊ฐ๊ฒฉ์ด 5๋ถ์ ์์ฃผ ๋์ง๋ง 1์๊ฐ ์์๋ ๋ฐ๋ณต → 1์๊ฐ TTL ๊ฒํ
์์ฒญ์ด ํ๋ฃจ์ ๋ช ๋ฒ ์์ค → Prompt Caching๋ณด๋ค DB ์ฌ์ฌ์ฉ, ๋ฐฐ์น, ํ๋กฌํํธ ์ถ์๊ฐ ๋ ์ค์ํ ์ ์์
๊ทธ๋์ ์บ์ฑ์ ์ ์ฉํ๋ค๊ณ ๋์ด ์๋๋ผ cache hit ๋น์จ์ ๋ด์ผ ํ๋ค!
const cache_hit_ratio =
cache_read_input_tokens / total_input_tokens
์์ ์ฝ๋์ ์๋ ๋ด์ฉ์ ๋์ ํด๋ณด์.
input_tokens = 500
cache_creation_input_tokens = 0
cache_read_input_tokens = 12095
๊ทธ๋ผ ๊ฒฐ๊ณผ๋ ์๋์ฒ๋ผ ๋์จ๋ค.
total_input_tokens = 12595
cache_hit_ratio = ์ฝ 96%
์ด ์ ๋๋ฉด ๊ณ ์ ํ๋กฌํํธ ์บ์ฑ์ด ์ ๋จน๊ณ ์๋ค๊ณ ๋ณธ๋ค.
๋ฐ๋๋ก ํธ๋ํฝ์ด ๋๋ฌธ ์๊ฐ๋๋ง๋ค ์๋์ฒ๋ผ ๋์จ๋ค๋ฉด ์บ์๊ฐ ๋ง๋ฃ๋๊ณ ์๋ ๊ฒ์ด๋ค.
cache_creation_input_tokens = 12095
cache_read_input_tokens = 0
์ด๊ฑด ์คํจ๊ฐ ์๋๋ผ cache miss๋ค. ๋ค๋ง ๋น์ฉ์ ๋ค์ ์ค๋ฅธ๋ค ๐ฑ
๊ณ ์ ํ๋กฌํํธ๋ฅผ ๋ฐ๊ฟ์ผ ํ ๋
์บ์ ๋์ ๊ณ ์ ํ๋กฌํํธ๋ ๋ฐ๊ฟ๋ ๋ ๊น? ๋น์ฐํ ๋๋ค!
์์ฑ ๊ฐ์ด๋๊ฐ ๊ฐ์ ๋๊ฑฐ๋, ๋ชจ๋ฒ ์ฑ์ ํ๊ฐ ๋ฐ๋๊ฑฐ๋, ํ์ ๊ณ ์ง ๋ฌธ๊ตฌ๊ฐ ๋ฐ๋๋ฉด ๋น์ฐํ ์ ๋ฐ์ดํธํด์ผ ํ๋ค!
๋ค๋ง ๊ณ ์ ํ๋กฌํํธ๊ฐ ๋ฐ๋๋ฉด ๊ธฐ์กด ์บ์์ prefix๊ฐ ๋ฌ๋ผ์ง๋ค. ๊ทธ๋ฌ๋ฉด ์ฒซ ์์ฒญ์ cache miss๊ฐ ๋๊ณ , ์ ๋ฒ์ ์ ๊ณ ์ ํ๋กฌํํธ๊ฐ ๋ค์ cache write๋๋ค. ์ดํ ๊ฐ์ ์ ๋ฒ์ ์ด ๋ฐ๋ณต๋๋ฉด ๋ค์ cache hit๊ฐ ๋๋ค.
์ฆ ๋ฐฐํฌ ์งํ์๋ ๋น์ฉ์ด ์ ๊น ํ ์ ์๋ค.
์ด๋ ๊ณ ์ ํ๋กฌํํธ๊ฐ ๋ณ๊ฒฝ๋ ๊ฑธ ๋ชจ๋ฅด๋ ๋ค๋ฅธ ํ์ ์ ์ฅ์์ ๋นํฉ์ค๋ฌ์ธ ์ ์๋ค.
๊ทธ๋ฌ๋ ์ด์์์๋ ๊ณ ์ ํ๋กฌํํธ๋ฅผ ๋ฒ์ ์ผ๋ก ๊ด๋ฆฌํ๋ ํธ์ด ์ข๋ค๊ณ ์๊ฐํ๋ค.
feed_report_copy_prompt_version = 2605.1
feed_report_copy_prompt_version = 2605.2
์ด๋ ๊ฒ ํด๋๋ฉด ์ด๋ค ์ฑ์ ํ๊ฐ ์ด๋ค ๊ธฐ์ค ๋ฌธ์๋ก ๋ฌธ์ฅ ๋ค๋ฌ๊ธฐ๋ฅผ ๊ฑฐ์ณค๋์ง ์ถ์ ํ ์ ์๋ค.
๋ณ๊ฒฝ์ ์ฑ๊ฒฉ๋ ๋๋ ์ผ ํ๋ค๊ณ ๋ณธ๋ค.
๋ฌธ์ ๊ฐ ์กฐ๊ธ ๋ฐ๋ ๊ฒฝ์ฐ
-> ๊ธฐ์กด ๋ฐํ ์ฑ์ ํ๋ฅผ ๋ฐ๋์ ํ๊ธฐํ ํ์๋ ์์
ํ์ ๊ณ ์ง, ์์ ๋ฌธ๊ตฌ, ์ ์ฑ ํ๋จ์ด ๋ฐ๋ ๊ฒฝ์ฐ
-> ๊ธฐ์กด ์ฑ์ ํ ์ฌ์ฌ์ฉ ๊ธฐ์ค์ ๋ค์ ๋ด์ผ ํจ
์ฑ์ ๊ท์น์ด๋ ์ฌ๋ฃ๋ณ๋ก ๋ฌ๋ผ์ง๋ ์ ๋ณด๋ค์ ํด์์ด ๋ฐ๋ ๊ฒฝ์ฐ (์ฌ๋ฃ๋ณ๋ก ๋ฌ๋ผ์ง๋ ์ ๋ณด๋ค์ ์์ผ๋ก facts ๋ผ๊ณ ํ๊ฒ ๋ค!)
-> ruleset version ๋๋ report publication ๊ธฐ์ค๊น์ง ๊ฐ์ด ๋ด์ผ ํจ
์ฐ๋ฆฌ ์๋น์ค์์๋ ์ด๋ฏธ ๋ฐํ๋ ์ฑ์ ํ๋ฅผ ์ฌ์ฌ์ฉํ๋ ๊ตฌ์กฐ๊ฐ ์๋ค. ์ด๋ ๊ณ ์ ํ๋กฌํํธ๊ฐ ๋ฐ๋์๋ค๊ณ ๋ฌด์กฐ๊ฑด ๊ธฐ์กด ์ฑ์ ํ๋ฅผ ๋ฒ๋ฆด ํ์๋ ์๋ค. ํ์ง๋ง ๋ฒ์ ๊ณ ์ง, ์์ ๋ฌธ๊ตฌ, ๋ฆฌํฌํธ ์ ์ฑ ์ด ๋ฐ๋ ๊ฒฝ์ฐ๋ผ๋ฉด ๊ฐ์ facts์ฌ๋ ์ฌ์ฉ์์๊ฒ ๋ณด์ฌ์ค ๋ฌธ์ฅ์ด ๋ฌ๋ผ์ง ์ ์๋ค. ๊ทธ๋ฐ ๋ณ๊ฒฝ์ prompt version์ด๋ ruleset version์ผ๋ก ๋ถ๋ฆฌํด์ผ ํ๋ค.
๊ทธ๋ฆฌ๊ณ ๋ฐฐํฌ ์งํ ์ฒซ ์ฌ์ฉ์์๊ฒ cache miss ๋น์ฉ๊ณผ latency๋ฅผ ๋๊ธฐ๊ณ ์ถ์ง ์๋ค๋ฉด pre-warming๋ ๊ฐ๋ฅํ๋ค. Anthropic ๊ณต์ ๋ฌธ์์์๋ `max_tokens: 0`์ ์ฌ์ฉํด system prompt๋ tool definition์ ๋ฏธ๋ฆฌ ์บ์์ ์ฌ๋ฆฌ๋ ๋ฐฉ์์ด ์๋ด๋์ด ์๋ค. ๋ค๋ง ์ด ๊ฒฝ์ฐ์๋ cache write ๋น์ฉ์ ๋ฐ์ํ๋ค.
A ์ฌ์ฉ์์ ์บ์๋ฅผ B ์ฌ์ฉ์๊ฐ ์ธ ์ ์๋
๊ฐ๋ฅํ๋ค! ๋จ, ๊ฐ์ Anthropic workspace ์์์ ๋์ผํ ํ๋กฌํํธ prefix๊ฐ ๋ค์ ๋ค์ด์์ผ ํ๋ค.
Anthropic ๋ฌธ์ ๊ธฐ์ค์ผ๋ก 2026๋ 2์ 5์ผ๋ถํฐ Claude API์ prompt cache๋ workspace ๋จ์๋ก ๊ฒฉ๋ฆฌ๋๋ค. ๋ค๋ฅธ ์กฐ์ง๊ณผ๋ ๊ณต์ ๋์ง ์๊ณ , ๊ฐ์ ์กฐ์ง ์์์๋ workspace๊ฐ ๋ค๋ฅด๋ฉด ๋ถ๋ฆฌ๋๋ค.
์ฆ ์ฐ๋ฆฌ ์๋ฒ๊ฐ ๊ฐ์ Anthropic workspace๋ก ํธ์ถํ๊ณ , ๊ณ ์ ์ฌ๋ฃ ์ฑ์ ํ ๊ฐ์ด๋๊ฐ 100% ๋์ผํ๋ค๋ฉด A ์ฌ์ฉ์์ ์์ฒญ์์ ๋ง๋ค์ด์ง ์บ์๋ฅผ B ์ฌ์ฉ์์ ์์ฒญ์ด ์ฌ์ฌ์ฉํ ์ ์๋ค.
ํ์ง๋ง ์ฌ์ฉ์ ์กฐ๊ฑด์ด๋ ์ฌ๋ฃ facts๊ฐ cache ๋์ prefix ์์ ๋ค์ด๊ฐ๋ฉด ์ ๋๋ค. ๊ทธ ๊ฐ๋ค์ ๋ค๋ก ๋นผ์ผ ํ๋ค.
OpenAI๋ก ๋ฐ๊พธ๋ฉด ์ด๋ป๊ฒ ๋๋
ํ์์์ OpenAI๋ก ๋ณ๊ฒฝ์ ์ด๋ค๊ฐ? ๋ผ๋ ์ด์ผ๊ธฐ๊ฐ ๊ณ์ ๋์ค๊ณ ์๋ ์ค์ด๋ผ ์์๋ณธ ๊น์ ์ ์ด๋ณธ๋ค ๐
๊ฒฐ๋ก ๋ถํฐ ๋งํ์๋ฉด OpenAI๋ ๋ฐฉ์์ด ๋ค๋ฅด๋ค.
OpenAI ๊ณต์ ๋ฌธ์ ๊ธฐ์ค์ผ๋ก Prompt Caching์ ์ง์ ๋ชจ๋ธ์์ ์๋ ์ ์ฉ๋๋ค. Claude์ฒ๋ผ `cache_control`์ ์ง์ ๋ถ์ด๋ ๋ฐฉ์์ด ์๋๋ค. ํ์ธ์ `usage.prompt_tokens_details.cached_tokens`๋ก ํ๋ค.
์์๋ ์๋์ ๊ฐ์ ํํ๋ค.
{
"usage": {
"prompt_tokens": 2006,
"completion_tokens": 300,
"total_tokens": 2306,
"prompt_tokens_details": {
"cached_tokens": 1920
}
}
}
OpenAI๋ ์บ์ ์ ์ง์๊ฐ์ด ์๋ค. 2026๋ 5์ ๊ธฐ์ค ๊ณต์ ๋ฌธ์์๋ in-memory cache๊ฐ ๋ณดํต 5~10๋ถ์ ๋นํ์ฑ ์๊ฐ ๋์ ์ ์ง๋๊ณ , ์ต๋ 1์๊ฐ๊น์ง ๊ฐ ์ ์๋ค๊ณ ๋์ด ์๋ค. ์ผ๋ถ ๋ชจ๋ธ์์๋ extended retention์ ํตํด ์ต๋ 24์๊ฐ ์ ์ฑ ์ ์ฌ์ฉํ ์ ์๋ค. ํนํ ์ต์ ๋ชจ๋ธ๋ค์์๋ `prompt_cache_retention` ์ค์ ์ ์ง์ํ๋ค.
๋ฐ๋ผ์ OpenAI๋ก ๋ฐ๊พผ๋ค๊ณ ์บ์๊ฐ ์๊ตฌ์ ์ผ๋ก ์์์ ์ ์ง๋๋ค๊ณ ๋ณด๋ฉด ์ ๋๋ค. OpenAI๋ ๋ฐ๋ณต prefix๊ฐ ์์ ์ ์ผ๋ก ์ ์ง๋์ด์ผ ํ๊ณ , cache hit ์ฌ๋ถ๋ `cached_tokens` ๋ก ํ์ธํด์ผ ํ๋ค.
ํ์๋ฅผ ์งํํ ์๋ก provider๊ฐ ์์ฃผ ๋ณ๊ฒฝ๋ ๊ฒ์ด ์์๋๋ค ๐ค
๊ทธ๋์ ๋๋ provider๋ณ client๋ฅผ ์๋์ฒ๋ผ ๋ถ๋ฆฌํด๋์๋ค.
LLM_PROVIDER=anthropic
-> Anthropic client
-> cache_control ํฌํจ
-> cache_creation_input_tokens / cache_read_input_tokens ํ์ธ
LLM_PROVIDER=openai
-> OpenAI client
-> cache_control ์์
-> prompt_tokens_details.cached_tokens ํ์ธ
์ด๋ ๊ฒ ๋์ด ์์ผ๋ฉด ๋์ค์ OpenAI๋ก ๋ฐ๊ฟ๋ ์บ์ฑ ๊ตฌ์กฐ๋ฅผ ๋ฏ์ด๊ณ ์น ํ์๋ ์๋ค. provider๋ณ usage ํ๋๋ง ๊ณตํต ๋ก๊ทธ ํ์์ผ๋ก ์ ๋ฆฌํ๋ฉด ๋๋ค.
OpenAI๋ ์บ์๊ฐ ์กฐ์ง ๊ฐ ๊ณต์ ๋์ง๋ ์๋๋ค. ๊ทธ๋ฆฌ๊ณ Claude์ ๋ง์ฐฌ๊ฐ์ง๋ก output token ์์ฑ์๋ ์ํฅ์ ์ฃผ์ง ์๋๋ค.
Prompt Caching์ ๋ฐ๋ณต ์ ๋ ฅ ๋น์ฉ๊ณผ ์ง์ฐ ์๊ฐ์ ์ค์ด๋ ๊ธฐ๋ฅ์ด์ง, ๋ต๋ณ ์์ฑ์ ์๋ตํ๋ ๊ธฐ๋ฅ์ด ์๋๋ค.
๋ ์ผ ํธ์ถ์ ํธ์ถํ์ง ์๋ ๊ฒ
์ฌ์ค ์บ์ฑ๋ณด๋ค ๋ ๊ทผ๋ณธ์ ์ธ ์ต์ ํ๊ฐ ์๋ค..!
์ด๋ฏธ ๊ฐ์ ์ฌ๋ฃ์ ๋ํด ๋ฐํ๋ ์ฑ์ ํ๊ฐ DB์ ์๋ค๋ฉด LLM์ ๋ค์ ๋ถ๋ฅด๋ฉด ์ ๋๋ค.
ํ์ง๋ง ๋จ์ํ ์ฌ๋ฃ ์ด๋ฆ์ด ๊ฐ๋ค๊ณ ์ฌ์ฌ์ฉํ๋ฉด ์ํํ๋ค. ์ฌ์ฌ์ฉ ๊ธฐ์ค์ ๋ช ํํด์ผ ํ๋ค.
(์๋๋ ์ฐ๋ฆฌ ํ๋ก์ ํธ์์ ์ฌ์ฉํ๋ ์ฉ์ด๊ฐ ์์ฌ์์ผ๋ ์ฉ์ด ์ดํด๋ณด๋จ ๋๋๋ง ์ฑ๊ธฐ์!)
- ๊ฐ์ product revision์ธ๊ฐ
- ๊ฐ์ resolved facts์ธ๊ฐ
- ๊ฐ์ ruleset version์ธ๊ฐ
- ๊ฐ์ life stage / size / health issues context์ธ๊ฐ
- ์ด๋ฏธ done ์ํ๋ก ๋ฐํ๋ ์ฑ์ ํ์ธ๊ฐ
์ด ์กฐ๊ฑด์ด ๊ฐ๋ค๋ฉด ๊ธฐ์กด ์ฑ์ ํ๋ฅผ ๋ฐํํ๋ ๊ฒ ๋ง๋ค. ๋น์ฉ๋ ์ค๊ณ , ๊ฒฐ๊ณผ๋ ๋ ์ผ๊ด์ ์ด๋ค.
์ด๊ฑด ๋จ์ ์บ์๊ฐ ์๋๋ผ ์ ํ ์ ์ฑ ์ ํตํ ํ๋จ์ด๋ค. ์ด๋ฏธ ๊ฒ์ฆ๋ ๊ณต์ ์ฑ์ ํ๊ฐ ์๋ค๋ฉด ๋ค์ LLM์๊ฒ ๋ฌธ์ฅ์ ๋งก๊ธธ ์ด์ ๊ฐ ์๋ค.
๊ทธ๋ ๊ธฐ์ ๊ฐ์ฅ ์ผ LLM ํธ์ถ์ ํธ์ถํ์ง ์๋ ๊ฒ์ด๋ค!
์ถ๋ ฅ ๊ธธ์ด๋ฅผ ์ค์ด๋ค๋ ๋ง
์ฒ์์๋ ์ถ๋ ฅ ๊ธธ์ด๋ ๋น์ฉ ์ต์ ํ ํ๋ณด๋ก ๋ดค๋ค. ํ์ง๋ง ์ ์๊ฐํด๋ณด๋ ์๋์๋ค.. ๐ฑ
์ฌ๋ฃ ์ฑ์ ํ๊ฐ ์๋ summary์ 10๊ฐ์ ์นด๋๋ก ๊ตฌ์ฑ๋์ด ์๋ค๋ฉด, ์นด๋ ์๋ฅผ ์ค์ด๋ ๊ฒ์ ๋น์ฉ ์ต์ ํ๊ฐ ์๋๋ค. ์ ํ ์๊ตฌ์ฌํญ์ ๋ฐ๊พธ๋ ๊ฒ์ด๋ค.
๋ง์ฝ ๊ทธ๋ผ์๋ ๋ฌด์ธ๊ฐ๋ฅผ ์ค์ธ๋ค๋ฉด, ์ค์ผ ์ ์๋ ๊ฒ์ ๊ตฌ์กฐ๊ฐ ์๋๋ผ ๊ตฐ๋๋๊ธฐ๋ค.
- JSON ๋ฐ์ ์ค๋ช
- ๋ฐ๋ณต๋๋ ๋ฌธ์ฅ
- ๋ถํ์ํ๊ฒ ๊ธด line1 / line2
- ๋ชจ๋ธ์ด ๋ง๋ถ์ด๋ ์ฌ์กฑ
์ฑ์ ํ์ ํ์์ ์ ์งํด์ผ ํ๋ค. ๊ทธ๋ ๊ธฐ์ ๋๋ ๋ณดํธ์๊ฐ ๊ธฐ๋ํ๋ ๊ฒฐ๊ณผ๋ฌผ์ ๊ทธ๋๋ก ๋๊ณ , ๋ชจ๋ธ์ด ๋ถํ์ํ๊ฒ ๊ธธ๊ฒ ์ฐ์ง ์๋๋ก ์ ํํ๋ ๋ฐฉํฅ์ผ๋ก ์๊ฒฌ์ ๋๋ค. (์์ง ๊ฒฐ๋ก ์ด ๋์ง ์์๋ค!
Haiku๋ก ๋ฐ๊พธ๋ฉด ๋๋
Claude Haiku 4.5๋ Sonnet๋ณด๋ค ์ ๋ ดํ๋ค. Anthropic ๊ณต์ ๊ฐ๊ฒฉํ ๊ธฐ์ค์ผ๋ก Haiku 4.5๋ ์ ๋ ฅ `$1 / 1M tokens`, ์ถ๋ ฅ `$5 / 1M tokens`๋ค. Sonnet 4 ๊ณ์ด์ ์ ๋ ฅ `$3`, ์ถ๋ ฅ `$15`์ ๋น๊ตํ๋ฉด ๊ฐ์ ํ ํฐ ์์์ ์ฝ 1/3 ์์ค์ด๋ค.
ํ์ง๋ง ์๋์ ์ผ๋ก ์ ๋ ดํ๋ Haiku๋ก ๋ฐ๊พธ๊ธฐ์๋ ๋ถ์ํ๋ค ๐
์ฌ๋ฃ ์ฑ์ ํ์ LLM์ ์ฌ์ค์ ํ๋จํ์ง ์์ง๋ง, ๊ทธ๋๋ ์ค์ํ ์ญํ ์ ํ๋ค. ๋ฑ๊ธ์ ๋ฐ๊พธ๋ฉด ์ ๋๊ณ , ๋ด๋ถ ์ฑ์ ์ฉ์ด๋ฅผ ๋ ธ์ถํ๋ฉด ์ ๋๊ณ , ์นผ์ ๋๋ ์ธ ๋๋ฝ์ด๋ ์ฒ๋ฐฉ์ ์๋ด ๊ฐ์ ํ์ ๋ฌธ๊ตฌ๋ฅผ ๋น ๋จ๋ฆฌ๋ฉด ์ ๋๋ค.
๊ทธ๋์ ์ ๋ ดํ ๋ชจ๋ธ์ ์ฐ๋ ค๋ฉด ์๋ ๊ฒ์ฆ์ด ๋จผ์ ์์ด์ผ ํ๋ค.
1. ์ผ๋ฐ ์ผ์ด์ค๋ Haiku ๊ฐ์ ์ ๋ ดํ ๋ชจ๋ธ๋ก ์๋ํ๋ค.
2. ์๋ฒ๊ฐ ์๋ต์ ๊ฒ์ฆํ๋ค.
3. ํต๊ณผํ๋ฉด ์ฌ์ฉํ๋ค.
4. ์คํจํ๋ฉด Sonnet์ผ๋ก ์น๊ฒฉํ๋ค.
5. Sonnet๋ ์คํจํ๋ฉด rule-based copy๋ก fallbackํ๋ค.
์ฌ๊ธฐ์ ์คํจ๋ ์ฌ๋์ด ๊ฐ์ผ๋ก ๋ฌธ์ฅ์ด ๋ณ๋ก๋ค๋ผ๊ณ ํ๋จํ๋ ๊ฒ์ ์๋๋ค.
์๋ฒ๊ฐ ์ต์ํ ์ด๋ฐ ๊ธฐ์ค์ ๋ด์ผ ํ๋ค.
- JSON ํ์ฑ ๊ฐ๋ฅ ์ฌ๋ถ
- summary์ ์นด๋ ๋ฌธ์ฅ ์กด์ฌ ์ฌ๋ถ
- line1 / line2 ๊ธธ์ด ์ ํ
- ๋ด๋ถ ์ฑ์ ์ฉ์ด ๋ ธ์ถ ์ฌ๋ถ
- ํ์ ๊ณ ์ง ๋ฌธ๊ตฌ ์ ์ง ์ฌ๋ถ
- ์ ๋ ฅ์ ์๋ ์ฌ์ค์ด๋ ์ซ์ ์ถ๊ฐ ์ฌ๋ถ
- grade, rule_key, title ๊ฐ์ ์๋ ๊ฒฐ๊ณผ ๋ณ๊ฒฝ ์ฌ๋ถ
๋ชจ๋ธ์ด ์ค์ค๋ก ์ ์ผ๋ค๊ณ ๋งํ๋ ๊ฒ์ ๊ฒ์ฆ์ด ์๋๋ผ๊ณ ๋ณธ๋ค. ๊ฒ์ฆ์ ์ฐ๋ฆฌ์ ์ ํ๋ฆฌ์ผ์ด์ ์ด ํด์ผ ํ๋ค.
๋ด๊ฐ ์ ๋ฆฌํ ์ต์ ํ ์์
์ด๋ฒ ๋น์ฉ ๋ฌธ์ ๋ฅผ ๋ณด๋ฉฐ ์ ๋ฆฌํ ์์๋ ์ด๋ ๋ค.
1. deprecated ๋ชจ๋ธ์ retirement ์ ์ ๊ต์ฒดํ๋ค.
2. ์ด๋ฏธ ๋ฐํ๋ ๋์ผ ์ฌ๋ฃ ์ฑ์ ํ๋ DB์์ ์ฌ์ฌ์ฉํ๋ค.
3. ์ ์ฑ์ ํ๊ฐ ํ์ํ๋ฉด ๊ณ ์ ๊ฐ์ด๋์ ๋ชจ๋ฒ ์์๋ Prompt Caching์ ์ ์ฉํ๋ค.
4. ์บ์ TTL๊ณผ cache hit ๋น์จ์ ๋ก๊ทธ๋ก ํ์ธํ๋ค.
5. ๊ณ ์ ํ๋กฌํํธ ๋ณ๊ฒฝ์ version์ผ๋ก ๊ด๋ฆฌํ๋ค.
6. Claude/OpenAI๋ณ usage ํ๋๋ฅผ ๊ณตํต ๋ฉํธ๋ฆญ์ผ๋ก ์ ๋ฆฌํ๋ค.
7. ๊ฒ์ฆ ๊ท์น์ ํต๊ณผํ๋ ๋ฒ์์์ ์ ๋ ดํ ๋ชจ๋ธ์ ํ ์คํธํ๋ค.
8. ์คํจํ๊ฑฐ๋ ๊ณ ์ํ ์ผ์ด์ค๋ ์์ ๋ชจ๋ธ๋ก ์น๊ฒฉํ๋ค.
9. ๊ทธ๋๋ ์คํจํ๋ฉด rule-based copy๋ก fallbackํ๋ค.
10. ๋ง์ง๋ง์ผ๋ก ํ์ง์ ํด์น์ง ์๋ ๋ฒ์์์ ํ๋กฌํํธ์ ์ถ๋ ฅ ๊ตฐ๋๋๊ธฐ๋ฅผ ์ค์ธ๋ค.
์ด๋ ์ค์ํ ๊ฒ์ ์์๋ค.
deprecated ๋ชจ๋ธ ๊ต์ฒด๋ ์ฅ์ ์๋ฐฉ์ ๊ฐ๊น๊ณ , Prompt Caching์ ๋ฐ๋ณต ์ ๋ ฅ ๋น์ฉ์ ์ค์ด๋ ์ผ์ด๋ค. ๋ ๋ค ํ์ํ์ง๋ง ์๋ก ํด๊ฒฐํ๋ ๋ฌธ์ ๊ฐ ๋ค๋ฅด๋ค.
์ฒ์๋ถํฐ ๊ฐ์ด๋๋ฅผ ์ค์ด๋ฉด ์ฑ์ ํ ํ์ง์ด ํ๋ค๋ฆด ์ ์๋ค. ์ฒ์๋ถํฐ ๋ชจ๋ธ์ ๋ฎ์ถ๋ฉด ํ์ ๊ณ ์ง๋ ๋ฌธ์ฅ ์์ ์ฑ์ด ๊นจ์ง ์ ์๋ค. ๋ฐ๋ฉด Prompt Caching์ ํ๋กฌํํธ ๋ด์ฉ์ ์ ์งํ ์ฑ ๋ฐ๋ณต ์ ๋ ฅ ๋น์ฉ์ ์ค์ธ๋ค.
๊ทธ๋์ ์ฒซ ๋ฒ์งธ ์์ ํ ๋น์ฉ ์ต์ ํ๋ ์บ์ฑ์ด์๋ค.
๋ค๋ง ์บ์ฑ์ ์๊ตฌ ๋ณด๊ด์ด ์๋๋ค. 5๋ถ TTL์ด๋ฉด ์์ฒญ ๊ฐ๊ฒฉ์ด 5๋ถ์ ๋๋ ์๊ฐ cache miss๊ฐ ๋ ์ ์๋ค. ์ด๋ ๋น์ฉ์ด ๋ค์ ํ๋ ๊ฒ์ ๋ฒ๊ทธ๊ฐ ์๋๋ผ ์บ์์ ์๋ช ๋๋ฌธ์ด๋ค. ๊ทธ๋์ ์ด์์์๋ ์บ์ฑ์ ์ผฐ๋ค๊ฐ ์๋๋ผ cache_read_input_tokens๊ฐ ๊พธ์คํ ์กํ๋ค๊น์ง ํ์ธํด์ผ ํ๋ค.
๊ฒฐ๋ก
`$0.06`์ ๋น์ ์ ๊ณผ๊ธ์ด ์๋์๋ค.
์ฌ๋ฃ ์ฑ์ ํ์ ํ์ง์ ๋ง์ถ๊ธฐ ์ํด ๊ธด ๊ณ ์ ๋ฌธ์๋ฅผ ๋งค๋ฒ ๋ฃ๊ณ ์์๊ณ , ๊ทธ ๋ฌธ์๊ฐ ์บ์๋์ง ์์๊ณ , ์ถ๋ ฅ๋ 1์ฒ ํ ํฐ ์ ๋ ์์ฑ๋๊ธฐ ๋๋ฌธ์ ๋์จ ์ ์ ๋น์ฉ์ด์๋ค.
๋์์ deprecated ๋ชจ๋ธ์ ๊ณ์ ์ฐ๊ณ ์๋ค๋ ์ด์ ๋ฆฌ์คํฌ๋ ๋ฐ๊ฒฌํ๋ค. ์ด๊ฑด ๋น์ฉ ์ต์ ํ์๋ ๋ณ๊ฐ๋ก ์ฒ๋ฆฌํด์ผ ํ ๋ฌธ์ ์๋ค. ๊ทธ๋์ ๊ธฐ๋ณธ ๋ชจ๋ธ์ retirement ์ ์ `claude-sonnet-4-6`์ผ๋ก ๋ฐ๊พธ๋ ๊ฒ์ด ๋ง์๋ค.
์ด๋ฒ์ ๋ฐ๋ก Haiku๋ก ๋ฎ์ถ๊ฑฐ๋ ํ๋กฌํํธ๋ฅผ ์ค์ด์ง ์์ ์ด์ ๋ ์ฌ๊ธฐ์ ์๋ค. ๋น์ฉ์ ์ค์ผ ์ ์์ด๋, ์ฑ์ ํ์ ์ ๋ขฐ๊ฐ ํ๋ค๋ฆฌ๋ฉด ์ ํ ์ ์ฅ์์๋ ๋ ํฐ ์ํด๋ค. ๋จผ์ ๊ฐ์ ๊ฒฐ๊ณผ๋ ์ฌ์ฌ์ฉํ๊ณ , ๋ฐ๋ณต๋๋ ๊ธฐ์ค ๋ฌธ์๋ ์บ์ํ๊ณ , cache read๊ฐ ์ค์ ๋ก ์กํ๋์ง ๊ด์ฐฐํ๋ ์ชฝ์ด ๋ ์์ ํ๋ค.
๊ทธ๋ฌ๋ LLM ๋น์ฉ ์ต์ ํ๋ ๋ ์ผ ๋ชจ๋ธ์ ๊ณ ๋ฅด๋ ์ผ๋ก ์์ํ๋ฉด ์๋๋ค! ๋จผ์ ๋ฌด์์ด ๋งค๋ฒ ๋ค์ ์ฝํ๊ณ ์๋์ง ๋ด์ผ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ธ lifecycle์ฒ๋ผ ๊ณง ์ฅ์ ๊ฐ ๋ ์ ์๋ ์ด์ ๋ฆฌ์คํฌ๋ ํจ๊ป ๋ด์ผ ํ๋ค. ๊ทธ๋ค์์ ๋ชจ๋ธ ๊ต์ฒด, ํ๋กฌํํธ ์ถ์, fallback ์ ๋ต์ ๊ฒ์ฆ ๊ท์น ์์์ ๋ค๋ค์ผ ํ๋ค.
๊ทธ ์์๋ฅผ ์งํค๋ฉด ๋น์ฉ์ ์ค์ด๋ฉด์๋ ์ ํ ํ์ง์ ์งํฌ ์ ์๋ค.
์ฐธ๊ณ ๋ฌธ์
<๊ณต์ ๋ฌธ์>
- Anthropic Claude Prompt Caching
- Anthropic Claude Pricing
- Anthropic Model Deprecations
- Anthropic Usage and Cost API
- OpenAI Prompt Caching
- OpenAI API Pricing
<๊ณต์ ๋ธ๋ก๊ทธ์ ๊ณต์ GitHub>
- Anthropic: Prompt caching with Claude
- OpenAI: Prompt Caching in the API
- OpenAI Cookbook: Prompt Caching 101
- Anthropic Claude Cookbooks
<์ปค๋ฎค๋ํฐ์์ ํ์ธํ ํํ ํผ๋ ์ง์ >







