Model, penggunaan, dan batas dalam Claude Code

Panduan ini menjelaskan model mana yang Anda gunakan, bagaimana penggunaan diukur, dan cara menjaga sesi panjang tetap dalam batas konteks dan penggunaan mereka.

Bagaimana penggunaan diukur

Cara Anda masuk menentukan bagaimana penggunaan diukur. Semua hal lain tentang Claude Code berperilaku sama terlepas dari itu.

Anda masuk dengan…	Anda mendapatkan	Seperti apa "kehabisan" itu
Kursi Claude Enterprise (melalui `/login`)	Kumpulan penggunaan yang disertakan dalam paket organisasi Anda, direset pada jendela bergulir.	Pesan "batas tercapai, direset pada waktu".
Kunci API (Console, Bedrock, Vertex, atau Microsoft Foundry)	Bayar sesuai penggunaan, ditagih per token ke akun cloud atau Console tersebut.	Tidak ada pemberhentian keras; akun dikenakan biaya untuk apa yang digunakannya.

Jika Anda masuk dengan kursi Enterprise, Anda umumnya tidak perlu memikirkan token sampai Anda mencapai batas. Jika Anda menggunakan kunci API, perintah /cost menampilkan pengeluaran berjalan Anda untuk sesi saat ini.

Memilih model

Jalankan /model kapan saja untuk melihat model mana yang tersedia untuk akun Anda dan untuk beralih di antara mereka. Sebagai panduan kasar:

Sonnet adalah default dan merupakan pilihan yang tepat untuk sebagian besar pekerjaan pengkodean. Cepat, mampu, dan hemat biaya.
Opus menawarkan penalaran yang lebih dalam untuk masalah yang lebih sulit seperti refaktor lintas-potong besar, debugging yang sulit, atau keputusan arsitektur. Ini menggunakan kuota Anda secara bermakna lebih banyak, jadi beralih ke itu ketika Anda membutuhkannya daripada membiarkannya aktif secara default.
Haiku adalah opsi tercepat dan termurah, cocok untuk pencarian cepat, pengeditan sederhana, atau jalankan skrip volume tinggi.

Anda dapat mengubah model di tengah sesi tanpa kehilangan percakapan Anda. Pola umum adalah merencanakan dengan Opus dan mengeksekusi dengan Sonnet.

Catatan: Nama model yang tepat, versi, dan ketersediaan berubah seiring waktu. Perintah /model selalu merupakan sumber kebenaran untuk akun Anda.

Apa yang benar-benar mengonsumsi token

Setiap giliran mengirimkan tiga hal ke model:

Percakapan sejauh ini — setiap pesan sebelumnya dalam sesi ini.
Konteks proyek — CLAUDE.md Anda dan file apa pun yang telah dibaca Claude.
Prompt baru Anda.

Dari ini, item pertama tumbuh paling cepat. Sesi debugging panjang di mana Claude telah membaca dua puluh file dan menghasilkan lima belas diff membawa semua itu pada setiap pesan berikutnya. Di sinilah asal biaya dan batas konteks.

Mengelola jendela konteks

Jendela konteks adalah jumlah maksimum teks yang dapat dipertimbangkan model sekaligus. Claude Code menampilkan indikator langsung tentang seberapa penuh itu. Ketika penuh, Claude tidak lagi dapat melihat bagian percakapan tertua dengan jelas dan kualitas menurun.

Dua perintah menjaganya tetap terkontrol:

/clear menghapus percakapan dan memulai dari awal. CLAUDE.md dan file proyek Anda tetap tersedia; hanya riwayat obrolan yang dihapus. Gunakan ini kapan pun Anda beralih tugas, karena ini adalah tuas paling efektif untuk kualitas dan biaya.
/compact merangkum percakapan sejauh ini menjadi ringkasan singkat, membebaskan ruang sambil mempertahankan konteks penting. Gunakan ini ketika Anda sedang menjalankan tugas dan perlu terus melanjutkan. Claude Code juga auto-compact ketika Anda mendekati batas, jadi Anda jarang mencapai dinding keras.

Aturan praktis: gunakan /clear saat memulai tugas baru, dan /compact saat melanjutkan tugas yang panjang.

Lima kebiasaan yang meregangkan penggunaan Anda paling jauh

Hampir setiap laporan "Saya menghabiskan batas saya pada siang hari" dapat dilacak kembali ke salah satu dari lima ini.

1. Bersihkan antar tugas

Setiap pesan sebelumnya dikirim ulang pada setiap giliran, jadi sesi yang telah berkelana melalui tiga masalah yang tidak terkait membayar untuk ketiga-tiganya pada setiap pesan baru.

Dalam praktik: Anda baru saja selesai men-debug pengalihan login dan sekarang ingin menulis migrasi database. Jalankan /clear terlebih dahulu. Tes sederhana: jika prompt berikutnya Anda akan masuk akal sempurna di terminal baru, bersihkan sebelum mengirimnya. CLAUDE.md dan file proyek Anda tetap ada; hanya riwayat obrolan yang hilang.

Satu peringatan: /clear tidak dapat dibatalkan. Jika Anda mungkin masih membutuhkan sesuatu dari riwayat, salin terlebih dahulu atau jalankan /compact sebagai gantinya, yang mempertahankan ringkasan daripada menghapus semuanya.

2. Cocokkan model dengan pekerjaan

Opus biaya beberapa kali lebih banyak per giliran daripada Sonnet, dan Sonnet lebih dari Haiku. Menghabiskan Opus untuk pekerjaan rutin adalah cara tercepat untuk menguras batas harian.

Default yang masuk akal: Sonnet untuk sebagian besar pengkodean (fitur, tes, bug yang diketahui, refaktor); Opus ketika Anda benar-benar terjebak atau perubahannya luas (debugging sulit, refaktor lintas-potong, panggilan arsitektur); Haiku untuk pekerjaan mekanis cepat (rename, baris log, penjelasan regex, boilerplate).

3. Tunjuk ke file daripada menempel mereka

Apa pun yang Anda tempel duduk dalam konteks, sepenuhnya, untuk sisa sesi. Mereferensikan file berdasarkan jalur memungkinkan Claude membaca secara selektif dan fokus pada bagian yang Anda pedulikan.

Dalam praktik: alih-alih menempel auth.ts, tulis lihat fungsi validateToken di src/auth.ts — menyebutkan jalur memungkinkan Claude membuka dan membaca secara selektif. (Perhatikan bahwa awalan @ menyuntikkan seluruh file ditambah pohon CLAUDE.md ke dalam konteks, jadi gunakan jalur kosong ketika Anda mencoba menghemat token.) Untuk log dan stack trace, potong hingga 20 atau 30 baris yang relevan sebelum menempel. Untuk apa pun yang besar (lockfile, log build, dump data), letakkan di disk dan referensikan jalurnya.

4. Jaga CLAUDE.md tetap ramping

File ini ditambahkan di awal setiap giliran. Prompt caching berarti giliran setelah yang pertama ditagih dengan tarif baca-cache yang jauh lebih murah, jadi biaya dolar lebih rendah daripada jumlah baris mentah yang disarankan, tetapi masih menempati ruang jendela konteks pada setiap pesan.

Aturannya: dua kali, jaga tetap ketat. Hanya tambahkan catatan kedua kalinya Anda harus mengoreksi Claude pada hal yang sama (masalah pertama kali biasanya satu kali). Jaga file di bawah kira-kira 200 baris; jika sesuatu yang baru perlu masuk dan tidak ada ruang, sesuatu yang lama harus keluar.

Kapan memperbarui: tepat setelah sesi di mana Anda harus mengoreksi Claude dua kali pada hal yang sama. Itulah ketika perbaikan segar dan membutuhkan waktu semenit untuk ditulis. Setiap beberapa minggu, baca seluruh file dan hapus apa pun yang tidak lagi benar atau yang tujuannya tidak dapat Anda ingat. Catatan basi lebih buruk daripada catatan yang hilang karena mereka secara aktif menyesatkan Claude.

5. Minta rencana sebelum perubahan besar

Rencana biaya beberapa ratus token. Diff 400 baris yang salah yang Anda kembalikan dan hasilkan ulang biaya ribuan, dua kali, ditambah giliran yang dihabiskan menjelaskan apa yang salah. Dalam praktik: untuk apa pun yang menyentuh lebih dari dua atau tiga file, beralih ke Mode Rencana atau cukup tanya: "Sebelum mengubah apa pun, daftarkan file yang akan Anda sentuh dan apa yang akan Anda lakukan di masing-masing." Baca daftarnya, koreksi dalam bahasa Inggris biasa ("lewati legacy/, dan jangan sentuh tes dulu"), lalu biarkan itu dieksekusi.

Pro tip: rencanakan dengan Opus, jalankan dengan Sonnet. Penggunaan Opus dengan nilai tertinggi adalah menulis rencana itu sendiri, di mana penalaran yang lebih dalam benar-benar membayar. Setelah rencana yang baik ada, eksekusi sebagian besar mekanis dan Sonnet menanganinya dengan sebagian kecil dari biayanya. Pola ini dibangun sebagai /model opusplan, yang menggunakan Opus saat merencanakan dan Sonnet untuk eksekusi. Beralih model tidak menghapus percakapan, jadi Sonnet masih melihat semua yang dihasilkan Opus.

Apa yang harus dilakukan ketika Anda mencapai batas

Pengguna kursi Enterprise: pesan memberi tahu Anda kapan jendela Anda direset. Sementara itu Anda dapat beralih ke model yang lebih ringan dengan /model, atau, jika organisasi Anda mengizinkannya, sementara kembali ke kunci API.
Pengguna kunci API: tidak ada batas penggunaan, tetapi periksa /cost dan dasbor Console atau penyedia cloud Anda jika pengeluaran menjadi perhatian. Angka yang tidak terduga hampir selalu dapat dilacak kembali ke sesi yang sangat panjang yang tidak pernah dihapus.
Jendela konteks penuh (yang berbeda dari batas penggunaan): jalankan /compact untuk terus melanjutkan, atau /clear jika riwayat yang lebih lama tidak lagi diperlukan.

Referensi cepat

Perintah	Apa yang dilakukannya
`/model`	Lihat dan alihkan model yang tersedia.
`/cost`	Tampilkan penggunaan token dan dolar sesi ini (penagihan API).
`/clear`	Mulai percakapan segar (memori proyek tetap).
`/compact`	Ringkas riwayat untuk membebaskan konteks.
`/context`	Periksa apa yang saat ini dimuat ke dalam konteks.