Fitur dasar (apa yang ditawarkan Claude Sonnet 3.5)
- Penalaran kuat & mengikuti instruksi: disetel untuk tugas logis multi-langkah dan tanya jawab dokumen.
- Penggunaan agen & alat: dibangun untuk panggilan alat yang andal dan orkestrasi untuk alur kerja agen (mis. pemilihan alat, koreksi kesalahan). Anthropic menambahkan kapabilitas computer-use versi beta publik yang memungkinkan Claude berinteraksi dengan GUI (kursor, klik, pengetikan) dalam tampilan “flipbook”. Ini bersifat eksperimental namun menonjol untuk mengotomatisasi tugas GUI.
- Kemampuan pemrograman yang kuat: kinerja kompetitif pada HumanEval / SWE-bench (lihat Benchmark).
- Kontrol keamanan & privasi yang dikelola: Anthropic terus menekankan pelatihan berorientasi keamanan dan default yang lebih aman di seluruh model Claude.
Rincian teknis Claude 3.5 Sonnet
- Multimodal: menangani teks + gambar (API visi yang menerima gambar base64 atau URL), termasuk bagan/grafik dan tanya jawab visual.
- Konteks panjang: jendela konteks yang dipublikasikan sebesar ~200k token untuk dokumen panjang dan analisis banyak berkas.
- Penalaran & pemrograman lebih kuat daripada model tingkat-menengah sebelumnya: peningkatan terarah pada tolok ukur berorientasi pengembang (lihat Benchmark).
- Dukungan tooling/agen: Messages API mendukung pola penggunaan alat (eksekusi kode, pengambilan web, agen gaya “computer use”) dan keluaran JSON terstruktur untuk integrasi yang andal.
- Pendekatan pelatihan berfokus pada keamanan: dibangun dengan prinsip Constitutional AI dari Anthropic dan teknik pengaman/klasifikasi tambahan.
Kinerja benchmark Claude 3.5 Sonnet
Benchmark bervariasi menurut gaya prompt, jumlah contoh, dan snapshot model yang tepat. Di bawah ini adalah angka representatif yang banyak dikutip (semua sumber menaut ke vendor atau halaman benchmark publik):
- BIG-Bench-Hard (3-shot CoT / pelaporan Sonnet): ~93,1% — menunjukkan kinerja penalaran multi-langkah yang sangat kuat pada rangkaian BIG-Bench-Hard seperti dilaporkan di daftar vendor/mitra.
- HumanEval (kebenaran kode): ~93–94% (skor HumanEval kelas atas untuk Sonnet dilaporkan dalam materi Anthropic/GitHub Copilot). Ini menempatkan Sonnet di antara yang berkinerja tertinggi pada tes sintesis program standar.
- SWE-bench (agentic coding / penyelesaian isu GitHub, “Verified”): ~49% (Sonnet meningkat secara signifikan dibanding rilis sebelumnya pada tugas SWE-bench Verified). Catatan: SWE-bench berfokus pada penyelesaian isu GitHub dunia nyata dan sensitif terhadap gaya prompt serta lingkungan/alat.
Catatan tentang benchmark: vendor dan evaluator pihak ketiga menggunakan template prompt, pengaturan shot, dan filter evaluasi yang berbeda. Gunakan angka ini sebagai sinyal perbandingan, bukan jaminan absolut untuk tugas produksi tertentu.
Keterbatasan & risiko yang diketahui dari Claude 3.5 Sonnet
- Halusinasi / kesalahan faktual: Sonnet mengurangi beberapa mode kegagalan dibanding model lama, namun masih dapat menghasilkan fakta yang salah atau terhalusinasi, terutama pada fakta yang sangat khusus atau sangat terbaru. Gunakan retrieval/RAG dan verifikasi untuk keluaran berisiko tinggi.
- Fitur eksperimental: kapabilitas computer-use dirilis dalam beta publik dan masih rentan terhadap kesalahan (mengamati layar sebagai flipbook; peristiwa UI yang berumur sangat singkat bisa terlewat). Jangan mengandalkannya untuk operasi GUI yang kritis terhadap keselamatan atau sangat ketat waktunya tanpa pemantauan yang kuat.
- Bias & pagar pengaman keselamatan: Sonnet mewarisi penyetelan berorientasi keamanan Anthropic. Ini mengurangi banyak keluaran tidak aman namun bisa berarti penolakan yang lebih konservatif atau jawaban yang difilter pada kasus ambigu.
- Batas operasional: batas token, rate limit, tingkatan harga, dan ketersediaan regional bervariasi menurut platform (Anthropic langsung, Bedrock, Vertex AI). Kunci versi dan tinjau kuota platform sebelum peluncuran produksi.
Perbandingan dengan GPT-4o dan Claude 4
(Perbandingan bersifat perkiraan dan bergantung pada snapshot yang tepat; angka di bawah merangkum klaim perbandingan publik.)
- vs GPT-4 / GPT-4o (OpenAI): Sonnet sering melaporkan skor lebih tinggi pada penalaran multi-langkah dan kebenaran kode (mis. HumanEval / varian BIG-Bench dalam materi vendor), sementara varian GPT tetap kompetitif pada tugas matematika & chain-of-thought serta tooling (dan mungkin memiliki trade-off latensi/biaya yang berbeda). Perbandingan empiris bervariasi menurut tolok ukur.
- vs Opus / Claude 4 milik Anthropic: Opus / Claude 4 (dan snapshot Sonnet yang lebih baru) dapat melampaui Sonnet pada tugas paling kompleks dan intensif komputasi; Sonnet tetap menarik untuk alur kerja agen dengan keseimbangan biaya/latensi.
Rekomendasi: jalankan uji A/B singkat dan spesifik domain (prompt sama, versi model dikunci) alih-alih hanya bergantung pada papan peringkat publik; utilitas nyata di aplikasi bersifat spesifik tugas.
Contoh kasus produksi representatif
- Automasi agentic: orkestrasi alat, triase tiket, pemanggilan alat terstruktur, dan tugas GUI otomatis (dengan pemantauan).
- Rekayasa perangkat lunak & asistensi kode: pembuatan, transformasi, migrasi kode, peringkasan PR, saran debug — kekuatan Sonnet pada SWE-bench / HumanEval menjadikannya pilihan kuat untuk asisten pengkodean.
- Tanya jawab dokumen & peringkasan: pemahaman konteks yang lebih dalam untuk kontrak, laporan riset, dan dokumen panjang (dipasangkan dengan retrieval).
- Ekstraksi data dari visual: Sonnet telah digunakan untuk mengekstrak/memahami konten bagan/tabel di platform yang mengizinkan input gambar.
Cara mengakses API Claude Sonnet 3.5
Langkah 1: Daftar untuk Kunci API
Masuk ke cometapi.com. Jika Anda belum menjadi pengguna kami, silakan daftar terlebih dahulu. Masuk ke CometAPI console. Dapatkan kunci API kredensial akses antarmuka. Klik “Add Token” pada token API di pusat personal, dapatkan token key: sk-xxxxx dan kirimkan.

Langkah 2: Kirim Permintaan ke Claude Opus 4.1
Pilih endpoint “claude-3-5-sonnet-20241022” untuk mengirim permintaan API dan setel body permintaan. Metode dan body permintaan diperoleh dari dokumen API di situs web kami. Situs kami juga menyediakan pengujian Apifox untuk kenyamanan Anda. Ganti <YOUR_API_KEY> dengan kunci CometAPI Anda yang sebenarnya dari akun Anda. URL dasar menggunakan format [Anthropic Messages] dan [Chat].
Masukkan pertanyaan atau permintaan Anda ke dalam bidang content—itulah yang akan direspons oleh model. Proses respons API untuk mendapatkan jawaban yang dihasilkan.
Langkah 3: Ambil dan Verifikasi Hasil
Proses respons API untuk mendapatkan jawaban yang dihasilkan. Setelah diproses, API merespons dengan status tugas dan data keluaran.