Tính năng cơ bản (Claude Sonnet 3.5 mang đến cho bạn)
- Lý luận mạnh mẽ & tuân thủ hướng dẫn: được tinh chỉnh cho các tác vụ logic nhiều bước và Hỏi & Đáp tài liệu.
- Sử dụng tác nhân & công cụ: xây dựng để gọi công cụ và điều phối quy trình tác nhân một cách vững chắc (ví dụ: chọn công cụ, sửa lỗi). Anthropic đã bổ sung năng lực “computer-use” bản beta công khai cho phép Claude tương tác với GUI (con trỏ, nhấp, nhập) ở chế độ xem “flipbook”. Đây là tính năng thử nghiệm nhưng đáng chú ý để tự động hóa tác vụ GUI.
- Năng lực lập trình mạnh: hiệu suất cạnh tranh trên HumanEval / SWE-bench (xem Benchmark).
- Kiểm soát an toàn & quyền riêng tư được quản lý: Anthropic tiếp tục nhấn mạnh đào tạo ưu tiên an toàn và mặc định an toàn hơn trên các mô hình Claude.
Chi tiết kỹ thuật của Claude 3.5 Sonnet
- Đa phương thức: xử lý văn bản + hình ảnh (API thị giác chấp nhận hình ảnh base64 hoặc URL), bao gồm biểu đồ/đồ thị và hỏi đáp thị giác.
- Ngữ cảnh dài: cửa sổ ngữ cảnh đã công bố khoảng ~200k tokens cho tài liệu dài và phân tích đa tệp.
- Lý luận & lập trình mạnh hơn so với bản tầm trung trước: cải thiện có mục tiêu trên các benchmark hướng nhà phát triển (xem Benchmark).
- Hỗ trợ công cụ/tác nhân: Messages API hỗ trợ mẫu sử dụng công cụ (thực thi mã, web-fetch, tác nhân kiểu “computer use”) và đầu ra JSON có cấu trúc cho tích hợp vững chắc.
- Cách tiếp cận đào tạo ưu tiên an toàn: xây dựng theo nguyên tắc Constitutional AI của Anthropic và các kỹ thuật phân loại/bảo vệ bổ sung.
Hiệu suất benchmark của Claude 3.5 Sonnet
Benchmark thay đổi theo kiểu prompt, số ví dụ và ảnh chụp mô hình cụ thể. Dưới đây là các con số đại diện, thường được trích dẫn công khai (mọi nguồn liên kết đến nhà cung cấp hoặc trang benchmark công khai):
- BIG-Bench-Hard (3-shot CoT / báo cáo của Sonnet): khoảng ~93.1% — cho thấy khả năng lý luận nhiều bước rất mạnh trên bộ BIG-Bench-Hard như được báo cáo trong danh sách của nhà cung cấp/đối tác.
- HumanEval (độ đúng mã): ~93–94% (điểm HumanEval hàng đầu được báo cáo cho Sonnet trong tài liệu của Anthropic/GitHub Copilot). Điều này đặt Sonnet vào nhóm hiệu suất cao nhất trên các bài kiểm tra tổng hợp chương trình tiêu chuẩn.
- SWE-bench (lập trình tác nhân / giải quyết issue trên GitHub, “Verified”): ~49% (Sonnet cải thiện đáng kể so với các bản phát hành trước trên tác vụ SWE-bench Verified). Lưu ý: SWE-bench tập trung vào giải quyết issue GitHub thực tế và nhạy với kiểu prompt cũng như môi trường/công cụ.
Lưu ý về benchmark: nhà cung cấp và bên thứ ba sử dụng các mẫu prompt, thiết lập số ví dụ và bộ lọc đánh giá khác nhau. Hãy coi các con số này là tín hiệu so sánh thay vì bảo chứng tuyệt đối cho các tình huống sản xuất cụ thể.
Hạn chế & rủi ro đã biết của Claude 3.5 Sonnet
- Ảo giác / sai sót thực tế: Sonnet giảm một số kiểu lỗi so với các mô hình cũ hơn nhưng vẫn có thể tạo ra thông tin sai hoặc bịa đặt, đặc biệt trên các sự kiện ngách hoặc cực kỳ mới. Hãy dùng truy xuất/RAG và xác minh cho đầu ra rủi ro cao.
- Tính năng thử nghiệm: năng lực “computer-use” phát hành beta công khai và vẫn dễ lỗi (quan sát màn hình như dạng flipbook; sự kiện UI ngắn có thể bị bỏ lỡ). Không nên dựa vào cho vận hành an toàn hoặc thao tác GUI nhạy thời gian nếu thiếu giám sát chặt chẽ.
- Thiên lệch & hàng rào an toàn: Sonnet thừa hưởng tinh chỉnh theo định hướng an toàn của Anthropic. Điều này giảm nhiều đầu ra không an toàn nhưng có thể dẫn đến từ chối mang tính thận trọng hoặc lọc trong trường hợp mơ hồ.
- Giới hạn vận hành: giới hạn token, hạn mức tốc độ, tầng giá và phạm vi khu vực khác nhau giữa các nền tảng (Anthropic trực tiếp, Bedrock, Vertex AI). Hãy ghim phiên bản và rà soát hạn mức nền tảng trước khi triển khai sản xuất.
So sánh với gpt 4o và Claude 4
(So sánh là xấp xỉ và phụ thuộc vào ảnh chụp mô hình cụ thể; các con số dưới đây tóm lược tuyên bố so sánh công khai.)
- so với GPT-4 / GPT-4o (OpenAI): Sonnet thường báo cáo điểm cao hơn trên các benchmark lý luận nhiều bước và độ đúng mã (ví dụ: HumanEval / biến thể BIG-Bench trong tài liệu nhà cung cấp), trong khi các biến thể GPT vẫn cạnh tranh ở toán học & chuỗi suy luận và về công cụ (với các đánh đổi độ trễ/chi phí khác nhau). So sánh thực nghiệm thay đổi theo benchmark.
- so với chính Anthropic Opus / Claude 4: Opus / Claude 4 (và các ảnh chụp Sonnet sau này) có thể vượt Sonnet ở tác vụ phức tạp nhất, đòi hỏi tính toán; Sonnet vẫn hấp dẫn cho quy trình tác nhân cần cân bằng chi phí/độ trễ.
Khuyến nghị: chạy các thử nghiệm A/B ngắn, theo miền (cùng prompt, ghim phiên bản mô hình) thay vì chỉ dựa vào bảng xếp hạng công khai; tính hữu dụng thực tế phụ thuộc vào tác vụ.
Trường hợp sử dụng tiêu biểu trong sản xuất
- Tự động hóa dựa trên tác nhân: điều phối công cụ, phân loại ticket, gọi công cụ có cấu trúc và tự động hóa GUI (có giám sát).
- Kỹ nghệ phần mềm & trợ lý mã: sinh mã, chuyển đổi, di trú, tóm tắt PR, gợi ý gỡ lỗi — sức mạnh SWE-bench / HumanEval khiến Sonnet phù hợp cho trợ lý lập trình.
- Hỏi & Đáp tài liệu & tóm tắt: hiểu ngữ cảnh sâu cho hợp đồng, báo cáo nghiên cứu và tài liệu dài (kết hợp truy xuất).
- Trích xuất dữ liệu từ hình ảnh: Sonnet được dùng để trích xuất/hiểu nội dung biểu đồ/bảng khi nền tảng cho phép nhập hình ảnh.
Cách truy cập API Claude Sonnet 3.5
Bước 1: Đăng ký khóa API
Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào bảng điều khiển CometAPI. Lấy khóa API thông tin xác thực truy cập của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, nhận khóa token: sk-xxxxx và gửi.

Bước 2: Gửi yêu cầu đến Claude Opus 4.1
Chọn endpoint “claude-3-5-sonnet-20241022” để gửi yêu cầu API và thiết lập phần thân yêu cầu. Phương thức và phần thân yêu cầu lấy từ tài liệu API trên trang web của chúng tôi. Trang web của chúng tôi cũng cung cấp Apifox test để bạn tiện thử nghiệm. Thay thế <YOUR_API_KEY> bằng CometAPI key thực tế từ tài khoản của bạn. base url là định dạng Anthropic Messages và định dạng Chat.
Chèn câu hỏi hoặc yêu cầu của bạn vào trường content — đây là những gì mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.
Bước 3: Truy xuất và xác minh kết quả
Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API sẽ phản hồi trạng thái tác vụ và dữ liệu đầu ra.