0

Composer 2: Bước Nhảy Lớn Nhất Của Cursor Composer

Đây không phải bản cập nhật tăng dần. Cursor đã thay đổi toàn bộ phương pháp huấn luyện: thay vì chỉ scale reinforcement learning (RL) trên nền model cũ như Composer 1.5, phiên bản mới này thực hiện continued pretraining để xây dựng nền tảng hoàn toàn mới trước khi áp RL lên trên.

Tóm tắt các điểm chính

  • Composer 2 được xây dựng trên nền Kimi K2.5 của Moonshot AI, với khoảng ba phần tư tổng compute đến từ quá trình huấn luyện riêng của Cursor.
  • Trên CursorBench, Composer 2 đạt 61.3 so với 44.2 của Composer 1.5, tức tăng 39%.
  • Composer 2 vượt Claude Opus 4.6 trên Terminal-Bench 2.0 (61.7 so với 58.0) với chi phí đầu vào thấp hơn 90%.
  • GPT-5.4 vẫn dẫn đầu trên Terminal-Bench 2.0 với 75.1 điểm.
  • Composer 2 là model chỉ dành cho lập trình trong Cursor IDE, không thực hiện được bất kỳ tác vụ nào ngoài code.
  • Context window 200.000 token kèm cơ chế self-summarization RL-trained giúp giảm lỗi nén bối cảnh 50%.

Composer 2 là gì và khác gì các phiên bản trước?

Composer 2 là model agentic coding thế hệ thứ ba của Cursor, và là phiên bản đầu tiên trong dòng Composer trải qua continued pretraining (huấn luyện tiếp tục trên nền tảng model gốc).

Các phiên bản trước (Composer 1 và Composer 1.5) chỉ giữ nguyên model nền và scale RL lên trên. Composer 1.5 đã scale RL gấp 20 lần so với Composer 1, đến mức chi phí RL vượt cả chi phí pretraining ban đầu.

Composer 2 phá vỡ giới hạn này bằng cách:

  • Thực hiện continued pretraining trên dữ liệu lập trình đặc thù với base model Kimi K2.5 của Moonshot AI.
  • Sau đó áp dụng RL với quy mô tăng gấp 4 lần.

Hạ tầng huấn luyện sử dụng PyTorch + Ray, custom MXFP8 quantization cho NVIDIA Blackwell GPUs, và inference được xử lý bởi Fireworks AI.

Bảng so sánh các phiên bản Composer

Model Ngày ra mắt Điểm khác biệt chính
Composer 1 29/10/2025 Model in-house đầu tiên, kiến trúc MoE + RL
Composer 1.5 09/02/2026 Scale RL gấp 20 lần, giới thiệu self-summarization
Composer 2 19/03/2026 Continued pretraining tạo nền mới, RL gấp 4x, giá rẻ hơn 86%

Composer 2 đạt điểm Benchmark bao nhiêu và cải thiện thế nào?

Composer 2 đạt:

  • CursorBench: 61.3 (tăng 39% so với 1.5)
  • Terminal-Bench 2.0: 61.7 (tăng 29%)
  • SWE-bench Multilingual: 73.7 (tăng 12%)

Bảng benchmark chi tiết

Benchmark Composer 1 Composer 1.5 Composer 2
CursorBench 38.0 44.2 61.3
Terminal-Bench 2.0 40.0 47.9 61.7
SWE-bench Multilingual 56.9 65.9 73.7

Lưu ý: CursorBench là benchmark nội bộ, không thể tái hiện độc lập. Terminal-Bench 2.0 sử dụng framework Harbor của Cursor.

Benchmark results across Composer versions

Composer 2 so sánh với Claude Opus 4.6 và GPT-5.4

Benchmark Composer 2 Claude Opus 4.6 GPT-5.4
CursorBench 61.3 ~58.2 ~63.9
Terminal-Bench 2.0 61.7 58.0 75.1
SWE-bench Verified Không báo cáo ~80.8% ~80.0%

Composer 2 vượt Claude Opus 4.6 trên Terminal-Bench 2.0 nhưng vẫn thua GPT-5.4 một khoảng cách đáng kể (13 điểm).

So sánh giá cả (per 1M tokens)

Model Input Output
Composer 2 Standard $0.50 $2.50
Composer 2 Fast $1.50 $7.50
Claude Opus 4.6 $5.00 $25.00
GPT-5.4 $2.50 $15.00

→ Composer 2 Standard rẻ hơn Claude Opus 4.6 khoảng 90% và rẻ hơn GPT-5.4 khoảng 80% về input token.

Pricing comparison of Composer 2

Điểm khác biệt kỹ thuật nổi bật

  • Kiến trúc: Mixture-of-Experts (MoE) → inference nhanh dù tham số lớn.
  • Self-summarization RL-trained: Khi context đạt 200.000 token, model tự nén xuống ~1.000 token. Cơ chế này được huấn luyện trực tiếp trong reward function, giảm 50% lỗi nén và tiết kiệm token đáng kể.
  • Context window: 200.000 token.

Hai biến thể của Composer 2

Biến thể Input Cache Read Output Khuyến nghị sử dụng
Standard $0.50 $0.20 $2.50 Tác vụ nền, refactor lớn, chạy qua đêm
Fast (mặc định) $1.50 $0.35 $7.50 Code tương tác thời gian thực

Mẹo thực tế: Dùng Fast khi đang code trực tiếp, chuyển sang Standard cho công việc hàng loạt để tiết kiệm credit.

Composer 2 so với Claude Code và GitHub Copilot

Composer 2 cạnh tranh ở tầng sản phẩm (trong IDE) hơn là model thuần.
Nhiều developer hiện dùng kết hợp:

  • Cursor (Composer 2) → chỉnh sửa file đa file trong IDE
  • Claude Code → tác vụ tự động phức tạp
  • GitHub Copilot → hỗ trợ cơ bản hàng ngày

Giới hạn của Composer 2

  • Chỉ làm code: Không thực hiện bất kỳ tác vụ nào ngoài lập trình.
  • Chỉ hoạt động bên trong Cursor IDE.
  • Đôi khi bỏ qua bước kiểm tra trung gian trong kế hoạch dài.
  • Vấn đề file watcher trên macOS với monorepo lớn (bỏ qua .gitignore).

Kết luận

Composer 2 là bước nhảy benchmark lớn nhất trong lịch sử dòng Cursor Composer, kết hợp với mức giá cực kỳ cạnh tranh. Model mang lại hiệu suất vượt trội Claude Opus 4.6 trên một số benchmark coding với chi phí chỉ bằng 1/10, dù vẫn chưa đuổi kịp GPT-5.4.

Với developer làm việc chủ yếu trong IDE, Composer 2 Standard hiện là lựa chọn rất hợp lý về hiệu suất/giá cả. Tuy nhiên, vẫn nên kết hợp với các model đa năng (Claude, GPT) cho workflow hoàn chỉnh.


Nguồn: Infinity News - tạp chí trực tuyến đa chuyên mục tập trung vào khoa học, công nghệ, thị trường và đời sống — cung cấp tin tức cập nhật, phân tích chuyên sâu và bài viết hướng dẫn thực tiễn.


All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí