+2

Claude Opus 4.7: Phiên bản flagship mới nhất của Anthropic

Anthropic phát hành Claude Opus 4.7, phiên bản flagship mới nhất với cải tiến về khả năng tự chủ trong lập trình và xử lý tác vụ dài hạn. Opus 4.7 dẫn đầu SWE-bench Pro với 64.3% so với GPT-5.4 ở mức 57.7%, cải thiện khả năng thị giác lên 86.6% trong CharXiv benchmark, và hỗ trợ hình ảnh độ phân giải cao tới 3.75 megapixels.


Tóm tắt các điểm chính

  • Claude Opus 4.7 cải thiện 10.9 điểm phần trăm trên SWE-bench Pro so với Opus 4.6, đạt 64.3% vượt GPT-5.4 và Gemini 3.1 Pro
  • Hỗ trợ hình ảnh tới 3.75 megapixels, gấp 3 lần phiên bản cũ, đạt 86.6% trong CharXiv benchmark thị giác
  • Mythos Preview nội bộ Anthropic đạt 77.8% SWE-bench Pro và 93.9% SWE-bench Verified nhưng chưa phát hành rộng rãi
  • Giá không đổi so với Opus 4.6: 5 USD cho 1 triệu input tokens, 25 USD cho 1 triệu output tokens
  • Thêm mức effort mới xhigh, lệnh /ultrareview trong Claude Code và task budgets trên API

Claude Opus 4.7 là gì?

Claude Opus 4.7 là mô hình ngôn ngữ lớn flagship mới nhất của Anthropic, đứng đầu họ model Claude phía trên Sonnet và Haiku. Opus 4.7 kế thừa Claude Opus 4.6 và được thiết kế cho các tác vụ đòi hỏi cao nhất, chẳng hạn như quy trình công việc tự động phức tạp và tác vụ suy luận nhiều bước yêu cầu hiệu năng bền vững qua các phiên làm việc dài.

Benchmarks Claude Opus 4.7

So với Opus 4.6, phiên bản 4.7 tập trung vào ba lĩnh vực:

  • Lập trình tự động mạnh hơn
  • Cải thiện suy luận thị giác
  • Hiệu năng tốt hơn khi sử dụng công cụ ở quy mô lớn

Mythos Preview nội bộ của Anthropic dẫn đầu trên nhiều benchmarks, nhưng không được phát hành rộng rãi. Opus 4.7 về cơ bản là một model anh em được huấn luyện với khả năng an ninh mạng được giảm cố ý.


Có gì mới với Claude Opus 4.7?

Tuân thủ lệnh được cải thiện như thế nào?

Opus 4.7 tuân thủ lệnh chặt chẽ hơn các models trước đó. Đây là tính năng hữu ích cho bất kỳ quy trình công việc nào phụ thuộc vào độ tin cậy, nhưng cũng có thể có hậu quả ngoài ý muốn. Anthropic kêu gọi người dùng điều chỉnh lại prompts và harnesses của họ, vì các lệnh mà models trước đó bỏ qua hoặc diễn giải lỏng lẻo giờ sẽ được hiểu theo nghĩa đen.

Hỗ trợ đa phương thức được nâng cấp ra sao?

Khả năng xử lý hình ảnh độ phân giải cao được cải thiện để hỗ trợ hình ảnh lên tới 3.75 megapixels, cao hơn ba lần so với các models cũ. Các tác nhân sử dụng máy tính và quy trình trích xuất dữ liệu có thể hưởng lợi lớn từ mức độ chi tiết tăng lên này, vì chúng phụ thuộc vào khả năng đọc và độ chính xác, đôi khi lên tới mức pixel.

Bộ nhớ được cải thiện như thế nào?

Opus 4.7 tốt hơn trong bộ nhớ dựa trên hệ thống file — một pattern nơi model ghi ghi chú vào files khi làm việc và đọc lại chúng trong các lần chạy tương lai.

Claude Code là setting rõ ràng cho điều này: một file CLAUDE.md ở root của dự án mà Claude đọc khi phiên bắt đầu, cập nhật khi các quyết định được đưa ra và sử dụng khi bạn quay lại làm việc.

Điểm chính thực sự: Nếu bạn đang sử dụng Opus 4.7 cho công việc nhiều phiên, hãy để nó giữ ghi chú. Model sẽ làm tốt công việc đó hơn Opus 4.6.


Benchmarks Claude Opus 4.7 như thế nào?

Lập trình tự động cải thiện bao nhiêu?

Trên SWE-bench Pro, Opus 4.7 đạt điểm 64.3%, vượt:

  • GPT-5.4: 57.7%
  • Gemini 3.1 Pro: 54.2%
  • Opus 4.6: 53.4%

Trên SWE-bench Verified, Opus 4.7 đạt 87.6% so với Gemini 3.1 Pro ở 80.6% và Opus 4.6 ở 80.8%.

Coding Benchmark

SWE-bench kiểm tra khả năng của model để giải quyết các vấn đề GitHub thực tế trong các kho Python mã nguồn mở. Mức tăng 10.9 điểm so với Opus 4.6 trên SWE-bench Pro là cải thiện lớn nhất trong phiên bản này.

Chỉ Mythos Preview nội bộ của Anthropic đạt điểm 77.8% trên SWE-bench Pro và 93.9% trên SWE-bench Verified — cho thấy vẫn còn headroom phía trên Opus 4.7. Tuy nhiên, Mythos không được phát hành rộng rãi, vì vậy cho sử dụng sản xuất, Opus 4.7 là trần hiện tại.

Trên Terminal-Bench 2.0, Opus 4.7 cải thiện nhẹ so với phiên bản trước (69.4% vs 65.4%) và vượt qua Gemini 3.1 Pro với điểm 68.5%. Tuy nhiên, GPT-5.4 dẫn đầu benchmark này với 75.1%.

Suy luận được cải thiện như thế nào?

Trong Humanity's Last Exam — bộ câu hỏi cấp sau đại học về khoa học, toán học và nhân văn — Opus 4.7 dẫn đầu biến thể no-tools. Khoảng cách with-tools ủng hộ GPT-5.4 (58.7%) so với Opus 4.7 (54.7%) là lĩnh vực rõ ràng nhất nơi Opus 4.7 không dẫn đầu.

Biology Benchmark

Điểm nhấn đặc biệt trong lĩnh vực sinh học: bước nhảy giữa Opus 4.6 (30.9%) và Opus 4.7 (74.0%) là cực kỳ đáng chú ý.

Suy luận thị giác cải thiện bao nhiêu?

Trong CharXiv benchmark — đo suy luận thị giác về biểu đồ và hình ảnh khoa học — Opus 4.7 đạt 86.6%, với cải thiện 13 điểm no-tools là mức tăng tương đối lớn nhất trong phiên bản này.

Vision Benchmark

Hỗ trợ hình ảnh độ phân giải cao hơn có khả năng là một trong những lý do chính cho cải thiện này. Điểm số Screenspot-Pro ở các độ phân giải khác nhau cho thấy sự tăng độ chính xác khổng lồ, đặc biệt không có tool use (79.5% vs 69.0%).

Sử dụng công cụ và máy tính tự động như thế nào?

  • MCP-Atlas: Opus 4.7 đạt 77.3%, cao nhất trong so sánh (chỉ Muse Spark nhỉnh hơn với 78.3%)
  • OSWorld: Opus 4.7 đạt 78.0%, tăng từ 72.7% trong Opus 4.6, vượt GPT-5.4 ở 75.0%

Đây là lĩnh vực Opus 4.7 xuất sắc rõ rệt — dẫn đầu cả MCP-Atlas và OSWorld-Verified với khoảng cách đáng kể so với flagship cạnh tranh từ Google và OpenAI.

Phân tích tài chính được cải thiện ra sao?

Opus 4.7 dẫn đầu Finance Agent v1.1 leaderboard với 64.4%, vượt đáng kể GPT-5.4 (61.5%) và Gemini 3.1 Pro (59.7%).

Long-term Coherence

Trong Vending-Bench 2, Opus 4.7 trung bình kết thúc với 10,937 USD so với 8,018 USD với Opus 4.6 — kết quả cho thấy model tốt hơn đáng kể trong các tác vụ liên quan đến tiền bạc.


Truy cập Claude Opus 4.7 như thế nào?

Opus 4.7 hiện khả dụng trong:

  • Tất cả sản phẩm Claude
  • Claude API (claude-opus-4-7)
  • Amazon Bedrock
  • Vertex AI
  • Microsoft Foundry

Giá Claude Opus 4.7 là bao nhiêu?

Giá giữ nguyên so với Opus 4.6:

  • 5 USD cho mỗi triệu input tokens
  • 25 USD cho mỗi triệu output tokens

Không có tăng giá giữa Opus 4.6 và Opus 4.7. Lưu ý: Opus tốn khoảng 5 lần Sonnet cho mỗi token vì mỗi tin nhắn bao gồm toàn bộ lịch sử cuộc trò chuyện.


So sánh Claude Opus 4.7 vs GPT-5.4

Điểm chính: Opus 4.7 tối ưu hóa cho tự chủ tầm xa. GPT-5.4 là một model đa năng thống nhất với hỗ trợ công cụ rộng hơn và giá ngắn hạn rẻ hơn.

Claude Opus 4.7 GPT-5.4
Tốt nhất ở Lập trình chạy dài, sử dụng máy tính desktop, thị giác dày đặc Nghiên cứu trình duyệt, tác vụ ngữ cảnh ngắn, steering giữa phản hồi
SWE-bench Pro 64.3% 57.7%
BrowseComp 79.3% 89.3%
Giá Tỷ lệ cố định trên 1M context Rẻ hơn dưới 272K, định giá lại toàn bộ phiên trên
Context window ~1M tokens ~1M tokens

Người dùng nói gì về Claude Opus 4.7?

Một số người dùng báo cáo rằng pipelines của họ đang hoạt động sai vì Opus 4.7 đang tuân theo lệnh theo nghĩa đen hơn trước. Anthropic đã cảnh báo về nhu cầu điều chỉnh lại prompts.

Người dùng khác quan tâm về sử dụng token. Anthropic đã nâng giới hạn tỷ lệ cho tất cả người dùng để tính đến việc sử dụng token cao hơn, nhưng không hoàn toàn rõ ràng liệu đó có phải là một offset thực sự hay không.


Kết luận

Claude Opus 4.7 là model có khả năng nhất mà hầu hết mọi người thực sự có thể sử dụng ngay bây giờ. Các cải tiến đều chỉ vào cùng một hướng: công việc tác nhân chạy dài hơn, ít giám sát hơn — với lập trình mạnh hơn, thị giác sắc nét hơn và bộ nhớ cross-session tốt hơn hỗ trợ điều đó.

Điều làm cho phiên bản này thú vị là framing Mythos. Opus 4.7 là một test vehicle bị ràng buộc an ninh mạng trên con đường đến phiên bản Mythos-class rộng hơn — có nghĩa là giờ có một trần rõ ràng phía trên nó bạn không thể truy cập, nhưng cũng rằng các biện pháp bảo vệ vận chuyển với 4.7 là một preview về cách Anthropic lập kế hoạch xử lý các phiên bản frontier tiến lên.


Nguồn: Infinity News — tạp chí trực tuyến đa chuyên mục tập trung vào khoa học, công nghệ, thị trường và đời sống.


All Rights Reserved

Viblo
Let's register a Viblo Account to get more interesting posts.