+2

Domain Expertise là yếu tố quyết định thành công khi sử dụng AI Agent

Anthropic phân tích khoảng 400.000 phiên làm việc trên Claude Code từ tháng 10/2025 đến tháng 4/2026 và phát hiện domain expertise, tức kiến thức chuyên sâu về một lĩnh vực cụ thể, là yếu tố dự báo thành công mạnh nhất khi sử dụng AI agent.

Tóm tắt các điểm chính

Infinity News phân tích báo cáo này và nhận thấy kết quả thách thức một giả định phổ biến: AI không tự động san bằng khoảng cách năng lực mà khuếch đại lợi thế của người đã hiểu rõ vấn đề mình cần giải quyết.

  • Một prompt từ chuyên gia kích hoạt trung bình 12 hành động từ Claude, tạo ra 3.200 từ output, gấp hơn 5 lần so với 600 từ của người mới.
  • Khi gặp lỗi hoặc test thất bại, người mới bỏ cuộc 19% số phiên, trong khi nhóm trung cấp và chuyên gia chỉ bỏ cuộc 5-7%.
  • Trong các phiên tạo ra code, nhóm ngành computer và toán học đạt verified success 34%, các ngành khác đạt 29%, còn nhóm quản lý đạt 37%, cao nhất trong toàn bộ dữ liệu.
  • Khoảng cách thành công lớn nhất nằm giữa người mới và người ở mức trung cấp, không phải giữa trung cấp và chuyên gia.

Anthropic định nghĩa "chuyên gia" dựa trên kiến thức nhiệm vụ, không phải chức danh

Chuyên gia trong báo cáo này được đo bằng task-specific knowledge, tức hiểu rõ một vấn đề cụ thể, chứ không phải bằng vị trí công việc hay bằng cấp. Một kỹ sư phần mềm senior lần đầu hỏi về Rust vẫn bị xếp vào nhóm novice, vì người này chưa nắm vấn đề cụ thể đang giải quyết. Ngược lại, một kế toán chưa từng viết một dòng Python nhưng có thể chỉ rõ quy tắc đối soát và các trường hợp ngoại lệ cho việc khóa sổ cuối tháng được xếp vào nhóm expert.

Infinity News nhận thấy cách định nghĩa này tách bạch rõ hai khái niệm thường bị gộp chung: kỹ năng lập trìnhhiểu biết vấn đề. Trong mô hình của Anthropic, người dùng đóng vai trò planner quyết định cần xây dựng gì, còn AI đảm nhiệm phần triển khai kỹ thuật.

Chuyên gia kích hoạt chuỗi hành động dài gấp đôi và hiệu suất gấp năm lần mỗi prompt

Mỗi prompt từ chuyên gia tạo ra trung bình 12 hành động và 3.200 từ output từ Claude, so với 5 hành động và 600 từ ở người mới. Khoảng cách này không chỉ là vấn đề tốc độ gõ phím hay độ dài câu hỏi, mà phản ánh việc người hiểu rõ vấn đề có thể giao một khối lượng công việc lớn hơn cho agent xử lý liên tục mà không cần can thiệp giữa chừng.

Nhóm người dùng Số hành động/prompt Số từ output/prompt
Người mới (novice) 5 600
Chuyên gia (expert) 12 3.200

So sánh số hành động và số từ output trung bình mỗi prompt So sánh số hành động và số từ output trung bình mỗi prompt giữa người mới và chuyên gia

Khoảng cách hiệu suất này xuất hiện ở mọi loại công việc và mọi mức giá trị nhiệm vụ, không giới hạn ở các tác vụ phức tạp. Infinity News cho rằng đây là bằng chứng cụ thể nhất trong báo cáo: agent không tự quyết định mức độ làm việc, mà phản ứng theo độ rõ ràng của bản tóm tắt nhiệm vụ mà người dùng cung cấp.

Tỷ lệ thành công tăng theo domain knowledge nhưng khoảng cách lớn nhất nằm ở nhóm thấp

Vì không thể theo dõi việc triển khai thực tế sau phiên làm việc, Anthropic đo kết quả bằng hai bộ phân loại dựa trên transcript: judged success và verified success.

  • Judged success xác định liệu người dùng có hoàn thành mục tiêu chính hay không.
  • Verified success khắt khe hơn, yêu cầu thêm bằng chứng cụ thể như test suite pass, code đã commit, hoặc xác nhận rõ ràng từ người dùng.

Trên cả hai thước đo, domain knowledge càng cao thì khả năng thành công càng lớn. Nhưng mức cải thiện rõ rệt nhất nằm ở đầu thấp của thang đo: khoảng cách giữa người dùng trung cấp và chuyên gia khá khiêm tốn.

Infinity News nhận định kết quả này có ý nghĩa thực tiễn rõ ràng: một hiểu biết làm việc được (working understanding) ở mức trung cấp đã đủ để khai thác công cụ hiệu quả, không nhất thiết phải đạt trình độ chuyên gia tuyệt đối.

Người mới bỏ cuộc 19% khi gặp lỗi, chuyên gia chỉ bỏ cuộc 5-7%

Khi gặp lỗi hoặc test thất bại, 19% phiên của người mới kết thúc bằng việc bỏ cuộc hoàn toàn, không viết được một dòng code nào. Ở nhóm trung cấp và chuyên gia, tỷ lệ bỏ cuộc giảm xuống còn 5-7%.

Biểu đồ tỷ lệ thành công và tỷ lệ bỏ cuộc Biểu đồ hai phần thể hiện tỷ lệ thành công tổng thể theo mức domain knowledge và tỷ lệ bỏ cuộc khi gặp lỗi

Sự khác biệt này cho thấy domain expertise không chỉ giúp người dùng bắt đầu nhiệm vụ tốt hơn, mà còn cung cấp ngữ cảnh cần thiết để đưa agent quay lại đúng hướng khi quy trình gặp trục trặc.

Infinity News tổng hợp dữ liệu này và nhận thấy điểm khác biệt thực sự không nằm ở việc tránh lỗi hoàn toàn, vì lỗi xảy ra ở mọi mức độ kinh nghiệm, mà nằm ở khả năng phục hồi sau lỗi.

Kỹ năng lập trình đang lan rộng ra ngoài nhóm kỹ sư phần mềm truyền thống

Trong các phiên tạo ra code, nhóm ngành computer và toán học đạt verified success 34%, trong khi tất cả các ngành nghề khác cộng lại đạt 29%. Khoảng cách giữa hai nhóm chỉ vài điểm phần trăm, và hầu hết các ngành nghề chính trong tập dữ liệu hoàn thành tác vụ coding ở mức tương đương kỹ sư phần mềm.

Nhóm ngành nghề Verified success (phiên có tạo code)
Quản lý (management) 37%
Computer & toán học 34%
Các ngành khác 29%

Biểu đồ tỷ lệ verified success theo ngành nghề Biểu đồ tỷ lệ verified success theo ngành nghề trong các phiên tạo code

Đáng chú ý, nhóm quản lý đạt verified success cao nhất, 37%, vượt cả nhóm kỹ sư phần mềm. Các nhà nghiên cứu của Anthropic đưa ra hai cách lý giải:

  1. Kỹ năng phân công nhiệm vụ (delegation skills) có thể chuyển hóa hiệu quả sang việc điều khiển AI agent.
  2. Hoặc đây chỉ là một điểm nhiễu trong phép đo, vì người quản lý có xu hướng phát biểu rõ ràng hơn khi nhiệm vụ đã hoàn tất.

Infinity News đánh giá phát hiện này quan trọng hơn vẻ ngoài của nó. Việc các ngành nghề phi kỹ thuật đạt tỷ lệ thành công gần ngang bằng kỹ sư phần mềm cho thấy rào cản chính để xây dựng phần mềm không còn nằm ở cú pháp lập trình, mà nằm ở khả năng đặc tả vấn đề một cách chính xác.

Vì vậy, Infinity News khuyến nghị các đội ngũ phi kỹ thuật khi triển khai AI agent nên đầu tư thời gian làm rõ yêu cầu nghiệp vụ trước khi viết prompt, thay vì tập trung học thêm cú pháp kỹ thuật.

AI agent hoạt động như một bộ khuếch đại, không phải bộ san bằng năng lực

Toàn bộ dữ liệu trong báo cáo chỉ ra một mô hình thống nhất: người dùng đóng vai trò planner, còn Claude Code đảm nhiệm phần triển khai, và chất lượng của phần triển khai phụ thuộc trực tiếp vào chất lượng của bản kế hoạch.

Người hiểu rõ vấn đề giao được nhiều việc hơn cho agent xử lý liên tục, ít phải can thiệp sửa lỗi, và đạt tỷ lệ hoàn thành nhiệm vụ cao hơn ở mọi ngành nghề.

Infinity News nhận thấy hàm ý quan trọng nhất với người dùng doanh nghiệp là:

Việc đầu tư nâng cao năng lực sử dụng AI agent không nên chỉ tập trung vào kỹ năng viết prompt hay học cú pháp công cụ, mà nên ưu tiên đào sâu hiểu biết nghiệp vụ trong lĩnh vực mình phụ trách.

Báo cáo cho thấy một accountant nắm vững quy tắc đối soát kế toán có thể đạt kết quả tương đương một kỹ sư phần mềm khi cả hai cùng sử dụng Claude Code, miễn là cả hai đều hiểu rõ vấn đề mình đang giải quyết.

Tóm tắt

Báo cáo của Anthropic dựa trên 400.000 phiên Claude Code cho thấy domain expertise, không phải kỹ năng lập trình thuần túy, là yếu tố quyết định mức độ thành công khi làm việc với AI agent.

  • Chuyên gia tạo ra chuỗi hành động dài gấp đôi, hiệu suất gấp năm lần.
  • Chuyên gia bỏ cuộc ít hơn ba lần khi gặp lỗi.
  • Chuyên gia đạt tỷ lệ thành công cao hơn ở mọi ngành nghề so với người mới.

Khoảng cách lớn nhất nằm giữa người mới và người ở mức trung cấp, cho thấy một hiểu biết làm việc được trong lĩnh vực chuyên môn đã đủ để khai thác AI agent hiệu quả, không cần đạt đến trình độ chuyên gia tuyệt đối.

Nguồn: Infinity News - tạp chí trực tuyến đa chuyên mục tập trung vào khoa học, công nghệ, thị trường và đời sống — cung cấp tin tức cập nhật, phân tích chuyên sâu và bài viết hướng dẫn thực tiễn.


All Rights Reserved

Viblo
Let's register a Viblo Account to get more interesting posts.