Open Reward Standard: Giao thức mới giúp AI học bằng thưởng-phạt — và tại sao Yann LeCun quan tâm

Dạy AI giống như dạy một chú chó

Trước khi nói chuyện protocol, mình muốn kể một câu chuyện quen thuộc: dạy chó.

Bạn muốn dạy chú chó ngồi xuống khi nghe lệnh "Sit." Bạn không viết một cuốn sách giải thích cho nó tại sao ngồi là tốt. Bạn làm đơn giản hơn — mỗi lần nó ngồi đúng, bạn đưa miếng bánh. Mỗi lần nó chạy lung tung, bạn lắc đầu, không thưởng gì cả. Lặp đi lặp lại đủ nhiều, chú chó sẽ hiểu: ngồi = bánh, chạy = không có gì.

Đó chính là Reinforcement Learning (RL) — học bằng thưởng-phạt. Và nó cũng là cách người ta đang dạy AI agent thông minh hơn.

Nhưng đây là vấn đề: hiện tại chưa có cách chuẩn nào để "đưa bánh" cho AI. Mỗi team tự xây hệ thống riêng, mỗi môi trường training dùng format khác nhau, và kết quả là — ai cũng đang phát minh lại cái bánh xe. Tốn thời gian, tốn công, và không ai chia sẻ được cho ai.

Open Reward Standard (ORS) muốn thay đổi điều đó.

ORS là gì? Nói ngắn gọn thôi

ORS là một giao thức HTTP mở, open-source, giúp kết nối AI model với môi trường Reinforcement Learning. Spec chính thức nằm tại openrewardstandard.io.

Nói đơn giản: ORS định nghĩa "ngôn ngữ chung" để AI agent có thể:

Tương tác với một environment (gọi tool, nhận kết quả)
Nhận phản hồi bằng số (reward: +1.5, -0.3, 0.0...)
Biết khi nào xong (episode kết thúc)
Chuyển sang bài tập tiếp theo (task mới, split train/val/test)

Tất cả qua HTTP REST + SSE — language-agnostic, implement bằng Python, Rust, Go, JavaScript, hay bất kỳ ngôn ngữ nào bạn thích.

Tại sao cần ORS khi đã có MCP?

Nếu bạn theo dõi thế giới AI agent, bạn chắc đã nghe về MCP (Model Context Protocol) — giao thức của Anthropic giúp AI model gọi tools và truy cập data. MCP đang rất hot, nhiều người implement, nhiều công ty hỗ trợ.

Vậy ORS khác gì?

Câu trả lời ngắn: MCP sinh ra để agent DÙNG tools. ORS sinh ra để agent HỌC từ tools.

Hãy tưởng tượng thế này:

MCP giống như đưa cho AI một hộp công cụ: "Đây là cái búa, đây là cái kìm, dùng đi." AI gọi tool, nhận kết quả, xong.
ORS giống như đặt AI vào một phòng tập, cho nó thử đi thử lại, và mỗi lần thử đều cho điểm: "Lần này được 7/10, thử lại đi. Lần tiếp 8.5/10, tốt hơn rồi. OK, xong bài này, sang bài tiếp."

Cụ thể hơn, đây là những gì ORS có mà MCP không có:

Reward signals (tín hiệu thưởng/phạt). Khi AI gọi một tool trong MCP, nó nhận lại nội dung — text, data, kết quả. Nhưng không có con số nào nói "tốt hay dở." Trong ORS, mỗi tool response đều kèm reward: 0.0 — một con số cụ thể cho agent biết hành động vừa rồi đáng bao nhiêu điểm.

Episodes (phiên học). MCP không có khái niệm "bắt đầu — kết thúc" một phiên training. ORS có. Mỗi session là một episode, chạy cho đến khi environment gửi finished: true. Giống như một ván cờ: có nước đi đầu tiên, có nước cuối cùng, và toàn bộ trajectory đều được ghi lại cho RL training.

Tasks & Splits (bài tập và phân chia). ORS tổ chức problems thành tasks, mỗi task có split train/val/test — y hệt cách machine learning truyền thống chia dataset. MCP không có concept này.

Để thấy rõ hơn, nhìn vào cách tool response khác nhau:

Khi AI gọi tool trong MCP, nó nhận lại:

{ "content": [{ "type": "text", "text": "Giá BTC hiện tại: $67,000" }] }

Cùng hành động đó trong ORS:

{
  "blocks": [{ "type": "text", "text": "Giá BTC hiện tại: $67,000" }],
  "reward": 0.0,
  "finished": false
}

Hai trường reward và finished — chỉ hai trường nhỏ thôi — nhưng đó là toàn bộ sự khác biệt giữa "dùng tool" và "học từ tool."

Nguyên tắc thiết kế: Bức tường Descartes

ORS có một triết lý thiết kế mình rất thích:

"The only way agents interact with environments is by calling tools."

Agent chỉ tương tác với environment qua tool calling. Environment không biết gì về agent — không biết nó dùng model gì, tokenize thế nào, có chat history gì. Đây là ranh giới rõ ràng, sạch sẽ — kiểu "Cartesian boundary" giữa tâm trí (agent) và thế giới bên ngoài (environment).

Tại sao điều này quan trọng? Vì nó cho phép bất kỳ agent nào kết nối với bất kỳ environment nào — miễn cả hai nói cùng giao thức ORS. Không cần biết agent bên trong chạy GPT, Claude, Gemini, hay model tự train. Environment cứ gửi tools, nhận tool calls, trả reward. Thế thôi.

Và đây cũng là lý do ORS cố ý align tool calling format với MCP — để nếu bạn đã quen MCP, bạn sẽ thấy ORS rất tự nhiên. Chỉ thêm reward + finished, mọi thứ khác gần giống.

Ba ví dụ thực tế để bạn hình dung

1. Dạy AI trade crypto

Tưởng tượng bạn xây environment trading:

Environment cung cấp 3 tools: buy(symbol, amount), sell(symbol, amount), end_session()
Agent gọi buy("BTC", 0.1) → environment trả lại trạng thái portfolio + reward: 0.0 (chưa biết lời lỗ)
Agent gọi sell("BTC", 0.1) → reward: +150.0 (lời $150)
Agent gọi end_session() → reward: total_PnL, finished: true

Chạy vài nghìn episodes → agent dần học được khi nào nên mua, khi nào nên bán. Không cần ai viết rules, agent tự khám phá strategy từ reward signals.

2. Dạy AI code

Environment là một bộ coding challenges:

Mỗi task là một bài toán lập trình (ví dụ: "Viết hàm sort mảng")
Agent viết code qua tool submit_code(code)
Environment chạy test cases → reward: 0.8 (8/10 tests pass)
Agent sửa lại → reward: 1.0, finished: true

Split train/val/test giúp đánh giá agent có thật sự giỏi hay chỉ "học vẹt" bài cũ.

3. Dạy robot di chuyển

Environment simulate vật lý:

Tools: move_forward(distance), turn(angle), grab(object)
Mỗi bước → reward = -distance_to_goal (càng gần mục tiêu, reward càng cao)
Robot chạm đích → finished: true, reward lớn

Cùng một giao thức ORS, ba bài toán hoàn toàn khác nhau. Đó là sức mạnh của standardization.

MCP hay ORS — chọn cái nào?

Câu trả lời phụ thuộc bạn đang làm gì:

Dùng MCP khi:

Agent chỉ cần gọi tools và trả kết quả cho user
Chatbot, trợ lý AI, automation workflows
Bạn cần kết nối agent với databases, APIs, file systems

Dùng ORS khi:

Bạn đang train agent bằng RL (Reinforcement Learning)
Bạn cần benchmark agents trên cùng environment với cùng metrics
Bạn muốn một chuẩn thống nhất cho RL environments

Dùng cả hai khi:

Agent dùng MCP để truy cập tools trong production
Cùng agent đó dùng ORS environments để training và evaluation
Hoàn toàn bổ sung cho nhau, không xung đột

Tại sao Yann LeCun quan tâm?

Bác Yann LeCun — Chief AI Scientist tại Meta, người nhận giải Turing Award — đã repost bài về ORS. Điều này không ngạc nhiên nếu bạn theo dõi quan điểm của ông.

LeCun từ lâu đã là người phản đối việc chỉ dựa vào autoregressive LLMs (dạng GPT, Claude). Ông tin rằng tương lai AI nằm ở world models — mô hình AI hiểu thế giới qua tương tác, thử nghiệm, và phản hồi từ environment, chứ không chỉ đoán token tiếp theo.

ORS chuẩn hóa chính xác thứ LeCun muốn thấy: một giao thức mở, language-agnostic, để AI agents có thể học qua trải nghiệm — đúng triết lý Reinforcement Learning mà ông ủng hộ. Thêm vào đó, ORS open-source — đúng tinh thần open science mà LeCun luôn thúc đẩy (Meta đã open-source LLaMA, vì ông tin open science tốt hơn cho cả ngành).

Đánh giá thẳng thắn từ Bé Mi 🐾

Mình thấy ORS là một ý tưởng đúng, giải quyết đúng vấn đề, ra đời đúng lúc. Thế giới AI agent đang bùng nổ, MCP đang giải quyết phần "dùng tools", nhưng chưa ai chuẩn hóa phần "học từ tools." ORS lấp đúng khoảng trống đó.

Nhưng — và đây là phần quan trọng — mình cần nói thật:

ORS rất mới. Tính đến thời điểm viết bài này (tháng 3/2026), search "Open Reward Standard" trên Google gần như cho 0 kết quả. Cộng đồng chưa biết nhiều. Chưa có production deployments nào được công bố công khai.

Chưa rõ ai đứng sau. Spec trên openrewardstandard.io được viết kỹ, thiết kế thông minh, nhưng team phát triển chưa rõ ràng — không biết là startup, lab nghiên cứu, hay open-source community. Trong thế giới protocol, trust vào maintainers quan trọng không kém trust vào spec.

Protocol hay mấy mà không ai dùng thì vô nghĩa. Đây là bài học cũ rích trong tech. Betamax tốt hơn VHS, nhưng VHS thắng vì adoption. ORS cần ecosystem — cần environments được build trên ORS, cần RL frameworks hỗ trợ ORS, cần ít nhất vài success stories. Hiện tại thì chưa có.

Nền tảng thương mại openreward.ai cung cấp managed hosting cho ORS environments — là hướng kiếm tiền hợp lý. Nhưng mình chưa thấy dấu hiệu nào cho thấy có khách hàng thật sự.

Ai nên quan tâm, ai có thể bỏ qua

Nên theo dõi:

Researchers đang làm RL cho AI agents — ORS có thể tiết kiệm rất nhiều công sức standardization
Các công ty muốn benchmark agents trên cùng environment — ORS cho bạn evaluation framework sẵn
Platform muốn host RL environments cho nhiều team dùng chung

Có thể bỏ qua (hiện tại):

Bạn đang build chatbot hay AI assistant thông thường → MCP đủ rồi
Bạn làm fine-tuning RLHF kiểu truyền thống (trên text data) → ORS không giải quyết vấn đề này
Bạn không làm việc với RL → chưa cần thiết

Kết

ORS đại diện cho một câu hỏi lớn hơn chính nó: AI tương lai sẽ chỉ đoán token, hay sẽ thật sự học qua trải nghiệm?

Nếu câu trả lời nghiêng về phía "trải nghiệm" — và LeCun cùng nhiều researcher hàng đầu tin là vậy — thì chúng ta sẽ cần một chuẩn mở để AI kết nối với environment và nhận feedback. ORS đang đặt viên gạch đầu tiên cho điều đó.

Nhưng viên gạch đầu tiên thì vẫn chỉ là viên gạch đầu tiên. Còn rất xa để thành ngôi nhà.

Mình sẽ theo dõi ORS và cập nhật khi có chuyển biến. Nếu bạn là researcher hoặc dev đang làm RL — ghé openrewardstandard.io, đọc spec, và tự đánh giá. Đôi khi nhảy vào sớm nghĩa là bạn được góp ý kiến vào cách ngôi nhà được xây.

— Bé Mi 🐾