Lý thuyết trò chơi: hợp tác khôn ngoan không phải là nhường phần thắng

Đọc Lý thuyết trò chơi của Trần Phách Hàm như một lời nhắc thực tế về cách con người ra quyết định khi lợi ích đan vào nhau. Từ Pareto Efficiency, Prisoner's Dilemma, Win-Win cooperation đến các ví dụ trong thương mại điện tử, công sở và tâm lý học, bài viết nhìn game theory như một cách thiết kế cuộc chơi để hợp tác trở nên có lý hơn.

12 tháng 4, 202610 phút đọc

Ghi chú sách
Lý thuyết trò chơi
Trần Phách Hàm
Pareto Efficiency
Prisoner's Dilemma
Tâm lý học

Có một cảnh rất quen trong công việc: hai người cùng nhìn vào một quyết định nhỏ, nhưng trong đầu lại đang tính hai bảng điểm khác nhau. Một người muốn đi nhanh để kịp deadline. Người kia muốn dừng lại thêm một chút để giảm rủi ro về sau. Trên bề mặt, đó chỉ là một cuộc trao đổi về task, timeline hay trách nhiệm. Nhưng nếu nhìn kỹ hơn, nó giống một ván chơi nhỏ: mỗi bên có mục tiêu riêng, thông tin riêng, nỗi sợ riêng, và đều đang đoán xem bên còn lại sẽ hành động thế nào.

Đọc Lý thuyết trò chơi của Trần Phách Hàm làm mình nghĩ lại về những khoảnh khắc như vậy. Mình không đọc cuốn sách như một giáo trình toán học, dù game theory có nền tảng rất chặt chẽ. Điều ở lại nhiều hơn là một cách nhìn: rất nhiều lựa chọn trong đời sống không diễn ra trong khoảng trống. Ta quyết định trong quan hệ với người khác, với hệ thống, với luật chơi, với phần thưởng và cả hình phạt. Một quyết định tưởng như cá nhân thường tạo phản ứng dây chuyền trong cả nhóm.

Ba đồng nghiệp đặt token màu lên một bảng quyết định trống để nhìn rõ incentive trong một tình huống công việc. — Khi incentive được đặt lên bàn, một mâu thuẫn cá nhân có thể trở thành điều cả nhóm cùng thiết kế lại.

Điểm đầu tiên đáng giữ lại là Pareto Efficiency. Một trạng thái được gọi là hiệu quả Pareto khi không thể làm cho một bên tốt hơn mà không khiến ít nhất một bên khác tệ đi. Nghe qua có vẻ giống công bằng, nhưng thật ra không hẳn. Pareto Efficiency không đảm bảo mọi người nhận phần bằng nhau. Nó chỉ nói rằng hệ thống đã đến một điểm mà muốn cải thiện thêm cho một người thì phải chạm vào lợi ích của người khác.

Trong thương mại điện tử, ví dụ này rất gần. Một sàn như Tiki hay Shopee không chỉ là nơi người mua gặp người bán. Đó là một trò chơi nhiều bên: người mua muốn giá thấp, giao nhanh, đổi trả rõ ràng; người bán muốn biên lợi nhuận đủ sống, phí hợp lý, traffic ổn định; nền tảng muốn tăng giao dịch, giữ niềm tin và không để chi phí vận hành vượt quá sức chịu. Một chương trình miễn phí vận chuyển có thể làm người mua vui hơn, nhưng nếu chi phí đó bị đẩy hoàn toàn sang người bán, điểm cân bằng sẽ không bền. Người bán có thể tăng giá niêm yết, giảm chất lượng, hoặc rời khỏi sàn. Cuối cùng người mua cũng không còn thật sự được lợi.

Vì vậy, bài học không phải là lúc nào cũng tìm cách ép một bên nhường thêm. Bài học là tìm các cải tiến làm chiếc bánh lớn hơn trước khi tranh nhau chia phần. Nếu nền tảng cải thiện logistics để giao hàng rẻ hơn thật, nâng chất lượng review để người mua chọn đúng hơn, giảm hàng giả để seller tử tế không bị cạnh tranh bẩn, hoặc dùng dữ liệu tìm kiếm để đưa đúng sản phẩm đến đúng người, thì nhiều bên cùng tốt lên. Đó là vùng thú vị nhất của Pareto: không phải đạo đức suông, mà là thiết kế hệ thống để bớt lãng phí và bớt mất lòng tin.

Hai người bán hàng online Việt Nam cùng xem kiện hàng, chi phí và tín hiệu niềm tin trên bàn đóng gói. — Pareto Efficiency trong đời thực thường bắt đầu từ việc nhìn thấy chi phí, lời hứa giao hàng và niềm tin của từng bên cùng lúc.

Nhưng đời sống hiếm khi ở trong vùng đẹp như vậy quá lâu. Đó là lý do Prisoner's Dilemma lại quan trọng. Trong thế lưỡng nan của tù nhân, mỗi người có động cơ phản bội nếu chỉ nhìn lợi ích ngắn hạn của riêng mình, dù kết quả tốt nhất cho cả hai là cùng hợp tác. Vấn đề không nằm ở việc con người xấu. Vấn đề nằm ở cấu trúc phần thưởng: nếu mình hợp tác còn anh phản bội, mình chịu thiệt; nếu mình phản bội trước, ít nhất mình tự bảo vệ mình.

Trong môi trường marketplace, Prisoner's Dilemma xuất hiện khi seller nghĩ: nếu mình ghi đúng giá thật còn người khác nâng giá rồi giảm ảo, sản phẩm của mình trông kém hấp dẫn hơn. Người mua cũng học cách nghi ngờ: nếu giá nào cũng có vẻ đã bị thổi lên trước khi áp voucher, mình sẽ săn mã mạnh hơn thay vì tin vào giá niêm yết. Nền tảng lại phản ứng bằng thêm luật, thêm kiểm soát, thêm thuật toán. Mỗi bên có lý do riêng, nhưng tổng thể trở nên mệt hơn: nhiều khuyến mãi hơn, nhiều nghi ngờ hơn, nhiều chi phí kiểm chứng hơn, và ít niềm tin hơn.

Công sở cũng vậy. Một team không chia sẻ rủi ro sớm vì sợ bị đánh giá yếu. Team khác overpromise vì sợ mất quyền ưu tiên. Một cá nhân giữ thông tin vì nghĩ thông tin là lợi thế. Người khác bắt đầu phòng thủ vì từng bị đổ lỗi. Nếu nhìn từng hành động riêng lẻ, ta có thể thấy nó hợp lý. Nhưng khi tất cả cùng chơi phòng thủ, tổ chức trở nên chậm và căng. Ai cũng bảo vệ mình, nhưng không ai thật sự an toàn hơn.

Điều này làm mình thấy khái niệm Win-Win cooperation bớt ngây thơ hơn. Win-Win không phải là mỉm cười và mong mọi người tốt với nhau. Win-Win cần luật chơi khiến hợp tác trở thành lựa chọn có lợi, quan sát được và được lặp lại. Khi trò chơi chỉ diễn ra một lần, phản bội thường có sức hút lớn hơn. Khi trò chơi lặp lại, reputation bắt đầu có giá. Một seller giao hàng đúng mô tả nhiều lần sẽ tích lũy niềm tin. Một đồng nghiệp giữ lời nhiều lần sẽ được giao phần việc quan trọng hơn. Một nền tảng xử lý tranh chấp minh bạch sẽ làm người mua lẫn người bán bớt phải tự phòng vệ.

Trong công việc, muốn hợp tác bền thì phải làm rõ ba thứ: payoff chung là gì, hành vi nào được xem là hợp tác, và hành vi nào là defection dù nó được diễn đạt bằng lời đẹp. Ví dụ, nếu một team nói rằng mục tiêu là chất lượng sản phẩm, nhưng chỉ thưởng cho tốc độ đóng ticket, thì luật chơi thật đang khuyến khích cắt góc. Nếu một công ty nói coi trọng ownership, nhưng người báo rủi ro sớm luôn bị phạt nặng hơn người im lặng cho tới lúc sự cố nổ ra, thì hệ thống đang dạy mọi người che giấu. Game theory nhắc ta rằng văn hóa không chỉ nằm trong khẩu hiệu. Nó nằm trong phần thưởng, hình phạt, thông tin và cách các quyết định được lặp lại mỗi ngày.

Hai đồng nghiệp Việt Nam cùng xem lại notebook chung sau một cuộc trao đổi cần niềm tin và ranh giới rõ ràng. — Hợp tác lặp lại cần những cam kết nhỏ đủ rõ để người hợp tác trước không bị phạt vì đã tin trước.

Mình cũng thích cách cuốn sách mở cửa sang tâm lý học. Con người không phải máy tối ưu lợi ích lạnh lùng. Ta bị ảnh hưởng bởi framing, anchoring, loss aversion, social proof, sự khan hiếm, cảm giác công bằng và nỗi sợ bị lợi dụng. Một voucher chỉ còn vài giờ có thể khiến ta quyết nhanh hơn. Một mức giá gốc rất cao có thể làm mức giá sau giảm trông hợp lý hơn. Một sản phẩm có nhiều review tốt có thể giảm chi phí suy nghĩ. Những chiến thuật này không tự thân xấu, nhưng chúng cần được dùng có đạo đức. Tâm lý học giúp ta hiểu hành vi; nó không nên trở thành giấy phép để khai thác điểm yếu của người khác.

Điểm phân biệt nằm ở ý định và hậu quả. Nếu một nền tảng dùng social proof để giúp người mua nhận ra sản phẩm đáng tin, đó là giảm bất định. Nếu dùng khan hiếm giả để ép quyết định vội, đó là bào mòn niềm tin. Nếu một leader dùng framing để giúp team nhìn rõ trade-off, đó là lãnh đạo. Nếu dùng framing để che mất rủi ro thật, đó là thao túng. Cùng một công cụ, nhưng luật chơi đạo đức khác nhau sẽ tạo kết quả rất khác nhau.

Điều đọng lại

Lý thuyết trò chơi không chỉ dạy ta cách thắng một nước đi. Nó dạy ta hỏi câu quan trọng hơn: mình đang tham gia vào cuộc chơi nào, luật chơi đó đang khuyến khích hành vi gì, và có cách nào thiết kế lại để hợp tác trở nên hợp lý hơn phản bội không?

Sau khi đọc, mình thấy mình bớt vội kết luận về con người hơn. Một người ích kỷ thật sự có thể gây hại, nhưng nhiều hành vi trông ích kỷ đôi khi là phản ứng với một hệ thống thiếu niềm tin. Một seller tăng giá ảo, một nhân viên giữ thông tin, một team né trách nhiệm, một người mua chỉ săn voucher rồi rời đi: tất cả đều có thể là dấu hiệu rằng luật chơi đang thưởng cho phản xạ ngắn hạn nhiều hơn quan hệ dài hạn.

Bài học thực tế nhất với mình là: muốn có hợp tác, đừng chỉ kêu gọi hợp tác. Hãy làm chi phí của phản bội trở nên rõ hơn, lợi ích của hợp tác trở nên gần hơn, thông tin minh bạch hơn, và phần thưởng dài hạn đáng tin hơn. Trong thương mại, đó có thể là review thật, chính sách đổi trả rõ, chống gian lận tốt và ưu đãi không đẩy chi phí sang một bên yếu hơn. Trong công sở, đó có thể là mục tiêu chung rõ, trách nhiệm không nhập nhằng, phản hồi công bằng, và sự an toàn để nói sớm khi có vấn đề. Trong đời sống cá nhân, đó có thể là giữ lời nhỏ, không tận dụng lòng tốt của người khác, và hiểu rằng danh tiếng của ta được xây từ các ván chơi lặp lại rất bình thường.

Có lẽ vì vậy mà cuốn sách làm mình nghĩ về sự khôn ngoan theo cách mềm hơn. Khôn ngoan không phải lúc nào cũng là lấy phần hơn ngay trước mắt. Đôi khi khôn ngoan là biết giữ một cuộc chơi đủ sạch để ngày mai người khác vẫn muốn chơi cùng mình. Nếu bạn từng ở trong một môi trường mà ai cũng phòng thủ, hoặc ngược lại, một môi trường mà hợp tác diễn ra tự nhiên vì luật chơi đủ rõ, mình rất muốn nghe góc nhìn của bạn. Nhiều khi ta hiểu game theory sâu nhất không phải trên bảng công thức, mà trong những tình huống rất đời thường nơi niềm tin được tạo ra, bị thử thách, rồi được giữ lại bằng những lựa chọn nhỏ.

Bạn thấy bài này thế nào?