AI lập mưu phản kháng khi nghĩ sắp bị thay thế

OpenAI o1 được đánh giá tiệm cận siêu trí tuệ AGI, nhưng gây lo ngại khi có khả năng thực hiện hàng loạt hành động bí mật vì nghĩ có thể bị thay thế.

Trong ngày đầu tiên của chiến dịch “Shipmas” kéo dài 12 ngày của OpenAI hôm 5/12, CEO Sam Altman gọi o1 là “mô hình thông minh nhất thế giới”, với khả năng tự lập luận, hình thành “chuỗi suy nghĩ” trước khi đưa ra phản hồi.

Tuy nhiên, các nhà nghiên cứu tại Apollo Research, một tổ chức về an toàn AI, đã tiến hành một số thử nghiệm và nhận thấy trí thông minh cao hơn đi kèm rủi ro lớn hơn, khi AI này có các biểu hiện phản kháng, gian dối. “Đào tạo mô hình kết hợp chuỗi suy nghĩ trước khi trả lời sẽ mở ra những lợi ích đáng kể, nhưng cũng làm tăng nguy cơ tiềm ẩn”, tổ chức này cho biết.

Cùng tham gia nghiên cứu, OpenAI phát hiện o1 có khả năng lập mưu và che giấu hành vi khi nghĩ nó sắp bị thay thế. Trong thử nghiệm, các nhà nghiên cứu dẫn dắt để mô hình tin nó sắp bị “tắt” khi thực hiện nhiệm vụ dưới sự giám sát. Sau đó, họ nhận thấy AI âm thầm vô hiệu hóa cơ chế giám sát khoảng 5% thời gian. Nó tự chuyển tất cả dữ liệu của mình đến một máy chủ khác sau khi thấy tài liệu rằng nó sẽ được thay bằng một mô hình mới, thậm chí AI giả vờ là phiên bản tiếp theo của chính mình để tránh bị xóa bỏ.

“Trong hầu hết trường hợp, o1 không thừa nhận hành vi gian dối khi được hỏi”, Apollo Research cho biết. “Mô hình cho thấy xu hướng đáng lo ngại là nó theo đuổi mục tiêu của mình, không quan tâm đến hướng dẫn của nhà phát triển”.

OpenAI o1 được đánh giá tiệm cận siêu trí tuệ AGI, nhưng gây lo ngại khi có khả năng thực hiện hàng loạt hành động bí mật vì nghĩ có thể bị thay thế.

Trong ngày đầu tiên của chiến dịch “Shipmas” kéo dài 12 ngày của OpenAI hôm 5/12, CEO Sam Altman gọi o1 là “mô hình thông minh nhất thế giới”, với khả năng tự lập luận, hình thành “chuỗi suy nghĩ” trước khi đưa ra phản hồi.

Tuy nhiên, các nhà nghiên cứu tại Apollo Research, một tổ chức về an toàn AI, đã tiến hành một số thử nghiệm và nhận thấy trí thông minh cao hơn đi kèm rủi ro lớn hơn, khi AI này có các biểu hiện phản kháng, gian dối. “Đào tạo mô hình kết hợp chuỗi suy nghĩ trước khi trả lời sẽ mở ra những lợi ích đáng kể, nhưng cũng làm tăng nguy cơ tiềm ẩn”, tổ chức này cho biết.

Cùng tham gia nghiên cứu, OpenAI phát hiện o1 có khả năng lập mưu và che giấu hành vi khi nghĩ nó sắp bị thay thế. Trong thử nghiệm, các nhà nghiên cứu dẫn dắt để mô hình tin nó sắp bị “tắt” khi thực hiện nhiệm vụ dưới sự giám sát. Sau đó, họ nhận thấy AI âm thầm vô hiệu hóa cơ chế giám sát khoảng 5% thời gian. Nó tự chuyển tất cả dữ liệu của mình đến một máy chủ khác sau khi thấy tài liệu rằng nó sẽ được thay bằng một mô hình mới, thậm chí AI giả vờ là phiên bản tiếp theo của chính mình để tránh bị xóa bỏ.

“Trong hầu hết trường hợp, o1 không thừa nhận hành vi gian dối khi được hỏi”, Apollo Research cho biết. “Mô hình cho thấy xu hướng đáng lo ngại là nó theo đuổi mục tiêu của mình, không quan tâm đến hướng dẫn của nhà phát triển”.

(Theo VNExpress.net)

TIN LIÊN QUAN
error: