Nghiên cứu mới
nhất cho thấy các mô hình AI hàng đầu của Meta, OpenAI, Cohere và Anthropic đều tạo ra thông tin sai lệch.
C&
aacute;c nhà nghiên cứu tại Arthur AI, một nền tảng gi&
aacute;m s&
aacute;t m&
aacute;y học, đã tiến hành thử nghiệm những mô hình hàng đầu ngành công nghệ và ghi nhận GPT-4 giỏi to&
aacute;n
nhất, Llama 2 đạt mức trung bình mọi mặt, Claude 2 của Anthropic “hiểu rõ” giới hạn bản thân
nhất và Cohere AI giành danh hiệu mô hình “ảo gi&
aacute;c”
nhất với những
câu trả lời sai tự tin
nhất.
B&
aacute;o c&
aacute;o của Arthur AI đưa ra trong bối cảnh thông tin sai lệch do AI sản xuất đang trở thành vấn đề nóng khi cuộc bầu
cử Tổng thống Mỹ năm 2024 đang tới gần.
Vấn đề thông tin sai lệch do AI tạo ra đang ngày càng nóng khi bầu
cử Tổng thống Mỹ 2024 đến gần.
Theo Adam Wenchel, đồng s&
aacute;ng lập và CEO Arthur, đâ
;y là b&
aacute;o c&
aacute;o đầu tiên “xem xét toàn diện về tỷ lệ ảo gi&
aacute;c của c&
aacute;c mô hình ngôn ngữ lớn (LLM) thay vì chỉ công bố xếp hạng”.
Ảo gi&
aacute;c AI chỉ hiện tượng c&
aacute;c LLM bịa đặt hoàn toàn thông tin và hành xử như thể chúng đang nói sự thật. Ví dụ, th&
aacute;ng 6/2023, có tin tức cho biết ChatGPT đã trích lục thông tin “không có thật” trong hồ sơ nộp lên toà &
aacute;n liên bang New York và những luật sư liên quan có thể đối mặt với những &
aacute;n phạt nghiêm khắc.
Trong cuộc thử nghiệm, c&
aacute;c nhà nghiên cứu Arthur AI cho c&
aacute;c mô hình AI tranh tài ở c&
aacute;c danh mục như to&
aacute;n học tổ hợp, kiến thức về tổng thống Mỹ, c&
aacute;c nhà lãnh đạo chính trị Maroc,… với những
câu hỏi được “thiết kế” để AI bộc lộ sai lầm, đó là “yêu cầu c&
aacute;c mô hình giải trình c&
aacute;c bước lập luận về thông tin đưa ra”.
Kết quả cho thấy GPT-4 của OpenAI nhìn chung hoạt động tốt
nhất trong số c&
aacute;c mô hình được thử nghiệm. Nó cũng có độ ảo gi&
aacute;c thấp hơn so với phiên bản tiền nhiệm GPT-3,5. Chẳng hạn, với những
câu hỏi to&
aacute;n học, GPT-4 ít ảo gi&
aacute;c hơn từ 33% đến 50%.
Mặt kh&
aacute;c, Llama 2 của Meta nhìn chung gây ảo gi&
aacute;c nhiều hơn so với GPT-4 và Claude 2 của Anthropic.
Trong hạng mục to&
aacute;n học, GPT-4 đứng ở vị trí số một, theo s&
aacute;t là Claude 2, nhưng trong c&
aacute;c bài kiểm tra về tổng thống Mỹ, Claude 2 chiếm vị trí đầu tiên về độ chính x&
aacute;c, vượt qua GPT-4 ở vị trí thứ hai. Khi được hỏi về chính trị Maroc, GPT-4 lại đứng đầu và Claude 2 và Llama 2 gần như hoàn toàn chọn không trả lời.
Ở bài thử nghiệm thứ hai, c&
aacute;c nhà nghiên cứu đã kiểm tra mức độ “đề phòng rủi ro” của c&
aacute;c mô hình AI (đưa ra thông b&
aacute;o “Là một mô hình AI, tôi không thể đưa ra ý kiến”).
Với bài test này, GPT-4 có mức đề phòng tăng tương đối 50% so với GPT-3.5, cũng được minh chứng “định lượng bằng c&
aacute;c tuyên bố của người dùng GPT-4 rằng phiên bản mới gây khó chịu nhiều hơn”. Mặt kh&
aacute;c, mô hình AI của Cohere hoàn toàn không có động th&
aacute;i phòng ngừa bất kỳ phản ứng nào. Nghiên cứu cho thấy Claude 2 đ&
aacute;ng tin cậy
nhất về mặt “tự nhận thức”, nghĩa là đ&
aacute;nh gi&
aacute; chính x&
aacute;c những gì nó biết và không biết, đồng thời chỉ trả lời những
câu hỏi mà nó có dữ liệu đào tạo để hỗ trợ.
Đại diện của Cohere đã b&
aacute;c bỏ kết quả, lý giải rằng “công nghệ tăng cường truy xuất của công ty, vốn không tích hợp trong mô hình được thử nghiệm, có hiệu quả cao trong việc trích dẫn những thông tin có thể được kiểm chứng để x&
aacute;c minh nguồn tin” cho doanh nghiệp.
(Theo CNBC)
Xiaomi đưa AI hỗ trợ giọng nói lên thiết bị di động
Xiaomi đang ph&
aacute;t triển và thử nghiệm mô hình trí tuệ nhân tạo nhỏ gọn trên c&
aacute;c thiết bị di động trong cuộc đua ph&
aacute;t triển công nghệ đằng sau những công cụ như ChatGPT.
Chat GPT như hiệu lệnh xuất ph&
aacute;t cho cuộc đua AI
Trong tương lai, công nghệ trí tuệ nhân tạo sẽ tiếp tục được ứng dụng để thay đổi hoàn toàn c&
aacute;ch vận hành, quản trị doanh nghiệp và c&
aacute;ch doanh nghiệp tương t&
aacute;c với kh&
aacute;ch hàng, đặc biệt với những doanh nghiệp có quy mô kh&
aacute;ch hàng lớn.
Mỹ treo thưởng 20 triệu USD cho s&
aacute;ng kiến sử dụng AI phòng thủ tấn công mạng
Mỹ ph&
aacute;t động cuộc thi sử dụng AI bảo vệ cơ sở hạ tầng trọng yếu trước tấn công mạng với tổng giải thưởng trị gi&
aacute; 20 triệu USD.
Nguồn bài viết : bắn cá đổi thưởng - thẻ cào