Dựa trên dữ liệu văn bản sẵn có, AI chọn ra các từ có khả năng cao đi liền nhau để ghép thành câu và đoạn, chứ không thực sự hiểu biết về nhiều đề tài như nhiều người lầm tưởng.
ChatGPT do OpenAI phát triển hoạt động bằng cách chọn các từ có khả năng cao đi liền với nhau. Ảnh: Bloomberg.
“Có thể tạo ra thông tin không chính xác” và “Có thể đưa ra các hướng dẫn có hại hoặc nội dung sai” là 2 trong số các cảnh báo của OpenAI trước khi người dùng bắt đầu trò chuyện với “siêu AI” ChatGPT. Nguyên nhân là AI không thực sự hiểu nội dung mà nó đưa ra, mà chỉ sắp xếp các từ dựa trên xác suất thống kê để tạo thành một phản hồi.
Cách ChatGPT trả lời câu hỏi
AI được cung cấp dữ liệu là hàng trăm tỷ từ dưới dạng sách, hội thoại và bài viết trên Internet, từ đó nó dựa trên xác suất thống kê để chọn ra các từ thường đi theo sau từ đằng trước. Từ được chọn lại trở thành "đầu vào" để chọn ra từ tiếp theo, cho đến khi hoàn thành một phản hồi, theo giải thích từ OpenAI.
ChatGPT có thể viết trôi chảy, nhưng không hiểu ý nghĩa các từ. Chẳng hạn với yêu cầu này, AI cho dù chỉ có dữ liệu đến năm 2021 vẫn "review" lưu loát sản phẩm ra mắt năm 2022 theo mô típ đánh giá sản phẩm thường thấy trên mạng, đưa ra nhiều thông tin sai thay vì từ chối trả lời. Ảnh: OpenAI.
Cách hoạt động này gần giống như tính năng tự động điền, hay autocomplete, trên bàn phím điện thoại thông minh. Dựa trên văn bản đằng trước và các văn bản đã soạn trong quá khứ, điện thoại sẽ dự đoán các từ người dùng chuẩn bị nhập vào.
“Nếu tôi viết một tin nhắn cho vợ, bắt đầu bằng 'anh sắp...' thì điện thoại có thể gợi ý những từ tiếp theo là 'đi quán rượu' hoặc 'về muộn', vì các cụm từ này từng xuất hiện ở các tin nhắn tôi gửi cho vợ, và có khả năng cao là các từ mà tôi sẽ dùng để hoàn thành tin nhắn hiện tại", Michael Wooldridge, nhà nghiên cứu AI tại Viện Alan Turing ở London, giải thích. “ChatGPT thực hiện chính xác điều tương tự nhưng trên quy mô lớn hơn”.
"Mặc dù ChatGPT không có trí thông minh thực sự, nó không biết ý nghĩa đằng sau các từ, nhưng nó biết cách sắp xếp và sử dụng từ đó dựa trên các văn bản đã có, và có thể viết tóm tắt thông tin một cách hiệu quả", Josh Bersin, nhà sáng lập công ty tư vấn công nghệ nhân lực Bersin & Associates, cho biết.
OpenAI cảnh báo người dùng về thông tin sai, gây hại và giới hạn dữ liệu năm 2021 trước khi sử dụng ChatGPT. Ảnh: OpenAI.
Hạn chế của ChatGPT
Theo Search Engine Journal, các hạn chế dễ thấy nhất của “siêu AI” ChatGPT là không có khả năng biểu đạt cảm xúc hoặc suy nghĩ, chỉ có thông tin, do đó tỏ ra không tự nhiên khi giao tiếp về các chủ đề mang tính cá nhân.
AI, trong khi có chất lượng ngữ pháp cao và đưa ra nhiều thông tin, không thể thay thế người viết vì nó không thể hiện góc nhìn, kinh nghiệm cá nhân và nhận thức, theo nhà nghiên cứu Christopher Bartel tại Đại học bang Appalachian.
Các hạn chế này làm cho các sản phẩm “sáng tác” của AI như bài viết, thơ hay kịch bản có vẻ cứng nhắc và không chạm đến cảm xúc như con người có thể làm, và cũng là các dấu hiệu khiến cho AI vẫn bị “bại lộ” khi văn bản bị kiểm tra bởi các công cụ chuyên dụng.
Lượng yêu cầu cao gần đây, trong khi máy chủ chưa đủ đáp ứng, khiến ChatGPT thường xuyên bị nghẽn. Ảnh: Tuấn Anh.
Dữ liệu của AI cũng chỉ giới hạn đến năm 2021. OpenAI cho biết ChatGPT sẽ từ chối trả lời khi bị hỏi các câu hỏi về thời điểm từ năm 2021 trở về sau, hoặc mang tính dự đoán. Tuy nhiên thử nghiệm thực tế cho thấy AI vẫn có thể bị “lừa” trả lời câu hỏi về tương lai, và đưa ra câu trả lời tự tin với nhiều thông tin sai, chẳng hạn như khi viết bài đánh giá Galaxy S22, thiết bị ra mắt năm 2022.
ChatGPT cũng là một công nghệ “đắt đỏ” để vận hành. Do đòi hỏi sức mạnh tính toán lớn, chi phí máy chủ chạy ChatGPT có thể vào khoảng 100.000 USD mỗi ngày hoặc 3 triệu USD mỗi tháng, nhà khoa học máy tính Tom Goldstein tại Đại học Maryland đưa ra ước tính sơ bộ.
Chi phí thực tế cho một doanh nghiệp gần như chắc chắn sẽ cao hơn mức này, vì hệ thống thiết bị tính toán sẽ không thể hoạt động hoàn toàn tối ưu và số người dùng cũng như số phản hồi tăng nhanh chóng, chuyên gia cho biết.
Vì sao ChatGPT hấp dẫn hơn các chatbot AI đã có?
Công nghệ này đằng sau ChatGPT, gọi là mô hình ngôn ngữ lớn hay LLM, từng tạo ra nhiều chatbot có khả năng giao tiếp và trả lời câu hỏi, nhưng một số cải tiến kỹ thuật của OpenAI đã làm cho ChatGPT “mạnh” hơn.
Khi được yêu cầu viết tin nhắn cá nhân, AI đưa ra câu trả lời khó hiểu và sai ngữ cảnh, thay vì các câu trả lời lưu loát như khi được hỏi về các chủ đề xuất hiện nhiều trên Internet. Ảnh: Insider.
Đầu tiên, GPT-3, LLM nền tảng của ChatGPT, có 175 tỷ tham số và được đào tạo trên 570 gigabyte văn bản, Alex Tamkin và Deep Ganguli, 2 nhà khoa học máy tính tại Đại học Stanford, giải thích trong một bài viết. Để so sánh, phiên bản tiền nhiệm GPT-2 nhỏ hơn 100 lần với 1,5 tỷ tham số. Dù vậy, các LLM vẫn bị hạn chế ở chỗ không phải lúc nào cũng hiểu yêu cầu mà người dùng đưa ra.
"Chỉ làm cho các mô hình ngôn ngữ lớn hơn không giúp chúng tuân theo ý định của người dùng một cách hiệu quả hơn. Đầu ra của LLM có thể không trung thực, độc hại, không hữu ích, hay nói cách khác là không đáp ứng nhu cầu người dùng", các nhà nghiên cứu của Open AI viết trong một bản thảo trên arXiv. OpenAI cho biết họ cải thiện điểm yếu này bằng kỹ thuật Học tăng cường với phản hồi của con người, hay Reinforcement learning with human feedback.
“Câu trả lời AI đưa ra sẽ nhận được phản hồi từ người dùng, có thể là huấn luyện viên của OpenAI, và phản hồi này được đưa vào để cải thiện mô hình. Về lý thuyết, kỹ thuật này có thể làm cho ChatGPT ‘hiểu ý’ người dùng hơn và tạo ra câu trả lời thỏa mãn yêu cầu hơn so với các LLM đã có”, TS Nguyễn Xuân Hoài, nhà nghiên cứu học máy tại AI Academy Vietnam, trao đổi với Zing.
Tuy nhiên chuyên gia cũng lưu ý về thực tế, trải nghiệm người dùng có thể khác. Nhiều người dùng đã phản hồi câu trả lời của ChatGPT có xu hướng dài dòng, và các nhà phát triển mô hình tại OpenAI cho biết một phần lý do là những đưa ra phản hồi “thích những câu trả lời dài và có vẻ toàn diện hơn”.
Theo Zing