ChatGPT, viết tắt của Chat Generative Pre-training Transformer, là một chatbot do công ty OpenAI của Mỹ phát triển và ra mắt vào tháng 11 năm 2022. ChatGPT được xây dựng dựa trên GPT-3.5 - một dòng mô hình ngôn ngữ lớn của OpenAI đồng thời được tinh chỉnh bằng cả hai kỹ thuật học tăng cường lẫn học có giám sát.
ChatGPT được ra mắt dưới dạng nguyên mẫu vào tháng 11 năm 2022 và nhanh chóng thu hút sự chú ý nhờ việc nó có thể hồi đáp chi tiết và trả lời lưu loát trên nhiều lĩnh vực kiến thức khác nhau. Độ chính xác không đồng đều về dữ kiện thực tế của nó được xác định là mặt hạn chế đáng kể.
Sau khi phát hành ChatGPT, OpenAI được định giá 29 tỷ USD.
Huấn luyện
ChatGPT được tinh chỉnh dựa trên GPT-3.5 bằng cách sử dụng phương pháp học có giám sát cùng với phương pháp học tăng cường.
Cả hai phương pháp đó đều sử dụng huấn luyện viên là con người để cải thiện hiệu suất của mô hình. Trong trường hợp học có giám sát (supervised learning), mô hình này được cung cấp các hội thoại trong đó huấn luyện viên đóng vai trò làm cả hai bên: người dùng và trợ lý AI.
Trong bước tăng cường (reinforcement), đầu tiên 'huấn luyện viên con người' xếp hạng các phản hồi mà mô hình này đã tạo ra trong mấy hội thoại trước đó. Các xếp hạng này được sử dụng để tạo ra 'mô hình phần thưởng', rồi từ đó mô hình đấy được tinh chỉnh thêm nữa bằng cách sử dụng Proximal Policy Optimization (PPO, Tối ưu hóa chính sách cận tính), lặp đi lặp lại mấy lần quá trình này.
Các thuật toán của Proximal Policy Optimization mang trong mình những lợi điểm của các thuật toán trong trust region policy optimization (Tối ưu hóa chính sách miền tin tưởng), mà lại khắc phục được các thao tác tốn kém trong tính toán nhờ hiệu suất nhanh hơn.Các mô hình đấy được huấn luyện với sự cộng tác từ Microsoft trên cơ sở hạ tầng siêu máy tính Azure của họ.