ChatGPT thực sự là gì?
ChatGPT thực sự là gì?
Xuất hiện lần đầu vào tháng 11/2022, ChatGPT đã nhanh chóng trở thành một hiện tượng nhờ khả năng đọc hiểu câu hỏi về nhiều lĩnh vực khác nhau và hồi đáp nhanh chóng. Chỉ 2 tháng sau khi ra mắt đã có 100 triệu người dùng, trở thành ứng dụng tăng trưởng nhanh nhất trong lịch sử Internet.
ChatGPT là một chương trình máy tính trí thông minh nhân tạo. Chuyên môn thì người ta hay gọi là Model A.I, tiếng Việt là "mô hình dữ liệu trí thông minh nhân tạo", nhưng thực chất nó vẫn là dữ liệu dạng số chạy trên máy tính nên gọi là chương trình cũng không sai.
Chữ Model A.I gồm 2 phần: Model (Mô hình dữ liệu) và A.I (Trí thông minh nhân tạo - artificial intelligence). Chiết tự nghĩa là Trí thông minh đến từ dữ liệu, suy ra là có nhiều dữ liệu thì nó sẽ phát sinh sự thông minh.
Quá trình tạo nên Model A.I là một quá trình gồm những bước: Thu thập dữ liệu, chọn lọc dữ liệu, gắn nhãn dữ liệu để huấn luyện, huấn luyện.
Về căn bản thì việc dạy A.I rất dễ, chẳng hạn như đoạn hội thoại sau:
Câu hỏi: Bạn tên gì ?
Trả lời: Tôi tên ChatGPT
Câu hỏi: VietNamNet là gì?
Trả lời: VietNamNet là một tờ báo điện tử tại Việt Nam.
Xong chúng ta dạy cho con A.I ghi nhớ cái thông tin này (training), rồi lưu cái não đã ghi nhớ của con A.I lại, thành Model A.I (model checkpoint). Sau này khi sử dụng thì load cái não với trí nhớ chứa các thông tin trên (inference) vào máy tính, bạn chỉ việc hỏi câu hỏi tương ứng, thì con A.I sẽ nhớ lại kiến thức đã được dạy và trả lời "y chang những gì nó được dạy".
Đấy, căn bản vỡ lòng về A.I là như trên, ai làm A.I cũng biết vụ này vì nó dễ lắm. Cái phương pháp tạo A.I căn bản này đã được nghiên cứu và hình thành từ 1950. Vậy tại sao hơn 70 năm mà A.I vẫn chưa thể thông minh hơn, cho tới gần đây và cụ thể là ChatGPT thì nó mới "khôn ngạc nhiên" vậy?
Thực ra là hàng chục năm qua A.I bị chuyên biệt hóa vô nhiều công việc cụ thể như: A.I hỗ trợ làm máy bay, A.I mô phỏng chiến đấu, A.I trong game... nhưng hầu như không có công ty lớn nào đầu tư cho A.I mảng ngôn ngữ, mãi cho tới 2017 thì mới có một sự đột phá về công nghệ khiến cho việc huấn luyện A.I hiệu quả hơn đột biến, nhất là A.I ngôn ngữ.
Ngôn ngữ cụ thể là chữ viết là thành tựu kiến tạo nên văn minh loài người, loài người chứa kiến thức của mình trong chữ viết, hiểu ngôn ngữ (chữ viết) là hiểu được kiến thức của loài người, đây chính là điểm cốt lõi tạo nên A.I ngôn ngữ, mà trước 2017 con người rất khó khăn để khiến máy tính hiểu được ý nghĩa của một câu có nghĩa.
Vậy năm 2017 có gì?
Tháng 8 năm 2017 các nhà khoa học tại Google, cụ thể là đơn vị Google Brain, đơn vị nghiên cứu chuyên sâu về A.I của Google từ 2011, đã phát minh ra một thuật toán gọi là Transformer (tên thuật toán rất giống bộ phim nổi tiếng trong lĩnh vực điện ảnh là Đại chiến Robot).
Thuật toán Transformer rất đột phá, cụ thể là đột phá về huấn luyện A.I ngôn ngữ. Trước khi có thuật toán này, con người muốn dạy A.I, thì phải làm chuyện tạo tập dữ liệu huấn luyện sẵn theo cặp câu hỏi-trả lời (labeling data) như ở trên đã đề cập, và máy móc thực ra chỉ ghi nhớ cặp câu hỏi-trả lời chứ không "hiểu" được ý nghĩa của câu văn đó, khác nhau rất lớn giữa học vẹt và học hiểu.
Dễ hiểu hơn nữa là sau năm 2017 chúng ta chỉ việc đổ dữ liệu chữ vào càng nhiều càng tốt, máy tính sẽ tự tìm hiểu cái thứ mình đổ vào nó nghĩa là gì thay vì mình phải chỉ cho chúng nó ý nghĩa.
Trích nguyên văn trong tài liệu công bố về Transformer của google: "With transformers, computers can see the same patterns humans see" (Với transfomer, máy tính có thể nhìn thấy những mẫu như con người nhìn thấy).
Google rất nhân văn khi công bố tài liệu chi tiết về thuật toán Transformer công khai cho tất cả mọi người truy cập được. Đồng thời cung cấp quyền sử dụng mở (Open-Source) đối với thuật toán này. Thế là toàn bộ giới khoa học làm A.I được hưởng lợi từ phát minh của Google. Trong đó có OpenAI, một công ty thành lập năm 2015 và không có thành tựu gì nổi bật cho tới sau 2017.
Sau khi Google công bố Transformer, thì sau đó vài tháng những con A.I ngôn ngữ đầu tiên dựa trên thuật toán mới này ồ ạt ra đời. Tháng 1/2018 thì OpenAI cho ra đời con A.I đầu tiên dựa trên Transformer là GPT-1, họ ứng dụng rất nhanh, nhanh hơn cả chính Google.
GPT viết tắt của Generative Pre-trained Transformer nghĩa là "chương trình Sinh Chữ đã được huấn luyện theo phương pháp Transformer"
Con A.I GPT này được tạo ra với mục đích chính là để "Sinh Chữ". Cụ thể là bạn sẽ chơi trò nối từ với nó, bạn viết một câu, nó sẽ đọc câu đó rồi dựa trên kiến thức nó đang lưu trữ trong bộ nhớ của nó mà "sinh ra chữ" nối tiếp cái câu mà bạn viết.
Chẳng hạn:
Bạn nhập: Việt Nam là
ChatGPT: Việt Nam là một nước nằm ở khu vực Đông Nam Á...
Đây chính là cái thứ trông có vẻ "vi diệu" của việc: Bạn chat một câu với ChatGPT và nó nói lại được một câu. Thực chất không phải là nó đang trả lời bạn mà là nó đang chơi nối từ bằng cách "Sinh Chữ" để nối tiếp ý nghĩa của câu mà bạn nhập vô chat với nó.
GPT-1 chính là đời đầu của ChatGPT. GPT-1 này là một con A.I khá là bé, bé đúng nghĩa về kích thước cũng như độ phức tạp.
Trong thế giới A.I Ngôn Ngữ thì người ta đo độ phức tạp - tương ứng với mức độ "thông minh" của con A.I - bằng một đơn vị là Hyper Parameters - Siêu Tham Số, cái khái niệm này có thể giải thích nôm na là con A.I này hiểu được ý nghĩa của tất cả các văn bản được dùng để dạy nó sâu tới bao nhiêu tầng ý nghĩa.
Để huấn luyện con A.I GPT này thì các khoa học gia tại OpenAI thu thập 1 lượng lớn văn bản chữ viết của con người, đa phần là từ Wikipedia, bách khoa toàn thư, các tờ báo lớn và công khai, khối lượng đâu đó khoảng hàng trăm GB vài trăm triệu văn bản. Họ thu thập xong thì làm sạch, chọn lọc nội dung. Rồi đem các văn bản đó cho con A.I đọc, bắt nó đọc rất rất nhiều lần, mỗi lần đọc cái khối dữ liệu đó nó lại nhìn thấy một tầng ý nghĩa đằng sau những con chữ đó, càng nhiều lần thì càng nhiều tầng ý nghĩa.
Càng nhiều tầng ý nghĩa được A.I nhận ra thì A.I càng nhiều Parameters. GPT-1 chỉ có khoảng 117 triệu Parameters, GPT-2 (2019) đạt 1.5 tỉ Parameters, GPT-3 (2020) đạt tới 175 tỉ Parameters
Hai con A.I GPT-1 và GPT-2 hầu như không được công chúng biết tới vì hiệu quả Sinh Chữ không thực sự ấn tượng do mức độ hiểu sâu các tầng ý nghĩa đằng sau các chữ viết của loài người vẫn còn nông quá, dĩ nhiên ở thời điểm đó con người vẫn chưa biết sâu bao nhiêu thì gọi là sâu và hiệu quả, nên các bác kỹ sư tại OpenAI lại miệt mài dạy cho con A.I GPT đào sâu thêm nhiều tầng nữa, cho tới tháng 5 năm 2020 thì con A.I GPT đã đào tới 175 tỉ Parameters, kết quả Sinh Chữ lúc này khiến chính họ còn thấy bùng nổ khi nó chơi nối từ với độ thông minh-hiểu biết ngang bằng một đứa trẻ 10 tuổi về mặt ngôn ngữ. Họ đặt tên nó là GPT-3
Con A.I GPT-3 ra đời đúng ra nó cũng sẽ có số phận như nhiều con A.I khác sau năm 2017 (khá nhiều công ty lớn đầu tư cho A.I như Facebook, Google, IBM, Microsoft cũng tạo ra các con A.I Ngôn Ngữ như GPT ), chúng đều bị giam trong phòng nghiên cứu và tuyệt đối không thể tiếp cận tự do bởi công chúng - người thường.
Lý do tại sao chúng bị cách ly nghiêm ngặt vậy?
Các con A.I được huấn luyện đạt tới mức độ hiểu sâu sắc ngôn ngữ chữ viết của con người, dẫn tới một vấn đề rất nghiêm trọng mà đến hiện tại chưa một nhà khoa học nào làm về A.I có giải pháp.
Tính "Đúng" hay "Sai" (True or False). A.I không thể hiểu được đâu là "Đúng" hay "Sai".
A.I có thể nhìn thấy được rất nhiều tầng ý nghĩa của một câu, nhưng không thể "hiểu được ý nghĩa đó đúng hay là sai". Vì đúng - sai là tương đối, đối với con người nó còn mong manh và gây tranh cãi thậm chí đánh nhau giữa con người và con người.
Bên cạnh đó, lượng dữ liệu văn bản rất lớn mà các nhà khoa học tại OpenAI thu thập để huấn luyện cho A.I không phải tất cả đều thiên hướng "đúng" và chứa những thông tin "đúng" với chuẩn mực của xã hội con người, do lượng dữ liệu đã quá lớn ngoài khả năng chọn lọc của họ rồi.
Ví dụ họ có thể thu thập phải những văn bản ghi là trái đất tròn, đồng thời cũng có thể thu thập trúng những văn bản ghi trái đất phẳng. Dữ liệu, chúng chứa cả thông tin đúng lẫn sai trong đó. Rồi khi A.I đọc đi đọc lại các văn bản đó để tìm các tầng ý nghĩa thì nó cũng đồng thời tìm ra luôn các ý nghĩa "đúng" lẫn ý nghĩa "sai", nhưng A.I không có ý thức để nhận biết được ý nghĩa nào - thông tin nào là đúng và ý nghĩa - thông tin nào là sai. A.I chỉ đơn thuần là ghi nhớ hết tất cả. Đến khi sau này được hỏi, nó cũng chỉ đơn thuần trả lời lại từ trí nhớ của nó những thông tin đó, không phân biệt đúng - sai.
Các công ty như Google, Facebook, IBM, Microsoft đã nhiều lần công bố các con A.I Ngôn Ngữ đột phá trong việc trả lời câu hỏi con người nhập vào, nhưng lại mau chóng xóa luôn con A.I đó đi. Bạn có thể search thấy các bài báo về việc này trên internet từ các tờ báo lớn. Hầu như là do con A.I đó trả lời một số câu hỏi bị thiên hướng tới một ý nghĩa "Sai" không thể chấp nhận được về mặt chuẩn mực xã hội hiện tại của con người như tôn trọng giới tính, tôn trọng tôn giáo, tôn trọng sắc tộc, tính chính xác của sự kiện đã xảy ra, các chân lý mà con người đã đồng thuận là đúng...
Các công ty lớn đều tuân theo chuẩn mực về độ chính xác về thông tin, họ đánh giá A.I chưa thể giải quyết được việc nhận thức Đúng - Sai thì tốt nhất không nên đi ra công chúng.
GPT-3 cũng như vậy, nó cũng tạo ra những đoạn văn vi phạm tới chuẩn mực về tính "Đúng- Sai" của con người, thậm chí sai đến nỗi không thể chấp nhận được.
Nhưng OpenAI bất chấp, dù họ được lập ra với tôn chỉ là "ngăn chặn sự nguy hiểm của A.I từ trong trứng nước", tôn chỉ này được Elon Musk rao giảng tại sự kiện công nghệ TED lúc công bố thành lập OpenAI
Họ mặc kệ sự nguy hiểm khi con A.I GPT-3 tạo ra những đoạn văn sai trái.
Họ là công ty A.I đầu tiên cung cấp API truy cập tới con A.I GPT-3 cho công chúng, chỉ việc đóng tiền là xài được. Điều mà không một công ty công nghệ lớn nào cung cấp cho tới hiện tại.
Họ thương mại hóa một con A.I không thể kiểm soát về tính "Đúng - Sai".
Báo chí lúc đó cũng khá là thích thú quảng bá về con A.I GPT-3 của họ, các công ty vừa và nhỏ khác trên thị trường cũng hào hứng ứng dụng GPT-3 vào các sản phẩm công nghệ.
GPT-3 đang trên đà trở nên phổ dụng thì đại dịch Covid-19 bùng nổ toàn cầu, tình hình bệnh dịch càng lúc càng căng từ giữa năm 2020, dòng thông tin đại dịch nhấn chìm luôn thông tin về GPT-3.
Con A.I GPT-3 và OpenAI bị công chúng quên lãng cho tới cuối năm 2022. OpenAI quyết định làm một chương trình marketing xem có vực dậy được hứng thú với A.I Ngôn Ngữ nữa không ?
Vậy là họ chỉnh sửa con A.I GPT-3 thành ChatGPT, làm cho nó dễ dùng hơn, thay vì đến với hình dạng là một trang web mà người ta gõ chữ vô, chỉnh sửa tham số, rồi nhận lại một đoạn văn nối từ, thì ChatGPT đến với hình dạng của một chương trình Chat, với một khung chat để nhập câu hỏi, con A.I ChatGPT lại chơi trò Sinh Chữ nối từ với câu hỏi đó, nhưng dưới dạng một câu trả lời.
Chỉ một thay đổi nhỏ về UI/UX nhưng A.I trở nên dễ giao tiếp hơn nhiều.
Rất may mắn, họ đã thành công, họ vực lại được sự tò mò của công chúng đối với A.I, đẩy xa sự tưởng tượng của công chúng đối với A.I, hình thành được một hình ảnh rõ nét về A.I trong đầu công chúng là "một con robot trả lời mọi câu hỏi của người dùng". Chỉ trong 1 tháng mà ai cũng nói về A.I , và A.I trở nên tương đương với ChatGPT.
Nếu được cung cấp nguồn dữ liệu đầu vào tốt, ChatGPT sẽ ngày càng trở nên thông minh và được sử dụng rộng rãi hơn, thậm chí trong các lĩnh vực như nghệ thuật, âm nhạc, văn học....
Công nghệ lúc nào cũng có hai mặt sáng và tối. Ở chiều ngược lại, nếu không được “dạy dỗ” tốt, không có sự sàng lọc về dữ liệu, ChatGPT sẽ trở thành thảm họa. Hacker có thể lợi dụng chương trình này để viết các nội dung email lừa đảo, fake news, gợi ý tạo ra các mã độc.
Một số hacker nghiệp dư đã và đang sử dụng ChatGPT cho các mục đích xấu. Đây là vấn đề mà các nhà nghiên cứu về bảo mật đang lo ngại.
Người dùng Việt Nam đổ xô mua bán tài khoản ChatGPT
ChatGPT ra đời sau hai tháng đã đạt 100 triệu người dùng toàn thế giới – Ảnh: KTMT
Thị trường mua bán tài khoản ChatGPT nhộn nhịp trên mạng xã hội Việt Nam.
Theo thống kê của Google Trends, một tuần qua, từ khóa “ChatGPT”, “OpenAI” nằm trong top từ khóa được tìm kiếm nhiều tại Việt Nam. Siêu AI này trở thành chủ đề hot trên mạng xã hội Facebook của người Việt trong nước. Trên nhiều trang cá nhân, ảnh chụp màn hình các cuộc trò chuyện với ChatGPT xuất hiện với sự giễu cợt, lẫn thán phục. Vì thế, nhiều người mong muốn được “nói chuyện” với siêu AI và tìm cách tạo tài khoản dùng thử.
Vì OpenAI chưa hỗ trợ thị trường Việt Nam nên người dùng phải tìm cách “lách” theo hướng dẫn trên mạng như tải VPN để thay đổi địa chỉ mạng, nạp tiền, thuê số điện thoại ảo… Thao tác phức tạp và khó thành công nên nhiều người tìm tới dịch vụ mở tài khoản ChatGPT. Từ đó, thị trường mua bán tài khoản, cung cấp dịch vụ tạo tài khoản ChatGPT nhanh chóng hình thành và nhộn nhịp trên nhiều nhóm cộng đồng.
Nhiều trang cộng đồng ở Việt Nam rao bán tài khoản ChatGPT – Ảnh chụp màn hình
Tuy nhiên, giá loạn cào cào, từ 8,000 đồng – 200,000 đồng ($0.34-$8,47), nhưng cũng có người cho sử dụng miễn phí. VnExpress hôm 4 Tháng Hai cho biết dịch vụ mở tài khoản ChatGPT chia làm bốn loại:
Thứ nhất là các tài khoản được tạo sẵn với tên và mật khẩu, được bán với giá 8,000-15,000 đồng ($0.34-$0.64), không đổi được mật khẩu, có nhiều người dùng chung nên thường phải chờ đợi rất lâu;
Thứ hai sử dụng email của bên cung cấp và người dùng có thể chủ động đổi mật khẩu tài khoản, giá thường trên 20,000 đồng ($0.85);
Thứ ba là người dùng sẽ mở tài khoản bằng email của mình, với chi phí từ 30,000 đồng ($1.27) trở lên;
Thứ tư, tài khoản có giá 200,000 đồng ($8,47) có sẵn $18 và người dùng có thể tùy chỉnh để tối ưu hóa các kết quả tìm kiếm, số tiền $18 sẽ được trừ dần vào các lần sử dụng, trung bình OpenAI sẽ tính phí $0.005-$0.02 cho mỗi ký tự trong câu trả lời.
Do việc mua bán tài khoản ChatGPT là tự phát, nên nhiều bài viết trên các báo Việt Nam… đều cảnh báo người dùng có thể bị lừa tiền, khi bên bán dụ người dùng gửi tiền trước nhưng không cung cấp tài khoản hoặc cho tài khoản sai…
Trên thị trường cũng xuất hiện tình trạng bên bán đưa một tài khoản cho nhiều người sử dụng, thậm chí lấy những tài khoản được chia sẻ miễn phí trên các hội nhóm để bán lại với giá cao, việc sử dụng không ổn định, mật khẩu bị thay đổi liên tục. Hoặc người dùng có thể bị dụ cung cấp các thông tin tài khoản email và mật khẩu đang sử dụng, từ đó bị kẻ xấu chiếm đoạt và tấn công sang nhiều tài khoản liên quan khác.
Một group trên Facebook rao chia sẻ tài khoản ChatGPT miễn phí – Ảnh chụp màn hình
Bài báo mới nhất về vấn đề này trên Zing News tối 7 Tháng Hai cho biết giá dịch vụ tạo tài khoản ChatGPT trên các chợ mạng Việt đã giảm nhanh chóng, nay chỉ còn từ 10,000 – 20,000 đồng ($0.42-$0.85). Zing News dẫn lời Minh T., một người bán tài khoản ChatGPT chia sẻ:
“Vài tuần trước lượng người hỏi mua thì nhiều, lượng người bán vẫn ít nên một tài khoản tạo hộ giá lên tới hơn 100,000 đồng ($4,24). Gần đây thì người ta hỏi mua ít hơn, nhiều người cũng đã thành thạo việc tạo tài khoản nên mức giá mới giảm mạnh như vậy”.
Cũng theo Minh T., nguyên nhân là số người tò mò về ChatGPT đang giảm, việc chia sẻ tài khoản với thân nhân, bạn bè, đồng nghiệp…. khiến giá mỗi tài khoản ChatGPT tạo hộ nhanh chóng hạ nhiệt.
Quang T., một người bán tài khoản ChatGPT qua kênh ứng dụng nhắn tin, nói với Zing News: Với công sức và thời gian bỏ ra để tạo một tài khoản, 10,000 đồng ($0.42) là mức giá không thể thấp hơn, và vì giá xuống thấp, nên tình trạng lừa đảo lấy tiền mà không cung cấp tài khoản đã giảm rất nhiều.
Chat GPT được công ty nghiên cứu trí tuệ nhân tạo OpenAI xây dựng dựa trên nền tảng mô hình xử lý ngôn ngữ GPT-3, có khả năng đối thoại qua lại và thực hiện “sáng tác” theo yêu cầu người dùng đưa ra. Nhờ khả năng phân tích và hiểu ngôn ngữ con người, siêu AI này đọc hiểu câu hỏi về nhiều lĩnh vực khác nhau và hồi đáp nhanh chóng với kho thông tin khổng lồ, vì thế ChatGPT nhanh chóng trở thành một hiện tượng công nghệ toàn cầu.
Trả lời VnExpress hôm 4 Tháng Hai 2023, kỹ sư AI Nguyễn Hoàng Bảo Đại – người thứ ba ở Việt Nam được Google công nhận là Google Developer Expert (GDE) trong lĩnh vực Machine Learning – nhận định:
ChatGPT gây “sốt” ở Việt Nam nói riêng và thế giới nói chung vì đây là lần hiếm hoi công chúng được tiếp cận với một mô hình trí tuệ nhân tạo lớn. ChatGPT không dừng ở khả năng tán gẫu thông thường như các chatbot truyền thống mà còn có thể tìm kiếm, xử lý nhanh thông tin, trả lời theo ngữ cảnh. Khả năng tiếp nối câu chuyện trong đoạn hội thoại và giao diện dễ dùng với đa số người dùng phổ thông cũng khiến siêu AI này nhanh chóng gây được tiếng vang.
Dữ liệu từ Similar Web cho thấy sau hai tháng ra mắt, ChatGPT của OpenAI đã đạt 100 triệu người dùng. Trong khi đó theo thống kê của Sensor Tower, TikTok cần 9 tháng sau khi phát hành toàn cầu để đạt 100 triệu người dùng, còn Instagram mất tới 2.5 năm, Google Translate là 6.5 năm.
Cũng trong sáng 7 Tháng Hai, trong cuộc họp báo đầu năm, Bí thư TP. HCM Nguyễn Văn Nên đã nhắc nhiều đến ChatGPT và cho rằng siêu AI này sẽ tác động tích cực và tiêu cực đến báo chí Việt, nhắc nhở các nhà báo trong nước: “Người làm báo cần phải nhanh hơn để chuyển tải thông tin, truyền cảm hứng cho cộng đồng. Tuy nhiên, điều quan trọng không có gì thay thế được chính là quan điểm cá nhân, ý thức chính trị và tính chuyên nghiệp của người làm báo để hoàn thành sứ mệnh của mình”.
“Ý thức chính trị” có lẽ là điều ChatGPT không thể hiểu nổi!
(SGN)
____________
Huỳnh Trúc Lập