ChatGPT-4 sẽ có 100 Nghìn tỷ tham số

Tram Ho

OpenAI ra đời với mục tiêu giải quyết thách thức đạt được Trí tuệ Nhân tạo Tổng quát (AGI) – một loại trí tuệ nhân tạo có khả năng thực hiện bất cứ điều gì mà con người có thể làm được. Công nghệ này có tiềm năng thay đổi thế giới như chúng ta biết. Sử dụng đúng cách, AGI có thể mang lại lợi ích cho tất cả mọi người, tuy nhiên nếu rơi vào tay những kẻ xấu, nó cũng có thể trở thành vũ khí đáng sợ nhất. Vì vậy, OpenAI đã tiếp nhận nhiệm vụ này để đảm bảo rằng nó sẽ mang lại lợi ích công bằng cho tất cả mọi người.

“Mục tiêu của chúng tôi là thúc đẩy trí thông minh kỹ thuật số theo cách có thể mang lại lợi ích cho nhân loại nhất.”

Mặc dù đã có nhiều tiến bộ trong lĩnh vực khoa học máy tính và trí tuệ nhân tạo, nhưng vấn đề đạt được trí tuệ nhân tạo tổng quát (AGI) vẫn là một trong những dự án khoa học lớn nhất mà con người đã từng tham gia. Stuart Russell, giáo sư khoa học máy tính tại Berkeley và tiên phong trong lĩnh vực trí tuệ nhân tạo, cho rằng “tập trung vào sức mạnh tính toán nguyên thủy hoàn toàn bỏ lỡ điểm chính […] Chúng ta không biết cách làm cho một máy thực sự thông minh – ngay cả khi nó có kích thước của vũ trụ.”

Tuy nhiên, OpenAI tin rằng đào tạo các mạng neural lớn trên dữ liệu lớn và máy tính lớn là cách tốt nhất để đạt được AGI. OpenAI tin tưởng vào “giả thuyết quy mô”. Nếu được cung cấp một thuật toán có khả năng mở rộng, ví dụ như Transformer – kiến trúc cơ bản đằng sau GPT, thì có thể có một con đường thuận tiện đến AGI bằng cách đào tạo các mô hình ngày càng lớn hơn dựa trên thuật toán này.

Và đó là những gì OpenAI đã làm. Họ bắt đầu huấn luyện các mô hình lớn hơn và lớn hơn để khai thác tiềm năng tiềm tàng trong học sâu. Các bước đi đầu tiên không rõ ràng trong hướng này bao gồm việc phát hành GPT và GPT-2. Những mô hình ngôn ngữ lớn này đã đặt nền tảng cho ngôi sao của chương trình: GPT-3. Một mô hình ngôn ngữ lớn hơn gấp 100 lần so với GPT-2, với 175 tỷ tham số.

GPT-3 là mạng neural lớn nhất từng được tạo ra – và vẫn là mạng neural dày đặc lớn nhất. Sự thành thạo ngôn ngữ của nó và khả năng không đếm xuể của nó đã gây ngạc nhiên cho hầu hết mọi người. Và mặc dù một số chuyên gia vẫn còn hoài nghi, các mô hình ngôn ngữ lớn đã cảm thấy rất giống con người. Đó là một bước tiến lớn đối với các nhà nghiên cứu OpenAI để củng cố niềm tin của họ và thuyết phục chúng ta rằng AGI là một vấn đề của học sâu.

Ba yếu tố quan trọng nhất – thuật toán, dữ liệu và máy tính.

OpenAI tin vào giả thuyết về tăng tỷ lệ. Nếu có một thuật toán có khả năng tăng tỷ lệ, trong trường hợp này là kiến trúc cơ bản của gia đình GPT – bộ chuyển đổi, có thể có một con đường trực tiếp đến AGI bằng cách đào tạo các mô hình ngày càng lớn dựa trên thuật toán này.

Tuy nhiên, các mô hình lớn chỉ là một phần trong câu đố AGI. Để đào tạo chúng, cần phải có tập dữ liệu lớn và khả năng tính toán lớn.

Dữ liệu đã không còn là một trở ngại khi cộng đồng học máy bắt đầu khám phá tiềm năng của học không giám sát. Điều này, kết hợp với mô hình ngôn ngữ sinh ra và chuyển tác vụ trong vài bước, giải quyết vấn đề “tập dữ liệu lớn” cho OpenAI.

OpenAI cần sử dụng tài nguyên tính toán lớn để đào tạo các mô hình của họ, và họ đã hợp tác với Microsoft để có quyền truy cập vào cơ sở hạ tầng máy tính đám mây và GPU mạnh mẽ của họ. Tuy nhiên, GPU không đủ để đào tạo các mô hình ngày càng lớn của OpenAI. Do đó, họ đã chọn sử dụng chip AI đặc biệt của bên thứ ba, và Cerebras Systems là một trong số đó. Công ty này đã xây dựng chiếc chip lớn nhất từng được tạo ra để đào tạo các mạng neural lớn vào năm 2019 và được OpenAI sử dụng để tận dụng tối đa sản phẩm kỳ diệu này của kỹ thuật.

Một chiếc chip và một mô hình – WSE-2 & GPT-4.

Hai tin tức quan trọng được tiết lộ trên tạp chí Wired cách đây hai tuần. Cerebras đã xây dựng chiếc chip mới nhất trên thị trường, Wafer Scale Engine Two (WSE-2) với 2,6 nghìn tỷ transistor và 850.000 lõi tính toán. Họ đã giải quyết vấn đề nén năng lượng tính toán hiệu quả, làm mát và tạo luồng dữ liệu I/O hiệu quả. Các ứng dụng của chiếc chip này là rất hạn chế, nhưng đào tạo các mạng neural lớn là một trong số đó. Và vì vậy, Cerebras đã tiếp cận OpenAI để hợp tác.

Thứ hai, Andrew Feldman, CEO của Cerebras, đã tiết lộ rằng GPT-4 sẽ có khoảng 100 nghìn tỷ tham số và sẽ phát hành trong vài năm tới. Điều đó cho thấy rằng OpenAI tiếp tục tiến tới với các mô hình ngôn ngữ cực kỳ lớn. Kích thước của GPT-4 sẽ lớn hơn x500 so với GPT-3 đã gây sốc cho thế giới năm ngoái.

Chúng ta có thể mong đợi gì từ GPT-4?

Con số 100 nghìn tỷ tham số của GPT-4 thật sự là một con số lớn. Để hiểu rõ hơn về nó, chúng ta có thể so sánh với não của chúng ta. Trong não, có khoảng 80-100 tỷ tế bào thần kinh (tương đương với GPT-3) và khoảng 100 nghìn tỷ synapse.

GPT-4 sẽ có số tham số bằng số synapse của não.

Sự tăng kích thước của mạng neural như vậy có thể mang lại những bước tiến đáng kể từ GPT-3 mà chúng ta chưa thể tưởng tượng được. Tuy nhiên, so sánh một mạng neural nhân tạo với não là một công việc phức tạp, vì các tế bào thần kinh nhân tạo được xây dựng trên cơ sở của tế bào thần kinh sinh học nhưng lại không giống nhau hoàn toàn. Một nghiên cứu mới đây trên Neuron cho thấy, ít nhất cần có một mạng neural 5 lớp để mô phỏng hành vi của một tế bào thần kinh sinh học. Điều đó có nghĩa là cần khoảng 1000 tế bào thần kinh nhân tạo để tương đương với một tế bào thần kinh sinh học.

Dù sao đi nữa, GPT-4 sẽ đem đến những điều bất ngờ cho chúng ta. Khác với GPT-3, nó có thể không chỉ là một mô hình ngôn ngữ. Ilya Sutskever, nhà khoa học trưởng tại OpenAI, đã đề cập đến điều này khi ông viết về đa dạng hóa vào tháng 12 năm 2020:

“Vào năm 2021, các mô hình ngôn ngữ sẽ bắt đầu nhận thức được thế giới hình ảnh. Chỉ với văn bản thôi cũng có thể diễn tả được rất nhiều thông tin về thế giới, nhưng nó không đầy đủ, vì chúng ta sống trong một thế giới hình ảnh.”

GPT-4 là một đột phá lớn trong lĩnh vực trí tuệ nhân tạo. Với số tham số lên tới 100 nghìn tỷ, nó sẽ có khả năng tương đương với số synapse của não. Đây là một bước tiến đáng kinh ngạc so với GPT-3 với chỉ 12 tỷ tham số. GPT-4 có thể không chỉ là một mô hình ngôn ngữ, mà còn có khả năng thao tác các khái niệm hình ảnh thông qua ngôn ngữ và thậm chí là lập trình. Tuy nhiên, việc xác định liệu GPT-4 có thể mang lại các đặc điểm giống con người như lập luận và sự thông hiểu thông thường là một câu hỏi chưa có câu trả lời. Mặc dù vậy, OpenAI đã không ngừng nỗ lực khai thác các khả năng ẩn của GPT-3 và đưa ra các trường hợp cụ thể như DALL·E và Codex. GPT-4 hứa hẹn sự kết hợp của sự rộng lớn và sâu sắc của các hệ thống chuyên môn và tổng quát, và sẽ là một đột phá đáng chú ý trong lĩnh vực trí tuệ nhân tạo.

Nguồn: https://congdongchatgpt.com/d/43-gpt-4-se-co-100-nghin-ty-tham-so-gap-500-lan-kich-thuoc-cua-gpt-3

Chia sẻ bài viết ngay

Nguồn bài viết : Viblo