Thứ hai 29/04/2024 03:56

“ChatGPT phiên bản Việt” và câu chuyện của người tiên phong

Kinh tế - Xã hội - PV

Chỉ 9 tháng sau khi ChatGPT ra mắt, đội ngũ kỹ sư VinBigdata (Tập đoàn Vingroup) đã làm chủ hoàn toàn mô hình ngôn ngữ lớn tiếng Việt và chính thức giới thiệu ViGPT - ChatGPT phiên bản Việt đầu tiên dành cho người dùng cuối vào tháng 12/2023. Sản phẩm nhanh chóng gây được tiếng vang trong cộng đồng khoa học công nghệ Việt Nam.

Chọn con đường khó để giải bài toán Việt

Vào cuối năm 2022, ChatGPT tạo nên một “cú nổ lớn”, mở ra cuộc đua chinh phục AI tạo sinh giữa các các quốc gia và ông lớn trong lĩnh vực công nghệ. Giới công nghệ Việt khi ấy cũng sục sôi mong muốn phát triển những sản phẩm của riêng người Việt để tự chủ về công nghệ, giảm thiểu sự phụ thuộc vào các sản phẩm quốc tế. Tuy nhiên, không phải đơn vị nào cũng đủ khả năng và quyết tâm hiện thực hóa mong muốn ấy như VinBigdata.

“ChatGPT phiên bản Việt” và câu chuyện của người tiên phong

GS Vũ Hà Văn - Giám đốc Khoa học VinBigdata

“AI tạo sinh là một bài toán khó. Các ông lớn như OpenAI hay Google cũng phải đổ rất nhiều nguồn lực và thời gian vào nghiên cứu mới có thể tạo ra những sản phẩm như chúng ta thấy. Các sản phẩm này đã rất tốt nhưng thật ra các nhà khoa học cũng vẫn chưa hoàn toàn hiểu cơ cấu hoạt động của nó. Khi nào nó có lỗi, và lỗi sẽ như thế nào ít ai đoán trước được. Để phát triển một sản phẩm tương tự ChatGPT dành cho người Việt trong thời gian ngắn chưa tới một năm thì rất nhiều thử thách. Nhưng chúng tôi đã lựa chọn "liều" vì một phiên bản ChatGPT tiếng Việt nếu không phải người Việt làm thì ai làm”, GS. Vũ Hà Văn - Giám đốc Khoa học VinBigdata chia sẻ.

Thực tế, rất ít công ty lựa chọn xây dựng mô hình ngôn ngữ lớn của riêng mình từ đầu. Như GPT 3 của OpenAI có 175 tỷ tham số và được đào tạo trên bộ dữ liệu 45 terabyte và tiêu tốn 4,6 triệu USD. Thậm chí, theo tính toán, số tiền để phát triển GPT 4 có thể lên tới 100 triệu USD.

“Với những con số khổng lồ như thế, rất khó để tìm được một công ty nào đủ sức đầu tư cho công nghệ này”, TS. Nguyễn Kim Anh - Giám đốc Sản phẩm VinBigdata nói.

Để các doanh nghiệp Việt Nam có thể tiếp cận với công nghệ AI thế hệ mới với chi phí và hạ tầng tối ưu, VinBigdata lựa chọn một hướng đi hoàn toàn khác biệt, đó là tạo ra một mô hình ngôn ngữ chỉ với 1,6 tỷ tham số nhưng có khả năng tương đương với những mô hình ngôn ngữ lớn có nhiều tỷ tham số.

“Kết quả cho thấy, với kiến trúc do chính VinBigdata tự phát triển hoàn toàn có thể tối ưu và đẩy nhanh quá trình huấn luyện mô hình ngôn ngữ, giảm chi phí hạ tầng, bao gồm chi phí huấn luyện và chi phí sử dụng nhưng vẫn đảm bảo chất lượng của mô hình”, TS. Nguyễn Kim Anh cho biết thêm.

Sau khi giải quyết bài toán về kích thước mô hình ngôn ngữ lớn, trong quá trình “thai nghén” ViGPT, sau khi nghiên cứu các mô hình của nước ngoài, đội ngũ VinBigdata còn nhận ra một thử thách khác là “tính ảo giác”, đến từ bản chất cố hữu của mô hình xác suất thống kê.

Theo đó, các mô hình ngôn ngữ lớn trên thế giới thường được huấn luyện bằng các nguồn dữ liệu tiếng Anh. Do đó, mô hình này chưa thực sự hiểu và phản ứng đúng với ngữ cảnh và văn hóa của người Việt. Điều này dẫn đến tình trạng ảo giác (hallucination) khiến mô hình ngôn ngữ lớn “bịa đặt” ra câu trả lời không chính xác.

Để tìm ra lời giải tối ưu trong thời gian ngắn nhất, đội ngũ xử lý ngôn ngữ tự nhiên (NLP) của VinBigdata được chia thành các nhóm nhỏ, cùng phân tích, bàn bạc các ý tưởng khác nhau để tìm hướng đi cuối cùng phù hợp nhất.

“Sau cùng, chúng tôi quyết định phát triển kiến trúc khác so với phần lớn mô hình ngôn ngữ lớn hiện tại, đồng thời tiến hành đào tạo trên bộ 600GB dữ liệu tiếng Việt tinh chỉnh, nhằm tạo ra một “trợ lý ảo thông minh” có khả năng hiểu và đưa ra câu trả lời theo ngữ cảnh của người Việt”, TS. Nguyễn Kim Anh nói thêm.

Khát vọng một hệ sinh thái công nghệ Việt

Theo kết quả đánh giá từ Bộ Tiêu chuẩn đánh giá năng lực tiếng Việt (VMLU), ViGPT đạt điểm trung bình là 42.24%, đứng thứ hai chỉ sau ChatGPT (48.54%). Kết quả này cho phép ViGPT tìm kiếm thông tin, giải đáp câu hỏi về các chủ đề đặc trưng, đặc thù của Việt Nam một cách nhanh chóng.

Bên cạnh năng lực của trợ lý ảo, điều đội ngũ phát triển mong muốn là tích hợp ViGPT vào các sản phẩm gần gũi, sử dụng hằng ngày, nhằm tạo ra sự thay đổi trong cuộc sống của người Việt. Đó chính là động lực thôi thúc đội ngũ VinBigdata xây dựng một hệ sinh thái các sản phẩm ngôn ngữ và tiếng nói ứng dụng ViGPT - Hệ sinh thái “Vi” bao gồm: ViChat, ViVoice, Trợ lý ảo ViVi. Các sản phẩm này có thể sử dụng cho đa ngành nghề, từ công nghiệp ô tô, ngân hàng - tài chính, bảo hiểm đến giao thông vận tải và nhiều lĩnh vực khác.

“ChatGPT phiên bản Việt” và câu chuyện của người tiên phong

Đội ngũ VinBigdata kỳ vọng tạo ra một “trợ lý ảo thông minh” có khả năng hiểu và đưa ra câu trả lời theo ngữ cảnh của người Việt

“Khi làm công nghệ, nhất là AI, chúng tôi không chỉ muốn chinh phục những hệ thống hay, phức tạp mà khó nhìn thấy. Chúng tôi muốn tạo ra những sản phẩm hữu hình, có tính ứng dụng cao mà ở đó, AI là tác nhân trực tiếp tạo ra những thay đổi trong cuộc sống”, Giám đốc Sản phẩm VinBigdata khẳng định.

Do đó, phát triển thành công ViGPT mới chỉ là bước đầu tiên trong hành trình đưa công nghệ và dữ liệu “thuần Việt” phục vụ cuộc sống của hàng triệu người dân Việt Nam. Đại diện VinBigdata cho biết, đơn vị này đặt mục tiêu tích hợp ViGPT vào nền tảng trí tuệ nhân tạo đa nhận thức VinBase 2.0, nhằm cung cấp các giải pháp vượt trội cho hệ thống tổ chức, doanh nghiệp ở đa dạng quy mô, ngành nghề.

“ChatGPT phiên bản Việt” và câu chuyện của người tiên phong

ViGPT sẽ được tích hợp vào nền tảng VinBase 2.0, với các giải pháp ứng dụng AI tạo sinh và hệ tri thức đa ngành nghề, nhằm tăng tốc số hóa doanh nghiệp

Trước ViGPT, đội ngũ chuyên gia, kỹ sư trong lĩnh vực công nghệ xử lý ngôn ngữ và tiếng nói VinBigdata đã ghi dấu ấn với việc cho ra mắt ViVi - trợ lý ảo tiếng Việt toàn diện đầu tiên (được ứng dụng và triển khai trên các dòng ô tô điện VinFast, ứng dụng cư dân Vinhomes Resident và sàn thương mại điện tử Vinhomes Online), đồng thời, làm chủ hoàn toàn những công nghệ tiên tiến nhất trên thế giới như Sinh trắc học giọng nói (Voice Biometrics) hay Nhân bản giọng nói (Voice Cloning).

Tất cả những công nghệ này đều được phát triển dựa trên cơ sở dữ liệu 3.500 terabyte, tập trung chủ yếu vào dữ liệu đặc thù của người Việt, do VinBigdata thu thập, phân tích và tinh chỉnh. Mục tiêu sau cùng là làm sao mang công nghệ thế giới, chạm tới cuộc sống Việt, bằng chính dữ liệu và hệ tri thức của người Việt.

ViGPT là “ChatGPT phiên bản Việt" đầu tiên dành cho người dùng cuối được xây dựng dựa trên mô hình ngôn ngữ lớn tiếng Việt (LLM) do VinBigdata phát triển. ViGPT sở hữu những tính năng vượt trội và thiết kế phù hợp nhất với nhu cầu sử dụng của người Việt như sáng tạo nội dung, tìm kiếm thông tin, giải đáp các câu hỏi thường thức mang đặc trưng của Việt Nam. Đăng ký và trải nghiệm ViGPT tại: vigpt.vinbigdata.com

Hiến kế nâng cao chất lượng đội ngũ chủ tịch công đoàn cơ sở Hiến kế nâng cao chất lượng đội ngũ chủ tịch công đoàn cơ sở

Trước thềm Đại hội XIII Công đoàn Việt Nam, Tổng LĐLĐ Việt Nam tổ chức diễn đàn chuyên đề “Đổi mới công tác vận động, ...

Nâng cao chất lượng công tác nữ công trong chăm lo cho lao động nữ Nâng cao chất lượng công tác nữ công trong chăm lo cho lao động nữ

Những hoạt động chăm lo đời sống vật chất, tinh thần của lao động nói chung và lao động nữ nói riêng luôn là vấn ...

Mua xe máy cũ cần lưu ý những gì để vừa chất lượng vừa giá tốt Mua xe máy cũ cần lưu ý những gì để vừa chất lượng vừa giá tốt

Làm thế nào để có thể sở hữu một chiếc xe máy cũ (đã qua sử dụng) nhưng vẫn đảm bảo các tiêu chí: chất ...

Chia sẻ
In bài viết

Tin cùng chuyên mục

Đón hè sang, thưởng ngoạn thế giới theo phong cách của giới thượng lưu

Kinh tế - Xã hội -

Đón hè sang, thưởng ngoạn thế giới theo phong cách của giới thượng lưu

Mùa hè đến là thời điểm thích hợp để người người, nhà nhà đi du lịch, trải nghiệm vùng đất mới, lựa chọn khám phá nhiều nơi trên thế giới để tận hưởng cảm giác hạnh phúc bên gia đình, người thân. Người bạn đồng hành không thể thiếu trong suốt hành trình là chiếc thẻ Tín dụng Quốc tế đẳng cấp, tiện lợi.

Trường ĐH Tôn Đức Thắng đạt chuẩn chất lượng giáo dục Quốc tế - FIBAA 2024-2030

Kinh tế - Xã hội -

Trường ĐH Tôn Đức Thắng đạt chuẩn chất lượng giáo dục Quốc tế - FIBAA 2024-2030

Trường Đại học Tôn Đức Thắng (TDTU) được công nhận đạt chuẩn kiểm định chất lượng cơ sở giáo dục theo tiêu chuẩn FIBAA (2024-2030) và có thêm 18 chương trình đào tạo được cấp chứng nhận kiểm định chất lượng theo tiêu chuẩn quốc tế FIBAA, ASIIN, AUN-QA.

Xót ruột dàn siêu xe ngập bùn nước sau trận lũ lịch sử ở Dubai

Kinh tế - Xã hội -

Xót ruột dàn siêu xe ngập bùn nước sau trận lũ lịch sử ở Dubai

Dàn siêu xe ngập bùn nước chỉ là một phần nhỏ trong hàng trăm nghìn chiếc xe đắt tiền bị gặp nạn sau trận mưa lũ lịch sử tại Dubai, UAE vừa qua.

“Du lịch tại chỗ” siêu hấp dẫn, cư dân Ocean City chọn ở nhà suốt mùa hè

Kinh tế - Xã hội -

“Du lịch tại chỗ” siêu hấp dẫn, cư dân Ocean City chọn ở nhà suốt mùa hè

Mùa hè năm nay được dự báo sẽ khắc nghiệt hơn năm trước. Thay vì xách vali đi “đổi gió” tại các thành phố biển như Nha Trang, Phú Quốc... nhiều cư dân Ocean City lại chọn “du lịch tại chỗ”. Níu chân họ là một loạt lễ hội, sự kiện sôi động, chuỗi tiện ích được nâng tầm, ngay dưới thềm nhà.

Tăng đầu tư vào Khu kinh tế cửa khẩu Móng Cái, HDBank mở chi nhánh thứ 2 tại Quảng Ninh

Kinh tế - Xã hội -

Tăng đầu tư vào Khu kinh tế cửa khẩu Móng Cái, HDBank mở chi nhánh thứ 2 tại Quảng Ninh

Chi nhánh HDBank tại Móng Cái được đầu tư quy mô về nguồn vốn, tài sản và đội ngũ cán bộ, nhân viên nhằm tăng cường cung cấp các sản phẩm, dịch vụ tài chính đa dạng và phù hợp, bám sát đặc thù và chiến lược phát triển của Khu kinh tế cửa khẩu trọng điểm phía Bắc.

Xuất hiện hình ảnh thực nghiệm hiện trường vụ Mazda CX-5 tạt đầu xe máy rồi bỏ chạy

Kinh tế - Xã hội -

Xuất hiện hình ảnh thực nghiệm hiện trường vụ Mazda CX-5 tạt đầu xe máy rồi bỏ chạy

Hình ảnh mới đăng tải sáng 24/4 trên mạng Internet cho thấy cảnh sát giao thông (CSGT) đang tiến hành mô phỏng hiện trường vụ Mazda CX-5 tạt đầu xe máy rồi bỏ chạy ở lối vào cao tốc Long Thành - Dầu Giây.

Bản tin công nhân: Không nghỉ lễ, nhiều lao động nữ đăng ký đi làm để có thu nhập Bản tin công nhân

Bản tin công nhân: Không nghỉ lễ, nhiều lao động nữ đăng ký đi làm để có thu nhập

Dịp nghỉ lễ 30/4-1/5: Tránh sốc nhiệt do nắng nóng; Đội nắng nóng, đua tiến độ trên đại công trường Vành đai 4 ; Tiếc tiền, công nhân đội nắng rát mặt, đi hàng trăm cây số về quê nghỉ lễ; Không nghỉ lễ, nhiều lao động nữ đăng ký đi làm để có thu nhập...là những tin chính trong bản tin công nhân ngày 28/04/2024.

Chủ động đảm bảo an toàn phòng cháy chữa cháy trong dịp lễ 30/4-1/5 Tôi công nhân

Chủ động đảm bảo an toàn phòng cháy chữa cháy trong dịp lễ 30/4-1/5

Kỳ nghỉ lễ 30/4 và 1/5 năm nay kéo dài 5 ngày với nhiều hoạt động vui chơi, giải trí, kinh doanh, sản xuất của người dân, doanh nghiệp cùng với tình trạng nắng nóng gia tăng, dẫn đến nguy cơ tiềm ẩn về cháy, nổ và tai nạn sự cố. Dưới đây là những khuyến cáo tới người dân lao động để bảo đảm an toàn phòng cháy chữa cháy trong dịp nghỉ này.

Talk Công đoàn: "Bắt đầu làm rồi thì hãy yêu lấy nó" Talk Công đoàn

Talk Công đoàn: "Bắt đầu làm rồi thì hãy yêu lấy nó"

Talk Công đoàn là cuộc trò chuyện với đồng chí Bùi Thị Ngọc Thủy, Chủ tịch Liên đoàn Lao động quận Hoàng Mai.

Top 10 đơn vị dẫn đầu cuộc thi tìm hiểu công tác ATVSLĐ Infographic

Top 10 đơn vị dẫn đầu cuộc thi tìm hiểu công tác ATVSLĐ

Cuộc thi trực tuyến CNVCLĐ tìm hiểu về công tác ATVSLĐ do Ban Quan hệ lao động Tổng liên đoàn phối hợp với Tạp chí Lao động và Công đoàn tổ chức, diễn ra từ ngày 15/04/2024.
Bản tin công nhân: Người lao động đi làm dịp lễ 30/4 - 1/5 có thể nhận lương tiền triệu Bản tin công nhân

Bản tin công nhân: Người lao động đi làm dịp lễ 30/4 - 1/5 có thể nhận lương tiền triệu

Bản tin công nhân ngày 27/04 gồm những nội dung chính sau: Người lao động đi làm dịp lễ 30/4 - 1/5 có thể nhận lương tiền triệu; Những địa điểm vui chơi hấp dẫn tại Hà Nội dịp nghỉ lễ 30/4-1/5/2024; Cảnh giác với "bẫy" vé máy bay, tour du lịch giá rẻ dịp 30/4-1/5...

3 bước dễ dàng để tham gia Cuộc thi tìm hiểu công tác an toàn, vệ sinh lao động Video

3 bước dễ dàng để tham gia Cuộc thi tìm hiểu công tác an toàn, vệ sinh lao động

Cuộc thi "CNVCLĐ tìm hiểu về công tác an toàn, vệ sinh lao động" được tổ chức theo hình thức thi trực tuyến trên Tạp chí điện tử Lao động và Công đoàn (laodongcongdoan.vn).

Đọc thêm

[XE CỦA NĂM 2024] Giám khảo đánh giá Volkswagen Teramont X

Kinh tế - Xã hội -

[XE CỦA NĂM 2024] Giám khảo đánh giá Volkswagen Teramont X

Hội đồng Giám khảo XE CỦA NĂM đánh giá Volkswagen Teramont X nổi bật với thiết kế ngoại thất nhưng cũng chỉ ra những nhược điểm của xe.

Doanh số Honda CR-V vượt Ford Territory trong tháng 3/2024

Kinh tế - Xã hội -

Doanh số Honda CR-V vượt Ford Territory trong tháng 3/2024

Honda CR-V vượt lên trước Ford Territory trong tháng 3/2024, bên cạnh đó, doanh số cộng dồn cách biệt chỉ hơn 100 xe khiến cuộc đua vị trí thứ hai phân khúc đang trở nên hấp dẫn.

Bắt gặp bán tải BYD Shark 2024, công nghệ hybrid và hệ thống treo như xe SUV

Kinh tế - Xã hội -

Bắt gặp bán tải BYD Shark 2024, công nghệ hybrid và hệ thống treo như xe SUV

Bán tải BYD Shark 2024 sẽ chính thức được trình làng tại Triển lãm ô tô Bắc Kinh 2024 tới đây, là một chiếc xe với nhiều kỳ vọng của hãng ô tô Trung Quốc.

Masan High-Tech Materials: Khi văn hóa công ty tạo nên gắn kết lâu dài

Kinh tế - Xã hội -

Masan High-Tech Materials: Khi văn hóa công ty tạo nên gắn kết lâu dài

Trong năm 2023, Masan High-Tech Materials được ghi nhận là “Doanh nghiệp vì người lao động”, đồng thời trở thành doanh nghiệp sản xuất đầu tiên của Việt Nam được vinh danh “Nơi làm việc tuyệt vời”. Vậy điều gì đã tạo nên thành công này cho Masan High-Tech Materials?

Người Đông Nam Á mua xe bán tải nhiều hơn các xe gầm thấp

Kinh tế - Xã hội -

Người Đông Nam Á mua xe bán tải nhiều hơn các xe gầm thấp

Theo dữ liệu của Focus2move thống kê, đứng đầu danh sách 10 mẫu xe bán chạy nhất khu vực Đông Nam Á trong năm 2023 chính là mẫu xe bán tải Toyota Hilux.

Xe tay ga Honda Stylo 160 đầu tiên cập bến Việt Nam

Kinh tế - Xã hội -

Xe tay ga Honda Stylo 160 đầu tiên cập bến Việt Nam

Mẫu xe tay ga Honda Stylo 160 mới đây đã có mặt tại Việt Nam, được nhập khẩu từ Indonesia, với kiểu dáng lạ lẫm và mức giá dự kiến cũng không rẻ.

5 ngày nghỉ lễ chơi thả ga với chuỗi hoạt động hấp dẫn tại Công viên Châu Á - Đà Nẵng

Kinh tế - Xã hội -

5 ngày nghỉ lễ chơi thả ga với chuỗi hoạt động hấp dẫn tại Công viên Châu Á - Đà Nẵng

Diễn ra từ 27/4- 1/5, “Rực rỡ du lịch Việt Nam” là chuỗi sự kiện được tổ chức tại Công viên châu Á - Asia Park sẽ mở đầu cho mùa du lịch hè đầy hứng khởi tại thành phố bên sông Hàn, với rất nhiều hoạt động và sự kiện văn hoá nghệ thuật, vui chơi giải trí được “thửa riêng” cho dịp lễ năm nay.

Lợi nhuận kép của bất động sản thấp tầng trên “đảo thượng lưu” Vinhomes Royal Island

Kinh tế - Xã hội -

Lợi nhuận kép của bất động sản thấp tầng trên “đảo thượng lưu” Vinhomes Royal Island

Bất động sản thấp tầng sở hữu những giá trị bền vững cùng tiềm năng sinh lời vượt trội, luôn được giới đầu tư “ăn chắc mặc bền” ưa chuộng. Những giỏ hàng sở hữu tiềm năng lợi nhuận kép như nhà thấp tầng Vinhomes Royal Island (Vũ Yên, Hải Phòng) sẽ nằm ở top đầu danh sách sản phẩm được ưu tiên lựa chọn.

Toyota Fortuner hybrid đầu tiên ra mắt, động cơ dầu kèm điện

Kinh tế - Xã hội -

Toyota Fortuner hybrid đầu tiên ra mắt, động cơ dầu kèm điện

Toyota Fortuner hybrid đầu tiên trên thế giới sử dụng động cơ dầu 2.8L kết hợp động cơ điện vừa được trình làng tại Nam Phi, khiến người ta tò mò vì nhiều lý do.

Vị thế Mercedes-Benz Vietnam trên thị trường xe sang tại Việt Nam

Kinh tế - Xã hội -

Vị thế Mercedes-Benz Vietnam trên thị trường xe sang tại Việt Nam

“Cứ 10 chiếc Mercedes-Benz được bán ra trên thế giới lúc này thì có một chiếc do tập đoàn của chúng tôi phân phối”, John Lloyd White - CEO Vietnam Star Automobile tự hào giới thiệu về vị thế của Tập đoàn Lei Shing Hong Automotive. Ông cho biết các doanh nghiệp nước ngoài như Vietnam Star Automobile có nhiều ưu thế tại thị trường Việt Nam.