Google Gemini là gì? Mô hình AI mạnh hơn cả GPT 4

Bởi

07/12/2023

Google đã ra mắt Gemini, mô hình trí tuệ nhân tạo (AI) mà họ hy vọng sẽ đánh bại GPT-4.

Đây là khởi đầu của một kỷ nguyên mới của AI tại Google, theo CEO Sundar Pichai: thời đại Gemini. Gemini là mô hình ngôn ngữ lớn nhất hiện nay của Google, được Pichai giới thiệu lần đầu tại Hội nghị phát triển I/O vào tháng 6 và hiện đã được ra mắt công chúng. Theo Pichai và CEO DeepMind của Google – Demis Hassabis miêu tả, đây là bước tiến lớn trong một mô hình AI sẽ ảnh hưởng rất nhiều sản phẩm của Google. “Một trong những điều quan trọng về khoảnh khắc này,” Pichai nói, “là bạn có thể làm việc trên công nghệ cơ bản duy nhất và cải thiện nó để áp dụng cho toàn bộ các sản phẩm của chúng ta.”

Gemini không chỉ là một AI model duy nhất. Có phiên bản nhẹ gọi là Gemini Nano được thiết kế để chạy offline trên các thiết bị Android. Còn phiên bản cao cấp hơn gọi là Gemini Pro sẽ sớm điều khiển rất nhiều dịch vụ AI của Google và là nền tảng của Bard từ hôm nay. Và còn một phiên bản có khả năng cao hơn gọi là Gemini Ultra, đây là LLM mạnh nhất mà Google đã tạo ra cho các trung tâm dữ liệu và ứng dụng doanh nghiệp.

Nội Dung Đề Xuất

Đường dẫn tham khảo: Google DeepMind

Google đang ra mắt model này theo một số cách khác nhau: Bard hiện được điều khiển bởi Gemini Pro, người dùng Pixel 8 Pro sẽ có thêm một số tính năng mới nhờ vào Gemini Nano. (Gemini Ultra sẽ ra mắt vào năm sau.) Nhà phát triển và khách hàng doanh nghiệp sẽ có thể truy cập vào Gemini Pro thông qua Google Generative AI Studio hoặc Vertex AI trong Google Cloud từ ngày 13 tháng 12. Hiện tại, Gemini chỉ hỗ trợ tiếng Anh, nhưng Pichai cho biết rằng model này cuối cùng sẽ được tích hợp vào công cụ tìm kiếm của Google, sản phẩm quảng cáo, trình duyệt Chrome và nhiều sản phẩm khác trên toàn thế giới. Đó chính là tương lai của Google và không muộn phút chốc đã xuất hiện.

Tương quan ba phiên bản kích thước của mô hình AI Gemini. Ảnh: Google

Ban đầu, Gemini có ba kích thước khác nhau để phục vụ ba mục đích khác nhau. Trong các bài kiểm tra (benchmark) này, Gemini có lợi thế rõ rệt nhờ khả năng hiểu và tương tác với video và âm thanh. Điều này đã được thiết kế một cách rất tỉ mỉ: đa phương thức luôn là một phần của kế hoạch Gemini từ đầu. Google không huấn luyện các model riêng biệt cho hình ảnh và giọng nói, như OpenAI đã tạo ra DALL-E và Whisper; họ xây dựng một model đa giác quan từ ban đầu.

Theo thông tin từ kết quả thử nghiệm mới được Google công bố, mô hình Gemini Ultra đã đạt điểm 90% trong bài kiểm tra khả năng hiểu ngôn ngữ đa nhiệm lớn (MMLU – Massive Multitask Language Understanding). Để đạt được điểm này, Gemini Ultra sử dụng một kết hợp 57 môn học khác nhau như toán, vật lý, lịch sử, luật, y học và đạo đức để kiểm tra không chỉ kiến thức về thế giới mà còn khả năng giải quyết vấn đề. Đồng thời, nó có khả năng “sử dụng trí óc của mình để suy nghĩ sâu hơn trước khi đưa ra câu trả lời cho những câu hỏi khó”.

Điều đáng chú ý là, với kết quả này, Gemini trở thành trí tuệ nhân tạo (AI) đầu tiên vượt qua khả năng của con người ở cấp độ chuyên gia, với con người chỉ đạt điểm 89,8% trong bài kiểm tra tương tự. Kết quả của GPT-4 là 87%, LLAMA-2 đạt 68%, và Claude 2 của Anthropic đạt 78,5%.

Minh họa về các dạng thông tin mà Gemini có thể xử lý, như: chữ viết, ảnh, âm thanh, video. Ảnh: Google

Ngoài ra, phiên bản mạnh nhất của Gemini cũng đã vượt qua 30 trong số 32 tiêu chuẩn trong lĩnh vực nghiên cứu và phát triển mô hình ngôn ngữ lớn. Nó đạt điểm 59,4% về khả năng hiểu biết lớn về đa phương thức trên nhiều ngành công nghiệp (MMMU), bao gồm các nhiệm vụ đa phương thức trải rộng qua nhiều lĩnh vực, đòi hỏi sự suy luận có chủ ý.

Demis Hassabis, CEO của Google DeepMind và đại diện cho đội ngũ phát triển Gemini, cho biết công ty đang hướng tới việc xây dựng thế hệ mô hình trí tuệ nhân tạo mới, lấy cảm hứng từ phương pháp nhận biết và tương tác của con người với thế giới. Điều này giúp AI không chỉ trở thành một phần mềm thông minh, mà còn trở nên hữu ích và trực quan hơn, tương tự như một đối tác đồng hành cho người dùng.

“Hôm nay, chúng tôi đã tiến gần hơn đến tầm nhìn này bằng cách giới thiệu Gemini – mô hình AI tiên tiến và tổng quát nhất từng được Google phát triển”, Hassabis nói.

Ngoài khả năng hiệu suất mạnh mẽ, Google cũng chia sẻ rằng Gemini 1.0 được đào tạo để nhận diện văn bản, hình ảnh, âm thanh và nhiều loại dữ liệu khác nhau ngay cùng một lúc, giúp nó nắm bắt thông tin một cách chi tiết và đồng thời có khả năng trả lời các câu hỏi liên quan đến những chủ đề phức tạp. Mô hình này cũng có khả năng giải thích và viết code bằng nhiều ngôn ngữ lập trình phổ biến hiện nay như Python, Java, C++ và Golang.

Theo thông tin từ Google, Gemini được thiết kế với những đặc tính đặc biệt giúp nó có khả năng đọc hiểu và trích xuất thông tin từ hàng trăm nghìn tài liệu. Điều này tạo ra tiềm năng đột phá trong nhiều lĩnh vực khác nhau, từ khoa học đến tài chính, đồng thời giảm thời gian cần thiết cho các nhiệm vụ này.

Theo Google, phiên bản cao cấp nhất của Gemini là Gemini Ultra, được phát triển để xử lý các tác vụ phức tạp nhất. Hiện tại, nó đang trong quá trình thử nghiệm an toàn và dự kiến sẽ được ra mắt chính thức sau khi hoàn tất quá trình này. Phiên bản Gemini Nano, dành cho các tác vụ trên thiết bị di động, sẽ được tích hợp trên Pixel 8 Pro, mang đến những khả năng như tóm tắt nội dung ghi âm và trả lời thông minh trên bàn phím Gboard. Dự kiến, hai phiên bản này sẽ xuất hiện trên thị trường vào năm sau.

Hiện tại, phiên bản Pro của Gemini đã được tích hợp vào chatbot Bard. Người dùng có thể trải nghiệm nhiều thay đổi thông qua các yêu cầu liên quan đến đọc hiểu, tóm tắt, lý luận, lập trình và lập kế hoạch. Đây được xem là bản nâng cấp lớn nhất cho Bard kể từ khi ra mắt. Tuy nhiên, hỗ trợ ngôn ngữ của Bard với Gemini Pro hiện chỉ giới hạn trong tiếng Anh và có sẵn ở 180 quốc gia và vùng lãnh thổ. Google đã cam kết mở rộng hỗ trợ ngôn ngữ cho Bard trong tương lai, và dự kiến Bard sẽ được nâng cấp và tích hợp phiên bản mạnh nhất là Gemini Ultra vào năm sau.

Tổng hợp bởi Duan24h.net