PROFILPELAJAR.COM

Gemini
Phát triển bởi	Google DeepMind
Phát hành lần đầu	6 tháng 12 năm 2023; 11 tháng trước
Thay thế cho	PaLM 2
Ngôn ngữ có sẵn	Tiếng Anh
Thể loại	Mô hình ngôn ngữ lớn
Giấy phép	Độc quyền
Website	deepmind.google/technologies/gemini/

Gemini là một hệ mô hình ngôn ngữ lớn đa phương thức phát hành bởi Google DeepMind, đóng vai trò là một mô hình ngôn ngữ thay thế cho LaMDA và PaLM 2. Mô hình này bao gồm Gemini Ultra, Gemini Pro, và Gemini Nano (công bố vào tháng 6 năm 2023), và được định vị là đối thủ cạnh tranh của GPT-4 của OpenAI. Nó có chatbot trí tuệ nhân tạo tạo sinh cùng tên.

Thông số kỹ thuật

Ba mô hình Gemini có điểm kiến trúc phần mềm giống nhau. Chúng là transformer chỉ bộ giải mã, với sự chỉnh sửa để cho phép đào tạo và suy luận hiệu quả cho TPU và có độ dài ngữ cảnh là 32.768 mã thông báo, chú ý đến nhiều truy vấn. Hai phiên bản của Gemini Nano (Nano-1 (1.8 tỷ tham số) và Nano-2 (3.25 tỷ tham số)) chung cất từ mô hình Gemini lớn hơn, được thiết kê để sử dụng trong các thiết bị biên chẳng hạn như điện thoại thông minh. Vì Gemini có nhiều phương thức khác nhau, mỗi cửa sổ ngữ cảnh có thể chứa nhiều dạng đầu vào. Các chế độ khác nhau có thể được xen kẽ và không cần phải trình bày theo một thứ tự cố định, cho phép trò chuyện nhiều phương thức. Hình ảnh đầu vào có thể khác độ phân giải, trong khi video được nhập dưới dạng một chuỗi hình ảnh. Âm thanh được lấy mẫu ở tần số 16 kHz và sau đó được chuyển đổi thành một chuỗi mã thông báo bởi USM. Tập dữ liệu Gemini có nhiều phương thức và nhiều ngôn ngữ, bao gồm "tài liệu web, sách, và mã, và bao gồm hình ảnh, âm thanh, và dữ liệu video".^[1]