Ba mô hình Gemini có điểm kiến trúc phần mềm giống nhau. Chúng là transformer chỉ bộ giải mã, với sự chỉnh sửa để cho phép đào tạo và suy luận hiệu quả cho TPU và có độ dài ngữ cảnh là 32.768 mã thông báo, chú ý đến nhiều truy vấn. Hai phiên bản của Gemini Nano (Nano-1 (1.8 tỷ tham số) và Nano-2 (3.25 tỷ tham số)) chung cất từ mô hình Gemini lớn hơn, được thiết kê để sử dụng trong các thiết bị biên chẳng hạn như điện thoại thông minh. Vì Gemini có nhiều phương thức khác nhau, mỗi cửa sổ ngữ cảnh có thể chứa nhiều dạng đầu vào. Các chế độ khác nhau có thể được xen kẽ và không cần phải trình bày theo một thứ tự cố định, cho phép trò chuyện nhiều phương thức. Hình ảnh đầu vào có thể khác độ phân giải, trong khi video được nhập dưới dạng một chuỗi hình ảnh. Âm thanh được lấy mẫu ở tần số 16 kHz và sau đó được chuyển đổi thành một chuỗi mã thông báo bởi USM. Tập dữ liệu Gemini có nhiều phương thức và nhiều ngôn ngữ, bao gồm "tài liệu web, sách, và mã, và bao gồm hình ảnh, âm thanh, và dữ liệu video".[1]
Xem thêm
Gato – một mạng lưới thần kinh nhiều phương thức được phát hành bởi DeepMind.
Tham khảo
^Lỗi chú thích: Thẻ <ref> sai; không có nội dung trong thẻ ref có tên WhitePaper