Meituan phát hành mô hình đa phương thức gốc LongCat-Next

robot
Đang tạo bản tóm tắt

Sina Technology News, sáng ngày 27 tháng 3, Meituan đã phát hành và mã nguồn hoàn toàn mở rộng mô hình đa phương thức nguyên sinh LongCat-Next cùng các thành phần cốt lõi của nó: bộ phân từ trực quan theo độ phân giải rời rạc nguyên sinh (dNaViT).

Mô hình này phá vỡ kiến trúc truyền thống “lấy ngôn ngữ làm trung tâm” của các mô hình lớn hiện nay theo kiểu lắp ghép, từ đó ánh xạ thống nhất hình ảnh, giọng nói và văn bản vào các Token rời rạc đồng nguồn. Bằng cách chỉ sử dụng khuôn mẫu “dự đoán Token tiếp theo” thuần túy (Next Token Prediction, NTP), LongCat-Next khiến thị giác và âm thanh trở thành “tiếng mẹ đẻ nguyên sinh” của AI.

Theo giới thiệu, LongCat-Next đã đạt được ba đột phá công nghệ then chốt: một là kiến trúc tự hồi quy nguyên sinh rời rạc (DiNA) phá vỡ triệt để sự ngăn cách giữa các phương thức; hai là bộ phân từ trực quan theo độ phân giải nguyên sinh rời rạc (dNaViT) xây dựng “từ điển” cho thế giới thị giác; ba là bộ mã hóa hoàn bị để căn chỉnh ngữ nghĩa, giải bài toán ngành về “tất yếu mất mát thông tin khi rời rạc hóa”.

Nhiều thông tin, phân tích chính xác — tất cả có trong ứng dụng Sina Finance

Người phụ trách: Giang Dự Hàm

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.35KNgười nắm giữ:3
    0.52%
  • Vốn hóa:$2.32KNgười nắm giữ:2
    0.45%
  • Vốn hóa:$2.27KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.27KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:0
    0.00%
  • Ghim