review1st.com – Alibaba Cloud mengumumkan peluncuran akses open-source untuk model kecerdasan buatan (AI) penghasil konten video (video generator), yang merupakan bagian dari inisiatif terbaru perusahaan untuk mendukung komunitas open-source global.
Sebagai bagian dari pembaruan tersebut, Alibaba Cloud membuka empat model dari seri Wan2.1, yang merupakan versi terbaru dari model dasar video Tongyi Wanxiang (Wan), dengan parameter 14 miliar (B) dan 1,3 miliar (B). Keempat model ini, yakni T2V-14B, T2V-1.3B, I2V-14B-720P, dan I2V-14B-480P, dirancang untuk menghasilkan konten video berkualitas tinggi berdasarkan input teks dan gambar.
Model-model ini dapat diunduh melalui komunitas model AI Alibaba Cloud, Model Scope, dan platform kolaboratif AI Hugging Face, memberikan akses kepada akademisi, peneliti, dan institusi komersial di seluruh dunia.
Keunggulan Model AI Video Alibaba Cloud
Seri Wan2.1 yang diluncurkan awal tahun ini, menjadi model penghasil konten video pertama yang mendukung efek teks dalam bahasa Mandarin dan Inggris.
Model ini unggul dalam menghasilkan visual realistis dengan akurasi tinggi dalam menangani gerakan kompleks, meningkatkan ketajaman pixel, serta mengikuti prinsip fisika untuk menciptakan gerakan yang lebih natural.
Selain itu, seri Wan2.1 juga menonjol dalam hal eksekusi instruksi yang akurat, menjadikannya salah satu model dengan peringkat teratas dalam VBench leaderboard, sebuah tolok ukur komprehensif untuk model penghasil konten video.
Wan2.1 adalah satu-satunya model penghasil video open-source yang masuk dalam lima besar VBench leaderboard di Hugging Face.
Berdasarkan hasil pengujian VBench, seri Wan2.1 memperoleh skor keseluruhan 86,22%, dengan keunggulan pada beberapa dimensi penting seperti dinamika gerakan, hubungan spasial, warna, dan interaksi antar objek.
Menghadirkan Solusi AI Terjangkau untuk Pembuatan Konten Video Berkualitas
Melatih model video memerlukan sumber daya komputasi yang sangat besar serta data pelatihan berkualitas tinggi dalam jumlah besar.
Akses terbuka terhadap model ini memungkinkan lebih banyak bisnis untuk memanfaatkan AI dalam menciptakan konten visual berkualitas tinggi yang dapat disesuaikan dengan kebutuhan spesifik, serta mengurangi biaya produksi.
Model T2V-14B ideal untuk menghasilkan visual berkualitas tinggi dengan dinamika gerakan yang kompleks, sementara T2V-1.3B menawarkan keseimbangan antara kualitas dan efisiensi daya komputasi.
Model ini cocok untuk pengembangan lanjutan serta penelitian akademis, memungkinkan pengguna dengan perangkat laptop standar untuk membuat video berdurasi 5 detik dengan resolusi 480p dalam waktu sekitar 4 menit.
Selain mendukung pembuatan video dari teks (text-to-video), model I2V-14B-720P dan I2V-14B-480P juga menawarkan konversi gambar ke video (image-to-video).
Pengguna hanya perlu memasukkan gambar dan deskripsi teks singkat untuk menghasilkan video dinamis, dengan dukungan berbagai dimensi input gambar.
Komitmen Alibaba Cloud terhadap Open-Source AI
Alibaba Cloud menjadi salah satu perusahaan teknologi global pertama yang membuka akses open-source untuk model AI berskala besar yang dikembangkannya sendiri.
Sebelumnya, pada Agustus 2023, Alibaba Cloud merilis model Qwen (Qwen-7B) yang juga tersedia dalam open-source.
Model-model Qwen telah secara konsisten menduduki peringkat teratas dalam Hugging Face Open LLM Leaderboards, bersaing dengan model AI terkemuka dunia dalam berbagai tolok ukur.
Hingga saat ini, lebih dari 100.000 model turunan dari grup model Qwen telah dikembangkan di Hugging Face, menjadikannya salah satu ekosistem model AI terbesar di dunia.
Akses terbuka ini semakin memperkuat komitmen Alibaba Cloud untuk mengembangkan inovasi AI yang dapat dimanfaatkan secara luas di berbagai sektor industri global.
Dengan membuka akses ini, Alibaba Cloud tidak hanya memfasilitasi kemajuan penelitian dan pengembangan di bidang AI, tetapi juga membantu bisnis dan organisasi dalam menciptakan solusi visual yang lebih efisien dan terjangkau.