Microsoft Tutel meningkatkan campuran pelatihan model ahli

Posted on

Simak penjelasan dari CIO, CIO, dan eksekutif tingkat C teratas serta kepala ahli data dan AI di Future of Work Summit pada 12 Januari 2022. Belajarlah lagi


biarkan OSS Enterprise. Buletin membimbingmu Membuka Sumber perjalanan! Daftar disini.

Minggu ini Microsoft mengumumkan Tutel, perpustakaan untuk mendukung pengembangan Mixed Expert Models (MoE) – tipe khusus model AI skala besar. Ini dirancang untuk memungkinkan pengembang di seluruh disiplin AI untuk “menerapkan MOE dengan lebih mudah dan efisien,” kata Microsoft.

MOE terdiri dari kelompok-kelompok kecil “neuron” yang hanya aktif dalam kondisi khusus dan spesifik. “Lapisan” yang lebih rendah dari ekstrak model MOE dan para ahli dipanggil untuk mengevaluasi fitur-fitur ini. Misalnya, MoEs dapat digunakan untuk membuat sistem penerjemahan, di mana setiap kelompok ahli belajar menangani part of speech yang terpisah atau aturan tata bahasa khusus.

Dibandingkan dengan arsitektur tipikal lainnya, MoEs memiliki keunggulan yang jelas. Hal ini dapat menanggapi kondisi melalui spesialisasi, memungkinkan model untuk menampilkan perilaku yang lebih luas. Pakar dapat menerima campuran data, dan ketika model berjalan, hanya ada beberapa pakar yang aktif – bahkan model besar hanya membutuhkan sedikit daya pemrosesan.

Faktanya, MoE adalah salah satu dari sedikit metode yang telah ditunjukkan untuk menskalakan lebih dari satu triliun parameter, membuka jalan bagi model yang mampu meningkatkan visi komputer, pengenalan suara, pemrosesan bahasa alami, dan sistem terjemahan mesin, antara lain. Dalam pembelajaran mesin, parameter adalah bagian dari model yang dipelajari dari data pelatihan historis. Secara umum, dan khususnya di bidang bahasa, hubungan antara jumlah parameter dan evolusi berjalan dengan baik.

Tutel terutama berfokus pada pengoptimalan akun untuk Departemen Pendidikan. Secara khusus, perpustakaan dioptimalkan untuk contoh seri Azure NDm A100 v4 baru Microsoft, yang menyediakan skala geser untuk GPU Nvidia A100. Tutel memiliki antarmuka “ringkas” yang dimaksudkan untuk memudahkan integrasi ke dalam solusi MOE lainnya, kata Microsoft, dan sebagai gantinya pengembang dapat menggunakan antarmuka Tutel untuk mengintegrasikan lapisan MoE independen ke dalam model DNN mereka dari awal.

Grafik garis yang membandingkan kinerja keseluruhan model bahasa MoE untuk Meta menggunakan node Azure NDm A100 v4 dengan dan tanpa Tutel. Sumbu x adalah jumlah GPU A100 (80 GB), dimulai dengan 8 hingga 512, sumbu y adalah throughput (K token/d), dimulai dengan 0 dan naik hingga 1.000 pada interval 100. Tutel selalu mencapai yang lebih tinggi throughput dari fairseq.

Atas: Untuk satu lapisan MoE, Tutel mencapai akselerasi 8,49 kali pada node NDm A100 v4 dengan 8 GPU dan 2,75 kali akselerasi pada 64 node NDm A100 v4 dengan GPU 512 A100, klaim Microsoft.

“Karena kurangnya implementasi yang efisien, model berbasis MOE mengandalkan kombinasi naif dari beberapa operator siap pakai yang disediakan oleh kerangka kerja pembelajaran mendalam seperti PyTorch dan TensorFlow untuk mengonfigurasi komputasi MoE. Praktik semacam itu menimbulkan biaya kinerja yang signifikan, terima kasih untuk overcomputing, “tulisnya. Microsoft dalam posting blog. (Operator menyediakan model dengan kumpulan data yang diketahui yang mencakup input dan output yang diinginkan.) “Tutel mendesain dan mengimplementasikan beberapa inti GPU yang sangat dioptimalkan untuk menyediakan operator untuk komputasi khusus MOE.”

Baca juga:  Ponsel yang Tangguh dan Sangat Tangguh - Sejarah Singkat

Tutel tersedia dalam sumber terbuka di Github. Microsoft mengatakan bahwa tim pengembangan Tutel akan “secara aktif mengintegrasikan” berbagai algoritma MOE yang muncul dari komunitas dalam rilis mendatang.

“MOE adalah teknologi yang menjanjikan. Ini memungkinkan pelatihan komprehensif berdasarkan teknologi dari banyak bidang, seperti perutean reguler dan penyeimbangan jaringan dengan node besar, dan bahkan dapat memanfaatkan akselerasi berbasis GPU. Kami telah menunjukkan implementasi yang efektif oleh MOE, yaitu Perangkat lunak Tutel, yang menghasilkan keuntungan signifikan atas kerangka kerja Virisk [our] Kerangka kerja DeepSpeed ​​juga, dan kami percaya Tutel dan integrasi terkait akan menguntungkan layanan Azure, terutama bagi mereka yang ingin menskalakan model besar mereka secara efisien,” tambah Microsoft.

VentureBeat

Misi VentureBeat adalah menjadi arena kota digital bagi para pengambil keputusan teknis untuk memperoleh pengetahuan tentang teknologi dan transaksi transformatif. Situs kami menyediakan informasi penting tentang teknologi data dan strategi untuk memandu Anda saat Anda memimpin organisasi Anda. Kami mengundang Anda untuk menjadi anggota komunitas kami, untuk mengakses:

  • Informasi terbaru tentang topik yang Anda minati
  • Newsletter kami
  • Konten rahasia untuk pemimpin pemikiran dan akses diskon ke acara berharga kami, seperti Konversi 2021: Belajarlah lagi
  • Fitur jaringan dan banyak lagi

Menjadi anggota