Perpustakaan Nasional Swedia Mengubah Halaman menjadi AI

Perpustakaan Nasional Swedia Mengubah Halaman menjadi AI

Selama 500 tahun terakhir, Perpustakaan Nasional Swedia telah mengumpulkan hampir setiap kata yang diterbitkan dalam bahasa Swedia, mulai dari manuskrip abad pertengahan yang tak ternilai hingga menu pizza masa kini.

Berkat undang-undang berusia berabad-abad yang mewajibkan salinan semua yang diterbitkan dalam bahasa Swedia untuk diserahkan ke perpustakaan — juga dikenal sebagai Kungliga biblioteket, atau KB — koleksinya berkisar dari yang jelas hingga yang tidak jelas: buku, surat kabar, radio, dan siaran TV , konten internet, Ph.D. disertasi, kartu pos, menu dan video game. Ini adalah kumpulan data berukuran hampir 26 petabyte yang sangat beragam, ideal untuk melatih AI yang canggih.

“Kami dapat membuat model AI canggih untuk bahasa Swedia karena kami memiliki data terbaik,” kata Love Börjeson, direktur KBLab, lab data perpustakaan.

Perpustakaan Nasional Swedia Mengubah Halaman menjadi AI

Menggunakan sistem NVIDIA DGX, grup ini telah mengembangkan lebih dari dua lusin model trafo sumber terbuka, tersedia di Hugging Face. Model, diunduh hingga 200.000 pengembang per bulan, memungkinkan penelitian di perpustakaan dan institusi akademis lainnya.

“Sebelum lab kami dibuat, peneliti tidak dapat mengakses kumpulan data di perpustakaan — mereka harus melihat objek tunggal dalam satu waktu,” kata Börjeson. “Perpustakaan perlu membuat kumpulan data yang memungkinkan peneliti melakukan penelitian berorientasi kuantitas.”

Dengan ini, para peneliti akan segera dapat membuat kumpulan data yang sangat terspesialisasi — misalnya, menarik setiap kartu pos Swedia yang menggambarkan sebuah gereja, setiap teks yang ditulis dengan gaya tertentu, atau setiap penyebutan tokoh sejarah di seluruh buku, artikel surat kabar, dan siaran TV .

Mengubah Arsip Perpustakaan Menjadi Data Pelatihan AI

Kumpulan data perpustakaan mewakili keragaman penuh bahasa Swedia — termasuk variasi formal dan informal, dialek regional, dan perubahan dari waktu ke waktu.

“Aliran masuk kami terus berlanjut dan berkembang — setiap bulan, kami melihat lebih dari 50 terabyte data baru,” kata Börjeson. “Di antara pertumbuhan data digital yang eksponensial dan pekerjaan berkelanjutan yang mendigitalkan koleksi fisik sejak ratusan tahun lalu, kami tidak akan pernah selesai menambah koleksi kami.”

Arsip perpustakaan termasuk audio, teks dan video.

Segera setelah KBLab didirikan pada tahun 2019, Börjeson melihat potensi untuk melatih model bahasa transformer di arsip perpustakaan yang luas. Dia terinspirasi oleh model pemrosesan bahasa alami multibahasa awal oleh Google yang menyertakan teks Swedia 5GB.

Model pertama KBLab menggunakan 4x lebih banyak — dan tim sekarang bertujuan untuk melatih modelnya pada setidaknya satu terabyte teks Swedia. Lab mulai bereksperimen dengan menambahkan konten Belanda, Jerman, dan Norwegia ke kumpulan datanya setelah menemukan bahwa kumpulan data multibahasa dapat meningkatkan kinerja AI.

NVIDIA AI, GPU Mempercepat Pengembangan Model

Lab tersebut mulai menggunakan GPU NVIDIA tingkat konsumen, tetapi Börjeson segera mengetahui bahwa timnya membutuhkan komputasi berskala pusat data untuk melatih model yang lebih besar.

“Kami menyadari bahwa kami tidak dapat mengikuti jika kami mencoba melakukan ini di workstation kecil,” kata Börjeson. “Sangat mudah untuk menggunakan NVIDIA DGX. Ada banyak hal yang tidak dapat kami lakukan sama sekali tanpa sistem DGX.”

Lab ini memiliki dua sistem NVIDIA DGX dari penyedia Swedia AddPro untuk pengembangan AI lokal. Sistem digunakan untuk menangani data sensitif, melakukan eksperimen berskala besar, dan menyempurnakan model. Mereka juga digunakan untuk mempersiapkan operasi yang lebih besar pada superkomputer berbasis GPU yang masif di seluruh Uni Eropa — termasuk sistem MeluXina di Luksemburg.

“Pekerjaan kami pada sistem DGX sangatlah penting, karena begitu kami berada di lingkungan komputasi berperforma tinggi, kami ingin mulai bekerja,” kata Börjeson. “Kita harus menggunakan superkomputer secara maksimal.”

Tim juga telah mengadopsi NVIDIA NeMo Megatron, kerangka kerja berbasis PyTorch untuk melatih model bahasa besar, dengan NVIDIA CUDA dan pustaka NVIDIA NCCL untuk mengoptimalkan penggunaan GPU dalam sistem multi-node.

“Kami sangat mengandalkan kerangka kerja NVIDIA,” kata Börjeson. “Ini adalah salah satu keuntungan besar NVIDIA bagi kami, sebagai lab kecil yang tidak memiliki 50 insinyur untuk mengoptimalkan pelatihan AI untuk setiap proyek.”

Memanfaatkan Data Multimodal untuk Penelitian Humaniora

Selain model transformator yang memahami teks Swedia, KBLab memiliki alat AI yang mentranskripsikan suara menjadi teks, memungkinkan perpustakaan untuk mentranskripsikan koleksi siaran radionya yang sangat banyak sehingga peneliti dapat mencari rekaman audio untuk konten tertentu.

Database yang disempurnakan AI adalah evolusi terbaru dari catatan perpustakaan, yang telah lama disimpan dalam katalog kartu fisik.

KBLab juga mulai mengembangkan model teks generatif dan sedang mengerjakan model AI yang dapat memproses video dan membuat deskripsi otomatis dari kontennya.

“Kami juga ingin menghubungkan semua modalitas yang berbeda,” kata Börjeson. “Ketika Anda mencari database perpustakaan untuk istilah tertentu, kami harus dapat mengembalikan hasil yang mencakup teks, audio, dan video.”

KBLab telah bermitra dengan para peneliti di University of Gothenburg, yang sedang mengembangkan aplikasi hilir menggunakan model lab untuk melakukan penelitian linguistik — termasuk proyek yang mendukung pekerjaan Akademi Swedia untuk memodernisasi teknik berbasis data untuk membuat kamus bahasa Swedia.

“Manfaat sosial dari model ini jauh lebih besar dari yang kami perkirakan sebelumnya,” kata Börjeson.

Gambar milik Perpustakaan Kerajaan

Namun para bettor tidak wajib khawatir, tidak sampai 5 menit, tentunya keluaran ini bakal ditampikan secara live dan mampu kalian lihat terhadap web togel hkg. Bagi kalian yang melewatkan live draw ini, sanggup melihat terhadap data hk yang senantiasa di update sesudah adanya pengeluaran hk hongkong .