Bài báo “𝐌𝐚𝐬𝐤𝐃𝐢𝐟𝐟: 𝐌𝐨𝐝𝐞𝐥𝐢𝐧𝐠 𝐌𝐚𝐬𝐤 𝐃𝐢𝐬𝐭𝐫𝐢𝐛𝐮𝐭𝐢𝐨𝐧 𝐰𝐢𝐭𝐡 𝐃𝐢𝐟𝐟𝐮𝐬𝐢𝐨𝐧 𝐏𝐫𝐨𝐛𝐚𝐛𝐢𝐥𝐢𝐬𝐭𝐢𝐜 𝐌𝐨𝐝𝐞𝐥 𝐟𝐨𝐫 𝐅𝐞𝐰-𝐒𝐡𝐨𝐭 𝐈𝐧𝐬𝐭𝐚𝐧𝐜𝐞 𝐒𝐞𝐠𝐦𝐞𝐧𝐭𝐚𝐭𝐢𝐨𝐧” (𝘔𝘪𝘯𝘩-𝘘𝘶𝘢𝘯 𝘓𝘦, 𝘛𝘢𝘮 𝘝. 𝘕𝘨𝘶𝘺𝘦𝘯, 𝘛𝘳𝘶𝘯𝘨-𝘕𝘨𝘩𝘪𝘢 𝘓𝘦, 𝘛𝘩𝘢𝘯𝘩-𝘛𝘰𝘢𝘯 𝘋𝘰, 𝘔𝘪𝘯𝘩 𝘕. 𝘋𝘰, 𝘔𝘪𝘯𝘩-𝘛𝘳𝘪𝘦𝘵 𝘛𝘳𝘢𝘯) vừa được chấp nhận tại hội nghị AAAI 2024 (main conference – rank A*, acceptance rate 23.75%), một trong những hội nghị hàng đầu thế giới về Trí tuệ Nhân tạo.
Tác giả chính Lê Minh Quân là Thủ khoa tuyển sinh bet365 dk
, ĐHQG-HCM năm 2018 và là cựu sinh viên lớp Cử Nhân Tài Năng khoa Công nghệ Thông tin khóa 2018. Em Quân là nghiên cứu viên tại bet365 dk
và vừa được Trường cử đi học Tiến sĩ tại Stony Brook University (Hoa Kỳ).
Bài báo là kết quả từ khóa luận tốt nghiệp Đại học của em Lê Minh Quân, đạt giải Nhì Eureka năm 2022. Đề tài được phát triển với sự hướng dẫn, hỗ trợ từ các thầy của University of Dayton (Hoa Kỳ), University of Illinois at Urbana-Champaign (Hoa Kỳ), Monash University (Úc) và bet365 dk
, ĐHQG-HCM.
- Link bài báo:
Tóm tắt nội dung: Few-shot instance segmentation extends the few-shot learning paradigm to the instance segmentation task, which tries to segment instance objects from a query image with a few annotated examples of novel categories. Conventional approaches have attempted to address the task via prototype learning, known as point estimation. However, this mechanism is susceptible to noise and suffers from bias due to a significant scarcity of data. To overcome the disadvantages of the point estimation mechanism, we propose a novel approach, dubbed MaskDiff, which models the underlying conditional distribution of a binary mask, which is conditioned on an object region and K-shot information. Inspired by augmentation approaches that perturb data with Gaussian noise for populating low data density regions, we model the mask distribution with a diffusion probabilistic model. In addition, we propose to utilize classifier-free guided mask sampling to integrate category information into the binary mask generation process. Without bells and whistles, our proposed method consistently outperforms state-of-the-art methods on both base and novel classes of the COCO dataset while simultaneously being more stable than existing methods.