OPPO คว้า 8 รางวัลพร้อมได้รับคัดเลือก 7 งานวิจัย จากงาน CVPR 2022

บริษัทเทคโนโลยีชั้นนำระดับโลก OPPO ได้รับคัดเลือกงานวิจัยถึง 7 งาน ซึ่งเป็นจำนวนมากที่สุดในกลุ่มบริษัทเทคโนโลยีภายในงาน Computer Vision and Pattern Recognition Conference (CVPR) ประจำปีนี้ซึ่งเพิ่งจบลงไปเมื่อวันที่ 23 มิถุนายนที่ผ่านมา ณ เมืองนิวออร์ลีนส์ นอกจากนี้ OPPO ยังคว้ารางวัล 8 การแข่งขันที่ได้รับความสนใจมากที่สุดในงาน โดยคว้ารางวัลชนะเลิศ 3 รางวัล รางวัลรองชนะเลิศ 1 รางวัล และรางวัลรองชนะเลิศอันดับที่สอง 4 รางวัล

ในขณะที่เทคโนโลยีการเรียนรู้เชิงลึกได้พัฒนาอย่างมากในช่วงหลายปีที่ผ่านมา ปัญญาประดิษฐ์ได้เปลี่ยนจากความฉลาดทางการรับรู้เป็นความฉลาดทางปัญญา นอกเหนือจากความสามารถในการ ‘มองเห็น’ หรือ ‘ได้ยิน’ แบบมนุษย์แล้ว เทคโนโลยี AI สมัยใหม่ยังมีความสามารถทางการคิดในระดับที่ใกล้เคียงกับมนุษย์อีกด้วย การผสมผสานหลายรูปแบบ (Multimodal fusion) เทคโนโลยีภาพอัจฉริยะ 3 มิติ (3D visual intelligence technology) และการเรียนรู้ของเครื่อง (Machine learning) แบบอัตโนมัติกำลังเป็นหัวข้อการวิจัยหลักในด้าน AI และยังเป็นด้านที่ OPPO ประสบความสำเร็จในการพัฒนาความก้าวหน้าทางทฤษฎีและเทคโนโลยีด้วยตนเอง

“ในปี 2012 โครงข่ายประสาทแบบลึก (Deep neural networks) ออกแบบมาเพื่อการระบุวัตถุในภาพและประยุกต์ใช้กับปัญญาประดิษฐ์ ทำให้เทคโนโลยี AI มีการพัฒนาอย่างรวดเร็วมาเป็นเวลากว่าทศวรรษ” Guo Yandong, Chief Scientist in Intelligent Perception at OPPO กล่าว “OPPO ยังคงสนับสนุนการใช้งานปัญญาประดิษฐ์เพื่อความสำเร็จในด้านพฤติกรรมการรับรู้และความสามารถในการคิดที่ซับซ้อน ตัวอย่างเช่น AI สามารถเรียนรู้จากข้อมูลขนาดใหญ่ที่ไม่มีป้ายกำกับ และรับรู้ถึงการย้ายข้อมูล และสร้างข้อมูล 3 มิติ ขึ้นมาใหม่จากมุมมองที่จำกัดหลายประการ นอกจากนี้เรายังส่งเสริมการใช้งาน AI ด้วยความสามารถทางการคิดที่สูงขึ้นเพื่อทำความเข้าใจ สร้างความงดงามและพัฒนา AI ที่เป็นตัวเป็นตนที่มีพฤติกรรมที่เป็นอิสระในตนเอง ผมมีความยินดีเป็นอย่างยิ่งที่งานวิจัยของเราทั้ง 7 งานได้รับการคัดเลือกในงานปีนี้ จากความสำเร็จนี้ เราจะยังคงพัฒนาทั้ง AI พื้นฐานและเทคโนโลยี AI ที่ล้ำสมัย ตลอดจนแอปพลิเคชันเชิงพาณิชย์ที่จะช่วยให้เราสามารถนำประโยชน์ของ AI มาสู่ผู้คนจำนวนมากขึ้นได้”

งานวิจัย 7 งานที่ได้รับการคัดเลือกในงาน CVPR 2022 แสดงให้เห็นถึงความก้าวหน้าของ OPPO ในการสร้าง AI ที่มีความเป็นมนุษย์

งานวิจัย 7 งานจาก OPPO ได้รับเลือกให้นำเสนอในงาน CVPR ประจำปีนี้ โดยงานวิจัยของ OPPO ประกอบไปด้วยการโต้ตอบข้อมูลหลายรูปแบบ (Multimodal information interaction) การสร้างร่างกายมนุษย์ 3 มิติ (3D human body reconstruction) การประเมินความสวยงามของภาพส่วนบุคคล (Personalized image aesthetics assessment) การกลั่นกรองความรู้ (Knowledge distillation) และอีกมากมาย

เทคโนโลยี Cross-modal ถูกมองว่าเป็นกุญแจสำคัญในการสร้างปัญญาประดิษฐ์ ‘ให้มีความเป็นมนุษย์” ข้อมูลที่แตกต่างกันมีลักษณะที่แตกต่างกัน ข้อมูลข้อความมักมีรายละเอียดกว้างๆ ในขณะที่ข้อมูลภาพจะมีรายละเอียดตามบริบทเฉพาะจำนวนมาก การสร้างการโต้ตอบที่มีประสิทธิภาพสำหรับข้อมูลหลายรูปแบบจึงถือเป็นความท้าทายอย่างยิ่ง นักวิจัยของ OPPO ได้เสนอเฟรมเวิร์ก CRIS ใหม่โดยใช้โมเดล CLIP เพื่อให้ AI สามารถเข้าใจข้อความและข้อมูลภาพได้ละเอียดยิ่งขึ้น โดยโมเดลนี้สามารถจับคู่การรับรู้ทางการมองเห็นที่เกี่ยวข้องกับรูปภาพได้อย่างแม่นยำหลังจากป้อนคำอธิบายข้อความที่มีความซับซ้อนเข้าไป

ความแตกต่างระหว่างมนุษย์และปัญญาประดิษฐ์ที่มากที่สุดในปัจจุบันคือความหลากหลายรูปแบบ มนุษย์สามารถเข้าใจข้อมูลทั้งคำและภาพได้อย่างง่ายดาย ทั้งยังสามารถสร้างความเชื่อมโยงระหว่างข้อมูลทั้งสองประเภทได้ แต่ยังเป็นเรื่องยากสำหรับ AI ในการแยกแยะและจับคู่ข้อมูลระหว่างรูปแบบต่างๆ ได้อย่างแม่นยำ วิธีการใหม่จาก OPPO ได้พัฒนาความฉลาดในหลากหลายรูปแบบ ซึ่งอาจนำไปสู่ปัญญาประดิษฐ์ที่สามารถเข้าใจและตีความโลกได้อย่างแท้จริงผ่านข้อมูลหลายรูปแบบ ไม่ว่าจะเป็น ภาษา การได้ยิน การมองเห็น และอื่นๆ สร้างหุ่นยนต์และ Digital assistants ในภาพยนตร์ Sci-fi ให้กลายเป็นความจริงขึ้นมาได้

*CRIS: CLIP-Driven Referring Image Segmentation*

การสร้างร่างกายมนุษย์ 3 มิติ (3D human body reconstruction) เป็นอีกด้านที่ OPPO Research Institute มีความก้าวหน้าอย่างมาก โดยในงาน CVPR OPPO ได้สาธิตกระบวนการสร้างอวาตาร์ดิจิทัลของมนุษย์แบบอัตโนมัติพร้อมเสื้อผ้าที่มีลักษณะเป็นธรรมชาติมากขึ้น วิธีนี้ทำได้โดยการพัฒนาวิธี NeRF dynamic character model ด้วยการวิเคราะห์วิดีโอ RGB ของมนุษย์ที่ถ่ายด้วยกล้อง โดยโมเดล OPPO สามารถสร้างโมเดลไดนามิก 3 มิติอัตราส่วน 1:1 ที่เก็บรายละเอียดเล็กๆ อย่างโลโก้หรือพื้นผิวผ้าอย่างแม่นยำได้ การสร้างโมเดล 3 มิติของเสื้อผ้าที่แม่นยำยังนับเป็นความท้าทายที่ยิ่งใหญ่ที่สุดอย่างหนึ่งในด้าน AI เนื่องจากความยากในการสังเกตการเปลี่ยนรูปของเสื้อผ้าบางส่วน เช่น ชายกระโปรง โดยโมเดลใหม่นี้ช่วยลดสิ่งจำเป็นในการสร้างร่างกายมนุษย์ 3 มิติอย่างมีประสิทธิภาพ มอบพื้นฐานทางเทคนิคที่สามารถนำไปใช้กับส่วนอื่นๆ เช่น ห้องแต่งตัวเสมือนจริงสำหรับการช็อปปิ้งออนไลน์ การสอนการออกกำลังกายด้วย AI และการสร้างอวาตาร์ที่เหมือนจริงในโลก VR/AR

*Structured Local Radiance Fields for Human Avatar Modeling*

ปัจจุบันการระบุข้อมูลภาพด้วย AI (AI image recognition) สามารถระบุวัตถุที่หลากหลายในภาพได้อย่างแม่นยำ อย่างไรก็ตาม ความท้าทายต่อไปในด้านนี้คือการพัฒนา AI ที่สามารถตีความภาพเพื่อคุณค่าทางความงามได้ โดยความสามารถของ AI ในการประเมินภาพในแง่ของคุณค่าทางความงามนั้นมักเกี่ยวข้องกับข้อมูลขนาดใหญ่ที่ใช้ในการฝึกโมเดล AI ดังนั้น ‘ความคิดเห็น’ ที่ AI มอบให้จึงมักไม่ใช่รสนิยมของทุกคน และในหลายๆ ครั้ง โมเดลต่างๆ ก็แสดงความลำเอียงออกมาอย่างชัดเจน สิ่งนี้นำไปสู่การพัฒนาข้อมูลและโมเดลที่ละเอียดยิ่งขึ้นโดยคำนึงถึงความชอบอันหลากหลายของผู้คนที่แตกต่างกัน

ด้วยความร่วมมือกับ Leida Li ศาสตราจารย์จากมหาวิทยาลัย Xidian OPPO Research Institute ได้นำเสนอวิธีแก้ปัญหานี้ด้วยโมเดลนวัตกรรม Personalized Image Aesthetics Assessment (PIAA) โดยโมเดลนี้เป็นรุ่นแรกที่มีการพัฒนาการประเมินคุณค่าทางความงามของ AI ให้เหมาะสมด้วยการผสมผสานความชอบส่วนตัวของผู้ใช้เข้ากับค่านิยมด้านความงามทั่วไปมากขึ้น ทำให้อัลกอริธึมสามารถทำการประเมินภาพตามความชอบจากการศึกษาโปรไฟล์ผู้ใช้ และในอนาคต โมเดลนี้จะถูกนำมาใช้เพื่อสร้างประสบการณ์ในสไตล์ของผู้ใช้ ไม่เพียงแต่คัดสรรอัลบั้มภาพเท่านั้น แต่ยังมอบคำแนะนำเกี่ยวกับวิธีการถ่ายภาพและคอนเทนต์ที่ผู้ใช้ชื่นชอบที่สุด

*Personalized Image Aesthetics Assessment with Rich Attributes*

OPPO ยังได้เลือกที่จะสร้างชุดข้อมูลการประเมินโมเดล PIAA ให้เป็นโอเพ่นซอร์สสำหรับนักพัฒนา ซึ่งมีสถาบันวิจัยและมหาวิทยาลัยหลายแห่งสนใจใช้ข้อมูลดังกล่าวเพื่อใช้ในการประเมินคุณค่าความงาม AI ในแบบของตัวเอง

นอกจากนี้ OPPO ยังนำเสนอวิธีการสร้าง Multi-view 3D semantic plane ที่สามารถวิเคราะห์พื้นผิวสภาพแวดล้อม 3 มิติได้อย่างแม่นยำ โดยเทคโนโลยีนี้สามารถจำแนกลักษณะทางความหมายของพื้นผิวต่างๆ เช่น พื้นดิน เดสก์ท็อป และผนังได้ในระดับความแม่นยำที่สูงกว่าการสร้างสถาปัตยกรรมแบบมุมมองเดียวที่เป็นวิธีหลักในปัจจุบัน โดย INS-Conv (INcremental Sparse Convolution) ที่พัฒนาขึ้นโดยความร่วมมือกับมหาวิทยาลัย Tsinghua ประสบความสำเร็จในการแบ่งส่วน 3D semantic และ Instance ได้รวดเร็วและแม่นยำยิ่งขึ้น ลดกำลังการประมวลผลที่จำเป็นต้องใช้ในการระบุสภาพแวดล้อมได้อย่างมีประสิทธิภาพ ซึ่งจะทำให้เทคโนโลยีดังกล่าวสามารถนำมาใช้ในแอปพลิเคชันต่างๆ เช่น การขับขี่อัตโนมัติและ VR ได้ง่ายขึ้น

OPPO สร้าง AI ‘น้ำหนักเบา‘ คว้าอันดับสองในการแข่งขัน NAS Challenge

นอกเหนือจากการนำเสนองานวิจัยล่าสุดในด้าน Computer vision และเทคโนโลยีการหารูปแบบแล้ว ภายในงาน CVPR 2022 ยังมีการแข่งขันทางเทคนิคอีกหลายอย่าง โดย OPPO ได้อันดับที่ 3 รวมรางวัลการแข่งขันกว่า 8 รางวัล จากการแข่งขัน Neural Architecture Search (NAS) , SoccerNet, SoccerNet Replay Grounding, ActivityNet temporal localization, the 4^th Large-scale Video Object Segmentation, the ACDC Challenge 2022 on semantic segmentation in adverse visual conditions และ WAD Argoverse2 Motion Forecasting

จากการถ่ายภาพด้วยมือถือไปจนถึงการขับขี่อัตโนมัติ โมเดลการเรียนรู้เชิงลึกได้ถูกนำไปใช้ในกลุ่มอุตสาหกรรมที่มีขนาดใหญ่ขึ้นเรื่อยๆ อย่างไรก็ตาม การเรียนรู้เชิงลึกต้องใช้ข้อมูลขนาดใหญ่และกำลังในการคำนวณ รวมถึงใช้ต้นทุนเป็นจำนวนมาก สิ่งเหล่านี้ได้สร้างความท้าทายสำหรับการใช้งานเชิงพาณิชย์ โดยเทคนิค Neural architecture search (NAS) สามารถค้นหาและใช้สถาปัตยกรรมโครงข่ายประสาทเทียมที่เหมาะสมที่สุดได้โดยอัตโนมัติ ลดการพึ่งพาประสบการณ์ของมนุษย์และการนำเข้าข้อมูลอื่น ๆ เพื่อเปิดใช้งานการเรียนรู้ด้วยตัวเองของเครื่องแบบอัตโนมัติอย่างแท้จริง

ในการแข่งขัน NAS นักวิจัยของ OPPO ได้ฝึก Supernetwork จาก 45,000 โครงข่ายประสาทรองเพื่อต่อยอดค่าพารามิเตอร์ของ Supernetwork โดยการปรับ Model Parameter forgetting และ Unfair Gradient Descent Problem ให้เหมาะสม เพื่อมอบประสิทธิภาพของเครือข่ายย่อยและการจัดอันดับประสิทธิภาพให้มีความสอดคล้องกัน คว้ารางวัลอันดับ 2 จากกลุ่มผู้เข้าแข่งขันทั้งหมด โดยการใช้เทคนิค NAS นั้น นักวิจัยจะต้องฝึก Supernetwork ขนาดใหญ่และสร้างตัวทำนายเพื่อให้ เครือข่ายย่อยเรียนรู้โดยการต่อยอดค่าพารามิเตอร์ของ Supernetwork เทคนิคนี้เป็นแนวทางที่มีประสิทธิภาพและใช้ต้นทุนต่ำในการได้รับโมเดลการเรียนรู้เชิงลึกซึ่งมีประสิทธิภาพกว่าโครงสร้างเครือข่าย โดยเทคโนโลยีนี้สามารถนำไปใช้กับอัลกอริธึมปัญญาประดิษฐ์ส่วนใหญ่ในปัจจุบันและยังช่วยให้เทคโนโลยี AI ที่ปกติต้องการพลังการประมวลผลจำนวนมากสามารถใช้งานในอุปกรณ์มือถือได้ ด้วยการปรับการค้นหาสถาปัตยกรรมประสาทให้เหมาะสมเพื่อค้นหาโครงข่ายที่สามารถทำงานได้ดีภายใต้เงื่อนไขเฉพาะ นำเทคโนโลยี AI อันล้ำสมัยมาสู่อุปกรณ์พกพาในอนาคตอันใกล้ได้

นอกเหนือจากความสำเร็จในการแข่งขัน NAS แล้ว OPPO ยังคว้ารางวัลชนะเลิศในการแข่งขัน SoccerNet Replay Grounding และรางวัลรองชนะเลิศอันดับที่สองในการแข่งขัน SoccerNet Action Spotting หลังจากที่เคยคว้าชัยชนะในทั้งการแข่งขันทั้งสองประเภทจากงาน CVPR ปีที่แล้ว

ในระหว่างงาน CPVR 2022 OPPO ยังได้เข้าร่วมการนำเสนองานสัมมนาและเข้าร่วมเวิร์กช็อประดับสูงอีก 3 งาน โดยในงานสัมมนา SLAM นักวิจัยจาก OPPO Deng Fan ได้ร่วมแชร์ vSLAM แบบเรียลไทม์ว่าจะสามารถทำงานบนสมาร์ตโฟนและอุปกรณ์ AR/VR ได้อย่างไร และ Li Yikang นักวิจัยของ OPPO ยังได้กล่าวสุนทรพจน์ในงานสัมมนาปัญญาประดิษฐ์ในอุปกรณ์มือถือ และนำเสนอวิธีการของ OPPO สำหรับ Cross-modal Hashing ระหว่างวิดีโอและข้อความ วิธีนี้ใช้ชื่อว่า CLIP4Hashing ซึ่งเป็นแนวทางสำคัญในการดำเนินการค้นหา Cross-modal บนอุปกรณ์มือถือ และในงานเวิร์กช็อป AICITY Li Wei ยังได้เสนอระบบการปรับการเคลื่อนไหวจากหลายมุมมองเพื่อระบุพฤติกรรมที่ผิดปกติของผู้ขับขี่ในขณะขับรถ

OPPO นำประโยชน์จาก AI สู่ผู้คนจำนวนมากได้เร็วขึ้น

เป็นปีที่สามที่ OPPO ได้เข้าร่วมงาน CVPR โดยในช่วงสามปีที่ผ่านมาการวิจัย AI ได้มีการเปลี่ยนแปลงอย่างมาเนื่องจากการพัฒนาแอปพลิเคชันเฉพาะอย่างการจดจำใบหน้าสู่เทคโนโลยีพื้นฐานที่ให้ผลกว้างขึ้น

ความสำเร็จที่เพิ่มขึ้นของ OPPO ในงาน CVPR ในช่วงสามปีมานี้เป็นผลมาจากการลงทุนอย่างต่อเนื่องในด้านเทคโนโลยี AI โดย OPPO เริ่มลงทุนในการพัฒนา AI เป็นครั้งแรกในปี 2015 ด้วยการก่อตั้งทีมวิจัยและพัฒนาที่ทุ่มเทให้กับเรื่องภาษาและความหมาย Computer vision และในด้านอื่นๆ โดยในช่วงต้นปี 2020 ได้มีการก่อตั้ง Institute of Intelligent Perception and Interaction ภายใต้ OPPO Research Institute เพื่อเพิ่มการสำรวจเทคโนโลยี AI ล้ำสมัยของ OPPO ให้ลึกซึ้งยิ่งขึ้น ปัจจุบันนี้ OPPO มีการจดสิทธิบัตรด้าน AI Computer vision เทคโนโลยีเสียงพูด การประมวลผลภาษาธรรมชาติ การเรียนรู้ของเครื่อง และด้านอื่นๆ มากกว่า 2,650 รายการทั่วโลก

จาก Brand Proposition อย่าง ‘Inspiration Ahead’ OPPO ยังทำงานร่วมกับพันธมิตรทั่วทั้งอุตสาหกรรมเพื่อนำเทคโนโลยี AI จากห้องปฏิบัติการมาสู่การใช้งานในชีวิตประจำวัน ในเดือนธันวาคม ปี 2021 OPPO ได้เปิดตัว MariSilicon X Imaging NPU ตัวแรกที่ OPPO พัฒนาขึ้นเอง มอบประสิทธิภาพการประมวลผลที่ทรงพลังและประสิทธิภาพพลังงานสูง เพื่อให้สามารถรันอัลกอริธึม AI ที่ซับซ้อนด้วยความเร็วที่ไม่เคยมีมาก่อนบนอุปกรณ์มือถือ มอบคุณภาพวิดีโอที่เหนือกว่าผ่านวิดีโอกลางคืนคุณภาพสูงและอัลกอริธึมการประมวลผลภาพอื่นๆ นอกจากนี้เทคโนโลยี AI ของ OPPO ยังถูกนำมาใช้ในการพัฒนาผลิตภัณฑ์และฟีเจอร์ต่างๆ เช่น Real-time spatial AR generator CybeReal, OPPO Air Glass, Omoji และอีกมากมาย ด้วยเทคโนโลยีเหล่านี้ OPPO มุ่งมั่นที่จะสร้างโลกดิจิทัลที่เหมือนจริงมากขึ้น ซึ่งผสานรวมโลกเสมือนจริงและความเป็นจริงเข้าด้วยกัน มอบประสบการณ์การใช้งานในรูปแบบใหม่แก่ผู้ใช้