VALL-E

VALL-E ของ Microsoft สามารถเลียนเสียงใดก็ได้ด้วยตัวอย่างเพียงสามวินาที

VALL-E

ล่าสุด Microsoft ได้ทำการเปิดตัว VALL-E ปัญญาประดิษฐ์ที่สามารถจำลองเสียงใดๆ ก็ได้ รวมถึงอารมณ์และน้ำเสียงของผู้พูด

ในปัจจุบันปัญญาประดิษฐ์ (AI) ก้าวหน้าอย่างรวดเร็วและมีศักยภาพที่จะส่งผลกระทบอย่างมากต่ออุตสาหกรรมและแง่มุมต่างๆ ในชีวิตประจำวัน
ปัจจุบัน AI มีความซับซ้อนมากขึ้น ด้วยการพัฒนาเทคนิคใหม่ๆ ที่ทรงพลังทำให้ AI สามารถบรรลุประสิทธิภาพที่เหมือนมนุษย์หรือแม้แต่เหนือมนุษย์ในงานต่างๆ เช่น การรู้จำภาพและคำพูด การประมวลผลภาษาธรรมชาติ และการเล่นเกม

โดย Microsoft เพิ่งเปิดตัวเครื่องมือ AI ที่เรียกว่า VALL-E ซึ่งสามารถสร้างการจำลองเสียงของผู้คนได้อย่างน่าเชื่อถือ และเครื่องมือนี้ใช้การจดจำเสียงต้นฉบับเพียง 3 วินาทีเพื่อกระตุ้นให้สร้างเนื้อหา นอกจากนี้ VALL-E ยังสามารถจำลองอารมณ์ของผู้พูดได้ ทำให้แตกต่างจาก AI หลายรุ่นที่ผ่านมา

Microsoft เพิ่งเปิดตัวเครื่องมือปัญญาประดิษฐ์ที่เรียกว่า VALL-E ที่สามารถจำลองเสียงของผู้คน (ผ่าน AITopics) โดยเครื่องมือนี้ได้รับการฝึกอบรมด้วยข้อมูลเสียงพูดภาษาอังกฤษกว่า 60,000 ชั่วโมง และใช้คลิปเสียงเฉพาะความยาว 3 วินาทีเพื่อสร้างเนื้อหา VALL-E สามารถจำลองอารมณ์และน้ำเสียงของผู้พูด ซึ่งแตกต่างจากเครื่องมือ AI อื่นๆ เป็นอย่างมาก

งานวิจัยจาก Cornell University ได้ใช้ VALL-E เพื่อสังเคราะห์เสียงต่างๆ และสามารถเข้าไปทดลองฟังตัวอย่างได้ที่ VALL-E (valle-demo.github.io)

ตัวอย่างเสียงที่แชร์ออกมาโดย Microsoft นั้นมีคุณภาพเป็นอย่างมาก แต่บางรายการก็ฟังออกว่าสร้างโดย AI อย่างชัดเจนและฟังดูคล้ายกับหุ่นยนต์ แน่นอนว่า AI มีแนวโน้มที่จะดีขึ้นเมื่อเวลาผ่านไป ดังนั้นในอนาคต หากใช้เทคโนโลยีนี้กับชุดข้อมูลฝึกฝนที่ใหญ่ขึ้น ก็จะสามารถสร้างผลลัพธ์ที่เหมือนจริงมากขึ้นอย่างไม่ต้องสงสัย

ในขณะนี้ VALL-E บุคคลทั่วไปยังไม่สามารถใช้งานได้ ซึ่งอาจเป็นสิ่งที่ดีแล้วเนื่องจากการจำลองเสียงของผู้คนโดย AI อาจถูกใช้ในลักษณะที่เป็นอันตรายโดยผู้ที่มีเจตนาร้าย

ที่มา : Microsoft’s VALL-E can imitate any voice with just a three-second sample | Windows Central

Posted in Technology News.