อาจารย์วิศวฯ จุฬาฯ ออกแบบ “Gowajee” (โก วา จี) นวัตกรรม AI ถอดความภาษาไทย แปลงเสียงเป็นข้อความและข้อความเป็นเสียง แม่นยำเป็นธรรมชาติราวเจ้าของภาษา เก็บข้อมูลปลอดภัย เริ่มใช้งานแล้วกับระบบคอลเซ็นเตอร์และการคัดกรองผู้ป่วยซึมเศร้า

.

ทุกวันนี้เราเริ่มคุ้นชินกับการใช้เสียงออกคำสั่งหรือบอกให้โปรแกรม AI (Artificial Intelligence หรือ ปัญญาประดิษฐ์) อย่าง Google หรือ Siri เพื่อค้นหาหรือทำงานตามที่เราต้องการ แทนการสัมผัสแป้นพิมพ์อักษร แต่ AI voice เหล่านั้น ดูเหมือนจะไม่ค่อยเข้าใจโทนเสียงภาษาไทยที่เราพูดนัก เพราะถูกพัฒนามาจากบริษัทต่างชาติ ซึ่งเน้นการใช้งานกับหลายภาษาโดยเฉพาะภาษาสากล เช่น ภาษาอังกฤษ หลายครั้งก็แปลงเสียงเป็นข้อความที่ไม่ตรง ทำให้เราต้องปรับการออกเสียงภาษาไทยเพื่อให้เข้ากับ AI

.

จากปัญหาดังกล่าว อาจารย์ ดร.เอกพล ช่วงสุวนิช อาจารย์ภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย และทีมได้พัฒนา AI สัญชาติไทยแท้ “Gowajee” (อ่านว่า โก-วาจี) ที่เข้าใจภาษาไทยโดยเฉพาะ เพื่อตอบโจทย์การถอดความภาษาไทยที่แม่นยำและเป็นธรรมชาติมากขึ้นพิสูจน์ผ่านการใช้งานจริงแล้วว่ามีข้อผิดพลาดทางภาษาเพียง 9% เท่านั้นเมื่อเทียบกับ AI ถอดความอื่นๆ ที่มีความผิดพลาดราว 15%

.

ดร.เอกพล และทีมงานของคณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ได้เริ่มเก็บฐานข้อมูลเสียงภาษาไทยมาตั้งแต่ปี 2560 จนปัจจุบัน โดยเก็บข้อมูลเสียงภาษาไทยหลายรูปแบบและวิธีการมีทั้งเปิดเว็บไซต์ให้คนเข้ามาอ่านข้อความเพื่อเก็บฐานข้อมูลเสียง จ้างคนมานั่งสนทนากัน หรือจ้างนักแสดงมาพูดสื่อสารอารมณ์ ทั้งหมดรวมแล้วกว่า 5,000 ชั่วโมง จนมั่นใจว่าเรามีข้อมูลมากเพียงพอในการถอดความภาษาไทยได้อย่างแม่นยำ โดยการค้นความหมายในเสียง Gowajee ยังสามารถช่วยคัดกรองผู้ป่วยซึมเศร้า เพราะจากการเก็บข้อมูลเสียงที่สื่ออารมณ์ต่างๆ

.

นอกจากนี้ ทีม Gowajee ได้เข้าไปมีสวนช่วยพัฒนาระบบของแอปพลิเคชัน DMIND ที่ทำหน้าที่ช่วยคัดกรองผู้ป่วยโรคซึมเศร้า โดยทีม Gowajee ของคณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ยังได้พัฒนาให้ Gowajee สามารถจำแนกอารมณ์จากเสียงพูด เพื่อนำไปวิเคราะห์คัดกรองกลุ่มเสี่ยงอีกด้วย บางครั้ง ผู้ป่วยจะพูดไปร้องไห้ไป ซึ่งทำให้ฟังยากขึ้น แต่ Gowajee ก็ทำงานได้ค่อนข้างดี สามารถจับคำสำคัญให้ได้เพื่อถอดความสำคัญออกมา ซึ่งเป็นอีกหนึ่งนวัตกรรมช่วยเหลือสังคมของ คณะวิศวกรรมศาสตร์ จุฬาฯ

.

ดร.เอกพล กล่าวเพิ่มเติมว่า Gowajee สามารถประยุกต์ใช้งานได้ 3 ลักษณะสำคัญ ได้แก่

.

1. Automated Speech Recognition (ASR) เป็นการทำงานในลักษณะของการถอดความ คือ เมื่อเราพูดอะไรลงไป โปรแกรมก็จะแปลงสิ่งที่เราพูดให้ออกมาเป็นข้อความ โดยมีจุดเด่นที่สามารถถอดความภาษาไทยปนอังกฤษได้เป็นอย่างดี ยกตัวอย่างการใช้งานในการเรียนรู้ เวลาเราฟังเลคเชอร์ หากเราบันทึกเสียงอาจารย์เอาไว้ โปรแกรมก็จะช่วยถอดความออกมาเป็นตัวหนังสือให้เราใช้ในการค้นหาส่วนที่ต้องการได้เลย ไม่ต้องคอยฟังทั้งหมด

.

2. Text-to-Speech (TTS) เป็นการทำงานในลักษณะของการแปลงข้อความให้เป็นเสียงพูด อย่างที่เราคุ้นเคยกับการใช้ Google หรือ Siri ในการช่วยอ่านข้อความ แต่ทว่า สำหรับองค์กรหรือบริษัทแล้ว การมีเสียงที่เป็นตัวแทนขององค์กรโดยเฉพาะ จะเป็นการสร้างอัตลักษณ์ขององค์กร ซึ่งทาง Gowajee มีกระบวนการสร้างเสียงจำเพาะที่มีงานวิจัยรองรับว่าเสียงที่ออกมาจะสมจริง

.

3. Automatic Speaker Verification (ASV) เป็นการยืนยันตัวตนผู้พูดด้วยเสียง ซึ่งสามารถนำมาใช้เพื่อยืนยันตัวตนในการติดต่อกับคอลเซ็นเตอร์ หรือนำมาใช้เพื่อบ่งบอกว่าใครพูดเมื่อใด

.

อีกจุดเด่นของ Gowajee ที่เหนือกว่า AI ถอดความอื่นๆ ก็คือ “ความปลอดภัยของข้อมูล” เพราะโดยปกติแล้ว เวลาเราใช้โปรแกรมถอดความของเจ้าอื่นๆ ข้อมูลจะถูกเก็บไว้บนคลาวด์ (Cloud) หรือทำการประมวลผลข้อมูลที่คอมพิวเตอร์ของผู้ให้บริการ แต่สำหรับ Gowajee ข้อมูลเหล่านี้จะถูกเก็บอยู่ในฐานข้อมูลของผู้ใช้เอง สำหรับธุรกิจที่ต้องการความปลอดภัยของข้อมูล เช่น ธุรกิจจำพวกธนาคารหรือประกันภัย จะสามารถสร้างความอุ่นใจให้กับผู้ใช้ได้มากขึ้น

ที่มา : mgronline https://mgronline.com/science/detail/9650000109642