Facebook    RSSRss 訂閱    列印此頁 列印
二零一七年六月十一日

中大工程學院研發全港首個錯字和粵語檢測系統



香港中文大學(中大)系統工程與工程管理學系黃錦輝教授及其研究團隊最近開發了全港首個加入粵語元素的「錯字和粵語檢測系統」,是唯一專為香港學生量身打造的自動中文檢測系統。系統已在語文教師和中小學生間進行測試,效果令人滿意。

隨著社交網絡及即時通訊軟件興起,年青人慣以各式各樣的口語、縮寫、諧音,甚至中英及符號夾雜的文字與人溝通,使部分學生的書面語表達能力大受影響。中大團隊透過大量粵語數據挖掘、深入的計算和分類技術,研發「錯字和粵語檢測系統」,冀有助改善中小學生的中文書寫水平。

中大團隊將此系統應用於香港中小學生的中文作文,一篇幾百到一千字的文章,只需數秒時間便可完成分析。大多數錯別字會被標示出來,誤報率也極低。此外,系統能為每一個錯別字和粵語口語提供修正的建議,更可為部分粵語用法提供對應的中文解釋。該系統將逐步開放予全港中小學校使用,預料全面推廣至教育界後,可為中文科教師和學生提供一個簡單易用的輔助教學工具,增添學生的學習樂趣,並提升語文能力。此外,研究團隊計劃在本年內將系統轉化為辦公室軟件(如MS Office)的插件,開放予公眾使用。該系統近日於2017中國創新創業成果交易會展出。

系統利用智慧演算法更準確地識別錯字

該系統主要分為錯字檢測和粵語檢測兩部分。使用者輸入中文句子或篇章後,系統會首先運用「錯字檢測模組」為句子進行分詞(Segmentation)及詞性標註(Part-of-speech tagging),以檢測句子中不能與前文後理組成通順句子的字,這是系統認為最可能出現錯誤的部分。雖然其他研究機構亦有利用此邏輯進行類似的研究,但基於現有演算法的限制,它們很容易把常用單字(例如「的」、「地」、「是」等)誤判為錯字。中大團隊所開發的系統以大數據(Big Data)及深度學習(Deep Learning)為基礎,並配合獨特的智慧演算法,能有效地識別句子中的不恰當的口語與倒裝用法。團隊亦建構了一個包含60,000多個中文字的混淆集,通過評分的機制,從而提議最合適的替換字詞。

通過粵語檢測冀改善學生以口語入文的習慣

系統獨有的「粵語檢測模組」是用以檢測字句中有否粵語的口語用法,例如將「喜歡」寫作「鍾意」。此模組建基於一個龐大的粵語詞語字典庫,內含約12,000個詞語,現時仍在不斷擴充及優化中。模組還配置一個構造規則庫系統,經參考多份文獻後,以粵語語言規則和詞性標註(Part-of-speech tagging),構造了多條規則,適用於基本的粵語句子結構。系統還可以檢測量詞的用法是否正確,例如「一條魚/一尾魚」、有否輸入了簡體字,以及倒裝用法,如「緊要/要緊」等。

黃教授的科研團隊精於自然語言處理、網路資訊挖掘、謠言檢測等領域,他表示:「選擇粵語為檢測主體,原因是粵語是個精密的語文系統,當中包括獨特的語法規則、大量的口語詞彙,這亦增加了檢測工作的挑戰和難度,項目有望能推進中國語文之學習。」

中大系統工程與工程管理學系研究員馮沛璋博士表示:「語言與文字會隨著時間及地域而不斷發展和演變,因而難以制定一套永久通用並放諸四海皆準的用法,所以我們所設計的系統加入了人工智能和深度學習等元素,能根據使用者選詞造句的要求及語文教師的設定等,不斷自我改進和更新相關的詞語和語法規則,進一步完善其中文檢測功能。」

中大在今年的「路透社:亞太區最具創新力大學」(Reuters: Asia Pacific region’s most innovative universities)排名中,再次在香港區位列榜首,整體排名第27位。

中大一直致力推動創新科技,目前在全球各地有超過750個獲授權的專利項目,大部分已經與業界達成合作協議,把創新科技引入市場。單在2016-17年度,中大已申請了183個專利,以及有88項專利獲審批授權,涉及醫療科技、生物科技、信息科技、電訊及材料科學等領域。中大積極推動校內的創新創業氣氛,於2014年成立前期創業育成中心(Pre-incubation Centre,簡稱Pi Centre),並透過知識轉移,協助校內師生將其研究成果應用於社會,至今已建立共32家初創企業,業務範疇涵蓋嶄新診斷平台以至視覺引導機器人。

中大工程學院副院長兼系統工程與工程管理學系黃錦輝教授(右)及系統工程與工程管理學系研究員馮沛璋博士。
中大工程學院副院長兼系統工程與工程管理學系黃錦輝教授(右)及系統工程與工程管理學系研究員馮沛璋博士。

錯字和粵語檢測系統
錯字和粵語檢測系統