西藏大學現代教育技術中心承擔的2012年西藏自治區重點科研項目——《基于短語的藏漢統計機器翻譯關鍵技術研究》,在藏語自動分詞與詞性標注、藏語語料庫、基于短語的藏漢統計機器翻譯技術等領域進行了深入研究,取得標志性研究成果——《陽光藏漢機器翻譯系統》,經實際應用效果良好。
《陽光藏語自動分詞系統》的分詞速度達到每秒1000個藏文單詞,在藏文現代公文領域的分詞準確率達到95%。為了輔助藏語自動分詞與詞性標注,修訂完善了《信息處理用藏語詞類標記規范》(編號:MZ115-018),使之更符合藏文自動分詞與精確標注和藏漢機器翻譯的實際需求;研發了用于輔助藏語自動分詞與標注的藏文電子詞典,包括10萬詞條的“機讀詞典”和“人讀詞典”。藏語語料庫建設了約300MB字節的藏語通用語料庫,包括約10MB藏語訓練語料、30多萬句對藏漢雙語精確對照語料等。