Ranh giới từ trong tiếng Hoa và tiếng Việt không được xác định bởi khoảng trắng. Do đó, phân đoạn từ Hoa-Việt luôn được thực hiện đầu tiên trong bài toán xử lý ngôn ngữ Hoa-Việt nói chung và trong dịch máy thống kê Hoa-Việt (Statistical Machine Translation: SMT) nói riêng. Việc phân đoạn từ làm tăng chất lượng dịch chung cuộc nhưng lại xuất hiện nhiều từ chưa biết (Unknown Word: UKW) ở bản dịch đích. Dạng từ chưa biết phổ biến trong hệ thống dịch Hoa-Việt đó là tên riêng (named entity:NE). Trong bài báo này, chúng tôi sẽ trình bày một phương pháp dựa vào luật nhằm dịch lại các UKW dạng tên riêng biểu thức số. Áp dụng phương pháp này vào trong hệ dịch thống kê Hoa-Việt, kết quả thử nghiệm cho thấy phương pháp của chúng tôi đã cải tiến đáng kể hiệu suất dịch máy thống kê Hoa-Việt.
Phuoc TranDien DinhTan Loc LeThao Nguyen
Huu-Anh TranHeyan HuangPhuoc TranShumin ShiHuu Nguyen