Giải pháp tăng hiệu suất cho phân tích cú pháp tiếng Việt thành phần bằng phương pháp th?t?giữa
- Th?tư - 27/02/2019 22:19
- In ra
- Đóng cửa s?này
C?hai chiến lược phân tích cú pháp thành phần (consituent parsing) t?dưới lên (bottom-up) và t?trên xuống (top-down) thường được s?dụng cho các b?phân tích cú pháp dựa trên biến đổi với mạng nơ ron. Các chiến lược này khác nhau v?th?t?sinh ra các thành t?cú pháp trong cây dẫn xuất hoặc là th?t?sau (post-order) với phương pháp t?dưới lên; hoặc là th?t?trước (pre-order) với phương pháp t?trên xuống. Phương pháp t?dưới lên có thuận lợi là luôn được b?sung các thông tin khi xây dựng các thành t?mới t?cây cú pháp đã được xây dựng một phần, nhưng lại thiếu hướng dẫn bao quát trong quá trình phân tích cú pháp; phương pháp t?trên xuống có thuận lợi là có các thông tin rộng hơn đ?ra các quyết định cục b? nhưng phải dựa vào encoder phức tạp cho câu đầu vào đ?d?đoán cấu trúc phân cấp thành phần. Đ?giảm thiểu các điểm yếu của c?hai phương pháp trên, chúng tôi đ?xuất một h?thống phân tích cú pháp mới dựa trên th?t?giữa (in-order) đi ngang qua cây cú pháp, thiết k?một tập hợp của các hành động chuyển tiếp đ?tìm s?thỏa hiệp giữa thông tin thành phần t?dưới lên và thông tin bao quát t?trên xuống. Dựa trên stack-LSTM, h?thống phân tích cú pháp mới của chúng tôi đạt được 78,26%8 F1 trên b?ng?liệu Việt Treebank (VTB). Đây là kết qu?tốt nhất trên b?ng?liệu này t?trước đến nay.
600px Abstract syntax tree for Euclidean algorithm svg