Cải tiến phân tích cú pháp tiếng Việt với kỹ thuật attention
21:22 04/07/2019
Trong bài báo này chúng tôi sử dụng cơ chế selft-attention để thay thế một bộ Encoder LSTM nhằm cải thiện hiệu suất của bộ phân tích cú pháp thành phần áp dụng cho tiếng Việt. Việc sử dụng cơ chế attention làm minh bạch cách thức thông tin được lan truyền giữa các vị trí khác nhau trong câu đầu vào. Chúng tôi phát hiện việc tách thông tin vị trí và thông tin nội dung trong bộ Encoder làm cải thiện cho độ chính xác của bộ phân tích cú pháp. Ngoài ra, chúng tôi đánh giá cách tiếp cận khác nhau để biểu diễn từ vựng. Bộ phân tích cú pháp của chúng tôi đạt được kết quả tiên tiến mới cho các mô hình huấn luyện trong Viet Treebank: 81,15 F1.
Giải pháp tăng hiệu suất cho phân tích cú pháp tiếng Việt thành phần bằng phương pháp thứ tự giữa
22:19 27/02/2019
Cả hai chiến lược phân tích cú pháp thành phần (consituent parsing) từ dưới lên (bottom-up) và từ trên xuống (top-down) thường được sử dụng cho các bộ phân tích cú pháp dựa trên biến đổi với mạng nơ ron. Các chiến lược này khác nhau về thứ tự sinh ra các thành tố cú pháp trong cây dẫn xuất hoặc là thứ tự sau (post-order) với phương pháp từ dưới lên; hoặc là thứ tự trước (pre-order) với phương pháp từ trên xuống. Phương pháp từ dưới lên có thuận lợi là luôn được bổ sung các thông tin khi xây dựng các thành tố mới từ cây cú pháp đã được xây dựng một phần, nhưng lại thiếu hướng dẫn bao quát trong quá trình phân tích cú pháp; phương pháp từ trên xuống có thuận lợi là có các thông tin rộng hơn để ra các quyết định cục bộ, nhưng phải dựa vào encoder phức tạp cho câu đầu vào để dự đoán cấu trúc phân cấp thành phần. Để giảm thiểu các điểm yếu của cả hai phương pháp trên, chúng tôi đề xuất một hệ thống phân tích cú pháp mới dựa trên thứ tự giữa (in-order) đi ngang qua cây cú pháp, thiết kế một tập hợp của các hành động chuyển tiếp để tìm sự thỏa hiệp giữa thông tin thành phần từ dưới lên và thông tin bao quát từ trên xuống. Dựa trên stack-LSTM, hệ thống phân tích cú pháp mới của chúng tôi đạt được 78,26%8 F1 trên bộ ngữ liệu Việt Treebank (VTB). Đây là kết quả tốt nhất trên bộ ngữ liệu này từ trước đến nay.
Một số cải tiến trong việc áp dụng giải thuật CYT cho phân tích cú pháp tiếng Việt
22:09 18/06/2014
Bài toán phân tích cú pháp là một trong những bài toán cơ bản trong Xử lý ngôn ngữ tự nhiên. Các giải thuật thường được áp dụng cho phân tích cú pháp là CYK và Earley. Với tiếng Việt đã có nhiều nghiên cứu để cái thiện chất lượng cũng như hiệu suất cho phân tích cú pháp. Tiếp cận thống kê là một hướng đi cho phân tích cú pháp và nó phải đối mặt với việc xử lý một lượng lớn dữ liệu làm giảm tốc độ xử lý. Bài báo này đưa ra một số cái tiến nhằm tăng tốc tộ xử lý khi áp dụng giải thuật CYK cho phân tích cú pháp tiếng Việt theo tiếp cận thống kê.