Trích xuất câu

Trích xuất câu (hay còn gọi là rút trích câu, tiếng Anh: sentence extraction) là một kỹ thuật được sử dụng cho việc tóm tắt tự động văn bản.[1] Theo cách tiếp cận thô sơ này, người ta áp dụng một thống kê heuristic (dựa trên kinh nghiệm) để nhận dạng các câu quan trọng nhất (các câu có ý nghĩa) trong một văn bản. Trích xuất câu là một phương pháp tiếp cận có chi phí rẻ khi so sánh với các phương pháp tiếp cận đòi hỏi kiến thức sâu hơn, cần các cơ sở kiến thức bổ sung như bản thể học hay ngôn ngữ học. Tóm lại, "trích xuất câu" hoạt động như một bộ lọc, chỉ cho phép các câu quan trọng đi qua.

Tham khảo

[sửa | sửa mã nguồn]
  1. ^ Goldstein, J., Mittal, V. O., Carbonell, J. G., & Kantrowitz, M. (2000). Multi-document summarization by sentence extraction. In NAACL-ANLP 2000 Workshop: Automatic Summarization.